Monthly Archives: September 2013

Skip-gram

一路翻資料翻到 Skip-gram:「A CloserLook at Skip-gram Modelling (PDF)」,不確定是 2005 年 (出自「CiteSeerX — Citation Query A Closer look at Skip-gram modeling」) 還是 2006 年 (出自「CiteSeerX — A Closer Look at Skip-gram Modelling」) 的論文,不過 Google Scholar 是標 2006 年... Skip-gram 實際上的定義很簡單,就是允許跳幾個字的意思... 依照原論文裡的定義,這個句子: Insurgents … Continue reading

Posted in Computer, Murmuring | Tagged , , | 1 Comment

WebFinger 協定

Finger 是個 1977 年發展的協定 (RFC 742 - NAME/FINGER,以及 1991 年的 RFC 1288 - The Finger User Information Protocol),現在幾乎廢棄不用了... 2013 年,基於 OpenID 協定的 WebFinger 出現了!而且是進入 Standards Track 狀態了:「WebFinger is now RFC 7033!」。 用了 OpenID 基礎以及 JSON 格式... 看起來 blog 可以先支援?至於其他的東西就還要再想想...

Posted in Computer, Murmuring, Network, WWW | Tagged , , , , , | Leave a comment

對於學術研究用的 Big Data...

面試的時候曾經有面試者說手上沒有 big data 可以研究,所以對 big data 的理解僅限於理論,不過我對這種講法就... 網路上有很多資料是很有用的: 維基百科的資料庫:「Wikipedia:Database download」。 niconico 動畫提供的資料:「日大型影片共享網站開放各項數據供學術研究用途下載」。 剛剛看到有人整理 Google 放出了哪些資料:「Datasets released by Google」 AOL 當年的 search data leak (維基百科說明「AOL search data leak」),網路上找一下就可以找到載點。 能玩的東西明明就很多... 另外還可以掃各種公開資料。

Posted in Computer, Murmuring, Network, Science, WWW | Tagged , , , , , , , , , , | 1 Comment

用 pfSense 架設 Firewall (以及 NAT)

pfSense 是一套很不錯的 firewall 以及 NAT 服務,上面還可以跑一切服務 (像是 OpenVPN 或是 Squid),不過後來都是用商用的硬體方案來處理... 看到「Build your own pro-grade firewall」這篇突然想到要查 pfSense 是否可以 High Availability,如果做的夠好的話,其實可以用兩台機器來跑,成本相對低很多。 結果查到這篇官方文件「Configuring pfSense Hardware Redundancy (CARP)」,裡面有幾個關鍵字,像是 XMLRPC Sync 似乎暗示了設定也可以同步? 官方文件裡的配置圖。 該測試看看了,兩台 server 也才十萬,但兩台能跑到 500Mbps+ 的硬體防火牆的價錢就貴多了... (不過比較省電?)

Posted in Computer, Murmuring, Network, Security, Software, VPN | Tagged , , , , , , , , | 1 Comment

Percona 將自家產品程式碼也放一份到 GitHub 上...

前幾天提到 Percona 把 Oracle MySQL tree 放一份到 GitHub 上:「Percona 提供的 MySQL Git Mirror...」。 現在 Percona 自家產品的程式碼也放上去了:「Experimental GIT Mirrors of Percona XtraBackup, Percona Server plus Oracle MySQL trees」。 包含了: Percona Server Percona XtraBackup Percona Playback 目前開發都還是在 Launchpad 上,這邊只是 mirror...

Posted in Computer, Database, Murmuring, MySQL, Network, Software | Tagged , , , | Leave a comment

用 StartSSL 申請免費 SSL 憑證的說明...

鑑於 NSA 監聽的關係 (國內最近也很流行這套?),最近國外介紹 StartSSL 的文章又熱門起來了:「Switch to HTTPS Now, For Free」。 不過因為 StartSSL 多了憑證驗證的問題,使得一般人申請變得相當麻煩,所以就有很多文章介紹 :o 這邊的 Generate Private Key 並不是你打算申請的 HTTPS 要用的,而是個人憑證... 這次這篇介紹文用了大量的圖片截圖,並且把產生 private key 以及 csr 的指令都列出來,後面還教你怎麼設定 nginx,相較於其他文件,應該是很清楚了...

Posted in Computer, Murmuring, Network, Security, WWW | Tagged , , , , , | 1 Comment

AMD 的 AMD64 (以及後來 Intel 的 EM64T)...

在 Slashdot 上看到一段歷史:「The Chip That Changed the World: AMD's 64-bit FX-51, Ten Years Later」,以及引用的報導「The chip that changed the world: AMD’s 64-bit FX-51, ten years later」。 當年 Intel 決定以 Itanium 架構為主,不相容於原來的 x86 架構,而 AMD 則是針對 x86 相容開發出 AMD64,而 AMD 的第一顆 AMD64 … Continue reading

Posted in Computer, Hardware, Murmuring | Tagged , , , , , , | 1 Comment

Wildcard EV Certificate...

Netcraft 這篇「Wildcard EV certificates supported by major browsers」提到幾個重點... 首先是 EV 規範內禁止使用 Wildcard certificate (出自「Guidelines ForThe IssuanceAnd Management Of ExtendedValidationCertificates」): Wildcard certificates are not allowed for EV Certificates. 然後還是有人發 *.cclearning.accenture.com,而且主流瀏覽器會正常照 EV 模式顯示出來:(這邊拿 Google Chrome 的範例,原文有所有截圖) 只有 Safari 的手機版本當作普通 certificate 處理的:(下面兩張圖,上圖是桌機版,下圖是手機版) 被抓出來鞭後應該會修正... … Continue reading

Posted in Browser, Computer, Murmuring, Network, Safari, Security, Software, WWW | Tagged , , , , | 2 Comments

Percona 提供的 MySQL Git Mirror...

MySQL 的開發者是用 Bazaar (bzr) 為版本控制系統,放在 Launchpad 上,不過 open source 領域目前總是有人會想要轉到 Git 上... XD Percona 提供 Oracle MySQL 的 Git mirror,目前是實驗性質:「Experimental Git mirror of Oracle MySQL trees」。 如果只是要拉 MySQL source tree 下來看 (而且手上只有 Git,沒有裝 Bazaar 的人),可以透過這份拉出來... 還不確定更新的頻率 :o

Posted in Computer, Murmuring, Network, Programming | Tagged , , , , , | 1 Comment

電子發票的數據...

iThome 上看到「財政部財政資訊中心將釋出40億張電子發票的消費分析」,裡面提到: 為期3年的電子發票試辦期,終於要在2013年底告一段落,並於2014年正式上路。光是2012年,臺灣就開出了24.6億張的電子發票,財政部財政資訊中心(以下簡稱資訊中心)電子發票科科長劉醇錕更表示,以成長速度推估,2013年將開出40億張電子發票,占發票總開立數的一半。劉醇錕表示,這些電子發票將在未來以政府公開資料方式釋出,供企業、研究機構等使用。 資料的處理: 但在公開電子發票資訊之前,劉醇錕表示,資訊中心會進行「去識別化」,最終公開的資料,會以一個街區、或一個小行政區為單位,來模糊原始資料夾帶的資訊,而非以哪家店、哪個使用者為單位直接釋出原始資料(Raw Data),藉此來避免讓有心人士交叉分析出企業、消費者的個人資訊。 我馬上想到 AOL 當初 2006 年也是自信滿滿的匿名化後放出: AOL 因為放搜尋紀錄被告了 搜尋引擎的七種使用者 (blog.ijliao.info) 這讓人超期待的...

Posted in Computer, Murmuring | Tagged , , , , , | Leave a comment