對於學術研究用的 Big Data...

面試的時候曾經有面試者說手上沒有 big data 可以研究,所以對 big data 的理解僅限於理論,不過我對這種講法就...

網路上有很多資料是很有用的:

能玩的東西明明就很多... 另外還可以掃各種公開資料。

電子發票的數據...

iThome 上看到「財政部財政資訊中心將釋出40億張電子發票的消費分析」,裡面提到:

為期3年的電子發票試辦期,終於要在2013年底告一段落,並於2014年正式上路。光是2012年,臺灣就開出了24.6億張的電子發票,財政部財政資訊中心(以下簡稱資訊中心)電子發票科科長劉醇錕更表示,以成長速度推估,2013年將開出40億張電子發票,占發票總開立數的一半。劉醇錕表示,這些電子發票將在未來以政府公開資料方式釋出,供企業、研究機構等使用。

資料的處理:

但在公開電子發票資訊之前,劉醇錕表示,資訊中心會進行「去識別化」,最終公開的資料,會以一個街區、或一個小行政區為單位,來模糊原始資料夾帶的資訊,而非以哪家店、哪個使用者為單位直接釋出原始資料(Raw Data),藉此來避免讓有心人士交叉分析出企業、消費者的個人資訊。

我馬上想到 AOL 當初 2006 年也是自信滿滿的匿名化後放出:

這讓人超期待的...

找 Google Reader 替代品...

Google Reader 剩下最後兩天,還是要面對現實...

看了一下 Google Reader,裡面有 1100 個 item,剛好趁著這次 shutdown,又到了該砍掉重練的階段了...

免費的服務中,Feedly 會把非 focus 的文章縮起來,而 Digg Reader 找不到 Unread 的地方。go read 找不到地方下 Tag 分類,而 AOL Reader 則是登不進去。

付費的服務中,Feedbin (USD$2/month 或 USD$20/year) 的 preload 做的不好,所以人讀文章的速度沒有 Google Reader 快,NewsBlur (USD$24/year) 則是把功能做的極為花俏,第一眼看下去還不知道要怎麼加 feed...

反正這陣子就四處逃竄吧... 這陣子應該會有很多新的服務跑出來 :o

Wikimedia 要幹蠢事了...

在「What are readers looking for? Wikipedia search data now available」這邊看到維基百科打算公開 search data,這不是前人幹過的蠢事嗎...

這讓我想起 2006 年「AOL search data leak」事件。AOL 希望對學術界有貢獻,於是把三個月份的 search data 匿名化後丟出來,結果被發現不管怎麼匿名化,search data 還是有辦法找出本人。AOL 也因此被告並且判決只要包含在內的每個人都可以拿到 USD$5000 的賠償。不過也因為 AOL 幹了蠢事,這也是少數被公開的 search real data。

看起來 Wikimedia 也要再來幹一次?