Tag Archives: aol

對於學術研究用的 Big Data...

面試的時候曾經有面試者說手上沒有 big data 可以研究,所以對 big data 的理解僅限於理論,不過我對這種講法就... 網路上有很多資料是很有用的: 維基百科的資料庫:「Wikipedia:Database download」。 niconico 動畫提供的資料:「日大型影片共享網站開放各項數據供學術研究用途下載」。 剛剛看到有人整理 Google 放出了哪些資料:「Datasets released by Google」 AOL 當年的 search data leak (維基百科說明「AOL search data leak」),網路上找一下就可以找到載點。 能玩的東西明明就很多... 另外還可以掃各種公開資料。

Posted in Computer, Murmuring, Network, Science, WWW | Tagged , , , , , , , , , , | 1 Comment

電子發票的數據...

iThome 上看到「財政部財政資訊中心將釋出40億張電子發票的消費分析」,裡面提到: 為期3年的電子發票試辦期,終於要在2013年底告一段落,並於2014年正式上路。光是2012年,臺灣就開出了24.6億張的電子發票,財政部財政資訊中心(以下簡稱資訊中心)電子發票科科長劉醇錕更表示,以成長速度推估,2013年將開出40億張電子發票,占發票總開立數的一半。劉醇錕表示,這些電子發票將在未來以政府公開資料方式釋出,供企業、研究機構等使用。 資料的處理: 但在公開電子發票資訊之前,劉醇錕表示,資訊中心會進行「去識別化」,最終公開的資料,會以一個街區、或一個小行政區為單位,來模糊原始資料夾帶的資訊,而非以哪家店、哪個使用者為單位直接釋出原始資料(Raw Data),藉此來避免讓有心人士交叉分析出企業、消費者的個人資訊。 我馬上想到 AOL 當初 2006 年也是自信滿滿的匿名化後放出: AOL 因為放搜尋紀錄被告了 搜尋引擎的七種使用者 (blog.ijliao.info) 這讓人超期待的...

Posted in Computer, Murmuring | Tagged , , , , , | Leave a comment

找 Google Reader 替代品...

Google Reader 剩下最後兩天,還是要面對現實... 看了一下 Google Reader,裡面有 1100 個 item,剛好趁著這次 shutdown,又到了該砍掉重練的階段了... 免費的服務中,Feedly 會把非 focus 的文章縮起來,而 Digg Reader 找不到 Unread 的地方。go read 找不到地方下 Tag 分類,而 AOL Reader 則是登不進去。 付費的服務中,Feedbin (USD$2/month 或 USD$20/year) 的 preload 做的不好,所以人讀文章的速度沒有 Google Reader 快,NewsBlur (USD$24/year) 則是把功能做的極為花俏,第一眼看下去還不知道要怎麼加 feed... 反正這陣子就四處逃竄吧... … Continue reading

Posted in Computer, Murmuring, Network, RSS, WWW | Tagged , , , , , | 2 Comments

Wikimedia 要幹蠢事了...

在「What are readers looking for? Wikipedia search data now available」這邊看到維基百科打算公開 search data,這不是前人幹過的蠢事嗎... 這讓我想起 2006 年「AOL search data leak」事件。AOL 希望對學術界有貢獻,於是把三個月份的 search data 匿名化後丟出來,結果被發現不管怎麼匿名化,search data 還是有辦法找出本人。AOL 也因此被告並且判決只要包含在內的每個人都可以拿到 USD$5000 的賠償。不過也因為 AOL 幹了蠢事,這也是少數被公開的 search real data。 看起來 Wikimedia 也要再來幹一次?

Posted in Computer, Murmuring, Network, Search Engine, WWW | Tagged , , , , , | Leave a comment

AOL 大動作... 買下 TechCrunch、Thing Labs 以及 Brizzly

AOL 這幾天一口氣買下 TechCrunch (Tim Armstrong: We Got TechCrunch!)、Thing Labs 以及 Brizzly (AOL Acquires Thing Labs and Brizzly)。 是最近手上現金太多嗎... 啊,.com 泡沫差不多也十年了?

Posted in Computer, Financial, Murmuring, Network, WWW | Tagged , , , | Leave a comment