Google 警告美國流感疫情提升...

Google 在很久前就發現可以利用「搜尋的關鍵字」推測流感疫情,而在 2008 年建立了 Google Flu Trends,利用關鍵字來推測可能的疫情:「Explore flu trends around the world」。

而今年 Google 發出警告,依照關鍵字觀察,美國的流感疫情比起歷年來都高出不少:「Google - Yes, Google - Warns Of "Intense" U.S. Flu Activity」。

這除了是 Google 的火力展示之外,也是在說明資料被適當應用時的威力。

Twitter 的熱門搜尋演算法 (以及背後的機制)

昨天的 Twitter Engineering Blog 上說明了 Twitter 這陣子改善搜尋演算法背後的故事:「Improving Twitter search with real-time human computation」。

因為搜尋的量夠大,所以可以拿搜尋的 keyword 計算。

而系統會一直分析搜尋的關鍵字,當發現有詞彙在某個時間內超過設定的水位時,就發 API 到 AmazonMechanical Turk 讓真人分析 (分類),分析完成後就可以再回到自動化的流程進行後續的步驟...

Mechanical Turk 就是 crowdsourcing 類型的服務,這個服務因為法令限制,到現在還是只能讓美國的公司或是個人使用,是少數還沒玩過的服務,應該來找看看有沒有其他 crowdsourcing 服務可以玩...

Wikimedia 要幹蠢事了...

在「What are readers looking for? Wikipedia search data now available」這邊看到維基百科打算公開 search data,這不是前人幹過的蠢事嗎...

這讓我想起 2006 年「AOL search data leak」事件。AOL 希望對學術界有貢獻,於是把三個月份的 search data 匿名化後丟出來,結果被發現不管怎麼匿名化,search data 還是有辦法找出本人。AOL 也因此被告並且判決只要包含在內的每個人都可以拿到 USD$5000 的賠償。不過也因為 AOL 幹了蠢事,這也是少數被公開的 search real data。

看起來 Wikimedia 也要再來幹一次?

Google 最上方的工具列換成黑色...

Google 把最上方的工具列換成黑色了,我是很喜歡這個配色 (更清楚),但有些人大概不怎麼喜歡:

但如果是 SSL 版本,好像怪怪的,上方的工具列出不來 (關掉 Adblock Plus 也是一樣),應該會有人去反應吧?

Google 自動完成... Internet 要毀滅了嗎...

在「What Google autocomplete has to say about the Internet」看到一連串 Google Autocomplete 的圖片,這些建議是表示 Internet 要毀滅了嗎 XDDD

不過這個我喜歡:

ie6 is dead

文章最後提到的這個 XDDD

google is evil

IndexTank 的設計

IndexTank 是在 xdite 的個人板上看到的網站,號稱真正 Scalable 的 Search Engine,看了他的架構設計後看起來應該是真的 Scalable。

由於是屬於 SaaS 服務,對於 startup 不想自己做 search engine 的可以直接套上去。而對於技術人員真正有價值的是他的 API 設計文件中的 function definition syntax:「function definition syntax」,雖然故意寫個 coming soon,但實際上可以在 client library 裡看到範例:「Python client」。

先內建一些基本的數學函數,像是四則運算、power、log,並且內建一些很常用到的變數。接下來定義出來的函數可以再重複使用,不斷累積上去,最後在 query 的時候就可以 ORDER BY 某個 score...

IndexTank 告訴你「利用 API 讓前端程式設定 function 以降低 denormalization 的複雜度」時要怎麼設計 API,當你自己建立 search engine 時,新增的 function 還可以在後端用 MapReduce 把資料補上去...。

另外可以再參考「How Hacker News ranking algorithm works」這篇文章。(這篇文章的 comment 裡面有其他的 ranking code 可以看)