如果你沒有注意在看最近 Search Engine 的新聞,說起來就有點複雜了。
我們從頭說起好了:Yahoo! Search Blog 在 8/8 的時候宣稱 Yahoo! Search 索引了兩百億個網頁 (這邊的網頁包括了文件及圖片)。請注意:Yahoo! 並沒有說他們索引的數量比 Google 多,他們只宣稱索引了兩百億個網頁,但大家當然都會很自然的解讀成「Yahoo! Search 索引的頁面比 Google 多」,因為在 Google 的網頁上就直接寫明了他索引八十億個網頁。
然後這則炫耀文被報導到 Slashdot 上並引起廣泛討論:Yahoo Passes Google in Total Items Searched。(當然,標題的意思就很清楚了)
然後這幾天就吵得頗凶,像是 John Battelle 在 8/9、8/10、8/11 各寫了一篇這件事情的發展,說明 Google 的內部工程師並沒有觀察到 Yahoo! Search 索引的數量有這麼大的變化:How Many Pages Does Yahoo Index?、In This Battle, Size Does Matter: Google Responds to Yahoo Index Claims、More On Yahoo, Google, Index, Size。
不過到了今天,Slashdot 上報導了 NCSA 的 Dr. Orville Vernon Burton 以及兩位研究員 Matthew Cheney 與 Mike Perry 利用一些比較公正的方法分析了 Yahoo! Search 與 Google 索引的數量的相對值 (也就是誰比較多、以及多了多少):NCSA Compares Google and Yahoo Index Numbers。
簡單說明一下這個方法:因為你不可能直接取得後端資料庫的資料,所以你沒有辦法直接比較兩個 Search Engine 的情況,所以研究員打算用一些常見的字去找 (但也不能太常用到),然後去確認 Result 真的存在 (換句話說,有被索引) 而估計相對的情況:
Although there is no direct way to verify the size of each search engine's respective index, we developed a technique to approximate the relative size of the both the Yahoo! index and the Google index.
但他們發現這兩個搜尋引擎都無法取得超過一千筆的資訊,所以他們只能利用筆數少於一千筆的 keyword 研究:
Unfortunately, both the Yahoo! and Google search engines truncate results returned to the user after 1,000 results. Thus, for the purposes of this study, we were forced to restrict our searches to those queries that returned less than 1,000 results on both Yahoo! and Google. Any search result found to have more than 1,000 returned results on either search engine was disregarded from our sample. [3]
在經過十八個小時將所需要的數據蒐集出來後,他們發現不管有沒有濾掉重複網頁 (兩個搜尋引擎都有選項可以選擇要不要顯示重複網頁),Yahoo! Search 所能找到的數量都遠少於 Google,實際的數目大約在 1:2.5 左右。
It is the opinion of this study that Yahoo!'s claim to have a web index of over twice as many documents as Google's index is suspicious. Unless a large number of the documents Yahoo! has indexed are not yet available to its search engine, we find it puzzling that Yahoo!'s search engine consistently returned fewer results than Google.