Internet Archive 要記錄 Katrina 的資訊

看到了 希望大家提供有關 Katrina (卡崔娜) 的頁面,他們要記錄下來保存:Help the Internet Archive archive blog coverage of Katrina

The Internet Archive, a non-profit digital library, needs help in finding URL's of sites and blogs that contain documents of this major disaster.

Please email links to sites and pages that should be saved for future research to katrina@archive.org.

利用 Yahoo! Search 的服務來找 Inbound Link

在這篇 Trackback is Dead 提到他準備把 Trackback 的服務拿掉,而可能改用 或是其他類似的服務代替。

他引用了三篇文章,其中 Trackback is dead. Are Comments dead too? 這篇說:

It has been killed by spam and by spammers - by the sheer horror of ping after ping pushing mother/son incest and bestiality links.

這是很無奈的事實:現在全世界用 Trackback 用的最多的不是 Blogger,而是 Spammer。而且幾乎所有的 User 都不知道什麼是 Trackback。

在技術上,可以用 Search Engine 提供的 link: (或是類似的功能) 找到 Inbound Link 時,Trackback 沒有存在的價值。換句話說,除了助長 以外,沒有其他用途。

所以我剛剛也先查了一下目前 Search Engine 能夠做到多少,以 SHA-1 collision 進一步發展 這篇來說,Yahoo! Search 給的比較新:Yahoo! Search results for link:http://blog.gslin.org/archives/2005/08/19/52/,而 找不到 XD

所以我改了一下 single.php,多了一個 Inbound Link 可以看有誰 Link 過來,也許之後寫成 Plugin 吧?

Google 搜尋的 Link

報導最近 搜尋的 link 會被 紀錄:Google stealthily monitoring clickthroughs from search-results

假設你用 打 "" 的第一個 link 是 ()。在以前他會直接連到 ,但最近被改成像是 http://www.google.com/url (後面接一大串) 的地方,讓 Google 先記錄後再導到目的站台...

這樣對隱私其實有很大的傷害,所以就有人寫了 Script 把該閹的閹掉。(資訊在 的 Update 6)

Technorati

幾天前寫了 So long, Technorati 這篇文章,表達對 的失望。他發現當 Results 愈來愈多,速度就愈慢 (而且是慢的很誇張的那種慢),而有的時候會發現某些 Link 根本沒被算進來。

在比較過 所得到的結果,發現 得到的資料比較多、而且不會重複。但是很有趣的是, 提供的 Link 重複的很少:

Over the past few months, I've been comparing the results from to those of Technorati and PS is kicking ass. currently says that 19 sites have linked to me in the past 6 days (and at least four of those are old and/or repeats...one is from last September, fer chrissakes) while has returned 38 fresh, unrepeated results during that same time. (Not that PubSub is all roses and sunshine either...the overlap between the result sets is surprisingly small.)

另外在 這篇 Technorati 可以做 OR 搜尋 也講了 搜尋數字非常怪異。(灌水)

難怪很多人期待 / 能提供更好的功能給大家用...

esouth.org.tw?

http://www.typepad.com/t/trackback/3028715

這看到的:不是網摘 2005.8.20

3. 為了搬家方便,南方網站現在用 www.esouth.org.tw 的假網址,想進來的人,請在電腦裡的c:\windows\system32\drivers\etc\hosts (for XP,95,98,me) 或 c:\winnt\system32\drivers\etc\hosts (for win2k)檔案加上 "210.59.228.33 www.esouth.org.tw" 一行字。不過,不曉得為什麼,Jeph、TM、豆腐魚都進不來,所以現在還是我一個人努力搬文章中。

我知道南方有 esouth.org,不過我不知道有 esouth.org.tw?查 esouth.org.tw 的 NS RR 沒找到,再跑去 查 esouth.org.tw 也沒找到,最後猜測沒繳錢已經 expire,去 找 "esouth.org.tw" 也沒找到?

找,唯一找到的是 的頁庫存檔:(原站台暫時連不上去)
http://www.hgsh.hc.edu.tw/geography/%A6n%AF%B8%A4H%A4%E5.htm

這是在 high 什麼啊?(呃,還叫別人加上 www.esouth.org.tw?) 我不懂啊...

PS:以 "esouth.org.tw" 搜尋的話, 也找不到、 找到的東西與 一樣。

Yahoo! Search 索引的數量比 Google 少

如果你沒有注意在看最近 Search Engine 的新聞,說起來就有點複雜了。

我們從頭說起好了: 在 8/8 的時候宣稱 索引了兩百億個網頁 (這邊的網頁包括了文件及圖片)。請注意: 並沒有說他們索引的數量比 多,他們只宣稱索引了兩百億個網頁,但大家當然都會很自然的解讀成「 索引的頁面比 多」,因為在 的網頁上就直接寫明了他索引八十億個網頁。

然後這則炫耀文被報導到 上並引起廣泛討論:Yahoo Passes Google in Total Items Searched。(當然,標題的意思就很清楚了)

然後這幾天就吵得頗凶,像是 在 8/9、8/10、8/11 各寫了一篇這件事情的發展,說明 的內部工程師並沒有觀察到 索引的數量有這麼大的變化:How Many Pages Does Yahoo Index?In This Battle, Size Does Matter: Google Responds to Yahoo Index ClaimsMore On Yahoo, Google, Index, Size

不過到了今天, 上報導了 的 Dr. Orville Vernon Burton 以及兩位研究員 Matthew Cheney 與 Mike Perry 利用一些比較公正的方法分析了 索引的數量的相對值 (也就是誰比較多、以及多了多少):NCSA Compares Google and Yahoo Index Numbers

簡單說明一下這個方法:因為你不可能直接取得後端資料庫的資料,所以你沒有辦法直接比較兩個 Search Engine 的情況,所以研究員打算用一些常見的字去找 (但也不能太常用到),然後去確認 Result 真的存在 (換句話說,有被索引) 而估計相對的情況:

Although there is no direct way to verify the size of each search engine's respective index, we developed a technique to approximate the relative size of the both the Yahoo! index and the Google index.

但他們發現這兩個搜尋引擎都無法取得超過一千筆的資訊,所以他們只能利用筆數少於一千筆的 keyword 研究:

Unfortunately, both the Yahoo! and Google search engines truncate results returned to the user after 1,000 results. Thus, for the purposes of this study, we were forced to restrict our searches to those queries that returned less than 1,000 results on both Yahoo! and Google. Any search result found to have more than 1,000 returned results on either search engine was disregarded from our sample. [3]

在經過十八個小時將所需要的數據蒐集出來後,他們發現不管有沒有濾掉重複網頁 (兩個搜尋引擎都有選項可以選擇要不要顯示重複網頁), 所能找到的數量都遠少於 ,實際的數目大約在 1:2.5 左右。

最後他們給了一個很直接的結論:"suspicious"

It is the opinion of this study that Yahoo!'s claim to have a web index of over twice as many documents as Google's index is suspicious. Unless a large number of the documents Yahoo! has indexed are not yet available to its search engine, we find it puzzling that Yahoo!'s search engine consistently returned fewer results than Google.