虛偽的 Blog 數字

我們可以看到很多報導在報 Blog 成長數量驚人之類的話,但 On the state of the blogosphere 這篇文章裡面直接說:其實大部分都是 Spam、Fake Blog,所以不要再自欺欺人了。而透過 分析可能更少 - 真正有價值的 Blog (這邊「有價值」只是表示是真的有人在寫、有人在讀) 大約在 100k 左右。

最後這句說的很實際:

The real problem of scaling for growth of the blogosphere is not scaling the tools, but scaling the readers.

Yahoo! Search 索引的數量比 Google 少

如果你沒有注意在看最近 Search Engine 的新聞,說起來就有點複雜了。

我們從頭說起好了: 在 8/8 的時候宣稱 索引了兩百億個網頁 (這邊的網頁包括了文件及圖片)。請注意: 並沒有說他們索引的數量比 多,他們只宣稱索引了兩百億個網頁,但大家當然都會很自然的解讀成「 索引的頁面比 多」,因為在 的網頁上就直接寫明了他索引八十億個網頁。

然後這則炫耀文被報導到 上並引起廣泛討論:Yahoo Passes Google in Total Items Searched。(當然,標題的意思就很清楚了)

然後這幾天就吵得頗凶,像是 在 8/9、8/10、8/11 各寫了一篇這件事情的發展,說明 的內部工程師並沒有觀察到 索引的數量有這麼大的變化:How Many Pages Does Yahoo Index?In This Battle, Size Does Matter: Google Responds to Yahoo Index ClaimsMore On Yahoo, Google, Index, Size

不過到了今天, 上報導了 的 Dr. Orville Vernon Burton 以及兩位研究員 Matthew Cheney 與 Mike Perry 利用一些比較公正的方法分析了 索引的數量的相對值 (也就是誰比較多、以及多了多少):NCSA Compares Google and Yahoo Index Numbers

簡單說明一下這個方法:因為你不可能直接取得後端資料庫的資料,所以你沒有辦法直接比較兩個 Search Engine 的情況,所以研究員打算用一些常見的字去找 (但也不能太常用到),然後去確認 Result 真的存在 (換句話說,有被索引) 而估計相對的情況:

Although there is no direct way to verify the size of each search engine's respective index, we developed a technique to approximate the relative size of the both the Yahoo! index and the Google index.

但他們發現這兩個搜尋引擎都無法取得超過一千筆的資訊,所以他們只能利用筆數少於一千筆的 keyword 研究:

Unfortunately, both the Yahoo! and Google search engines truncate results returned to the user after 1,000 results. Thus, for the purposes of this study, we were forced to restrict our searches to those queries that returned less than 1,000 results on both Yahoo! and Google. Any search result found to have more than 1,000 returned results on either search engine was disregarded from our sample. [3]

在經過十八個小時將所需要的數據蒐集出來後,他們發現不管有沒有濾掉重複網頁 (兩個搜尋引擎都有選項可以選擇要不要顯示重複網頁), 所能找到的數量都遠少於 ,實際的數目大約在 1:2.5 左右。

最後他們給了一個很直接的結論:"suspicious"

It is the opinion of this study that Yahoo!'s claim to have a web index of over twice as many documents as Google's index is suspicious. Unless a large number of the documents Yahoo! has indexed are not yet available to its search engine, we find it puzzling that Yahoo!'s search engine consistently returned fewer results than Google.

vanilla UTF-8 修正

那邊看到 這套討論區軟體,目前版本是 0.9.2。畫面很「乾淨」(比起 ...)

我在安裝以後發現中文仍然存在一些問題,看了一下 的 Language Pack,發現他只有翻譯而沒有 patch,只好裝了 看資料庫的情況,發現是 latin1 老毛病 (呃),處理一下再測試就正常了。

測試站台在 http://vanilla.gslin.org/,如果您有興趣可以在上面玩看看。這邊提供 UTF-8 安裝所需要的動作:

  • 先建立資料庫,並將資料庫的預設字元集改成 UTF8:ALTER DATABASE DEFAULT CHARACTER 'utf8';
  • 將官方網站的 vanilla.0.9.2.zip 解到 DocumentRoot 裡。
  • 修改 library/Utility.Database.class.php,尋找 @mysql_connect 這行,在後面加上 @mysql_query('SET NAMES UTF8;', $this->Connection);
  • 提供的 Language Pack 丟進 languages/ 下。
  • 用瀏覽器連到 http://vanilla.site.com/installer.php (當然,記得把 vanilla.site.com 改成你自己的網址),把該填的資訊丟進去。
  • 理論上這樣就做完了。

頗有趣的是 支援的 Atom 是 1.0,而非 0.3,看起來動作很快啊 :p

另外就是效率問題,我不清楚整體效率如何,但是我已經瞄到大量的 Class 殺手... 我猜 (猜錯不負責) 效率可能比 還 XD

系統安全

這幾天剛好有些人跑來問我系統安全的東西 (像是 這次的 bpop3d security issue),說實話,四五年前還有到國外接觸,後來就不想碰了 - 該備份的東西備份好,有公告要 security upgrade 的做一做,其他就隨便了啦...

怎麼說呢?尋找 security hole 需要大量的花時間去看 source code,或是在聽到風聲的時候拿奇怪的 debugger 翻 assembly,甚至有時候還要跟其他的大長輩 pk (oh my god),還要小心會不會被抓到列管... (噗 XD) 那種整天提心吊膽的日子是很刺激,不過久了實在是沒力氣玩 :p

所以到後來就是該做的事情做一做,如果你真的要 root 就給你,資料別亂動就是了 :p 時間拿去看 或是去拐女朋友會比較快樂,真的 :p

強者布丁大長輩 Blog

最好的辦法就是在 title 的地方 bomb (效果比文章內好 XD)

終於把 Blog 弄出來了:,不過網頁居然沒過 XHTML 1.0 Strict :p 經過抱怨以後得到下列意見:

01:56 <@gslin> hlb: 長輩,你的 blog 沒過 XHTML 1.0 Strict XD
01:56 <@hlb> gslin: 隨便啦

既然 都說隨便,那我們小喀也不敢說什麼了 XD

機房停電

先說竹苗區網從網路上消失的事情... 計中內有兩大組電源,一組是直接接市電,另外一組分成四個小組,各接一台 Online UPS (所以有四台),而這四台都有接市電與發電機電源。

只接市電的部分包括了電燈、計中的緊急照明燈之類的部分,而 UPS + 發電機的部分則是給門禁系統、Server 這類不應該斷電就消失的設備。

每個暑假通常都會有高壓電檢修以及其他維護,公告時間通常都是從早上九點到下午五點,不過通常不會真的到下午五點,快的時候中午或下午一兩點就會恢復供電。一棟建築物通常會有兩次停電:一次是各建築物本身的電力維護,另外一次是北校區或是南校區的高壓電維護。

今年計中所在的資訊館當然也有兩次,上星期六的停電是第二次 (北區高壓電維護),早上停電後發電機很正常的啟動,到下午三點的時候市電來了,但計中配電盤似乎沒有自動切回去,於是發電機連續運轉四十幾個小時後在星期一早上五點將油吃完了... 然後就大爆炸了 =_=

事實上只要多撐四個小時就不會有事:因為星期一有上班,八點上班一發現市電的部分還沒來就會馬上請廠商到場處理,通常這種事情一個小時內就會處理完 (先人工切回市電,有 Online UPS 擋),不過就是少了四個小時 :p

Anyway,爆炸後可以看出來在下午一點半後才恢復供電 (router 只要一有電就會馬上起來,所以看教育部的 MRTG 就夠了),然後整個下午學弟都在整理機房裡面的機器。

到剛剛清點了一下有不少機器發生問題,看來要好好整頓一下了... *boom*

交大對外斷線

剛剛發現交大對外整個斷掉 (很少遇到斷得這麼徹底的情況),透過教育部連,發現交大的 TANet6509 沒有回應,而透過 連則發現 HCIX7609 沒有回應。

差不多是五點的時候斷掉的,看起來很有可能是計中大跳電?(因為 TANet6509 與 HCIX7609 同時故障的可能性實在不高) 看起來要等白天上班才有人處理了...