當初一開始出來的時候就覺得亂排一通,數字稍微有點變化就會造成排名急遽上升 (或下降… XD),昨天在 IRC 上突然在講這個,回去看開發人的 Blog 發現計算方式:[部落格觀察] 計算方式大揭密。
Oh my god,直接拿不同單位的數量互加,到底有沒有人知道什麼是 Normal Distribution 啊…
錯誤的政策比什麼都不做還糟糕,套到這裡完全適用。拿著錯誤的公式向大家炫耀「這邊有個台灣 Blog 排名」,比起什麼都沒有還糟糕。
Update:因為維護者根本看不懂他的問題在哪裡,所以…
- 「重視」裡面,「Bloglines 的總訂閱人數」與各家的「網摘數」當然不能加在一起,這兩個根本是不同的東西,於是「重視」的數字已經沒有意義了。
- 「Page 總分」裡面居然是把 Link 數加上「重視的總分」(這兩個明明就是不同的單位),於是「Page 總分」沒有意義了。
- 「Index 指數」居然是取 log,於是「重視」的部分變成 log(a+b+c+d+…),但是其他的部分卻是 log(a)+log(b)+log(c)+…,於是 Index 指數又爛掉了…
- 原文裡面提到的「不過只開二次方根還是會造成某項數值較高,就把影響分數大幅提高的情況,
所以我把它改成 (1) Yahoo Link 數 Google Link 數 + (2) Blogger Search Link 數 + Blogger Search Post 數 + (3) Technorati URL數 + Link 數 + Furl Search Link 數,這三項相乘之後,開三次方根」根本就是亂來,麻煩查一下怎麼做「正規化標準化」。
「排名」要做的看起來「有樣子」當然很容易,你只要不要把正的搞成負的,那麼 彎彎、蔡依林的部落格、zonble 的部落格 當然會排在前面,因為他們所有的分數本來就比起其他人高,你公式不管怎麼代都會在前面。
但是要搞到「正確」,麻煩回去看看統計學的書,然後看看 Technorati 怎麼做。
PS:Blog Influence 基本上也是個笑話,所以…。

Pingback: Library Views 圖書館觀點 :: 該如何衡量圖書館部落
Pingback: [幻想] 第一屆華文鳥蛋部落
Pingback: 我的部落
Pingback: Pesty’s Articles » 排行榜的迷思 - 能
Pingback: HEMiDEMi - 共享書籤- 部落
Pingback: 不只是捷運日記
Pingback: Blog.XDite.net » 絕對排行榜帶來的困擾
Pingback: [密技]佛心加持衝高部落格擴散力的建議 | Robbin.cc
Pingback: ::旋光 hrs113355:: » [網誌] 部落格觀察