部落格排名?

當初一開始出來的時候就覺得亂排一通,數字稍微有點變化就會造成排名急遽上升 (或下降... XD),昨天在 IRC 上突然在講這個,回去看開發人的 Blog 發現計算方式:[部落格觀察] 計算方式大揭密

Oh my god,直接拿不同單位的數量互加,到底有沒有人知道什麼是 啊...

錯誤的政策比什麼都不做還糟糕,套到這裡完全適用。拿著錯誤的公式向大家炫耀「這邊有個台灣 Blog 排名」,比起什麼都沒有還糟糕。

Update:因為維護者根本看不懂他的問題在哪裡,所以...

  • 「重視」裡面,「Bloglines 的總訂閱人數」與各家的「網摘數」當然不能加在一起,這兩個根本是不同的東西,於是「重視」的數字已經沒有意義了。
  • 「Page 總分」裡面居然是把 Link 數加上「重視的總分」(這兩個明明就是不同的單位),於是「Page 總分」沒有意義了。
  • 「Index 指數」居然是取 log,於是「重視」的部分變成 log(a+b+c+d+...),但是其他的部分卻是 log(a)+log(b)+log(c)+...,於是 Index 指數又爛掉了...
  • 原文裡面提到的「不過只開二次方根還是會造成某項數值較高,就把影響分數大幅提高的情況,
    所以我把它改成 (1) Yahoo Link 數 Google Link 數 + (2) Blogger Search Link 數 + Blogger Search Post 數 + (3) Technorati URL數 + Link 數 + Furl Search Link 數,這三項相乘之後,開三次方根」根本就是亂來,麻煩查一下怎麼做「正規化標準化」。

「排名」要做的看起來「有樣子」當然很容易,你只要不要把正的搞成負的,那麼 當然會排在前面,因為他們所有的分數本來就比起其他人高,你公式不管怎麼代都會在前面。

但是要搞到「正確」,麻煩回去看看統計學的書,然後看看 怎麼做。

PS:Blog Influence 基本上也是個笑話,所以...。

22 thoughts on “部落格排名?”

  1. 噢,別急著開槍打死 :p

    全部相加也只是其中的一個計算方式而已,
    當然單位都不相同,
    所以不能夠只以「直接拿不同單位的數量互加」就來決定排名的啊。

  2. 如果要以「都是不同的東西,所以不能加在一起」這個觀點出發,
    那或許最準確的計算方式當是每個來源都獨立的計算排名,
    在將每個排名取平均數看誰最低。
    因為不管怎麼正規化,都不可能像是貨幣的轉換,還會有匯率可以乘除。
    就像之前有個計算部落格價值的公式,但實際上文字到底值多少錢,又要怎麼量化?

    先講重視,其實這指標很單純,有多少「人」在看這個部落格,不管是透過網摘的方式,或是訂閱的方式,而不是搜尋引擎去找到的,所以以都是「人為」的數值這個觀點,把它加總。當然,可能有人既把這部落格訂閱後又加入網摘,這當然不可去做詳細的區分。

    再來,總分的部份,其實每個 blogger 對網誌的發展方式都有所差異,有些人喜歡到處交朋友換 link 數,但比較古老的部落格都有固定的訂閱數,所以把(A)Link加上(B)重視,總和來顧全兩個不同的發展模式。

    Index 指數的部份,我相信還要做些調整,目前的計算方法,就算把重視屏除掉也影響不大就是了。

    最後,影響的部份其實概念很簡單,就是取幾何平均數,
    (A)Yahoo Link (B)Google 系列(就是加上Blogger Search) (C)其他
    三個相乘開三次方根。

    當然,我也相信應該會有更精確的方式,更專業得來計算這些數值,
    我們也會陸續的去做些調整,目前也只是起個頭而已,
    還需要各方的專業人士多多指教。

    至於『拿著錯誤的公式向大家炫耀「這邊有個台灣 Blog 排名」』,我想見仁見智,拿新台幣去非洲大概也買不到東西吧?
    媒體的本性向來都是喜歡追逐這種新玩意,他們要如何的誇飾我們也很難去控制吧…
    至少,我從來沒有「炫耀」過這玩意就是了。

  3. 唔,回完又有 Update,
    Technorati 的作法其實很簡單,
    它的排名是看你的 Blog 跟在它家登記有案的 Blog 間的 Link 有幾多個,就只計算這項。
    這當然單純多了 :)

  4. 小弟統計系的..
    Oh my god..這個問題和常態分配有什麼牽連?
    常態分配不是貼個 wiki 的連結就算了
    要扯大數法則和赫比雪夫嗎?
    正規化這個詞也不是這樣用的吧..

    你可以質疑人家方法有問題、沒有理論根據..
    全部累加或是作對數開跟號是很粗的方法沒錯..
    要做統計分析嗎?
    用迴歸,以上指數彼此之間都有正相關,問題是在每個指數的加權參數應該是多少,首先要先建立該方程式的模型
    然後做變異數分析..

    不同的東西是可以加在一起,不過要做過處理
    ax + by + cz = index
    關鍵在 a,b,c 怎麼算出來..

  5. 是啊, a, b, c 怎麼算是個問題。
    寫論文的時候要建立 Model,然後用合理的方式來說服 reviewer 說 "喔,這公式是合理的。"
    但是我覺得光看計算方式無法說服我就是了。

    BTW, 我覺得用Big5編碼實在不是個好主意...:p

  6. 你所謂的 Normal Distribution 指的應該是 Normalization 吧!閣下可能是機率中毒太深。

  7. 我覺得整個計算流程最大的問題, 就是完全沒有 training data 來驗證. 例如說, 假如你的公式裡就是深信 Blog A 排行是大於 Blog B, Blog B 又是大於 Blog C, 那計算出來的結果不管怎麼套, 都必須符合預先設定的這段 Rules. 而這段 Rule 要怎麼建立呢? 一種作法是找認識的人提供 blog raw traffic 來判斷, 建立幾個明確的 sample points, 再由這些 sample points 去內插或外插 unknown sites 的排行. 直接把分數相加然後照著排下來, 可能是比內插還糟糕的評估方式.

  8. 不是Normal Distribution 而是Normalization +1
    其實還有很多種方式...不過dear cat 三個相乘開三次方根有任何意義ㄇ,只是方便計算ㄇ,ax + by + cz = index
    關鍵在 a,b,c 怎麼算出來..個人淺見應該是對各項變數的權重也就是在乎的程度,任何的研究假說都需要驗證,CAT提出他的看法我想並沒有炫耀之意,所以是否要注意基礎的網路禮節ㄋ。

  9. 我認同這篇文章的看法與觀點
    部落格排名?

    哈哈...大笑話

    我看野貓又要急著來解釋了.....

  10. 有人對這笑話斤斤計較,還到處說作弊不就更好笑 :p

    還有問題的請直接到我Blog留,沒必要把這也捲入戰局吧?

  11. 野貓你又不是這邊的版主
    管我到哪邊留言啊
    我認同這篇文章也不可以喔 真是莫名奇妙

  12. 這位很愛用台大ip的國中生,
    等你看懂他寫啥再留也不遲。

    D大把我的留言都刪掉好了,
    這傢伙大概愛上我了,喜歡追著我跑 >///

  13. Pingback: 我的部落

Leave a Reply

Your email address will not be published. Required fields are marked *