部落格排名?

當初一開始出來的時候就覺得亂排一通,數字稍微有點變化就會造成排名急遽上升 (或下降... XD),昨天在 IRC 上突然在講這個,回去看開發人的 Blog 發現計算方式:[部落格觀察] 計算方式大揭密

Oh my god,直接拿不同單位的數量互加,到底有沒有人知道什麼是 啊...

錯誤的政策比什麼都不做還糟糕,套到這裡完全適用。拿著錯誤的公式向大家炫耀「這邊有個台灣 Blog 排名」,比起什麼都沒有還糟糕。

Update:因為維護者根本看不懂他的問題在哪裡,所以...

  • 「重視」裡面,「Bloglines 的總訂閱人數」與各家的「網摘數」當然不能加在一起,這兩個根本是不同的東西,於是「重視」的數字已經沒有意義了。
  • 「Page 總分」裡面居然是把 Link 數加上「重視的總分」(這兩個明明就是不同的單位),於是「Page 總分」沒有意義了。
  • 「Index 指數」居然是取 log,於是「重視」的部分變成 log(a+b+c+d+...),但是其他的部分卻是 log(a)+log(b)+log(c)+...,於是 Index 指數又爛掉了...
  • 原文裡面提到的「不過只開二次方根還是會造成某項數值較高,就把影響分數大幅提高的情況,
    所以我把它改成 (1) Yahoo Link 數 Google Link 數 + (2) Blogger Search Link 數 + Blogger Search Post 數 + (3) Technorati URL數 + Link 數 + Furl Search Link 數,這三項相乘之後,開三次方根」根本就是亂來,麻煩查一下怎麼做「正規化標準化」。

「排名」要做的看起來「有樣子」當然很容易,你只要不要把正的搞成負的,那麼 當然會排在前面,因為他們所有的分數本來就比起其他人高,你公式不管怎麼代都會在前面。

但是要搞到「正確」,麻煩回去看看統計學的書,然後看看 怎麼做。

PS:Blog Influence 基本上也是個笑話,所以...。

22 thoughts on “部落格排名?”

  1. 野貓 says:

    噢,別急著開槍打死 :p

    全部相加也只是其中的一個計算方式而已,
    當然單位都不相同,
    所以不能夠只以「直接拿不同單位的數量互加」就來決定排名的啊。

  2. 野貓 says:

    如果要以「都是不同的東西,所以不能加在一起」這個觀點出發,
    那或許最準確的計算方式當是每個來源都獨立的計算排名,
    在將每個排名取平均數看誰最低。
    因為不管怎麼正規化,都不可能像是貨幣的轉換,還會有匯率可以乘除。
    就像之前有個計算部落格價值的公式,但實際上文字到底值多少錢,又要怎麼量化?

    先講重視,其實這指標很單純,有多少「人」在看這個部落格,不管是透過網摘的方式,或是訂閱的方式,而不是搜尋引擎去找到的,所以以都是「人為」的數值這個觀點,把它加總。當然,可能有人既把這部落格訂閱後又加入網摘,這當然不可去做詳細的區分。

    再來,總分的部份,其實每個 blogger 對網誌的發展方式都有所差異,有些人喜歡到處交朋友換 link 數,但比較古老的部落格都有固定的訂閱數,所以把(A)Link加上(B)重視,總和來顧全兩個不同的發展模式。

    Index 指數的部份,我相信還要做些調整,目前的計算方法,就算把重視屏除掉也影響不大就是了。

    最後,影響的部份其實概念很簡單,就是取幾何平均數,
    (A)Yahoo Link (B)Google 系列(就是加上Blogger Search) (C)其他
    三個相乘開三次方根。

    當然,我也相信應該會有更精確的方式,更專業得來計算這些數值,
    我們也會陸續的去做些調整,目前也只是起個頭而已,
    還需要各方的專業人士多多指教。

    至於『拿著錯誤的公式向大家炫耀「這邊有個台灣 Blog 排名」』,我想見仁見智,拿新台幣去非洲大概也買不到東西吧?
    媒體的本性向來都是喜歡追逐這種新玩意,他們要如何的誇飾我們也很難去控制吧…
    至少,我從來沒有「炫耀」過這玩意就是了。

  3. 野貓 says:

    唔,回完又有 Update,
    Technorati 的作法其實很簡單,
    它的排名是看你的 Blog 跟在它家登記有案的 Blog 間的 Link 有幾多個,就只計算這項。
    這當然單純多了 :)

  4. Abin says:

    小弟統計系的..
    Oh my god..這個問題和常態分配有什麼牽連?
    常態分配不是貼個 wiki 的連結就算了
    要扯大數法則和赫比雪夫嗎?
    正規化這個詞也不是這樣用的吧..

    你可以質疑人家方法有問題、沒有理論根據..
    全部累加或是作對數開跟號是很粗的方法沒錯..
    要做統計分析嗎?
    用迴歸,以上指數彼此之間都有正相關,問題是在每個指數的加權參數應該是多少,首先要先建立該方程式的模型
    然後做變異數分析..

    不同的東西是可以加在一起,不過要做過處理
    ax + by + cz = index
    關鍵在 a,b,c 怎麼算出來..

  5. jnlin says:

    是啊, a, b, c 怎麼算是個問題。
    寫論文的時候要建立 Model,然後用合理的方式來說服 reviewer 說 "喔,這公式是合理的。"
    但是我覺得光看計算方式無法說服我就是了。

    BTW, 我覺得用Big5編碼實在不是個好主意...:p

  6. descriptor says:

    你所謂的 Normal Distribution 指的應該是 Normalization 吧!閣下可能是機率中毒太深。

  7. pest says:

    我覺得整個計算流程最大的問題, 就是完全沒有 training data 來驗證. 例如說, 假如你的公式裡就是深信 Blog A 排行是大於 Blog B, Blog B 又是大於 Blog C, 那計算出來的結果不管怎麼套, 都必須符合預先設定的這段 Rules. 而這段 Rule 要怎麼建立呢? 一種作法是找認識的人提供 blog raw traffic 來判斷, 建立幾個明確的 sample points, 再由這些 sample points 去內插或外插 unknown sites 的排行. 直接把分數相加然後照著排下來, 可能是比內插還糟糕的評估方式.

  8. visitor says:

    不是Normal Distribution 而是Normalization +1
    其實還有很多種方式...不過dear cat 三個相乘開三次方根有任何意義ㄇ,只是方便計算ㄇ,ax + by + cz = index
    關鍵在 a,b,c 怎麼算出來..個人淺見應該是對各項變數的權重也就是在乎的程度,任何的研究假說都需要驗證,CAT提出他的看法我想並沒有炫耀之意,所以是否要注意基礎的網路禮節ㄋ。

  9. jnlin says:

    > visitor
    我個人認為您應該先用正常的中文書寫,才是基礎的網路禮節。

  10. 雪狼之湖 says:

    我認同這篇文章的看法與觀點
    部落格排名?

    哈哈...大笑話

    我看野貓又要急著來解釋了.....

  11. 野貓 says:

    有人對這笑話斤斤計較,還到處說作弊不就更好笑 :p

    還有問題的請直接到我Blog留,沒必要把這也捲入戰局吧?

  12. 雪狼之湖 says:

    野貓你又不是這邊的版主
    管我到哪邊留言啊
    我認同這篇文章也不可以喔 真是莫名奇妙

  13. 野貓 says:

    這位很愛用台大ip的國中生,
    等你看懂他寫啥再留也不遲。

    D大把我的留言都刪掉好了,
    這傢伙大概愛上我了,喜歡追著我跑 >///

  14. Pingback: 我的部落

Leave a Reply

Your email address will not be published. Required fields are marked *