Google 發表計算網頁真實性的演算法 (Knowledge-Based Trust)

Slashdot 上看到 Google 發表了計算網頁真實性的演算法,Knowledge-Based Trust (KBT):「Google Wants To Rank Websites Based On Facts Not Links」,原始的論文 PDF 檔案可以在「Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources」這邊取得。

論文本身的原理不難懂 (其實方法相當有趣),主要是給出了三個貢獻。

首先是能夠區分是取出資訊的方法有問題 (extract 的演算法不夠好),或是網站本身就給出錯誤的資訊:

Our main contribution is a more sophisticated probabilistic model, which can distinguish between two main sources of error: incorrect facts on a page, and incorrect extractions made by an extraction system.

第二個則是在效能上的改善:

Our second contribution is a new method to adaptively decide the granularity of sources to work with: if a specific webpage yields too few triples, we may aggregate it with other webpages from the same website. Conversely, if a website has too many triples, we may split it into smaller ones, to avoid computational bottlenecks (Section 4).

第三個則是提出好的分散式演算法,可以螞蟻雄兵計算出來:

The third contribution of this paper is a detailed, large-scale evaluation of the performance of our model.

KBT 並不是要取代 PageRank,而是跟 PageRank 互相配合,可以有效打擊內容農場 (Content farm) 這類網站,畢竟 PageRank 的假設在一般的狀況下是有邏輯的。

在「High PageRank but low KBT (top-left corner)」這段講到了這件事情:

We consider the 15 gossip websites listed in [16]. Among them, 14 have a PageRank among top 15% of the websites, since such websites are often popular. However, for all of them the KBT are in the bottom 50%; in other words, they are considered less trustworthy than half of the websites. Another kind of websites that often get low KBT are forum websites.

再找時間細讀其他類似的演算法...

把舊站的 comment 關掉...

這幾天 blog 常常出現 504,連到機器上發現 MySQL 很忙,才發現是舊站 spam 的量太大的問題造成的,把舊站的 comment 關掉後就好不少,現在看機器的 CPU loading 應該是正常多了。

新站已經是用 DISQUS 所以比較沒有 comment spam 的問題。舊站那邊除了關掉 comment 外,另外直接進 MySQL 把 2006 年之後的 comment 都丟到 pending 裡面去。(因為 2005 年 8 月後就沒更新舊站了)

來研究看看要怎麼把舊的 comment 丟進 Akismet...

Update:發現只要按下 Check for Spam 的按鈕就會把目前 Pending comments 都丟去 Akismet 掃,先丟著 :p

電冰箱也是會「中毒」的...

Slashdot 上看到電冰箱被攻陷當成跳板,被拿來發廣告信:「The Spamming Refrigerator」。BBC 的報導在「Fridge sends spam emails as attack hits smart gadgets」。

原始報導是「Proofpoint Uncovers Internet of Things (IoT) Cyberattack」這篇。

就報導的文章裡看不出來是什麼智慧型電冰箱...

Google Chrome 上預防 Clickjacking 的套件...

Gene 寫的「如何在你不知情被自動加入粉絲團的秘技, 以 "粉你的" 作示範」這篇裡面用到的技巧叫做 Clickjacking (點擊劫持)。

Facebook 有給出「What is clickjacking?」的說明,不過相當白話 (而且沒有幫助 Orz)。

技術上的解釋是,其中一種實作是在要點擊的對象上加上一層「透明的」DOM 物件,當 click 時就會點到該物件。目前最常見的是 Facebook 的 Like 按鈕。(i.e. Gene 寫的那篇)

Google Chrome 上可以用「Clickjacking Reveal」這個套件:

This extension tries to warn you if it found clickjacking technique on the page you are viewing.

Tired because of webpage tricks you into clicking social network buttons? This extension will try to detect those hidden bad buys and force them to show themselves.

效果是這樣:(範例出自「胖妞變身大美女 甩肉40斤練出腹肌」這篇)

Twitter 與研究員合作打擊 Twitter Spammer

研究員在取得 Twitter 的同意後 (Twitter 的 ToS 禁止帳號販賣轉移),十個月內透過 27 個不同的買家,花了 USD$5000 購買了 12 萬個帳號:「Researchers Buy Twitter Bots To Fight Twitter Spam」、「Buying Battles in the War on Twitter Spam」。

整份研究發在 USENIX Security '13 上:「Trafficking Fraudulent Accounts: The Role of the Underground Market in Twitter Spam and Abuse」,有 PDF 可以下載。

可以看到 Hotmail 是裡面比率最高的:

論文後面提到要如何利用這些買來的帳號,透過演算法計算後,判斷還有哪些帳號是可疑的帳號。然後透過 Twitter 的合作交叉比對,給予這些地下盤商致命性的打擊...

AWS SES 支援 DKIM

DKIM 全名 DomainKeys Identified Mail,是透過數位簽名技術確保 E-mail 的寄件人不是被偽造的,對於防止透過電子郵件網路釣魚是個還蠻有效的技術。

本來透過 AWS SES 寄信,要自己處理 DKIM 簽名的部份,不過今天 AWS 宣佈這項功能內建進 AWS SES:「Simple Email Service - Easy DomainKeys Identified Mail (DKIM) Support」。

於是,現在用 AWS SES 的人要 DKIM 只要把 SES 提供的 DNS record 設上去就可以了,比起之前自己得在 Sendmail 或是 Postfix 上弄一堆東西方便不少。

Google 調整參數處罰 Content Farm 的進度

Slashdot 上有人提到 Google 最近調整的情況,繼續調降 low-quality site (這次是 eHow) 在搜尋的排名:「Google Tweaks Algorithm; EHow Traffic Plummets」。

最近用中文版的 search 發現愈來愈找不到想要的東西了,把語系切到英文版試一陣子看看...

加拿大的反垃圾郵件法案由 Opt-out 改成 Opt-in

在反垃圾郵件法案中提到的 Opt-out 是指「預設寄送,使用者可以選擇退出」,而 Opt-in 則是「預設不可以寄送,必須由使用者選擇加入」。這兩者最大的差異在於,Opt-out 後發信人就會知道這個信箱有人在看信,於是就把名單轉到境外發...

所以加拿大的法律從 Opt-out 改為 Opt-in 是很重要的進展:「Canada has An Opt-in Régime and a new Anti-spam Law」。

隔壁的美國到底要不要改呢...

Amazon「導入」Wikipedia 並加上廣告連結

參考 Slashdot 的「Wikipedia Pages Now On Amazon — With Product Links」這篇文章。

Amazon 所產生的 Wikipedia 對應頁面在這:「Main Page - Shopping-enabled Wikipedia Page on Amazon」。

依照 Wikipedia 的文章授權,是可以這樣做沒錯 (沒有禁止商業使用)。不過 Google 禁止複製別人的重複內容:「Duplicate content」。

以目前 www.amazon.com/robots.txt 的內容看起來是沒對 /wiki 設限,接下來就來看 Google 會不會認定 Amazon 試著在惡搞 SEO 而列入處罰清單...