Reddit 放出完整的全站投稿資料

前幾天 Reddit 宣佈放出完整的全站投稿資料:「Full Reddit Submission Corpus now available (2006 thru August 2015)」,有些技術問題使得這次沒放出 2006 與 2007 的資料,之後會想辦法補上:

Data is complete from January 01, 2008 thru August 31, 2015. Partial data is available for years 2006 and 2007. The reason for this is that the id's used when Reddit was just a baby were scattered a bit -- but I am making an attempt to grab all data from 2006 and 2007 and will make a supplementary upload for that data once I'm satisfied that I've found all data that is available.

約 42GB 的資料,幾乎是公開的資料都包含進去了:

This dataset represents approximately 200 million submission objects with score data, author, title, self_text, media tags and all other attributes available via the Reddit API.

檔案放在 Amazon S3 上,不過有人貼出對應的 BitTorrent 連結了,最重要的 btih 值是 9941b4485203c7838c3e688189dc069b7af59f2e。

可以拿來做各種研究...

BT Retail 開始實際測試 CGNAT...

英國的 ISP BT Retail 開始測試 CGNAT (Carrier-grade NAT) 了:「BT Begins Customer Tests of Carrier Grade NAT」。

空前但未必是絕後的大型 NAT 計畫,如果 CGNAT 可行,IPv6 會再往後延個好幾年吧...

Update:被 comment 提醒跑去測試,發現中華的 3G 早就是了:(CGNAT 會用 100.64.0.0/10,範圍到 100.127.255.255)

Torrific

T 客邦的「只要複製貼上,Torrific 免費幫你把 BT 抓到好」這篇文章提到了 Torrific 這個 BitTorrent 代抓服務,我是從還是叫做 btaccel 的時代就看到這個網站,用過幾次以後也沒什麼在用了... (畢竟 rtorrent 用習慣了)

先說明文章裡提到的「找 torrent 檔的免費空間」的問題要怎麼解決。一般的空間可能會需要帳號密碼,或是無法給一個連結直接下載,這點可以用 Torrage 以及 ZoinkIT 這類專門存放 torrent 檔的站台來放。

再來談 Torrific 這個站台。這個站目前放在 Slicehost,但更早之前是放在 Hurricane Electric 的機房內,而且以前的 domain 註冊資訊也是 HE (現在是隱藏起來)。如果故意丟一個很少人抓的檔案,然後觀察會有什麼 peer 連上來,也可以看得出來是 HE 機房的 server 連上來代抓...

這讓我想起以前和信 (現在被遠傳合併了) 跟 HiNet 在吵 peering 以及「帥哥團隊」灌流量的事情了... XD