Wikimedia 要幹蠢事了...

在「What are readers looking for? Wikipedia search data now available」這邊看到維基百科打算公開 search data,這不是前人幹過的蠢事嗎...

這讓我想起 2006 年「AOL search data leak」事件。AOL 希望對學術界有貢獻,於是把三個月份的 search data 匿名化後丟出來,結果被發現不管怎麼匿名化,search data 還是有辦法找出本人。AOL 也因此被告並且判決只要包含在內的每個人都可以拿到 USD$5000 的賠償。不過也因為 AOL 幹了蠢事,這也是少數被公開的 search real data。

看起來 Wikimedia 也要再來幹一次?

Amazon Web Services 新的儲存方案:Amazon Glacier

Amazon Simple Storage Service (Amazon S3)AWS 第一代儲存服務。後來 S3 又提供了 Reduced Redundancy Storage,降低可靠度 (一年 99.99%) 換取價錢上的優勢,用在 cache file 之類的還蠻不錯。目前兩者在美東的價錢是 USD$0.125/GB 與 USD$0.093/GB。這兩種都是隨時可以存取的服務。

Amazon Glacier 則是提供超低的價錢與超高的可靠度:USD$0.01/GB 與一年 99.999999999%,而這是靠取回檔案的時間換來的。取回檔案需要排 3.5 到 4.5 小時的時間 (後面傳輸的時間另外計算):

Retrieving archives from Amazon Glacier requires the initiation of a job. Jobs typically complete in 3.5 to 4.5 hours.

是靠著機械手臂與軌道在處理嗎?

但這樣就多了很多用途啊... Data warehouse 是個很明顯的方向。目前可以透過 AWS Import/Export 匯入大量資料:

You can also use AWS Import/Export to accelerate moving large amounts of data into Amazon Glacier using portable storage devices for transport.

之後則是會提供從 S3 搬出去與搬進去的功能:

In the coming months, Amazon Simple Storage Service (Amazon S3) plans to introduce an option that will allow you to seamlessly move data between Amazon S3 and Amazon Glacier using data lifecycle policies.

等工具完整後再來研究 :p

PHP 提供的資料結構...

從「How big are PHP arrays (and values) really? (Hint: BIG!)」這篇看到的。文章本身值得花些時間看過了解,不過對我來說重點在最後面的 SplFixedArray

PHPDatastructures 說明目前 PHP SPL 所支援的 data structure,在記憶體用量以及效率上面都會比自己實作來的小且快。

可以看到很多都支援 Countable、Iterator,以及 ArrayAccess,代表可以用 foreach() 或是對應的方式存取... 如果自己寫 library 的時候應該要善用這些 SPL。

Google 與微軟的員工的比較:食物...

TechCrunch 上看到的文章:「Googlers Buy More Junk Food Than Microsofties (And Why Rapleaf Is Creepy)」,文章裡面提到 RapLeaf 這家公司從 Internet 上挖資料分析了 Google微軟這兩家公司的員工的飲食習慣,發現 Google 的員工比微軟的員工喜歡吃垃圾食物...

雖然是做噱頭的 startup,但這還是說明 Social Network 上可以分析的資料其實種類相當多,如果 Facebook 自己丟人力下去做的話應該會更驚人...

Twitter 新機房,以及數據...

Twitter Engineer Blog 上的「The Great Migration, the Winter of 2011」這篇文章裡提到了 Twitter 預定搬機房的行程,裡面有些數據...

目前維護的人數:

Today, the feed and care of Twitter requires more than 200 engineers to keep the site growing and running smoothly.

機器數量超過 1000 台:(用 thousands 這個詞)

Simultaneously, our operations engineers divided into new teams and built new processes and software to allow us to qualify, burn-in, deploy, tear-down and monitor the thousands of servers, routers, and switches that are required to build out and operate Twitter.

Tweet 的資料量:

Once we proved our replication strategy worked, we built out the full Twitter stack, and copied all 20TB of Tweets, from @jack’s first to @honeybadger’s latest Tweet to the second data center.

Stack Exchange 旗下站台的統計

Stack Exchangedata.stackexchange.com 公開了所有旗下站台的統計資訊:

最大的三個果然是 stackoverflowsuperuserserverfault...

另外在「Stack Overflow 2010 Analytics」則是公佈了訪客的統計資料... (這類型站台的 Firefox 果然遠超過 IE...)