Home » Posts tagged "data" (Page 13)

Google 警告美國流感疫情提升...

Google 在很久前就發現可以利用「搜尋的關鍵字」推測流感疫情,而在 2008 年建立了 Google Flu Trends,利用關鍵字來推測可能的疫情:「Explore flu trends around the world」。

而今年 Google 發出警告,依照關鍵字觀察,美國的流感疫情比起歷年來都高出不少:「Google - Yes, Google - Warns Of "Intense" U.S. Flu Activity」。

這除了是 Google 的火力展示之外,也是在說明資料被適當應用時的威力。

了解 C 語言的數字資料型態...

在「Deep C: Understanding the Design of C Integer Types」這篇文章裡面以 C99 為參考文件,說明 C 語言的資料型態 (尤其是數字的部份)。

裡面引用了規個書的文件,說明「為什麼」數字資料型態會長這樣:

To help ensure that no code explosion occurs for what appears to be a very simple operation, many operations are defined to be how the target machine’s hardware does it rather than by a general abstract rule.

以 target machine 為主要考量的特性與 C 語言被認為是 portable assembly language 的想法還蠻同調的... (What is a portable assembly language?)

所以寫 Portable C code 的人會比較辛苦,需要查規格書的資料,確保各平台都能夠正確被編譯... 而到最後演變成沒什麼人在管 "portable" 這件事情,反正 Autotools 開下去針對不能跑的平台用不同的 code XD

Wikimedia 要幹蠢事了...

在「What are readers looking for? Wikipedia search data now available」這邊看到維基百科打算公開 search data,這不是前人幹過的蠢事嗎...

這讓我想起 2006 年「AOL search data leak」事件。AOL 希望對學術界有貢獻,於是把三個月份的 search data 匿名化後丟出來,結果被發現不管怎麼匿名化,search data 還是有辦法找出本人。AOL 也因此被告並且判決只要包含在內的每個人都可以拿到 USD$5000 的賠償。不過也因為 AOL 幹了蠢事,這也是少數被公開的 search real data。

看起來 Wikimedia 也要再來幹一次?

Amazon Web Services 新的儲存方案:Amazon Glacier

Amazon Simple Storage Service (Amazon S3)AWS 第一代儲存服務。後來 S3 又提供了 Reduced Redundancy Storage,降低可靠度 (一年 99.99%) 換取價錢上的優勢,用在 cache file 之類的還蠻不錯。目前兩者在美東的價錢是 USD$0.125/GB 與 USD$0.093/GB。這兩種都是隨時可以存取的服務。

Amazon Glacier 則是提供超低的價錢與超高的可靠度:USD$0.01/GB 與一年 99.999999999%,而這是靠取回檔案的時間換來的。取回檔案需要排 3.5 到 4.5 小時的時間 (後面傳輸的時間另外計算):

Retrieving archives from Amazon Glacier requires the initiation of a job. Jobs typically complete in 3.5 to 4.5 hours.

是靠著機械手臂與軌道在處理嗎?

但這樣就多了很多用途啊... Data warehouse 是個很明顯的方向。目前可以透過 AWS Import/Export 匯入大量資料:

You can also use AWS Import/Export to accelerate moving large amounts of data into Amazon Glacier using portable storage devices for transport.

之後則是會提供從 S3 搬出去與搬進去的功能:

In the coming months, Amazon Simple Storage Service (Amazon S3) plans to introduce an option that will allow you to seamlessly move data between Amazon S3 and Amazon Glacier using data lifecycle policies.

等工具完整後再來研究 :p

PHP 提供的資料結構...

從「How big are PHP arrays (and values) really? (Hint: BIG!)」這篇看到的。文章本身值得花些時間看過了解,不過對我來說重點在最後面的 SplFixedArray

PHPDatastructures 說明目前 PHP SPL 所支援的 data structure,在記憶體用量以及效率上面都會比自己實作來的小且快。

可以看到很多都支援 Countable、Iterator,以及 ArrayAccess,代表可以用 foreach() 或是對應的方式存取... 如果自己寫 library 的時候應該要善用這些 SPL。

Google 與微軟的員工的比較:食物...

TechCrunch 上看到的文章:「Googlers Buy More Junk Food Than Microsofties (And Why Rapleaf Is Creepy)」,文章裡面提到 RapLeaf 這家公司從 Internet 上挖資料分析了 Google微軟這兩家公司的員工的飲食習慣,發現 Google 的員工比微軟的員工喜歡吃垃圾食物...

雖然是做噱頭的 startup,但這還是說明 Social Network 上可以分析的資料其實種類相當多,如果 Facebook 自己丟人力下去做的話應該會更驚人...

Twitter 新機房,以及數據...

Twitter Engineer Blog 上的「The Great Migration, the Winter of 2011」這篇文章裡提到了 Twitter 預定搬機房的行程,裡面有些數據...

目前維護的人數:

Today, the feed and care of Twitter requires more than 200 engineers to keep the site growing and running smoothly.

機器數量超過 1000 台:(用 thousands 這個詞)

Simultaneously, our operations engineers divided into new teams and built new processes and software to allow us to qualify, burn-in, deploy, tear-down and monitor the thousands of servers, routers, and switches that are required to build out and operate Twitter.

Tweet 的資料量:

Once we proved our replication strategy worked, we built out the full Twitter stack, and copied all 20TB of Tweets, from @jack’s first to @honeybadger’s latest Tweet to the second data center.

Archives