Home » Posts tagged "data" (Page 13)

Amazon Web Services 新的儲存方案:Amazon Glacier

Amazon Simple Storage Service (Amazon S3)AWS 第一代儲存服務。後來 S3 又提供了 Reduced Redundancy Storage,降低可靠度 (一年 99.99%) 換取價錢上的優勢,用在 cache file 之類的還蠻不錯。目前兩者在美東的價錢是 USD$0.125/GB 與 USD$0.093/GB。這兩種都是隨時可以存取的服務。

Amazon Glacier 則是提供超低的價錢與超高的可靠度:USD$0.01/GB 與一年 99.999999999%,而這是靠取回檔案的時間換來的。取回檔案需要排 3.5 到 4.5 小時的時間 (後面傳輸的時間另外計算):

Retrieving archives from Amazon Glacier requires the initiation of a job. Jobs typically complete in 3.5 to 4.5 hours.


但這樣就多了很多用途啊... Data warehouse 是個很明顯的方向。目前可以透過 AWS Import/Export 匯入大量資料:

You can also use AWS Import/Export to accelerate moving large amounts of data into Amazon Glacier using portable storage devices for transport.

之後則是會提供從 S3 搬出去與搬進去的功能:

In the coming months, Amazon Simple Storage Service (Amazon S3) plans to introduce an option that will allow you to seamlessly move data between Amazon S3 and Amazon Glacier using data lifecycle policies.

等工具完整後再來研究 :p

PHP 提供的資料結構...

從「How big are PHP arrays (and values) really? (Hint: BIG!)」這篇看到的。文章本身值得花些時間看過了解,不過對我來說重點在最後面的 SplFixedArray

PHPDatastructures 說明目前 PHP SPL 所支援的 data structure,在記憶體用量以及效率上面都會比自己實作來的小且快。

可以看到很多都支援 Countable、Iterator,以及 ArrayAccess,代表可以用 foreach() 或是對應的方式存取... 如果自己寫 library 的時候應該要善用這些 SPL。

Google 與微軟的員工的比較:食物...

TechCrunch 上看到的文章:「Googlers Buy More Junk Food Than Microsofties (And Why Rapleaf Is Creepy)」,文章裡面提到 RapLeaf 這家公司從 Internet 上挖資料分析了 Google微軟這兩家公司的員工的飲食習慣,發現 Google 的員工比微軟的員工喜歡吃垃圾食物...

雖然是做噱頭的 startup,但這還是說明 Social Network 上可以分析的資料其實種類相當多,如果 Facebook 自己丟人力下去做的話應該會更驚人...

Twitter 新機房,以及數據...

Twitter Engineer Blog 上的「The Great Migration, the Winter of 2011」這篇文章裡提到了 Twitter 預定搬機房的行程,裡面有些數據...


Today, the feed and care of Twitter requires more than 200 engineers to keep the site growing and running smoothly.

機器數量超過 1000 台:(用 thousands 這個詞)

Simultaneously, our operations engineers divided into new teams and built new processes and software to allow us to qualify, burn-in, deploy, tear-down and monitor the thousands of servers, routers, and switches that are required to build out and operate Twitter.

Tweet 的資料量:

Once we proved our replication strategy worked, we built out the full Twitter stack, and copied all 20TB of Tweets, from @jack’s first to @honeybadger’s latest Tweet to the second data center.