HDFS 上的 Memory Storage

Apache Spark 以記憶體操作為賣點的想法,有人提出來直接讓 HDFS 支援 Memory Storage 了:「Discardable Distributed Memory: Supporting Memory Storage in HDFS」,文章的副標題「HDFS's storage subsystem gets a boost with discardable distributed memory」也說明了特性。

整個計畫在「[HDFS-5851] Support memory as a storage medium - ASF JIRA」這邊可以看到。

不過 Spark 帶來的想法現在才有進度... 這發展的速度也太快了 XD

Spark Summit 2013 第一天心得...

在舊金山參加 Spark Summit 2013,結論:

  • 所有用 Spark 的公司或是單位都有共通的原因而改用 Spark:效能。其他提到的 feature 都不是真正一定要用 Spark 的原因。換 Spark 後可以多用這些 feature 是加分,但沒有也 ok,重點還是在效能。
  • 會發現幾乎所有人都用 Scala,對其他語言的支援大多都還在發展。比較驚訝的是大家完全不想提 Java... Python 倒是還提過幾次 XD

所以只拿 Spark 當 MR-framework 也是很夠值得用的,如果要用 Streaming (Real-time processing) 的話,效能提升會更明顯。

然後,不要想用其他程式語言,乖乖的用 Scala 吧...

另外 Hadoop Streaming 跟 Spark Streaming 講的是不一樣的東西,在會場上講 Streaming 一般都講 Real-time processing,這點在會場的時候差點轉不過來 :o