在舊金山參加 Spark Summit 2013,結論:
- 所有用 Spark 的公司或是單位都有共通的原因而改用 Spark:效能。其他提到的 feature 都不是真正一定要用 Spark 的原因。換 Spark 後可以多用這些 feature 是加分,但沒有也 ok,重點還是在效能。
- 會發現幾乎所有人都用 Scala,對其他語言的支援大多都還在發展。比較驚訝的是大家完全不想提 Java... Python 倒是還提過幾次 XD
所以只拿 Spark 當 MR-framework 也是很夠值得用的,如果要用 Streaming (Real-time processing) 的話,效能提升會更明顯。
然後,不要想用其他程式語言,乖乖的用 Scala 吧...
另外 Hadoop Streaming 跟 Spark Streaming 講的是不一樣的東西,在會場上講 Streaming 一般都講 Real-time processing,這點在會場的時候差點轉不過來 :o