Mark Litwintschik 最近在連載 A Billion Taxi Rides 的資料分析系列作品:
- A Billion Taxi Rides in Redshift
- A Billion Taxi Rides in Hive & Presto
- A Billion Taxi Rides on Amazon EMR running Presto
- A Billion Taxi Rides on Amazon EMR running Spark
- A Billion Taxi Rides in Elasticsearch
- A Billion Taxi Rides in PostgreSQL
同樣的資料 (而且這個資料量夠大,拿來 benchmark 比較有參考價值),用不同的工具分析,對於要挑工具的人可以看一看,另外也因為裡面給了很多 command sample,要自己動手測試也是個很棒的資料...