在「Amazon redshift optimizing performance 20150721」這篇給了不少效能調校的細節,這邊的效能調校都是針對多機器時的設計規劃 (multi nodes)。
本文圖多並且穿插大量文字,但應該是可以輕鬆讀。我從中選了重點投影片出來,在讀完這篇導讀後建議再點進去從頭讀一次,會對 Amazon Redshift 有更多了解。
第一個主題是資料的放置方式,有這幾種:
中間還有好幾張投影片是說明測試資料的類型,測試出來的結果可以看到效能還是差很多:
再來是講資料不平均當然會造成沒辦法充分運用機器效能:
然後給了一些建議:
接下來是講 sort keys 有三種,其中 interleaved 很特別,有興趣的可以研究看看,不然 compound keys 應該是已經很好用了:
接下來是每個欄位都可以設定壓縮格式,可以看到壓縮的部份如果設計的好,效能也會上升不少:
然後原始資料可以儘量拆成多個檔案再匯入 Amazon Redshift,這樣可以加速進行:
最後則是 VACUUM 的操作介紹,如果可以允許完整 deep copy 的話會更好,因為這算是最乾淨的作法:
是份很有用的投影片 :p