Amazon Redshift 的效能調校

在「Amazon redshift optimizing performance 20150721」這篇給了不少效能調校的細節，這邊的效能調校都是針對多機器時的設計規劃 (multi nodes)。

本文圖多並且穿插大量文字，但應該是可以輕鬆讀。我從中選了重點投影片出來，在讀完這篇導讀後建議再點進去從頭讀一次，會對 Amazon Redshift 有更多了解。

第一個主題是資料的放置方式，有這幾種：

中間還有好幾張投影片是說明測試資料的類型，測試出來的結果可以看到效能還是差很多：

再來是講資料不平均當然會造成沒辦法充分運用機器效能：

然後給了一些建議：

接下來是講 sort keys 有三種，其中 interleaved 很特別，有興趣的可以研究看看，不然 compound keys 應該是已經很好用了：

接下來是每個欄位都可以設定壓縮格式，可以看到壓縮的部份如果設計的好，效能也會上升不少：

然後原始資料可以儘量拆成多個檔案再匯入 Amazon Redshift，這樣可以加速進行：

最後則是 VACUUM 的操作介紹，如果可以允許完整 deep copy 的話會更好，因為這算是最乾淨的作法：

是份很有用的投影片 :p

Leave a Reply