Amazon Redshift 會自動在背景重新排序資料以增加效能

Amazon Redshift 的新功能,會自動在背景重新排序資料以增加效能:「Amazon Redshift introduces Automatic Table Sort, an automated alternative to Vacuum Sort」。

版本要到更新到 1.0.11118,然後預設就會打開:

This feature is available in Redshift 1.0.11118 and later.

Automatic table sort is now enabled by default on Redshift tables where a sort key is specified.

重新排序的運算會在背景處理,另外帶一些行為學習分析:

Redshift runs the sorting in the background and re-organizes the data in tables to maintain sort order and provide optimal performance. This operation does not interrupt query processing and reduces the compute resources required by operating only on frequently accessed blocks of data. It prioritizes which blocks of table to sort by analyzing query patterns using machine learning.

算是丟著讓他跑就好的東西,升級上去後可以看一下 CloudWatch 的報告,這邊沒有特別講應該是還好... XD

Amazon Redshift 可以處理座標資料了

這一個月 AWS 因為舉辦一年一度的 AWS re:Invent,會開始陸陸續續放出各種消息... 這次是 Amazon Redshift 宣佈支援 spatial data,這樣一來就能夠方便的處理座標資料了:「Using Spatial Data with Amazon Redshift」。

支援的種類與使用的限制可以在官方的文件裡面看到,也就是「Querying Spatial Data in Amazon Redshift」與「Limitations When Using Spatial Data with Amazon Redshift」這兩篇。

其實限制還蠻多的,而其中這條看起來有點痛,擴充性受到限制:

Data types for Python user-defined functions (UDFs) don't support the GEOMETRY data type.

看起來暫時是先支援計算的部份,之後看看有沒有機會變成原生型態的支援,這樣使用起來才會比較順...

Amazon Redshift 的新硬體規格

Amazon Redshift 是以 SQL 介面操作的方式分析 data warehouse 的資料,可以利用多台機器平行計算加速。

這次 Amazon Redshift 提供了新的硬體規格出來 (ds2.* 系列):「Amazon Redshift – Now Faster and More Cost-Effective than Ever」。

ds2.* 與原來 ds1.* 的價錢都一樣,但是 vCPU 與記憶體都加倍,網路與 I/O 速度都升級了。如果沒有買 Reversed Instance (RI) 的人可以換過去,有買的人就再想辦法吧...

然後 Amazon Redshift 的 RI 模式也與 EC2 的 RI 架構相同了,有三種選擇。

Amazon Web Services 新的儲存方案:Amazon Glacier

Amazon Simple Storage Service (Amazon S3)AWS 第一代儲存服務。後來 S3 又提供了 Reduced Redundancy Storage,降低可靠度 (一年 99.99%) 換取價錢上的優勢,用在 cache file 之類的還蠻不錯。目前兩者在美東的價錢是 USD$0.125/GB 與 USD$0.093/GB。這兩種都是隨時可以存取的服務。

Amazon Glacier 則是提供超低的價錢與超高的可靠度:USD$0.01/GB 與一年 99.999999999%,而這是靠取回檔案的時間換來的。取回檔案需要排 3.5 到 4.5 小時的時間 (後面傳輸的時間另外計算):

Retrieving archives from Amazon Glacier requires the initiation of a job. Jobs typically complete in 3.5 to 4.5 hours.

是靠著機械手臂與軌道在處理嗎?

但這樣就多了很多用途啊... Data warehouse 是個很明顯的方向。目前可以透過 AWS Import/Export 匯入大量資料:

You can also use AWS Import/Export to accelerate moving large amounts of data into Amazon Glacier using portable storage devices for transport.

之後則是會提供從 S3 搬出去與搬進去的功能:

In the coming months, Amazon Simple Storage Service (Amazon S3) plans to introduce an option that will allow you to seamlessly move data between Amazon S3 and Amazon Glacier using data lifecycle policies.

等工具完整後再來研究 :p