Tag Archives: redshift

Amazon Redshift 壓縮率的改善

Amazon Redshift 對壓縮率的改善:「Data Compression Improvements in Amazon Redshift Bring Compression Ratios Up to 4x」。 首先是引入了 Zstandard: First, we added support for the Zstandard compression algorithm, which offers a good balance between a high compression ratio and speed in build 1.0.1172. … Continue reading

Posted in AWS, Cloud, Computer, Database, Murmuring, Network, Software|Tagged , , , , , , , , , , , , , , , , , |Leave a comment

Amazon Redshift 可以讀 S3 裡被 KMS 加密過的資料了

清資料時發現支援了:「Amazon Redshift now supports encrypting unloaded data using Amazon S3 server-side encryption with AWS KMS keys」: The Amazon Redshift UNLOAD command now supports Amazon S3 server-side encryption using an AWS KMS key. 這樣資料丟上 Amazon S3 時可以透過 AWS KMS 加密保存,而 Amazon … Continue reading

Posted in AWS, Cloud, Computer, Database, Murmuring, Network, Security, Software|Tagged , , , , , , , , , |Leave a comment

Amazon Redshift 支援 Zstandard

Amazon Redshift 支援 Zstandard 壓縮資料:「Amazon Redshift now supports the Zstandard high data compression encoding and two new aggregate functions」。 Zstandard 是 Facebook 的人發展出來的壓縮與解壓縮方式,對比的對象主要是 zlib (或者說 gzip),官網上有不少比較圖。目標是希望在同樣的壓縮處理速度下,可以得到更好的壓縮率。 Redshift 支援 Zstandard 等於是讓現有使用 gzip 的使用者免費升級的感覺...

Posted in AWS, Cloud, Computer, Database, Murmuring, Network, Software|Tagged , , , , , , , , , , , |Leave a comment

Amazon Athena:直接在 S3 上進行分析

Amazon Athena 提供另外一種選擇,讓分析的便利性增加了許多:「Amazon Athena – Interactive SQL Queries for Data in Amazon S3」。 以往都需要開 server 起來分析,這個新的服務直接使用就好: Athena is based on the Presto distributed SQL engine and can query data in many different formats including JSON, CSV, log files, text with … Continue reading

Posted in AWS, Cloud, Computer, Database, Murmuring, Network, Software|Tagged , , , , , , , , , , , , , |Leave a comment

Amazon Redshift 可以透過 IAM Role 直接 COPY 與 UNLOAD 了

Amazon Redshift 的這個功能等了好久啊,之前都要自己指定 key 與 secret,不只讓程式寫起來變麻煩,安全性也一直是個問題:「Amazon Redshift now supports using IAM roles with COPY and UNLOAD commands」。 之前的指令是: COPY ... FROM ... WITH CREDENTIALS 'aws_access_key_id=access-key-id;aws_secret_access_key=secret-access-key' ... 現在都可以透過 IAM Role 省下這些功夫...

Posted in AWS, Cloud, Computer, Database, Murmuring, Network, PostgreSQL, Security, Software|Tagged , , , , , , , |Leave a comment

Amazon Redshift 的新功能 (BZIP2)

Amazon Redshift 也推出了好幾個新功能,不過有個有點奇怪的壓縮格式 bzip2 出現了:「Amazon Redshift announces tag-based permissions, default access privileges, and BZIP2 compression format」。 BZIP2 data format: The COPY command now accepts data in BZIP2 compression format, in addition to GZIP and LZOP formats, when loading data into … Continue reading

Posted in AWS, Cloud, Computer, Murmuring, Network, Software|Tagged , , , , , , , |Leave a comment

Amazon Redshift 支援用 Python 寫 UDF

Amazon Redshift 剛剛公佈可以使用 Python 寫 UDF:「Introduction to Python UDFs in Amazon Redshift」。 Redshift 是先編成 byte code 後再跑,所以不會有 C 或是 C++ 那麼快: The Python execution in Amazon Redshift is also run as compiled byte code. Although this still won’t be as … Continue reading

Posted in AWS, Cloud, Computer, Murmuring, Network, Programming|Tagged , , , , , |Leave a comment

Amazon Redshift 的 Data Ingestion

在 AWS 放出的「Amazon redshift migration and load data 20150722」這份投影片則是解釋了 data ingestion 時的建議行為。 其實這張就道盡目前 Amazon Redshift 架構上的最佳作法,也就是每次都 TRUNCATE 掉重新 import。後面的所有方法其實都是 workaround,效能不會太好... XD 另外後面是介紹倒資料進 Amazon Redshift 的方式,官方是還蠻推 AWS Data Pipeline,但你用過就會知道有多麻煩與痛苦...

Posted in AWS, Cloud, Computer, Database, Murmuring, Network, PostgreSQL, Software|Tagged , , , , , , , , |Leave a comment

Amazon Redshift 的效能調校

在「Amazon redshift optimizing performance 20150721」這篇給了不少效能調校的細節,這邊的效能調校都是針對多機器時的設計規劃 (multi nodes)。 本文圖多並且穿插大量文字,但應該是可以輕鬆讀。我從中選了重點投影片出來,在讀完這篇導讀後建議再點進去從頭讀一次,會對 Amazon Redshift 有更多了解。 第一個主題是資料的放置方式,有這幾種: 中間還有好幾張投影片是說明測試資料的類型,測試出來的結果可以看到效能還是差很多: 再來是講資料不平均當然會造成沒辦法充分運用機器效能: 然後給了一些建議: 接下來是講 sort keys 有三種,其中 interleaved 很特別,有興趣的可以研究看看,不然 compound keys 應該是已經很好用了: 接下來是每個欄位都可以設定壓縮格式,可以看到壓縮的部份如果設計的好,效能也會上升不少: 然後原始資料可以儘量拆成多個檔案再匯入 Amazon Redshift,這樣可以加速進行: 最後則是 VACUUM 的操作介紹,如果可以允許完整 deep copy 的話會更好,因為這算是最乾淨的作法: 是份很有用的投影片 :p

Posted in AWS, Cloud, Computer, Database, Murmuring, Network, Software|Tagged , , , , |Leave a comment

Amazon Redshift 的新硬體規格

Amazon Redshift 是以 SQL 介面操作的方式分析 data warehouse 的資料,可以利用多台機器平行計算加速。 這次 Amazon Redshift 提供了新的硬體規格出來 (ds2.* 系列):「Amazon Redshift – Now Faster and More Cost-Effective than Ever」。 ds2.* 與原來 ds1.* 的價錢都一樣,但是 vCPU 與記憶體都加倍,網路與 I/O 速度都升級了。如果沒有買 Reversed Instance (RI) 的人可以換過去,有買的人就再想辦法吧... 然後 Amazon Redshift 的 RI … Continue reading

Posted in Computer|Tagged , , , , , , |Leave a comment