percona – Page 11 – Gea-Suan Lin's BLOG

Galera Cluster 3.x 的設定...

Percona XtraDB Cluster 5.6 用的是 Galera Cluster 3.x 的 patch，所以 Percona 的人寫了一篇介紹 3.x 有哪些設定：「New wsrep_provider_options in Galera 3.x and Percona XtraDB Cluster 5.6」。

看起來來比較有影響的是 gmcast.segment=0，用在跨機房之間的判斷。

看起來應該是同一個機房要設一樣的 gmcast.segment。這個值會用在兩個地方：第一個是跨 segment 的 replication 流量會試著盡可能小。第二個是同步時的 Donor 會優先選擇同機房的節點。

其他的用預設值應該就 okay...

Percona XtraDB Cluster (PXC) 開始測試 5.6 版了...

在 Percona 的 blog 上看到 Percona XtraDB Cluster 出 5.6 版 (測試版) 了：「Percona XtraDB Cluster 5.6.14-25.1 Beta is now available」。

也就是 Galera Cluster 在 MySQL 5.6 上的版本...

在 5.6 上有的功能都會有，也就是說，InnoDB 的 memcache interface，以及 FULLTEXT 功能都可以用？

另外在 comment 也有討論到要如何從 PXC 5.5 升級到 5.6 (不產生 downtime)，看起來也是噓要花時間 PoC 過後才能確認... 就算正式釋出，應該還是會觀望看看。

從爆炸的遺跡尋找蛛絲馬跡：在 MySQL crash 後，從 core file 找出當時有哪些 query 在執行

Percona 寫了一篇文章，說明在 MySQL core dump 後，要如何從 core file 撈出當時有哪些 query 在跑：「How to Extract All Running Queries (Including the Last Executed Statement) from a Core File?」。

一年前 Percona 的人也有寫一篇「How to obtain the “LES” (Last Executed Statement) from an Optimized Core Dump?」，今年這篇則是改良版，可以看到操作的方式便簡單了...

雖然大家都不喜歡 MySQL crash，但知道爆炸當時有哪些 query 對於後續的分析有很大的幫助，先紀錄起來，如果真的不幸用到，會比較快找到資料...

Percona 的 MySQL High Availability 機制比較文

Percona 發了一篇「High-availability options for MySQL, October 2013 update」，比較目前 MySQL 上常見的 High Availability 機制。

包括了五個系統：

Percona XtraDB Cluster (PXC)
Percona replication manager (PRM)
MySQL master HA (MHA)
NDB Cluster
Shared storage/DRBD

這些都是把 High Availability 做在 MySQL 上，讓前端的程式不需要操心的方式。都是有個固定的 IP address 保證可以讀寫。

這五個方案都不完美，看環境需求而選擇使用。

我一般給的建議還是 Heartbeat + DRBD + InnoDB，這個方法是極為成熟的方法，會遇到的問題網路上都已經討論過了。如果找 Percona 的人支援也是完全沒問題。

用 InnoDB 時關於 PRIMARY KEY 的建議

Percona 的「InnoDB scalability issues due to tables without primary keys」這篇文章在討論 InnoDB 在沒有 PRIMARY KEY 時的效能問題。

在討論效能問題前，應該先讀過 MySQL 官方文件裡提到 InnoDB index 架構的文章，其中就有提到 PRIMARY KEY 以及其他的 INDEX KEY 的底層架構：「InnoDB Table and Index Structures」。

InnoDB 是 clustered index 架構 (關於 clustered index 的完整說明，可以參考維基百科的「Database index」條目)，也就是說，資料本身 (row data) 存放時會按照某個順序存放，這邊的順序是按照這樣的方式定義的：

如果你有指定 PRIMARY KEY，那麼就會直接用 PRIMARY KEY 當作 clustered index。
如果沒有指定 PRIMARY KEY，但有 UNIQUE INDEX，而且所有欄位都是 NOT NULL，那麼就用這組 UNIQUE INDEX (NOT NULL) 當作 clustered index。
如果都沒有指定 PRIMARY KEY，那麼就會產生一個隱藏的欄位，是一個 6 bytes 的 auto increment 的數字，用這個欄位當 clustered index。也因為如此，在這種情況下，資料會依照建立的順序存放。

另外，InnoDB 的 secondary index 會指到 PRIMARY KEY (B+Tree 的 value 部分是放 PRIMARY KEY)。

所以，一般在規劃資料庫時建議的作法是：

所有的表格都要有 PRIMARY KEY。
PRIMARY KEY 必須是 INT UNSIGNED (4 bytes)，只有在需要 BIGINT UNSIGNED (8 bytes)的時候才用 BIGINT UNSIGNED。

對於有大量 secondary index 的表格更應該這樣做 (因為可以省下大量空間)。而對於現代的 ORM 來說，也都幾乎要求要有 PRIMARY KEY，甚至有些 ORM 要求 PRIMARY KEY 必須是 single column。

如果你都能了解後，再去看 Percona 討論沒有 PRIMARY KEY 的情況時，才能了解他們想要討論什麼事情... 裡面還包含了 InnoDB 格式的差異。

Percona XtraDB Cluster 上用 keepalived 實作高可靠度架構

Percona 的人寫了一篇「Using keepalived for HA on top of Percona XtraDB Cluster」，是用 Keepalived 實作高可靠度架構。

目前常見的文章是透過 HAProxy 達成，但 HAProxy 本身就會成為 SPOF，所以一般人的想法就是在 HAProxy 上跑 Keepalived，保持可靠度。但這個問題我之前就抱怨過，既然要跑 Keepalived (我的例子裡是 Heartbeat)，為什麼不在 Percona XtraDB Cluster 上跑就好，load balance 的任務則可以透過 DNS round robin 達成：

We would standardly use keepalived to HA HAproxy, and keepalived supports track_scripts that can monitor whatever we want, so why not just monitor PXC directly?

不過我還是偏愛 Heartbeat，因為 Heartbeat 的功能多了一些，不過架構還是很簡單，實際用起來也發現不容易出問題。

另外 Heartbeat 不論是在 Linux 還是 FreeBSD 上都跑得很好，我連內部機器用的 DNS resolver (跑 Unboound) 都上 Heartbeat。

另外也因為 Keepalived 目前不支援 FreeBSD (參考「About "ipvs" and "keepalived"」這篇文章)，所以也沒打算花時間測試了... :o

關於 Linux 的 Disk I/O 調整...

在 Twitter 上看到 tka 的 retweet，介紹了 Linux 下 Disk I/O 的調整：「PostgreSQL: Linux kernel I/O tuning」。

文章裡介紹了三種 scheduler，NOOP、CFQ、Deadline，其中 CFQ 是系統預設值。

其實 MySQL 的結論也差不多，Percona 在 2009 年的時候做過 benchmark，就直接看圖講故事吧：「Linux schedulers in tpcc like benchmark」。

數字愈大愈好。

noop 與 deadline 相當接近，對於 i/o bound 的人都應該要調整 :p

Percona Server 第一個 5.6 上 GA 版本...

Update：Percona 自己也寫了一篇「A closer look at Percona Server 5.6」可以參考看看。

Percona 推出 Percona Server 5.6.13-61.0，是 5.6 的第一個 GA 版本：「Percona Server 5.6.13-61.0 first GA release is now available」。

這等好久了，MySQL 官方有給出「What's New in MySQL 5.6」，對我來說其中有幾個亮點需要測試：

效能

至少不能比現在的效能差。

對 memcache protocol 的支援

這是 5.6 的新功能，可以透過 memcache protocol 存取 InnoDB 的資料。如果可行，可以用在 HA memcache protocol 架構。

Time-Delayed Replication

看起來應該很有用，但一時間想不到可以用在哪裡... 應該是 vm 裡面多架幾台 slave 丟著？

Percona 版的修正

Twitter branch 的 Statement Timeout 看起來是個頗有趣的項目？可以想看看用在哪裡...

Overall...

總結來說，測試機測過後，先用在 DBRD + Heartbeat 的系統上 (只換一台，如果發現 5.6 版不好用，可以 downgrade)，如果沒問題就再測試 memcache protocol，然後接下來就是等 Percona XtraDB Cluster 也出 5.6 版？

Percona 將自家產品程式碼也放一份到 GitHub 上...

前幾天提到 Percona 把 Oracle MySQL tree 放一份到 GitHub 上：「Percona 提供的 MySQL Git Mirror...」。

現在 Percona 自家產品的程式碼也放上去了：「Experimental GIT Mirrors of Percona XtraBackup, Percona Server plus Oracle MySQL trees」。

包含了：

目前開發都還是在 Launchpad 上，這邊只是 mirror...

Percona 提供的 MySQL Git Mirror...

MySQL 的開發者是用 Bazaar (bzr) 為版本控制系統，放在 Launchpad 上，不過 open source 領域目前總是有人會想要轉到 Git 上... XD

Percona 提供 Oracle MySQL 的 Git mirror，目前是實驗性質：「Experimental Git mirror of Oracle MySQL trees」。

如果只是要拉 MySQL source tree 下來看 (而且手上只有 Git，沒有裝 Bazaar 的人)，可以透過這份拉出來... 還不確定更新的頻率 :o