不停機把 server 搬到兩百米外的機房

Hacker News Daily 上看到的有趣故事,作者在 Reddit 上描述怎麼不停機把實體的伺服器搬到兩百米外的機房,中間還經過了停車場:「[Rant... sorta] Physically moved a server today...」,另外作者的 FAQ 在「[FAQ][Rant... sorta] Physically moved a server today...」這邊可以看到。

我會把這個當故事看一看就好,裡面還是有一些細節沒有被敘述 (像是網路不斷線的部份),感覺不太對,但就一個故事來看是蠻有趣的 XD

搬運的過程中間包括了使用 UPS 與多顆 switch 對接,另外中間經過一個停車場,算是很有趣的方式?

Facebook 研究用鋰電池當作 UPS 替代方案

Slashdot 上看到「Facebook Testing Lithium-Ion Batteries For Backup Power」,原報導出自「Facebook gives its server racks a Tesla touch」。

這讓我想到之前 Google 也做過類似的架構,不過是用蓄電池:「Google Finally Declassifies Some Key Server Design Secrets」。

上圖右上邊的那個區塊就是蓄電池。

Facebook 會考慮鋰電池是因為 Telsa 的需求使得價錢往下掉,進而考慮將本來的 UPS 換成鋰電池。

網路陸陸續續恢復了...

據說是改接線路跳過 UPS 後直接上市電供應,然後逐層恢復:(出自公開社團「225 內湖機房斷線八卦區」)

然後中華也恢復對 ajax.googleapis.com 該有的 packet loss 了:(參考上篇「HiNet 到 Google 改走國際線路,packet loss rate 反而降下來...」)

現在連的到 www.chief.com.tw 了,也看得到官方公告「是方電訊IDC大樓復電 客戶服務陸續恢復正常」了...

機房斷線最常見的肇因:UPS

UPS 反而是機房斷線最常見的肇因:「Survey: UPS Issues Are Top Cause of Outages」。

這是美國機房的調查,取樣則是從「歸咎於機房的問題」中的 453 件分析,原因包括了:

  • UPS battery failure (65 percent)
  • Exceeding UPS capacity (53 percent)
  • Accidental emergency power off (EPO)/human error (51 percent)
  • UPS equipment failure (49 percent)

應該是多選吧?不然超過 100% 了?