自適應演算法與 A/B Testing

Hacker News Daily 上看到三年前的舊文章,講自適應演算法取代常見的 A/B testing:「20 lines of code that will beat A/B testing every time」。

就拿原文裡面的例子來說明,我想要測試 "Buy Now!" 這個按鈕的顏色來得知哪個顏色的 click rate 最高,而我有 Orange、Green 以及 White 三種顏色為候選。

一開始我初始值都設為「展示了 1 次,被點擊了 1 次」,所以每個點擊率都是 100%:

Orange Green White
1/1 = 100% 1/1=100% 1/1=100%

然後你的網站上只要展示「點擊率最高的那個顏色」,並且記錄下來展示次數與點擊率就好,而整個過程會是自適應而被自動被淘汰掉,最後可能會變成這樣,就會固定是綠色的了:

Orange Green White
114/4071 = 2.8% 205/6385=3.2% 59/2264=2.6%

而這樣做的好處是節省人力成本:你不需要 A/B Testing 完後再人工介入修改。

對於更複雜的例子,雖然原文沒有提到,但你可以直接展開來做,舉例來說,你假設顏色與地區兩個變數所帶出來的 click rate 不是 i.i.d.,那麼你可以針對每個 Color + Region 都存數值去比較。

當然還是有他的問題 (comment 有提到),不過可以架出一些全自動的 workaround 來解決,比起要兩階段人工介入省了不少人力。

另外可以想像在大的產品上會遇到效能問題 (因為對同樣資料大量的 read + write),但這個數字不需要太即時,只要量大就會準確,所以技術上也可以解決...

Facebook 在 18-34 的佔有率與使用率

目前普遍的認知是 Facebook 的佔有率與使用率在年輕族群愈來愈低,不過 2015 年十二月的資料給了相反的方向:「Are Young People Leaving Facebook? Not Even Close. (Chart)」。

comScore 最近提出的報告書「2016 U.S. Cross-Platform Future in Focus」裡面:

可以會發現,Facebook 的 Reach Rate 與 MAU 都遠遠超越其他對手,甚至連 MAU 除以 Reach Rate 的值也是最高的一個等級 (表示每個人平均每個月使用的次數,可以看做是活躍率),跟 Snapchattumblr 差不多?

Backblaze 分析了 2015 年的硬碟故障比率

照慣例,Backblaze 每隔一段時間就會公佈最近的硬碟死亡率,在「Hard Drive Reliability Review for 2015」的這張圖好像說明了不少事情:

不過分開各個容量來看,又有一些不同的地方...

AWS 對外頻寬與 CloudFront 頻寬降價

AWS 在「AWS Data Transfer Price Reduction」這邊宣佈降價,回朔至 2014 年 12 月 1 日開始計算。

分成一般 Outbound 與 CloudFront Outbound 部份。

一般 Outbound 的部份,US/EU 主要降價的部份是一開始的流量 (10TB 以下的部份),亞洲區的部份主要是新加坡降價特別多,大概是把量養出來了?

CloudFront Outbound 的部份主要也是在 10TB 以下的部份。

另外一個比較特別的地方 (但也許沒有太大差異),是 CloudFront 往 origin 抓資料時,如果 origin 在 AWS network 內就不計算費用 (包括了 S3EC2)。

如果暫時先不考慮 per request 費用,會注意到 US/EU 一般 Outbound 的費用是 USD$0.90/GB,而 CloudFront 是 USD$0.85/GB,量更大的時候會更明顯?

馬上想到 Netflix 這種單一 request 會有巨大流量的用法會隨著這次計費方式改變而有變化?

現代的電子報設計環境

在「What 22 Billion Newsletters Tell Us About Designing For Mobile Email」這篇討論現在電子報設計的環境。

首先是討論 table layout 而引用了 2013 年的數據:

可以看到行動平台的比率已經是主流了。在這種情況下是否還適合用 table layout 就變成問題了...

在文章後面有很多其他的數據以及討論,重點在於推導的過程,而非直接看文章的結論。要有能力透過數據分析。

44.1kHz 的由來...

在「Explanation of 44.1 kHz CD sampling rate」這邊看到 44.1kHz 的解釋...

這個數字反而是跟 video 有關而設計出來的:

In 60 Hz video, there are 35 blanked lines, leaving 490 lines per frame or 245 lines per field, so the sampling rate is given by :

60 X 245 X 3 = 44.1 KHz

In 50 Hz video, there are 37 lines of blanking, leaving 588 active lines per frame, or 294 per field, so the same sampling rate is given by

50 X 294 X3 = 44.1 Khz.

而後來 44.1kHz 被拿去 CD 規格裡使用而被廣泛應用...