維基百科開始對公關公司反擊了...

維基百科對於針對維基百科條目「美化」的公關公司反擊了:「Wikimedia Foundation sends cease and desist letter to WikiPR」,PDF 可以在「2013-11-19_C&D_letter_to_WikiPR_from_Cooley.pdf」取得。

主要是以使用者條款作為依據,要求對方禁止對維基百科上的文章「美化」(像是移除負面的事實),不過看起來這種事情只會轉入地下,不會消失... :p

對於學術研究用的 Big Data...

面試的時候曾經有面試者說手上沒有 big data 可以研究,所以對 big data 的理解僅限於理論,不過我對這種講法就...

網路上有很多資料是很有用的:

能玩的東西明明就很多... 另外還可以掃各種公開資料。

維基百科機房搬遷 (從佛羅里達州搬到維吉尼亞州)

Wikimedia 的官方網誌上看到 Wikimedia 的主機房將從 Tampa, Florida 搬遷到 Ashburn, Virginia (當然,這包括 Wikipedia):「Wikimedia sites to move to primary data center in Ashburn, Virginia」。

當初機房在 Florida 的原因是... Jimmy Wales 住附近 XDDD

A major reason for choosing Tampa, Florida as the location of the primary data center in 2004 was its proximity to founder Jimmy Wales' home, at a time when he was much more involved in the technical operations of the site.

搬遷到 Virginia 除了有比較穩定的網路以外,還包括了天氣因素 (颶風比較少)。

2011 年 11 月時,bits.wikimedia.org (主要是放 CSS 與 JavaScript) 已經改用新機房服務,2012 年 2 月時成功將 read-only page 拆到 cache server 上,同年 4 月時 upload.wikimedia.org (多媒體資料,包括使用者上傳的部份) 也導到新機房。

這幾個改變讓無法 cache 而丟到後端 ApacheMySQL 的量只剩下 10%,這次打算把這 10% 的量從 Florida 搬到 Virginia。

文末也說明了目前機器數量與 PV:

The Wikimedia Foundation currently operates a total of about 885 servers, and serves about 20 billion page views a month, on a non-profit budget that relies almost entirely on donations from readers.

全世界第六大的網站,每天約六億次 PV,現在只用了 885 台 server :p

Wikipedia 把英文版資料庫的其中一個 slave 從 MySQL 5.1 換到 MariaDB 5.5...

維基百科的 mailing list 上丟出的消息,英文版 Wikipedia 資料庫的 slave server 目前已經在 MariaDB 5.5 上了:「mariadb 5.5 in production for english wikipedia」。

之前跑的版本是 MySQL 5.1 + Facebook patchset 版本,整體大約快了 8%:

Taking the times of 100% of all queries over regular sample windows, the average query time across all enwiki slave queries is about 8% faster with MariaDB vs. our production build of 5.1-fb. Some queries types are 10-15% faster, some are 3% slower, and nothing looks aberrant beyond those bounds. Overall throughput as measured by qps has generally been improved by 2-10%. I wouldn't draw any conclusions from this data yet, more is needed to filter out noise, but it's positive.

然後計畫在接下來一兩個月觀察,沒問題就全換:

MariaDB has some nice performance improvements that our workload doesn't really hit (better query optimization and index usage during joins, much better sub query support) but there are also some things, such as full utilization of the primary key embedded on the right of every secondary index that we can take advantage of (and improve our schema around) once prod is fully upgraded, hopefully over the next 1-2 months.

效能不是最主要考量,而是政治面的原因,官方說法是支持 open source 社群:(沒有講的就是「我們對 Oracle 不怎麼信任...」)

The main goal of migrating to MariaDB is not performance driven. More so, I think it's in WMF's and the open source communities interest to coalesce around the MariaDB Foundation as the best route to ensuring a truly open and well supported future for mysql derived database technology. Performance gains along the way are icing on the cake.

另外參考:「on wikipedia and mariadb」。

中文維基百科破 50 萬條目...

前幾天中文維基百科條目數量超過 50 萬 (台灣時間 7/15 的凌晨),算是一個里程碑 (吧),不過每次遇到條目數量里程碑的時候就會有這種現象:「今天條目數增加好快啊!」。

不過中文維基百科的社群氣氛還是跟以前差不多...

話說回來,原來書生罷免案已經第七次了啊...

中文版維基百科 (Wikipedia) 常用模板 (Template)

這篇不是給完全沒碰過維基百科的初學者入門用的,而是給偶而有在編輯中文版維基百科,但對於社群常用的東西不是很熟的人。

首先是對人物的部份,常用到 bd 模板,用法可以參考「成吉思汗」條目,範例如下:

{{bd|1162年||1227年|8月25日}}

好處是會加上「Category:1162年出生」與「Category:1227年逝世」的分類。如果沒有指定死亡日期則會自動再加上「Category:在世人物」,如果沒有指定生日年份的話則會加上「Category:出生不詳」,算是很基本很好用的模板。

很多人物都有 Twitter 連結,可以用 Template:Twitter 模板,範例:

{{Twitter|gslin|Gea-Suan Lin}}

再來是中文因為有不同地區造成有不同的名詞,所以有語言轉換模板 Template:NoteTA,這邊要介紹的是「Template:CGroup/list」(需要按下旁邊的「顯示」才會展開),用法如下:

{{noteTA|G1=IT|G2=Length}}
(表示對「電腦和資訊科技」與「長度單位」名詞轉換)