這兩則可以一起看,首先是 Jimmy Wales 對於提議用 blockchain 記錄維基百科的回應:
We already store data. In a database. It works well.
— Jimmy Wales (@jimmy_wales) February 10, 2020
另外一個是 xkcd 最近的酸圖:
腦袋裡又瞬間冒出「詐騙集團」這個詞彙 XDDD
幹壞事是進步最大的原動力
這兩則可以一起看,首先是 Jimmy Wales 對於提議用 blockchain 記錄維基百科的回應:
We already store data. In a database. It works well.
— Jimmy Wales (@jimmy_wales) February 10, 2020
另外一個是 xkcd 最近的酸圖:
腦袋裡又瞬間冒出「詐騙集團」這個詞彙 XDDD
在 Hacker News Daily 這邊看到,英文版維基百科有一套列表,整理出「重要」的條目:「Wikipedia:Vital articles」。
目前的列表有五個層級,從 Level 1 到 Level 5,後面的 Level 包含了前面 Level 的文章:
看到的第一個問題就是這些列表怎麼產生的,這點在 Wikipedia talk:Vital articles/Frequently Asked Questions 裡面有提到列表的歷史:這是 2004 年由 David Gerard 發起,之後擴大到社群並且分不同等級。而這也說明了這些列表示人工選擇的,而不是透過演算法推薦的:
The English Wikipedia Vital Articles list was originally created in August 2004 by David Gerard as an adaptation of the metawiki List of articles every Wikipedia should have. Since then, the Vital Articles list has undergone numerous revisions by multiple editors, and has expanded to include 5 different levels of vitalness.
然後選擇的標準是「要了解這個領域不可或缺的條目」:
A vital article is one considered essential to the subjects listed. For example, it would be difficult to discuss Science without the scientific method, History without World War II, Language without Grammar, Earth science without Geology, or Civics without Democracy. Individuals within the People section represent the pinnacles of their field, such as Albert Einstein in "Inventors and scientists" or William Shakespeare in "Authors". In sections such as those pertaining to People, History or Geography, weight is given to some articles to produce a more diverse, global list.
這些列表其中一種用法是「想要了解某個領域」,但剛剛翻了一下 Level 1 與 Level 2 可以發現似乎太少,看起來 Level 3 的資料算是個還不錯的起點...
在 Hacker News Daily 上看到的資料,整理了 PostgreSQL 上不要使用的功能:「Don't Do This」,而且是放在官方網域 wiki.postgresql.org 上。
裡面這些想法不知道出處是哪邊... 有不少功能算是 PostgreSQL 特有的功能 (以 open source RDBMS 這個領域來看),而且大概也還想的到用的場景,你卻在上面叫大家不要用,再寫的時候大概是吸了一批很純的,已經不知道要從哪邊開始吐槽...
要看的話連同 Hacker News 上的留言一起看會比較有前因後果:「https://news.ycombinator.com/item?id=19817531」。
前幾天在「Amazon Lightsail 降價...」這篇文章提到了 Lightsail 這波降價還蠻有競爭力的,但之前看過「Is the fact that Lightsail instances are just renamed T2 instances that run on CPU credits actually documented anywhere?」這篇,大概知道 Lightsail 後面其實就是 t2
系列的機器,只是在這次 t3
出來後的改版不知道有沒有順便一起改...
前幾天直接把 blog + wiki 整個搬過去看看。本來在 Vultr 的主機是 1GB RAM,就挑了對應的方案搬過去... 如果還是 t2
的話,應該就會是 t2.micro
的機器。
由於搬家前面一天都在弄各種環境,所以應該累積了不少 CPU credit,實際的情況還是要等 DNS 指過來超過一天後才會知道。在剛剛跑了一整天,把 CPU credit 吃差不多後確認了,應該還是 t2.micro
,baseline 在 10% (被降速了):
這樣的話就維持在 Vultr 好了... CPU 資源看起來還是用超過了。
去年十一月出 PHP 7.2,現在已經更新到 7.2.5,各家軟體的相容性也都修的差不多了,差不多該升級了。
在「PHP 7.2 的效能改善」這邊有提到與 PHP 7.1 的效能改善主要來自於同時間有多人同時存取時的最佳化。
同樣 wiki 也跟著更新了,來看看效果如何...
所以有新的 streaming protocol 取代本來的 RCStream:「Get live updates to Wikimedia projects with EventStreams」。
這次新的 protocol 是走標準協定:
EventStreams is built on the w3c standard Server Sent Events (SSE). SSE is simply a streaming HTTP connection with event data in a particular text format. Client libraries, usually called EventSource, assist with building responsive tools, but because SSE is really just HTTP, you can use any HTTP client (even curl!) to consume it.
直接用瀏覽器打開也可以看到一直冒出來新的訊息...
不只是維基百科,還包括所以維基基金會的專案都可以查到,精確度可以到每日。
MediaWiki 系統提供的 API 在維基基金會上的專案都關掉了。主要是因為維基基金會的專案量太大,前方有大量的 cache 擋住,後端能提供的資料其實沒有意義。取而代之的是另外規劃出來的 API。
API 的介紹說明在「Analytics/PageviewAPI」這邊可以看到,官方所提供的完整 API 說明文件則可以在「Wikimedia REST API」這邊查到。
實際測試發現資料從 2015/07/01 開始,每日更新的速度還不錯,像是 UTC 還是 2016/07/31 的現在可以取到 2016/07/30 的資料了。舉例來說,想要拉中文版 Kalafina 在 2016 七月由人閱覽的資料:
https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/zh.wikipedia/all-access/user/Kalafina/daily/20160701/20160731
如果是想拉日文版的就換成 ja.wikipedia
:
https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/ja.wikipedia/all-access/user/Kalafina/daily/20160701/20160731
先前 MediaWiki 所提供的「變更通知」都只有在信件裡「通知」,而沒有在信件裡列出「改變的內容」,這使得讀信的人要再點進去看... (於是就懶的點了)
而前陣子看到有人寫了 extension 來輸出 diff,解決了這個問題:「MediaWiki extension EmailDiff: notification emails improved」。
信裡變成有這樣的內容:
Version differences: @@ -846,5 +887,3 @@ In cattle, temperament can affect production traits such as carcass and meat quality or milk yield as well as affecting the animal's overall health and -reproduction. Cattle temperament is defined as "the consistent behavioral and physiological -difference observed between individuals in response to a stressor or environmental +reproduction. If you succeed in tipping a cow only partway, such that only one +of its feet is still on the ground, you have created lean beef. Such a feat is +well done. Naturally, being outside, the cow is unstable. When it falls over, +it becomes ground beef. Cattle temperament is defined as "the consistent behavioral +and physiological difference observed between individuals in response to a stressor or environmental challenge and is used to describe the relatively stable difference in the behavioral predisposition of an animal, which can be related to psychobiological mechanisms.
這樣可讀性高非常多,來找人裝看看好了...
在「Wikimedia Performance Metrics」這邊看到維基媒體 (Wikimedia) 的效能資訊網頁:「Metrics — Wikimedia Performance」,這邊是以前端效能為主。在「Grafana」這邊則包括了更多的資訊。
在「Performance」這邊有關於效能頁面的說明,看起來還在開發...
英文版維基百科針對付費帳號的反擊:「Hundreds of “black hat” English Wikipedia accounts blocked following investigation」。
這邊講的「付費帳號」被定義為 undisclosed paid advocacy,也就是存在利益衝突但故意不揭露的情況。維基百科的人還產生了一張圖來說明這次 381 個帳號被停權檢查的情況:(黃色是 IP address,綠色是 username,可以看出很多重疊的情況)
感覺應該可以把某些部分自動化掉...