KataGo 1.12.0 與 UEC 杯用的 model:b18c384nbt-uec.bin.gz

剛剛看到 KataGo 出了 1.12.0,同時也放出了在 2022 年十一月 UEC 比賽時用的 model:「New Neural Net Architecture!」。

1.12.0 比較特別的新的類神經網路架構:

This version of KataGo adds support for a new and improved neural net architecture!

這個新的架構以及其他的改善讓訓練的速度改善:

The new neural nets use a new nested residual bottleneck structure, along with other major improvements in training. They train faster than KataGo's old nets and learn more effectively.

另外一個是他把 UEC 比賽時用的 model 放出來了,很特別的是採用 b18c384,而 KataGo Distributed Training 這邊目前主要是 b40c256 與 b60c320,看起來是為了比賽而一次性訓練出來的。

依照他的說法這個 b18c384 版本跟目前訓練網站上的 b60c320 有差不多強度,但計算速度會比 b60c320 快不少,甚至在一些機器上會跟 b40c256 差不多快:

Attached to this release is a one-off net b18c384nbt-uec.bin.gz that was trained for a tournament in 2022, which should be of similar strength to the 60-block nets on http://katagotraining.org/, but on many machines will run much faster, on some machines between 40-block and 60-block speed, but on some machines even as fast as or faster than 40-block.

另外一個大改變是他把訓練工具從 TensowFlow 跳槽到 PyTorch

The training code has been all rewritten to use pytorch instead of tensorflow.

在 release note 裡沒有提到原因,但這個頗讓人好奇的...

直接用 prompt 產生音樂的 Riffusion

很紅的 Stable Diffusion 是寫一串文字 (prompt) 然後產生圖片,而 Riffusion 則是寫一串文字產生音樂。

其中 prompt 轉成音樂其實還在可以預期的範圍 (i.e. 遲早會出現),但專案的頁面上解釋了 Riffusion 是基於 Stable Fusion 的作品,而且是利用 Stable Fusion 產生出時頻譜 (spectrogram):

Well, we fine-tuned the model to generate images of spectrograms, like this:

也就是像這樣的圖:

Hacker News 上討論時的討論頁可以看看,作者有參與一些討論:「Riffusion – Stable Diffusion fine-tuned to generate music (riffusion.com)」。

其中有人提到這個作法超出想像,因為輸出的圖片只要幾個 pixel 差一點點就會產生出很不同的聲音:

This really is unreasonably effective. Spectrograms are a lot less forgiving of minor errors than a painting. Move a brush stroke up or down a few pixels, you probably won't notice. Move a spectral element up or down a bit and you have a completely different sound. I don't understand how this can possibly be precise enough to generate anything close to a cohesive output.

Absolutely blows my mind.

然後其中一位作者回覆到,他也是做下去後才很意外發現居然可行:

Author here: We were blown away too. This project started with a question in our minds about whether it was even possible for the stable diffusion model architecture to output something with the level of fidelity needed for the resulting audio to sound reasonable.

實際上聽了產生出來的音樂,是真的還 OK 的音樂... 大家都完全沒想到可以這樣搞,然後在 Hacker News 上的 upvote 數量爆炸高 XD

可以自己調整的黑白照片上色服務

Hacker News Daily 上看到 Palette 這個服務,作者在 Hacker News 上有提到你可以提供一些句子調整顏色:「Show HN: I made a new AI colorizer (palette.fm)」。

Hi HN, I’m Emil, the maker behind Palette. I’ve been tinkering with AI and colorization for about five years. This is my latest colorization model. It’s a text-based AI colorizer, so you can edit the colorizations with natural language. To make it easier to use, I also automatically create captions and generate filters.

作者有把一些作品貼在 Reddit 上面,可以參考 https://www.reddit.com/user/emilwallner/?sort=top 這邊,看起來已經有一陣子了...

用軟體降低電視背光老化現象產生的不平均

前幾天在 Hacker News Daily 上看到「TV backlight compensation (2020) (lofibucket.com)」這個,原文是 2020 年的文章「TV backlight compensation」,作者拿到一台不用錢的電視機,但這台電視機的背光已經老化了,發光亮度不平均,大概是這樣的情況:

把電視機的背光問題當作是一個函數 f(x),然後把翻拍產生的亮度差當作是 g(x),目標是要找出 f(x) 的反函數 f-1(x):

然後從作者的程式碼與解釋可以看出來不是針對每個 pixel 都單獨調整,而是全部套用同一個公式,然後目標是針對黑白畫面去調整:

The whole point of this exercise was to make black-and-white movies look better.

透過軟體的修正可以得到下面這樣的結果,其中左上角是原圖,右上角是這張圖在電視上翻拍出來的樣子;左下角是運算後修正的圖,右下角是這張修正後的圖在電視上翻拍出來的樣子;可以看到修正後的不平均感少了一些:

作者是把這個修正掛到 MPC-BE 上面,但 Hacker News 上面有人提到也可以實做 Gnome 的版本,直接讓整個 OS 都可以套用:「Hello1024/gse-shader」。

有點拼但還蠻有趣的東西 XD

對西洋棋選手 Hans Niemann 的調查

前幾天在「用情趣用品在西洋棋比賽裡面傳遞摩斯電碼作弊」這篇裡面有提到目前對 Hans Niemann 的調查都還在進行,現在 Chess.com 先丟出調查報告了:「Hans Niemann Report」,另外 Hacker News 上也有討論:「The Full Chess Cheating Report of Hans Neiman (chess.com)」。

PDF 的 summary 開頭就提到分析了線上的對奕記錄作弊的比率比起 Hans Niemann 所承認的高很多:

We present evidence in this report that Hans likely cheated online much more than his public statements suggest. However, while Hans has had a record-setting and remarkable rise in rating and strength, in our view there is a lack of concrete statistical evidence that he cheated in his game with Magnus or in any other over-the-board (“OTB”)—i.e., in-person—games. We are presenting our findings here and will cooperate with FIDE on any further investigation.

除了棋局上的記錄,在後面「How Cheat Detection Works」這個章節也提到了很多額外的 event log,像是視窗切換之類的資訊。

然後 Chess.com 也宣佈撤回賽事邀請,並且停權:

We uninvited Hans from our upcoming major online event and revoked his access to our site based on our experience with him in the past, growing suspicions among top players and our team about his rapid rise of play, the strange circumstances and explanations of his win over Magnus, as well as Magnus’ unprecedented withdrawal. In order to have more time to investigate the OTB situation and our own internal concerns, we uninvited Hans from our event and prevented his access to Chess.com. We are open to continuing a dialogue with Hans to discuss his status on Chess.com.

先有一個組織跳出來下刀了...

用情趣用品在西洋棋比賽裡面傳遞摩斯電碼作弊

標題資訊量有點大... 先講一下最近西洋棋界的新聞,九月的時候 Magnus Carlsen 指控 Hans Niemann 作弊,這件事情到目前還沒有完全落幕,可以翻維基百科的條目看看目前的進展:「Carlsen–Niemann controversy」。

而「ButtFish – Transmit Morse Code of chess moves to your butt (github.com/ronsijm)」這篇,則是示範怎麼用肛塞 (我這邊就拿 PChome 24h 的搜尋頁,有「興趣」的可以自己翻),加上很多情趣用品是可以透過 API 操作的 (作者提到了 Buttplug 這個專案),於是就造就了這個新的專案:「ButtFish」,專案名稱看起來是「引用」自西洋棋領域裡很有名的 Stockfish 引擎。

另外這張 Three circles model 圖也很好笑:

不過這個方法應該過不了金屬探測器,現在的競技比賽應該都會有才對?所以這專案只是很靠背而已...

專案頁面上最後面的自嘲也很好笑:

在圖片裡面放入圖片本身的 MD5 值

Hacker News Daily 上看到「The image in this post displays its own MD5 hash (retr0.id)」這篇,作者想要產生一張 PNG 圖,這張圖的 MD5 值就在圖片上呈現。然後作者本人有出現在 Hacker News 討論串上面,提到流量撐不住,所以丟到 Twitter 上面 (而很幸運的,Twitter 沒有壓這張圖,是保留原圖,所以可以驗證 MD5):

另外一個有趣的主題是同時撞出一樣的 MD5 與 CRC32 的方式,其中 CRC32 的部份還可以直接指定值,在「MD5 Collision with CRC32 Preimage (gist.github.com)」這邊。

算是很趣味的玩法啦,畢竟 MD5 已經被大家知道是個 broken cryptographic hash function...

這兩個禮拜爆紅的 Stable Diffusion

Stable DiffusionStability AI 訓練出來的 model,跟之前提到的 DALL-E 最大的差異就是產生出的圖的限制少很多:

Unlike competing models like DALL-E, Stable Diffusion is open source and does not artificially limit the images it produces, though the license prohibits certain harmful use cases.

這也造就了這兩個禮拜整個 Stable Diffusion 的各種應用急速成長。

Simon Willison 的「Stable Diffusion is a really big deal」這篇來當作總覽還不錯。

除了授權使用上的限制以外,在技術上的限制也比較少 (有很大一部分會歸功於社群的各種 porting),包括了:

除了先前大家已經熟悉的 txt2img 功能以外,Stable Diffusion 另外提供了 img2img 的能力,也就是先給一張圖,然後再給對應的句子要求 Stable Diffusion 去改這張圖,所以就會有像是把這張圖:

加上「A distant futuristic city full of tall buildings inside a huge transparent glass dome, In the middle of a barren desert full of large dunes, Sun rays, Artstation, Dark sky full of stars with a shiny sun, Massive scale, Fog, Highly detailed, Cinematic, Colorful」的句子後,提供了這張圖:

以及這張圖:

這樣可玩性又多了不少...

ESPN 播報 Excel 比賽

這是兩個禮拜前看到的東西,ESPN 轉播 Financial Modeling World Cup (FMWC),一個比 Microsoft Excel 的競賽:「The World Excel Championship is being broadcast on ESPN and it's absolutely wild」。

看 wiki 的資料,FMWC 是從 2020 年開始辦的比賽,然後沒什麼意外的 Microsoft 是贊助商...

要注意 Excel Esports 這隻英國戰隊跟 Microsoft Excel 就沒有關係了,只是名稱剛好有 Excel 這個詞;Excel Esports 戰隊主打的是 LoLFortniteVALORANT 這幾個比較廣為人知的電子競技項目。

目前看起來 FMWC Open 2022 會在今年 Q4 辦,到時候應該會再冒出一些新聞...

用 DALL·E 2 的圖當作網誌文章的圖片

Hacker News 上看到「I replaced all our blog thumbnails using DALL·E 2 (deephaven.io)」這個點子,原文在「I replaced all our blog thumbnails using DALL·E 2 for $45: here’s what I learned」這邊。

網誌文章如果包含好的圖片時,曝光度與互動都會比較多。所以作者就想到用 OpenAIDALL·E 2 來搞事了:給個描述,請 DALL·E 2 生成圖片。

文章裡面有很多產生出來的圖都蠻有趣的,像是「a cute blue colored gopher with blue fur programming on multiple monitors displaying many spreadsheets, digital art」這個描述生出來的圖:

不過不算便宜,他花了 US$45 生成大約一百篇文章的圖:

I spent the weekend and $45 in OpenAi credits generating new thumbnails that better represent the content of all 100+ posts from our blog.

如果用先前「玩玩文字轉圖片的 min(DALL·E)」這邊提到的方法自己搞不知道可不可行?