用 2024 年的技術花 US$20 嘗試重建當年 OpenAI 的 GPT-2 (124M)

GPT-2 出來的 2019 年 Nvidia 的家用顯卡應該是 2080 Ti (2018/09/27),抓一下感覺。

在「Reproducing GPT-2 in llm.c (github.com/karpathy)」這邊看到 Andrej Karpathy 試著重建 GPT-2 的計畫,雖然是最小的 model (124M),不過這邊可以注意到當年最小是 117M,其實有一點差距 (大約多了 6%):

Two other smaller releases of GPT-2 are available, including the small version of 117M parameters and the medium size of 355M parameters. Both are available to download from Huggingface.

另外維基百科上面可以看到 OpenAI 發表 GPT-2 的時候他不在 OpenAI

OpenAI (2015–2017, 2023-2024)

但畢竟曾經是 OpenAI 裡面的老大,能看到的資料總是比外面的人多不少 (加上 GPT-2 屬於過時的技術,管制上應該會鬆不少?),這也是為什麼大家會關注的原因。

這次的嘗試不是完全重現,因為當初 GPT-2 的 training data 並沒有公開,所以他只能找個接近的 data set 訓練,這代表這次不是完全與 GPT-2 相同的情況下重建:

it was trained on the never released "WebText" dataset

雖然知道軟硬體的成長速度頗快 (畢竟整個產業的錢都往這邊丟進去),不過發現用現在的技術只要 US$20 就可以重現最小的 model 還是讓人有點驚訝:

With llm.c, which is quite efficient at up to ~60% model flops utilization, reproducing this model on one 8X A100 80GB SXM node takes ~90 minutes.

理論上同樣的 code 改一些參數也就可以訓練出比較大的幾個 model?