AWS 宣布在 SageMaker JumpStart 裡面可以用 Falcon 40B 了:「Falcon 40B foundation model from TII available on SageMaker JumpStart」,不愧是 AWS...
話說 llama.cpp 對 Falcon 的支援好像有點卡關的感覺,大概還要再折騰一陣子吧,雖然有些人已經能跑 7B 了,但大家還是想跑 40B 看看...:「Falcon LLM Support #1602」。
幹壞事是進步最大的原動力
AWS 宣布在 SageMaker JumpStart 裡面可以用 Falcon 40B 了:「Falcon 40B foundation model from TII available on SageMaker JumpStart」,不愧是 AWS...
話說 llama.cpp 對 Falcon 的支援好像有點卡關的感覺,大概還要再折騰一陣子吧,雖然有些人已經能跑 7B 了,但大家還是想跑 40B 看看...:「Falcon LLM Support #1602」。
在 LLaMA 出來以後,打造 open source license 的 LLM 變成大家期待的事情,而 RedPajama 算是蠻多人看好的項目。
結果還在算的過程中間,路上殺出來 Falcon LLM,在釋出當下以一個比較寬鬆的 license (但還不是 open source license),到了六月初直接宣布改用 Apache License, Version 2.0,而且同時放出 7B 與 40B 兩個 model,讓 RedPajama 的消息瞬間被壓下去...
現在 RedPajama 放出 7B 了,而且也宣稱在 HELM 上比 Falcon 7B 好:「RedPajama 7B now available, instruct model outperforms all open 7B models on HELM benchmarks」,在 Hacker News 上對應的討論串在「RedPajama 7B (an Apache 2.0-licensed LLaMa) is now available (together.xyz)」這邊。
不過從這幾個月社群討論的感覺,可以看到大家都覺得 7B 太小了,目前大家都希望是 3090/4090 等級可以跑的顯示卡在當標準,差不多會是 LLaMA 13B 或是 30B (4-bit) 的 model。
這幾個月的競爭太激烈,放話完還沒 release 就被幹掉...
Hacker News Daily 上看到「Redditor creates working anime QR codes using Stable Diffusion」這個,Reddit 的原討論串在「ControlNet for QR Code」這邊。
透過 ControlNet 產生出來的 QR code 超出一般對客製化 QR code 的想像... 這邊就不解釋直接上圖了:
Cloudflare 利用自家平台分析過去一年 HTTP/3 的使用率:「Examining HTTP/3 usage one year on」。
首先是整體的使用率,看起來反而沒有什麼太大的變化?一上線就已經是巔峰的感覺?
然後各種 bot (像是搜尋引擎的 bot 或是 social media 的 bot) 看起來幾乎都沒有用 HTTP/3,少數的量應該都是實驗性質居多,唯一的例外是 LinkedIn 有試著在導入,可以看到慢慢的爬升:
看起來不算太順?
Hacker News 上看到 macOS 要提供 DirectX 介面了:「DirectX 12 Support on macOS (twitter.com/andytizer)」,原推是:
Mac gamers have been dreaming about DirectX 12 support on macOS for years, and the open source community toils tirelessly making baby steps. Then Apple just drops a fully complete DX12 translation layer and doesn't even tell us! pic.twitter.com/cs8OxFJ64s
— Andrew Tsai (@Andytizer) June 6, 2023
算是降低遊戲引擎維護的成本?讓開發商更有意願實作?不確定會有什麼效果...
Hacker News 首頁上看到 Georgi Gerganov 成立公司的計畫:「GGML – AI at the Edge (ggml.ai)」,官網在「GGML - AI at the edge」。
如同 Georgi Gerganov 提到的,llama.cpp 這些專案本來是他的 side project,結果意外的紅起來:
I've started a company: https://t.co/jFknDoasSy
From a fun side project just a few months ago, ggml has now become a useful library and framework for machine learning with a great open-source community
— Georgi Gerganov (@ggerganov) June 6, 2023
另外他提到了 Nat Friedman 與 Daniel Gross 也幫了一把:
I'm incredibly grateful to @natfriedman and @danielgross for the support & funding and also for helping me get inspired even more in this project
There is still a long way ahead with many ideas to try and cool things to do. Hope you will join and help us create something useful!
— Georgi Gerganov (@ggerganov) June 6, 2023
在官網則是有提到是 pre-seed funding:
ggml.ai is a company founded by Georgi Gerganov to support the development of ggml. Nat Friedman and Daniel Gross provided the pre-seed funding.
現在回頭來看,當初 llama.cpp 會紅起來主要是因為 CPU 可以跑 LLaMA 7B,而且用 CPU 跑起來其實也不算慢。
後來吸引了很多人一起幫忙,於是有了不少 optimization (像是「llama.cpp 的載入速度加速」這邊用 mmap 減少需要載入的時間,並且讓多個 process 之間可以重複使用 cache),接下來又有 GPU 的支援...
但不確定他開公司後,長遠的計畫是什麼...?
前幾天的 Hacker News Daily 上看到「Fq: Jq for Binary Formats (github.com/wader)」這個工具 fq,可以對二進位檔案操作:
Tool, language and decoders for working with binary data.
Ubuntu 22.04 以後的版本有套件可以直接裝 (就 apt install fq
),不過 22.04 內的版本比較舊,可以考慮抓 binary 下來丟到 ~/bin
之類的地方用,不過目前應該是先丟著,等明年 24.04 的時候就會自己換新了?
官方範例的 fq . file
可以看 metadata,這樣還算是好用,不用自己 hexdump 對半天;另外「Supported formats」這邊有每種格式對應的 column name 可以讓你操作,參考 fq --help
的說明就可以拉一些欄位出來用...
下午在升級 GCP 上面的跳板機的時候,發現機器用的是 Standard Persistent Disk (Standard PD),這是個 HDD 架構,跑起來超慢,研究了一下發現 AWS 與 GCP 兩邊的差異其實有點大,整理一下...
價錢的部分,AWS 的部分拿東京區 (ap-northeast-1
) 的價錢來看,GCP 則是拿台灣區 (asia-east1
) 來看。
先看 SSD 的部分:
AWS 最常用的 gp3
是 $0.096/GB,無論空間大小,效能上都提供 3000 IOPS 與 125MB/sec throughput,另外可以加價購買 IOPS 與 throughput。不過也因為這個性質,拿來當開機碟很好用。
早期的 gp2
則是 $0.12/GB,效能上提供 3 IOPS/GB,但最低會給 100 IOPS,所以當開機碟也還可以,不會到太慢。
GCP 如果是 Balanced Persistent Disk (Balanced PD) 是 $0.1/GB,效能上會提供 6 Read IOPS/GB + 6 Write IOPS/GB + 0.28MB/sec/GB throughput;以 10GB 的 disk 來說會是 60 Read IOPS + 60 Write IOPS + 2.8MB/sec throughput。
如果是 SSD Persistent Disk (SSD PD) 是 $0.17/GB,效能上是 30 Read IOPS/GB + 30 Write IOPS/GB + 0.48MB/sec/GB throughput;以 10GB 的 disk 來說會是 300 Read IOPS + 300 Write IOPS + 28MB/sec throughput。
再來是 HDD 的部分:
AWS 這邊代號是 standard
,價錢是 $0.08/GB,另外 IOPS 每 1M 個 IOPS 也要收 $0.08,如果是拿來開機的話還好,但如果是有應用在上面操 IOPS 的話就不太便宜了。
GCP 這邊是 Standard Persistent Disk (Standard PD),價錢是 $0.04/GB,效能上提供 0.75/GB Read IOPS + 1.5/GB Write IOPS + 0.12MB/sec/GB throughput;以 10GB 的 disk 來說會是 7.5 Read IOPS + 15 Write IOPS + 1.2MB/sec throughput。
所以如果是不太在意效能的情況下要找 C/P 值 (但也不到完全不在意?),在 AWS 上用 standard
就不太划算,畢竟多一些些費用就可以用 gp3
,對效能提升巨大;但在 GCP 上就會想用 Standard PD,從單價可以看到差了蠻多...
收到 Kagi 的信,因為我是 unlimited searches 年繳用戶:
You are receiving this email because you have a Kagi legacy annual subscription with unlimited searches.
聽起來是這個方案會持續讓我們用舊價錢 renew?
This is to inform you that you will be able to keep this plan upon renewal. There is no action needed on your end, and your subscription will automatically renew as normal.
不過就他列出來的理由來說有點怪就是了,想要看看 unlimited search 在財務上是否可行?但成本不是算一算就知道了嗎...
We have recently changed the pricing plans [1], adding more searches to our plans. Ultimately in the future, we want to go be able to offer unlimited searches on our Professional plan to the broader public again, when economics allow.
Previously your subscription was set to renew into Early-adopter Professional plan [2]. By allowing a subset of our users (like you) to keep unlimited searches, we can get insights if this will be indeed economically viable. So we have decided to prolong the renewal of the unlimited annual legacy plan for customers who already have them.
[1] https://blog.kagi.com/plan-changes
[2] https://blog.kagi.com/update-kagi-search-pricing#existing
現在的 unlimited search plan 是 US$25/mo,年繳是 85 折,換算是 US$21.25/mo。
然後看了一下用量,最近幾個月用的量愈用愈多啊:
既然是 prolong,聽起來隨時有機會收回去?
在 LLM 裡面講的 Open 不是 open-source license 的定義,比較接近「免費使用」而已,通常會帶有限制。
但即使放寬到「免費使用」,LLaMA 65B 從二月放出來 (或者說「被放出來」) 已經領頭領了三個多月了,直到上個禮拜看到被 Falcon 40B 超越的消息:
LLaMa is dethroned 👑 A brand new LLM is topping the Open Leaderboard: Falcon 40B 🛩
*interesting* specs:
- tuned for efficient inference
- licence similar to Unity allowing commercial use
- strong performances
- high-quality dataset also releasedCheck the authors' thread 👇 https://t.co/vojobBXFQT pic.twitter.com/BuOLnHebhU
— Thomas Wolf (@Thom_Wolf) May 26, 2023
在「Open LLM Leaderboard」這邊的 benchmark 可以看到除了 TruthfulQA (0-shot) 以外,其他的都領先,而綜合平均值也是領先的:
而往下拉可以看到 7B 的版本表現也不錯,之後應該也可以再 tune。
更重要的是,剛剛看到這個 model 把授權改成 Apache License 2.0 的消息,這所以 LLaMA 的替代方案總算有樣子了:
The license of the Falcon 40B model has just been changed to… Apache-2 which means that this model is now free for any usage including commercial use (and same for the 7B) 🎉 https://t.co/LZcmejPdf5
— Thomas Wolf (@Thom_Wolf) May 31, 2023
另外看了一下,這包 model 是在 AWS 的 SageMaker 上面幹出來的,翻了一下 Technology Innovation Institute,真不愧是有錢的單位:
Falcon-40B was trained on AWS SageMaker, on 384 A100 40GB GPUs in P4d instances.
The Technology Innovation Institute (TII) is an Abu Dhabi government funded research institution that operates in the areas of artificial intelligence, quantum computing, autonomous robotics, cryptography, advanced materials, digital science,[4] directed energy and secure systems. The institute is a part of the Abu Dhabi Government’s Advanced Technology Research Council (ATRC).
在 Hacker News 上有人已經跑起來了,而且是透過 InstructGPT 調教過的版本:「Falcon 40B LLM (which beats Llama) now Apache 2.0 (twitter.com/thom_wolf)」,據說 4-bit quantized 版本可以在 40GB 的 A100 或是兩張 24GB 的 3090/4090 跑起來。
另外 ggml 的人應該這幾天就會動起來了,可以讓子彈再放著飛一下...