在 Hacker News 上看到「OpenLLM (github.com/bentoml)」,是一個用 Python 寫的軟體,把 open source LLM 包裝起來讓你用。
先拿 Mac 簡單測了一下,看起來包的不錯,可以用 HTTP API 來打。
先用 pip 裝:
pip install openllm
然後就可以把 server 跑起來了,依照範例跑 dolly-v2
,第一次跑會比較久,需要下載 model:
openllm start dolly-v2
接下來就可以直接開 http://127.0.0.1:3000/ 來操作了,另外也可以用 command line 跑,像是依照官方的範例來跑:
openllm query --endpoint http://127.0.0.1:3000 "What is the meaning of life?"
目前測到比較明顯的問題是 CPU 模式下只有 single thread,所以雖然會動,但相當慢... 之後再來測試 GPU 的部分。