幾個禮拜前看到「Show HN: I stripped DALL·E Mini to its bare essentials and converted it to Torch (github.com/kuprel)」這個東西,有訓練好的 model 可以直接玩文字轉圖片,GitHub 專案在「min(DALL·E) is a fast, minimal port of DALL·E Mini to PyTorch」這邊可以取得。
因為這是包裝過的版本,裝起來 & 跑起來都很簡單,但沒想到桌機的 1080 Ti 還是跑不動,只能用 CPU 硬扛了,速度上當然是比官網上面列出來用 GPU 的那些慢很多,但至少能跑起來玩看看。
首先是拿官方的句子來玩看看,第一次跑會需要下載 model (會放到我們指定的 pretrained
目錄下):
#!/usr/bin/env python3 from min_dalle import MinDalle import torch model = MinDalle( models_root='./pretrained', dtype=torch.float32, device='cpu', is_mega=True, is_reusable=False, ) images = model.generate_image( text='Nuclear explosion broccoli', seed=-1, grid_size=2, is_seamless=False, temperature=1, top_k=256, supercondition_factor=32, is_verbose=False, ) images = images.save('test.png')
我自己在下載過後,跑每個生成大概都需要十分鐘左右 (參數就像上面列的,CPU 是 AMD 的 5800X,定頻跑在 4.5GHz),出來的結果是這樣:
接著是一些比較普通的描述,這是 sleeping fat cats
:
然後來測試看看一些比較偏門的詞,像是 Lolicon
,這個就差蠻多了:
但感覺有蠻多應用可以掛上去,這樣有點想買張 3090 了...