看到「36億パラメータの日本語言語モデルを公開しました」這篇,日本的 LINE 丟出 Apache License 2.0 的 LLM,拿起來跑看看還蠻有趣的:
他的特點是用日語資料訓練出來的 LLM:
最終的な学習には約650GBのコーパスを利用していますが、英語の大規模コーパスとして一般的に用いられているもの(Pileコーパス)が約800GBであることを踏まえると、我々のデータも遜色ない大きさであると言えます。
我拿 1.7B 跑,小修改一下故意給英文的 prompt 後,可以看到輸出頗有趣的,畢竟是從日文資料訓練出來的:
{'generated_text': 'An apple a day keeps the doctor away.\n「一日リンゴ1個」は apple days で'} {'generated_text': 'An apple a day keeps the doctor away thinking happier. The biggest happ'} {'generated_text': 'An apple a day keeps the doctor away from here.」と英語で訳しましょう。「I have a dream'} {'generated_text': 'An apple a day keeps the doctor away(sometimes usually thinks far a'} {'generated_text': 'An apple a day keeps the doctor away. 日はまたのぼり、 医者は去って行った。 They'} {'generated_text': 'An apple a day keeps the doctor away thought about being in the center of the'} {'generated_text': 'An apple a day keeps the doctor away from all the time.\n16. I feel like'} {'generated_text': 'An apple a day keeps the doctor away and draws and eats around one table'} {'generated_text': 'An apple a day keeps the doctor away from your mother\nAnd another male you are'} {'generated_text': "An apple a day keeps the doctor away. What's the opinion you wrote in"}
這邊有訓練的運算量計算,1.7B 的 model 訓練換成起來會用道 4000 小時的 A100 80GB (假設你有 100 張的話,就是 40 小時):
本モデルの構築に要した時間について、例えば1.7BモデルについてはA100 80GBで換算し、約4000GPU時間を費やしています。学習時間は特に日本語の大規模言語モデルの学習では公開されていないことが多く、適切な比較はできませんが、例えば rinna 0.3Bモデルの学習はV100 32GBで約8600GPU時間を費やしているようで、費やした時間に比して効率の良い学習が行えていると考えられます。
目前是提到有計畫要放出 instruction tuning 的版本:
また、これらのモデルについて、指示文に対して適切な出力を行えるようにチューニング(Instruction tuning)したモデルを近日中に公開予定です。続報は@LINE_DEVをフォローしてお待ち下さい。
這個 LLM 先記起來,以後也許在其他場景有機會用到?