ニテンイチリュウ

A believer in the power of design

松尾研、100億パラメータサイズのLLMを公開

人工知能の研究を行う東大、松尾研究室が100億パラメータサイズのLLM(Large Language Model)「Weblab-10B」をオープンソースで公開しました。
日本語LLMはGPT-4以降、CyberAgent(最大69億パラメーターサイズ)、rinna(最大38億パラメーターサイズ)、LINE(最大36億パラメーターサイズ)と次々登場していますが、このWeblab-10Bはその名の通り100億パラメーターサイズとなっています。

huggingface.co

 

ファインチューニング後のモデルはこちら

huggingface.co

 

商用利用不可のオープンソースとして公開されています。

どうしてもデータ量が限定されてしまう日本語のデータセットはもちろんのこと、データ量を補うため英語のデータセットを事前学習に活用し、転移学習させています。

さらにファインチューニング用に、Alpaca(英語)、Alpaca(日本語訳)、Flan 2021(英語)、Flan CoT(英語)、Flan Dialog(英語)の5つのデータセットを使い、言語間で転移学習させています。

その結果、日本語に対する言語理解能力を測るベンチマークであるJGLUEのスコアをみても、日本国内のオープンソースLLMの中でトップクラスのスコアを叩き出しています。

 

今後LLMは単に言語解釈・分析の枠を超えて、様々な活用が進んでいくことになるのでしょうが、どうしても日本語データセットの量が少ないことが課題となっていました。言語間の転移学習という新しいアプローチでデータ量をカバーできるようになれば、英語と同じような精度で日本語のLLMを活用できるようになっていくのでしょう。