松尾研、100億パラメータサイズのLLMを公開

人工知能の研究を行う東大、松尾研究室が100億パラメータサイズのLLM(Large Language Model)「Weblab-10B」をオープンソースで公開しました。
日本語LLMはGPT-4以降、CyberAgent(最大69億パラメーターサイズ）、rinna（最大38億パラメーターサイズ）、LINE(最大36億パラメーターサイズ)と次々登場していますが、このWeblab-10Bはその名の通り100億パラメーターサイズとなっています。

huggingface.co

ファインチューニング後のモデルはこちら

huggingface.co

商用利用不可のオープンソースとして公開されています。

どうしてもデータ量が限定されてしまう日本語のデータセットはもちろんのこと、データ量を補うため英語のデータセットを事前学習に活用し、転移学習させています。

さらにファインチューニング用に、Alpaca（英語）、Alpaca（日本語訳）、Flan 2021（英語）、Flan CoT（英語）、Flan Dialog（英語）の5つのデータセットを使い、言語間で転移学習させています。

その結果、日本語に対する言語理解能力を測るベンチマークであるJGLUEのスコアをみても、日本国内のオープンソースLLMの中でトップクラスのスコアを叩き出しています。

今後LLMは単に言語解釈・分析の枠を超えて、様々な活用が進んでいくことになるのでしょうが、どうしても日本語データセットの量が少ないことが課題となっていました。言語間の転移学習という新しいアプローチでデータ量をカバーできるようになれば、英語と同じような精度で日本語のLLMを活用できるようになっていくのでしょう。

ニテンイチリュウ

A believer in the power of design

松尾研、100億パラメータサイズのLLMを公開