Blog
Preferred Networks(以下PFN)とグループ会社のPreferred Elements(以下PFE)では2024年10月からGENIAC 第2期の支援のもと、高性能な大規模言語モデル(以下LLM)の開発(※)を行っています。そして本日、PLaMo 2 8Bのモデル(pfnet/plamo-2-8b · Hugging Face)を条件付きで商用利用可能な PLaMo Community License のもとで公開しました。このライセンスは、特に日本の知識に長けたPLaMoシリーズによって自由なLLM利用やデータ整備を促進しながらも、今後もPFN/PFEが持続可能な形で基盤モデルの開発を行い、継続的な性能向上を通して広く貢献するためのものです。
具体的には、個人や中小規模の企業は有償無償問わずPLaMo 2 8Bを利用できます。追加学習で自作キャラクターと会話できるモデルを作り即売会やオンラインで販売したり、自社製品の翻訳や対話などに役立てるといったことにも利用もできます。国内のLLMコミュニティを育てることが将来のPLaMoの性能改善に役立つと考えており、積極的に情報共有できると良いと考えています。また、日本国内で競争をするより日本の競争力を高めることが大事であるとの思いから、「PLaMo 2 8Bを使って高品質な日本語データセットを作りOSSライセンスで配布したい」といった要望も実現できるような手続きも準備しています。
PLaMo 2 8Bの詳しい性能については先日公開したPLaMo 2 8Bの検証の記事をご覧ください。この記事ではこのライセンスを設定した背景と商用利用可能な条件について紹介します。
(※)この開発は経済産業省及び国立研究開発法人新エネルギー‧産業技術総 合開発機構(NEDO)が実施する、国内の生成AIの開発力を強化するためのプロジェクト 「GENIAC(Generative AI Accelerator Challenge)」の支援を受けて実施しました。
なぜPFNが大規模言語モデルを開発するのか
PFNは、計算機で世界中の人々の生活が変えられると考え、設立当初から機械学習技術の研究開発に取り組んできました。具体的には、「現実世界を計算可能にする」という理念を掲げ、協業を通して多くの分野への機械学習活用を進めてきました。また、技術的に最先端でいるためには基盤・フレームワークを持つことが重要であると考え、研究だけでなくChainerやCuPy、OptunaなどのOSS開発も行い、機械学習分野に広く貢献してきたと自負しています。
大規模言語モデルにおいては、深層学習をはじめとした今までの機械学習分野以上に、基盤(LLMにおいては事前学習モデル)を開発することが重要であると考えています。LLMを日本向けにチューニングをしたとしても、事前学習時に英語の割合が高いとカタカナ語が増えることや、中国語の割合が高いと中国語の混入を防ぐことが難しいことなど、もとのモデルの傾向が現れることが確認されています。このことから、海外製のモデルを利用した場合、日本の見解と異なる回答をした場合にも完全な制御は困難と言えます。日本政府の見解と異なる返答をしたとして中国製のモデルの利用を制限すべきではないかとの議論も国会でありました(参考記事)。また、欧米製のモデルについても文化的な側面でも考えが必ずしも一致するとはいえません。実際、米国クレジットカード会社による表現規制が昨今問題となっており、ニコニコ動画ではJCB以外のカード決済が一時停止され多くの動画を削除せざるを得なくなることもありました(参考記事)。こうした議論において何が正解かは一概には言えませんが、国が主体的に自ら責任を持って判断できるようにすることは必要であり、国として国産モデルを持つことの意義は大きいと考えています。
国にとって国産基盤モデルの重要性は高い一方で、大規模言語モデルの学習や推論には多くの計算資源が必要となり、直近数年間では基盤モデル開発で採算を取るのは難しいと言われています。一方、その重要性から基盤モデル開発の競争は世界的に過熱しています。ChatGPTの公開から2年ほどで、LLMの学習や推論に不可欠なGPUを開発するNVIDIA社の時価総額は約10倍にまで膨れ上がり世界首位の規模(参考記事)となりました。この多くは大規模言語モデルを含む生成AIの長期的な将来の需要によって支えられています。その筆頭であるMeta(旧フェイスブック)社は年間約10兆円規模の設備投資(参考記事)を進め大規模言語モデルを開発しています。そのような状況の中で、2025年1月にDeepSeek社が高性能なLLMを1/10以下の低コストで開発したと発表し、世界に衝撃を与えました。しかし、そのDeepSeek社も、試作段階の開発費なども含めると推定に多少のブレはあれど約1000億円程度かけていると言われています(参考記事)。そのため、国内で基盤モデルの開発競争に参加できる企業の数には限りがあります。
PFNではこれまでの機械学習分野の研究開発経験から、国産の大規模言語モデルを含む基盤モデルの開発をすべきであると考え、GENIAC 第1期の支援のもとPLaMo 100Bの開発を行いました。また、昨年にはAI半導体や生成AI基盤モデルなどの開発を目的に総額190億円の資金調達を実施しました。しかし、国からの支援やこの規模の調達をもってしても高性能なLLMを開発することは容易ではなく、DeepSeek社以上に工夫が必要となります。公開しているものでは合成データの作成やトークナイザの工夫、他にも多くの学習上の工夫をすでに行っています。その結果、PLaMo 2 8Bでは、昨年開発したPLaMo 100Bモデルと同等の投入計算量でありながら、同モデルの性能を1/10以下のモデルサイズで実現しました。引き続き今後も性能向上を継続し世界と戦える基盤モデルを開発することで、日本の産業を言語的・地理的なハンデを負うことなく世界と戦えるようにしたいと考えています。
商用利用可能な条件
上記背景から、PLaMoシリーズを広く自由に使えるようにしながらも、継続的な性能向上を行うために商用利用に一部制限を設けたライセンスとして PLaMo Community License を設定することにしました。このライセンスは、商用利用に一部制限があるものの大規模言語モデル分野で使われ広く貢献している実績のあるLlamaライセンスを参考に設計しました。
PLaMo Community License では、モデルの実行者およびモデルの出力の利用者が個人あるいは中小規模(本ライセンスの定義では年間売り上げが10億円以下)の企業である場合においては、モデルの再配布等によるライセンス波及を除き、各人の責任のもとで商用利用を含め自由に使っていただけます(詳細な条件はライセンスを参照してください)。ただし、商用利用の際にはPLaMo商用利用登録フォームから用途について送信してください。大企業がモデルやモデルの出力を直接的にあるいは間接的に利用する場合には、別途有償契約を結ぶことで使っていただけます。なお、中小規模の企業が不特定多数のユーザにモデルの出力を提供する際にもライセンスは波及しますが、これによる不都合が大きい場合には別途ライセンス変更契約を結ぶなどの柔軟な対応ができるように検討しています。
生成物をApache License等のライセンスに変更する手続き
次に、Llamaライセンス等の問題として、モデル自体の貢献が限定的であっても、そのモデルを使って作ったデータセットにライセンスが波及してしまう点が挙げられます。さらに、そのデータセットを少しでも使ったモデルにも同様にライセンスが波及します。このような必要以上のライセンスの波及は、多くの人の努力の上で蓄積される日本語資産が、その貢献の割合にかかわらず特定の企業によって利用範囲が制限されることとなり、中長期的に日本語資産の利便性を毀損し国内の研究開発を阻害すると考えています。そこで、この問題を解決する方法として、ユーザーがこのモデルや派生モデルを利用し作り公開するデータセットに関しては事前に申請していただくことで、個別判断は入りますがPLaMo Community LicenseからApache License等のOSSライセンスに切り替えて公開する手続きができるように考えています(フォームについては後日公開しますが、それまでは https://www.preferred.jp/ja/contact/ からお問い合わせください)。
最後に
この記事では、本日公開した PLaMo 2 8Bモデルのライセンスである PLaMo Community License について紹介しました。公開したPLaMo 2 8Bモデルは、事前学習モデルであるため真価を発揮するにはファインチューニングが必要ですが、手元のPCでも動作・追加学習できうる小さいモデルにもかかわらずChatGPT-3.5を超える潜在能力を持っており、特に日本語において今までできなかったことを可能にする可能性を秘めています。PFN/PFEでは今後も性能向上を継続し、大規模言語モデルを含む基盤モデルによって産業発展を日本から加速したいと考えています。
仲間募集中
PFN/PFEでは今後も継続して高性能なLLMの開発を行います。この仕事に情熱をもって挑戦していく仲間を募集していますので、興味のある方は是非ご応募よろしくお願いします。
https://www.preferred.jp/ja/careers/