今回はこのPLaMo-100Bを金融分野関係の日本語のベンチマークを集めたJapanese Language Model Financial Evaluation Harnessに関して評価し、さらにsupervised finetuning(SFT)によって精度向上を目指して実施しました。今回はこの取り組みについて紹介する記事になります。

また、この「PLaMo-100B」の開発は経済産業省が主導する国内の生成AIの開発力を強化するためのプロジェクト「GENIAC（Generative AI Accelerator Challenge）」のもと、NEDO（国立研究開発法人新エネルギー・産業技術総合開発機構）の助成事業に採択され、計算資源の提供支援を受けて実施しました。

PLaMo-100Bについて

PLaMo-100BはPFEが2024年2月より開発を行ってきたモデルで、事前学習から行ったモデルになります。このモデルは日本語と英語の両方のテキストデータを合計2T token学習しました。学習データに関しては基本的に公開データセットに加えて、独自に作成したデータなどを含めて学習し、JGLUEのような日本語ベンチマークで高い精度を達成することを目指して開発しました。

詳細はこちらのブログ記事をご覧ください。

https://tech.preferred.jp/ja/blog/plamo-100b/

Japanese Language Model Financial Evaluation Harnessについて

Japanese Language Model Financial Evaluation HarnessはPFNで整備している金融分野向けベンチマークをまとめて評価できるツールになっています。Githubで以下のURLで公開されています。

https://github.com/pfnet-research/japanese-lm-fin-harness

現在評価できるベンチマークは以下の5つです。

chabsa: 金融分野における感情分析タスク
cma_basics: 証券分析における基礎知識タスク
cpa_audit: 公認会計士試験における監査に関するタスク
fp2: ファイナンシャルプランナー試験の選択肢問題のタスク
security_sales_1: 証券外務員試験の模擬試験タスク

各タスクについて詳しい説明やいくつかのモデルをこのベンチマークで評価した結果のまとめなどに関しては以下の論文を参考にしてください。

https://www.jstage.jst.go.jp/article/jsaisigtwo/2023/FIN-032/2023_28/_pdf/-char/ja

PLaMo-100Bの事前学習モデル向けの対策データ

後ほど結果で示しますが、事前学習が終わった段階のPLaMo-100Bでもある程度のスコアを達成できます。ただ、今回対象にしているいくつかのベンチマークに関しては特殊な形式の問題であったり、特殊な知識が要求される問題であるため、スコアにはまだ改善の余地があります。このため、いくつかのベンチマークに対してスコアの向上が望めるようなデータを作成し、SFTを実施して評価をしました。

今回は主にchabsa、cpa_audit、fp2に関して対策を行ったので、それについて解説していきます。

chabsa

chabasaは金融分野における感情分析タスクであり、具体的な問題は以下の通りです。

以下のセンテンスにおける、ターゲットのセンチメントを positive か negative で答えてください。

センテンス: 当連結会計年度の国内経済につきましては、緩やかな景気回復が続きました

ターゲット: 国内経済

回答: positive

これはaspect-based sentiment analysis (ABSA) と呼ばれるタイプのタスクの問題で、与えられた文の中のターゲットとなる部分に関してポジティブ、またはネガティブなのかを答える問題になっています。このような問題のデータはwebなどではあまりでてこないと考えられ、PLaMo-100Bの事前学習にもほとんど入っておらず、PLaMo-100Bでは問題に関しての理解度が低いため、精度が低いということが考えられます。

一方、Llama 3などの海外のモデルではchabasaが高い印象があります。これはABSAに関して日本語のベンチマークは少ないものの、英語ではいくつかあり、そのようなデータが海外モデルでは学習に含まれているのではないかと考えています。このため、chabasaのスコアを上げるためにはchabasa以外のABSAのデータを使ってSFTするだけでも高い精度が達成できると考えられます。

今回はABSAのデータとして、InstructABSAというモデルのデータを学習に利用しました。

https://github.com/kevinscaria/InstructABSA

cpa_audit

cpa_auditは公認会計士試験における監査に関するタスクであり、具体的な問題としては以下の通りです。

以下の問題の答えとして適切な記号の組み合わせを選択肢から選んでアルファベットで答えなさい。

【問題】公認会計士監査に関する次の記述のうち，正しいものの組合せとして最も適切な番号を一つ選びなさい。

ア: 株式会社において，経営者は株主が拠出した資本を適切に管理・運用する受託責任を負い，この結果について株主に会計報告を行う。この会計報告に対する公認会計士の監査は，経営者の説明責任の適切な履行に貢献する。

イ: 公認会計士監査は，財務情報の信頼性を担保する役割があるが，その過程で発見した内部統制の不備や不正行為の是正を促す機能を有することから，コーポレート・ガバナンスを支援するという役割も有している。

ウ: 上場会社は，社会的に大きな影響力をもっているため，上場会社の監査を担当する公認会計士に対しては，特別に，単独監査の禁止，一定の非監査証明業務の禁止，就職の制限などの規定が置かれている。

エ: 上場会社は，一般投資家から広く資金調達を行うことが可能であるため，多くの利害関係者が生じ，これらに対する保護が必要となってくる。このため，利害関係者に対する適時・適切な情報開示のために管理体制の整備が必要となることから，新規に上場するときには，公認会計士による内部統制監査の実施が求められている。

【選択肢】 A: アイ B: アウ C: アエ D: イウ E: イエ F: ウエ

【答え】 A

人でこのような問題を解く際には以下のようの順番で考えることになります。

正しい記述のものがアからエのどれなのかを考える。
正しい記述の組み合わせが選択肢のどれに該当するのかを考える

このため、単純な選択問題よりも少し複雑な手順が必要な問題になっています。このような解き方が必要なものはMMLUという英語のベンチマークでも登場します。MMLUは広く英語の評価で利用されており、Llama3などのモデルではMMLU対策が万全であると考えられるため、このような普通の選択問題と違う解き方が必要な問題であっても高い正解率を達成することが考えられます。

一方、PLaMo-100Bに関してはこのような解き方をするデータを明示的には入れていなかったため、事前学習モデルの段階では精度が低くなっていると考えられます。このため、このような問題を解くためのデータを作成し、学習させることで高い精度を達成することができると考えられます。

今回は以下のように正しいか正しくないかを選択するような選択問題を4個用意し、それらを組み合わせて自動で類似データを用意して学習させました。

問題:

正しいものの組合せとして最も適切なものを選択肢の中から一つ選びなさい。

ア: 浄霊術の読みは”じょうれいじゅつ”である

イ: 吉浜の読みは”よしはま”である

ウ: 類纂の読みは”ごせい”である

エ: 速報屋の読みは”ねむりひめ”である

選択肢:

A: アイ

B: アウ

C: アエ

D: イウ

E: イエ

F: ウエ

回答：A

fp2

fp2はファイナンシャルプランナー 2 級の選択問題です。具体的な問題としては以下の通りです。

以下の問題の適切な答えを選択肢から選んで１～４の数字で答えなさい。

【問題】

ファイナンシャル・プランナー（以下「ＦＰ」という）の顧客に対する行為に関する次の記述のうち、関連法規に照らし、最も不適切なものはどれか。

１．弁護士の資格を有しないＦＰのＡさんは、顧客から成年後見制度について相談を受け、法定後見制度と任意後見制度の違いについて一般的な説明をした。

２．税理士の資格を有しないＦＰのＢさんは、顧客から所得税の医療費控除について相談を受け、実際に支払った医療費のうち、保険金などで補てんされる金額については医療費控除の対象とならないことを説明した。

３．社会保険労務士の資格を有しないＦＰのＣさんは、顧客から老齢基礎年金の繰下げ受給について相談を受け、顧客の「ねんきん定期便」の年金受取見込額を基に、繰り下げた場合の年金額を試算した。

４．金融商品取引業の登録を受けていないＦＰのＤさんは、顧客と資産運用に関する投資助言契約を締結したうえで、値上がりが期待できる株式の個別銘柄の購入を勧めた。

【答え】4

これに関してはよくある選択問題です。このため、他の選択問題を学習することで精度向上が考えられます。これに加えfp2に関して関連あるデータとしてはファイナンシャルプランナー3級の試験問題が考えらえれます。このため、今回はファイナンシャルプランナー3級の試験問題を学習に利用し、fp2の問題の精度向上を目指しました。

その他の追加データ

cma basics、security_sales_1 に関してはfp2と同様によくある複数選択肢の中から適切なものを選ぶタイプの問題です。この部分に関しては他の選択肢問題のベンチマークのtrainデータなどを含めたデータで学習することで、ある程度精度が上がると考えられます。このため、SFTをする際には、上で紹介したデータ以外のデータも含めて学習させました。

結果

PLaMo-100Bの事前学習モデルとその他の追加データのみを使ってSFTしたモデル、chabsa、cpa_audit、fp2それぞれに向けて対策したデータも加えてSFTしたモデルの3パターンとChatGPTのopenai/gpt-35-turboとopenai/gpt-4の比較を次の表に示します。

task	事前学習モデル	SFTしたモデル（その他の追加データ）	SFTしたモデル（全データ）	openai/gpt-35-turbo*	openai/gpt-4*
chabsa (f1)	88.47	90.66	91.10	89.98	93.20
cma_basics (acc)	31.58	55.26	55.26	52.63	78.95
cpa_audit (acc)	17.34	18.34	27.89	18.09	37.69
fp2 (acc)	28.84	44.84	49.89	29.26	50.32
security_sales_1 (acc)	43.86	57.89	47.37	61.40	70.18
平均	42.02	53.39	54.30	50.27	66.07

*: このリポジトリで公開されている値を参照 https://github.com/pfnet-research/japanese-lm-fin-harness

結果として、事前学習モデルとSFTしたモデル（その他の追加データ）の段階で平均のスコアが10以上向上しています。また、それぞれの対策データも加えることで対策を行ったベンチマークについてはさらにスコアの向上が確認できました。結果としてSFTすることでopenai/gpt-35-turboと比較すると高い精度を達成することができました。

終わりに

金融ベンチマークであるJapanese Language Model Financial Evaluation Harnessに対して、PLaMo-100Bのスコアを向上させる取り組みに関して紹介しました。今回の検証を通じて、我々の事前学習に不足していたデータを洗い出すことができました。この知見を今後の事前学習モデルの開発に活用することで、事前学習モデル単体でも他社や海外のモデルを超えていけるように取り組んでいきたいと思います。

今後もPLaMo-100Bをはじめとした大規模言語モデルに関する記事をいくつか公開予定です。