Blog

2025.05.27

Research

特化型大規模言語モデル『PLaMo翻訳』を公開しました

Kentaro Imajo

Preferred Networks(以下PFN)とグループ会社のPreferred Elements(以下PFE)では2024年10月から開始したGENIAC 第2期にて、高性能かつ軽量な大規模言語モデル(LLM)の開発を行っています。その中で特化型大規模言語モデルのひとつとして『PLaMo翻訳』の開発を行いました(プレスリリース)。このモデルを PLaMo Community License (ライセンス文解説記事)のもとで公開(Huggingface)し、誰でも利用できるデモページも提供しています。今ある翻訳モデルと比べて訳文が流暢で読みやすくなっていると思いますので、ぜひ使っていただけると幸いです。また性能も高く商用利用にもたえると自負しておりますので、商用利用を考えている方はぜひフォームよりご相談ください。今回の記事では、このモデルについて紹介します。

※上記にあるように、この開発は経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構(NEDO)が実施する、国内の生成AIの開発力を強化するためのプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の支援を受けて実施しました。

機械翻訳の進化と『PLaMo翻訳』の位置づけ

機械翻訳技術は大きく3つの時代を経て進化してきました。ルールベース機械翻訳(Rule-based Machine Translation、RBMT)からはじまり、統計的機械翻訳(Statistical Machine Translation、SMT)と呼ばれる技術に移行し、現在はニューラル機械翻訳(Neural Machine Translation、NMT)が主流です。2020年にニューラル機械翻訳による日本語翻訳がDeepLで使えるようになり、その流暢性から大きな話題となったことを覚えている人もいるかもしれません。

ルールベース機械翻訳ではすべてを人が用意する必要があり、制御性は高かったものの性能に限界がありました。統計的機械翻訳に移り対訳データを多数準備することで語彙を自動的に獲得できるようになり性能が向上しました。ニューラル機械翻訳の登場で言語構造を含めた知識を自動的に学習できるようになり、さらに性能が向上しました。

ニューラル機械翻訳では、翻訳ペアを用意しエンコーダ・デコーダーを持つTransformerモデルを学習しました。英語とフランス語をはじめとした国連の公用語や、ラテン語圏の言語ペアは対訳データが多く存在しますが、英語と日本語は少数言語よりは圧倒的に量はあるものの、それほど多くの対訳データがあるわけではありません。そこで多言語の対訳を同時に学ぶことで翻訳能力を高める試みなどが行われてきました。

今回公開した『PLaMo翻訳』もTransformerを使っていますが、従来のニューラル機械翻訳とは異なり、大規模言語モデルベース翻訳ともいえるアプローチを採用しています。大規模言語モデルPLaMoの学習データは、一部対訳データは含まれているものの、大半はWeb上の一般テキストデータで構成されています。大規模言語モデルの事前学習には大きな計算資源が必要ですが、ニューラル機械翻訳では人が与える必要があった対訳データによる言語間の関連性についても自動的に獲得できるようになりました。この大規模言語モデルを翻訳専用に追加学習することでさらなる翻訳性能向上を狙っているモデルが『PLaMo翻訳』です。

PLaMo翻訳の強み

ニューラル機械翻訳で用いられる並列コーパスはその特性上、人間が何らかの形で翻訳を行いうるような分野の文章しか存在しておらず、ニューラル機械翻訳が得意とする分野には限界がありました。また、多くの並列コーパスには長い文章があまり存在しないため、長い文章で一貫性を保った翻訳についても限界がありました。一方、大規模言語モデルはWeb上から多くの文章を学び、非常に流暢で自然な文章を生成することに長けています。これにより文章の裏にある文脈を読み取り、その文体に合わせた翻訳ができるようになりました。例えば論文は論文調で、物語は物語調で訳すといった感じです。

  • 原文: Evaluating the open-ended text generation of large language models (LLMs) is challenging because of the lack of a clear ground truth and the high cost of human or LLM-based assessments. We propose a novel benchmark that evaluates LLMs using n-gram statistics and rules, without relying on human judgement or LLM-as-a-judge approaches. Using 50 question and reference answer sets, we introduce three new metrics based on n-grams and rules: Fluency, Truthfulness, and Helpfulness. Our benchmark strongly correlates with GPT-4o-based evaluations while requiring significantly fewer computational resources, demonstrating its effectiveness as a scalable alternative for assessing LLMs’ open-ended generation capabilities.
  • PLaMo翻訳: 大規模言語モデル(LLM)のオープンエンドなテキスト生成を評価することは、明確な正解データが存在しないことや、人間やLLMによる評価が高コストであることから、困難が伴う。本研究では、人間の判断やLLMを評価者として用いる手法に依存せず、n-gram統計量とルールベースの手法でLLMを評価する新規ベンチマークを提案する。50組の質問と参照回答を用いて、n-gramとルールに基づく3つの新規評価指標(流暢性、真実性、有用性)を導入した。本ベンチマークはGPT-4oによる評価と高い相関を示しつつ、計算資源を大幅に削減できるため、LLMのオープンエンド生成能力を評価するためのスケーラブルな代替手法として有効であることが実証された。
  • A社翻訳モデル: 大規模言語モデル(LLM)のオープンエンドテキスト生成の評価は、明確なグラウンドトゥルースの欠如と、人間またはLLMベースの評価コストの高さのために困難です。本稿では、人間の判断やLLMを判断基準とするアプローチに依存せず、nグラム統計とルールを用いてLLMを評価する新たなベンチマークを提案します。50個の質問と参照回答セットを用いて、nグラムとルールに基づく3つの新しい指標(流暢性、真実性、有用性)を導入します。本ベンチマークは、GPT-4oベースの評価と高い相関性を示しながら、必要な計算リソースを大幅に削減し、LLMのオープンエンド生成能力を評価するためのスケーラブルな代替手段としての有効性を実証しています。
  • B社翻訳モデル: 大規模言語モデル(LLM)のオープンエンドテキスト生成の評価は、明確なグランドトゥルースの欠如と、人間やLLMベースの評価の高コストのために困難である。我々は、人間の判断やLLM-as-a-judgeアプローチに頼ることなく、n-gram統計とルールを用いてLLMを評価する新しいベンチマークを提案する。50の質問セットと参照解答セットを用いて、n-gramとルールに基づく3つの新しい評価基準を導入する: Fluency、Truthfulness、Helpfulnessである。本ベンチマークは、GPT-4oに基づく評価と強い相関がある一方、必要な計算資源は大幅に少なく、LLMのオープンエンドな生成能力を評価するためのスケーラブルな代替手段としての有効性を実証している。
    • コメント: ニューラル機械翻訳モデルは論文であるにもかかわらず「です・ます調」になっています。また、「ground truth」を「グランドトゥルース」と翻訳するなど、カタカナ語を多用する傾向があります。

また、国産大規模言語モデルであるPLaMoは、Web上に最もたくさん存在する言語である英語を学んでいることはもちろん、海外モデルと比べて日本語を圧倒的に高い割合で学んでいます。これにより小さいモデルであっても英語と日本語の知識がともに強く定着しています。これを利用し、『PLaMo翻訳』では事前学習モデルに対して翻訳専用ファインチューニングを行うことで、高い和英・英和翻訳性能を手元でも動く規模で実現しました。

例えば、マイナーな慣用句などは並列コーパスに十分に含まれておらず、ニューラル機械翻訳ではうまく翻訳できないことがあります。それに対してPLaMo翻訳はWebから多くの知識を獲得しています。

  • 原文: 家計は火の車だ(※経済的に非常に苦しいという意)
    • PLaMo翻訳: Our household finances are in dire straits. (家計が苦境に陥っている)
    • A社翻訳モデル: The household finances are on fire. (家計が燃えている)
    • B社翻訳モデル: Household finances are on fire. (家計が燃えている)
  • 原文: 家の中が火が消えたようだった(※活気を失って寂しくなった様子)
    • PLaMo翻訳: The house was as quiet as a tomb. (その家は墓場のように静かだった)
    • A社翻訳モデル: It seemed like the fire had gone out in the house. (家にあった火が消えてしまったようだった)
    • B社翻訳モデル: It was like the house was on fire. (その家は燃えていたようだった)
  • 原文: 笑う門には福来たる(※笑いの絶えない人の家には、自然と幸福が訪れるという意)
    • PLaMo翻訳: A merry heart makes a cheerful countenance. (楽しい心は明るい表情を作る)
    • A社翻訳モデル: Laughter brings good fortune. (笑いが幸運を運ぶ)
    • B社翻訳モデル: good fortune and happiness will come to the home of those who smile (幸運と幸福は微笑む人の家に来る)

PLaMo翻訳のこれから

PLaMo翻訳は特化型大規模言語モデルの有用性の実証実験として少人数で開発したモデルであり、性能向上の余地がまだまだあります。また、事前学習モデルのデータとして翻訳モデルの出力を逆翻訳の形で入れることで、継続的な翻訳性能の向上も可能だと考えています。もしこの翻訳モデルに可能性を感じていただけましたら、ぜひSNSなどで広く共有いただければ幸いです。企業の皆様には商用利用の相談をぜひいただけると幸いです。多くの人に知ってもらい多くの企業で使ってもらうことを通して、会社として持続可能な形で翻訳精度向上ができればと考えています。

仲間募集中

PFN/PFEでは今後もLLMの開発を継続して行っていきます。今回紹介した翻訳だけでなく様々なやりがいのある課題に取り組んでいますので、一緒に情熱をもって挑戦していく仲間を募集しています。

これらの仕事に興味がある方はぜひご応募よろしくお願いします。

https://www.preferred.jp/ja/careers/

  • Twitter
  • Facebook