生成AIによる翻訳が直面する品質の限界|ChatGPTと機械翻訳の意外な関係 その4
前回の記事で、今日の生成AIに使用されている大規模言語モデル(Large Language Model: LLM)と、従来型の機械翻訳であるニューラル機械翻訳(Neural Machine Translation: NMT)との、翻訳能力の違いについて概説しました。簡単にまとめると、流暢性(訳文の自然さ)においてLLMが優位であり、正確性(翻訳の忠実度)と翻訳速度においてNMTが優位です。LLMとNMTの相違点は、それだけではありません。
この記事では、LLMとNMTの学習データの違いと、それに起因する翻訳品質の問題について見ていきたいと思います。
目次
学習データの違いと、ピボット翻訳という仕組み
NMTの学習データは、原文と訳文のペアです。原文が1つの言語(たとえば日本語)で書かれており、訳文がもう1つの言語(たとえば英語)で書かれています。そのため、個々の翻訳モデルは単一言語方向(たとえば日本語から英語)の翻訳しかできません。
多くの商用機械翻訳サービスでは、英語から各言語、各言語から英語の翻訳モデルが用意されていて、たとえば日本語から中国語に翻訳する場合、日本語から英語に翻訳し、さらに英語から中国語に翻訳しています。これを「ピボット翻訳(pivot translation)」と言います。
(なお、当社の機械翻訳ソリューション「みんなの自動翻訳@KI」は、日本語から各言語、各言語から日本語の翻訳モデルも使用しており、ピボット翻訳ではなく直接翻訳しています。)
一方、LLMの学習データは、さまざまな言語で書かれた文章です。そのため、1つの言語モデルでさまざまな言語方向の翻訳ができ、ピボット翻訳の必要がありません。その点のみを見れば、英語以外の言語同士の翻訳にはLLMの方が適していそうです。
言語間の偏りが生む、LLM翻訳品質の差

ところが、前回も紹介した2023年の研究によると、LLMによる翻訳は、英語への翻訳ではNMTに匹敵する一方、英語からの翻訳や、英語以外の言語同士での翻訳については、品質が劣ることが実証されています。現実のLLMは、言語方向によって翻訳能力に差があるのです。
その理由は、LLMの学習データに言語間の偏りがあることです。一般的に利用されているLLMのほとんどで、学習データの多くが英語の文で占められています。そのようなLLMは、英語文の生成に長けているので、訳文が英語になるような翻訳は得意ですが、そうでない翻訳は不得手になってしまいます。
しかし、LLMは日々学習量を増やしています。非英語文の学習も進めていけば、訳文が英語でない翻訳も品質が向上するでしょうか。
学習データの質低下と、LLMが直面する限界
LLMは学習データのほとんどをウェブなどの公開データに頼っています。ところが、ウェブ上には、ユーザーが生成したコンテンツやAIが生成または翻訳した文章がどんどん増えています。そのような低品質なデータをいくら学習しても、LLMの性能向上は期待できません。
それどころか、AIが生成した文章をAIに学習させると、言語モデルが崩壊に向かうことが知られています。実験によると、生成AIが最終的に意味不明な文章ばかり生成するようになるのです。この現象は、近親婚を繰り返した結果衰退したハプスブルク家になぞらえて「ハプスブルクAI(Habsburg AI)」と呼ばれることがあります。
学習データ枯渇問題と、NMTによる現実的な解決策
LLMを訓練するには高品質なデータが必要なのですが、公開された高品質データは早ければ2026年には枯渇すると見積もる研究があります(2026年問題)。話者が少ない言語では、公開データにおける機械翻訳文の割合が高いので、学習データの品質低下による翻訳性能の悪化という問題がより深刻になってゆくと考えられます。
もっとも、高品質学習データの不足という問題は、NMTも等しく抱えています。それに対する解決策の1つとして、自組織内の非公開データを学習させた自組織専用翻訳モデルを作成することが挙げられます。なお、追加学習の容易さという点でも、NMTがLLMより優位です。
弊社のAI翻訳ツールXMATでは、自組織専用翻訳モデルの作成と使用をセルフサービスで行えます。また、弊社ではより高品質な対訳データを作成したい、対訳データを組織外に出さないようにしたい、といったご要望にもお応えできます。
参考
- Findings of the 2023 Conference on Machine Translation (WMT23): LLMs Are Here But Not Quite There Yet
- How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation
- AI Models Collapse When Trained on Recursively Generated Data
- Will we run out of data? Limits of LLM scaling based on human-generated data
- A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism
川村インターナショナルのサービス
XMATでは翻訳文字数を気にせず、高品質かつ安全な機械翻訳を提供することができます。テキスト・ドキュメント翻訳に加え、翻訳エディター機能や生成AI(LLM)による修正機能もご利用いただけます。
川村インターナショナルでは機械翻訳サービスの提供だけではなく、より円滑な翻訳業務ができるよう、様々なご提案をさせて頂いています。翻訳の課題をお持ちの法人・個人のお客様はお気軽にお問い合わせください。
関連記事
・ChatGPTと機械翻訳の意外な関係
・ChatGPTと機械翻訳の意外な関係 その2
前の記事
生成AIと機械翻訳、翻訳性能の違いは?ChatGPTと機械翻訳の意外な関係 その3
