精度のよいAI翻訳を知るには～評価指標とAI翻訳エンジンのカスタマイズ～

2024-02-28 00:00 （更新：2025-04-11 15:04） KIマーケティングチーム

1.AI翻訳を評価する4つの指標

1.1.指標（1）BLEU（ブルー）
1.2.指標（2）NIST（ニスト）
1.3.指標（3）RIBES（ライビーズ）
1.4.指標（4）WER（ダブリュイーアール）

2.評価指標を利用する際の注意点
3.AI翻訳エンジンをカスタマイズすると…
4.カスタマイズ可能なAI翻訳サービス

AI翻訳を評価する4つの指標

人手翻訳のプロジェクトでは、通常、「翻訳」→「チェック」→「最終確認」のステップで案件が進行します。それぞれの目的に即したツールやエディターが使われますが、基本的にはすべてのステップが人手（目視）で行われます。
一方、AI翻訳のプロジェクトは、おおまかに「AI翻訳（機械翻訳）（MT：Machine Translation）」→「ポストエディット（PE：Post Editing）」→「最終確認」のステップで進行します。細かいステップ/工程はプロジェクトごとに異なりますが、人手翻訳よりもコスト（Cost）および工数（Delivery）を削減できることが大きなメリットの1つになります。
とはいえ、品質（Quality）を維持することも当然、必要です。通常、ポストエディットと最終確認はやはり人手で行われるため、AI翻訳でできるだけ高精度の訳文を出力することが品質の維持/向上（さらにはコスト/工数の削減）の鍵になります。では、精度のよいAI翻訳を知る（選ぶ）にはどうすればいいでしょうか？
本記事では、AI翻訳を評価する際に使用できる4つの指標を簡単に紹介したいと思います。これらの指標は、いずれも「AI翻訳の出力した訳文が人手翻訳による訳文にどの程度近いか（遠いか）を示した数値」になります。この「人手翻訳による訳文」を「参照訳」とか「正解訳」と言ったりします。

指標（1）BLEU（ブルー）

AI翻訳を評価する指標はいくつも存在しますが、BLEU（BiLingual Evaluation Understudy）スコアは現時点で最も広く使われている指標です。
BLEUスコアは0～1の数値で示され（*1）、参照訳に近いほど数値が高くなります。つまり、数値が高いほど人手翻訳に近いAI翻訳である、と言えます。一般的な目安としては、BLUEスコアが0.4以上の場合に高品質であると評価され、0.6を超えると人手翻訳よりも品質が高いという評価になります。
コーパス単位での評価を前提としており、長い（単語数/文字数の多い）訳文が高く評価される傾向があります。また、訳文同士の文字情報のみを評価するため、広域的な語順を正しく評価できない（広域的に語順が間違っていてもマイナス評価できない）などの特徴もあります。
（*1）BLEUスコアを0～1の数値ではなく、100を掛けた割合（%）で示す場合もあります。

指標（2）NIST（ニスト）

NISTスコアも、BLEUスコアと同様に、AI翻訳の出力した訳文と参照訳との近さを示す指標です。
値は正の実数（0～）で示され、参照訳に近いほど数値が高くなります。0～1や0～100などの範囲（この場合、参照訳と完全に一致した場合が1または100）に正規化して表現されることが多いようです。
BLEUスコアとの違いとして、訳文での出現頻度による加重が考慮されます。そのため、高頻出単語（機能語など）よりも低頻出単語（内容語など）が高く評価される傾向があります。
ちなみにNISTとはNational Institute of Standards and Technology（アメリカ国立標準技術研究所）の略称です。NISTで開発された評価手法なので、この名称になっています。

指標（3）RIBES（ライビーズ）

RIBES（Rank-based Intuitive Bilingual Evaluation Score）は、BLEUスコアやNISTスコアとは異なるアプローチの評価指標です。NTTコミュニケーション科学基礎研究所で開発されました。
比較する訳文で共通して出てきた単語の順位の相関に基づく数値であるため、広域的な語順を正しく評価することが可能です。英語と日本語、あるいは中国語と日本語のように、語順が大きく異なる言語間の翻訳を評価する場合、人手での翻訳チェックによる評価との相関性が高いと言われています。
RIBESは0～1の数値で示され、参照訳に近いほど数値が高くなり、参照訳と完全に一致した場合に1となります。

指標（4）WER（ダブリュイーアール）

WER（Word Error Rate：単語誤り率）も、また別のアプローチでの評価です。
AI翻訳の出力した訳文と参照訳を比較して、語順や単語の編集距離（Edit Distance）を算出し、相互の一致を評価します。上記3つの指標とは異なり、値が小さいほど精度の高いAI翻訳であることを示します。

これらの指標はいずれも統計値であるため、評価に使う対訳コーパスの件数が多いほど評価値としては意味のあるものになります。つまり、100件の対訳コーパスで評価するよりも1,000件の対訳コーパスで評価したほうが、機械翻訳の精度の実態に近い数値が得られます。

評価指標を利用する際の注意点

本記事で紹介した4つの指標をはじめ、これらの評価指標は、異なる複数のAI翻訳（AI翻訳エンジン）を評価して値を比較するためのツールです。つまり、指標ごとの絶対値ではなく、AI翻訳ごとの値を相対比較して利用するものであることに注意が必要です。

AI翻訳エンジンをカスタマイズすると…

最近は、分野や領域に特化してより良い訳文を出力できるようAI翻訳エンジンをカスタマイズするサービスや製品がトレンドになっています。分野を限定することで、BLEUスコアを0.8まで向上できたという例もあります。今後は、分野は限定的だけれども精度が高い訳文を出力するカスタム機械翻訳が主流になっていくと予想されています。
最後に、具体的にどのような数値が出るのかも紹介しておきます。以下は、とあるAI翻訳エンジンをカスタマイズした前後の評価値です。カスタマイズによって精度が向上していること、また、指標によって値が異なることがよく分かるデータだと思います。

	カスタマイズ前	カスタマイズ後
BLEU	0.29	0.41
NIST	6.34	7.13
RIBES	0.74	0.80
WER	0.53	0.44

カスタマイズ可能なAI翻訳サービス

川村インターナショナルが提供する機械翻訳活用プラットフォーム「XMAT®」で、翻訳エンジンのカスタマイズ機能「LAC」がご利用いただけます。

お客様の持つ大量の文章（言語資産）を教師データとして機械学習サービスに与えることで、訳文や用語の傾向が反映された、貴社だけの使える機械翻訳エンジン（＝カスタム機械翻訳モデル）を作成できます。高額な費用や、膨大な工数でエンジンカスタマイズを断念していた方も、「LAC」で簡単にコストを抑えて、自社専用の高精度な機械翻訳エンジンを作成することが可能です。ぜひ一度お試しください。

言語資産およびカスタマイズエンジンの作成「LAC」｜機械翻訳・AIの有効活用言語データのデジタル変革を実現【LDX lab】 LAC（ラック）は、機械翻訳エンジンのカスタマイズをユーザーセルフで実現します。言語資産作成、用語集適用エンジン作成、エンジン追加学習、エンジンモデル評価の機能を備えてあり、自社専用のカスタマイズエンジンを活用した、機械翻訳翻訳環境の効率化を可能にします。 LDX lab