機械翻訳を自分好みにカスタマイズ ~言語資産とカスタム機械翻訳モデルの作成~
弊社が運用している機械翻訳活用プラットフォーム「XMAT(トランスマット)」に、2022年4月から「LAC(ラック)」(Language Asset Creator)というオプション機能が登場しました。
LACが提供している機能は大きく2つ。言語資産の作成と、これを利用したカスタム機械翻訳モデル(カスタムMTモデル)の作成です。本記事では、それぞれの機能を簡単に紹介し、言語資産やカスタムMTモデルを使ってできることの具体例と、LACをご利用いただくことのメリットを解説したいと思います。
機能(1) 言語資産の作成
LACでは、原文と訳文のペア(対訳)を集めたものを「言語資産」と呼んでいます。LACが提供する機能の1つが、この言語資産の作成です。言語資産は翻訳メモリまたは用語集として保持されます。
言語資産は様々なフォーマットのファイルから作成することができます。対訳が含まれている所定の形式のファイルであれば、これをインポートして高品質の言語資産を短時間で作成することが可能です。
さらに、LACでは、対訳になっていない一般的なファイルからでも言語資産を作成することができます。たとえば、原文と訳文のファイルを1つずつインポートする方法や、原文となるファイルを1つだけインポートする方法もあります。
原文と訳文のファイルを1つずつインポートする方法では、「アラインメント」と呼ばれる処理によって原文と訳文を文単位で突き合わせることで、対訳データを自動的に生成します。一方、原文ファイルとなるファイルを1つだけインポートする方法では、AIを活用して訳文を自動生成した上でアラインメントを実行します。いずれも、元から対訳になっているファイルをインポートする方法と比べると言語資産の品質が低下して処理時間も長くなりますが、対訳になっているファイルをお持ちでないお客様の場合は非常に有用な方法です。
このようにして作成した言語資産は次の3つの方法で利用することができます。
①言語資産をファイルとしてエクスポート ②Quick PEで翻訳メモリおよび用語集として設定③LACでカスタムMTモデルを作成 |
①では、一般的なCATツールでサポートされているファイル形式で言語資産データをエクスポートすることができます。お客様の用途に応じて自由に活用していただけます。
②では、XMATのQuick PEで翻訳メモリや用語集として言語資産を利用します。
③では、作成した言語資産を利用してカスタムMTモデルを作成します。これがLACの2つ目の機能となります。
機能(2) カスタム機械翻訳モデルの作成
カスタム機械翻訳モデル(カスタムMTモデル) の作成とは、すなわち、用途に応じた好みの翻訳を出力してくれるMTモデルを作成することを意味します。「機械翻訳を自分好みにカスタマイズする」というほうがイメージしやすいかもしれません。カスタマイズした内容を反映して機械翻訳を処理する実体を「モデル」と呼びます。
LACで取り扱うカスタムMTモデルには2種類あり、それぞれ言語資産の利用方法が異なります。
- 追加学習モデル(アダプテーション):
ベースとなる機械翻訳エンジンに言語資産を教師データとして与えて学習させる - 用語集設定モデル(ラッピング):
ベースとなる機械翻訳エンジンに用語集を紐付け、特定の用語の訳文を指定する
このようにして作成したカスタムMTモデルは、XMATのQuick MTおよびQuick PEでの機械翻訳に利用することができます。つまり、XMATを利用して思いどおりの訳文を簡単に入手するための近道が、LACで作成したカスタムMTモデルを利用することなのです。
カスタムMTモデルを使うと訳文はどう変化する?
では、LACのカスタムMTモデルを使って機械翻訳を行うと訳文がどのように変化するのか、具体的な英日翻訳の例を見てみましょう。ベースとなる機械翻訳エンジンとして「みんなの自動翻訳@KI」の標準モデルが出力した訳文と比較します。
<原文>
How computer games encourage kids to spend cash |
<「みんなの自動翻訳@KI」の標準モデルが出力した訳文>
コンピュータゲームは子供たちの現金消費をどのように促進するか |
<追加学習モデルが出力した訳文>
コンピューターゲームで子供が現金を使うようになる仕組み |
この追加学習モデルは、標準モデルにIT用語の用語集(15,000行の対訳データ)を教師データとして与えて作成したものです。この用語集において、英単語「computer」の訳が「コンピューター」となっているため、標準モデルの訳文では「コンピュータ」となっている個所が、追加学習モデルの訳文では「コンピューター」に変わっています。言語資産を与えて学習させた結果、「computer」を「コンピューター」と機械翻訳するモデルが作成されたことが分かります。
次に、「Nara Ward」が「ナラ・ウォード」(人名)となるようにカスタマイズしてみましょう。用語集設定モデルを利用すると、特定の用語の翻訳を指定することができます。
<用語集設定モデルが出力した訳文>
コンピュータゲームは子供たちの現金消費をどのように促進するか |
この例では標準モデルに対して用語集を紐づけましたが、追加学習モデルに対してさらに用語集を紐づけることも可能です。上記はほんの一例ですが、追加学習(アダプテーション)と用語集設定(ラッピング)を組み合わせて機械翻訳をカスタマイズすることで、より理想的な訳文に近づけていくことができます。
原文の引用元: https://www.bbc.com/news/business-65372710
LACをご利用いただくことのメリット
LACが提供する2つの機能を利用して、思いどおりの(あるいは、それに近い)訳文に近づくことができる点について簡単にご紹介しました。
最近はあらゆる分野でAIの活用が進み、特に親和性が高いと言われている機械翻訳の分野ではAIによるカスタマイズもより一般的になりつつあります。そんな中、LACでは、特別な装置や技術、環境、さらには大量の対訳データを必要とせず、誰でも簡単に機械翻訳のカスタマイズを行うことができる点を最大のメリットと位置づけてサービスを提供しています。
次のメジャーアップデートでは、Webデータ自動対訳作成サービス「CorpusNow」と連携して、より精度の高いアラインメントを実現する予定です。どうぞご期待ください。
ここまでお読みいただいて少しでも「使ってみたいな」と思った方は是非、トライアルをお申込みください。基本サービス(Quick MT/PE)もLACも、トライアル期間中は無料でご利用いただけます。
関連記事