対訳データ自動作成サービス「CorpusNow」とは
翻訳業界でもAI技術の研究が日々行われており、機械翻訳(自動翻訳)の精度も目覚ましく向上しています。それとともに効率化、コスト削減の切り札として自社専用のカスタム機械翻訳エンジンを利用する企業は少しずつ増えてきています。しかし、まだカスタム機械翻訳エンジンの認知度は低く、「カスタムエンジンを作りたいけど、どうしたらいい?」「何を準備したらいい?」というようなお問い合わせをいただくことがあります。
ここではカスタム機械翻訳エンジンを作成する際に必要な「対訳データ(コーパス)」を独自のAI手法である品質評価ロジックにより効率的に作成することができる「CorpusNow」というサービスについてご紹介させていただきます。
目次[非表示]
「対訳データ(コーパス)」とは
「対訳データ」とは、原文と翻訳文が対になったデータファイルのことを言います。この「対訳データ」を機械翻訳エンジンに取り込み、追加学習させることで、ユーザー独自のカスタム機械翻訳エンジンを作成することが可能となります。
ここで注意していただきたいのが「対訳データ」は原文ファイルと翻訳済ファイル、といったファイル単位での対ではなく、文(セグメント)ごとの対になっている必要があります。
例
英語 |
日本語 |
Today is Tuesday. |
今日は火曜日です。 |
Tomorrow is Wednesday. |
明日は水曜日です。 |
対訳が多ければ多いほどデータが蓄積、学習され、機械翻訳アルゴリズムによって、より品質の高い、ユーザー好みの翻訳結果を実現することが可能になります。
学習に必要な対訳データは一般的に100万ワードほどと言われています。
もちろん分量が少なくてもカスタムエンジンは作成できますが、学習する材料は多ければ多いに越したことはありません。
今までの「対訳データ」の作成方法
今までの対訳データ作成の方法は大きく分けて2つありました。
●Excelで作成
Excelに原文と訳文の列を文単位でコピー&ペーストで入力していく方法です。ただ、これは目視で確認しながらの作業となるため、対訳のデータが数万もある場合は、コストも時間も途方もなくかかります。
●CAT(Computer Assisted Translation)ツールで作成
CATツールと呼ばれる翻訳支援ツールを利用する方法です。こちらはExcelよりは手間はかかりませんが、ファイルの上から順番に文を対訳として紐づけていくため、原文と翻訳文が順番通りになっている必要があります。レイアウトの都合や独自記載などによって分量が違う場合、その部分から対訳がずれてしまうことがあり、最終的には手作業で修正をしなくてはなりません。また、この方法はCATツールを持っていないユーザーには難易度が高いかもしれません。
CorpusNowのすごいところ
「CorpusNow」であれば対訳データを作成したいが、原文ファイル・訳文ファイルの形式が異なるもの(原文PDF、訳文Wordなど)や、原文ファイルと訳文ファイルで文章の順番がバラバラ、対になっていないテキストがある、などといった難がある対象ファイルなども独自のAI技術によって対訳データ(コーパス)が作成できます。
上記に挙げた作成方法と何が違うのかを簡単に説明いたします。
従来は原文、訳文を上から順番通りに紐づけて対訳を作成していましたが、「CorpusNow」では原文と訳文を一度バラバラに分解した後で独自のAI技術により、自動的に組み合わせて対訳データを作成します。またCorpusNow独自の品質評価ロジックにより、品質基準の数値化も可能となります。これにより精度の高い対訳、低い対訳を数値によってユーザーが取捨選択することができます。
また、Webサイトからテキスト情報をスクレイピング※することはもちろん、WordやPowerPointなどのMicrosoft Office形式のファイルやHTML、XML、テキストデータなども簡単に対訳データに変換することができます。
※スクレイピング:特定のデータから余分な情報を除去し、必要な情報のみを抽出すること
まとめ
このように、弊社の「CorpusNow」であれば簡単に対訳データを作成することができます。さらに弊社の機械翻訳サービスXMAT®と組み合わせることで、作成した対訳データを追加学習させて自社専用のカスタムエンジンを簡単に作成することができます。トライアルも可能ですので、ご興味がありましたら是非弊社までお問い合わせください。
関連記事