特許翻訳DXのススメⅡ<特許翻訳がカスタマイズに身近な理由>
前回のブログ 特許翻訳DXのススメ<明細書翻訳における機械翻訳活用方法> で、「特許明細書の翻訳においても、充分に機械翻訳を活用いただけます」との記事を掲載しました。
今回はその続編として、特許分野でより有効に機械翻訳を使いこなす方法「カスタマイズ」をご紹介します。
目次[非表示]
- 1.カスタマイズはLACでセルフ操作可能に
- 2.カスタマイズ手法
- 2.1.①用語適用
- 2.2.②追加学習(アダプテーション)
- 2.3.③ハイブリッド(追加学習+用語適用)
- 3.特許翻訳がカスタマイズに身近な理由
- 4.川村インターナショナルなら対訳コーパス作成も容易
- 5.お客様事例
- 6.おわりに
カスタマイズはLACでセルフ操作可能に
まず、いきなり弊社ツールのご紹介になってしまいますが、川村インターナショナル開発の機械翻訳活用プラットフォーム「XMAT」に2022年4月、有償オプション機能「LAC」が追加されました。
LAC(Language Asset Creator)とは、ユーザーのセルフ操作で言語資産作成、翻訳エンジンのカスタマイズが可能となった画期的な機能です。
定額制費用でプログラミングの知識も不要(マウス操作のみ)のため、これまで敷居が高いと思われがちだった機械翻訳エンジンのカスタマイズがぐっと身近になりました。
カスタマイズ手法
それでは、実際にどのようなカスタマイズが可能なのでしょうか。以下ではLACで可能なカスタマイズ手法を3つご紹介します。
①用語適用
ベースとなる機械翻訳エンジンを指定し、ユーザー側で用意した用語(原文、訳文ペア)をセットする事により、指定の用語で訳出結果を表示させるモデルとしてカスタマイズする事ができます。
②追加学習(アダプテーション)
ユーザー側で用意した教師データ(原文、訳文ペア)を用いて、指定のベースエンジンに追加学習を行います。これにより、ベースエンジンの性能は保ちつつ、訳出結果を教師データの表現に寄せたモデルを作成する事ができます。
みんなの自動翻訳をベースエンジンとして選択いただく場合、訓練方法は EBMT (Example-based Machine Translation)も選択可能です。
③ハイブリッド(追加学習+用語適用)
②で出来上がった追加学習モデルを指定エンジンとし、①の方法で用語をセットします。自社表現に寄せた訳文で且つ、用語ブレも回避できるハイブリッドモデルを作成する事ができます。
特許翻訳がカスタマイズに身近な理由
本ブログのサブタイトルにありますように、他の業界の翻訳に比べ、知財業界の皆様はカスタマイズに身近であると言えますが、その理由について記載いたします。
カスタマイズにあたり、一般的に最初のハードルになるのが、教師データの用意です。
追加学習を行う場合、お手本となる翻訳(原文、訳文ペア)が大量に必要となりますが、同タイプの翻訳済ドキュメントを社内でかき集めるのも、量が多くなるとそれなりに大変です。
ただし特許明細書の場合は、公報として公開されている特許が沢山存在します。公開済の自社出願を教師データとすれば、セキュリティ面もそこまでご心配いただく必要はありません。
川村インターナショナルなら対訳コーパス作成も容易
カスタマイズ、2つ目のハードルです。
教師データの素材として沢山のファイルが集まったとしても、そのままでは教師データとして使用する事はできません。
「日本語ファイルと英語ファイル」というファイル単位での対ではなく、「日本語一文と英語一文」という、文対として紐づけされた状態になって初めて、機械翻訳エンジンは追加学習を行う事ができます。この「アライン」と呼ばれる紐づけ作業をツールで自動処理する事も可能ですが、原文ファイル、訳文ファイルの上から順番に一文ずつ区切って紐づけしていく、という方法が一般的です。
ただし、特許公報はご存じの通り各国のフォーマットにより記載順が異なるため、同じ内容の特許でもこの方法ではアラインを自動化する事ができません。また、原文一文に対して二文に分かれて翻訳されている箇所、その逆の箇所があった場合はそこでずれが生じ、ファイルの最後まで影響を及ぼしてしまいます。これはなかなかのストレスです。
ここで役立つのが、川村インターナショナルの「CorpusNow」です。「CorpusNow」は、インターネット上の多言語Webサイトから、独自の手法で効率的に対訳データを作成するサービスです。AIロジックで文対の紐づけを行うため、記載順や文数差異の影響を受けません。追加学習用の学習データ作成を、これまでとは別次元で容易にすることが可能となったのです。
お客様事例
ここで機械翻訳カスタマイズのお客様事例をご紹介します。こちらは、自社公開公報を使用してみんなの自動翻訳@KI商用版の特許エンジンに追加学習を行った事例です。
教師データのアラインについては「CorpusNow」で難なくサポートさせていただきました。
当初は、自社の技術分野に特化した自然な訳出結果が出れば…というご期待でお試しいただきました。出来上がったカスタムモデルは、明細書だけではなく、拒絶理由通知書の翻訳結果もとても高品質となる事がわかり、この点はお客様にとっても嬉しい誤算だったようです。
本事例は追加学習モデルの事例となりますが、特許翻訳においては用語適用モデルのカスタマイズも非常に有効です。例えば化学物質名等の定訳、専門用語や業界用語等、単語を事前に設定しておけば、機械翻訳後の修正作業を軽減していただく事が可能となります。
おわりに
最後までお読みいただきましてありがとうございました。
特許分野における機械翻訳のカスタマイズについては、ホワイトペーパーでも詳しくご紹介しております。ご興味のある方はぜひお気軽に、こちらの資料請求フォームからお申込みください。
※同業他社様および個人メールアドレスの方からの資料請求はお断りすることがございます。あらかじめご了承の程をよろしくお願い申し上げます。
皆様にとって有用な情報となれば幸いです。
関連記事