Webデータ自動対訳作成サービス
翻訳業務の効率化・コスト削減に役立つAI・アノテーションの活用法
CorpusNowの特長
CorpusNowは、インターネット上の多言語Webサイトから、独自の手法で効率的に対訳データを作成するサービスです。Webサイトからテキスト情報をスクレイピング※し、原文とその訳文を対にした対訳データの形式に整形します。
※スクレイピング:特定のデータから余分な情報を除去し、必要な情報のみを抽出すること

対訳データからできること
対訳データは、将来の翻訳費用の低減を可能にする翻訳メモリや、機械翻訳エンジンをトレーニングするための教師データに加工できます。
機械学習用の教師データ

自社専用の機械翻訳エンジンの構築に
翻訳メモリ

翻訳業務の効率化・コスト削減に
こんな方におすすめのサービスです
- 翻訳メモリを作成して翻訳コストを削減したい
- 自社固有の用語を翻訳できる機械翻訳エンジンを作りたい
- 大量の文章データから有益な情報を取り出し多言語データを分析したい
CorpusNowを利用すると、対訳データ作成を省力化できます。
対訳データの作成は、原文と翻訳文を一対としてデータベース化していくため、時間も手間もかかるものでした。間違いが含まれる対訳データでは、訳文の品質向上に役立ちません。

01
対象URLを指定するだけ
データを取得したい原文と訳文のそれぞれのWebサイトのURLを指定するだけで、対訳データが作成されます。

02
作成データの品質を自動評価
作成した対訳データが正しいかどうかを自動で評価できるため、人が品質を評価する場合と比較して、大幅に低い費用で精度の高い対訳データを作成できます。

03
追加のデータ加工も可能
作成した対訳データを機械学習用に匿名化したり、あらたにメタデータを付与したりするなど、ご要望に応じた形に加工できます。
資料請求
AI・アノテーションの活用により言語資産を構築
対訳データがあると、こんなことに役立ちます!
さまざまな言語資産を活用することで翻訳業務の工数削減へつながります。翻訳作業全体の生産性がどのように向上するのか、言語資産の「用語集」と「翻訳メモリ」を例に、分かりやすく解説しています。
*同業他社様および個人メールアドレスの方の資料請求はお断りすることがございます。あらかじめご了承の程よろしくお願い申し上げます。
ご利用の流れ
FLOW

データを収集する
Webサイトの検討
データを収集する対象となるWebサイト※が、スクレイピング/クローリング(サイトを巡回してデータを収集すること)を許可しているかを確認します。禁止されているWebページは除外します。
※収集対象のWebサイトが未定の場合、弊社で選定するオプションもございます。

テキストの
スクレイピング
各言語のWebサイトからテキストデータをスクレイピングします。対訳データを作成する2つの言語※のURLをそれぞれご指定ください。
※日本語と英語、あるいは英語と中国語など

対訳データの作成
収集したテキストデータから対応する原文と訳文を組み合わせ、対訳データに整形します。この際、独自の品質評価ロジックにより、一定の品質基準を上回る対訳データのみが保存されます。

納品
対訳データは、将来の翻訳費用の低減を可能にする翻訳メモリや、機械翻訳エンジンをトレーニングするための教師データに加工できます。また、自然言語処理などの解析処理をご希望の場合など、お客様の要望に応じた形式で納品します。
よくあるご質問
Q&A
-
翻訳メモリとはなんですか?
自社の保有する翻訳されたテキストのデータを、原文と翻訳文を一対としてデータベース化したものです。このデータを再利用することで翻訳にかかる費用を低減することができます。CorpusNowでは、日本語と英語以外の言語の組み合わせによる翻訳メモリ作成も可能です。
-
どのようなファイル形式で納品されますか?
Excel、TSV/CSV、TMXなど、ご要望に応じたファイル形式での納品が可能です。まずはお問い合わせください。
-
他社のWebサイトからテキスト情報をスクレイピングするのは可能ですか?
はい、可能です。ただし、スクレイピングが禁止されているWebサイトは除外されます。また、取得したデータは、著作権法で定められた用途以外には利用できません。
-
機械翻訳エンジンのカスタマイズの支援は可能ですか?
はい、可能です。弊社ではGoogle AutoML、Globalese、Microsoft Custom Translator、みんなの自動翻訳@KIなどを利用した機械翻訳エンジンのカスタマイズが可能です。また、弊社の提供する機械翻訳活用プラットフォーム「XMAT®」では、教師データの作成からエンジンのカスタマイズ、機械翻訳の利用まで、同一ソリューション内でまとめてご利用いただくことも可能です。
-
Webサイト以外のデータを対訳データの形にすることは可能ですか?
はい、可能です。WordやPowerPointなどのMicrosoft Office形式のファイルや、HTML、XML、テキストデータなどを対訳データに変換できます。お気軽にお問い合わせください。
-
費用の目安を教えてください。
20万ワードの対訳データ作成を10万円からご提供しております。対象となるデータ量が増えるにつれて、費用も低減いたします。詳しくは、お問い合せください。