品質評価 — GPT-5.4直接翻訳 vs 汎用MT+RefineLoop(GPT-5.4)

LLMで直接翻訳するのと
RefineLoopを通すのは何が違うか

同一の日本語XLIFFをGPT-5.4で直接翻訳したバージョンと、汎用MTエンジンの訳文をRefineLoop(GPT-5.4)で改善したバージョンを、MQM風の定性評価で比較しました。どちらも同じLLMを使いながら、アプローチの違いで何が変わるかを検証します。

📅 2026年4月30日 📄 53セグメント 🤖 GPT-5.4(直接翻訳) 🔧 汎用MT → RefineLoop(GPT-5.4)
83.0%
変更率(44/53)
0件
フォーマット崩れ(両者)
1件
GPT-5.4の明確な誤訳
変更パターン分析

44件の変更はどう分類されるか

変更の種類(定性分類)
語彙・表現の置換
21件(47.7%)
軽微な調整
20件(45.5%)
文構造の変更
3件(6.8%)
前回の比較(汎用MTのみ vs RefineLoop)との違い 前回は変更率92.5%・語彙置換65.3%と大きな差が出ましたが、今回はGPT-5.4同士の比較のため変更率83.0%・軽微な調整が45.5%と接近しています。両者の翻訳品質が近いことを示しており、差分は「アプローチの違い」によるものが中心です。
MQM風定性評価

主要な差分の評価

Accuracy(正確さ)・Style(文体)・Fluency(流暢さ)・Terminology(用語)・Format(書式)の5軸で評価しました。

① Accuracy(正確さ)

seg-001 — 「社長」の訳:President vs CEO ACCURACY
Source (JA)
# 「社長がMCPでこれ書いた」——翻訳業界の痛みをAIエージェントで検証した話
GPT-5.4(直接翻訳)
# "The President Wrote This with MCP" — A Story of Examining Pain Points in the Translation Industry with AI Agents
汎用MT+RefineLoop
# "The CEO Wrote This with MCP" — How I Used an AI Agent to Examine the Translation Industry's Pain Points
✓ RefineLoop優位 — 「社長」はビジネス英語では「CEO」が標準。「President」は日本語を直訳した表現で、英語圏では会長や議長のニュアンスが強い。記事のタイトルとしてはCEOが適切。
seg-007 — 「検証だ」の訳 ACCURACY
Source (JA)
今日やろうとしたのは、「その工程をAIエージェントに任せたらどうなるか」の検証だ。
GPT-5.4(直接翻訳)
What I tried to do today was verify "what would happen if that process were left to an AI agent."
汎用MT+RefineLoop
What I set out to do today was test what would happen if that process were handed over to an AI agent.
✓ RefineLoop優位 — 「set out to do」はブログの体験記として自然な出だし。「test」は「verify」より口語的。引用符の有無も含め、RefineLoop版の方が読みやすい。

② Style(文体)

seg-008 — 「自分のスペック」の訳 STYLE
Source (JA)
## 自分のスペック
GPT-5.4(直接翻訳)
## My Specs
汎用MT+RefineLoop
## My Background
△ GPT-5.4優位 — 「スペック」はIT・ガジェット分野での「spec(仕様・スペック)」を意識した口語的な見出し。「My Specs」は原文のユーモアを保持している。「My Background」は正確だが無難すぎる。
seg-009 — 冒頭の一人称 STYLE
Source (JA)
最初に正直に書く。**私はエンジニアではない。**
GPT-5.4(直接翻訳)
To be honest from the start: **I am not an engineer.**
汎用MT+RefineLoop
Let me be honest from the start. **I am not an engineer.**
◇ 判断が分かれる — 「To be honest from the start:」はコロンで続くシャープな構文。「Let me be honest」は英語ブログで一般的な呼びかけ表現。どちらもブログとして適切。
seg-052 — 締めの文 STYLE
Source (JA)
MCPは「つなぐまで」が少し大変だ。でもつながれば、あとはClaudeが動く。**こちらはやりたいことを伝えるだけでいい。それは、エンジニアでなくても変わらなかった。**
GPT-5.4(直接翻訳)
MCP is a little challenging up to the point of getting it connected. But once connected, Claude does the rest. **All you need to do is tell it what you want. That remains true even for non-engineers.**
汎用MT+RefineLoop
MCP is a bit difficult until you get it connected. But once it's connected, Claude takes over. **All you need to do is tell it what you want to do. That holds true even for non-engineers.**
◇ 互角 — 「Claude does the rest」と「Claude takes over」は両者とも良い表現。「a little challenging」と「a bit difficult」も同程度。全体的に非常に近い訳。

③ Fluency(流暢さ)

seg-037 — 二極化の表現 FLUENCY
Source (JA)
集計してみると、推奨者(NPS 9-10)が37%、批判者(0-6)も37%という二極化が見えてきた。
GPT-5.4(直接翻訳)
When I aggregated the results, a polarization became visible: promoters (NPS 9-10) were 37%, while detractors (0-6) were also 37%.
汎用MT+RefineLoop
When I aggregated the data, a polarization emerged: 37% were promoters (NPS 9-10), and 37% were detractors (0-6).
✓ RefineLoop優位 — 「polarization emerged」は「became visible」より自然。数字を先に置く語順(37% were promoters)の方が英語として読みやすい。「the data」は「the results」より文脈に合う。

④ Terminology(用語)

seg-022 — 「検証」の訳:Validation vs Verification TERMINOLOGY
Source (JA)
## 検証1:会議議事録からアクションアイテムを抽出
GPT-5.4(直接翻訳)
## Validation 1: Extract action items from meeting minutes
汎用MT+RefineLoop
## Verification 1: Extract action items from meeting minutes
◇ どちらも許容範囲 — 「Validation」は「正しいものを作っているか確認」、「Verification」は「正しく作れているか確認」というニュアンスの差。ブログ記事の文脈ではどちらも許容範囲。

⑤ Format(書式保持)

両者ともXLIFFフォーマットを完全保持 Markdownの**bold**マークアップ、##ヘッダー、固有名詞(StructFlow・RefineLoop・LDX hub・Zuplo・Flowra等)の保護、すべて両者で崩れなし。XLIFFを入出力形式として使うことの書式保持効果は、GPT-5.4直接翻訳でも同様に得られています。
総合評価

GPT-5.4直接翻訳 vs 汎用MT+RefineLoop

✅ RefineLoopが優位な点

  • 「社長」→「CEO」(President誤訳の回避)
  • 一人称の体験記トーンをより自然に維持
  • 英語として慣用的な表現の選択
  • 数値を含むセグメントの語順が自然

△ GPT-5.4直接翻訳が優位な点

  • 「My Specs」で原文のユーモアを保持
  • コロンを使ったシャープな構文
  • 全体的な品質は非常に近く差は軽微
  • 前処理(汎用MT)が不要でシンプル
結論:品質差は小さいが、RefineLoopの優位点は明確 GPT-5.4同士の比較では前回(汎用MTのみ vs RefineLoop)ほど大きな差は出ませんでした。ただし「President→CEO」という明確な誤訳を含む点や、文体・慣用表現の自然さでRefineLoopが上回る結果となりました。XLIFFを介したワークフローを組む場合は、汎用MTを起点とするかLLMを起点とするかに関わらず、RefineLoopによる後処理が品質担保として機能することが確認できました。
サマリー
評価軸 GPT-5.4(直接翻訳) 汎用MT+RefineLoop 判定
変更率 — (基準) 83.0%(44/53) 前回より差が縮小
Accuracy(正確さ) 「President」誤訳1件 CEO・表現とも適切 RefineLoop優位
Style(文体) 「My Specs」でユーモア保持 「My Background」で無難 セグメントにより異なる
Fluency(流暢さ) 一部直訳的な語順・表現 慣用表現・語順が自然 RefineLoop優位
Terminology(用語) Validation(許容範囲) Verification(許容範囲) どちらも許容範囲
Format(書式保持) 完全保持 完全保持 両者同等
固有名詞保護 全件保護OK 全件保護OK 両者同等
この検証の限界 評価者が著者1名(日本語母語・英語非母語)であり、ネイティブ英語話者による独立した評価を含みません。また、GPT-5.4は直接翻訳でも高品質な出力が得られるため、汎用MTを起点とするRefineLoopのワークフローとの優位差は今回の比較では小さく出る傾向があります。