品質評価 — GPT-5.4直接翻訳 vs 汎用MT＋RefineLoop（GPT-5.4）｜ LLMで直接翻訳するのと RefineLoopを通すのは何が違うか

変更パターン分析

44件の変更はどう分類されるか

変更の種類（定性分類）

語彙・表現の置換

21件（47.7%）

軽微な調整

20件（45.5%）

文構造の変更

3件（6.8%）

前回の比較（汎用MTのみ vs RefineLoop）との違い 前回は変更率92.5%・語彙置換65.3%と大きな差が出ましたが、今回はGPT-5.4同士の比較のため変更率83.0%・軽微な調整が45.5%と接近しています。両者の翻訳品質が近いことを示しており、差分は「アプローチの違い」によるものが中心です。

MQM風定性評価

主要な差分の評価

Accuracy（正確さ）・Style（文体）・Fluency（流暢さ）・Terminology（用語）・Format（書式）の5軸で評価しました。

① Accuracy（正確さ）

seg-001 — 「社長」の訳：President vs CEO ACCURACY

Source (JA)

# 「社長がMCPでこれ書いた」——翻訳業界の痛みをAIエージェントで検証した話

GPT-5.4（直接翻訳）

# "The President Wrote This with MCP" — A Story of Examining Pain Points in the Translation Industry with AI Agents

汎用MT＋RefineLoop

# "The CEO Wrote This with MCP" — How I Used an AI Agent to Examine the Translation Industry's Pain Points

✓ RefineLoop優位 — 「社長」はビジネス英語では「CEO」が標準。「President」は日本語を直訳した表現で、英語圏では会長や議長のニュアンスが強い。記事のタイトルとしてはCEOが適切。

seg-007 — 「検証だ」の訳 ACCURACY

Source (JA)

今日やろうとしたのは、「その工程をAIエージェントに任せたらどうなるか」の検証だ。

GPT-5.4（直接翻訳）

What I tried to do today was verify "what would happen if that process were left to an AI agent."

汎用MT＋RefineLoop

What I set out to do today was test what would happen if that process were handed over to an AI agent.

✓ RefineLoop優位 — 「set out to do」はブログの体験記として自然な出だし。「test」は「verify」より口語的。引用符の有無も含め、RefineLoop版の方が読みやすい。

② Style（文体）

seg-008 — 「自分のスペック」の訳 STYLE

Source (JA)

## 自分のスペック

GPT-5.4（直接翻訳）

## My Specs

汎用MT＋RefineLoop

## My Background

△ GPT-5.4優位 — 「スペック」はIT・ガジェット分野での「spec（仕様・スペック）」を意識した口語的な見出し。「My Specs」は原文のユーモアを保持している。「My Background」は正確だが無難すぎる。

seg-009 — 冒頭の一人称 STYLE

Source (JA)

最初に正直に書く。**私はエンジニアではない。**

GPT-5.4（直接翻訳）

To be honest from the start: **I am not an engineer.**

汎用MT＋RefineLoop

Let me be honest from the start. **I am not an engineer.**

◇ 判断が分かれる — 「To be honest from the start:」はコロンで続くシャープな構文。「Let me be honest」は英語ブログで一般的な呼びかけ表現。どちらもブログとして適切。

seg-052 — 締めの文 STYLE

Source (JA)

MCPは「つなぐまで」が少し大変だ。でもつながれば、あとはClaudeが動く。**こちらはやりたいことを伝えるだけでいい。それは、エンジニアでなくても変わらなかった。**

GPT-5.4（直接翻訳）

MCP is a little challenging up to the point of getting it connected. But once connected, Claude does the rest. **All you need to do is tell it what you want. That remains true even for non-engineers.**

汎用MT＋RefineLoop

MCP is a bit difficult until you get it connected. But once it's connected, Claude takes over. **All you need to do is tell it what you want to do. That holds true even for non-engineers.**

◇ 互角 — 「Claude does the rest」と「Claude takes over」は両者とも良い表現。「a little challenging」と「a bit difficult」も同程度。全体的に非常に近い訳。

③ Fluency（流暢さ）

seg-037 — 二極化の表現 FLUENCY

Source (JA)

集計してみると、推奨者（NPS 9-10）が37%、批判者（0-6）も37%という二極化が見えてきた。

GPT-5.4（直接翻訳）

When I aggregated the results, a polarization became visible: promoters (NPS 9-10) were 37%, while detractors (0-6) were also 37%.

汎用MT＋RefineLoop

When I aggregated the data, a polarization emerged: 37% were promoters (NPS 9-10), and 37% were detractors (0-6).

✓ RefineLoop優位 — 「polarization emerged」は「became visible」より自然。数字を先に置く語順（37% were promoters）の方が英語として読みやすい。「the data」は「the results」より文脈に合う。

④ Terminology（用語）

seg-022 — 「検証」の訳：Validation vs Verification TERMINOLOGY

Source (JA)

## 検証1：会議議事録からアクションアイテムを抽出

GPT-5.4（直接翻訳）

## Validation 1: Extract action items from meeting minutes

汎用MT＋RefineLoop

## Verification 1: Extract action items from meeting minutes

◇ どちらも許容範囲 — 「Validation」は「正しいものを作っているか確認」、「Verification」は「正しく作れているか確認」というニュアンスの差。ブログ記事の文脈ではどちらも許容範囲。

⑤ Format（書式保持）

両者ともXLIFFフォーマットを完全保持 Markdownの**bold**マークアップ、##ヘッダー、固有名詞（StructFlow・RefineLoop・LDX hub・Zuplo・Flowra等）の保護、すべて両者で崩れなし。XLIFFを入出力形式として使うことの書式保持効果は、GPT-5.4直接翻訳でも同様に得られています。

総合評価

GPT-5.4直接翻訳 vs 汎用MT＋RefineLoop

✅ RefineLoopが優位な点

「社長」→「CEO」（President誤訳の回避）
一人称の体験記トーンをより自然に維持
英語として慣用的な表現の選択
数値を含むセグメントの語順が自然

△ GPT-5.4直接翻訳が優位な点

「My Specs」で原文のユーモアを保持
コロンを使ったシャープな構文
全体的な品質は非常に近く差は軽微
前処理（汎用MT）が不要でシンプル

結論：品質差は小さいが、RefineLoopの優位点は明確 GPT-5.4同士の比較では前回（汎用MTのみ vs RefineLoop）ほど大きな差は出ませんでした。ただし「President→CEO」という明確な誤訳を含む点や、文体・慣用表現の自然さでRefineLoopが上回る結果となりました。XLIFFを介したワークフローを組む場合は、汎用MTを起点とするかLLMを起点とするかに関わらず、RefineLoopによる後処理が品質担保として機能することが確認できました。

サマリー

評価軸	GPT-5.4（直接翻訳）	汎用MT＋RefineLoop	判定
変更率	— （基準）	83.0%（44/53）	前回より差が縮小
Accuracy（正確さ）	「President」誤訳1件	CEO・表現とも適切	RefineLoop優位
Style（文体）	「My Specs」でユーモア保持	「My Background」で無難	セグメントにより異なる
Fluency（流暢さ）	一部直訳的な語順・表現	慣用表現・語順が自然	RefineLoop優位
Terminology（用語）	Validation（許容範囲）	Verification（許容範囲）	どちらも許容範囲
Format（書式保持）	完全保持	完全保持	両者同等
固有名詞保護	全件保護OK	全件保護OK	両者同等

この検証の限界 評価者が著者1名（日本語母語・英語非母語）であり、ネイティブ英語話者による独立した評価を含みません。また、GPT-5.4は直接翻訳でも高品質な出力が得られるため、汎用MTを起点とするRefineLoopのワークフローとの優位差は今回の比較では小さく出る傾向があります。

LLMで直接翻訳するのとRefineLoopを通すのは何が違うか

44件の変更はどう分類されるか

主要な差分の評価

① Accuracy（正確さ）

② Style（文体）

③ Fluency（流暢さ）

④ Terminology（用語）

⑤ Format（書式保持）

GPT-5.4直接翻訳 vs 汎用MT＋RefineLoop

✅ RefineLoopが優位な点

△ GPT-5.4直接翻訳が優位な点

LLMで直接翻訳するのと
RefineLoopを通すのは何が違うか