技術文献管理の非効率をなくす
多様な分野の技術文献を継続的に収集・評価したいというニーズを多くの顧客が要望している。従来はPDFや特許文書をフォルダで管理するだけで、「どの技術がどの成熟度か」「関連度が高い文献はどれか」といった横断的な把握が困難だった。
そこで LDX hub StructFlow を使ってPDF・特許文書から構造化データを自動抽出し、SharePoint をデータ基盤に、Power Automate で更新を自動化、Power Apps と HTML ダッシュボードで可視化する一気通貫のシステム「TechLit Viewer」を構築した。
4つのレイヤーで構成するアーキテクチャ
2つのフローで「自動」と「一括」を使い分ける
更新のトリガーを2パターンに分けることで、日常運用の自動化と初期データ投入・再処理の両方に対応している。
TechLit_パイプラインUPDATE(常時稼働)
SharePoint リストのアイテム更新をトリガーに自動発火。新規文献の登録や既存レコードの変更を検知し、対象ファイルを StructFlow に送信して抽出結果を即時書き戻す。日常的な文献追加はこのフローで完全自動化。
TechLit_一括更新(手動実行)
全18件を一括処理する手動トリガーフロー。スキーマ変更やプロンプト改修後の再抽出、初期データ投入に使用。foreach ループで全アイテムを順次処理し、StructFlow のポーリングを待機しながら結果をリストに書き込む。
StructFlow に定義した8フィールド
技術文献から価値ある情報を引き出すため、戦略的評価に必要な8つのフィールドをスキーマとして定義した。
| フィールド名 | 内容 | 型 |
|---|---|---|
| Title | 文献タイトル | string |
| DocType | 文書種別(patent / paper / report / other) | string |
| Authors | 著者・出願人 | string |
| Year | 発行年・出願年 | integer |
| FieldMajor | 主要技術領域(Materials Science / Energy Engineering 等) | string |
| TRL | 技術成熟度レベル(1〜9) | integer |
| RelevanceScore | 自社事業との関連度(high / medium / low) | string |
| Summary | 技術概要(2〜3文) | string |
4画面で用途を分けた閲覧インターフェース
タイトル・著者・技術領域でのフリーテキスト検索。DocType・TRL・RelevanceScore によるフィルタリング。SharePoint リストへのリアルタイムクエリ。
個別文献の全フィールド表示。StructFlow が抽出した Summary の確認。TRL・関連度のビジュアルインジケーター付き。
技術領域ごとの TRL 分布比較。関連度別の文献数集計。年別トレンドのグラフ表示。
HTML コンポーネントを埋め込んだ高度な可視化画面。Chart.js による動的グラフ。全18件の一覧テーブルと検索機能を統合。
スタンドアロンで動く技術戦略ビュー
Power Apps とは別に、ブラウザ単体で動作するスタンドアロン HTML ダッシュボード(techlit_dashboard.html)も並行して整備した。Power Apps への依存なく経営層・外部ステークホルダーへの共有が可能な点が最大のメリットだ。
// StructFlow 抽出結果をそのままデータ配列に格納 const data = [ { id: 17, title: '固定化光触媒含有紙', docType: 'patent', authors: '—', // 著者情報はマスク year: 2002, fieldMajor: 'Chemistry', trl: 4, relevance: 'high', url: '' // SourceFileUrl — 整備次第で原典リンクに }, // ... 18件分 ];
4種のチャート(技術領域分布・TRL分布・年別トレンド・文書種別比率)と全件検索可能な文献一覧テーブルで構成。StructFlow から得た構造化データを Chart.js に渡すだけで、分析グラフが自動生成される。
↑ techlit_dashboard.html の縮小プレビュー(実際は全幅・インタラクティブ)
18件の技術文献を構造化データとして活用可能に
18件中、全フィールドが正常に抽出されたのは15件(83%)。残り3件は FieldMajor の言語表記ゆれ(英語・日本語混在)が発生したが、データとしての活用に支障はなし。
一括更新フローの1件あたり平均処理時間は約67秒(StructFlow ポーリング含む)。18件の全件処理は約20分で完了。定期実行・トリガー実行ともに安定稼働を確認。
Environmental Science 系が最多(6件)、Materials Science が続く(4件)。TRL 分布では基礎研究(1〜3)が8件と最多、実用化段階(7〜9)は3件。ポートフォリオの全体像が初めて定量的に把握できた。
18件中15件が RelevanceScore = High と判定。StructFlow のプロンプトに自社事業文脈(翻訳・ローカライゼーション)を組み込むことで、業務直結の評価軸での自動スクリーニングが実現した。
次の構築に活かせるポイント
今後の展開
| 項目 | 内容 |
|---|---|
| SourceFileUrl の整備 | 各文献の原典URLを SharePoint リストに追加し、ダッシュボードからワンクリックで原文にアクセスできるようにする |
| スケジュールトリガー化 | 定期的な文献収集・更新を完全自動化。月次レポートとして経営層に自動配信する仕組みへ |
| FieldMajor 正規化 | StructFlow プロンプトに英語統一指示を追加し、既存18件を再処理して集計精度を向上させる |
| 文献数の拡張 | 18件から100件規模へ。ExtractDoc による PDF テキスト抽出を前段に追加し、スキャン文書にも対応する |
| RefineLoop との連携 | 外国語文献(英語・中国語)の Summary を日本語に自動翻訳・改善する機能を統合する |