Forem: Tutty

Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics

Tutty — Sun, 03 May 2026 06:57:41 +0000

選定理由

整合性　A：複雑な法的推論を構造的に捉えるという手法は整合性が高い。一方で、探索と利用のような最適化問題を直接解く枠組みではなく、あくまで評価設計に留まるためA評価。

信頼性　A：専門家によるルーブリック設計と人手検証付きデータセット、さらにLLM judgeと人間評価の一致度検証を行っており信頼性は高い。ただしトップ会議の確立済みベンチマークほどの成熟度ではない。

健全性　S：Issue抽出→ツリー構造化→rubric変換→スコアリングというパイプラインが明確で、各ステップの役割が分離されている。特に評価を分解して再構成する設計は理論的にも一貫しており、アルゴリズムとしての見通しが良い。

汎用性　B：法律領域では非常に有効だが、Issue Treeの前提である「論点が明確に分解できる構造」が必要なため、自由生成や創造的タスクにはそのまま適用しにくい。

発展性　A：Rubricを報酬としてRLや逐次意思決定問題に接続する、あるいは自動でIssue Treeを改善するなど発展余地は大きい[Tweet]。一方で、ツリー構造への依存や、暗黙的知識・連続的評価の扱いが難しい点が今後の課題。

Paper: https://arxiv.org/abs/2512.01020
Code: N/A

概要(データセット論文)

【社会課題】
LLMによる法的推論の信頼性は、最終的な出力だけを見ていては不十分。途中の推論プロセスの妥当性を測る手段が必要。

【データの設計と従来技術の限界】
判決文をIssue Tree（法的論点ツリー）に変換し、原告・被告・裁判所の主張をツリー構造で整理した約24,000インスタンスのデータセットを構築。さらに各葉ノードに対しルーブリック基準を作成した。評価軸は「論点カバレッジ」と「正確さ」の2次元。以下が Issue Tree サンプルである：

【原告の主張】被告は540万円を支払え
  └─【原告】保険金の支払い義務がある
      ├─【原告】死亡は突発的・偶発的な事故だった
      │   └─【原告】餅を食べて窒息死＝外因による傷害
      │   └─【被告】死因は既往症の可能性が高い
      └─【裁判所の結論】突発的事故と認定
                        ただし窒息死は証明不十分

このような本質的に tree / DAG 構造であるタスクを従来の基準リストであったRubricで解決するのは不適である。例えば、基準に依存関係があったり、粒度の違いから部分的に正しいといった問題を解決できない。

【品質】
法律専門家によるアノテーションと比較し、Issue Treeベースのルーブリックが単純な正誤判定より人間評価との一致度が高いことを示した

【発見】

LLMはカバレッジ(論点に対する情報の網羅性)と正確さの両方に弱点を持つ
RAGはカバレッジを、RLは正確さを改善
両者は補完的であり組み合わせが有効

1.Rubricとは？

[Sharma2025]によるとRubricは複雑なタスクに対してタスクを分解した採点基準を定義したものであり、各採点基準は明確な基準、期待値とスコア値（プラス/マイナス）という形式で定義される。以下に簡単な例を示す。

項目	内容
タスク	SNSの特定の記事が持つ社会的影響について全体的な利点・欠点を分析する
基準	なんらかの社会領域に言及しているか？
期待値とスコア	政策への言及がある(+5)

Rubricのスコア計算の具体例

上記タスクのもう少し具体的な基準の例を挙げると

社会の主要な領域を少なくとも5つ挙げているか。例えば精神衛生、対人関係、政治/市民参加、情報エコシステム、経済など → +5（各１点で、満点５）
政策や規制への言及があるか。例えばSection 230（米国通信品位法）、COPPA、子どものデータ保護法等 → +3（同様）
証拠となる引用なしに一方的・断定的な表現をしていないか。例えば「SNSは精神健康に悪影響を与える」という断定表現のみ → –4（ペナルティ）

各基準に対する評価法も以下がある。

評価法	説明
Ternary Evaluation	各基準について完全に満たした,部分的に満たした,満たしていないのいずれかを判定
Binary Evaluation	各基準が満たされたかどうかのみを判定

Rubric の利点

従来の単純な自動評価指標（例：BLEU、ROUGE、単一スコア評価）とは違い、次の特徴を持つ。

多面的評価項目：具体的な観点（例：事実性・網羅性・根拠の引用・明瞭性など）ごとに細かく評価項目を設計
明示的な正解・誤りの指標：間違った断定や引用なし回答などはペナルティ基準として評価できる
正確な定量性：1つ1つの基準に重みがあり、合算することで定量評価ができる。又、LLMが苦手とする定量評価を公正にできる。
ドメインエキスパートの知識活用：Rubrics は専門家が手作業で作成・レビューすることでビジネスドメイン知識を入れ込むことができる。

Rubric設計上の注意点

同じルーブリックをベースにして次の2つの施策を比較した。

具体例の追加(Example Detail)：各評価基準に「良い例」「悪い例」を付ける
LLMによる拡張(LLM Augmentation)：LLMを使って評価基準そのものを増やす・書き換える

評価は、LLMの判定と人間評価の一致度（Macro F1）で計測。

結果の表7によると具体例の追加は一貫して評価精度を改善するが、LLMによる拡張は悪化する場合もあった。
これは具体例の追加は意思決定境界を例示することで評価の曖昧さを減少させることができるためと考えられる。一方で、LLMによる拡張は基準の数は増えても有効な情報が増えず、追加される基準は抽象的だったり既存と重複していることが多く、評価の解像度は上がらないことが原因だと思われる。基準が増えることで判定回数が増え、小さな誤差が積み重なって評価が不安定になる。さらに似た観点が重複すると、同じ要素が過剰に評価され、全体のスコアが歪んでしまう。

2.LEGITデータセット

約 24,000件の事例を含む法律ドメインの LEGIT (LEGal Issue Trees) という新しいデータセットを構築した。各事例は裁判判決を階層的な「イシュー・ツリー（問題ツリー）」に変換したもので、各ノードは当事者の主張や裁判所の結論を表し、ツリー構造が論理的な流れと法的判断の構造を表現する。

データセットの変換

Korean LBoxデータセットの中から判決が裁判官の裁量を含むもの(non-deterministic by law)を除いた24406サンプルのうち24106サンプルを学習に、300サンプルをテストに使用する。判決文は通常のテキスト文であるが、これをツリー構造に変換する。判決文が持つ情報は大体以下の通り：

事件
├─ 争点1
│  ├─ 原告の主張
│  ├─ 被告の主張
│  └─ 裁判所の判断
├─ 争点2
│  ├─ ...
└─ 結論

これを構築するためにfact extraction, issue structure extraction, issue-to-rubric conversionという3つのステップを踏む。

fact extraction

LLMを用いて判決文から「事実」というエンティティを抽出する。(1)事実リストの抽出(2)事実リストを説明する記述を生成　という2つのステップを踏む。fact はIssue Treeとは別に判決文を説明する文章として活用される。

issue structure extraction

著者が手動で用意した3つの例（3-shot）を使い、Gemini-2.0-Flashに判決文からをIssue Treeを生成する。品質を高めてエラーを減らすため、処理は2段階で行う。まず1回目で生の判決文からIssue Treeを生成し、その後もう一度別のプロンプトを使って修正し、1回目でよく見られる誤りを除去する。
また、論点が多いケースほど事実関係や関連法規も複雑になるため、データセットは論点数に応じて3つの難易度(easy, medium, hard)に分けている。最終的なテストデータは300件で、それぞれの難易度から100件ずつ選ばれており、これらは著者が手動で確認し修正している。

issue-to-rubric conversion

LLM as a judge を行うために、まず論点（issue）をルーブリック基準に変換する。この基準はカバレッジと正確性に関する質問に変換するだけで作成される。評価時は、LLMはそれぞれの論点を個別に評価する。具体的には、各論点についてLLMは次の2つを同時に判断する：

その論点が回答の中で言及されているか（カバレッジ）
その論点について正しい結論が述べられているか（正確性）

さらに、その判断理由をChain-of-Thoughtとして出力する。最終的なLEGITスコアは10点満点で、最終判決の正しさ、論点の網羅性、論点ごとの正しさの3つで評価される。最終判決が一致すれば5点、不一致なら0点となり最も重要。残りは、論点をどれだけ拾えているかで最大2点、各論点について正しい結論を述べているかで最大3点が加算され、網羅性よりも各論点の正しさがやや重視される設計になっている。

3. 検証実験

Fig2はTree RubricによるLLMの法的推論が信頼できるのかを検証しており、結論としてはかなり信頼できる。人間同士の一致度は非常に高く（α=0.87）、さらにGPTやGeminiのような強いLLMも人間とそこそこ一致する（α≈0.62〜0.74）。つまり、適切に設計されたrubricがあれば、LLMでも人間に近い評価ができる。一方で、LLMは人間より甘く評価する傾向があり、特に大きいモデルほどその傾向が強い。また、小さいモデルの方がむしろ厳しく評価するという興味深い傾向も見られる。さらに重要なのは、評価の粒度の違いで、単純なLikertスコアのように全体を一発で評価する方法はモデル間でバラつきが大きいのに対し、論点ごとに分解するLEGITのようなrubricは一貫性が非常に高い。

Fig.7はLEGITスコアで評価した際のエラー解析結果である。最も強いモデルでもスコアは約5.7/10にとどまり、現状のLLMは複雑な法的推論を十分に解けていない。エラーは主に2種類あり、事実から誤った結論を導く推論ミス（deduction error）と、そもそも重要なサブ論点を見落とす分解ミス（decomposition error）に分かれる。さらに重要なのは、これらのミスが階層的に伝播する点で、下位の論点を見落としたり誤ると、上位の論点や最終結論も大きく崩れる。つまり、論点を正しく分解し、それぞれを正しく推論できないと、全体の推論が壊れるという構造的なボトルネックが明らかになっている。

Fig.8はRAGとRLがLEGITスコアを改善するかを示している。RAGは関連法令を与えることで、結論・カバレッジ・正しさをバランスよく改善する。一方RLは、正しさと最終結論は大きく向上させるが、曖昧な論点を避けるためカバレッジが下がる。つまり、RAGは広く考える力を、RLは正しく答える力を強化し、両者は補完関係にある。

Survey of strategies for efficient research and development

Tutty — Fri, 23 Jan 2026 02:06:31 +0000

研究課題の探索・設定

研究活動の成否は研究課題の設定時点でほぼ決まっている場合が多いにも関わらず、設定の仕方について体系的に学ぶ機会は少ない。[Alon2009]がこれについて論じている良い教材である。

図1は本論文の核心を視覚的に表した概念図であり、研究課題を以下の2軸で評価する枠組みを示している：

縦軸：Interest（興味・科学的価値）：自然科学への新しい知識・理解を創造するか、純粋な好奇心を喚起するか
横軸：Feasibility（実行可能性）：自分の能力、所属組織のリソース、時間、蓄積技術で解けるか、現実的制約を含めた評価

各点が「研究課題の候補」を表す。右下領域は着実な成果は出るが、インパクト・チャレンジ性に乏しく、一方で左上領域は本質的・重要な課題であるが解決困難であり「夢があるが進まない難題」で若手研究者がはまりやすい危険領域である。いかにしてこれらを回避し、右上の領域(パレートフロント)を目指すための方法を考察する。
著者は課題選択の前に最低3か月かけて図1上の位置を見極めよと述べている。この期間で行うことは1、文献調査によるInterest軸の精緻化。2、技術検討、Feasibility軸の現実化。3、議論による点の再配置である。図1は「一度描いて終わり」ではなく、何度も更新される思考マップである。

パレートフロントを目指すための補助イメージとして上記図2がある。この図の主張は良い課題設定は最初から完成していないことである。初期の問題設定は Feasibility が低すぎたり、Interest が曖昧だったりする。しかし、考察・技術検討・議論を通じて問題は変形される。大きすぎる問いは小さなサブ問題へ分割したり、抽象的な問い実験・検証可能な形へ具体化される。この課題の「移動」こそが研究活動であり、研究とは単に答えを出すことではなく、課題を良い位置に移動させるプロセスである。

手法検討の進め方

ここでは特定の課題に対する手法検討の方法について論じる。バイオ系の領域であるが、[Kell2012]らの考え方を取り上げる。

上記図1は研究サイクルを探索空間上の組み合わせ最適化問題として捉えたマインドマップである。探索空間は可能なすべての実験や仮説の集合であり、高次元であるため全探索は不可能である。この探索空間における適応度地形(=組み合わせ最適化の評価関数)の山は高い知識価値、谷は低い知識価値を表し、多数の局所最適が存在する。研究者が選ぶ実験の系列は、この空間上の移動として表現される。これは強化学習でも扱われる探索と利用のトレードオフを持つ、不完全情報下での逐次的意思決定問題である。

基礎的な探索アルゴリズムで考えてみると、ランダム探索は非効率であり高価値領域に到達する可能性は低い。局所探索（貪欲法）は近傍改善は速いが局所最適に閉じ込められる可能性が高い。ヒューリスティック／進化的探索は変異・多様性を保持しており局所最適を脱出できる可能性がある。これらの考察は実験サイクルは単なる経験則ではなく、アルゴリズム設計問題として捉えられることを示唆する。
そこで実験サイクルをベイズ推論を用いて不確実性の最小化問題として定式化する。不確実性とは複数の仮説や説明の間で判断がついていない状態を指す。ベイズ推論の立場では常に「どの仮説をどれくらいもっともらしいと考えているか」という 仮説の信頼性(belief) を持っており、実験結果によってbeliefが大きく変わる実験を選ぶ。

これを上記ベイズ定理に沿って説明すれば事前分布は従来研究に基づく特定の仮説 h に対する beliefの分布、尤度関数は仮説から予想される実験結果の分布、事後分布は実験結果から導かれるbeliefの更新された分布である。具体的手順としてまず、何がまだ分かっていないのか、どの仮説同士が競合しているのかといった 不確実性の所在を明確にする。次に、仮説ごとに予測が食い違う条件を探し、不確実性が最も減る実験を選ぶ。結果が出たら、成功／失敗で判断するのではなく、どの仮説が信じにくくなったか、何についてもう考えなくてよくなったかという観点で考察する。そして最後に、まだ残っている最大の不確実性に注目して次の実験を選ぶ——この繰り返しが、ベイズ推論による実験サイクルとなる。

同様の考え方としてベイズ最適化によるHPOがある。この場合も不確実性を最も減らすパラメータを次の探索点とする。

The AI Scientist-v2

この記事の最後に、上述の課題設定と技術検討のプロセスをエージェントで自動化した[Yamada2025]を取り上げる。

図1は本提案の全体像である。細かい説明は別記事で取り上げるのでここでは Idea Generation と Tree-Based Experimentation の概要をこれまでの文脈に沿って説明する。

Idea Generation

Idea Generation は解決の「ひらめき」を生むのではなく、研究課題候補を生成するものである。具体的には自律的な研究探索を開始するための初期アイデアをビジネスリソース条件や業界動向をもとに生成する。ここで重要なのは、網羅的なアイデアの優劣評価、新規性の判定、面白さやインパクトの選別、先行研究レビュー、知識蓄積は行わないという点だ。それらはすべて、後続の実験探索プロセスに委ねられる。インプットは以下である。

研究ドメインの指定 （例：表現学習、最適化、LLM など）
実行制約
- 利用可能な計算資源、予算
- 実験時間・スケール
評価可能性の条件
- 数値で測れる指標があること
初期的な既存研究のサーベイ
- 「この方向は既にやられていないか」という確認レベル

アウトプットは次の要素を含む 実験可能な設計情報 のリストである。

中心仮説
- 何が起きると期待するか
既存研究との差分
- 何を変更・拡張するのか
最小実験設定
- モデル、データ、評価指標
成功／失敗の判定条件
- 次の探索に進むかどうかの基準

これらのアウトプットは次の探索木の root node（出発点） になる。

Tree-Based Experimentation

Tree-Based Experimentation は、明示的な4つのフェーズ
（事前検証 → 実験安定化 → 主実験 → 分解と理解）からなるワークフローを持ち、Managerエージェントが各フェーズ間の遷移と探索木の成長を管理しながら技術的な検証を進める仕組みである。

Stage 1: Preliminary Investigation（事前検証）

前段で生成された中心仮説、最小実験設定、判定条件をインプットとし、「試してよいかどうか」ふるいにかける段階である。探索木は浅く広く分岐し、失敗も含めて地形を把握する。

仮説が成立しそうかを粗く確認
実験が技術的に実行可能かをチェック
明らかに筋の悪い方向を早期に除外

Stage 2: Hyperparameter Tuning（実験安定化）

このフェーズでは中心仮説や差分の定義を固定化しつつ、仮説そのものは疑わず、実装や設定が原因となる不安定さを除去する段階である。

学習率や正則化などの調整
結果のばらつきを抑える
定量指標を安定させる

Stage 3: Research Agenda Execution（主実験）

中心仮説、差分の定義、成功条件をインプットとし、実験結果として確定させる段階である。探索木は収束し、主張を支えるノードが中心になる。

最良設定での本実験
ベースラインとの比較
論文の主張を裏付ける結果の取得

Stage 4: Ablation Studies（分解と理解）

中心仮説、差分の定義をインプットとし、「なぜうまくいったのか」を説明するための段階。実験結果では差分の定義が分析のガイドライン として使われる。

要素を一つずつ除去
どの設計が効いていたかを検証
主張の妥当性を補強

Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models

Tutty — Tue, 23 Dec 2025 05:36:37 +0000

選定理由

評価点	高SABCD低
整合性	B: LLMによる状態価値評価によって探索と利用のトレードオフを解いている点はビジネスニーズが高い
信頼性	S: Proceedings of Machine Learning Research 2024 採択、著者は元DeepMind
健全性	S: 理論設計（MCTSの導入、LM評価の利用、反省の統合）は整然としており、明確なアルゴリズム構成を持つ。
汎用性	A: langgraphでも実装例があり汎用性は高いが、ハイパーパラメータに対する鋭敏性とランニングコストが課題
発展性	A: 様々な発展があるが、木構造に限定される点や状態が明確に定義できないタスクは適用が難しい点が課題である。

Paper: https://arxiv.org/abs/2310.04406
Code: N/A

エグゼクティブサマリ

LLMの思考を木構造で管理することで、先読みを可能とした。これによりLLMは少ないトライ&エラーで正しい結論に辿り着くことができる。

概要

【社会課題】
現状のLLMは、単一の入力に対して即座に応答する「一問一答型」が中心であり、複雑な意思決定や多段階タスクには対応しづらい。

【技術課題】
複雑な意思決定や多段階タスクには先読み(計画)が必要となる。しかし、従来手法（CoT, ReAct, Reflexion等）は多段推論・行動・反省といった要素をLLMに追加するが、計画はできない。そのため行動選択が短期的目標になりがちで、タスク達成率が低下する。

【提案】
LLMに多段推論（reasoning）、行動（acting）、計画（planning）を統合的に実行させる枠組みLATS(Language Agent Tree Search）を提案した。LATSはモンテカルロ木探索（MCTS）を用いて複数の行動候補を探索し、LLMが価値評価・反省することでより長期的で一貫した意思決定を実現する。

又、表1に示すように推論、行動、計画、反省、記憶というすべての構成を含んだアプローチはLATSが初である。

【効果】
ファインチューニングなどの勾配学習を行わずに、LLMが自律的に多段推論を重ね計画し、環境と対話的に行動できるようにした。実験では、プログラミングで従来手法を上回り、pass@1で92.7 %を達成。Webナビゲーションで既存の強化学習ベース手法を超え、成功率 75.9 %を記録。マルチホップ推論でも正答率が約 +8 Pt向上。

Language Agent Tree Search (LATS)

LATSは強化学習で用いられるMCTSやベルマンバックアップによる探索にLLMの推論を活用したアルゴリズムである。LATSの Evaluation と Simulation において実施されるブートストラップは任意のステップ数先まで予測するが、LLMによる近似的な環境予測に依存するため(選択・モデル・ブートストラップ)バイアスが重なりやすく、初期値鋭敏性を生じやすい。一方で、LLMは長期的構造や意味的整合性を捉える能力を持つため、厳密な環境モデルがなくても有用なヒューリスティックとして機能する。

図２はベルマン方程式におけるバックアップ線図をbelief空間上で近似評価したものと解釈でき、ノードが状態（履歴）で、エッジが行動選択を表す。

アルゴリズムの全体像を以下に示す。

最後に強化学習アルゴリズムと比較すると以下のようになる。

観点	LATS	モンテカルロ法（MC）	TD法（TD(0)）	SARSA
分類	推論時探索	強化学習（価値推定）	強化学習（価値推定）	強化学習（制御）
主目的	推論・行動の最適化	価値関数の学習	価値関数の学習	方策と価値の同時学習
状態・行動空間	自然言語（thought/action）	離散/連続	離散/連続	離散/連続
探索構造	木構造（MCTS）	なし	なし	なし
ロールアウト	LLMによるロールアウト	実エピソード	実遷移	実遷移
評価の基準	LM評価＋自己一貫性	実報酬	実報酬＋推定価値	実報酬＋推定価値
ブートストラップ	あり	なし	あり	あり
更新対象	探索木の統計量	価値関数パラメータ	価値関数パラメータ	行動価値関数 (Q)
学習（重み更新）	しない	する	する	する
方策との関係	探索で暗黙的に決定	固定 or 任意	固定 or 任意	On-policy
失敗の活用	Reflection（自然言語）	サンプル平均	TD誤差	TD誤差（行動依存）

Selection（選択）

全ノードから次に展開すべきノードをUCB（Upper Confidence Bound）に基づく評価で選択する。状態価値関数 $V(s_t)$ と探索回数 $N(s_{t+1})$ のバランスを取って、最も有望なノードを選ぶ行動 $a_t$ を行う。

a_t = \arg\max_{a_t} \left[ V(S_t) + c \sqrt{ \frac{\log N(S_t)}{N(S_{t+1})} } \right]

N(S_{t+1}) = N(S_{t}) + 1

その後、記憶に従い観測 $o_{t}$ を得る。これは過去の経験を再学習に使う Experience Replay とは異なり、探索木に保存された観測をそのまま再利用して同じ探索経路を辿るための仕組みである。

Expansion（展開）

選ばれたノード $s_{t}$ から、 $n$ 個の子ノードを $θ\theta$ のパラメータを持つモデルからサンプリングして生成する。その後、実環境から観測 $o_{t}$ を得る。

a_t^{(i)} \sim p_{\theta}(S_t), \quad S_{t+1} = \text{Env}(S_t, a_t)

Evaluation（評価）

新しく展開されたノードの状態価値(スカラー量)をLLMによって評価する。

\lambda \cdot \mathrm{LM}(s) + (1-\lambda)\cdot \mathrm{SC}(s)

ここで SC(s) は Self-Consistency を指す。従来の ToT[Yao2023] が多段推論（reasoning）のみを評価していたのに対し、LATSは行動(acting)による外部環境観測を得た後に評価を行う。これにより、コードの実行エラーやウェブ検索の結果に基づいた、より正確な価値判断が可能になる。

Simulation (予測)

ここではLLMにより「現状態を起点に進んだ場合、最終的にどれくらい良い結果になりそうか」を予測する。LLMが予測するのは実際に得られた報酬 $R(h_t)$ ではなく近似的な評価であり、後続の Backpropagation で探索木全体の意思決定を導くために用いられる。

R^(ht)≈∑k=0Kγkr^t+k \hat{R}(h_t) \approx \sum_{k=0}^{K} \gamma^k \hat{r}_{t+k}

Backpropagation (木構造の統計量の更新)

Backpropagation は、Simulation で得られた将来価値の推定結果を、探索木をさかのぼって各ノードに反映する段階である。これにより、どの思考や行動が有望だったかという情報が蓄積され、次の探索ではより良い分岐が選ばれやすくなる。

V(ht)+R^(ht)N(ht)+1 V(h_t) \leftarrow \frac{N(h_t)\,V(h_t) + \hat{R}(h_t)}{N(h_t) + 1}

N(h_t) \leftarrow N(h_t) + 1

Reflection

Reflection は、これまでの思考や行動を振り返り、誤りや改善点を言語モデル自身に指摘させ、次回以降の思考方針や生成プロセス（Expansion / Simulation）を修正する段階である。
これは Backpropagation のような数値的な価値更新とは異なり、推論の仕方そのものに作用するメタレベルの更新である。推論の質を改善することで、同じ誤った思考パターンを繰り返さない探索を可能にする。

効果まとめ

一般性: 明示的な環境モデルや報酬設計を必要とせず、言語モデルの生成・評価能力をそのまま探索と価値推定に利用できるため、推論タスクから対話型タスクまで幅広く適用できる。
探索効率: 実環境との相互作用を最小限に抑えつつ、木探索と価値バックアップによって有望な思考経路に計算資源を集中できる。
柔軟性: 状態やツリー構造を設計することで様々な環境に適用することができる。

実験

実験条件

以下の検証を目的とした実験を行った

探索（exploration）と活用（exploitation）のバランスを LLM で実現できるか
環境観測を伴う状況で、推論の精度・安定性が向上するか
Tree-of-Thoughts（ToT）など既存手法の限界を克服できるか

メトリクスは正答率・成功率、タスク達成率、試行間の性能安定性である。

実験結果

表４，５が示すようにLATSは両方のデータセットでSOTAである。特に長期的な推論や分岐選択が重要なタスクで改善幅が大きい。ToT は「静的な思考探索」に留まるのに対し、
LATS は「環境観測＋価値バックアップ」により動的な意思決定が可能という構造的な優位性が、実験結果として裏付けられたと解釈できる。

環境観測を取り入れることで、誤った思考分岐を早期に修正できることがわかる。さらに、Reflection を導入することで、同一の失敗パターンを繰り返す頻度が低下した。

これらの結果は、LLM を単なる一発推論器として使うのではなく、探索・評価・反省のループに組み込むことで、強化学習的な振る舞いを推論時のみで実現できることを示唆している。

Enhancing Domain-Specific Knowledge Graph Reasoning via Metapath-Based Large Model Prompt Learning

Tutty — Sun, 17 Aug 2025 13:50:00 +0000

選定理由&所感

中国の国防科技大学の研究、MDPI2025

Paper: https://www.mdpi.com/2079-9292/14/5/1012
Code: N/A

国防でこの技術をつかうのだろうか。

概要

【社会課題】
産業・医療・金融などの複雑な専門知識（ビジネスドメイン知識）を必要とする場面での意思決定支援においては自動化が不足し以前として人手による人海戦術が多い。

【技術課題】
現状のLLMは学習に使用しているテキストが構造化されていないデータのため、複雑な論理ステップを必要とする事実検証やマルチホップ推論では不十分な性能である。一方で知識グラフは構造の複雑さやタスクに対する不確定さを内包するため両者をそのまま組み合わせても、精度と解釈性の両立が難しい。

【提案】
DKGM-path（Domain Knowledge Graph Metapath Prompting）を提案：

KG内のMetapath（概念間の意味的経路）を抽出し、LLMにプロンプトとして与える。
LLMが推論経路を言語的に計画 → KGから事実を検証 → 推論を反復的に精緻化。
このプロセスにより、意味理解・構造把握・事実検証を融合。

【効果】
LLMが単独で行うよりも一貫性・正確性・解釈可能性が改善し、特に複雑なドメイン知識に対するマルチホップ推論精度が大幅に向上した。プロンプト学習による汎用性もあり、他分野への適応が容易である。

Domain Knowledge Graph Metapath Prompting

Case Study

一般的な解説部分は分かりづらいので4.2.5節のWebQSPデータの例で説明する。

ステップ1：MetaPathの生成

質問「iPodはどのOSと互換性がありますか？」のMetaPathとしてLLMのゼロショットで出力した例は以下である：

iPod → compatible_oses → Mac OS → developer → Apple Inc. → name → "Apple Inc."

ステップ2：初期ノードの確定と隣接ノードの取得

MetaPathに基づいて初期エンティティ iPod（ID：/m/02hrh0）を知識グラフから取得。そこから知識グラフ上の隣接関係にあるノードを取得し次のステップ候補とする(スターサンプリング)。

ステップ3：反復的な推論とプロンプト更新

隣接ノード集合それぞれに対し、MetaPathで指定された関係性（例：/computer/hardware_device/compatible_oses）をLLMに判断させる。その後、隣接ノードへ移動し、そのノードの隣接ノード集合を取得しながら、グラフの局所情報をLLMへ入力しLLMが経路選択を行う。これを繰り返し、質問に答えるのに必要なノードに到達するまで続ける。

ステップ4：最終回答の生成

経路が確定し「答えに到達した」とLLMが判断した時点で、経由したエンティティ全体をまとめてLLMに最終プロンプトとして入力する。その結果が「Apple Inc.」として出力される。

実験

使用データセット一覧

データセット名	種別	質問数	学習	テスト	特徴
WebQSP	QA	4,737	3,780	957	意味解析付き、知識ベースQA向け、SPARQL付き
CWQ	QA	34,689	27,734	3,475	複雑な構造、多段階推論（論理演算・比較・上位語など）
Hotpot-QA	Multi-Hop QA	約100,000	不明	不明	橋渡し型/比較型、複数文書を統合して回答
MuSiQUE	Multi-Hop QA	約25,000	不明	不明	2～4ステップ推論、中間質問・回答あり、文単位アノテーションなし

実験結果(QA)

QAデータセットでの従来手法との比較は表２であり、提案手法がSOTAであることがわかる。又、追加実験で Mediacalqa という医療ドメインでの評価実験でもSOTAであり、汎化性能が高いことがわかる（表は省略した）。

Llama-2のゼロショットでの回答をベースラインとした比較を行った結果が表３である。どのデータセットでも改善効果があり、p<0.05とした有意差検定でも帰無仮説は棄却された。

実験結果(MultiHop-QA)

次にマルチホップQAデータセットでの実験結果が表５であり、こちらでも多くの項目で性能が高い。

必要なホップ数を変えたデータでの比較実験が図３である。DKGM-pathは4-hopのような長い推論過程が必要な場合に強いことが示されており、meta-Pathによる事前経路探索の効果であることがわかる。

要素除去実験(アブレーションスタディ)

MPC（Metapathの構築）は推論経路の事前初期化を行う処理であるが、関連エンティティの特定に重要な役割を果たしているため、除去すると最も大きく性能が低下した。IV（反復的検証）はステップごとに経路の妥当性を検証・洗練しており、複雑なマルチホップ推論でのハルシネーションの抑止に重要。最後にPRC（事後検証）の役割は最終回答に対する事実整合性と信頼性の評価であるため、除去しても精度は比較的保たれていた。

プロンプト最適化手法としての比較

Direct Prompting(通常のプロンプト), Chain of Thought, One-step Retrievalなどの従来手法と比較してもマルチホップ推論のデータセットで高精度であることがわかる。

survey: Prompting Large Language Models for Counterfactual Generation: An Empirical Study

Tutty — Sat, 12 Jul 2025 00:59:10 +0000

選定理由

ACL2024採択、Wuhan Universityの研究。LLM + Causal Inference、反事実のデータを生成するタスクは生成AIは強そう。

Paper: https://aclanthology.org/2024.lrec-main.1156/
Code: N/A

empirical study なのでプロンプトエンジニアリングによる反事実の生成に対して基礎的な評価をした内容

概要

【社会課題】
事実と反する文章(反事実)が生成できれば異なる条件下でのAIの予測変化を理解できるようになり、AIの意思決定の説明責任やバイアス・ハルシネーションの検出に役立てることができる。一方で、LLMを用いて反事実を生成する際の条件として以下が求められる：

一貫性: 現実のシナリオと矛盾しないこと
関連性: 特定の問題や文脈に適切に関連していること
創造性: 新たにシナリオを創造すること。なお一貫性と相反するためバランスが重要

【技術課題】

感情分析などのタスクでは、モデルが本質的に関係のない文脈語(context words)に頼ってラベルを予測してしまうことがある。これはアノテーションバイアス(=交絡因子)により、文脈語とラベルの間に疑似相関が生じるためである。この問題を解決するには、文脈語を固定し、因果語(causal words)だけを操作してラベルを反転させた反事実文を生成・追加することで、モデルが本当に重要な語（因果語）に基づいて学習するように誘導する必要がある。

【提案・評価】
プロンプト: どのようなプロンプトが反事実生成に効果的かを実証的に調査
様々なモデルと比較: LLMがどの程度の精度で反事実を生成できるか、先行技術やモデル間で比較
データセットの応用: 反事実生成に適したデータセットを活用し、モデルの能力を実際のタスクで評価
　
【結果】

AIの公平性と透明性の向上: より正確で一貫性のある反事実生成を通じて、AIの意思決定プロセスが明確化され、説明責任が強化。これは特にAIの倫理性に重要
プロンプト最適化: 反事実の生成品質が向上
将来の研究の基盤形成: 反事実生成に関する知見を深める

LLM for Counterfactual Generation

図2に示されているように、提案する評価フレームワークは、以下の3つのステップから構成される：

S1（因果語の識別）：文中の因果的な語（causal words）と文脈的な語（context words）を分離
S2（ラベル制御付きのテキスト補完）：文脈語を変更せずに、因果語を変えることでサンプルのラベルを変更
S3（反事実データの拡張）：元のサンプルと反事実サンプルを組み合わせて、学習用のデータセットを構築

S1とS2はLLMへのプロンプトエンジニアリングによって実施され、S3で得られたデータは感情分析(Sentiment Analysis)などの一般的な自然言語理解(NLU)タスクを実行するバックボーンモデルの学習に用いる。

実験

実験条件、結果概要

反事実データ（ラベルだけ異なる文）を自動生成できるか、又、生成された反事実データが小型モデル（SLM）の学習に有効かどうか、を検証した。タスクは以下を使用。

SA（Sentiment Analysis）：感情分類（positive/negative）
NLI（Natural Language Inference）：前提と仮説の関係（entailment/contradiction/neutral）
NER（Named Entity Recognition）：固有表現抽出（人物、組織など）
RE（Relation Extraction）：エンティティ間の関係分類（e.g., employee_of）

タスク	LLMによる反事実生成の成功率	反事実データ追加によるSLMの性能変化	備考
SA（感情分析）	高い（因果語が明確）	精度が向上	効果が大きく、文の自然さも高い
NLI（自然言語含意）	中程度	精度がやや向上	曖昧な文では誤りもあり
NER（固有表現抽出）	低い（置換が困難）	ほぼ効果なし	固有名の不自然な書き換えが多い
RE（関係抽出）	非常に低い	逆効果の場合あり	複雑な関係性を正しく反転できない

GPT-3.5は簡単なラベル（SAやNLI）には強いが、構造や知識が必要なタスク（NERやRE）には弱い。
CoT（Chain-of-Thought）は反事実生成にはほぼ効果なし。
正しいラベルに到達しても、文として不自然な場合も多い。
小規模モデルは、質の悪い反事実データを入れるとかえって性能が下がる。

結果詳細

図３は様々なタスクでのfew-shot数を変えた場合の精度比較であり、NERとREではSLMの方がfew-shot数が多い場合に有利である。これはfew-shot数が増えるとLLMが長文理解に弱い点が影響してしまい、SLMのfinetuningに比べると学習されにくい点が原因と思われる。ただしこれは反事実生成に限った話で、[Wang2023]ではfew-shotの数に応じて性能向上が見られる。反事実生成は「多段階の意味操作と構造操作」を含むタスクであり、LLMが例の一般化に失敗しやすいためと考えられる。

図４は反事実生成によりどれぐらい精度向上したかを示す。few-shot数の増加で改善しないタスクほど改善が悪い傾向があった。

Towards Lifelong Dialogue Agents via Timeline-based Memory Management

Tutty — Mon, 23 Jun 2025 13:40:16 +0000

選定理由

対話内容を因果関係を考慮したタイムライン形式でまとめる点が興味深い。ソウル大・延世大の共同研究

Paper: https://arxiv.org/abs/2406.10996
Code: N/A

Agentic RAG の記憶の管理方法を工夫することで改善する。グラフで記憶を管理する研究は割と昔からあるが、対話履歴をノードとしてグラフ化し、因果・類似関係を動的にリンクする点あたりは新しい。

概要

【社会課題】
高齢者支援・教育・メンタルケアなど文脈に応じたパーソナライズが不可欠な領域では、人とAIの長期的な対話が求められている。

【技術課題】
エージェントが対話を記憶する時は、将来的にどの情報が重要かを判断する必要がある。又、記憶活用時は、どの記憶を活用するのか良いか選択する必要がある(図１)。

従来は記憶は単純なリスト構造であり、過去の発話の背後にある意味的なつながりや因果構造が考慮されていない。

【提案】
以下の3フェーズから成る記憶管理フレームワーク THEANINE を提案した。

記憶グラフ：対話の各発話をノードとして保存し、因果関係でリンクを張る。
タイムライン抽出：質問文に関連する過去の出来事を因果順・時間順に再構成。
応答生成：そのタイムラインをもとに、文脈を踏まえた応答をLLMで生成。

【効果】
応答の一貫性・文脈理解・情報正確性が人手と自動評価においてSOTA。新しい評価法 TeaFarm（反事実QA）を用いた結果、THEANINEは長期記憶の利用度が高いことがわかった。

THEANINE

THEANINEの概略図が図２であり、フェーズ１〜３まである。

Phase I: Memory Graph Construction

まず対話履歴の各発話を「記憶ノード」として保存する。

例：ユーザー「私はかつてクルーズ船でひどい酔いをした。以来、船が怖い。」→ 1つの記憶ノードにまとまる

次にノード間に関係性（前後関係、影響関係など）のエッジを構築。これにより、記憶間の意味的関連を明示化する。図３に示すように接続候補のノード(オレンジ色)が記憶ノードが持つテキストの類似性に基づき選ばれる。エッジの関係性を図３下に示す。単純な時間的前後関係はコンテキスト性がなく悪影響を持つため除外している。

例：ユーザーが「クルーズ船が怖い」と言った後、「旅行したい」と言えば、因果的につながる。

詳細なアルゴリズムは以下である。

Phase II: Timeline Retrieval & Refinement

ユーザーの質問に対して、関連する記憶ノードをグラフからTop-Kで取得。取得したノード $m_{re}$ と接続しているノード集合の中で最も timestamp が古いノード $m_{start}$ を取得する(以下式)。ここで、 $Θ\Theta$ は最も古い timestamp のノードを取り出す関数、 $V$ は引数を含む頂点集合を取得する関数である。

m_{\text{start}} = \Theta(V(C_{\text{re}}))

$m_{start}$ を起点として $m_{re}$ を通るパスを $n$ 個サンプリングし、タイムライン候補(Raw Memory Timeline)として扱う。このパスの中から不要な情報を削ぎ落とし、必要な関係性のみを強調して整えたものの中で最も確率的に高いものをLLMに生成してもらう。（以下式）

\text{T}{\Phi} = \lbrace \argmax{\tau_{\Phi}} P_{\text{LLM}}(\tau_{\Phi} \mid D, \tau) \;\mid |\; \tau \in \text{T} \rbrace

詳細なアルゴリズムは以下である。

Phase III: Timeline-Augmented Generation

ユーザーの質問とその前提文脈（＝タイムライン）に基づいて、応答を生成する。

\bar{u_{n+1}} = \argmax_{u_{n+1}} P_{\text{LLM}}(u_{n+1} \mid D, T_{\Phi})

実験

実験条件

データセット：Multi-session Chat (MSC), Conversation Chronicles (CC)
ベースライン手法: Memory Retrieval, Memory Update, RSum-LLM, MemoChat, COMEDY
評価方法とメトリクス: 自動評価(Bleu-4, Rouge-L, Mauve, BertScore)、G-Eval(Coherence, Fact Recall, Causality), 主観評価(Helpfulness of Retrieved Memories)
言語モデル: GPT-3.5, GPT-4

検証１

THEANINEの有効性を検証するために、自動評価（GPT-4）と主観評価の両方で、応答の品質・記憶の適切さ・一貫性などを比較分析した。

表１は応答生成の自動評価と主観評価であり、THEANINEは総じて性能が高い。特筆すべきは Memory Updateを行うと性能ダウンしている点で、記憶更新をしないTHEANINEの有効である根拠となりうる。

表２は表１のアブレーションスタディである。relation-aware linking > retrieving timeline as a whole > timeline re-finementの順に効果が大きいことがわかる。

表３は回収した記憶が有効な情報を持っていたかどうかの人間による判定であり、図６は過去の会話が現在の対話に対して筋が通っているかどうかの判定である。

検証２

G-Evalによる自動評価は評価LLMの性能に依存する面が強い。そこで、反事実の文章を入力して、その事実に反する過去の記憶を回収できるか評価する TeaFarm という独自評価手法を導入した。

図８は生成した反事実の文章例である。

表４では各手法の成功率（Success Rate, SR）が示されており、THEANINEは全体として他のベースライン手法よりも高い成功率を記録した。特にCCデータセットにおいてはTHEANINEが最も優れた成績を示している。全体的に各手法の成功率が低めであり、TeaFarmが長期的な記憶管理を必要とする厳しい評価設定であることが示されている。興味深い点として、Retrieverを使用する手法（THEANINEや一部ベースライン）は、Retrieverを用いずにLLM単体で記憶を保持・活用する手法（RSum-LLM、MemoChat、COMEDYなど）よりも高い成績を示しており、大規模言語モデルの時代においても「外部記憶を構造的に扱う」アプローチが依然として有効であることが示唆されている。

また、アブレーションスタディでは元のTHEANINEよりわずかに劣る結果となっており、各構成要素が性能向上に寄与していることが裏付けられている。

Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models

Tutty — Wed, 18 Jun 2025 08:24:21 +0000

選定理由&所感

NUS, NTU, UCL Yaleなどいろんな大学の共同研究、NIPS2024 Accepted。

Paper: https://openreview.net/forum?id=CVpuVe1N22&noteId=aTI8PGpO47
Code: https://github.com/zhiyuanhubj/UoT

LLMの推論の不確実性を定式化した初の手法という点は革新的。

概要

【社会課題】
医療診断・技術サポート・教育・FAQなどの実社会における意思決定支援では正確な判断を下すために適切な情報を能動的に取得する必要がある(対話的情報探索タスク:図１)が、現在のLLMは「何を知らないか」「何を聞くべきか」を自律的に判断する能力が弱い。

【技術課題】
LLMは情報検索ができず、情報を取得するためのプロンプト設計や計画ができない。又、自らの推論の不確実性を扱えないため、的はずれな回答を生成し情報探索の効率性が低い。従来の Direct Prompting や Passive Reasoning といった戦略性や先読みがないアプローチは未知情報の多いタスク（例：診断・20Q）に対し十分な性能を発揮できない。

【提案】
LLMの思考プロセスに「不確実性を意識した計画」を組み込み、効率的な情報取得のための質問選択を最適化するUoT（Uncertainty of Thoughts）を提案。

【効果】
情報収集が効率化され少ない対話で目的を達成できるようになった。LLM（GPT-3.5、GPT-4）を用いた複数タスクでは、従来手法に比べて平均38.1%（最大57.8%）の成功率向上を達成。又、医療診断・トラブルシューティング・20 Questionsなど多様な領域に応用でき、既存のLLMに統合することができる。

Uncertainty of Thoughts

本研究では質問者（LLM）と回答者（人間）が対話を通じて、質問者がある未知の情報（例：病名）を特定するという対話的情報探索タスクを扱う。全ての回答の集合を $Ω$ とし、その中のたった1つの要素 $ω \in Ω$ が正解とする。例えば医療診断では、 $Ω =$ {気管支炎,インフルエンザ,高血圧,…} のように病気の集合となり、 $ω$ が患者の本当の疾患である。最終的に正しい $ω$ を特定するか、あるいは最大ターン数に達したら終了とする。

UoTは図２に示すように(a) Question Generation and Simulation, (b) Uncertainty-based Reward, (c) Reward Propagation の３要素から成る。

Question Generation and Simulation

過去の質問と回答の履歴 $h_i$ に基づいて、LLM を使って $m$ 個の質問候補を生成する。質問は情報利得が高く、曖昧さが少ないものとなるようプロンプトで誘導する。

q^1_i, q^2_i, \ldots, q^m_i = \text{LLM}(\text{Prompt}_{\text{gen}}(h_i, \Omega_i))

各質問に対して、肯定・否定の応答を前提としたツリーを構築する。ツリー上の各ノードでは、履歴に応じて回答集合 $Ω_v$ を更新し、LLMによって将来の分岐をシミュレートする。その過程で得られる情報利得（エントロピー減少量）を計算し、最終的に最も期待値の高い質問を選択する。

\Omega^A_v, \Omega^N_v = \text{LLM}(\text{Prompt}_{\text{ans}}(h_v, \Omega_v))

Uncertainty-based Reward

回答の良し悪しを判断する情報利得(IG:Information Gain)は以下の式で定義される。ここで $pvAp^A_v$ は回答が肯定的である場合の確率であり、本研究では $pvA=p(ΩvA)p(Ωv)p^A_v = \frac{p(\Omega^A_v)}{p(\Omega_v)}$ （回答数のカウントではなく、厳密には確率測度としての定義）

IG_v(X) = -p^A_v \log p^A_v - p^N_v \log p^N_v

バランスの良い質問が強調されるようなスケーリングを行うと最終的には以下の式になる。

R_u(v) = f_{IG_v}(X) := \frac{-p^A_v \log p^A_v - p^N_v \log p^N_v}{1 + \lambda^{-1} \left| p^A_v - p^N_v \right|}

Reward Propagation

1ステップの報酬（質問後すぐの情報利得）だけでは、長期的な予測ができず、適切な質問選択が困難になる。そこで、木全体にわたる報酬伝播（reward propagation）を導入する。再帰的にツリーの各ノードの期待報酬を計算し、報酬が最大になるような質問を選択する。

実験

実験条件

UoTが、対話的情報探索タスクにおいて優れているかを検証するために以下のタスク・データセットで実験を行った。

タスクカテゴリ	説明	使用データセット
診断系（Medical）	症状から病名を推定	MedQA, MedMCQA, PubMedQA
故障調査（Troubleshooting）	問題の原因を対話的に特定	Taskmaster
20 Questions ゲーム	質問を重ねて物体や概念を当てる	20Q benchmark

比較対象としては、Direct Prompting（DP）、および情報利得を利用するがツリー構造を持たない Entropy-based Search を選定。実験にはLLMとして GPT-3.5、GPT-4、Claude 2 を使用した。評価指標は以下である。

指標	内容
成功率	最終的な回答が正解かどうか
質問数（平均）	正解にたどり着くまでに必要な質問回数
情報利得効率	各質問がどれだけ不確実性（エントロピー）を減少させたか

実験結果

モデル	タスク	成功率向上（UoT vs DP）	質問数の効率性	情報利得効率の向上	備考
GPT-4	20 Questions	+57.8%	大幅に改善	高い改善	ツリーによる見通しが効果的
GPT-3.5	Troubleshooting	+38.1%	改善	明確な改善	質問の的確性が向上
GPT-3.5	Medical QA	+34.2%	改善	中程度の改善	関連症状に集中できる

複数のデータセットにおいて明確な改善効果が見られた。不確定な要素が強いほどツリーによる改善効果が大きい。

図３は具体的な対話の一例である。UoTでは例えば「腹痛」といった初期情報を得た後、一般的な質問ではなく関連する具体的な問題に焦点を当てた質問を生成する。結果、過度に特定的な質問を避けつつ、的確な情報収集が可能になる。

アブレーションスタディ（要素除去実験）

ツリー構造なし（flat planning）：性能が明確に低下。
情報利得関数の変更：成功率に影響あり。報酬関数の設計が重要な要素であることが示された。

今後の展望

今後はツリーのPruningや情報利得以外の報酬関数の学習による質問戦略の実現がある。又、エントロピー以外の不確実性指標の導入や、反復的計画により質問の再構成も効果的と考えられる。

INTENT-BASED PROMPT CALIBRATION: ENHANCING PROMPT OPTIMIZATION WITH SYNTHETIC BOUNDARY CASES

Tutty — Tue, 10 Jun 2025 06:54:26 +0000

選定理由&所感

プロンプト最適化で実用性が高そう。ICLR2024 Workshop、スタートアップでの研究開発。

Paper: https://openreview.net/forum?id=dFEyhtZXZt
Code: https://github.com/Eladlev/AutoPrompt
blog: https://qiita.com/setowatson/items/e5009f0417e8b59b6bc5

人間がやっているようなプロンプト最適化の「要件定義 → 間違いやすい例を取得→ 出力を見てズレを分析 → プロンプトを直す」を自動で回すしくみ。間違いやすさを自動評価するHard Example Miningは以前からあった(OHEMとか)が、LLMでHard Exampleを生成する点が新しいと思われる。フィードバックの仕組みは勾配伝搬のような形ではなく自然言語のみのCVRFに近い。

概要

【社会課題】
MLシステム運用中に、プロンプト最適化によってLLMの応答をユーザー要件に沿う形で改善したいケースが多い。しかし、プロンプト最適化には深いビジネスドメイン知識が必要とされる。

【技術課題】
ユーザー要件によって良い出力の定義が異なるため、意図に合った出力の教師信号は少ない or 存在しないことがあり、特に識別境界付近のサンプル(Hard Example)は収集が難しい。又、従来の主流アプローチ(meta prompt: プロンプト生成用プロンプト)では高品質なベンチマークデータセットが必要であり、実務では使えない場合が多かった。

【提案】
meta promptの枠組みを拡張したIPC(Intent-Based Prompt Calibration)を提案した。IPCは識別境界に近い合成データセットを作成し、ユーザー意図に沿って合成データを評価し反復的にプロンプト最適化を行う。

【効果】
IPCはユーザー意図に合うようにプロンプトを自動で調整することができ、プロンプトがモデルやタスクに依存してしまう課題をある程度解決することができた。評価では多様な生成系タスクにおいて既存手法を上回る効果を示した。

Intent-Based Prompt Caliblation

図１，２に示すようにIPCは次のステップを繰り返す：

タスクと現在のプロンプトに対して、多様かつ難易度の高い境界事例（boundary cases）を複数生成
生成されたサンプルに対する現在のプロンプトの性能をスコア関数で評価し、エラー解析結果を提供
過去のプロンプト履歴をもとに、スコアが高くなるような新たなプロンプトを提案

例えば分類タスクではスコア関数はAccuracy, エラー解析は混同行列と誤分類出力である。

生成タスクへの変換

生成タスクを扱う場合、最適化を2つの段階に分ける。なお、人手によるスコア付け（アノテーション）は第一段階でのみ必要である

第一段階：初期プロンプトとタスク説明をLLMで言い換え、複数の出力候補に対して、ユーザー意図への適合度に基づくランキング（順位付け）を行う。ランキングスコアは平均点付近に集中しやすく、高スコア帯ではバランスが崩れやすいため、上位2スコアの出力に基づく境界事例を生成する。

第二段階：元の生成プロンプトに対して、第一段階で得られたランキング用プロンプトをスコア関数として用いながら、評価と修正のステップを反復的に適用し、プロンプトを最適化する。

IPCにおけるmeta prompt

以下３つの処理から成る。

Sample Generator: 識別境界のサンプルを生成

ユーザーの意図（instruction）に基づき、意図に合致する・しない出力が得られやすい入力例（input prompts）をLLMで合成する。初期プロンプトを使って出力を生成し、それらの出力が意図に沿っているかどうかを後段で評価可能なデータセットを構築する。

Analyzer: プロンプトの評価

生成された出力と意図との一致度を判定し、出力が意図とズレている境界事例（boundary cases）を特定する。意図に基づく自動評価（例：混同行列や分類精度）を用い、どのような入力がプロンプトにとって困難かを分析。

Prompt Generator: プロンプト最適化

Analyzerで検出された境界事例・分析結果を利用して、プロンプトの改良案を生成する。LLMに過去数ステップのプロンプトとスコア履歴を入力し、全体傾向を踏まえた修正を提案させる。

実験

IPCの効果を2つの分類タスク、spoiler(ネタバレ検出)とPG(保護者ガイド分類）で検証している。比較対象は、Zero-shot、Few-shot、分類精度を直接最適化する手法、既存のプロンプト最適化手法（GCG）など。結果、IPCは他の手法よりも高い精度を安定して達成し、学習のばらつきも小さかった。Figure 3では、各手法の精度が学習ステップ数に応じてどのように変化するかを示しており、IPCが最も早く精度が向上し、かつ安定していることが視覚的に確認できる。少ないステップで効果的に意図に沿ったプロンプトが得られることが確認されており、特にあいまいな意図を含む分類問題で強みを示した。

合成データの分布を見ると実データより境界付近のデータを取得できており、クラス間不均衡が解消されていることがわかる。

アブレーションスタディ

analyzer コンポーネントが重要な役割を果たしているのがわかる。この結果は先行研究[Yang2023]とは矛盾するように見えるが、analyzerが単純な評価値の計算だけでなくエラー解析・原因までフィードバックしている点が今回の結果となったと言える。

FINCON: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making

Tutty — Wed, 04 Jun 2025 14:49:09 +0000

選定理由

LLM＋マルチエージェントを使って組織構造を模倣するあたりがトレンディで興味深い。Harvard Universityの研究。

Paper: https://arxiv.org/abs/2407.06567
Code: https://github.com/The-FinAI/FinCon

CVRFの発想は TextGrad によく似ていて、テキストによるフィードバックを勾配降下法に見立てるがやはり解析数学的な根拠はない。

概要

【社会課題】
金融市場は複雑で変動が激しく、迅速で連続的な意思決定が求められる。従来の人間中心の組織構造では、情報処理能力や記憶容量に限界があり適切な意思決定が難しい

【技術課題】
複数モダリティの非構造データ（ニュース、音声、財務など）を統合し、意味のある意思決定を行う必要がある。従来手法では強化学習の学習効率が悪く、陽に事前知識を与えない限り安定したポリシーの学習が困難。

【提案】
以下の特徴を持つLLMマルチエージェントフレームワークFinConを提案：

機能横断的なチーム連携：実際の投資会社の組織構造を模倣し、ManagerとAnalystが自然言語で連携しながら目標達成を目指す
リスク管理：エピソードごとに自己評価を行い、投資ポリシーを更新することで意思決定の質を向上
概念的言語強化フィードバック（CVRF）：エージェントの行動に対する言語のフィードバックを通じて、将来の意思決定に役立つ知識を強化し必要なノードに選択的に伝播

【効果】
以下の金融タスクで評価：

単一銘柄取引：従来手法よりも累積リターンが約26.5ポイント上昇
ポートフォリオ管理：複数資産の組み合わせにおいて、リスク調整後のリターンが向上

またアブレーションスタディにおいて、リスク管理コンポーネントの効果が示された。

FINCON

FINCONは図２に示すようにManager-Analystsの階層的エージェントグループとリスク制御コンポーネントから成る。

Manager-Analysts Agent Group

FINCONは投資組織を模倣したマルチエージェント構成で、迅速な投資意思決定を実現している。設計目的は不要なコミュニケーションコストを抑えつつ、情報の提示と理解を最適化し、投資パフォーマンスを最大化することである。

各アナリストエージェントは、特定の情報源（uni-modal）または単一タスクに特化しており、市場のノイズを除去した報告をマネージャエージェントに提供する。エージェントは以下７種である：

テキスト×３(ニュース、Form 10-k、アナリストレポート)の分析
音声（決算説明会音声）の分析
テーブルデータ処理: モメンタムやCVaRの算出
銘柄選定: 金融工学における古典的なリスク分散手法を適用し、ポートフォリオ選定

Manager Agentはチーム全体の司令塔として機能し、次の4つの役割を担う：

タスクの分解と割り当て: 投資目標と市場状況を入力とし分析タスクに分解した上で、各アナリストに自然言語で指示
情報統合と意思決定: アナリストの報告を統合し、単一銘柄取引では売買アクション、ポートフォリオ管理では銘柄比率の決定を行う。
リスク制御: リスク制御コンポーネントと連携し、リスク耐性のある運用を実現。
信念の更新と学習（Conceptual Verbal Reinforcement Framework: CVRF）: 各エピソード終了後に投資判断を評価し、自然言語による振り返り（conceptual feedback）を生成・記憶。これを通じて投資戦略に対する概念的な信念の更新を行い、今後の精度を向上させる。

Risk-Control Component

FINCONのリスク制御コンポーネントは2段階のリスク管理戦略を採用しており、エピソード内とエピソード間で異なるアプローチを取ることで、投資判断のロバスト性と持続的な改善を両立している。

エピソード内リスク制御は単一のエピソード内で観測されるリスク変動に即応する。まずポジションのCVaRを評価し、一定の閾値を下回るか急激に悪化した場合、Manager Agentはリスク回避的なアクション（例：ポジション縮小、保留）を選択する。これにより短期的かつ局所的なリスクへの即応が可能となり、大きな損失を回避できる。

エピソード間リスク制御では複数エピソードを通じた長期的な学習と最適化が行われる。エピソード終了後、Manager Agentは自身の投資行動とその結果を自然言語で振り返りを生成。この出力に基づき、リスク認識や意思決定方針を自然言語プロンプトとして更新・最適化する(algorithm.1)。

テスト時はCVRFは行わず、エピソード内リスク制御のみで実行する(algorithm.2)

CVRFのようなプロンプト自動チューニングは似たような研究が数多く存在しており、違いを以下に整理した。

観点	CVRF（FINCON, 2024）	TextGrad（2023）	Reflexion（2023）	Self-Refine（2023）
主な目的	信念更新とリスク制御	自然言語による擬似勾配最適化	試行錯誤による自己改善	出力の反復的な洗練
フィードバック形式	概念的な自然言語	自然言語 → 勾配のような信号	自己評価的自然言語	自然言語によるレビュー
アップデート対象	Meta prompt（プロンプト自体の改善）	埋め込み表現・モデルパラメータ	エピソードメモリ・行動方針	テキスト出力内容
更新頻度	エピソード単位	トークン／ステップ単位	試行後ごと	各出力後に繰り返し適用
数学的根拠	弱い（言語ベースの最適化）	準形式的（text-as-gradient）	数式的勾配はなし（ヒューリスティック）	明確な勾配なし
応用分野	金融（取引・リスク制御）	汎用的（言語生成・分類など）	強化学習タスク（探索含む）	一般的な生成タスク（QA,文書生成など）

実験

以下３つのリサーチクエスチョンについて検証した：

FINCONは単一銘柄取引・ポートフォリオ管理といった金融ドメインの意思決定において、ロバスト性を持つか？
エピソード内リスク制御は意思決定に有効か？
エピソード間リスク制御はマネージャーエージェント間のやりとりにおいて、取引性能を高めるのに効果的か？

評価メトリクスは以下である：

Cumulative Return (CR%): 累積リターン、高い方が良い
Sharpe Ratio (SR): シャープレシオ、高い方が良い
Max DrawDown(MDD%): 最大ドローダウン、低い方が良い

単一銘柄取引

単一銘柄取引での結果は表２で、赤がSOTA、青が二番目に良い結果である。多くの銘柄でFINCONはCR,SRでSOTAであり、さらにリスク管理コンポーネントの効果でMDDも低い結果となった。従来手法では、DRL(深層強化学習)ベースの手法はIPOなどの学習データ不足になりがちな銘柄に対して学習が収束せずパフォーマンスが下がる傾向があったり、FinAgent[Zhang2024]は類似度に基づいて過去の情報を取り出すがそれが古い情報を参照する場合がありエラーに繋がっていた。FINCONはそれらを克服し、Analystが解析した複数モダリティをタイムラインとして蓄積しておくことで誤りの少ない参照を実現している。

ポートフォリオ管理

従来のRLベース手法に比べてリターンとリスクのバランスに優れたポートフォリオ管理を実現した。マルチエージェントの役割分担とメタ認知的学習（CVRF）の効果が顕著に表れた。

アブレーションスタディ

リスク管理コンポーネントの効果が示されている。わずか４時間程度の学習でDRLよりも効果が高い点がポイントである。

DualRAG: A Dual-Process Approach to Integrate Reasoning and Retrieval for Multi-Hop Question Answering

Tutty — Wed, 28 May 2025 14:17:12 +0000

選定理由と所感

Tianjin Universityの研究、Agentic RAG な手法としてはシンプル。

paper: https://arxiv.org/abs/2504.18243
code: N/A
Blog: https://zenn.dev/knowledgesense/arti./cles/10b2b5f772b810

Dualというのは検索しクエリに回答する部分と、検索して集まった知識を整理する部分が協調的に働くためこう呼んでいる。

概要

【社会課題】
search-o1 と同じ

【技術課題】

知識のニーズ変化：推論の進行状況によって新たな知識が必要になるタイミングが異なる
情報の組織化と活用：取得した知識のノイズや断片化により、推論の一貫性が損なわれる。

【提案】
以下の2つのプロセスを反復し複雑な質問に高精度で回答するDualRAGを提案
Reasoning-augmented Querying (RaQ)：現在の推論状況から必要に応じて検索クエリを生成
progressive Knowledge Aggregation (pKA)：取得した情報を体系的に統合し、どんな情報が欠落しているかを明確にする

【効果】
HotpotQAでEM 65.0・F1 78.3を達成し、従来手法より最大+2.7 EM、+3.7 F1向上。小型モデルでもF1が+5.4改善し、オラクル知識なしでも高精度を維持

DualRAG

3.1 Framework of DualRAG

図２にDualRAGの全体像を示す。DualRAGは推論の文脈や進行状況に応じて検索を行うReasoning-augmented Querying (RaQ)、思考過程を記述し新しい知識を構造化しながら統合するprogressive Knowledge Aggregation (pKA)の２プロセスから成る。

R_t, D_t = \text{RaQ}(K_{t-1}, x, R_{t-1})

K_t = \text{pKA}(K_{t-1}, D_t)

ここで $K_t$ は $t$ 反復目の知識、 $R_t$ は推論過程、 $D_t$ は取得した文書集合、 $x$ はクエリ文を示す。

3.1.1 Reasoning-augmented Querying (RaQ)

重要な情報はエンティティ集合 $E_t$ の周辺にあることが事前検証でわかっているため、エンティティごとに関連する文書を検索するためのクエリ集合 $Q_t$ をセットで生成する。

E_t,\ { Q_t(e) }{e \in E_t} = M{EI}(K_{t-1}, x, r_t)

クエリ集合でそれぞれ検索を行い、結果をマージ後にリランキングを行う。

3.1.2 Progressive Knowledge Aggregation

KS(Knowledge Summarizer) はドキュメントの関連性に基づきフィルタリングを行ったのちに、エンティティごとに必要十分な知識を残して圧縮した knowledge fragment $k_e$ を生成する。

k_e = M_{KS}(x, R_t, e, Q_t(e), D_e)

PKO(Progressive Knowledge Outline)は「思考の履歴を自然言語で書き残す知識メモ」のようなもので、それをモデルが逐次的に活用していく。知識メモの形式は適用するビジネス領域に依存する面があるが、本研究では最も基本的なテキストのリストとする。

Kt(e)=Kt−1(e)∪keK_t(e) = K_{t-1}(e) \cup { k_e }

3.2 Fine-Tuning for Compact Models

ハイエンドなLLMは利用コストも高いため、ロウエンドモデルを Finetune もしくは知識蒸留して用いる。HotpotQAデータセットをベースとし、GPTで元の質問に対して「中間質問・中間回答文・答え」の形式で複数ステップを生成。

集めたデータセットのサンプルは数 Table.1 である。

実験

評価指標はEM、F1に加え、検索精度や推論一貫性も個別に評価した。

従来のRAG手法との比較はTable.2であり、複数のデータセット、評価指標でSOTAであることがわかる。

各プロセスに対するアブレーションスタディはTable.3である。w/o R は reasoner が検索を使用しない、w/o EI は Entity の検出をしない、w/o KO はKnowledge outlineを使用しない設定である。実験結果ではどれも性能が低下しており、有効なプロセスであることがわかる。

最後にケーススタディを掲載する。

Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering

Tutty — Wed, 14 May 2025 14:44:47 +0000

選定理由と所感

Abode ResearchとKAISTの共同研究。

Paper:https://arxiv.org/abs/2409.02361
Code:
Blog:https://zenn.dev/knowledgesense/articles/abf34c417b079e

検索時のRecallを改善する目的で検索結果に多様性を陽に与えるアプローチは従来からよくある。LLMの知識を用いて多様性を与えると反復的に深堀するよりも検索・応答性能が高くなるが、現在のLLMの特性に依存する面があると思われる。

概要

【社会課題】
search-o1 と同じ

【技術課題】
ユーザークエリと検索対象の文書集合の母集団分布には常に乖離があり、１回の検索では適切な文書を取得することが困難である。又、事前検証実験により中途半端な情報、余計な情報が交じるとLLMの回答性能はかえって悪化することがわかっている（図３）。

そして既存の反復的なRAG戦略(例:[Shao2023])は検索回数の増加による時間コスト、資金コストの増大という欠点があった。

【提案】
Diversify（多様化）：曖昧な質問から複数の具体的なサブクエリ（疑似解釈）を生成し、それぞれに対して文書を検索
Verify（検証）：取得した文書が各サブクエリに対して有用かどうかを評価し、関連性の低い文書を除外
Adapt（適応）：検証結果に基づき最適な生成戦略を選択し、最終的な回答を生成

という３ステージを実行するDIVA（Diversify-Verify-Adapt）を提案

【効果】
精度向上：従来のRAGや反復的RAGと比較して、DIVAはより高いD-F1スコアを達成
効率性：DIVAは反復的RAGよりも約2倍高速で、コストも約1.8倍低減

DIVA（Diversify-Verify-Adapt）

DIVAとIter-RAGを比較した全体像は図８である。

Retrieval Diversification (RD)

図4に示すようなプロンプトを用いてクエリの曖昧性をパターン分類し、疑似解釈を生成する。これは人間も曖昧な質問を受けた際に、曖昧な点をまず明確化してから回答する行為に似ている。曖昧性の分類と疑似解釈を同時に１つの推論で実施すると、精度が低下するため１つずつ行う（以下の式）。

Q_i \leftarrow \mathrm{LLM}(q_i, I_p, \mathrm{LLM}(q_i, I_a))

Retrieving Relevant and Diverse Passages

曖昧性のないクエリの場合には単一パッセージのみ取得する、曖昧性を含むクエリの場合は疑似解釈により得られたパッセージの論理和を取得する。

Pruning Noisy Passages

Diversify 時に元のクエリに関連性の低い文書が回収される可能性があるため、これを除去するための Pruning を行う。ノイズのパターンとしては検索時のRetrieverに起因するものは疑似解釈に関係なく均一に混入し、疑似解釈の誤りに起因するものはその疑似解釈での検索に多く混入すると考えられる。

S(p)=1∣Q^i∣∑j=1∣Q^i∣Enc(q^j)⋅Enc(p)∣Enc(q^j)∣⋅∣Enc(p)∣ S(p) = \frac{1}{|\hat{Q}i|} \displaystyle\sum{j=1}^{|\hat{Q}_i|} \frac{\text{Enc}(\hat{q}_j) \cdot \text{Enc}(p)}{|\text{Enc}(\hat{q}_j)| \cdot |\text{Enc}(p)|}

そこで上記スコア関数にてスコアリングを行い、top-k 以下のものを除外する。この計算法は関連性を定量化する際によく用いられる。

Adaptive Generation (AG)

Retrieval Verification (RV)

生成された疑似解釈とそれによって取得された文書を用いて、それぞれの疑似解釈の質問に回答できているかを判定する。一つでも回答できていると判断された場合は文書をLLMに渡して回答。一つも回答できていなかった場合は文書を提供せずLLMに直接回答させる

実験

図６によると反復的なRAGよりも早く、正確であることがわかる。

Vanilla RAG, Iterative RAG, CRAGなど各種SOTAなRAG手法と比べても高い性能であることがわかる。

DeepRAG: Thinking to Retrieval Step by Step for Large Language Models

Tutty — Thu, 01 May 2025 00:35:28 +0000

選定理由

中国科学院ソフトウェア研究所とWeChat AI研究チームの共同研究。

Paper: https://arxiv.org/abs/2502.01142
Code:N/A
blog: https://x.gd/wTnkm
https://zenn.dev/ren_ren_tnk/articles/775d6050e0cf4d

概要

【社会課題】
search-o1 と同じ

【技術課題】
従来のRAG手法ではRetriever（検索器）とGenerator（生成器）が独立に設計・最適化されていることにより、連携が不十分になり最終的な応答の品質や効率の課題を生んでいた。

【提案】
RetrieverとGeneratorが統一的な枠組みで最適化できるEnd2End な新しいRAGを提案。

・検索強化推論（検索＋推論の複合的ワークフロー）をマルコフ決定過程（MDP）として定式化し、最適な行動（検索するかどうか）を逐次選択。
・問題を段階的に分解しながら検索と推論を繰り返す手法を導入。
・各ステップで生成されるサブクエリに基づいて外部知識を取り込み、次のステップに活用。
・Retrieval Narrative + Atomic Decisions
Retrieval Narrative: すでに獲得している内部知識に基づき、文脈に沿ったサブクエリを生成。Atomic Decision: 各ステップで「検索する」or「内部知識だけで推論する」を判断。

【効果】
内部知識と外部知識の使い分けによりハルシネーションが抑制された結果、従来手法より21.99%の精度向上を実現した。無駄な検索を減らし必要なタイミングでのみ情報取得をすることで、計算・リソースの効率も改善した。

DeepRAG

図２はDeepRAGの全体像であり、この仕組みでRetrieval Narrative(クエリ分解) と atomic decision(検索するかしないかの判断)を行う。

3.1 Overview of the MDP Modeling

DeepRAGでは、検索強化推論のプロセスを以下の4つの要素からなるMDPとしてモデル化する：

状態（States, S）

各ステップにおける状態は、元のクエリとそれまでのサブクエリとその応答の履歴 $(q1,r1),…,(qt,rt)(q_1, r_1), \ldots, (q_t, r_t)$ で構成される。

行動（Actions, A）

各ステップでの行動 $a_{t+1}$ は、以下の2つの行動から成る：

終了判定（Termination Decision）: 次のサブクエリ $q_{t+1}$ を生成するか、最終的な回答 $o$ を出力してプロセスを終了するかを決定。

検索判定（Atomic Decision）: 次のサブクエリ $q_{t+1}$ に対して、外部知識を取得する（retrieve）か、内部のパラメトリック知識に依存する（parametric）かを決定。

遷移（Transitions, P）:

行動 $a_{t+1}$ を実行し、状態は $s_{t+1}$ に更新。

終了判定が「terminate」の場合、最終回答 $o$ を生成し終了
終了判定が「continue」の場合、次のサブクエリ $q_{t+1}$ を生成
検索判定が「retrieve」の場合、外部知識を取得し中間応答を生成。
検索判定が「parametric」の場合、内部知識に基づいて中間応答を生成。

報酬（Rewards, R）:

最終的な回答 $o$ を生成した後、報酬関数 $R$ は、回答の正確性と検索コストに基づいて評価されます。
正確な回答には正の報酬が与えられ、不正確な回答や不要な検索にはペナルティが課される。

3.2 Binary Tree Search, 3.3 Imitation Learning

上記のようなプロンプトを用いて質問文をサブクエリに分解するRetrieval Narrativeを実施する。

Q＆Aデータに対してquery decomposition を繰り返すことでBinary Search Tree を構築する処理はアルゴリズム１である。9〜13行目の処理で幅優先探索にて推論のみと検索後に推論しているノードを生成している。終端の回答が正解であるかどうかは教師データの回答と比較して報酬を決定する。

3.4 Chain of Calibration (CoC)

Chain of Thought (CoT)に似ているがCoTは推論方法であり、Chain of Calibration (CoC) は学習方法である。模倣学習(Stage I)で学習したベースモデルを用いてStage II として外部知識で再調整(calibrate)するステップを実行し学習を行う。
atomic decisions 時にはLLMに自身が持つ知識境界を明確に認識させる必要があり、そのために(1)検索が必要かどうか判定するための後述する合成Preference Dataの作成(2)LLMに対する特殊なFinetuningという２つの手順を踏む。

（１）Algorithm.1 で生成されたBinary Tree上の最適パスをたどることで各サブクエリ時に検索する・しないのどちらが選択されるべきかというPreference Dataを作成する。

L=−log⁡σ(βlog⁡πθ(yw∣si,qi)πref(yw∣si,qi)−βlog⁡πθ(yl∣si,qi)πref(yl∣si,qi))\mathcal{L} = - \log \sigma \left( \beta \log \frac{ \pi_\theta (y_w \mid s_i, q_i) }{ \pi_{\text{ref}}(y_w \mid s_i, q_i) } - \beta \log \frac{ \pi_\theta (y_l \mid s_i, q_i) }{ \pi_{\text{ref}}(y_l \mid s_i, q_i) } \right)

（２）の学習では上記目的関数を最小化する。 $y_w$ と $y_l$ はそれぞれ検索なしの回答と検索ありの回答を表す。 $πref{\pi}_{ref}$ は参照ベースモデルを表し、ベースモデルからベイズ因子が改善する方向へ収束させる。

実験

Table.2が示すようにDeepRAGは最も少ない回数で必要な情報を取得することができる。これはMDPによる定式化の効果である。

Table.3 は atomic decisions によってどれだけ効率的に知識境界を探索できているかを示す。特にBalanced ACCやMCCの値の高さはDeepRAGが不必要な検索を行っていないことがわかる。

図５はNarrative の効果で推論のたびに毎回検索するより、全く検索しないよりもDeepRAGのアルゴリズムの方が改善されることを示す。

図６は模倣学習とCoCのアブレーションスタディである。(a)から模倣学習により検索回数を減らしスコアを上昇させていること、(b)からはBinary Search Tree のすべてのノードを使用するよりも最適パスのノードのみ使用した方が検索回数が減ることが示されている。