<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>Forem: Tutty</title>
    <description>The latest articles on Forem by Tutty (@tutti).</description>
    <link>https://forem.com/tutti</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F839162%2F934f3984-54cc-41f6-8706-b0d4fdf07d2f.jpg</url>
      <title>Forem: Tutty</title>
      <link>https://forem.com/tutti</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://forem.com/feed/tutti"/>
    <language>en</language>
    <item>
      <title>Survey of strategies for efficient research and development</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Fri, 23 Jan 2026 02:06:31 +0000</pubDate>
      <link>https://forem.com/tutti/survey-of-strategies-for-efficient-research-and-development-18dg</link>
      <guid>https://forem.com/tutti/survey-of-strategies-for-efficient-research-and-development-18dg</guid>
      <description>&lt;h2&gt;
  
  
  研究課題の探索・設定
&lt;/h2&gt;

&lt;p&gt;研究活動の成否は研究課題の設定時点でほぼ決まっている場合が多いにも関わらず、設定の仕方について体系的に学ぶ機会は少ない。[&lt;a href="https://www.sciencedirect.com/science/article/pii/S1097276509006418" rel="noopener noreferrer"&gt;Alon2009&lt;/a&gt;]がこれについて論じている良い教材である。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fmlihdt0l9lhixe0w16f0.jpeg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fmlihdt0l9lhixe0w16f0.jpeg" alt="fig1" width="800" height="260"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図1は本論文の核心を視覚的に表した概念図であり、研究課題を以下の2軸で評価する枠組みを示している：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;縦軸：Interest（興味・科学的価値）&lt;/strong&gt;：自然科学への新しい知識・理解を創造するか、純粋な好奇心を喚起するか&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;横軸：Feasibility（実行可能性）&lt;/strong&gt;：自分の能力、所属組織のリソース、時間、蓄積技術で解けるか、現実的制約を含めた評価&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;各点が「研究課題の候補」を表す。右下領域は着実な成果は出るが、インパクト・チャレンジ性に乏しく、一方で左上領域は本質的・重要な課題であるが解決困難であり「夢があるが進まない難題」で若手研究者がはまりやすい危険領域である。いかにしてこれらを回避し、右上の領域(&lt;a href="https://qiita.com/opticont/items/ba987576f827ac842be3#1-%E5%A4%9A%E7%9B%AE%E7%9A%84%E6%9C%80%E9%81%A9%E5%8C%96%E5%95%8F%E9%A1%8C%E3%81%AE%E5%AE%9A%E7%BE%A9%E3%81%A8%E7%94%A8%E8%AA%9E%E3%81%AE%E8%AA%AC%E6%98%8E" rel="noopener noreferrer"&gt;パレートフロント&lt;/a&gt;)を目指すための方法を考察する。&lt;br&gt;
著者は課題選択の前に&lt;strong&gt;最低3か月かけて図1上の位置を見極めよ&lt;/strong&gt;と述べている。この期間で行うことは1、文献調査によるInterest軸の精緻化。2、技術検討、Feasibility軸の現実化。3、議論による点の再配置である。図1は「一度描いて終わり」ではなく、&lt;strong&gt;何度も更新される思考マップ&lt;/strong&gt;である。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F5fu8dssybjur1pmr03ap.jpeg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F5fu8dssybjur1pmr03ap.jpeg" alt="fig2" width="506" height="238"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;パレートフロントを目指すための補助イメージとして上記図2がある。この図の主張は&lt;strong&gt;良い課題設定は最初から完成していない&lt;/strong&gt;ことである。初期の問題設定は Feasibility が低すぎたり、Interest が曖昧だったりする。しかし、&lt;strong&gt;考察・技術検討・議論を通じて問題は変形される&lt;/strong&gt;。大きすぎる問いは小さなサブ問題へ分割したり、抽象的な問い実験・検証可能な形へ具体化される。この課題の「移動」こそが研究活動であり、研究とは単に答えを出すことではなく、課題を良い位置に移動させるプロセスである。&lt;/p&gt;

&lt;h2&gt;
  
  
  手法検討の進め方
&lt;/h2&gt;

&lt;p&gt;ここでは特定の課題に対する手法検討の方法について論じる。バイオ系の領域であるが、[&lt;a href="https://onlinelibrary.wiley.com/doi/10.1002/bies.201100144" rel="noopener noreferrer"&gt;Kell2012&lt;/a&gt;]らの考え方を取り上げる。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fkki45s8dzw6su0e5kk9y.jpeg" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fkki45s8dzw6su0e5kk9y.jpeg" alt="img3" width="800" height="282"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;上記図1は研究サイクルを探索空間上の組み合わせ最適化問題として捉えたマインドマップである。探索空間は可能なすべての実験や仮説の集合であり、高次元であるため全探索は不可能である。この探索空間における&lt;a href="https://ja.wikipedia.org/wiki/%E9%81%A9%E5%BF%9C%E5%BA%A6#%E9%81%A9%E5%BF%9C%E5%BA%A6%E5%9C%B0%E5%BD%A2" rel="noopener noreferrer"&gt;適応度地形&lt;/a&gt;(=組み合わせ最適化の評価関数)の山は高い知識価値、谷は低い知識価値を表し、多数の局所最適が存在する。研究者が選ぶ実験の系列は、この空間上の移動として表現される。これは強化学習でも扱われる探索と利用のトレードオフを持つ、&lt;a href="https://repository.kulib.kyoto-u.ac.jp/server/api/core/bitstreams/7d1b52cc-37fb-4349-bce9-0d94b0af441a/content" rel="noopener noreferrer"&gt;不完全情報下での逐次的意思決定問題&lt;/a&gt;である。&lt;/p&gt;

&lt;p&gt;基礎的な探索アルゴリズムで考えてみると、&lt;strong&gt;ランダム探索&lt;/strong&gt;は非効率であり高価値領域に到達する可能性は低い。&lt;strong&gt;局所探索（貪欲法）&lt;/strong&gt;は近傍改善は速いが局所最適に閉じ込められる可能性が高い。&lt;strong&gt;ヒューリスティック／進化的探索&lt;/strong&gt;は変異・多様性を保持しており局所最適を脱出できる可能性がある。これらの考察は実験サイクルは単なる経験則ではなく、アルゴリズム設計問題として捉えられることを示唆する。&lt;br&gt;
そこで実験サイクルをベイズ推論を用いて不確実性の最小化問題として定式化する。不確実性とは&lt;strong&gt;複数の仮説や説明の間で判断がついていない状態&lt;/strong&gt;を指す。ベイズ推論の立場では常に「どの仮説をどれくらいもっともらしいと考えているか」という &lt;strong&gt;仮説の信頼性(belief)&lt;/strong&gt; を持っており、実験結果によってbeliefが大きく変わる実験を選ぶ。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fg0qjnze5mpfu0tk7koyh.gif" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fg0qjnze5mpfu0tk7koyh.gif" alt="eq1" width="268" height="34"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;これを上記ベイズ定理に沿って説明すれば事前分布は従来研究に基づく特定の仮説 h に対する beliefの分布、尤度関数は仮説から予想される実験結果の分布、事後分布は実験結果から導かれるbeliefの更新された分布である。具体的手順としてまず、何がまだ分かっていないのか、どの仮説同士が競合しているのかといった &lt;strong&gt;不確実性の所在を明確にする&lt;/strong&gt;。次に、仮説ごとに予測が食い違う条件を探し、&lt;strong&gt;不確実性が最も減る実験&lt;/strong&gt;を選ぶ。結果が出たら、成功／失敗で判断するのではなく、&lt;strong&gt;どの仮説が信じにくくなったか&lt;/strong&gt;、&lt;strong&gt;何についてもう考えなくてよくなったか&lt;/strong&gt;という観点で考察する。そして最後に、&lt;strong&gt;まだ残っている最大の不確実性&lt;/strong&gt;に注目して次の実験を選ぶ——この繰り返しが、ベイズ推論による実験サイクルとなる。&lt;/p&gt;

&lt;p&gt;同様の考え方として&lt;a href="https://qiita.com/Mopepe51/items/dbfc36321e824f0eb654" rel="noopener noreferrer"&gt;ベイズ最適化によるHPO&lt;/a&gt;がある。この場合も不確実性を最も減らすパラメータを次の探索点とする。&lt;/p&gt;

&lt;h2&gt;
  
  
  The AI Scientist-v2
&lt;/h2&gt;

&lt;p&gt;この記事の最後に、上述の課題設定と技術検討のプロセスをエージェントで自動化した[&lt;a href="https://arxiv.org/pdf/2504.08066" rel="noopener noreferrer"&gt;Yamada2025&lt;/a&gt;]を取り上げる。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsip80vczt784kmuzbqm6.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsip80vczt784kmuzbqm6.png" alt="img1" width="800" height="488"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図1は本提案の全体像である。細かい説明は別記事で取り上げるのでここでは Idea Generation と Tree-Based Experimentation の概要をこれまでの文脈に沿って説明する。&lt;/p&gt;

&lt;h3&gt;
  
  
  Idea Generation
&lt;/h3&gt;

&lt;p&gt;Idea Generation は解決の「ひらめき」を生むのではなく、研究課題候補を生成するものである。具体的には自律的な研究探索を開始するための初期アイデアをビジネスリソース条件や業界動向をもとに生成する。ここで重要なのは、網羅的なアイデアの優劣評価、新規性の判定、面白さやインパクトの選別、先行研究レビュー、知識蓄積は行わないという点だ。それらはすべて、後続の実験探索プロセスに委ねられる。インプットは以下である。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;研究ドメインの指定&lt;/strong&gt;
（例：表現学習、最適化、LLM など）&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;実行制約&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;利用可能な計算資源、予算&lt;/li&gt;
&lt;li&gt;実験時間・スケール&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;strong&gt;評価可能性の条件&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;数値で測れる指標があること&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;strong&gt;初期的な既存研究のサーベイ&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;「この方向は既にやられていないか」という確認レベル&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;/ul&gt;

&lt;p&gt;アウトプットは次の要素を含む &lt;strong&gt;実験可能な設計情報&lt;/strong&gt; のリストである。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;中心仮説&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;何が起きると期待するか&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;strong&gt;既存研究との差分&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;何を変更・拡張するのか&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;strong&gt;最小実験設定&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;モデル、データ、評価指標&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;strong&gt;成功／失敗の判定条件&lt;/strong&gt;

&lt;ul&gt;
&lt;li&gt;次の探索に進むかどうかの基準&lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;/ul&gt;

&lt;p&gt;これらのアウトプットは次の&lt;strong&gt;探索木の root node（出発点）&lt;/strong&gt; になる。&lt;/p&gt;

&lt;h3&gt;
  
  
  Tree-Based Experimentation
&lt;/h3&gt;

&lt;p&gt;Tree-Based Experimentation は、明示的な4つのフェーズ&lt;br&gt;
（事前検証 → 実験安定化 → 主実験 → 分解と理解）からなるワークフローを持ち、Managerエージェントが各フェーズ間の遷移と探索木の成長を管理しながら技術的な検証を進める仕組みである。&lt;/p&gt;

&lt;h4&gt;
  
  
  Stage 1: Preliminary Investigation（事前検証）
&lt;/h4&gt;

&lt;p&gt;前段で生成された中心仮説、最小実験設定、判定条件をインプットとし、「試してよいかどうか」ふるいにかける段階である。探索木は浅く広く分岐し、失敗も含めて地形を把握する。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;仮説が成立しそうかを粗く確認&lt;/li&gt;
&lt;li&gt;実験が技術的に実行可能かをチェック&lt;/li&gt;
&lt;li&gt;明らかに筋の悪い方向を早期に除外&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  Stage 2: Hyperparameter Tuning（実験安定化）
&lt;/h4&gt;

&lt;p&gt;このフェーズでは中心仮説や差分の定義を固定化しつつ、仮説そのものは疑わず、実装や設定が原因となる不安定さを除去する段階である。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;学習率や正則化などの調整&lt;/li&gt;
&lt;li&gt;結果のばらつきを抑える&lt;/li&gt;
&lt;li&gt;定量指標を安定させる&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  Stage 3: Research Agenda Execution（主実験）
&lt;/h4&gt;

&lt;p&gt;中心仮説、差分の定義、成功条件をインプットとし、実験結果として確定させる段階である。探索木は収束し、主張を支えるノードが中心になる。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;最良設定での本実験&lt;/li&gt;
&lt;li&gt;ベースラインとの比較&lt;/li&gt;
&lt;li&gt;論文の主張を裏付ける結果の取得&lt;/li&gt;
&lt;/ul&gt;

&lt;h4&gt;
  
  
  Stage 4: Ablation Studies（分解と理解）
&lt;/h4&gt;

&lt;p&gt;中心仮説、差分の定義をインプットとし、「なぜうまくいったのか」を説明するための段階。実験結果では差分の定義が&lt;strong&gt;分析のガイドライン&lt;/strong&gt; として使われる。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;要素を一つずつ除去&lt;/li&gt;
&lt;li&gt;どの設計が効いていたかを検証&lt;/li&gt;
&lt;li&gt;主張の妥当性を補強&lt;/li&gt;
&lt;/ul&gt;

</description>
      <category>computerscience</category>
    </item>
    <item>
      <title>Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Tue, 23 Dec 2025 05:36:37 +0000</pubDate>
      <link>https://forem.com/tutti/language-agent-tree-search-unifies-reasoning-acting-and-planning-in-language-models-3b97</link>
      <guid>https://forem.com/tutti/language-agent-tree-search-unifies-reasoning-acting-and-planning-in-language-models-3b97</guid>
      <description>&lt;h2&gt;
  
  
  選定理由
&lt;/h2&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;評価点&lt;/th&gt;
&lt;th&gt;高SABCD低&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;整合性&lt;/td&gt;
&lt;td&gt;B: LLMによる状態価値評価によって探索と利用のトレードオフを解いている点はビジネスニーズが高い&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;信頼性&lt;/td&gt;
&lt;td&gt;S: Proceedings of Machine Learning Research 2024 採択、著者は元DeepMind&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;健全性&lt;/td&gt;
&lt;td&gt;S: 理論設計（MCTSの導入、LM評価の利用、反省の統合）は整然としており、明確なアルゴリズム構成を持つ。&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;汎用性&lt;/td&gt;
&lt;td&gt;A: langgraphでも実装例があり汎用性は高いが、ハイパーパラメータに対する鋭敏性とランニングコストが課題&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;発展性&lt;/td&gt;
&lt;td&gt;A: 様々な発展があるが、木構造に限定される点や状態が明確に定義できないタスクは適用が難しい点が課題である。&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;Paper: &lt;a href="https://arxiv.org/abs/2310.04406" rel="noopener noreferrer"&gt;https://arxiv.org/abs/2310.04406&lt;/a&gt;&lt;br&gt;
Code: N/A&lt;/p&gt;
&lt;h2&gt;
  
  
  エグゼクティブサマリ
&lt;/h2&gt;

&lt;p&gt;LLMの思考を木構造で管理することで、先読みを可能とした。これによりLLMは少ないトライ&amp;amp;エラーで正しい結論に辿り着くことができる。&lt;/p&gt;
&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
現状のLLMは、単一の入力に対して即座に応答する「一問一答型」が中心であり、複雑な意思決定や多段階タスクには対応しづらい。&lt;/p&gt;

&lt;p&gt;【技術課題】&lt;br&gt;
複雑な意思決定や多段階タスクには先読み(計画)が必要となる。しかし、従来手法（CoT, ReAct, Reflexion等）は多段推論・行動・反省といった要素をLLMに追加するが、計画はできない。そのため行動選択が短期的目標になりがちで、タスク達成率が低下する。&lt;/p&gt;

&lt;p&gt;【提案】&lt;br&gt;
LLMに多段推論（reasoning）、行動（acting）、計画（planning）を統合的に実行させる枠組みLATS(Language Agent Tree Search）を提案した。LATSは&lt;a href="https://ja.wikipedia.org/wiki/%E3%83%A2%E3%83%B3%E3%83%86%E3%82%AB%E3%83%AB%E3%83%AD%E6%9C%A8%E6%8E%A2%E7%B4%A2" rel="noopener noreferrer"&gt;モンテカルロ木探索（MCTS）&lt;/a&gt;を用いて複数の行動候補を探索し、LLMが価値評価・反省することでより長期的で一貫した意思決定を実現する。&lt;br&gt;
&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fh66v06qutpswfq4etq3c.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fh66v06qutpswfq4etq3c.png" alt="tb1"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;又、表1に示すように推論、行動、計画、反省、記憶というすべての構成を含んだアプローチはLATSが初である。&lt;/p&gt;

&lt;p&gt;【効果】&lt;br&gt;
ファインチューニングなどの勾配学習を行わずに、LLMが自律的に多段推論を重ね計画し、環境と対話的に行動できるようにした。実験では、プログラミングで従来手法を上回り、pass@1で92.7 %を達成。Webナビゲーションで既存の強化学習ベース手法を超え、成功率 75.9 %を記録。マルチホップ推論でも正答率が約 +8 Pt向上。&lt;/p&gt;
&lt;h2&gt;
  
  
  Language Agent Tree Search (LATS)
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F82vy463hg1rxsdm90zq4.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F82vy463hg1rxsdm90zq4.png" alt="fig2"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;LATSは強化学習で用いられるMCTSやベルマンバックアップによる探索にLLMの推論を活用したアルゴリズムである。LATSの Evaluation と Simulation において実施される&lt;a href="https://zenn.dev/questlico/articles/399834e6cede80#%E3%83%96%E3%83%BC%E3%83%88%E3%82%B9%E3%83%88%E3%83%A9%E3%83%83%E3%83%97%EF%BC%9A%E4%BA%88%E6%B8%AC%E3%81%A7%E4%BA%88%E6%B8%AC%E3%82%92%E6%94%B9%E5%96%84" rel="noopener noreferrer"&gt;ブートストラップ&lt;/a&gt;は任意のステップ数先まで予測するが、LLMによる近似的な環境予測に依存するため(選択・モデル・ブートストラップ)バイアスが重なりやすく、初期値鋭敏性を生じやすい。一方で、LLMは長期的構造や意味的整合性を捉える能力を持つため、厳密な環境モデルがなくても有用なヒューリスティックとして機能する。&lt;/p&gt;

&lt;p&gt;図２は&lt;a href="https://ja.wikipedia.org/wiki/%E3%83%99%E3%83%AB%E3%83%9E%E3%83%B3%E6%96%B9%E7%A8%8B%E5%BC%8F" rel="noopener noreferrer"&gt;ベルマン方程式&lt;/a&gt;における&lt;a href="https://qiita.com/triwave33/items/0c8833e6b899c26b208e" rel="noopener noreferrer"&gt;バックアップ線図&lt;/a&gt;を&lt;a href="https://lis.csail.mit.edu/pubs/tlp/IJRRBelFinal.pdf" rel="noopener noreferrer"&gt;belief空間上&lt;/a&gt;で近似評価したものと解釈でき、ノードが状態（履歴）で、エッジが行動選択を表す。&lt;/p&gt;

&lt;p&gt;アルゴリズムの全体像を以下に示す。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F39xof7l2uulzkx00dnnf.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F39xof7l2uulzkx00dnnf.png" alt="al1"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;最後に強化学習アルゴリズムと比較すると以下のようになる。&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;観点&lt;/th&gt;
&lt;th&gt;LATS&lt;/th&gt;
&lt;th&gt;モンテカルロ法（MC）&lt;/th&gt;
&lt;th&gt;TD法（TD(0)）&lt;/th&gt;
&lt;th&gt;SARSA&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;分類&lt;/td&gt;
&lt;td&gt;推論時探索&lt;/td&gt;
&lt;td&gt;強化学習（価値推定）&lt;/td&gt;
&lt;td&gt;強化学習（価値推定）&lt;/td&gt;
&lt;td&gt;強化学習（制御）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;主目的&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;推論・行動の最適化&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;価値関数の学習&lt;/td&gt;
&lt;td&gt;価値関数の学習&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;方策と価値の同時学習&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;状態・行動空間&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;自然言語（thought/action）&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;離散/連続&lt;/td&gt;
&lt;td&gt;離散/連続&lt;/td&gt;
&lt;td&gt;離散/連続&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;探索構造&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;木構造（MCTS）&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;なし&lt;/td&gt;
&lt;td&gt;なし&lt;/td&gt;
&lt;td&gt;なし&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;a href="https://qiita.com/pocokhc/items/ac38d9e3658c5a596010#3-evaluation" rel="noopener noreferrer"&gt;ロールアウト&lt;/a&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;LLMによるロールアウト&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;実エピソード&lt;/td&gt;
&lt;td&gt;実遷移&lt;/td&gt;
&lt;td&gt;実遷移&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;評価の基準&lt;/td&gt;
&lt;td&gt;LM評価＋自己一貫性&lt;/td&gt;
&lt;td&gt;実報酬&lt;/td&gt;
&lt;td&gt;実報酬＋推定価値&lt;/td&gt;
&lt;td&gt;実報酬＋推定価値&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;ブートストラップ&lt;/td&gt;
&lt;td&gt;あり&lt;/td&gt;
&lt;td&gt;なし&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;あり&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;あり&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;更新対象&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;探索木の統計量&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;価値関数パラメータ&lt;/td&gt;
&lt;td&gt;価値関数パラメータ&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;行動価値関数 (Q)&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;学習（重み更新）&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;しない&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;する&lt;/td&gt;
&lt;td&gt;する&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;する&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;方策との関係&lt;/td&gt;
&lt;td&gt;探索で暗黙的に決定&lt;/td&gt;
&lt;td&gt;固定 or 任意&lt;/td&gt;
&lt;td&gt;固定 or 任意&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;On-policy&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;失敗の活用&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;Reflection（自然言語）&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;サンプル平均&lt;/td&gt;
&lt;td&gt;TD誤差&lt;/td&gt;
&lt;td&gt;TD誤差（行動依存）&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;
&lt;h3&gt;
  
  
  Selection（選択）
&lt;/h3&gt;

&lt;p&gt;全ノードから次に展開すべきノードを&lt;a href="https://en.wikipedia.org/wiki/Upper_Confidence_Bound" rel="noopener noreferrer"&gt;UCB（Upper Confidence Bound）&lt;/a&gt;に基づく評価で選択する。状態価値関数

&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;V(st)V(s_t)&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;V&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
と探索回数
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;N(st+1)N(s_{t+1})&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;N&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
のバランスを取って、最も有望なノードを選ぶ行動
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;ata_t&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;a&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
を行う。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;at=arg⁡max⁡at[V(St)+clog⁡N(St)N(St+1)]
a_t = \arg\max_{a_t} \left[ V(S_t) + c \sqrt{ \frac{\log N(S_t)}{N(S_{t+1})} } \right]
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;a&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mop"&gt;ar&lt;span&gt;g&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mop op-limits"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;a&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size3 size1 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="mop"&gt;max&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="minner"&gt;&lt;span class="mopen delimcenter"&gt;&lt;span class="delimsizing size4"&gt;[&lt;/span&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;V&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;S&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;+&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;c&lt;/span&gt;&lt;span class="mord sqrt"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span class="svg-align"&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mopen nulldelimiter"&gt;&lt;/span&gt;&lt;span class="mfrac"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;N&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;S&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="frac-line"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mop"&gt;lo&lt;span&gt;g&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;N&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;S&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose nulldelimiter"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="hide-tail"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose delimcenter"&gt;&lt;span class="delimsizing size4"&gt;]&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;



&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;N(St+1)=N(St)+1
N(S_{t+1}) = N(S_{t}) + 1
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;N&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;S&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;N&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;S&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;+&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;その後、記憶に従い観測
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;oto_{t}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;o&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
を得る。これは過去の経験を再学習に使う &lt;a href="https://zenn.dev/ymd_h/articles/c3ba23033a6442" rel="noopener noreferrer"&gt;Experience Replay&lt;/a&gt; とは異なり、探索木に保存された観測をそのまま再利用して同じ探索経路を辿るための仕組みである。&lt;/p&gt;
&lt;h3&gt;
  
  
  Expansion（展開）
&lt;/h3&gt;

&lt;p&gt;選ばれたノード
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;sts_{t}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
から、
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;nn&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;n&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
個の子ノードを
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;θ\theta &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;θ&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
のパラメータを持つモデルからサンプリングして生成する。その後、実環境から観測
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;oto_{t}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;o&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
を得る。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;at(i)∼pθ(St),St+1=Env(St,at)
a_t^{(i)} \sim p_{\theta}(S_t), \quad S_{t+1} = \text{Env}(S_t, a_t)
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;a&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mopen mtight"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;span class="mclose mtight"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∼&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;θ&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;S&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;S&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;Env&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;S&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;a&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;h3&gt;
  
  
  Evaluation（評価）
&lt;/h3&gt;

&lt;p&gt;新しく展開されたノードの状態価値(スカラー量)をLLMによって評価する。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;V(s)=λ⋅LM(s)+(1−λ)⋅SC(s)
V(s) = \lambda \cdot \mathrm{LM}(s) + (1-\lambda)\cdot \mathrm{SC}(s)
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;V&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;λ&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;⋅&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathrm"&gt;LM&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;+&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;1&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;−&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;λ&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;⋅&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathrm"&gt;SC&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;ここで SC(s) は Self-Consistency を指す。 従来の ToT[&lt;a href="https://proceedings.neurips.cc/paper/2023/hash/271db9922b8d1f4dd7aaef84ed5ac703-Abstract.html" rel="noopener noreferrer"&gt;Yao2023&lt;/a&gt;] が多段推論（reasoning）のみを評価していたのに対し、LATSは行動(acting)による外部環境観測を得た後に評価を行う。これにより、コードの実行エラーやウェブ検索の結果に基づいた、より正確な価値判断が可能になる。&lt;/p&gt;

&lt;h3&gt;
  
  
  Simulation (予測)
&lt;/h3&gt;

&lt;p&gt;ここではLLMにより「現状態を起点に進んだ場合、最終的にどれくらい良い結果になりそうか」を予測する。LLMが予測するのは実際に得られた報酬
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;R(ht)R(h_t)&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;R&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
ではなく近似的な評価であり、後続の Backpropagation で探索木全体の意思決定を導くために用いられる。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;R^(ht)≈∑k=0Kγkr^t+k
\hat{R}(h_t)
\approx
\sum_{k=0}^{K} \gamma^k \hat{r}_{t+k}
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord accent"&gt;&lt;span class="vlist-t"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;R&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="accent-body"&gt;&lt;span class="mord"&gt;^&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;≈&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mop op-limits"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;k&lt;/span&gt;&lt;span class="mrel mtight"&gt;=&lt;/span&gt;&lt;span class="mord mtight"&gt;0&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="mop op-symbol large-op"&gt;∑&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;K&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;γ&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;k&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord accent"&gt;&lt;span class="vlist-t"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;r&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="accent-body"&gt;&lt;span class="mord"&gt;^&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;k&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;h3&gt;
  
  
  Backpropagation (木構造の統計量の更新)
&lt;/h3&gt;

&lt;p&gt;Backpropagation は、Simulation で得られた将来価値の推定結果を、探索木をさかのぼって各ノードに反映する段階である。これにより、どの思考や行動が有望だったかという情報が蓄積され、次の探索ではより良い分岐が選ばれやすくなる。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;V(ht)←N(ht) V(ht)+R^(ht)N(ht)+1
V(h_t) \leftarrow
\frac{N(h_t)\,V(h_t) + \hat{R}(h_t)}{N(h_t) + 1}
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;V&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;←&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mopen nulldelimiter"&gt;&lt;/span&gt;&lt;span class="mfrac"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;N&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;+&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="frac-line"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;N&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;V&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;+&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord accent"&gt;&lt;span class="vlist-t"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;R&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="accent-body"&gt;&lt;span class="mord"&gt;^&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose nulldelimiter"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;



&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;N(ht)←N(ht)+1
N(h_t) \leftarrow N(h_t) + 1
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;N&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;←&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;N&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;+&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;h3&gt;
  
  
  Reflection
&lt;/h3&gt;

&lt;p&gt;Reflection は、これまでの思考や行動を振り返り、誤りや改善点を言語モデル自身に指摘させ、次回以降の思考方針や生成プロセス（Expansion / Simulation）を修正する段階である。&lt;br&gt;
これは Backpropagation のような数値的な価値更新とは異なり、推論の仕方そのものに作用するメタレベルの更新である。推論の質を改善することで、同じ誤った思考パターンを繰り返さない探索を可能にする。&lt;/p&gt;

&lt;h3&gt;
  
  
  効果まとめ
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;&lt;p&gt;一般性: 明示的な環境モデルや報酬設計を必要とせず、言語モデルの生成・評価能力をそのまま探索と価値推定に利用できるため、推論タスクから対話型タスクまで幅広く適用できる。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;探索効率: 実環境との相互作用を最小限に抑えつつ、木探索と価値バックアップによって有望な思考経路に計算資源を集中できる。&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;柔軟性: 状態やツリー構造を設計することで様々な環境に適用することができる。&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;h3&gt;
  
  
  実験条件
&lt;/h3&gt;

&lt;p&gt;以下の検証を目的とした実験を行った&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; 探索（exploration）と活用（exploitation）のバランスを LLM で実現できるか&lt;/li&gt;
&lt;li&gt; 環境観測を伴う状況で、推論の精度・安定性が向上するか&lt;/li&gt;
&lt;li&gt; Tree-of-Thoughts（ToT）など既存手法の限界を克服できるか&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;メトリクスは正答率・成功率、タスク達成率、試行間の性能安定性である。&lt;/p&gt;

&lt;h3&gt;
  
  
  実験結果
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F9pz2gk1vjmc1pbhmc911.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F9pz2gk1vjmc1pbhmc911.png" alt="tb4tb5"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;表４，５が示すようにLATSは両方のデータセットでSOTAである。特に 長期的な推論や分岐選択が重要なタスクで改善幅が大きい。ToT は「静的な思考探索」に留まるのに対し、&lt;br&gt;
LATS は「環境観測＋価値バックアップ」により 動的な意思決定が可能という構造的な優位性が、実験結果として裏付けられたと解釈できる。&lt;/p&gt;

&lt;p&gt;環境観測を取り入れることで、誤った思考分岐を早期に修正できることがわかる。さらに、Reflection を導入することで、同一の失敗パターンを繰り返す頻度が低下した。&lt;/p&gt;

&lt;p&gt;これらの結果は、LLM を単なる一発推論器として使うのではなく、探索・評価・反省のループに組み込むことで、強化学習的な振る舞いを推論時のみで実現できることを示唆している。&lt;/p&gt;

</description>
      <category>algorithms</category>
      <category>openai</category>
      <category>machinelearning</category>
    </item>
    <item>
      <title>Enhancing Domain-Specific Knowledge Graph Reasoning via Metapath-Based Large Model Prompt Learning</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Sun, 17 Aug 2025 13:50:00 +0000</pubDate>
      <link>https://forem.com/tutti/enhancing-domain-specific-knowledge-graph-reasoning-via-metapath-based-large-model-prompt-learning-4cog</link>
      <guid>https://forem.com/tutti/enhancing-domain-specific-knowledge-graph-reasoning-via-metapath-based-large-model-prompt-learning-4cog</guid>
      <description>&lt;h2&gt;
  
  
  選定理由&amp;amp;所感
&lt;/h2&gt;

&lt;p&gt;中国の国防科技大学の研究、MDPI2025&lt;/p&gt;

&lt;p&gt;Paper: &lt;a href="https://www.mdpi.com/2079-9292/14/5/1012" rel="noopener noreferrer"&gt;https://www.mdpi.com/2079-9292/14/5/1012&lt;/a&gt;&lt;br&gt;
Code: N/A&lt;/p&gt;

&lt;p&gt;国防でこの技術をつかうのだろうか。&lt;/p&gt;
&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
産業・医療・金融などの複雑な専門知識（ビジネスドメイン知識）を必要とする場面での意思決定支援においては自動化が不足し以前として人手による人海戦術が多い。&lt;/p&gt;

&lt;p&gt;【技術課題】&lt;br&gt;
現状のLLMは学習に使用しているテキストが構造化されていないデータのため、複雑な論理ステップを必要とする事実検証や&lt;a href="https://scrapbox.io/evergreens/%E3%83%9E%E3%83%AB%E3%83%81%E3%83%9B%E3%83%83%E3%83%97%E6%8E%A8%E8%AB%96" rel="noopener noreferrer"&gt;マルチホップ推論&lt;/a&gt;では不十分な性能である。一方で知識グラフは構造の複雑さやタスクに対する不確定さを内包するため両者をそのまま組み合わせても、精度と解釈性の両立が難しい。&lt;/p&gt;

&lt;p&gt;【提案】&lt;br&gt;
DKGM-path（Domain Knowledge Graph Metapath Prompting）を提案：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; KG内のMetapath（概念間の意味的経路）を抽出し、LLMにプロンプトとして与える。&lt;/li&gt;
&lt;li&gt; LLMが推論経路を言語的に計画 → KGから事実を検証 → 推論を反復的に精緻化。&lt;/li&gt;
&lt;li&gt; このプロセスにより、意味理解・構造把握・事実検証を融合。&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;【効果】&lt;br&gt;
LLMが単独で行うよりも一貫性・正確性・解釈可能性が改善し、特に複雑なドメイン知識に対するマルチホップ推論精度が大幅に向上した。プロンプト学習による汎用性もあり、他分野への適応が容易である。&lt;/p&gt;
&lt;h2&gt;
  
  
  Domain Knowledge Graph Metapath Prompting
&lt;/h2&gt;
&lt;h3&gt;
  
  
  Case Study
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fxh90r240qhsdp9oyyh8u.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fxh90r240qhsdp9oyyh8u.png" alt="fig4" width="800" height="508"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;一般的な解説部分は分かりづらいので4.2.5節のWebQSPデータの例で説明する。&lt;/p&gt;
&lt;h4&gt;
  
  
  ステップ1：MetaPathの生成
&lt;/h4&gt;

&lt;p&gt;質問「iPodはどのOSと互換性がありますか？」のMetaPathとしてLLMのゼロショットで出力した例は以下である：&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight nginx"&gt;&lt;code&gt;&lt;span class="k"&gt;iPod&lt;/span&gt; &lt;span class="s"&gt;→&lt;/span&gt; &lt;span class="s"&gt;compatible_oses&lt;/span&gt; &lt;span class="s"&gt;→&lt;/span&gt; &lt;span class="s"&gt;Mac&lt;/span&gt; &lt;span class="s"&gt;OS&lt;/span&gt; &lt;span class="s"&gt;→&lt;/span&gt; &lt;span class="s"&gt;developer&lt;/span&gt; &lt;span class="s"&gt;→&lt;/span&gt; &lt;span class="s"&gt;Apple&lt;/span&gt; &lt;span class="s"&gt;Inc.&lt;/span&gt; &lt;span class="s"&gt;→&lt;/span&gt; &lt;span class="s"&gt;name&lt;/span&gt; &lt;span class="s"&gt;→&lt;/span&gt; &lt;span class="s"&gt;"Apple&lt;/span&gt; &lt;span class="s"&gt;Inc."&lt;/span&gt;
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h4&gt;
  
  
  ステップ2：初期ノードの確定と隣接ノードの取得
&lt;/h4&gt;

&lt;p&gt;MetaPathに基づいて 初期エンティティ iPod（ID：/m/02hrh0）を知識グラフから取得。そこから知識グラフ上の隣接関係にあるノードを取得し次のステップ候補とする(スターサンプリング)。&lt;/p&gt;

&lt;h4&gt;
  
  
  ステップ3：反復的な推論とプロンプト更新
&lt;/h4&gt;

&lt;p&gt;隣接ノード集合それぞれに対し、MetaPathで指定された関係性（例：/computer/hardware_device/compatible_oses）をLLMに判断させる。その後、隣接ノードへ移動し、そのノードの隣接ノード集合を取得しながら、グラフの局所情報をLLMへ入力しLLMが経路選択を行う。これを繰り返し、質問に答えるのに必要なノードに到達するまで続ける。&lt;/p&gt;

&lt;h4&gt;
  
  
  ステップ4：最終回答の生成
&lt;/h4&gt;

&lt;p&gt;経路が確定し「答えに到達した」とLLMが判断した時点で、経由したエンティティ全体をまとめてLLMに最終プロンプトとして入力する。その結果が「Apple Inc.」として出力される。&lt;/p&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;h3&gt;
  
  
  使用データセット一覧
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;データセット名&lt;/th&gt;
&lt;th&gt;種別&lt;/th&gt;
&lt;th&gt;質問数&lt;/th&gt;
&lt;th&gt;学習&lt;/th&gt;
&lt;th&gt;テスト&lt;/th&gt;
&lt;th&gt;特徴&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;WebQSP&lt;/td&gt;
&lt;td&gt;QA&lt;/td&gt;
&lt;td&gt;4,737&lt;/td&gt;
&lt;td&gt;3,780&lt;/td&gt;
&lt;td&gt;957&lt;/td&gt;
&lt;td&gt;意味解析付き、知識ベースQA向け、SPARQL付き&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;CWQ&lt;/td&gt;
&lt;td&gt;QA&lt;/td&gt;
&lt;td&gt;34,689&lt;/td&gt;
&lt;td&gt;27,734&lt;/td&gt;
&lt;td&gt;3,475&lt;/td&gt;
&lt;td&gt;複雑な構造、多段階推論（論理演算・比較・上位語など）&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Hotpot-QA&lt;/td&gt;
&lt;td&gt;Multi-Hop QA&lt;/td&gt;
&lt;td&gt;約100,000&lt;/td&gt;
&lt;td&gt;不明&lt;/td&gt;
&lt;td&gt;不明&lt;/td&gt;
&lt;td&gt;橋渡し型/比較型、複数文書を統合して回答&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;MuSiQUE&lt;/td&gt;
&lt;td&gt;Multi-Hop QA&lt;/td&gt;
&lt;td&gt;約25,000&lt;/td&gt;
&lt;td&gt;不明&lt;/td&gt;
&lt;td&gt;不明&lt;/td&gt;
&lt;td&gt;2～4ステップ推論、中間質問・回答あり、文単位アノテーションなし&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h4&gt;
  
  
  実験結果(QA)
&lt;/h4&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fey3ivne2ixm48cabh5ea.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fey3ivne2ixm48cabh5ea.png" alt="tb2" width="800" height="310"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;QAデータセットでの従来手法との比較は表２であり、提案手法がSOTAであることがわかる。又、追加実験で Mediacalqa という医療ドメインでの評価実験でもSOTAであり、汎化性能が高いことがわかる（表は省略した）。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fec6tcmtzxqxv1qsymajb.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fec6tcmtzxqxv1qsymajb.png" alt="tb3" width="800" height="173"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Llama-2のゼロショットでの回答をベースラインとした比較を行った結果が表３である。どのデータセットでも改善効果があり、p&amp;lt;0.05とした有意差検定でも帰無仮説は棄却された。&lt;/p&gt;

&lt;h4&gt;
  
  
  実験結果(MultiHop-QA)
&lt;/h4&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fqsoithclf9jg2yzq6mml.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fqsoithclf9jg2yzq6mml.png" alt="tb5" width="800" height="181"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;次にマルチホップQAデータセットでの実験結果が表５であり、こちらでも多くの項目で性能が高い。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fde2p7faer9gv8sgv5bpp.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fde2p7faer9gv8sgv5bpp.png" alt="fig3" width="800" height="457"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;必要なホップ数を変えたデータでの比較実験が図３である。DKGM-pathは4-hopのような長い推論過程が必要な場合に強いことが示されており、meta-Pathによる事前経路探索の効果であることがわかる。&lt;/p&gt;

&lt;h3&gt;
  
  
  要素除去実験(アブレーションスタディ)
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frgwaev6cuq4w50i3r0u2.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frgwaev6cuq4w50i3r0u2.png" alt="tb6" width="800" height="219"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;MPC（Metapathの構築）は推論経路の事前初期化を行う処理であるが、関連エンティティの特定に重要な役割を果たしているため、除去すると最も大きく性能が低下した。IV（反復的検証）はステップごとに経路の妥当性を検証・洗練しており、複雑なマルチホップ推論でのハルシネーションの抑止に重要。最後にPRC（事後検証）の役割は最終回答に対する事実整合性と信頼性の評価であるため、除去しても精度は比較的保たれていた。&lt;/p&gt;

&lt;h3&gt;
  
  
  プロンプト最適化手法としての比較
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8ymx2d5tkbekr20k05fb.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8ymx2d5tkbekr20k05fb.png" alt="tb7" width="800" height="247"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Direct Prompting(通常のプロンプト), Chain of Thought, One-step Retrievalなどの従来手法と比較してもマルチホップ推論のデータセットで高精度であることがわかる。&lt;/p&gt;

</description>
      <category>rag</category>
      <category>openai</category>
    </item>
    <item>
      <title>survey: Prompting Large Language Models for Counterfactual Generation: An Empirical Study</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Sat, 12 Jul 2025 00:59:10 +0000</pubDate>
      <link>https://forem.com/tutti/survey-prompting-large-language-models-for-counterfactual-generation-an-empirical-study-4fpk</link>
      <guid>https://forem.com/tutti/survey-prompting-large-language-models-for-counterfactual-generation-an-empirical-study-4fpk</guid>
      <description>&lt;h2&gt;
  
  
  選定理由
&lt;/h2&gt;

&lt;p&gt;ACL2024採択、Wuhan Universityの研究。LLM + Causal Inference、反事実のデータを生成するタスクは生成AIは強そう。&lt;/p&gt;

&lt;p&gt;Paper: &lt;a href="https://aclanthology.org/2024.lrec-main.1156/" rel="noopener noreferrer"&gt;https://aclanthology.org/2024.lrec-main.1156/&lt;/a&gt;&lt;br&gt;
Code: N/A&lt;/p&gt;

&lt;p&gt;empirical study なのでプロンプトエンジニアリングによる反事実の生成に対して基礎的な評価をした内容&lt;/p&gt;

&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
事実と反する文章(反事実)が生成できれば異なる条件下でのAIの予測変化を理解できるようになり、AIの意思決定の説明責任やバイアス・ハルシネーションの検出に役立てることができる。一方で、LLMを用いて反事実を生成する際の条件として以下が求められる：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; 一貫性: 現実のシナリオと矛盾しないこと&lt;/li&gt;
&lt;li&gt; 関連性: 特定の問題や文脈に適切に関連していること&lt;/li&gt;
&lt;li&gt; 創造性: 新たにシナリオを創造すること。なお一貫性と相反するためバランスが重要&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;【技術課題】&lt;br&gt;
&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fs9ia57kqwmd7wv78c9ge.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fs9ia57kqwmd7wv78c9ge.png" alt="fig.1" width="608" height="447"&gt;&lt;/a&gt;&lt;br&gt;
感情分析などのタスクでは、モデルが本質的に関係のない文脈語(context words)に頼ってラベルを予測してしまうことがある。これはアノテーションバイアス(=交絡因子)により、文脈語とラベルの間に疑似相関が生じるためである。この問題を解決するには、文脈語を固定し、因果語(causal words)だけを操作してラベルを反転させた反事実文を生成・追加することで、モデルが本当に重要な語（因果語）に基づいて学習するように誘導する必要がある。&lt;/p&gt;

&lt;p&gt;【提案・評価】&lt;br&gt;
プロンプト: どのようなプロンプトが反事実生成に効果的かを実証的に調査&lt;br&gt;
様々なモデルと比較: LLMがどの程度の精度で反事実を生成できるか、先行技術やモデル間で比較&lt;br&gt;
データセットの応用: 反事実生成に適したデータセットを活用し、モデルの能力を実際のタスクで評価&lt;br&gt;
　&lt;br&gt;
【結果】&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; AIの公平性と透明性の向上: より正確で一貫性のある反事実生成を通じて、AIの意思決定プロセスが明確化され、説明責任が強化。これは特にAIの倫理性に重要&lt;/li&gt;
&lt;li&gt; プロンプト最適化: 反事実の生成品質が向上&lt;/li&gt;
&lt;li&gt; 将来の研究の基盤形成: 反事実生成に関する知見を深める&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  LLM for Counterfactual Generation
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F9fpbq0mzj9qjqxngb3n3.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F9fpbq0mzj9qjqxngb3n3.png" alt="fig2" width="800" height="390"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図2に示されているように、提案する評価フレームワークは、以下の3つのステップから構成される：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; S1（因果語の識別）：文中の因果的な語（causal words）と文脈的な語（context words）を分離&lt;/li&gt;
&lt;li&gt; S2（ラベル制御付きのテキスト補完）：文脈語を変更せずに、因果語を変えることでサンプルのラベルを変更&lt;/li&gt;
&lt;li&gt; S3（反事実データの拡張）：元のサンプルと反事実サンプルを組み合わせて、学習用のデータセットを構築&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;S1とS2はLLMへのプロンプトエンジニアリングによって実施され、S3で得られたデータは感情分析(Sentiment Analysis)などの一般的な自然言語理解(NLU)タスクを実行するバックボーンモデルの学習に用いる。&lt;/p&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;h3&gt;
  
  
  実験条件、結果概要
&lt;/h3&gt;

&lt;p&gt;反事実データ（ラベルだけ異なる文）を自動生成できるか、又、生成された反事実データが小型モデル（SLM）の学習に有効かどうか、を検証した。タスクは以下を使用。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; SA（Sentiment Analysis）：感情分類（positive/negative）&lt;/li&gt;
&lt;li&gt; NLI（Natural Language Inference）：前提と仮説の関係（entailment/contradiction/neutral）&lt;/li&gt;
&lt;li&gt; NER（Named Entity Recognition）：固有表現抽出（人物、組織など）&lt;/li&gt;
&lt;li&gt; RE（Relation Extraction）：エンティティ間の関係分類（e.g., employee_of）&lt;/li&gt;
&lt;/ul&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;タスク&lt;/th&gt;
&lt;th&gt;LLMによる反事実生成の成功率&lt;/th&gt;
&lt;th&gt;反事実データ追加によるSLMの性能変化&lt;/th&gt;
&lt;th&gt;備考&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;SA（感情分析）&lt;/td&gt;
&lt;td&gt;高い（因果語が明確）&lt;/td&gt;
&lt;td&gt;精度が &lt;strong&gt;向上&lt;/strong&gt;
&lt;/td&gt;
&lt;td&gt;効果が大きく、文の自然さも高い&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;NLI（自然言語含意）&lt;/td&gt;
&lt;td&gt;中程度&lt;/td&gt;
&lt;td&gt;精度が &lt;strong&gt;やや向上&lt;/strong&gt;
&lt;/td&gt;
&lt;td&gt;曖昧な文では誤りもあり&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;NER（固有表現抽出）&lt;/td&gt;
&lt;td&gt;低い（置換が困難）&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;ほぼ効果なし&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;固有名の不自然な書き換えが多い&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;RE（関係抽出）&lt;/td&gt;
&lt;td&gt;非常に低い&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;逆効果の場合あり&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;複雑な関係性を正しく反転できない&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;ul&gt;
&lt;li&gt; GPT-3.5は簡単なラベル（SAやNLI）には強いが、構造や知識が必要なタスク（NERやRE）には弱い。&lt;/li&gt;
&lt;li&gt; CoT（Chain-of-Thought）は反事実生成にはほぼ効果なし。&lt;/li&gt;
&lt;li&gt; 正しいラベルに到達しても、文として不自然な場合も多い。&lt;/li&gt;
&lt;li&gt; 小規模モデルは、質の悪い反事実データを入れるとかえって性能が下がる。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  結果詳細
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fybkho9i2chhev1i0crrh.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fybkho9i2chhev1i0crrh.png" alt="fig3" width="800" height="390"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図３は様々なタスクでのfew-shot数を変えた場合の精度比較であり、NERとREではSLMの方がfew-shot数が多い場合に有利である。これはfew-shot数が増えるとLLMが長文理解に弱い点が影響してしまい、SLMのfinetuningに比べると学習されにくい点が原因と思われる。ただしこれは反事実生成に限った話で、[&lt;a href="https://dev.to/tutti/gpt-ner-named-entity-recognition-via-large-language-models-3d86"&gt;Wang2023&lt;/a&gt;]ではfew-shotの数に応じて性能向上が見られる。反事実生成は「多段階の意味操作と構造操作」を含むタスクであり、LLMが例の一般化に失敗しやすいためと考えられる。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff09mhtichbspw8r4x7sh.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ff09mhtichbspw8r4x7sh.png" alt="fig4" width="605" height="356"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図４は反事実生成によりどれぐらい精度向上したかを示す。few-shot数の増加で改善しないタスクほど改善が悪い傾向があった。&lt;/p&gt;

</description>
      <category>openai</category>
    </item>
    <item>
      <title>Towards Lifelong Dialogue Agents via Timeline-based Memory Management</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Mon, 23 Jun 2025 13:40:16 +0000</pubDate>
      <link>https://forem.com/tutti/towards-lifelong-dialogue-agents-via-timeline-based-memory-management-4132</link>
      <guid>https://forem.com/tutti/towards-lifelong-dialogue-agents-via-timeline-based-memory-management-4132</guid>
      <description>&lt;h2&gt;
  
  
  選定理由
&lt;/h2&gt;

&lt;p&gt;対話内容を因果関係を考慮したタイムライン形式でまとめる点が興味深い。ソウル大・延世大の共同研究&lt;/p&gt;

&lt;p&gt;Paper: &lt;a href="https://arxiv.org/abs/2406.10996" rel="noopener noreferrer"&gt;https://arxiv.org/abs/2406.10996&lt;/a&gt;&lt;br&gt;
Code: N/A&lt;/p&gt;

&lt;p&gt;Agentic RAG の記憶の管理方法を工夫することで改善する。グラフで記憶を管理する研究は割と昔からあるが、対話履歴をノードとしてグラフ化し、因果・類似関係を動的にリンクする点あたりは新しい。&lt;/p&gt;
&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
高齢者支援・教育・メンタルケアなど文脈に応じたパーソナライズが不可欠な領域では、人とAIの長期的な対話が求められている。&lt;/p&gt;

&lt;p&gt;【技術課題】&lt;br&gt;
エージェントが対話を記憶する時は、将来的にどの情報が重要かを判断する必要がある。又、記憶活用時は、どの記憶を活用するのか良いか選択する必要がある(図１)。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frbm0vkmrt10ukr226evw.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Frbm0vkmrt10ukr226evw.png" alt="fig1"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;従来は記憶は単純なリスト構造であり、過去の発話の背後にある意味的なつながりや因果構造が考慮されていない。&lt;/p&gt;

&lt;p&gt;【提案】&lt;br&gt;
以下の3フェーズから成る記憶管理フレームワーク THEANINE を提案した。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; 記憶グラフ：対話の各発話をノードとして保存し、因果関係でリンクを張る。&lt;/li&gt;
&lt;li&gt; タイムライン抽出：質問文に関連する過去の出来事を因果順・時間順に再構成。&lt;/li&gt;
&lt;li&gt; 応答生成：そのタイムラインをもとに、文脈を踏まえた応答をLLMで生成。&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;【効果】&lt;br&gt;
応答の一貫性・文脈理解・情報正確性が人手と自動評価においてSOTA。新しい評価法 TeaFarm（反事実QA）を用いた結果、THEANINEは長期記憶の利用度が高いことがわかった。&lt;/p&gt;
&lt;h2&gt;
  
  
  THEANINE
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fdyjz9yca1j8lw840fqqx.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fdyjz9yca1j8lw840fqqx.png" alt="fig2"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;THEANINEの概略図が図２であり、フェーズ１〜３まである。&lt;/p&gt;
&lt;h3&gt;
  
  
  Phase I: Memory Graph Construction
&lt;/h3&gt;

&lt;p&gt;まず対話履歴の各発話を「記憶ノード」として保存する。&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;例：ユーザー「私はかつてクルーズ船でひどい酔いをした。以来、船が怖い。」→ 1つの記憶ノードにまとまる&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;次にノード間に関係性（前後関係、影響関係など）のエッジを構築。これにより、記憶間の意味的関連を明示化する。図３に示すように接続候補のノード(オレンジ色)が記憶ノードが持つテキストの類似性に基づき選ばれる。エッジの関係性を図３下に示す。単純な時間的前後関係はコンテキスト性がなく悪影響を持つため除外している。&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;例：ユーザーが「クルーズ船が怖い」と言った後、「旅行したい」と言えば、因果的につながる。&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F7hgxu9isqg5ksywqirzi.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F7hgxu9isqg5ksywqirzi.png" alt="fig3"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ffa9ts1ih7m8ckce8ze6q.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ffa9ts1ih7m8ckce8ze6q.png" alt="app.b1"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;詳細なアルゴリズムは以下である。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8dg44p6v9297hgrvu4j3.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8dg44p6v9297hgrvu4j3.png" alt="al1"&gt;&lt;/a&gt;&lt;/p&gt;
&lt;h3&gt;
  
  
  Phase II: Timeline Retrieval &amp;amp; Refinement
&lt;/h3&gt;

&lt;p&gt;ユーザーの質問に対して、関連する記憶ノードをグラフからTop-Kで取得。取得したノード

&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;mrem_{re}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;m&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;re&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
と接続しているノード集合の中で最も timestamp が古いノード
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;mstartm_{start}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;m&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;s&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;a&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;r&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
を取得する(以下式)。ここで、
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;Θ\Theta&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;Θ&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
は最も古い timestamp のノードを取り出す関数、
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;VV&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;V&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
は引数を含む頂点集合を取得する関数である。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;mstart=Θ(V(Cre))
m_{\text{start}} = \Theta(V(C_{\text{re}}))
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;m&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord text mtight"&gt;&lt;span class="mord mtight"&gt;start&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;Θ&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;V&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;C&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord text mtight"&gt;&lt;span class="mord mtight"&gt;re&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;))&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;mstartm_{start}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;m&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;s&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;a&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;r&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
を起点として
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;mrem_{re}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;m&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;re&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
を通るパスを
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;nn&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;n&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
個サンプリングし、タイムライン候補(Raw Memory Timeline)として扱う。このパスの中から不要な情報を削ぎ落とし、必要な関係性のみを強調して整えたものの中で最も確率的に高いものをLLMに生成してもらう。（以下式）&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;TΦ={arg max⁡τΦPLLM(τΦ∣D,τ)  ∣∣  τ∈T}
\text{T}{\Phi} = \lbrace \argmax{\tau_{\Phi}} P_{\text{LLM}}(\tau_{\Phi} \mid D, \tau) \;\mid |\; \tau \in \text{T} \rbrace
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;T&lt;/span&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;Φ&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mopen"&gt;{&lt;/span&gt;&lt;span class="mop"&gt;&lt;span class="mord mathrm"&gt;arg&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathrm"&gt;max&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;τ&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mtight"&gt;Φ&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;P&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord text mtight"&gt;&lt;span class="mord mtight"&gt;LLM&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;τ&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mtight"&gt;Φ&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∣&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;D&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;τ&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∣&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;∣&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;τ&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∈&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;T&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;}&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F96iv1y1knbmi9zjgyvua.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F96iv1y1knbmi9zjgyvua.png" alt="fig4"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;詳細なアルゴリズムは以下である。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fpmilv0q60xxwpuff5q2i.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fpmilv0q60xxwpuff5q2i.png" alt="al2"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Phase III: Timeline-Augmented Generation
&lt;/h3&gt;

&lt;p&gt;ユーザーの質問とその前提文脈（＝タイムライン）に基づいて、応答を生成する。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;un+1ˉ=arg max⁡un+1PLLM(un+1∣D,TΦ)
\bar{u_{n+1}} = \argmax_{u_{n+1}} P_{\text{LLM}}(u_{n+1} \mid D, T_{\Phi})
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord accent"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;u&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;n&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="accent-body"&gt;&lt;span class="mord"&gt;ˉ&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mop op-limits"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;u&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size3 size1 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;n&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="mop"&gt;&lt;span class="mord mathrm"&gt;arg&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathrm"&gt;max&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;P&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord text mtight"&gt;&lt;span class="mord mtight"&gt;LLM&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;u&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;n&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∣&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;D&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;T&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mtight"&gt;Φ&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;h3&gt;
  
  
  実験条件
&lt;/h3&gt;

&lt;p&gt;データセット：&lt;a href="https://aclanthology.org/2022.acl-long.356/" rel="noopener noreferrer"&gt;Multi-session Chat (MSC)&lt;/a&gt;, Conversation Chronicles (CC)&lt;br&gt;
ベースライン手法: Memory Retrieval, Memory Update, RSum-LLM, MemoChat, COMEDY&lt;br&gt;
評価方法とメトリクス: 自動評価(Bleu-4, Rouge-L, Mauve, BertScore)、G-Eval(Coherence, Fact Recall, Causality), 主観評価(Helpfulness of Retrieved Memories)&lt;br&gt;
言語モデル: GPT-3.5, GPT-4&lt;/p&gt;

&lt;h3&gt;
  
  
  検証１
&lt;/h3&gt;

&lt;p&gt;THEANINEの有効性を検証するために、自動評価（GPT-4）と主観評価の両方で、応答の品質・記憶の適切さ・一貫性などを比較分析した。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1xw1co1glixcvl1ar5mi.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F1xw1co1glixcvl1ar5mi.png" alt="tb1"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;表１は応答生成の自動評価と主観評価であり、THEANINEは総じて性能が高い。特筆すべきは Memory Updateを行うと性能ダウンしている点で、記憶更新をしないTHEANINEの有効である根拠となりうる。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhb07d11n599x8ywbjw0j.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhb07d11n599x8ywbjw0j.png" alt="tb2"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;表２は表１のアブレーションスタディである。relation-aware linking &amp;gt; retrieving timeline as a whole &amp;gt; timeline re-finementの順に効果が大きいことがわかる。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fr2y6p2gpcf9tfiml79z6.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fr2y6p2gpcf9tfiml79z6.png" alt="tb3"&gt;&lt;/a&gt;&lt;br&gt;
&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8u773dc61nzam6wdxlqf.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F8u773dc61nzam6wdxlqf.png" alt="fig6"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;表３は回収した記憶が有効な情報を持っていたかどうかの人間による判定であり、図６は過去の会話が現在の対話に対して筋が通っているかどうかの判定である。&lt;/p&gt;

&lt;h3&gt;
  
  
  検証２
&lt;/h3&gt;

&lt;p&gt;G-Evalによる自動評価は評価LLMの性能に依存する面が強い。そこで、反事実の文章を入力して、その事実に反する過去の記憶を回収できるか評価する TeaFarm という独自評価手法を導入した。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fy2ov65eg152tpbetug1r.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fy2ov65eg152tpbetug1r.png" alt="fig8"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図８は生成した反事実の文章例である。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhkni4g4j57o7339hl4s3.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhkni4g4j57o7339hl4s3.png" alt="tb4"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;表４では各手法の成功率（Success Rate, SR）が示されており、THEANINEは全体として他のベースライン手法よりも高い成功率を記録した。特にCCデータセットにおいてはTHEANINEが最も優れた成績を示している。全体的に各手法の成功率が低めであり、TeaFarmが長期的な記憶管理を必要とする厳しい評価設定であることが示されている。興味深い点として、Retrieverを使用する手法（THEANINEや一部ベースライン）は、Retrieverを用いずにLLM単体で記憶を保持・活用する手法（RSum-LLM、MemoChat、COMEDYなど）よりも高い成績を示しており、大規模言語モデルの時代においても「外部記憶を構造的に扱う」アプローチが依然として有効であることが示唆されている。&lt;/p&gt;

&lt;p&gt;また、アブレーションスタディでは元のTHEANINEよりわずかに劣る結果となっており、各構成要素が性能向上に寄与していることが裏付けられている。&lt;/p&gt;

</description>
      <category>rag</category>
      <category>openai</category>
    </item>
    <item>
      <title>Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Wed, 18 Jun 2025 08:24:21 +0000</pubDate>
      <link>https://forem.com/tutti/uncertainty-of-thoughts-uncertainty-aware-planning-enhances-information-seeking-in-large-language-47i8</link>
      <guid>https://forem.com/tutti/uncertainty-of-thoughts-uncertainty-aware-planning-enhances-information-seeking-in-large-language-47i8</guid>
      <description>&lt;h2&gt;
  
  
  選定理由&amp;amp;所感
&lt;/h2&gt;

&lt;p&gt;NUS, NTU, UCL Yaleなどいろんな大学の共同研究、NIPS2024 Accepted。&lt;/p&gt;

&lt;p&gt;Paper: &lt;a href="https://openreview.net/forum?id=CVpuVe1N22&amp;amp;noteId=aTI8PGpO47" rel="noopener noreferrer"&gt;https://openreview.net/forum?id=CVpuVe1N22&amp;amp;noteId=aTI8PGpO47&lt;/a&gt;&lt;br&gt;
Code: &lt;a href="https://github.com/zhiyuanhubj/UoT" rel="noopener noreferrer"&gt;https://github.com/zhiyuanhubj/UoT&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;LLMの推論の不確実性を定式化した初の手法という点は革新的。&lt;/p&gt;
&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
医療診断・技術サポート・教育・FAQなどの実社会における意思決定支援では正確な判断を下すために適切な情報を能動的に取得する必要がある(対話的情報探索タスク:図１)が、現在のLLMは「何を知らないか」「何を聞くべきか」を自律的に判断する能力が弱い。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F35prq7bhzf1k48oubnmj.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F35prq7bhzf1k48oubnmj.png" alt="fig１"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;【技術課題】&lt;br&gt;
LLMは情報検索ができず、情報を取得するためのプロンプト設計や計画ができない。又、自らの推論の不確実性を扱えないため、的はずれな回答を生成し情報探索の効率性が低い。従来の Direct Prompting や &lt;a href="https://arxiv.org/pdf/2506.08295" rel="noopener noreferrer"&gt;Passive Reasoning&lt;/a&gt; といった戦略性や先読みがないアプローチは未知情報の多いタスク（例：診断・20Q）に対し十分な性能を発揮できない。&lt;/p&gt;

&lt;p&gt;【提案】&lt;br&gt;
LLMの思考プロセスに「不確実性を意識した計画」を組み込み、効率的な情報取得のための質問選択を最適化するUoT（Uncertainty of Thoughts）を提案。&lt;/p&gt;

&lt;p&gt;【効果】&lt;br&gt;
情報収集が効率化され少ない対話で目的を達成できるようになった。LLM（GPT-3.5、GPT-4）を用いた複数タスクでは、従来手法に比べて 平均38.1%（最大57.8%）の成功率向上 を達成。又、医療診断・トラブルシューティング・20 Questionsなど多様な領域に応用でき、既存のLLMに統合することができる。&lt;/p&gt;
&lt;h2&gt;
  
  
  Uncertainty of Thoughts
&lt;/h2&gt;

&lt;p&gt;本研究では質問者（LLM）と回答者（人間）が対話を通じて、質問者がある未知の情報（例：病名）を特定するという&lt;strong&gt;対話的情報探索タスク&lt;/strong&gt;を扱う。全ての回答の集合を 

&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;ΩΩ&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;Ω&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 とし、その中のたった1つの要素 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;ω∈Ωω∈Ω&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;ω&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∈&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;Ω&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 が正解とする。例えば医療診断では、
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;Ω=Ω=&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;Ω&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
{気管支炎,インフルエンザ,高血圧,…} のように病気の集合となり、
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;ωω&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;ω&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 が患者の本当の疾患である。最終的に正しい 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;ωω&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;ω&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 を特定するか、あるいは最大ターン数に達したら終了とする。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fdel31c4f0a4l10bm5xgb.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fdel31c4f0a4l10bm5xgb.png" alt="fig2"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;UoTは図２に示すように(a) Question Generation and Simulation, (b) Uncertainty-based Reward, (c) Reward Propagation の３要素から成る。&lt;/p&gt;
&lt;h3&gt;
  
  
  Question Generation and Simulation
&lt;/h3&gt;

&lt;p&gt;過去の質問と回答の履歴
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;hih_i&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
に基づいて、LLM を使って
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;mm&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;m&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
個の質問候補を生成する。質問は情報利得が高く、曖昧さが少ないものとなるようプロンプトで誘導する。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;qi1,qi2,…,qim=LLM(Promptgen(hi,Ωi))
q^1_i, q^2_i, \ldots, q^m_i = \text{LLM}(\text{Prompt}_{\text{gen}}(h_i, \Omega_i))
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;2&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="minner"&gt;…&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;m&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;LLM&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;Prompt&lt;/span&gt;&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord text mtight"&gt;&lt;span class="mord mtight"&gt;gen&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;Ω&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;))&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;各質問に対して、肯定・否定の応答を前提としたツリーを構築する。ツリー上の各ノードでは、履歴に応じて回答集合
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;ΩvΩ_v&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;Ω&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
を更新し、LLMによって将来の分岐をシミュレートする。その過程で得られる情報利得（エントロピー減少量）を計算し、最終的に最も期待値の高い質問を選択する。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;ΩvA,ΩvN=LLM(Promptans(hv,Ωv))
\Omega^A_v, \Omega^N_v = \text{LLM}(\text{Prompt}_{\text{ans}}(h_v, \Omega_v))
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;Ω&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;A&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;Ω&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;N&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;LLM&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;Prompt&lt;/span&gt;&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord text mtight"&gt;&lt;span class="mord mtight"&gt;ans&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;h&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;Ω&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;))&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;h3&gt;
  
  
  Uncertainty-based Reward
&lt;/h3&gt;

&lt;p&gt;回答の良し悪しを判断する情報利得(IG:Information Gain)は以下の式で定義される。ここで
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;pvAp^A_v&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;A&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
は回答が肯定的である場合の確率であり、本研究では
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;pvA=p(ΩvA)p(Ωv)p^A_v = \frac{p(\Omega^A_v)}{p(\Omega_v)}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;A&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mopen nulldelimiter"&gt;&lt;/span&gt;&lt;span class="mfrac"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;p&lt;/span&gt;&lt;span class="mopen mtight"&gt;(&lt;/span&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mtight"&gt;Ω&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size3 size1 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose mtight"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="frac-line"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;p&lt;/span&gt;&lt;span class="mopen mtight"&gt;(&lt;/span&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mtight"&gt;Ω&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size3 size1 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size3 size1 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;A&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose mtight"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose nulldelimiter"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
（回答数のカウントではなく、厳密には確率測度としての定義）&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;IGv(X)=−pvAlog⁡pvA−pvNlog⁡pvN
IG_v(X) = -p^A_v \log p^A_v - p^N_v \log p^N_v
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;I&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;G&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;X&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;−&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;A&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mop"&gt;lo&lt;span&gt;g&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;A&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;−&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;N&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mop"&gt;lo&lt;span&gt;g&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;N&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;バランスの良い質問が強調されるようなスケーリングを行うと最終的には以下の式になる。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;Ru(v)=fIGv(X):=−pvAlog⁡pvA−pvNlog⁡pvN1+λ−1∣pvA−pvN∣
R_u(v) = f_{IG_v}(X) := \frac{-p^A_v \log p^A_v - p^N_v \log p^N_v}{1 + \lambda^{-1} \left| p^A_v - p^N_v \right|}
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;R&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;u&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;v&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;f&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;I&lt;/span&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;G&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size3 size1 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;X&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;:=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mopen nulldelimiter"&gt;&lt;/span&gt;&lt;span class="mfrac"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;1&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;+&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;λ&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mtight"&gt;−&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="minner"&gt;&lt;span class="mopen delimcenter"&gt;∣&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;A&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;−&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;N&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose delimcenter"&gt;∣&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="frac-line"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;−&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;A&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mop"&gt;lo&lt;span&gt;g&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;A&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;−&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;N&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mop"&gt;lo&lt;span&gt;g&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;v&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;N&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose nulldelimiter"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;h3&gt;
  
  
  Reward Propagation
&lt;/h3&gt;

&lt;p&gt;1ステップの報酬（質問後すぐの情報利得）だけでは、長期的な予測ができず、適切な質問選択が困難になる。そこで、木全体にわたる報酬伝播（reward propagation）を導入する。再帰的にツリーの各ノードの期待報酬を計算し、報酬が最大になるような質問を選択する。&lt;/p&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;h3&gt;
  
  
  実験条件
&lt;/h3&gt;

&lt;p&gt;UoTが、対話的情報探索タスクにおいて優れているかを検証するために以下のタスク・データセットで実験を行った。&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;タスクカテゴリ&lt;/th&gt;
&lt;th&gt;説明&lt;/th&gt;
&lt;th&gt;使用データセット&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;診断系（Medical）&lt;/td&gt;
&lt;td&gt;症状から病名を推定&lt;/td&gt;
&lt;td&gt;MedQA, MedMCQA, PubMedQA&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;故障調査（Troubleshooting）&lt;/td&gt;
&lt;td&gt;問題の原因を対話的に特定&lt;/td&gt;
&lt;td&gt;Taskmaster&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;20 Questions ゲーム&lt;/td&gt;
&lt;td&gt;質問を重ねて物体や概念を当てる&lt;/td&gt;
&lt;td&gt;20Q benchmark&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;比較対象としては、Direct Prompting（DP）、および情報利得を利用するがツリー構造を持たない Entropy-based Search を選定。実験にはLLMとして GPT-3.5、GPT-4、Claude 2 を使用した。評価指標は以下である。&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指標&lt;/th&gt;
&lt;th&gt;内容&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;成功率&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;最終的な回答が正解かどうか&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;質問数（平均）&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;正解にたどり着くまでに必要な質問回数&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;&lt;strong&gt;情報利得効率&lt;/strong&gt;&lt;/td&gt;
&lt;td&gt;各質問がどれだけ不確実性（エントロピー）を減少させたか&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h3&gt;
  
  
  実験結果
&lt;/h3&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;モデル&lt;/th&gt;
&lt;th&gt;タスク&lt;/th&gt;
&lt;th&gt;成功率向上（UoT vs DP）&lt;/th&gt;
&lt;th&gt;質問数の効率性&lt;/th&gt;
&lt;th&gt;情報利得効率の向上&lt;/th&gt;
&lt;th&gt;備考&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GPT-4&lt;/td&gt;
&lt;td&gt;20 Questions&lt;/td&gt;
&lt;td&gt;+57.8%&lt;/td&gt;
&lt;td&gt;大幅に改善&lt;/td&gt;
&lt;td&gt;高い改善&lt;/td&gt;
&lt;td&gt;ツリーによる見通しが効果的&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-3.5&lt;/td&gt;
&lt;td&gt;Troubleshooting&lt;/td&gt;
&lt;td&gt;+38.1%&lt;/td&gt;
&lt;td&gt;改善&lt;/td&gt;
&lt;td&gt;明確な改善&lt;/td&gt;
&lt;td&gt;質問の的確性が向上&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;GPT-3.5&lt;/td&gt;
&lt;td&gt;Medical QA&lt;/td&gt;
&lt;td&gt;+34.2%&lt;/td&gt;
&lt;td&gt;改善&lt;/td&gt;
&lt;td&gt;中程度の改善&lt;/td&gt;
&lt;td&gt;関連症状に集中できる&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;p&gt;複数のデータセットにおいて明確な改善効果が見られた。不確定な要素が強いほどツリーによる改善効果が大きい。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F52mwq17h4n7n6avv2pvp.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F52mwq17h4n7n6avv2pvp.png" alt="fig3"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図３は具体的な対話の一例である。UoTでは例えば「腹痛」といった初期情報を得た後、一般的な質問ではなく関連する具体的な問題に焦点を当てた質問を生成する。結果、過度に特定的な質問を避けつつ、的確な情報収集が可能になる。&lt;/p&gt;

&lt;h3&gt;
  
  
  アブレーションスタディ（要素除去実験）
&lt;/h3&gt;

&lt;ul&gt;
&lt;li&gt;ツリー構造なし（flat planning）：性能が明確に低下。&lt;/li&gt;
&lt;li&gt;情報利得関数の変更：成功率に影響あり。報酬関数の設計が重要な要素であることが示された。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  今後の展望
&lt;/h3&gt;

&lt;p&gt;今後はツリーのPruningや情報利得以外の報酬関数の学習による質問戦略の実現がある。又、エントロピー以外の不確実性指標の導入や、反復的計画により質問の再構成も効果的と考えられる。&lt;/p&gt;

</description>
      <category>rag</category>
      <category>algorithms</category>
    </item>
    <item>
      <title>INTENT-BASED PROMPT CALIBRATION: ENHANCING PROMPT OPTIMIZATION WITH SYNTHETIC BOUNDARY CASES</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Tue, 10 Jun 2025 06:54:26 +0000</pubDate>
      <link>https://forem.com/tutti/intent-based-prompt-calibration-enhancing-prompt-optimization-with-synthetic-boundary-cases-1ioj</link>
      <guid>https://forem.com/tutti/intent-based-prompt-calibration-enhancing-prompt-optimization-with-synthetic-boundary-cases-1ioj</guid>
      <description>&lt;h2&gt;
  
  
  選定理由&amp;amp;所感
&lt;/h2&gt;

&lt;p&gt;プロンプト最適化で実用性が高そう。ICLR2024 Workshop、スタートアップでの研究開発。&lt;/p&gt;

&lt;p&gt;Paper: &lt;a href="https://openreview.net/forum?id=dFEyhtZXZt" rel="noopener noreferrer"&gt;https://openreview.net/forum?id=dFEyhtZXZt&lt;/a&gt;&lt;br&gt;
Code: &lt;a href="https://github.com/Eladlev/AutoPrompt" rel="noopener noreferrer"&gt;https://github.com/Eladlev/AutoPrompt&lt;/a&gt;&lt;br&gt;
blog: &lt;a href="https://qiita.com/setowatson/items/e5009f0417e8b59b6bc5" rel="noopener noreferrer"&gt;https://qiita.com/setowatson/items/e5009f0417e8b59b6bc5&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;人間がやっているようなプロンプト最適化の「要件定義 → 間違いやすい例を取得→ 出力を見てズレを分析 → プロンプトを直す」を自動で回すしくみ。間違いやすさを自動評価するHard Example Miningは以前からあった(&lt;a href="https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Shrivastava_Training_Region-Based_Object_CVPR_2016_paper.html" rel="noopener noreferrer"&gt;OHEM&lt;/a&gt;とか)が、LLMでHard Exampleを生成する点が新しいと思われる。フィードバックの仕組みは勾配伝搬のような形ではなく自然言語のみの&lt;a href="https://dev.to/tutti/fincon-a-synthesized-llm-multi-agent-system-with-conceptual-verbal-reinforcement-for-enhanced-4484"&gt;CVRF&lt;/a&gt;に近い。&lt;/p&gt;

&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
MLシステム運用中に、プロンプト最適化によってLLMの応答をユーザー要件に沿う形で改善したいケースが多い。しかし、プロンプト最適化には深いビジネスドメイン知識が必要とされる。&lt;/p&gt;

&lt;p&gt;【技術課題】&lt;br&gt;
ユーザー要件によって良い出力の定義が異なるため、意図に合った出力の教師信号は少ない or 存在しないことがあり、特に識別境界付近のサンプル(Hard Example)は収集が難しい。又、従来の主流アプローチ(meta prompt: プロンプト生成用プロンプト)では高品質なベンチマークデータセットが必要であり、実務では使えない場合が多かった。&lt;/p&gt;

&lt;p&gt;【提案】&lt;br&gt;
meta promptの枠組みを拡張したIPC(Intent-Based Prompt Calibration)を提案した。IPCは識別境界に近い合成データセットを作成し、ユーザー意図に沿って合成データを評価し反復的にプロンプト最適化を行う。&lt;/p&gt;

&lt;p&gt;【効果】&lt;br&gt;
IPCはユーザー意図に合うようにプロンプトを自動で調整することができ、プロンプトがモデルやタスクに依存してしまう課題をある程度解決することができた。評価では多様な生成系タスクにおいて既存手法を上回る効果を示した。&lt;/p&gt;

&lt;h2&gt;
  
  
  Intent-Based Prompt Caliblation
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fw2gq8mkewy87z2r6iksz.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fw2gq8mkewy87z2r6iksz.png" alt="fig1" width="800" height="440"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fijodhl1g915yt3t2ryi0.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fijodhl1g915yt3t2ryi0.png" alt="fig2" width="800" height="721"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図１，２に示すようにIPCは次のステップを繰り返す：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; タスクと現在のプロンプトに対して、多様かつ難易度の高い境界事例（boundary cases）を複数生成&lt;/li&gt;
&lt;li&gt; 生成されたサンプルに対する現在のプロンプトの性能をスコア関数で評価し、エラー解析結果を提供&lt;/li&gt;
&lt;li&gt; 過去のプロンプト履歴をもとに、スコアが高くなるような新たなプロンプトを提案&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;例えば分類タスクではスコア関数はAccuracy, エラー解析は混同行列と誤分類出力である。&lt;/p&gt;

&lt;h3&gt;
  
  
  生成タスクへの変換
&lt;/h3&gt;

&lt;p&gt;生成タスクを扱う場合、最適化を2つの段階に分ける。なお、人手によるスコア付け（アノテーション）は第一段階でのみ必要である&lt;/p&gt;

&lt;p&gt;第一段階：初期プロンプトとタスク説明をLLMで言い換え、複数の出力候補に対して、ユーザー意図への適合度に基づくランキング（順位付け）を行う。ランキングスコアは平均点付近に集中しやすく、高スコア帯ではバランスが崩れやすいため、上位2スコアの出力に基づく境界事例を生成する。&lt;/p&gt;

&lt;p&gt;第二段階：元の生成プロンプトに対して、第一段階で得られたランキング用プロンプトをスコア関数として用いながら、評価と修正のステップを反復的に適用し、プロンプトを最適化する。&lt;/p&gt;

&lt;h3&gt;
  
  
  IPCにおけるmeta prompt
&lt;/h3&gt;

&lt;p&gt;以下３つの処理から成る。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; Sample Generator: 識別境界のサンプルを生成&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;ユーザーの意図（instruction）に基づき、意図に合致する・しない出力が得られやすい入力例（input prompts）をLLMで合成する。初期プロンプトを使って出力を生成し、それらの出力が意図に沿っているかどうかを後段で評価可能なデータセットを構築する。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; Analyzer: プロンプトの評価&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;生成された出力と意図との一致度を判定し、出力が意図とズレている境界事例（boundary cases）を特定する。意図に基づく自動評価（例：混同行列や分類精度）を用い、どのような入力がプロンプトにとって困難かを分析。&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; Prompt Generator: プロンプト最適化&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Analyzerで検出された境界事例・分析結果を利用して、プロンプトの改良案を生成する。LLMに過去数ステップのプロンプトとスコア履歴を入力し、全体傾向を踏まえた修正を提案させる。&lt;/p&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fbftvyfgc26enog3w2pba.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fbftvyfgc26enog3w2pba.png" alt="fig3" width="800" height="492"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;IPCの効果を2つの分類タスク、spoiler(ネタバレ検出)とPG(保護者ガイド分類）で検証している。比較対象は、Zero-shot、Few-shot、分類精度を直接最適化する手法、既存のプロンプト最適化手法（GCG）など。結果、IPCは他の手法よりも高い精度を安定して達成し、学習のばらつきも小さかった。Figure 3では、各手法の精度が学習ステップ数に応じてどのように変化するかを示しており、IPCが最も早く精度が向上し、かつ安定していることが視覚的に確認できる。少ないステップで効果的に意図に沿ったプロンプトが得られることが確認されており、特にあいまいな意図を含む分類問題で強みを示した。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fszt6l7k3xihiyjlanjwk.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fszt6l7k3xihiyjlanjwk.png" alt="fig4,5" width="800" height="362"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;合成データの分布を見ると実データより境界付近のデータを取得できており、クラス間不均衡が解消されていることがわかる。&lt;/p&gt;

&lt;h3&gt;
  
  
  アブレーションスタディ
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fa19hx4p2yjteweaejhbd.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fa19hx4p2yjteweaejhbd.png" alt="tb3" width="800" height="227"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;analyzer コンポーネントが重要な役割を果たしているのがわかる。この結果は先行研究[&lt;a href="https://arxiv.org/abs/2309.03409" rel="noopener noreferrer"&gt;Yang2023&lt;/a&gt;]とは矛盾するように見えるが、analyzerが単純な評価値の計算だけでなくエラー解析・原因までフィードバックしている点が今回の結果となったと言える。&lt;/p&gt;

</description>
      <category>promptengineering</category>
      <category>openai</category>
    </item>
    <item>
      <title>FINCON: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Wed, 04 Jun 2025 14:49:09 +0000</pubDate>
      <link>https://forem.com/tutti/fincon-a-synthesized-llm-multi-agent-system-with-conceptual-verbal-reinforcement-for-enhanced-4484</link>
      <guid>https://forem.com/tutti/fincon-a-synthesized-llm-multi-agent-system-with-conceptual-verbal-reinforcement-for-enhanced-4484</guid>
      <description>&lt;h2&gt;
  
  
  選定理由
&lt;/h2&gt;

&lt;p&gt;LLM＋マルチエージェントを使って組織構造を模倣するあたりがトレンディで興味深い。Harvard Universityの研究。&lt;/p&gt;

&lt;p&gt;Paper: &lt;a href="https://arxiv.org/abs/2407.06567" rel="noopener noreferrer"&gt;https://arxiv.org/abs/2407.06567&lt;/a&gt;&lt;br&gt;
Code: &lt;a href="https://github.com/The-FinAI/FinCon" rel="noopener noreferrer"&gt;https://github.com/The-FinAI/FinCon&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;CVRFの発想は &lt;a href="https://dev.to/tutti/textgrad-automatic-differentiation-via-text-1318"&gt;TextGrad&lt;/a&gt; によく似ていて、テキストによるフィードバックを勾配降下法に見立てるがやはり解析数学的な根拠はない。&lt;/p&gt;

&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
金融市場は複雑で変動が激しく、迅速で連続的な意思決定が求められる。従来の人間中心の組織構造では、情報処理能力や記憶容量に限界があり適切な意思決定が難しい&lt;/p&gt;

&lt;p&gt;【技術課題】&lt;br&gt;
複数モダリティの非構造データ（ニュース、音声、財務など）を統合し、意味のある意思決定を行う必要がある。従来手法では強化学習の学習効率が悪く、陽に事前知識を与えない限り安定したポリシーの学習が困難。&lt;/p&gt;

&lt;p&gt;【提案】&lt;br&gt;
以下の特徴を持つLLMマルチエージェントフレームワークFinConを提案：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; 機能横断的なチーム連携：実際の投資会社の組織構造を模倣し、ManagerとAnalystが自然言語で連携しながら目標達成を目指す&lt;/li&gt;
&lt;li&gt; リスク管理：エピソードごとに自己評価を行い、投資ポリシーを更新することで意思決定の質を向上&lt;/li&gt;
&lt;li&gt; 概念的言語強化フィードバック（CVRF）：エージェントの行動に対する言語のフィードバックを通じて、将来の意思決定に役立つ知識を強化し必要なノードに選択的に伝播&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;【効果】&lt;br&gt;
以下の金融タスクで評価：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; 単一銘柄取引：従来手法よりも累積リターンが約26.5ポイント上昇&lt;/li&gt;
&lt;li&gt; ポートフォリオ管理：複数資産の組み合わせにおいて、リスク調整後のリターンが向上&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;またアブレーションスタディにおいて、リスク管理コンポーネントの効果が示された。&lt;/p&gt;

&lt;h2&gt;
  
  
  FINCON
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F7tupdsj4mi4ozp1lvkt5.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F7tupdsj4mi4ozp1lvkt5.png" alt="fig2" width="800" height="659"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;FINCONは図２に示すようにManager-Analystsの階層的エージェントグループとリスク制御コンポーネントから成る。&lt;/p&gt;

&lt;h3&gt;
  
  
  Manager-Analysts Agent Group
&lt;/h3&gt;

&lt;p&gt;FINCONは投資組織を模倣したマルチエージェント構成で、迅速な投資意思決定を実現している。設計目的は不要なコミュニケーションコストを抑えつつ、情報の提示と理解を最適化し、投資パフォーマンスを最大化することである。&lt;/p&gt;

&lt;p&gt;各アナリストエージェントは、特定の情報源（uni-modal）または単一タスクに特化しており、市場のノイズを除去した報告をマネージャエージェントに提供する。エージェントは以下７種である：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; テキスト×３(ニュース、&lt;a href="https://navi.funda.jp/article/how-to-read-form10-k" rel="noopener noreferrer"&gt;Form 10-k&lt;/a&gt;、アナリストレポート)の分析&lt;/li&gt;
&lt;li&gt; 音声（決算説明会音声）の分析&lt;/li&gt;
&lt;li&gt; テーブルデータ処理: &lt;a href="https://www.nomura.co.jp/terms/japan/mo/A01921.html" rel="noopener noreferrer"&gt;モメンタム&lt;/a&gt;や&lt;a href="https://blog.otama-playground.com/entry/20240619/1718804089" rel="noopener noreferrer"&gt;CVaR&lt;/a&gt;の算出&lt;/li&gt;
&lt;li&gt; 銘柄選定: 金融工学における古典的なリスク分散手法を適用し、ポートフォリオ選定&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;Manager Agentはチーム全体の司令塔として機能し、次の4つの役割を担う：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; タスクの分解と割り当て: 投資目標と市場状況を入力とし分析タスクに分解した上で、各アナリストに自然言語で指示&lt;/li&gt;
&lt;li&gt; 情報統合と意思決定: アナリストの報告を統合し、単一銘柄取引では売買アクション、ポートフォリオ管理では銘柄比率の決定を行う。&lt;/li&gt;
&lt;li&gt; リスク制御: リスク制御コンポーネントと連携し、リスク耐性のある運用を実現。&lt;/li&gt;
&lt;li&gt; 信念の更新と学習（Conceptual Verbal Reinforcement Framework: CVRF）: 各エピソード終了後に投資判断を評価し、自然言語による振り返り（conceptual feedback）を生成・記憶。これを通じて投資戦略に対する概念的な信念の更新を行い、今後の精度を向上させる。&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  Risk-Control Component
&lt;/h3&gt;

&lt;p&gt;FINCONのリスク制御コンポーネントは2段階のリスク管理戦略を採用しており、エピソード内とエピソード間で異なるアプローチを取ることで、投資判断のロバスト性と持続的な改善を両立している。&lt;/p&gt;

&lt;p&gt;エピソード内リスク制御は単一のエピソード内で観測されるリスク変動に即応する。まずポジションのCVaRを評価し、一定の閾値を下回るか急激に悪化した場合、Manager Agentはリスク回避的なアクション（例：ポジション縮小、保留）を選択する。これにより短期的かつ局所的なリスクへの即応が可能となり、大きな損失を回避できる。&lt;/p&gt;

&lt;p&gt;エピソード間リスク制御では複数エピソードを通じた長期的な学習と最適化が行われる。エピソード終了後、Manager Agentは自身の投資行動とその結果を自然言語で振り返りを生成。この出力に基づき、リスク認識や意思決定方針を自然言語プロンプトとして更新・最適化する(algorithm.1)。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fp1139j97twg2um6gyedg.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fp1139j97twg2um6gyedg.png" alt="al1" width="800" height="528"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;テスト時はCVRFは行わず、エピソード内リスク制御のみで実行する(algorithm.2)&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F405dibtru5z4nv90bgll.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F405dibtru5z4nv90bgll.png" alt="al2" width="800" height="281"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;CVRFのようなプロンプト自動チューニングは似たような研究が数多く存在しており、違いを以下に整理した。&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;観点&lt;/th&gt;
&lt;th&gt;
&lt;strong&gt;CVRF&lt;/strong&gt;（FINCON, 2024）&lt;/th&gt;
&lt;th&gt;
&lt;strong&gt;TextGrad&lt;/strong&gt;（2023）&lt;/th&gt;
&lt;th&gt;
&lt;strong&gt;Reflexion&lt;/strong&gt;（2023）&lt;/th&gt;
&lt;th&gt;
&lt;strong&gt;Self-Refine&lt;/strong&gt;（2023）&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;主な目的&lt;/td&gt;
&lt;td&gt;信念更新とリスク制御&lt;/td&gt;
&lt;td&gt;自然言語による擬似勾配最適化&lt;/td&gt;
&lt;td&gt;試行錯誤による自己改善&lt;/td&gt;
&lt;td&gt;出力の反復的な洗練&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;フィードバック形式&lt;/td&gt;
&lt;td&gt;概念的な自然言語&lt;/td&gt;
&lt;td&gt;自然言語 → 勾配のような信号&lt;/td&gt;
&lt;td&gt;自己評価的自然言語&lt;/td&gt;
&lt;td&gt;自然言語によるレビュー&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;アップデート対象&lt;/td&gt;
&lt;td&gt;Meta prompt（プロンプト自体の改善）&lt;/td&gt;
&lt;td&gt;埋め込み表現・モデルパラメータ&lt;/td&gt;
&lt;td&gt;エピソードメモリ・行動方針&lt;/td&gt;
&lt;td&gt;テキスト出力内容&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;更新頻度&lt;/td&gt;
&lt;td&gt;エピソード単位&lt;/td&gt;
&lt;td&gt;トークン／ステップ単位&lt;/td&gt;
&lt;td&gt;試行後ごと&lt;/td&gt;
&lt;td&gt;各出力後に繰り返し適用&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;数学的根拠&lt;/td&gt;
&lt;td&gt;弱い（言語ベースの最適化）&lt;/td&gt;
&lt;td&gt;準形式的（text-as-gradient）&lt;/td&gt;
&lt;td&gt;数式的勾配はなし（ヒューリスティック）&lt;/td&gt;
&lt;td&gt;明確な勾配なし&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;応用分野&lt;/td&gt;
&lt;td&gt;金融（取引・リスク制御）&lt;/td&gt;
&lt;td&gt;汎用的（言語生成・分類など）&lt;/td&gt;
&lt;td&gt;強化学習タスク（探索含む）&lt;/td&gt;
&lt;td&gt;一般的な生成タスク（QA,文書生成など）&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;p&gt;以下３つのリサーチクエスチョンについて検証した：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; FINCONは単一銘柄取引・ポートフォリオ管理といった金融ドメインの意思決定において、ロバスト性を持つか？&lt;/li&gt;
&lt;li&gt; エピソード&lt;strong&gt;内&lt;/strong&gt;リスク制御は意思決定に有効か？&lt;/li&gt;
&lt;li&gt; エピソード&lt;strong&gt;間&lt;/strong&gt;リスク制御はマネージャーエージェント間のやりとりにおいて、取引性能を高めるのに効果的か？&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;評価メトリクスは以下である：&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; Cumulative Return (CR%): 累積リターン、高い方が良い&lt;/li&gt;
&lt;li&gt; Sharpe Ratio (SR): &lt;a href="https://www.smbcnikko.co.jp/terms/japan/si/J0267.html" rel="noopener noreferrer"&gt;シャープレシオ&lt;/a&gt;、高い方が良い&lt;/li&gt;
&lt;li&gt; Max DrawDown(MDD%): &lt;a href="https://www.matsui.co.jp/fund/column/mdd/" rel="noopener noreferrer"&gt;最大ドローダウン&lt;/a&gt;、低い方が良い&lt;/li&gt;
&lt;/ul&gt;

&lt;h3&gt;
  
  
  単一銘柄取引
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fwfbidvy5luj4zw6ed2yt.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fwfbidvy5luj4zw6ed2yt.png" alt="tb2" width="800" height="539"&gt;&lt;/a&gt;&lt;br&gt;
単一銘柄取引での結果は表２で、赤がSOTA、青が二番目に良い結果である。多くの銘柄でFINCONはCR,SRでSOTAであり、さらにリスク管理コンポーネントの効果でMDDも低い結果となった。従来手法では、DRL(深層強化学習)ベースの手法はIPOなどの学習データ不足になりがちな銘柄に対して学習が収束せずパフォーマンスが下がる傾向があったり、FinAgent[&lt;a href="https://ui.adsabs.harvard.edu/abs/2024arXiv240218485Z/abstract" rel="noopener noreferrer"&gt;Zhang2024&lt;/a&gt;]は類似度に基づいて過去の情報を取り出すがそれが古い情報を参照する場合がありエラーに繋がっていた。FINCONはそれらを克服し、Analystが解析した複数モダリティをタイムラインとして蓄積しておくことで誤りの少ない参照を実現している。&lt;/p&gt;

&lt;h3&gt;
  
  
  ポートフォリオ管理
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fk4lw64o0fa07t2ewii86.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fk4lw64o0fa07t2ewii86.png" alt="tb3" width="800" height="500"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;従来のRLベース手法に比べてリターンとリスクのバランスに優れたポートフォリオ管理を実現した。マルチエージェントの役割分担とメタ認知的学習（CVRF）の効果が顕著に表れた。&lt;/p&gt;

&lt;h3&gt;
  
  
  アブレーションスタディ
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F18sate0vu4kl19ywyumz.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F18sate0vu4kl19ywyumz.png" alt="tb4tb5" width="800" height="566"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;リスク管理コンポーネントの効果が示されている。わずか４時間程度の学習でDRLよりも効果が高い点がポイントである。&lt;/p&gt;

</description>
      <category>rag</category>
      <category>openai</category>
    </item>
    <item>
      <title>DualRAG: A Dual-Process Approach to Integrate Reasoning and Retrieval for Multi-Hop Question Answering</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Wed, 28 May 2025 14:17:12 +0000</pubDate>
      <link>https://forem.com/tutti/dualrag-a-dual-process-approach-to-integrate-reasoning-and-retrieval-for-multi-hop-question-b5e</link>
      <guid>https://forem.com/tutti/dualrag-a-dual-process-approach-to-integrate-reasoning-and-retrieval-for-multi-hop-question-b5e</guid>
      <description>&lt;h2&gt;
  
  
  選定理由と所感
&lt;/h2&gt;

&lt;p&gt;Tianjin Universityの研究、Agentic RAG な手法としてはシンプル。&lt;/p&gt;

&lt;p&gt;paper: &lt;a href="https://arxiv.org/abs/2504.18243" rel="noopener noreferrer"&gt;https://arxiv.org/abs/2504.18243&lt;/a&gt;&lt;br&gt;
code: N/A&lt;br&gt;
Blog: &lt;a href="https://zenn.dev/knowledgesense/arti./cles/10b2b5f772b810" rel="noopener noreferrer"&gt;https://zenn.dev/knowledgesense/arti./cles/10b2b5f772b810&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Dualというのは検索しクエリに回答する部分と、検索して集まった知識を整理する部分が協調的に働くためこう呼んでいる。&lt;/p&gt;
&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
&lt;a href="https://dev.to/tutti/search-o1-agentic-search-enhanced-large-reasoning-models-23mp"&gt;search-o1&lt;/a&gt; と同じ&lt;/p&gt;

&lt;p&gt;【技術課題】&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt; 知識のニーズ変化：推論の進行状況によって新たな知識が必要になるタイミングが異なる&lt;/li&gt;
&lt;li&gt; 情報の組織化と活用：取得した知識のノイズや断片化により、推論の一貫性が損なわれる。&lt;/li&gt;
&lt;/ul&gt;

&lt;p&gt;【提案】&lt;br&gt;
以下の2つのプロセスを反復し複雑な質問に高精度で回答するDualRAGを提案&lt;br&gt;
Reasoning-augmented Querying (RaQ)：現在の推論状況から必要に応じて検索クエリを生成&lt;br&gt;
progressive Knowledge Aggregation (pKA)：取得した情報を体系的に統合し、どんな情報が欠落しているかを明確にする&lt;/p&gt;

&lt;p&gt;【効果】&lt;br&gt;
HotpotQAでEM 65.0・F1 78.3を達成し、従来手法より最大+2.7 EM、+3.7 F1向上。小型モデルでもF1が+5.4改善し、オラクル知識なしでも高精度を維持&lt;/p&gt;
&lt;h2&gt;
  
  
  DualRAG
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F32jwm9uwz6ia8mewh65k.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F32jwm9uwz6ia8mewh65k.png" alt="fig2"&gt;&lt;/a&gt;&lt;/p&gt;
&lt;h3&gt;
  
  
  3.1 Framework of DualRAG
&lt;/h3&gt;

&lt;p&gt;図２にDualRAGの全体像を示す。DualRAGは推論の文脈や進行状況に応じて検索を行うReasoning-augmented Querying (RaQ)、思考過程を記述し新しい知識を構造化しながら統合するprogressive Knowledge Aggregation (pKA)の２プロセスから成る。&lt;/p&gt;

&lt;p&gt;

&lt;/p&gt;
&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;Rt,Dt=RaQ(Kt−1,x,Rt−1)
R_t, D_t = \text{RaQ}(K_{t-1}, x, R_{t-1})
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;R&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;D&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;RaQ&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;K&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;−&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;x&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;R&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;−&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;



&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;Kt=pKA(Kt−1,Dt)
K_t = \text{pKA}(K_{t-1}, D_t)
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;K&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;pKA&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;K&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;−&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;D&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;ここで
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;KtK_t &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;K&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 は
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;tt &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
反復目の知識、
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;RtR_t &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;R&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
は推論過程、
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;DtD_t &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;D&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
は取得した文書集合、
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;xx &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;x&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
はクエリ文を示す。&lt;/p&gt;
&lt;h4&gt;
  
  
  3.1.1 Reasoning-augmented Querying (RaQ)
&lt;/h4&gt;

&lt;p&gt;重要な情報はエンティティ集合
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;EtE_t &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;E&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
の周辺にあることが事前検証でわかっているため、エンティティごとに関連する文書を検索するためのクエリ集合
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;QtQ_t &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;Q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
をセットで生成する。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;Et, Qt(e)e∈Et=MEI(Kt−1,x,rt)
E_t,\ { Q_t(e) }{e \in E_t} = M{EI}(K_{t-1}, x, r_t)
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;E&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt; &lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;Q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;e&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;e&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∈&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;E&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;M&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;E&lt;/span&gt;&lt;span class="mord mathnormal"&gt;I&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;K&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;−&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;x&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;r&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;クエリ集合でそれぞれ検索を行い、結果をマージ後にリランキングを行う。&lt;/p&gt;

&lt;h4&gt;
  
  
  3.1.2 Progressive Knowledge Aggregation
&lt;/h4&gt;

&lt;p&gt;KS(Knowledge Summarizer) はドキュメントの関連性に基づきフィルタリングを行ったのちに、エンティティごとに必要十分な知識を残して圧縮した knowledge fragment 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;kek_e &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;k&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;e&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 を生成する。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;ke=MKS(x,Rt,e,Qt(e),De)k_e = M_{KS}(x, R_t, e, Q_t(e), D_e)

&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;k&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;e&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;M&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;K&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;S&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;x&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;R&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;e&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;Q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;e&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;D&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;e&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;PKO(Progressive Knowledge Outline)は「思考の履歴を自然言語で書き残す知識メモ」のようなもので、それをモデルが逐次的に活用していく。知識メモの形式は適用するビジネス領域に依存する面があるが、本研究では最も基本的なテキストのリストとする。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;Kt(e)=Kt−1(e)∪keK_t(e) = K_{t-1}(e) \cup { k_e }

&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;K&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;e&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;K&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;−&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;e&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;∪&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;k&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;e&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;h3&gt;
  
  
  3.2 Fine-Tuning for Compact Models
&lt;/h3&gt;

&lt;p&gt;ハイエンドなLLMは利用コストも高いため、ロウエンドモデルを Finetune もしくは知識蒸留して用いる。HotpotQAデータセットをベースとし、GPTで元の質問に対して「中間質問・中間回答文・答え」の形式で複数ステップを生成。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F6krklu5z00kz6k3bbqeh.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F6krklu5z00kz6k3bbqeh.png" alt="tb1"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;集めたデータセットのサンプルは数 Table.1 である。&lt;/p&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;p&gt;評価指標はEM、F1に加え、検索精度や推論一貫性も個別に評価した。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsx7ngwmssau6uvcbv22f.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsx7ngwmssau6uvcbv22f.png" alt="Table2"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;従来のRAG手法との比較はTable.2であり、複数のデータセット、評価指標でSOTAであることがわかる。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fivuls94fl6ns6mzzgdcd.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fivuls94fl6ns6mzzgdcd.png" alt="Table3"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;各プロセスに対するアブレーションスタディはTable.3である。w/o R は reasoner が検索を使用しない、w/o EI は Entity の検出をしない、w/o KO はKnowledge outlineを使用しない設定である。実験結果ではどれも性能が低下しており、有効なプロセスであることがわかる。&lt;/p&gt;

&lt;p&gt;最後にケーススタディを掲載する。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsdrit83hvn1trve62k1d.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsdrit83hvn1trve62k1d.png" alt="case"&gt;&lt;/a&gt;&lt;/p&gt;

</description>
      <category>rag</category>
      <category>gpt3</category>
    </item>
    <item>
      <title>Diversify-verify-adapt: Efficient and Robust Retrieval-Augmented Ambiguous Question Answering</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Wed, 14 May 2025 14:44:47 +0000</pubDate>
      <link>https://forem.com/tutti/diversify-verify-adapt-efficient-and-robust-retrieval-augmented-ambiguous-question-answering-19j8</link>
      <guid>https://forem.com/tutti/diversify-verify-adapt-efficient-and-robust-retrieval-augmented-ambiguous-question-answering-19j8</guid>
      <description>&lt;h2&gt;
  
  
  選定理由と所感
&lt;/h2&gt;

&lt;p&gt;Abode ResearchとKAISTの共同研究。&lt;/p&gt;

&lt;p&gt;Paper:&lt;a href="https://arxiv.org/abs/2409.02361" rel="noopener noreferrer"&gt;https://arxiv.org/abs/2409.02361&lt;/a&gt;&lt;br&gt;
Code:&lt;br&gt;
Blog:&lt;a href="https://zenn.dev/knowledgesense/articles/abf34c417b079e" rel="noopener noreferrer"&gt;https://zenn.dev/knowledgesense/articles/abf34c417b079e&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;検索時のRecallを改善する目的で検索結果に多様性を陽に与えるアプローチは従来からよくある。LLMの知識を用いて多様性を与えると反復的に深堀するよりも検索・応答性能が高くなるが、現在のLLMの特性に依存する面があると思われる。&lt;/p&gt;
&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
&lt;a href="https://dev.to/tutti/search-o1-agentic-search-enhanced-large-reasoning-models-23mp"&gt;search-o1&lt;/a&gt; と同じ&lt;/p&gt;

&lt;p&gt;【技術課題】&lt;br&gt;
ユーザークエリと検索対象の文書集合の母集団分布には常に乖離があり、１回の検索では適切な文書を取得することが困難である。又、事前検証実験により中途半端な情報、余計な情報が交じるとLLMの回答性能はかえって悪化することがわかっている（図３）。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhmkgs01j0dirrt5iauxa.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhmkgs01j0dirrt5iauxa.png" alt="fig3"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;そして既存の反復的なRAG戦略(例:[&lt;a href="https://openreview.net/forum?id=QtOybganmT&amp;amp;referrer=%5Bthe%20profile%20of%20Minlie%20Huang%5D(%2Fprofile%3Fid%3D%7EMinlie_Huang1)" rel="noopener noreferrer"&gt;Shao2023&lt;/a&gt;])は検索回数の増加による時間コスト、資金コストの増大という欠点があった。&lt;/p&gt;

&lt;p&gt;【提案】&lt;br&gt;
Diversify（多様化）：曖昧な質問から複数の具体的なサブクエリ（疑似解釈）を生成し、それぞれに対して文書を検索&lt;br&gt;
Verify（検証）：取得した文書が各サブクエリに対して有用かどうかを評価し、関連性の低い文書を除外&lt;br&gt;
Adapt（適応）：検証結果に基づき最適な生成戦略を選択し、最終的な回答を生成&lt;/p&gt;

&lt;p&gt;という３ステージを実行するDIVA（Diversify-Verify-Adapt）を提案&lt;/p&gt;

&lt;p&gt;【効果】&lt;br&gt;
精度向上：従来のRAGや反復的RAGと比較して、DIVAはより高いD-F1スコアを達成&lt;br&gt;
効率性：DIVAは反復的RAGよりも約2倍高速で、コストも約1.8倍低減&lt;/p&gt;
&lt;h2&gt;
  
  
  DIVA（Diversify-Verify-Adapt）
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fq2o60a1sy4nhibxl0si3.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fq2o60a1sy4nhibxl0si3.png" alt="fig8"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;DIVAとIter-RAGを比較した全体像は図８である。&lt;/p&gt;
&lt;h3&gt;
  
  
  Retrieval Diversification (RD)
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fteiycp4xo7okdi5cnckt.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fteiycp4xo7okdi5cnckt.png" alt="fig4"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図4に示すようなプロンプトを用いてクエリの曖昧性をパターン分類し、疑似解釈を生成する。これは人間も曖昧な質問を受けた際に、曖昧な点をまず明確化してから回答する行為に似ている。曖昧性の分類と疑似解釈を同時に１つの推論で実施すると、精度が低下するため１つずつ行う（以下の式）。&lt;/p&gt;

&lt;p&gt;

&lt;/p&gt;
&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;Qi←LLM(qi,Ip,LLM(qi,Ia))
Q_i \leftarrow \mathrm{LLM}(q_i, I_p, \mathrm{LLM}(q_i, I_a))
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;Q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;←&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathrm"&gt;LLM&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;I&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;p&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathrm"&gt;LLM&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;I&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;a&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;))&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;h4&gt;
  
  
  Retrieving Relevant and Diverse Passages
&lt;/h4&gt;

&lt;p&gt;曖昧性のないクエリの場合には単一パッセージのみ取得する、曖昧性を含むクエリの場合は疑似解釈により得られたパッセージの論理和を取得する。&lt;/p&gt;

&lt;h4&gt;
  
  
  Pruning Noisy Passages
&lt;/h4&gt;

&lt;p&gt;Diversify 時に元のクエリに関連性の低い文書が回収される可能性があるため、これを除去するための Pruning を行う。ノイズのパターンとしては検索時のRetrieverに起因するものは疑似解釈に関係なく均一に混入し、疑似解釈の誤りに起因するものはその疑似解釈での検索に多く混入すると考えられる。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;S(p)=1∣Q^i∣∑j=1∣Q^i∣Enc(q^j)⋅Enc(p)∣Enc(q^j)∣⋅∣Enc(p)∣
S(p) = \frac{1}{|\hat{Q}i|} \displaystyle\sum{j=1}^{|\hat{Q}_i|} \frac{\text{Enc}(\hat{q}_j) \cdot \text{Enc}(p)}{|\text{Enc}(\hat{q}_j)| \cdot |\text{Enc}(p)|}
&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;S&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mopen nulldelimiter"&gt;&lt;/span&gt;&lt;span class="mfrac"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;∣&lt;/span&gt;&lt;span class="mord accent"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;Q&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="accent-body"&gt;&lt;span class="mord"&gt;^&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;i&lt;/span&gt;&lt;span class="mord"&gt;∣&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="frac-line"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose nulldelimiter"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mop op-symbol large-op"&gt;∑&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;j&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mtight"&gt;∣&lt;/span&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord accent mtight"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;Q&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="accent-body"&gt;&lt;span class="mord mtight"&gt;^&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size3 size1 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mord mtight"&gt;∣&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mopen nulldelimiter"&gt;&lt;/span&gt;&lt;span class="mfrac"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;∣&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;Enc&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord accent"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="accent-body"&gt;&lt;span class="mord"&gt;^&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;j&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mord"&gt;∣&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;⋅&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;∣&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;Enc&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mord"&gt;∣&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="frac-line"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;Enc&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord accent"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="accent-body"&gt;&lt;span class="mord"&gt;^&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;j&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;⋅&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord text"&gt;&lt;span class="mord"&gt;Enc&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord mathnormal"&gt;p&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose nulldelimiter"&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;そこで上記スコア関数にてスコアリングを行い、top-k 以下のものを除外する。この計算法は関連性を定量化する際によく用いられる。&lt;/p&gt;

&lt;h3&gt;
  
  
  Adaptive Generation (AG)
&lt;/h3&gt;

&lt;h3&gt;
  
  
  Retrieval Verification (RV)
&lt;/h3&gt;

&lt;p&gt;生成された疑似解釈とそれによって取得された文書を用いて、それぞれの疑似解釈の質問に回答できているかを判定する。一つでも回答できていると判断された場合は文書をLLMに渡して回答。一つも回答できていなかった場合は文書を提供せずLLMに直接回答させる&lt;/p&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F5xkaq40bnatu35ld2hxc.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F5xkaq40bnatu35ld2hxc.png" alt="fig6"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図６によると反復的なRAGよりも早く、正確であることがわかる。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fufxbnjbp72jimzhrru7p.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fufxbnjbp72jimzhrru7p.png" alt="Table1"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Vanilla RAG, Iterative RAG, CRAGなど各種SOTAなRAG手法と比べても高い性能であることがわかる。&lt;/p&gt;

</description>
      <category>rag</category>
      <category>gpt</category>
    </item>
    <item>
      <title>DeepRAG: Thinking to Retrieval Step by Step for Large Language Models</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Thu, 01 May 2025 00:35:28 +0000</pubDate>
      <link>https://forem.com/tutti/deeprag-thinking-to-retrieval-step-by-step-for-large-language-models-29bf</link>
      <guid>https://forem.com/tutti/deeprag-thinking-to-retrieval-step-by-step-for-large-language-models-29bf</guid>
      <description>&lt;h2&gt;
  
  
  選定理由
&lt;/h2&gt;

&lt;p&gt;中国科学院ソフトウェア研究所とWeChat AI研究チームの共同研究。&lt;/p&gt;

&lt;p&gt;Paper: &lt;a href="https://arxiv.org/abs/2502.01142" rel="noopener noreferrer"&gt;https://arxiv.org/abs/2502.01142&lt;/a&gt;&lt;br&gt;
Code:N/A&lt;br&gt;
blog: &lt;a href="https://x.gd/wTnkm" rel="noopener noreferrer"&gt;https://x.gd/wTnkm&lt;/a&gt;&lt;br&gt;
&lt;a href="https://zenn.dev/ren_ren_tnk/articles/775d6050e0cf4d" rel="noopener noreferrer"&gt;https://zenn.dev/ren_ren_tnk/articles/775d6050e0cf4d&lt;/a&gt;&lt;/p&gt;
&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;【社会課題】&lt;br&gt;
&lt;a href="https://dev.to/tutti/search-o1-agentic-search-enhanced-large-reasoning-models-23mp"&gt;search-o1&lt;/a&gt; と同じ&lt;/p&gt;

&lt;p&gt;【技術課題】&lt;br&gt;
従来のRAG手法ではRetriever（検索器）とGenerator（生成器）が独立に設計・最適化されていることにより、連携が不十分になり最終的な応答の品質や効率の課題を生んでいた。&lt;/p&gt;

&lt;p&gt;【提案】&lt;br&gt;
RetrieverとGeneratorが統一的な枠組みで最適化できるEnd2End な新しいRAGを提案。&lt;/p&gt;

&lt;p&gt;・検索強化推論（検索＋推論の複合的ワークフロー）をマルコフ決定過程（MDP）として定式化し、&lt;strong&gt;最適な行動（検索するかどうか）&lt;/strong&gt;を逐次選択。&lt;br&gt;
・問題を段階的に分解しながら検索と推論を繰り返す手法を導入。&lt;br&gt;
・各ステップで生成されるサブクエリに基づいて外部知識を取り込み、次のステップに活用。&lt;br&gt;
・Retrieval Narrative + Atomic Decisions&lt;br&gt;
Retrieval Narrative: すでに獲得している内部知識に基づき、文脈に沿ったサブクエリを生成。Atomic Decision: 各ステップで「検索する」or「内部知識だけで推論する」を判断。&lt;/p&gt;

&lt;p&gt;【効果】&lt;br&gt;
内部知識と外部知識の使い分けによりハルシネーションが抑制された結果、従来手法より21.99%の精度向上を実現した。無駄な検索を減らし必要なタイミングでのみ情報取得をすることで、計算・リソースの効率も改善した。&lt;/p&gt;
&lt;h2&gt;
  
  
  DeepRAG
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F46nrsfjrqx6ndt7yfydm.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F46nrsfjrqx6ndt7yfydm.png" alt="fig.2"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図２はDeepRAGの全体像であり、この仕組みでRetrieval Narrative(クエリ分解) と atomic decision(検索するかしないかの判断)を行う。&lt;/p&gt;
&lt;h3&gt;
  
  
  3.1 Overview of the MDP Modeling
&lt;/h3&gt;

&lt;p&gt;DeepRAGでは、検索強化推論のプロセスを以下の4つの要素からなるMDPとしてモデル化する：​&lt;/p&gt;
&lt;h4&gt;
  
  
  状態（States, S）
&lt;/h4&gt;

&lt;p&gt;各ステップにおける状態は、元のクエリとそれまでのサブクエリとその応答の履歴 

&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;(q1,r1),…,(qt,rt)(q_1, r_1), \ldots, (q_t, r_t)&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;r&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="minner"&gt;…&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;r&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
で構成される。&lt;/p&gt;
&lt;h4&gt;
  
  
  行動（Actions, A）
&lt;/h4&gt;

&lt;p&gt;各ステップでの行動 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;at+1a_{t+1}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;a&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 は、以下の2つの行動から成る：&lt;/p&gt;

&lt;p&gt;終了判定（Termination Decision）: 次のサブクエリ 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;qt+1q_{t+1}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 を生成するか、最終的な回答
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;oo&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;o&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
を出力してプロセスを終了するかを決定。&lt;/p&gt;

&lt;p&gt;検索判定（Atomic Decision）: 次のサブクエリ 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;qt+1q_{t+1}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
​ に対して、外部知識を取得する（retrieve）か、内部のパラメトリック知識に依存する（parametric）かを決定。​&lt;/p&gt;
&lt;h4&gt;
  
  
  遷移（Transitions, P）:
&lt;/h4&gt;

&lt;p&gt;行動 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;at+1a_{t+1}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;a&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 を実行し、状態は 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;st+1s_{t+1}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 に更新。&lt;/p&gt;

&lt;p&gt;終了判定が「terminate」の場合、最終回答 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;oo&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;o&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 を生成し終了&lt;br&gt;
終了判定が「continue」の場合、次のサブクエリ 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;qt+1q_{t+1}&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;t&lt;/span&gt;&lt;span class="mbin mtight"&gt;+&lt;/span&gt;&lt;span class="mord mtight"&gt;1&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
​ を生成&lt;br&gt;
検索判定が「retrieve」の場合、外部知識を取得し中間応答を生成。&lt;br&gt;
検索判定が「parametric」の場合、内部知識に基づいて中間応答を生成。​&lt;/p&gt;
&lt;h4&gt;
  
  
  報酬（Rewards, R）:
&lt;/h4&gt;

&lt;p&gt;最終的な回答 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;oo&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;o&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 を生成した後、報酬関数 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;RR&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;R&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 は、回答の正確性と検索コストに基づいて評価されます。&lt;br&gt;
正確な回答には正の報酬が与えられ、不正確な回答や不要な検索にはペナルティが課される。&lt;/p&gt;
&lt;h3&gt;
  
  
  3.2 Binary Tree Search, 3.3 Imitation Learning
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsh4d875hwp3i507c8q9w.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsh4d875hwp3i507c8q9w.png" alt="prompt"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;上記のようなプロンプトを用いて質問文をサブクエリに分解するRetrieval Narrativeを実施する。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhcdci88dfv9vdch8wiln.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fhcdci88dfv9vdch8wiln.png" alt="Algorithm1"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Q＆Aデータに対してquery decomposition を繰り返すことでBinary Search Tree を構築する処理はアルゴリズム１である。9〜13行目の処理で幅優先探索にて推論のみと検索後に推論しているノードを生成している。終端の回答が正解であるかどうかは教師データの回答と比較して報酬を決定する。&lt;/p&gt;
&lt;h3&gt;
  
  
  3.4 Chain of Calibration (CoC)
&lt;/h3&gt;

&lt;p&gt;&lt;a href="https://arxiv.org/abs/2201.11903" rel="noopener noreferrer"&gt;Chain of Thought (CoT)&lt;/a&gt;に似ているがCoTは推論方法であり、Chain of Calibration (CoC) は学習方法である。模倣学習(Stage I)で学習したベースモデルを用いてStage II として外部知識で再調整(calibrate)するステップを実行し学習を行う。&lt;br&gt;
atomic decisions 時にはLLMに自身が持つ知識境界を明確に認識させる必要があり、そのために(1)検索が必要かどうか判定するための後述する合成Preference Dataの作成(2)LLMに対する特殊なFinetuningという２つの手順を踏む。&lt;/p&gt;

&lt;p&gt;（１）Algorithm.1 で生成されたBinary Tree上の最適パスをたどることで各サブクエリ時に検索する・しないのどちらが選択されるべきかというPreference Dataを作成する。&lt;/p&gt;


&lt;div class="katex-element"&gt;
  &lt;span class="katex-display"&gt;&lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;L=−log⁡σ(βlog⁡πθ(yw∣si,qi)πref(yw∣si,qi)−βlog⁡πθ(yl∣si,qi)πref(yl∣si,qi))\mathcal{L} = - \log \sigma \left(
\beta \log \frac{ \pi_\theta (y_w \mid s_i, q_i) }{ \pi_{\text{ref}}(y_w \mid s_i, q_i) } - \beta \log \frac{ \pi_\theta (y_l \mid s_i, q_i) }{ \pi_{\text{ref}}(y_l \mid s_i, q_i) }
\right)

&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord mathcal"&gt;L&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;=&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;−&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mop"&gt;lo&lt;span&gt;g&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;σ&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="minner"&gt;&lt;span class="mopen delimcenter"&gt;&lt;span class="delimsizing size3"&gt;(&lt;/span&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;β&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mop"&gt;lo&lt;span&gt;g&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mopen nulldelimiter"&gt;&lt;/span&gt;&lt;span class="mfrac"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;π&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord text mtight"&gt;&lt;span class="mord mtight"&gt;ref&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;y&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;w&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∣&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="frac-line"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;π&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;θ&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;y&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;w&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∣&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose nulldelimiter"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mbin"&gt;−&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord mathnormal"&gt;β&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mop"&gt;lo&lt;span&gt;g&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mopen nulldelimiter"&gt;&lt;/span&gt;&lt;span class="mfrac"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;π&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord text mtight"&gt;&lt;span class="mord mtight"&gt;ref&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;y&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;l&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∣&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="frac-line"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;π&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;θ&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mopen"&gt;(&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;y&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;l&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mrel"&gt;∣&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;s&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mpunct"&gt;,&lt;/span&gt;&lt;span class="mspace"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;q&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;i&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose nulldelimiter"&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="mclose delimcenter"&gt;&lt;span class="delimsizing size3"&gt;)&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/div&gt;


&lt;p&gt;（２）の学習では上記目的関数を最小化する。
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;ywy_w&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;y&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;w&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 と 
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;yly_l&lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;y&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;l&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
はそれぞれ検索なしの回答と検索ありの回答を表す。
&lt;span class="katex-element"&gt;
  &lt;span class="katex"&gt;&lt;span class="katex-mathml"&gt;πref{\pi}_{ref} &lt;/span&gt;&lt;span class="katex-html"&gt;&lt;span class="base"&gt;&lt;span class="strut"&gt;&lt;/span&gt;&lt;span class="mord"&gt;&lt;span class="mord"&gt;&lt;span class="mord mathnormal"&gt;π&lt;/span&gt;&lt;/span&gt;&lt;span class="msupsub"&gt;&lt;span class="vlist-t vlist-t2"&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;span class="pstrut"&gt;&lt;/span&gt;&lt;span class="sizing reset-size6 size3 mtight"&gt;&lt;span class="mord mtight"&gt;&lt;span class="mord mathnormal mtight"&gt;re&lt;/span&gt;&lt;span class="mord mathnormal mtight"&gt;f&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-s"&gt;​&lt;/span&gt;&lt;/span&gt;&lt;span class="vlist-r"&gt;&lt;span class="vlist"&gt;&lt;span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;
&lt;/span&gt;
 は参照ベースモデルを表し、ベースモデルから&lt;a href="https://ja.wikipedia.org/wiki/%E3%83%99%E3%82%A4%E3%82%BA%E5%9B%A0%E5%AD%90" rel="noopener noreferrer"&gt;ベイズ因子&lt;/a&gt;が改善する方向へ収束させる。&lt;/p&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fifimabe7qezhc9q2eyrw.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fifimabe7qezhc9q2eyrw.png" alt="fig1"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fqvvi8fughz47bkex4c1j.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fqvvi8fughz47bkex4c1j.png" alt="tb2"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Table.2が示すようにDeepRAGは最も少ない回数で必要な情報を取得することができる。これはMDPによる定式化の効果である。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F7dshpwv8sjepphuoc7cm.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F7dshpwv8sjepphuoc7cm.png" alt="tb3"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Table.3 は atomic decisions によってどれだけ効率的に知識境界を探索できているかを示す。特にBalanced ACCやMCCの値の高さはDeepRAGが不必要な検索を行っていないことがわかる。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsstbjpj7o7qrkxfhqfhg.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fsstbjpj7o7qrkxfhqfhg.png" alt=" "&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図５はNarrative の効果で推論のたびに毎回検索するより、全く検索しないよりもDeepRAGのアルゴリズムの方が改善されることを示す。&lt;/p&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F6jcxljdzyfcy7z9opahn.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2F6jcxljdzyfcy7z9opahn.png" alt="fig6"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;図６は模倣学習とCoCのアブレーションスタディである。(a)から模倣学習により検索回数を減らしスコアを上昇させていること、(b)からはBinary Search Tree のすべてのノードを使用するよりも最適パスのノードのみ使用した方が検索回数が減ることが示されている。&lt;/p&gt;

</description>
      <category>rag</category>
      <category>openai</category>
    </item>
    <item>
      <title>Search-o1: Agentic Search-Enhanced Large Reasoning Models</title>
      <dc:creator>Tutty</dc:creator>
      <pubDate>Thu, 03 Apr 2025 14:37:35 +0000</pubDate>
      <link>https://forem.com/tutti/search-o1-agentic-search-enhanced-large-reasoning-models-23mp</link>
      <guid>https://forem.com/tutti/search-o1-agentic-search-enhanced-large-reasoning-models-23mp</guid>
      <description>&lt;h2&gt;
  
  
  選定理由と所感
&lt;/h2&gt;

&lt;p&gt;Tsinghua Universityの研究、OpenAIのDeepResearchの方式はブラックボックスであるが、耐ノイズRAGという分野は今後も大きな研究分野になると思われる。&lt;/p&gt;

&lt;p&gt;Paper: &lt;a href="https://arxiv.org/abs/2501.05366" rel="noopener noreferrer"&gt;https://arxiv.org/abs/2501.05366&lt;/a&gt;&lt;br&gt;
Code: N/A&lt;br&gt;
blog: &lt;a href="https://zenn.dev/givery_ai_lab/articles/5c684e9fefa9e6#%E6%96%B9%E6%B3%95%E6%A6%82%E8%A6%81" rel="noopener noreferrer"&gt;https://zenn.dev/givery_ai_lab/articles/5c684e9fefa9e6#%E6%96%B9%E6%B3%95%E6%A6%82%E8%A6%81&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;agentic RAGの弱点を補うためのReason-in-Documentsを追加して耐ノイズ性能を高めている。Reason-in-Documentsのロジックを数式にすると複雑に見えるが、やっていることはLLM頼みで難しくはない。このLLMへの依存性が強い所は欠点とも言える。&lt;/p&gt;

&lt;h2&gt;
  
  
  概要
&lt;/h2&gt;

&lt;p&gt;&lt;strong&gt;【社会課題】&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
LLMは膨大な知識を学習できるが、ビジネスは常に変化し続けるためLLMが持っていない知識が重要となる場面が多い。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;【技術課題】&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
Naive RAG は1回の検索で全ての知識を取得しようとするため、オンデマンドで必要な情報を得られない。また、長文のドキュメントに対してLLMは推論の一貫性を損ない、誤答の原因となる上に、LLMは長文理解が苦手であり適切な情報抽出が困難。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;【提案】&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
提案するSearch-o1 は Agentic RAG で推論中に必要なタイミングで検索を行い、Reason-in-Documents モジュール で検索結果を整理して推論の一貫性を維持する。これにより、LRMs の知識補完と推論精度を向上させる。  &lt;/p&gt;

&lt;p&gt;&lt;strong&gt;【実験・効果】&lt;/strong&gt;&lt;br&gt;&lt;br&gt;
科学・数学・コーディング・QA などのタスクで評価した結果、Search-o1 は GPQA で専門家を上回る精度を達成し、従来の RAG に比べ最大 29.6% 精度が向上。特に多段階推論が必要な問題で大きな効果を発揮した。  &lt;/p&gt;

&lt;h2&gt;
  
  
  Search-o1
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fxtclz4by0sylovwb55ow.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Fxtclz4by0sylovwb55ow.png" alt="fig2" width="800" height="560"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;h3&gt;
  
  
  Search-o1 Inference Process
&lt;/h3&gt;

&lt;p&gt;動的な知識補完と推論最適化を組み合わせた推論プロセスであり、以下の 3 つの主要ステップで構成される。&lt;/p&gt;

&lt;p&gt;1* オンデマンド検索による知識補完（Agentic RAG）&lt;/p&gt;

&lt;p&gt;2* Reason-in-Documents による情報整理&lt;/p&gt;

&lt;p&gt;3* Batch Inference Mechanism による推論最適化&lt;/p&gt;

&lt;h3&gt;
  
  
  Agentic Retrieval-Augmented Generation Mechanism
&lt;/h3&gt;

&lt;p&gt;従来のRAGは 1 回の検索で取得されたデータを元に推論を行うが、&lt;a href="https://arxiv.org/abs/2501.09136" rel="noopener noreferrer"&gt;Agentic RAG&lt;/a&gt;では推論の各ステップでオンデマンドで検索を実行し、逐次的に知識補完する。これにより、必要な情報を逐一取得できるため、推論精度が向上する。また、検索クエリの生成もモデル自身が適応的に決定し、推論の文脈に基づいた柔軟な情報取得を可能にする。&lt;br&gt;
ただし、Agentic RAGは取得された文書をそのままプロンプトに挿入するため、ノイズ・冗長性を増加させる欠点があった。又、開発時のアルゴリズムも複雑になりがちである。&lt;/p&gt;

&lt;h3&gt;
  
  
  Knowledge Refinement via Reason-in-Documents
&lt;/h3&gt;

&lt;p&gt;search-o1最大の特徴となる検索から必要な情報だけを抽出し、統合するための処理を行う部。これによってAgentic RAGが持つ欠点を補うことができる。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;1&lt;/strong&gt; 検索結果のフィルタリング&lt;br&gt;
取得したドキュメントから 推論に直接関係しない情報を除去する。例えば、数式の証明を求める場合、定義の説明は必要だが、歴史的背景は不要。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;2&lt;/strong&gt; 関連情報の抽出と再構成&lt;br&gt;
検索結果を LLM に適したフォーマットで整理し、必要な情報のみを統合する。例えば、同じ概念について異なる文書で説明されている場合、それらを要約・統合してLLMに提供。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;3&lt;/strong&gt; 推論コンテキストの最適化&lt;br&gt;
LLMの推論がスムーズに行えるよう、整理された情報を適切な文脈で提示する。コーディングタスクなら、コードスニペットとその説明を 最適な順序で配置し、理解しやすくする。&lt;/p&gt;

&lt;h3&gt;
  
  
  Batch Inference Mechanism
&lt;/h3&gt;

&lt;p&gt;複数の推論リクエストを一括処理することで、計算コストを削減しつつ推論の一貫性を向上させる手法も提案している。具体的には、類似したクエリを統合し、冗長な検索を省略することで、必要な知識を効率的に取得・整理する。さらに、並列推論を活用することで処理速度を向上させ、従来の逐次的な検索・推論に比べて大幅なパフォーマンス改善を実現する。&lt;/p&gt;

&lt;h2&gt;
  
  
  実験
&lt;/h2&gt;

&lt;p&gt;&lt;a href="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ffk3yqbk7zp7xoe6avpgw.png" class="article-body-image-wrapper"&gt;&lt;img src="https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=auto%2Cformat=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Farticles%2Ffk3yqbk7zp7xoe6avpgw.png" alt="tb1" width="800" height="563"&gt;&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;実験では、科学、数学、プログラミング などの推論タスクを対象に、Search-o1 の性能を評価した。従来の RAG と比較し、正答率の向上、推論の一貫性、検索効率の改善 を確認。特に、Agentic RAG による動的検索と Reason-in-Documents による情報整理が有効であり、長文推論や複雑な問題でのパフォーマンスが向上した。また、Batch Inference Mechanism により、検索・推論コストの削減 も達成された。&lt;/p&gt;

</description>
      <category>rag</category>
      <category>chatgpt</category>
    </item>
  </channel>
</rss>
