この記事の要点は？

SoTプロンプティングが8つの多様なテキスト処理タスクにおいてモデルの性能を向上 6つの科学分野にわたる1,800個のサンプルを含む「T2S-Bench」で、構造的推論の評価が可能に T2S-Benchを用いたファインチューニングにより、Qwenモデルの精度が最大8.6%向上

AIの構造的推論を強化する「SoT」手法が登場

•SoTプロンプティングが8つの多様なテキスト処理タスクにおいてモデルの性能を向上
•6つの科学分野にわたる1,800個のサンプルを含む「T2S-Bench」で、構造的推論の評価が可能に
•T2S-Benchを用いたファインチューニングにより、Qwenモデルの精度が最大8.6%向上

テキストの構造化は人間の知性を象徴する要素の一つだが、多くのAIモデルは未加工の情報を扱いやすい形式に整理することを苦手としている。これに対し、研究チームはモデルに中間的な構造を作成させる手法「Structure of Thought (SoT)」を考案した。回答の前に思考の「アウトライン」を作成させることで、複雑なデータの抽出や複数段階の推論が必要なタスクにおいて、AIに明確な道筋を示せるようになる。

この手法を補完する存在が、自然言語をテーブルやツリーといった構造化フォーマットへ変換する能力を厳密に測定する「T2S-Bench」だ。6つの科学分野と32の構造タイプを網羅したこのベンチマークにより、現状の課題が明らかになった。現在の最高峰モデルであっても、マルチホップタスクの平均精度は52.1%にとどまっており、高度な科学分野への応用にはまだ進化の余地があることが示唆されている。

実用面でのインパクトも極めて大きい。Qwen2.5-7B-InstructモデルにSoTプロンプトを導入しただけで性能が5.7%向上し、さらにT2S-Benchで学習を最適化すると、その向上幅は8.6%にまで拡大した。これらの結果は、学習データの質だけでなく、モデルの「内部的な思考の整理」を導くことがいかに重要であるかを物語っている。モデルが「何を知っているか」と同じくらい、「いかに考えるか」が成果を左右するのだ。

テキストの構造化は人間の知性を象徴する要素の一つだが、多くのAIモデルは未加工の情報を扱いやすい形式に整理することを苦手としている。これに対し、研究チームはモデルに中間的な構造を作成させる手法「Structure of Thought (SoT)」を考案した。回答の前に思考の「アウトライン」を作成させることで、複雑なデータの抽出や複数段階の推論が必要なタスクにおいて、AIに明確な道筋を示せるようになる。

この手法を補完する存在が、自然言語をテーブルやツリーといった構造化フォーマットへ変換する能力を厳密に測定する「T2S-Bench」だ。6つの科学分野と32の構造タイプを網羅したこのベンチマークにより、現状の課題が明らかになった。現在の最高峰モデルであっても、マルチホップタスクの平均精度は52.1%にとどまっており、高度な科学分野への応用にはまだ進化の余地があることが示唆されている。

実用面でのインパクトも極めて大きい。Qwen2.5-7B-InstructモデルにSoTプロンプトを導入しただけで性能が5.7%向上し、さらにT2S-Benchで学習を最適化すると、その向上幅は8.6%にまで拡大した。これらの結果は、学習データの質だけでなく、モデルの「内部的な思考の整理」を導くことがいかに重要であるかを物語っている。モデルが「何を知っているか」と同じくらい、「いかに考えるか」が成果を左右するのだ。

AIの構造的推論を強化する「SoT」手法が登場

タグ