AIをテキストで最適化する「Feedback Descent」
2026年1月25日 (日)
- •スタンフォード大学の研究チームが、数値スコアではなくテキストによる批評でAIを最適化する「Feedback Descent」を導入した。
- •分子設計において、ドッキングシミュレーターの実行回数を従来の強化学習の3.8分の1に削減することに成功。
- •創薬からSVG生成、プロンプト・エンジニアリングまで、分野を問わず適用可能な汎用フレームワークを実現。
従来の強化学習は、情報密度の高い診断情報が単一の数値報酬へと圧縮されてしまう「スカラー・ボトルネック」に悩まされてきた。例えば、ケーキの出来栄えに「5点満点中4点」という点数だけをつけられ、具体的にチェリーを増やすべきかどうかも分からないまま、勘に頼って改善を繰り返すパン職人のような状況だ。スタンフォード大学の研究チームが提唱した「Feedback Descent」は、自然言語による批評を「テキスト勾配」として利用し、具体的で実行可能な改善へとモデルを導くことで、この限界を突破した。 システムの核心は、「エバリュエーター(評価者)」と「エディター(編集者)」による対話的なループにある。エバリュエーターが分子構造の欠陥や画像の美的な問題点を指摘し、LLMであるエディターがその履歴を反映して修正案を作成する。このプロセスはモデルの重みを更新するのではなく、意味空間での対話として最適化を行うため、新しい学習が既存の能力を損なう「破滅的忘却」を防げるのが大きな利点だ。 実際の応用例として、計算創薬における成果が目覚ましい。分子をテキストで表現するSMILES記法を用い、既存データベースの99.9%を凌駕する結合親和性を持つ化合物を特定することに成功した。これは専門の最適化ツールに匹敵する性能であり、標準的な強化学習を大きく上回る。テキストによるフィードバックが、大規模な学習を支える堅牢な基盤となり得ることを示した重要な成果と言えるだろう。