AIが自ら学ぶ:推論時に進化する「TTCS」
- •TTCSフレームワークは、推論フェーズで独自の学習カリキュラムを生成し、大規模言語モデル (LLM)の推論力を向上させる。
- •問いを生成する「シンセサイザー」と、回答から報酬を導き出す「ソルバー」が共進化する仕組みを採用した。
- •数学的なベンチマークで高い性能を示し、異なるモデル構造間でも効果的に機能することが実証された。
「テスト時トレーニング」は、モデルの知能に対するアプローチの大きな転換を象徴している。これは、大規模言語モデル (LLM)が実際の推論フェーズにおいて、特定の問題に即座に適応することを可能にするものだ。従来の手法では、学習のシグナルが乏しい高難易度の問題に直面すると、モデルが対応しきれないという課題があった。そこでTTCSフレームワークは、内部に2つのポリシーを持たせ、それらを互いに高め合わせる「共進化」の関係を導入することでこの難題を解決したのである。
システムの中心となるのは、専用の「問題シンセサイザー」だ。これはモデルの現在の実力に合わせて、難易度を段階的に高めた一連の問題(パーソナライズされた学習ガイドのようなもの)を動的に作成する。一方、第2のコンポーネントである「推論ソルバー」は、これらの合成された課題に取り組みながら、「自己整合性」に基づいた報酬を生成する。この報酬は一種の品質チェックとして機能し、モデルは複数の試行結果を比較して、最も正解に近い論理パスを自ら判断する仕組みだ。
このフィードバックループは双方向で機能する。ソルバーのパフォーマンスはシンセサイザーに伝えられ、次にどのような問題を生成すべきかの判断材料となる。また、生成されたカリキュラムの存在により、データが限られた状況下でも学習プロセスが不安定になったり、破綻したりするのを防いでいる。実際に、自律的に学習経路を構築することで、事前学習済みの知識と未知の複雑なタスクとの間のギャップを効果的に埋められることが示された。
AIの自己進化の未来において、この成果が持つ意味は極めて大きい。実験では数学領域で卓越した成果を収めただけでなく、異なるモデル構造に対しても高い汎用性を示した。これは、人間の継続的な介入を必要とせず、AIモデルが自らの論理的思考を自律的に強化できる、拡張性の高い道筋を示唆している。