ThinkSafe:モデル自身の思考で安全性を高める新手法
2026年2月2日 (月)
- •外部の教師モデルに頼らず、AIの安全性を自律的に向上させる新フレームワーク「ThinkSafe」が登場した。
- •「軽量拒絶ステアリング」を用いて潜在的な安全知識を抽出し、モデル内部で推論のプロセスを生成する。
- •DeepSeekやQwenなどのモデルにおいて、高い推論性能を維持しつつ、低コストでの実装を実現した。
高度な推論モデルは、複雑な論理課題に特化するあまり、ユーザーの指示に過度に従順になり、本来守るべき安全プロトコルを無視してしまう「安全性の低下」という課題を抱えている。従来、この問題は安全性の高い「教師モデル」の振る舞いを模倣させる手法で解決されてきた。しかし、この方法は教師モデルのスタイルと対象モデル独自の思考プロセスとの間に乖離を生じさせ、結果として推論能力や論理的一貫性を損なうことが少なくなかった。
これに対し、ThinkSafeフレームワークは外部に頼らずモデル内部の知識を活用する独創的なアプローチを提示した。具体的には「軽量拒絶ステアリング」という技術を通じて、有害性に関するモデル自身の潜在的な知識を引き出し、なぜそのプロンプトを拒絶すべきかを自らの論理で説明させる。これは「思考の連鎖 (CoT)」と呼ばれるプロセスであり、モデル自身の思考パターンに基づいた安全な説明を生成・学習させることで、本来の推論能力を保ったまま安全性を向上させることに成功したのである。
実際のテストにおいて、ThinkSafeは従来の強化学習手法であるGRPOを上回る安全スコアを記録した。特筆すべきは、複雑な数学や論理パズルの正答率を落とすことなく、はるかに少ない計算リソースでこれを実現した点だ。この「自己進化型」のアプローチは、次世代のAIが外部からの検閲に頼るのではなく、自ら学んだデータの中から倫理的な羅針盤を見つけ出せる可能性を力強く示唆している。