AnthropicがClaude Sonnet 4.6を公開、PC操作能力が飛躍
- •Anthropicが、100万トークンのコンテキストウィンドウを備えたClaude Sonnet 4.6のベータ版をリリースした。
- •PC操作能力が大幅に向上し、複雑なウェブタスクにおいて人間レベルのパフォーマンスを達成している。
- •コーディングや指示への追従性において、従来の最上位モデルであるOpus 4.5を上回る性能を示した。
Anthropicは、中位モデルの効率性と最上位モデルの推論能力を融合させた大型アップグレード「Claude Sonnet 4.6」を発表した。この新モデルは現在、Claude.aiユーザーのデフォルトとなっており、100万トークンという膨大なコンテキストウィンドウを搭載している。これは、一度のプロンプトでコードベース全体や数十本もの研究論文を処理できる情報保持能力に相当する。
特に注目すべきは、洗練された「コンピュータ・ユース(Computer Use)」機能だ。従来のバックエンド連携に頼る手法とは異なり、Sonnet 4.6は画面を視覚的に解釈し、マウスクリックやキー入力をシミュレートすることで、人間と同じようにPCを操作する。実際のベンチマークでは、複雑なスプレッドシートの操作や多段階のウェブフォーム入力において人間レベルの習熟度を示しており、実世界の煩雑なオフィス業務を自律的にこなすAIエージェントの実現へ向けて大きな一歩を踏み出した。
開発者向けには、メモリ制限への到達を防ぐために会話の古い部分を自動で要約する「コンテキスト・コンパクション」や、タスクの難易度に応じて推論の深さを調整する「アダプティブ・シンキング」といった新機能が導入された。初期テスターの報告によると、同モデルは「怠慢」やハルシネーション(もっともらしい嘘)が著しく減少しており、複雑なコーディングタスクでは、自社の旧フラッグシップであるOpus 4.5を頻繁に凌駕している。
また、今回のアップデートでは「モデル・コンテキスト・プロトコル (MCP)」がExcelに統合され、スプレッドシートを離れることなく外部の金融ソースから直接データを取得できるようになった。こうした自律性の向上の一方で、Anthropicは安全性を最優先事項として強調しており、ウェブサイト内に悪意のある指示を潜ませてモデルを乗っ取るプロンプトインジェクション攻撃への防御力も強化されている。