MIT、料理を支援する「物理的」なAIインターフェースを開発
2026年2月4日 (水)
- •MITの研究チームが、AIによる料理支援を目的とした物理的な大規模言語オブジェクト(LLO)「Kitchen Cosmo」を発表した。
- •視覚言語モデル(VLM)を活用したプロトタイプが食材を識別し、ユーザーのニーズに合わせたレシピを生成する。
- •物理的なダイヤルやサーマルプリンターを搭載し、AIを画面の中から現実世界へと連れ出す設計となっている。
MIT建築学部の学生チームが、デジタルの知能を物理的な世界へと連れ出す触覚型アシスタント「Kitchen Cosmo」を発表した。このデバイスは、大規模言語モデル(LLM)の能力を現実の環境へと拡張する『大規模言語オブジェクト(LLO)』という新たな概念を提示している。画面越しではなく、ヒンジ付きのウェブカメラで食材を直接スキャンし、視覚とテキストを同時に処理するマルチモーダルなAIである視覚言語モデル(VLM)によってその情報を即座に解析する仕組みだ。
学生のジェイコブ・ペイン(Jacob Payne)氏とアヤ・マフムード(Ayah Mahmoud)氏らが率いるこのプロジェクトは、1969年の「Honeywell 316 Kitchen Computer」から着想を得つつ、現代の生成AIの力を加えている。ユーザーはダイヤルを回して食事制限やその時の「気分」を設定するが、こうした身体的な操作感はAIを身近なパートナーとして感じさせる。特に、地域のスパイスの特徴や適切な調理温度といった、物理的な感覚を欠く従来のモデルが苦手としてきた概念を理解させるため、入念なファインチューニングが行われた。
出力にはサーマルプリンターを採用し、手元に残るレシピを提供することで、ユーザーの視線を画面ではなく料理そのものに留めている。現在は、特定の調理器具の使い方を教える「学習モード」の研究も進められているという。知能が単なるクラウド上のサービスではなく、実体を伴う存在として文脈を共有し、リアルタイムで対話する未来を象徴する試みといえる。