コードを画像で理解する「CodeOCR」の衝撃
2026年2月4日 (水)
- •上海交通大学が「CodeOCR」を発表し、ソースコードを画像として処理する新手法を提案。
- •視覚言語モデル(VLM)の活用により、精度を維持したままトークン消費量を8分の1に削減。
- •シンタックスハイライトなどの視覚情報が、AIのコード構造理解を大幅に向上させることが判明。
従来の大規模言語モデル(LLM)は、ソースコードを長いテキスト文字列として処理してきた。しかし、ソフトウェアプロジェクトの規模が拡大するにつれ、この手法は膨大な計算メモリ、すなわちトークンを消費するという課題に直面している。これに対し、上海交通大学の研究チームは「CodeOCR」というパラダイムシフトを提案した。これは、コードをテキストシーケンスではなく視覚的な画像として扱う手法だ。コードを画像化することで、情報を最大8倍まで圧縮でき、モデルは一文字ずつ処理する重い負荷を避けつつ、ソフトウェアの構造を効率的に「視認」することが可能になる。
このマルチモーダルなアプローチは、画像とテキストを同時に解釈する視覚言語モデル(VLM)固有の強みを活かしている。研究の結果、開発者がコードの各部分を区別するために使うシンタックスハイライト(色分け)などの視覚的補助がある場合、モデルのパフォーマンスが向上することが判明した。こうした視覚的な手がかりは、生テキストには欠けている構造的なコンテキストを提供し、画像の解像度が大幅に低くなったとしても、AIが複雑なロジックを読み解く助けとなるのだ。
特に驚くべきは、2つのコード断片がほぼ同一かどうかを識別する「クローン検出」などの特定のタスクにおいて、この視覚的圧縮手法が極めて高い耐性を示したことである。一部の実験ケースでは、画像ベースの手法が従来のテキスト入力よりもわずかに優れた性能を発揮することさえあった。この発見は、将来の高速AIコーディングツールが、コードを一行ずつ読み込むのではなく、スナップショットを「一目見る」だけで大規模なリポジトリをより安価かつ迅速に処理できる可能性を示唆している。