パブリックドメインで学習したヴィクトリア朝AIが登場
2026年3月30日 (月)
- •Mr. Chatterboxは、大英図書館のアーカイブに由来するヴィクトリア朝時代の29億トークンのみで学習された。
- •3億4000万パラメータの小型モデルであり、現代のウェブスクレイピング・データセットを使わない学習の難しさを示している。
- •開発者はアンドレイ・カルパシー(Andrej Karpathy)氏のnanochatやClaude Codeを活用し、ローカル環境でのモデル統合を実現した。
トリップ・ベンチュレラ(Trip Venturella)(開発者)によって構築された「Mr. Chatterbox」は、AI学習における倫理的なアプローチを模索する興味深い試みである。このモデルは、1837年から1899年の間に出版された2万8000件以上のヴィクトリア朝時代のテキストのみを使用して学習された。著作権の切れた大英図書館のコレクションをデータソースとすることで、現在のAI業界で議論の的となっている「無断スクレイピング」の問題を巧みに回避している。
歴史的な趣を持つ一方で、現代的な性能を実現するためのハードルの高さも浮き彫りになった。3億4000万のパラメータと29億3000万の学習トークンという規模では、論理的な一貫性を保った推論を行うことが難しい。技術的なレビューによれば、その対話体験は、深い文脈理解に基づくものではなく、純粋に確率統計に基づいて次の単語を予測する数学的システムであるマルコフ連鎖に近いという。
このプロジェクトの結果は、モデルを実用的な水準に到達させるためには、サイズに応じた膨大なデータ量が必要であるというチンチラのスケーリング則を改めて裏付ける形となった。しかし、ローカル環境でモデルを動かすためのワークフローには注目すべき点がある。著名なAI研究者であるアンドレイ・カルパシー(Andrej Karpathy)氏が開発したnanochatフレームワークを活用し、個人のハードウェア上で動作するプラグインの構築を自動化した。これにより、ニッチな研究用モデルをローカルで手軽に実行できる環境を整え、技術的なギャップを埋める可能性を示唆した。