この記事の要点は？

2,000件のプロンプトと19種類の詳細なエラー分類に基づき、物語の整合性を評価するConStory-Benchが登場した。自動パイプラインのConStory-Checkerは、本文中の具体的な証拠や引用を提示することで矛盾を検出する。物語の中盤で整合性エラーが多発すること、そしてそれがトークンレベルのエントロピーと高い相関を持つことが明らかになった。

LLM、長編物語の整合性維持に課題

•2,000件のプロンプトと19種類の詳細なエラー分類に基づき、物語の整合性を評価するConStory-Benchが登場した。
•自動パイプラインのConStory-Checkerは、本文中の具体的な証拠や引用を提示することで矛盾を検出する。
•物語の中盤で整合性エラーが多発すること、そしてそれがトークンレベルのエントロピーと高い相関を持つことが明らかになった。

•2,000件のプロンプトと19種類の詳細なエラー分類に基づき、物語の整合性を評価するConStory-Benchが登場した。
•自動パイプラインのConStory-Checkerは、本文中の具体的な証拠や引用を提示することで矛盾を検出する。
•物語の中盤で整合性エラーが多発すること、そしてそれがトークンレベルのエントロピーと高い相関を持つことが明らかになった。

大規模言語モデル（LLM）は、首尾一貫した文章を生成する能力に長けている。しかし、長編の物語を執筆させる際、しばしば「話の筋を見失う」という課題に直面する。物語が数万語に及ぶと、モデルは自ら構築した世界観を維持できなくなり、設定されたキャラクターの性格と矛盾したり、時間的な論理性を見失ったりすることが頻繁に発生する。こうしたハルシネーション（幻覚）を定量化するため、研究チームは文章の流暢さやプロットの質ではなく、物語としての誠実さを監査する専門フレームワーク「ConStory-Bench」を導入した。

このベンチマークでは、不整合を5つの主要なエラータイプに分類している。2,000件の多様なプロンプトを分析した結果、LLMは特に事実関係や時間経過の失念、つまり「いつ何が起きたか」を忘れる傾向が強いことが判明した。興味深いことに、これらのバグは均等に発生するわけではなく、物語の中盤に集中する傾向がある。これは、コンテキストウィンドウが満たされるにつれて、モデルが物語の土台となる情報を把握しきれなくなっていることを示唆している。

本研究の重要な革新の一つが、自動パイプラインの「ConStory-Checker」だ。これは単にエラーを指摘するだけでなく、本文から正確な一節を引用して証拠を提示する。この仕組みにより、評価の再現性と監査可能性が確保されている。また、研究者は整合性のバグとトークンレベルのエントロピーに相関があることも突き止めた。これは、モデルが次の単語選びに「確信が持てない」状態であるほど、自ら設定したルールを破る可能性が大幅に高まることを意味している。

大規模言語モデル（LLM）は、首尾一貫した文章を生成する能力に長けている。しかし、長編の物語を執筆させる際、しばしば「話の筋を見失う」という課題に直面する。物語が数万語に及ぶと、モデルは自ら構築した世界観を維持できなくなり、設定されたキャラクターの性格と矛盾したり、時間的な論理性を見失ったりすることが頻繁に発生する。こうしたハルシネーション（幻覚）を定量化するため、研究チームは文章の流暢さやプロットの質ではなく、物語としての誠実さを監査する専門フレームワーク「ConStory-Bench」を導入した。

このベンチマークでは、不整合を5つの主要なエラータイプに分類している。2,000件の多様なプロンプトを分析した結果、LLMは特に事実関係や時間経過の失念、つまり「いつ何が起きたか」を忘れる傾向が強いことが判明した。興味深いことに、これらのバグは均等に発生するわけではなく、物語の中盤に集中する傾向がある。これは、コンテキストウィンドウが満たされるにつれて、モデルが物語の土台となる情報を把握しきれなくなっていることを示唆している。

本研究の重要な革新の一つが、自動パイプラインの「ConStory-Checker」だ。これは単にエラーを指摘するだけでなく、本文から正確な一節を引用して証拠を提示する。この仕組みにより、評価の再現性と監査可能性が確保されている。また、研究者は整合性のバグとトークンレベルのエントロピーに相関があることも突き止めた。これは、モデルが次の単語選びに「確信が持てない」状態であるほど、自ら設定したルールを破る可能性が大幅に高まることを意味している。

LLM、長編物語の整合性維持に課題

タグ