LLMランキング、わずか2票の変動で首位交代の恐れ
- •わずか0.0035%の投票を除外するだけで、LLMの首位が入れ替わることがMITの調査で明らかになった。
- •研究チームは、影響力のある投票を特定し、ユーザーの誤操作によるノイズを検出する効率的な近似手法を開発した。
- •専門家が評価するプラットフォームは比較的堅牢だが、依然としてデータの微細な変動には脆弱である。
最適な大規模言語モデル(LLM)の選択は、多くの場合ベンチマークのランキングに依存している。しかし、マサチューセッツ工科大学(Massachusetts Institute of Technology)の最新の研究によれば、これらの指標は見た目以上に脆弱である可能性が高い。実際に、クラウドソーシングされたデータのうち極めてわずかな量、あるケースでは5万7,000票のうちわずか2票を除外するだけで、首位のモデルが入れ替わることが判明したのだ。このような極端な感度は、公開ランキングを頼りに重要なインフラ決定や導入判断を行う企業にとって、見過ごせないリスクを浮き彫りにしている。
シニアオーサーを務める統計学者のタマラ・ブロデリック(Tamara Broderick)氏率いる研究チームは、膨大な再計算を必要とせずにプラットフォームの堅牢性をテストできる高速近似手法を導入した。この手法で「影響力の強い」データポイントを特定した結果、多くのランキング変動はモデル間の明確な性能差ではなく、ユーザーの単純なノイズや「押し間違い」によって引き起こされていることが分かった。専門の評価者を起用するプラットフォームは一般的なクラウドソーシング型よりも耐性を示したものの、数パーセントの評価データが欠けるだけで順位が変動する脆弱性は依然として残されていた。
この不安定性に対処するため、チームはランキングプラットフォームに対し、ユーザーの確信度や具体的な好みの理由といった、より詳細なフィードバックを収集することを推奨している。また、影響力の大きい投票を人間が仲介して監査することで、外れ値や悪意のある操作を防ぐことも有効な対策となるだろう。LLMがビジネスの重要ワークフローに統合される中、今回の研究は「ランキング首位」が必ずしもすべてのユースケースにおける絶対的な優位性を意味しないという、重要な教訓を提示している。