検索評価をLLMに任せてよいか? ― LLMジャッジのバイアスと限界
社内の勉強会で読んだ論文の紹介。 今回は、LLMを使った検索のリランキングと評価に関する論文について。
Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation
https://arxiv.org/abs/2503.19092
情報検索において、LLMがRankerやアシスタント(コンテンツ作成支援)、評価に使われている。 しかし、これらが複数同時に検索で使われると、バイアスの導入につながる可能性がある。 この論文では、LLMジャッジの品質に関する課題と、LLMベースのランカーとアシスタントがLLMジャッジにどのように影響を与えるかを体系的な実験を通じて明らかにしている。
実験では、LLMジャッジの識別能力とバイアスを検証するため、人間の正解ラベルに基づく、オラクルランカーという手法を提案している。オラクルランカーでは、人間の正解ラベルに基づいた理想的なランキングと、それの上位と下位の一部をSwapしたバージョンのランキングを導入する。これにより、LLMランカーの影響を廃した状態でLLMジャッジの性能を評価できるようになる。
実験の結果、以下のことが明らかになった。
- LLMモデルの選択によるジャッジの影響はある
- 新しいモデルの方が人間の評価と一致している。大きいモデルが必ずしも良いとは限らない。
- LLMジャッジの識別能力には限界がある
- LLMジャッジは、オラクルランキングを正確に順序づけることが困難であった。これは、微妙ではあるが統計的に有意な差を識別する能力には限界があることを示唆している。
- LLMジャッジはLLMベースランカーを有利に評価するバイアスが存在する
- 人間の判定はオラクルランカーを一貫して全てのLLMベースランカーの上に位置付ける。一方で、LLMジャッジは、すべてのLLMベースランカーをオラクルランカーよりも優れていると評価する。これは、非LLMベースシステムの真の性能がいちじるしく過小評価されている事実を浮き彫りにしている。
- LLMジャッジはLLM生成テキストに対するバイアスは示さない
- 人間が書いたドキュメントと、そのドキュメントのAI書き換えバージョンを作成し、それぞれクエリとの関連度を評価。LLM生成テキストに対して、ジャッジの関連性スコアが高くなることはなかった。
実験を踏まえて、この論文ではLLM評価の目的を、人間の評価者を置き換えることではなく、限られた人間の評価者の時間とリソースをより効率的に使用できるようにすべきと主張している。 なぜなら、関連性自体が、本質的な不確実性を持っており、人間だけが現実世界の有用性を反映する方法で情報の関連性を判断できるため、LLMによる評価には根本的な限界がある。
最後に、LLMジャッジを使用するためのガイドラインとして、以下が提案されている。
- システム間の一貫した評価
- 単一の評価で比較されるシステムは、同じLLMジャッジ構成で評価されるべき
- 透明性と再現性
- LLMのバージョン、プロンプト、関連するパラメーターを明確にすべき
- 複数のLLMをジャッジとして使用
- 異なるLLMジャッジの組み合わせを使用することでバイアスを軽減できる
- 人間の好みとの整合
- LLMジャッジの結果の代表的なサンプルに対する人間の検証も行うべき
感想
検索の評価をLLMにまかせてしまってよいか?は以前から気になっていたテーマなので読めてよかった。 プロダクト開発では、正解データが全くなかったり、少なかったりすることがよくある。そのような場合に、手軽に検証できるLLMの評価だけで判断してしまいがち。 特に現在は、Coding Agentによって、新しい論文の手法を簡単に実装できるようになっているので、 実際には効果がなかったり悪化したりする手法をリリースしてしまう危険性があるなと思った。 論文でLLM評価が良くても、バイアスがかかっていることを忘れないようにして、オンラインテストや人間による評価もしなければならない。