検索評価をLLMに任せてよいか? ― LLMジャッジのバイアスと限界

· takatori
論文LLM情報検索

社内の勉強会で読んだ論文の紹介。 今回は、LLMを使った検索のリランキングと評価に関する論文について。

Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation

https://arxiv.org/abs/2503.19092

情報検索において、LLMがRankerやアシスタント(コンテンツ作成支援)、評価に使われている。 しかし、これらが複数同時に検索で使われると、バイアスの導入につながる可能性がある。 この論文では、LLMジャッジの品質に関する課題と、LLMベースのランカーとアシスタントがLLMジャッジにどのように影響を与えるかを体系的な実験を通じて明らかにしている。

実験では、LLMジャッジの識別能力とバイアスを検証するため、人間の正解ラベルに基づく、オラクルランカーという手法を提案している。オラクルランカーでは、人間の正解ラベルに基づいた理想的なランキングと、それの上位と下位の一部をSwapしたバージョンのランキングを導入する。これにより、LLMランカーの影響を廃した状態でLLMジャッジの性能を評価できるようになる。

実験の結果、以下のことが明らかになった。

実験を踏まえて、この論文ではLLM評価の目的を、人間の評価者を置き換えることではなく、限られた人間の評価者の時間とリソースをより効率的に使用できるようにすべきと主張している。 なぜなら、関連性自体が、本質的な不確実性を持っており、人間だけが現実世界の有用性を反映する方法で情報の関連性を判断できるため、LLMによる評価には根本的な限界がある。

最後に、LLMジャッジを使用するためのガイドラインとして、以下が提案されている。

感想

検索の評価をLLMにまかせてしまってよいか?は以前から気になっていたテーマなので読めてよかった。 プロダクト開発では、正解データが全くなかったり、少なかったりすることがよくある。そのような場合に、手軽に検証できるLLMの評価だけで判断してしまいがち。 特に現在は、Coding Agentによって、新しい論文の手法を簡単に実装できるようになっているので、 実際には効果がなかったり悪化したりする手法をリリースしてしまう危険性があるなと思った。 論文でLLM評価が良くても、バイアスがかかっていることを忘れないようにして、オンラインテストや人間による評価もしなければならない。