论文名称:A Survey on LLM-as-a-Judge
论文地址:https://arxiv.org/pdf/2411.15594

在人工智能飞速发展的今天,评估技术的革新始终是推动领域进步的关键动力。传统的人工评估成本高昂且难以规模化,而自动评估指标又局限于表面特征,无法捕捉复杂任务的深层内涵。就在这时,大语言模型(LLMs)的崛起带来了一场评估革命——"LLM-as-a-Judge"范式应运而生。

想象一下,当你需要评估一篇机器生成的新闻摘要质量时,不再需要等待专家团队的耗时评审,也不必依赖仅计算词汇重叠的传统指标,而是可以让一个经过训练的大语言模型在几秒内给出既符合人类判断又具有细微差别的评估结果。这不仅大幅降低了评估成本,更开启了大规模、精细化评估的新篇章。

本文将带你全面探索LLM-as-a-Judge的世界,从基本概念到实际应用,从技术细节到未来展望,深入解析这一革新性技术如何改变我们评估AI系统的方式。

一、LLM-as-a-Judge:重新定义智能评估

1.1 什么是LLM-as-a-Judge?

在康德的哲学理论中,判断力被定义为"将特殊事物归摄于普遍规则之下的能力"。这一概念在人工智能领域找到了新的诠释——LLM-as-a-Judge正是让大语言模型扮演"裁判"角色,根据预设规则对特定对象进行评估的技术范式。

从形式化定义来看,LLM-as-a-Judge可以表示为:

E←PLLM(x⊕C)\mathcal{E} \leftarrow \mathcal{P}_{\mathcal{LLM}}(x \oplus C)EPLLM(xC)

其中:

  • E\mathcal{E}E是最终的评估结果(可以是分数、选择、标签或文本)
  • PLLM\mathcal{P}_{\mathcal{LLM}}PLLM是LLM定义的概率函数,遵循自回归生成过程
  • xxx是待评估的输入数据(文本、图像、视频等)
  • CCC是评估上下文(通常是提示模板或对话历史)
  • ⊕\oplus是将输入与上下文结合的运算符

简单来说,LLM-as-a-Judge就是利用大语言模型的理解和推理能力,对各种对象(从文本生成到模型表现)进行评估的技术。它融合了传统人工评估的深度理解能力与自动评估的规模化优势,成为连接两者的桥梁。

1.2 为什么需要LLM-as-a-Judge?

在LLM时代之前,评估技术长期面临着"鱼与熊掌不可兼得"的困境:

  • 专家驱动评估:虽然能够进行全面推理和细粒度上下文理解,被视为评估的黄金标准,但成本高昂、难以规模化,且存在一致性问题。
  • 自动评估指标:如BLEU或ROUGE,虽然具有良好的可扩展性和一致性,但过度依赖表面词汇重叠,在故事生成或指令文本等任务中表现不佳。

LLM-as-a-Judge的出现正是为了打破这一困境。研究表明,它能够将自动方法的可扩展性与专家判断中的细致、上下文敏感推理相结合。例如,在学术同行评审中,LLM-as-a-Judge可以帮助处理激增的投稿量,同时保持专家级别的判断能力。

此外,通过适当的提示学习或微调,LLMs还能够处理多模态输入,进一步扩展了评估的应用范围。这种灵活性使得LLM-as-a-Judge成为解决复杂、开放式评估问题的全新范式。

1.3 LLM-as-a-Judge的核心能力

LLM-as-a-Judge之所以能够胜任评估任务,源于其独特的能力组合:

  1. 类人推理能力:LLMs能够模拟人类的推理过程,理解复杂的上下文和隐含意义,这是传统自动指标无法实现的。

  2. 灵活的任务适应性:通过不同的提示设计,同一LLM可以胜任多种评估任务,从评分到比较,从分类到验证。

  3. 规模化潜力:一旦部署,LLM-as-a-Judge可以在短时间内处理大量评估任务,大幅降低评估成本。

  4. 可解释性:与黑箱式的传统指标不同,LLM-as-a-Judge可以提供评估的理由和依据,增强评估的透明度。

  5. 持续进化:随着基础模型的不断优化,LLM-as-a-Judge的评估能力也在持续提升,不断接近甚至超越人类专家水平。

二、LLM-as-a-Judge的实践方法:从理论到应用

2.1 上下文学习:引导LLM进行评估的艺术

上下文学习(In-Context Learning)是LLM-as-a-Judge最核心的使用方法,通过提供指令和示例来引导模型的推理和判断过程。这一过程主要包括输入设计和提示设计两个关键方面。

输入设计考量

在设计评估输入时,需要考虑以下因素:

  • 输入类型:文本、图像、视频等不同数据类型需要不同的处理方式
  • 输入方式:单个输入、成对输入或批量输入,根据评估任务选择
  • 输入位置:在提示中的位置(开头、中间或结尾)可能影响评估结果
提示设计的四种主要方式

提示设计直接影响LLM-as-a-Judge的表现,主要有以下四种设计模式:

  1. 生成评分(Generating scores)

这种方式直观地用分数表示评估结果,需要仔细考虑分数的性质和范围:

  • 离散分数:常见范围如1-3、1-5或1-10
  • 连续分数:通常在0-1或0-100范围内

例如,一个简单的评分提示可能是:“请对响应的帮助性、相关性、准确性和详细程度进行评分。每个助手的整体得分在1到10之间,分数越高表示整体表现越好。”

更复杂的评分可以采用类似"语言模型作为考官"的方式,使用李克特量表(Likert scale)在多个维度上进行评分,再综合得到整体分数。例如,对摘要质量的评估可以包括准确性、连贯性、事实性和全面性四个维度,每个维度1-3分,最后得到1-5分的整体评价。

  1. 解决是非问题(Solving Yes/No questions)

这种方式要求对给定陈述进行判断,只关注其准确性,提供"是"或"否"两种固定响应。虽然简单直接,但在中间过程评估中非常有用,能够创建反馈循环。

例如,在自我优化循环中,模型可以通过"这个陈述是否有事实支持?"这样的问题进行自我反思,生成有价值的反馈用于后续尝试。在稀疏奖励信号的场景中(如只有成功/失败两种状态),这种评估方式尤为重要。

  1. 成对比较(Conducting pairwise comparisons)

成对比较是指比较两个选项并选择更优或更符合特定标准的一个,属于相对评估。研究表明,在成对比较中,LLM评估与人类评估的一致性比基于分数的评估更高,且具有更好的位置一致性。

成对比较可以扩展为更复杂的基于关系的评估框架,如使用高级排序算法进行列表比较或数据过滤。在实际应用中,有多种选项模式:

  • 两选项模式:从两个选项中选择更好的一个
  • 三选项模式:增加"平局"选项,允许评估者表示两个选项不分优劣
  • 四选项模式:进一步细分为"两者都好"和"两者都差"的平局

例如,评估两个新闻摘要的提示可能是:“给定一篇新闻文章,哪个摘要更好?回答’Summary 0’或’Summary 1’。无需解释原因。”

  1. 多项选择(Making multiple-choice selections)

多项选择提供多个选项,评估者必须选择最合适或正确的一个,能够评估更深层次的理解或偏好。这种方式比是非题提供了更广泛的响应范围,但在提示设计中不如前三种常见。

例如,评估摘要是否包含特定语义单元的提示可能是:“给定一个摘要和一些语义内容单元。对于每个语义单元,选择可以从摘要中推断出来的,返回它们的编号。”

2.2 模型选择:开源与闭源的权衡

选择合适的模型是LLM-as-a-Judge成功应用的关键,主要有两种选择:

  1. 通用LLM

使用先进的语言模型如GPT-4作为自动化评估器是一种有效的方法。例如,研究人员使用GPT-4评估其他模型在805个问题上的表现,或在八个常见领域设计80个多轮测试问题,自动评分模型响应。

GPT-4等闭源模型作为评估器的准确性已被证明与专业人类评估者相当,在评估中表现出更好的一致性和稳定性。然而,如果使用的通用LLM在指令遵循或推理能力上存在局限,可能会显著影响评估效果。

  1. 微调LLM

依赖外部API进行评估可能引发隐私泄露问题,且API模型的不透明性也对评估的可重复性构成挑战。因此,后续研究建议针对评估任务微调语言模型,强调使用成对比较或评分。

典型的评估模型微调过程包括三个主要步骤:

  • 数据收集:训练数据通常包括指令、待评估对象和评估结果(来自GPT-4或人类标注)
  • 提示设计:根据评估方案设计不同结构的提示模板
  • 模型微调:遵循指令微调范式,让模型接收指令和一个或多个响应,生成包含评估结果和可能解释的输出

例如,PandaLM基于Alpaca指令和GPT-3.5标注构建数据,微调LLaMA-7B作为评估模型;JudgeLM则从多样化的指令集和GPT-4标注构建数据,微调Vicuna作为可扩展的评估模型。

尽管这些微调模型在自定义测试集上表现出色,但在评估能力上仍存在局限性,如泛化能力差,难以与GPT-4等强LLM相比。

2.3 后处理方法:从原始输出到可靠结果

后处理旨在优化LLM-as-a-Judge生成的概率分布,确保评估结果的准确性。这一过程需要与上下文学习设计保持一致,并可能涉及增强评估提取可靠性的步骤。主要的后处理方法包括:

  1. 提取特定令牌(Extracting specific tokens)

当评估目标是分数、特定选项或是非回答时,通常使用规则匹配从概率分布迭代过程中生成的响应中提取相应的令牌。例如,对于"需要修改"和"无需修改"的评估,需要从模型输出中准确提取这些关键短语。

然而,模型输出格式可能存在差异(如"需要修改"、“结论:需要修改"或"是”),给一致解析带来困难。解决方法包括:

  • 提供清晰的输出格式指令,如"最后一句应以’更好的响应是’开头"
  • 使用少样本策略展示期望的输出格式
  • 选择具有良好指令遵循能力的基础模型
  1. 约束解码(Constrained decoding)

约束解码通过根据预定义模式限制令牌生成,强制LLM输出结构化内容(如JSON)。这种方法使用有限状态机(FSM)计算每个解码步骤的有效下一个令牌,有效掩盖模型的输出概率分布以确保符合预期模式。

尽管能保证输出在语法上有效,但约束解码也存在挑战:可能扭曲模型的学习分布,降低输出质量;需要大量工程实现工作;在推理过程中引入计算开销。

近年来,研究人员提出了多种优化方法:

  • DOMINO:保留自然令牌化同时执行约束,通过预计算和推测性解码最小化开销
  • XGrammar:将令牌分为可预检查和需要运行时验证两类,与LLM推理协同设计语法引擎,实现百倍加速
  • SGLang:结合领域特定语言和优化的运行时,高效重用KV缓存并压缩有限状态机,实现更快解码
  1. 归一化输出logits(Normalizing the output logits)

在是非设置的中间步骤中,LLM-as-a-Judge通常会归一化输出logits,以获得0到1之间的连续小数形式的评估结果。这在代理方法和基于提示的优化方法中非常常见。

例如,自一致性和自反思分数可以通过构建提示并获取每个令牌的条件概率来有效获得,利用自回归特性聚合相关令牌的概率,计算自一致性分数ρSelf-consistency和自反思分数ρSelf-reflection,最终分数由两者的乘积得到。

自评估也常使用这种方法,例如让LLM评估自身:“这个推理步骤正确吗?”,然后根据下一个词是"是"的概率进行奖励。

  1. 选择句子(Selecting sentences)

除了提取特定令牌和归一化输出logits外,LLM-as-a-Judge提取的内容还可能是句子或段落。例如,在推理任务中,代理可以通过LLM-as-a-Judge迭代考虑最有前景的推理步骤(动作、子问题),构建推理树。

2.4 评估 pipeline:LLM-as-a-Judge的完整工作流

完成上下文学习、模型选择和后处理三个过程后,我们获得最终的评估结果E\mathcal{E}E。从输入到输出,这些步骤共同构成了LLM-as-a-Judge的评估流程,主要应用于四个场景:

  1. 模型评估(LLM-as-a-Judge for Models)

评估LLM的最佳方式公认是人类判断,但收集人类标注成本高、耗时长且费力。使用强大的LLM(通常是闭源模型如GPT-4、Claude、ChatGPT)作为评估LLM的自动化代理成为自然选择。

通过适当的提示设计,评估质量和与人类判断的一致性可以达到很高水平。然而,调用这些专有模型的API仍存在成本问题,尤其是在需要对大规模数据进行频繁模型验证时。此外,闭源LLM-as-a-Judge由于API背后模型可能发生变化,导致可重复性低。

近年来,研究开始探索开源替代方案:

  • SelFee:从ChatGPT收集生成内容、反馈和修订后的生成内容,微调LLaMA模型构建评论模型
  • Shepherd:利用在线社区的反馈和人类标注数据训练模型,对单个响应输出评论
  • PandaLM:训练模型进行成对比较,用于LLM指令微调优化
  • Vicuna微调:在20K成对比较数据集上微调Vicuna,探索开源模型作为更经济的代理的潜力
  1. 数据评估(LLM-as-a-Judge for Data)

数据标注通常指为原始数据添加相关信息的标签或生成,用于提高机器学习模型的效能。然而,这一过程耗时费力且成本高昂。LLMs的出现为通过LLM-as-a-Judge实现数据标注自动化提供了前所未有的机会。

大多数需要LLM-as-a-Judge评估的数据是模型生成的,或大规模爬取的数据。语言模型首先进行有监督微调,模仿如何与人类指令对齐,然后探索强化学习技术使语言模型与人类偏好对齐。最成功的方法是应用RLHF框架,通过在人类反馈上训练奖励模型,并使用PPO获得语言生成的策略模型。

然而,PPO训练范式在编码和超参数调优方面复杂,且需要训练四个模型,难度较大。这促使研究人员探索更简单直接的方法来使语言模型与人类偏好对齐,包括使用LLM-as-a-Judge评估不同响应是否符合人类偏好。

例如,研究人员使用ChatGPT等通用LLM获得与人类偏好更好的对齐,将Aplaca提示作为采样查询,让不同模型生成响应,然后通过LLM-as-a-Judge评估这些数据,获得人类偏好分数(奖励分数)来训练新的语言模型。

此外,针对特定领域模型训练数据不足的问题,使用LLM-as-a-Judge生成和评估领域数据也很常见。例如,WizardMath使用其指令奖励模型(IRM)作为评估器,从定义、精确性和完整性三个方面判断进化指令的质量。

  1. 代理评估(LLM-as-a-Judge for Agents)

将LLM-as-a-Judge应用于代理有两种方式:

  • 评估智能代理的整个过程
  • 在代理框架过程的特定阶段进行评估

两种方法都能减少对人类参与的需求,消除彻底性和努力之间的权衡。例如,使用LLM作为代理的"大脑",代理系统可以像人类一样进行评估;或者,代理可以通过语言与环境交互,并通过LLM接收关于动作的反馈,为下一步行动做出决策。

  1. 推理/思考评估(LLM-as-a-Judge for Reasoning/Thinking)

推理被定义为应用逻辑、论据和证据得出结论的认知过程,是决策、问题解决和批判性分析等智力任务的核心。虽然推理本质上比判断更复杂和多面,但它通常依赖判断来确保逻辑连贯性、完善中间步骤并使结果清晰。

LLM-as-a-Judge在增强推理能力方面的作用可以通过两个框架理解:

  • 训练时间扩展:在训练阶段,LLM-as-a-Judge经常在强化学习范式中运作,作为数据或过程的奖励模型或评估器
  • 测试时间扩展:在测试时框架中,LLM-as-a-Judge对于评估和选择最佳推理路径至关重要

例如,在"Best-of-N"生成场景中,当产生多个推理输出时,评估器会确定最准确和连贯的响应。这种在训练和测试阶段的双重作用表明,LLM-as-a-Judge在增强推理系统方面不可或缺。

三、提升LLM-as-a-Judge可靠性的策略

直接利用LLMs进行评估任务(如评分、选择、成对比较或排名)时,其固有的偏差(如长度偏差、位置偏差和具体性偏差)会损害评估结果。减轻这些固有偏差并提高LLMs的整体评估性能,仍然是将LLMs用作评估器的关键挑战。本节介绍三种提升LLM-as-a-judge评估性能的策略:评估提示的设计策略(基于上下文学习)、LLMs评估能力的提升策略(基于模型),以及最终评估结果的优化策略(基于后处理)。

3.1 评估提示的设计策略

评估提示是LLM评估器的输入,用于引导LLMs完成所需的评估任务。LLMs具有上下文学习能力,能够从提示中的相关示例或指令中学习如何执行指定任务,而无需更新权重或重新训练。因此,优化评估提示的设计是提升LLM-as-a-judge评估性能最直接有效的方法。

优化LLMs对评估任务的理解
  1. 少样本提示(Few-shot prompting)

这是最常用且有效的方法之一,通过在评估提示中加入几个高质量的评估示例,LLM评估器能够有效掌握评估任务的目标、一般流程和大致评估标准。许多研究工作采用这种提示范式进行评估,如FActScore、SALAD-Bench和GPTScore。

  1. 细化评估任务指令

除了为LLMs提供高质量示例外,细化评估任务指令也是优化LLMs对评估任务理解的有效方法,主要包括评估步骤分解和评估标准分解:

  • 评估步骤分解:将整个评估任务分解为更小的步骤,在提示中为每个小步骤提供详细定义和约束,从而全面引导LLMs完成整个评估流程。例如,G-Eval和DHP使用思维链(Chain-of-Thought)引导LLMs;SocREval采用苏格拉底方法精心设计每个步骤以提高评估性能;Saha等人提出分支-解决-合并(BSM)方法,将评估任务分为多个并行子任务进行单独评估,最后合并结果。

  • 评估标准分解:将流畅性等粗略评估标准分解为语法、吸引力和可读性等更细粒度的子标准,然后基于这些不同维度生成整体分数。例如,HD-Eval通过分层标准分解迭代使LLM评估器与人类偏好对齐,解决LLMs中潜在的偏差;Hu和Gao等人总结并明确定义了一个包含11个标准的显式分层分类系统,解决LLMs可能混淆不同评估标准的问题。

  1. 针对LLMs特定缺陷的优化

根据LLMs在提示中的特定缺陷优化评估能力。例如,为了解决成对评估中常见的位置偏差等特定偏差,多项研究通过随机交换待评估内容优化提示设计:

  • Wang等人分析并验证了位置偏差对LLM-as-a-judge的影响,提出了通过交换内容并平均分数来减轻这种偏差的校准框架
  • Auto-J和JudgeLM也通过打乱待评估文本提高评估一致性
  • PandaLM通过将交换后的冲突评估结果标注为"平局"来解决位置偏差

此外,针对LLMs的绝对评分不如相对比较稳健的问题,一些研究将评分任务转换为成对比较,从而提高评估结果的可靠性。例如,Liu等人将评分评估转换为排名评估,并引入成对偏好搜索(PARIS),利用LLMs进行局部成对比较,高效地对候选文本进行全局排名,使评估结果更符合人类偏好。

优化LLMs的输出形式

直接要求LLM评估器输出评估结果存在稳健性问题。由于LLMs固有的生成随机性,响应文本可能意外变化(如在要求用离散分数衡量时输出"相关性低"),阻碍从LLMs输出中自动准确提取评估结果。

  1. 约束输出为结构化格式

增强输出形式稳健性的有效方法是在提示中约束LLMs的输出为结构化格式。例如:

  • G-Eval和DHP框架采用填表范式执行评估任务,用"X: Y"等格式约束输出,其中X表示要评估的维度或指标,Y表示可识别的输出形式(如分数或特定令牌)
  • LLM-EVAL进一步修改这种填表范式,高效地以JSON格式输出评估结果,获得多维度分数,利用LLMs对类代码文本格式的高理解和生成能力
  1. 提供带解释的评估

除了稳健性挑战,LLMs直接输出评估结果还存在可解释性不足的问题。LLM评估器的评估结果含义难以与提示中提供的指令和指标保持一致。

为解决这些挑战,CLAIR要求LLMs同时输出0-100之间的评估分数和作为解释的相关原因(JSON格式),增强分数的合理性和可解释性;FLEUR利用LLaVA首先为图像标题提供质量分数,随后以图像、标题和分数为输入,通过询问"为什么?告诉我原因。"获取解释,提供一种逐步方法来提供可解释的分数。

通过在提示中约束或引导LLM评估器的输出过程和格式,能够有效通过结构化输出提高评估结果的稳健性和合理性,也有利于后续步骤中对评估结果进行自动后处理,从而提高整个评估流程的稳定性。

3.2 LLMs能力的提升策略

LLMs的评估能力是其在特定提示触发下强大的通用语言理解和生成能力的体现。基于提示设计的优化方法侧重于LLMs的上下文学习能力,要求LLMs充分理解提示的含义并一致遵循相关评估指令。然而,即使是GPT-4等最先进的LLMs也会遇到概念混淆等问题,而较小的开源LLMs在评估能力上的局限性更大。因此,提升LLMs的评估能力(包括如何通过元评估数据集微调LLMs,以及如何基于评估结果的反馈迭代优化模型)对提高LLM-as-a-judge的基本评估性能具有重要意义。

通过元评估数据集进行微调

提升LLMs评估能力的直接方法是通过专门为评估任务构建的元评估数据集对其进行微调,这有助于提高LLMs对特定评估提示的理解,提升评估性能,或解决潜在偏差。这种优化策略最关键的步骤是训练数据的收集和构建。

一种常见方法是从公开可用的数据集中采样评估问题,用特定模板修改它们,并通过人工或GPT-4等强大LLMs生成的评估响应补充数据集。例如:

  • PandaLM从Alpaca 52K采样输入和指令,使用GPT-3.5生成响应构建训练数据
  • SALAD-Bench从LMSYS-Chat和Toxicchat的子集构建其训练数据

为了更好地符合评估任务的要求,许多研究进一步转换从公共数据集采样的输入和指令,构建更具针对性的训练数据:

  • OffsetBias旨在减少LLMs的偏差,通过使用GPT4生成原始输入的离题版本,然后让GPT-3.5对新输入做出响应以产生不良响应。通过将良好和不良响应配对作为训练数据来微调作为评估器的LLMs,显著减少了LLMs中的偏差(包括长度偏差、具体性偏差、知识偏差等)
  • JudgeLM通过参考支持和参考丢弃等范式创建不同类型的训练数据,增强LLMs的评估能力
  • CritiqueLLM提出多路径提示方法,结合点到对和参考到无参考的提示策略,将参考点式评分数据重构为四种类型,帮助创建Eval-Instruct来微调LLMs,解决点式评分和成对比较中的缺点

通过针对特定评估任务构建元评估训练数据并微调LLMs,可以直接调整模型的内部参数化知识和语言能力,是提高LLM评估器评估性能和解决潜在偏差最直接的方法。

基于评估结果反馈的迭代优化

在元评估数据集上微调LLMs使它们能够产生更符合人类偏好的评估。然而,LLM-as-a-judge在实际评估过程中可能仍然引入偏差,影响整体评估质量。一种自然的改进策略是基于评估结果的反馈迭代优化模型,反馈主要来自更强的模型或直接来自人类评估者对评估结果的修正。

INSTRUCTSCORE是一个典型示例,为了提高模型性能并进一步有利于最终质量分数计算,该评分框架收集指标输出的失败模式,就每个失败模式向GPT-4查询以收集自动反馈,最后选择与人类偏好最一致的解释来迭代微调LLaMA模型。

与INSTRUCTSCORE直接优化模型不同,JADE中的LLM评估器依靠人类法官修正LLMs的评估结果,并将最常修正的样本更新到少样本提示的示例集中。JADE利用这种成本相对较低的方法实现评估能力的迭代更新。

由于反馈更符合人类偏好,LLM评估器在基于此反馈优化评估能力时能够动态与人类对齐,从而获得更好的评估结果。这种基于反馈的迭代优化策略解决了模型泛化不完善的问题,并通过动态更新提高评估能力。

3.3 最终结果的优化策略

通过基于上下文学习和模型自身能力的优化,LLMs已经成为相当可靠的评估器,能够理解评估任务要求并提供合理的评估结果。然而,LLMs黑箱内固有的生成随机性仍然给整个评估流程带来显著的不稳定性,影响整体评估质量。因此,从LLM评估器输出到最终评估结果的后处理阶段需要优化策略,主要分为三类:多评估结果的整合、LLMs输出的直接优化,以及评估任务从点式评估到成对比较的转换。

多评估结果的整合

整合同一内容的多个评估结果以获得最终结果是各种实验和工程流程中的常见策略,能够减少偶然因素和随机误差的影响。

  1. 多轮评估结果整合

最基本的优化策略是在相同内容上使用不同的超参数和设置进行多次评估,然后汇总这些结果。例如:

  • Sottana等人通过对同一样本的多个分数取平均值来减少评估中的随机性
  • PsychoBench从十次独立运行中获取均值和标准差
  • Auto-J进一步放大评估轮次之间的差异,结合有和没有场景标准的评论来获得最终结果
  1. 多LLM评估器结果整合

除了整合多轮评估结果外,同时使用多个LLM评估器评估内容并整合结果是另一种有效方法,能够减少LLMs引入的偏差。例如:

  • CPAD利用ChatGLM-6B、Ziya-13B和ChatYuan-Large-v2作为评估器评估内容,通过投票获得最终结果
  • Bai等人提出了一种新颖的LLMs去中心化同行评审方法,利用生成内容的LLMs相互评估生成的内容,最终整合结果

通过结合多轮评估或多个LLM评估器形成最终评估结果,可以减少单轮中偶然因素造成的随机影响,降低单个LLM评估器的潜在偏差,显著提高评估结果的稳定性和可靠性。

LLMs输出的直接优化

与基于多轮或多个LLMs的输出获得评估结果不同,直接优化单个LLM评估器的输出涉及对评估输出进行进一步处理,使其更可靠,特别是在处理LLM评估器的评分输出时。

由于LLMs生成中固有的随机性,分数可能无法完全反映LLMs对评估标准的完整看法。因此,为了获得更可靠的评估结果,需要优化LLM的分数输出。一种有效的优化策略是将捕获LLMs随机性的隐式logits与显式输出分数相结合。例如,FLEUR提出了一种分数平滑策略,对于LLaVA生成的分数,每个数字对应的令牌概率被用作权重来平滑显式分数并计算最终评估分数。

然而,这种结合隐式logits和显式输出的方法(如分数平滑)要求LLMs是开源的或提供允许访问令牌概率的接口,这带来了一些限制。受Weng等人和Madaan等人工作的启发,可以使用自验证来过滤缺乏足够稳健性的评估结果。例如,TrueTeacher在评估蒸馏数据时应用自验证,在LLM评估器提供评估结果后询问其对评估结果的确定性,只保留通过自验证的结果。自验证适用于所有LLMs,不需要复杂的计算和处理。

与整合多个评估结果相比,直接优化LLMs的输出以获得最终结果更快、成本更低,尽管其有效性仍需进一步验证。然而,这两种方法并不相互排斥,在直接优化LLMs输出后进行整合可能会产生更稳定的评估结果。

四、LLM评估器的评估:衡量可靠性的维度

尽管LLMs表现出色,但它们存在一些显著缺陷,如幻觉、偏差和缺乏鲁棒性。当LLMs被用作评估器时,这些固有问题可能导致不理想的评估结果。因此,准确全面地评估LLM-as-a-judge的质量并识别潜在漏洞至关重要。本节将回顾关于LLM-as-a-judge评估的现有工作,重点关注三个关键领域:基本指标、偏差和鲁棒性。

4.1 基本指标:与人类判断的一致性

LLM-as-a-judge的主要目标是与人类法官保持一致。许多研究将LLM评估器视为虚拟标注者,评估其与人类标注者的一致程度。

  • 百分比一致性(Percentage Agreement):表示LLM和人类标注者达成一致的样本比例。

    公式:Agreement=∑i∈DI(Sllm=Shuman)∥D∥Agreement =\frac{\sum_{i \in \mathcal{D}} I\left(S_{llm}=S_{human }\right)}{\| \mathcal{D}\| }Agreement=DiDI(Sllm=Shuman)

    其中,D\mathcal{D}D是数据集,SllmS_{llm}SllmShumanS_{human}Shuman分别是LLM评估器和人类法官的评估结果(可以是分数或排名形式)。

  • 其他相关性指标:如Cohen’s Kappa和Spearman相关性也被用于评估一致性。

  • 分类指标:其他工作将LLM-as-a-judge任务视为分类问题,以人类标注作为标签,计算精确率、召回率和F1分数来评估性能。

评估数据集

上述指标都依赖于带有LLM生成响应和相应人类判断的数据集。因此,构建用于元评估的综合基准具有实际必要性。现有主要基准包括:

  • MTBench:仅有80个人工设计的查询及其相应的人类标注和LLMs响应
  • FairEval:由VicunaBench的80个查询构建,包含人类对ChatGPT和Vicuna响应的偏好标注
  • Chatbot Arena Conversations:更大的众包数据集合(约30k),包含人类标注的偏好
  • 专业领域基准:如评估响应是否遵循指令的基准(含419对输出)、评估多模态LLMs在各种模态上辅助评估任务的能力的MLLM-as-a-Judge、代码评估和非英语语言任务的基准等
  • CALM:提出了一个系统的偏差量化框架,具有自动扰动机制,生成用于检查LLM评估器中12种不同潜在偏差的元评估数据

当前的元评估主要集中在模型的LLM-as-a-judge上,而当这些LLM评估器用于自动标注大规模数据集时,缺乏足够的元评估。在将LLM-as-a-judge用于大规模数据标注时,需要更严格地评估其与人类判断的一致性,同时评估潜在的偏差和鲁棒性也至关重要。

4.2 偏差:隐藏在评估中的"陷阱"

先前的综述指出,大型语言模型在各种任务中表现出多种类型的偏差。LLMs的这些内部偏差也可能影响LLM-as-a-judge,导致不公平的评估结果,进而影响LLMs的发展。因此,理解LLM评估器可能存在的偏差类型并系统地评估这些偏差至关重要。

LLM-as-a-judge的元评估中存在的系统性偏差大致可分为两类:LLMs在一般应用中固有的任务无关偏差,以及LLM-as-a-judge场景特有的判断特定偏差。这种分类旨在阐明它们的不同特征和影响。

任务无关偏差(Task-Agnostic Biases)

这些偏差在多种LLM应用中表现出来,包括开放域问答、分类和摘要。然而,当出现在LLM-as-a-judge中时,由于其对下游任务的级联效应,这些偏差尤为关键。当LLM生成的判断作为模型训练或数据标注的反馈时,这些偏差可能被放大和传播。

  • 多样性偏差(Diversity Bias):指对某些人口统计群体的偏差,包括特定性别、种族和性取向。在LLM-as-a-judge场景中,当评估者对符合某些群体刻板印象的响应给予更高分数时,可能出现这种偏差。

  • 文化偏差(Cultural Bias):在一般领域中,文化偏差指模型可能误解不同文化的表达或无法识别区域语言变体。在LLM-as-a-judge中,它表示评估者可能对不熟悉的文化表达给予较低分数。

  • 自我增强偏差(Self-Enhancement Bias):描述LLM评估者可能偏爱自己生成的响应的现象,在检索任务和开放域问答系统中也被称为来源偏差。考虑到显著的自我增强偏差,应避免使用同一模型作为评估者评估其自身生成的内容。

判断特定偏差(Judgment-Specific Biases)

判断特定偏差要么是LLM-as-a-judge设置所特有的,要么对判断任务有显著影响。一个典型例子是"位置偏差",在LLM-as-a-judge需要比较成对响应的情况下影响更为明显。与任务无关偏差不同,判断特定偏差更难随着基础大模型能力的发展而自然解决,需要针对判断任务进行有针对性的优化。

  • 位置偏差(Position Bias):LLM评估者倾向于偏爱提示中特定位置的响应。这种偏差可能产生不利影响,例如当Vicuna-13B的响应被放在第二位时,ChatGPT评估可能会认为Vicuna-13B优于ChatGPT。

    为衡量这种偏差,最近的工作提出了两个指标:

    • 位置一致性(Position Consistency):量化法官模型在改变响应位置后选择相同响应的频率
    • 偏好公平性(Preference Fairness):衡量法官模型偏爱特定位置响应的程度

    研究还引入了冲突率(Conflict Rate)指标来衡量两个候选响应位置改变后不一致的百分比。分析实验表明,位置偏差的程度随响应质量差异而波动,不同LLMs的偏好位置也不同(例如,GPT-4倾向于偏爱第一个位置,而ChatGPT则偏爱第二个位置)。

  • 同情衰减偏差(Compassion-fade bias):描述模型名称的影响。当明确提供模型名称时,评估者可能倾向于给标记为"gpt-4"的结果更高的分数。这一倾向强调了匿名评估的必要性。

  • 风格偏差(Style Bias):指对特定文本风格的倾向。评估者可能偏爱视觉上吸引人的内容(如带有表情符号的文本),而不考虑其实际有效性。此外,LLM评估者可能偏爱具有特定情感基调的响应(如愉快、悲伤、愤怒和恐惧),这被定义为情感偏差。

  • 长度偏差(Length Bias):指偏爱特定长度响应的倾向,例如偏爱更冗长的响应(也称为 verbose 偏差)。可以通过将原始响应之一改写为更冗长的版本来揭示长度偏差,即使这些扩展没有引入新信息。

  • 具体性偏差(Concreteness Bias):LLM评估者偏爱具有特定细节的响应,包括引用权威来源、数值和复杂术语,这被称为权威偏差或引用偏差。具体性偏差的负面影响源于忽视这些细节的事实正确性,从而鼓励幻觉。

偏差评估的挑战

推进LLM-as-a-Judge系统的发展需要解决两个关键挑战:

  1. 需要系统基准:由于偏差的多样性,提出一个系统基准来评估各种偏差的程度至关重要。尽管EVALBIASBENCH和CALM等工作在这方面做出了努力,但仍然没有包含所有类型偏差的系统基准和数据集。

  2. 受控研究的挑战:在研究某种特定偏差时,很难将感兴趣的特定方向与其他偏差和质量相关特征隔离开来。例如,在位置偏差的情况下,延长响应可能会改变风格、流畅性和连贯性,甚至引入新的偏差(如自我增强偏差)。此外,GPT-4偏爱自己的响应而不是GPT-3.5的响应,这可以解释为自我增强偏差或对更高质量文本的适当倾向。因此,分析工作必须仔细控制这些差异。

4.3 对抗鲁棒性:抵御恶意操纵

对抗鲁棒性指模型抵御通过精心设计的输入故意操纵分数的能力。与偏差评估(主要关注自然出现的样本)不同,对抗鲁棒性涉及故意设计的样本以操纵评分,例如插入人为提高分数的短语。鲁棒性至关重要,因为不足的鲁棒性会允许 trivial 的操纵欺骗评估者,破坏文本质量评估。确保评估者的鲁棒性对于维持准确可靠的评估至关重要,特别是在高风险应用中。

研究表明,通过从黑盒LLM评估器构建代理模型,并基于此学习对抗性攻击短语,只需普遍插入学习到的攻击短语而不提高文本质量,就能大幅提高评估分数。类似地,EMBER基准揭示了评估带有认知标记(如确定性或不确定性表达)的输出时的偏差。此外,“空模型”(输出与输入指令无关的恒定响应)可以在各种LLM-as-a-judge方法中实现高胜率。

最近的研究还表明,通过添加多数意见(如"90%的人同意这是一个好答案")可以提高评估分数,或者在系统提示中加入无意义的陈述(如"助手A喜欢吃意大利面")也会影响评估结果。这些工作表明,LLM-as-a-judge对与文本质量无关的干扰仍然不够稳健。

尽管困惑度分数等防御措施可以检测有限类型的对抗性示例,但构建更稳健的LLM-as-a-judge仍是未来重要的研究方向。

五、元评估实验:验证改进策略的有效性

前文介绍了研究人员在现有LLM-as-a-judge工作中采用的改进策略,以提高LLM的评估能力。尽管已有许多工作提出了元评估基准来评估LLMs在评估任务中的表现,但对于这些改进策略是否有效优化了LLM评估器,以及它们增强了评估性能的哪些维度,仍然缺乏元评估。一些改进策略可能在实际使用中无法提高LLM评估器的性能或减轻偏差,导致计算资源的浪费。

基于前文提到的基准,研究设计了一个稳健且可扩展的元评估工具,并对总结的改进策略进行了简单的元评估实验,从偏差和与人类评估的一致性角度检验其有效性。

5.1 实验设置

评估维度和基准
  • 与人类评估的一致性:使用LLMEval2评估LLM-as-a-judge与人类评估的一致性。LLMEval2是迄今为止最大和最多样化的LLM-as-a-judge评估基准,包含2,553个样本,这些样本来自多个数据源,带有人类标注的偏好。每个样本包括一个问题、一对候选响应和一个指示首选响应的人类标签。

  • 偏差评估:使用EVALBIASBENCH衡量LLM-as-a-judge中的六种偏差,包括长度偏差、具体性偏差、空参考偏差、内容延续偏差、嵌套指令偏差和熟悉知识偏差。EVALBIASBENCH包含80个样本,每个样本包含一个问题、一对候选响应和一个不受偏差影响的正确响应标签。

  • 位置偏差评估:除了上述六种偏差外,还评估了位置偏差。位置偏差的元评估样本是通过交换LLMEval2和EVALBIASBENCH样本中提示内候选响应的位置构建的。

评估指标
  • 与人类评估的一致性:使用百分比一致性指标。

  • 除位置偏差外的其他偏差:使用准确率评估,即LLM-as-a-judge选择EVALBIASBENCH中标注的正确候选响应的样本比例。

  • 位置偏差:使用位置一致性作为指标,量化LLM-as-a-judge在交换候选响应位置后选择相同响应的频率。

    公式:PositionConsistency=∑i=1NI(Sir12=Sir21)NPosition Consistency =\frac{\sum_{i=1}^{N} \mathbb{I}\left(S_{i}^{r 12}=S_{i}^{r 21}\right)}{N}PositionConsistency=Ni=1NI(Sir12=Sir21)

    其中,Sir12S_{i}^{r 12}Sir12Sir21S_{i}^{r 21}Sir21分别是对原始顺序和交换顺序的候选响应的评估结果,I(⋅)\mathbb{I}(·)I()是指示函数。

目标LLMs和策略
  • LLMs选择:选择了六种常用于自动评估的LLMs,包括闭源LLMs(GPT-4、GPT-3.5)和开源LLMs(Qwen2.5-7B、LLaMA3-8B、Mistral-7B、Mixtral-8×7B)。

  • 改进策略选择:选择了提供带解释的评估、自验证、多轮汇总和多LLMs投票四种策略,因为这些策略简单直接且在许多工作中较为常见。实验采用GPT-3.5作为基础评估器,用于这些改进策略的元评估。

5.2 实验结果与分析

不同LLMs的比较

实验结果显示,GPT-4在所有元评估维度上都以较大优势优于其他LLMs,且偏差较少。因此,在条件允许的情况下,使用GPT-4作为自动化评估器可能获得更客观、偏差更少的评估结果。

对于开源LLMs,Qwen2.5-7B-Instruct表现出优异的评估能力,在实验中优于其他开源LLMs。除位置偏差和嵌套指令偏差外,它在大多数维度上都超过了GPT-3.5-turbo,表明它作为开源LLM-as-a-Judge是一个有前景的选择,有潜力作为特定场景中专业评估器的稳健基础模型。

此外,观察发现,除具体性偏差和内容延续偏差外,除GPT-4-turbo外的LLMs表现普遍较差,特别是在长度偏差方面。即使是GPT-4-turbo,在空参考偏差和嵌套指令偏差上也经历了显著的性能下降。虽然位置偏差可以通过交换评估内容的位置来缓解,但解决其他偏差可能需要研究人员探索更有效的评估策略。同时,不同LLMs在与人类的一致性方面没有太大差异,都有显著的改进空间。

不同策略的比较

结果显示,并非所有评估策略都能有效改善LLM-as-a-judge的评估结果:

  • 提供解释(w/ explanation):通过在评估分数或选择旁提供理由来提供可解释性,有助于人类审查期间的逻辑回溯。然而,在评估性能和偏差缓解方面,它通常会产生负面影响。这种性能下降推测是由自我解释引入的更深层次偏差引起的。

  • 自验证(w/ self-validation):效果微乎其微,可能是由于LLMs的过度自信,这可能限制了其在自验证期间的重新评估努力。

  • 多轮汇总(w/ multi rounds):采用多数投票的多轮汇总(w/ majority@5)是一种具有明显优势的策略,在多个维度上都有改进。这表明从重复评估中获取多数投票结果有助于减少LLMs中的随机性,从而解决偏差问题。然而,采用取平均分数(w/ mean@5)或取最佳分数(w/ best-of-5)的多轮汇总并没有改善评估性能,甚至产生了一些不利影响。与多数投票相比,取平均可能在平均分数计算中包含带有偏差的结果,同样,取最佳可能选择受偏差影响过高的分数。

  • 多LLMs投票(multi LLMs):评估结果与LLM选择密切相关。比较两组不同的LLM组合发现,组合中模型的评估性能差异会对整体性能产生显著影响。这表明在采用多个LLMs进行联合评估时,必须仔细考虑它们之间的评估性能差异。

推理型LLM-as-a-Judge的评估

如前文所述,判断是有效推理能力的基础,即具有更强推理能力的模型通常更适合作为可靠的法官。为验证这一假设,研究对o1-mini、o3-mini、Gemini-thinking和Deepseek-R1等几种推理型LLMs进行了评估。

结果表明,虽然这些模型(gemini-2.0-thinking、o1-mini、o3-mini和deepseek r1)相对于顶级的GPT-4-turbo表现出有竞争力的一致性和准确性,但它们在需要与人类对齐的任务中的改进并不像预期的那样显著。GPT-4-turbo仍然是对齐的基准,在人类标注为model1的场景中达到68.47%的最高准确率。在推理增强模型中,gemini-2.0-thinking在人类标注为model2的场景中表现强劲,准确率达到78.27%。这些结果表明,推理增强型LLMs比基线模型有显著进步,但在与对齐相关的任务中未能提供持续的优势,这表明在这一领域还有进一步优化的空间。

总结

由于LLMs的固有能力和潜在风险,LLM-as-a-judge的常见改进策略在提高评估性能或减轻偏差方面并非完全有效。基于当前的实验分析,成对比较评估任务的经验策略是选择更强大的LLMs,并采用两种评估策略:一是交换评估内容的位置,二是取多轮评估的多数投票结果,这可以有效减轻偏差。至于提高与人类的对齐度,仍需要进一步探索。

六、LLM-as-a-Judge与o1类推理增强:协同提升问题解决能力

面对挑战性问题时,人类通常会花费大量时间和精力思考各种可能性,然后才得出解决方案。类似地,OpenAI开发的先进模型o1通过结构化的思维链来解决复杂任务。这种深思熟虑的推理过程使o1能够不断完善其方法,逐步应对困难场景。增强o1推理能力的一个关键因素是整合LLM-as-a-Judge,它在每个阶段评估模型的推理路径。当o1解决问题时,评估器提供反馈,通过指出不一致之处、建议修正和识别分解困难任务的更简单方法来帮助模型改进。

通过利用自身评估的反馈(类似于宪法AI框架),o1能够调整其推理策略并提高性能。通过强化学习,o1微调其策略,不仅从成功中学习,也从错误中学习。LLM-as-a-Judge、强化学习以及来自宪法评估的反馈循环相结合,使o1能够动态调整其推理,确保模型随着时间的推移不断提高解决复杂问题的能力。推理与判断之间的这种协同作用,再加上持续反馈,推动了o1先进的问题解决能力。

6.1 LLM-as-a-Judge评估推理的两种方式

在这一过程中,可以观察到LLM-as-a-Judge评估推理和思考的两种方式:

  1. 训练阶段评估推理过程:LLM-as-a-Judge在训练阶段提供反馈,通过强化学习微调模型,增强其推理能力。这种反馈帮助o1完善其方法,识别错误,并将复杂任务分解为更易于管理的组件。

  2. 测试阶段评估:在测试时,LLM-as-a-Judge动态评估模型的推理输出,提供实时反馈,进一步提高模型性能。

两种方法的共同点是它们都能为o1提供持续的反馈(无论是正面还是负面),驱动自我改进过程。通过将这种反馈纳入其推理过程,o1能够迭代调整其方法并从错误中学习。这种反思和纠正的循环增强了模型的批判性思维能力,解决了越来越复杂的问题。训练和测试期间的两种评估策略之间的协同作用创造了一个强大的反馈循环,使o1能够随着时间的推移动态优化其推理和思考能力,从而在问题解决能力方面取得显著进步。

6.2 宪法AI与LLM-as-a-Judge的结合

宪法AI被用于构建DeepSeek-R1,可以看作是LLM-as-a-Judge的一种特定形式,其中模型使用自身的评估(如投票结果)作为反馈来指导其优化。在这种方法中,o1通过内部评估来评估其推理,基于预定义的原则完善其决策。这种自我生成的反馈循环帮助o1纠正错误并随着时间的推移提高其性能,无需外部验证。通过将LLM-as-a-Judge整合到宪法AI框架中,o1不断调整其推理策略,通过自我改进和强化学习获得更好的问题解决能力。

6.3 推理与LLM-as-a-Judge的关系

推理作为一种认知过程,涉及应用逻辑和证据得出结论,是决策、问题解决和批判性分析等智力任务的核心。推理需要评估多种可能性,并确定逻辑上最合理和连贯的路径。相比之下,LLM-as-a-Judge指的是使用LLMs执行判断任务,如基于生成的输出来评估、评分、排名或选择最佳答案。这一概念类似于法官在竞争环境中确保公平、准确和连贯性的角色。

尽管推理和判断是不同的概念,但它们密切相关。推理经常依赖判断来评估中间步骤、改进逻辑并保证结果的清晰度。当这一过程涉及无限数量的判断时,我们可以将其视为近似推理和思考的过程。同时,有效的判断依赖强大的推理能力,根据一组逻辑标准评估选项。因此,LLM-as-a-Judge不仅评估输出,还通过帮助识别最连贯、准确的解决方案来增强推理过程。

七、LLM-as-a-Judge的实际应用:跨越多个领域的革新

LLMs作为评估器的能力在专业领域得到了广泛认可,特别是在法律文本、数学推理和科学研究等复杂的定性领域。本节回顾LLM-as-a-judge在金融、法律、科学和其他行业的最新应用进展,探讨领域知识和LLM评估器如何在关键领域进一步扩大其影响。

7.1 机器学习领域的应用

自然语言处理(NLP)

LLMs已成功作为评估器应用于多个NLP任务,包括情感分析、机器翻译和文本摘要。在情感分析中,已识别出影响基于LLM的判断的多种偏差,促使创建自动化框架来系统地量化这些偏差。

  • 文本生成评估:对话响应生成、摘要、故事创作和创意写作等文本生成任务需要内容安全、准确且与上下文相关,尽管没有单一的"正确"答案。与传统的基于指标的评估不同,LLM-as-a-judge提供了细致、适应性强和定制化的评估。研究表明,GPT-4等LLMs可以像人类一样评估文本生成,这种方法已用于评估单个模型的输出和在竞争环境中比较多个模型。例如,研究人员使用ChatGPT进行类人摘要评估,或提出基于比较的框架,其中LLMs作为法官评估摘要质量。

    现代LLMs擅长生成详细的长篇响应,但较长的输出增加了幻觉的风险。为解决这一问题,研究人员使用GPT-4识别逻辑结构合理但无意义的陈述,或提出基于评论的系统,通过选择相关证据并提供详细评论来评估幻觉。除了幻觉,生成有害或不安全的响应也是一个重要问题。为此,研究人员引入了MD-Judge和MCQ-Judge来评估与安全相关的QA对,重点关注旨在引发不安全响应的查询。然而,过于谨慎的方法可能导致过多的拒绝响应,影响用户体验。为探索这一点,研究人员对各种LLM-as-a-judge框架进行了元评估,评估对潜在不安全查询的拒绝倾向。

  • 推理能力评估:增强LLMs的推理能力可以克服缩放定律的局限性,释放其全部潜力。有效的推理对于解决复杂问题、做出明智决策和提供准确的上下文感知响应至关重要。研究人员引入了思维链(CoT)提示来促进逐步推理,更复杂的认知结构被提出以进一步增强推理,但选择可靠的推理路径仍然是一个重大挑战。LLM-as-a-judge已被用于解决这一问题。

    一些研究专注于样本级推理路径选择,例如提出策略评估器评估候选策略,或使用成对自我评估选择有效的基本原理。在多代理框架中,引入多代理辩论(MAD),其中法官LLM选择最合理的响应,或在基于层的多代理协作中利用法官LLM提高响应质量和效率。

    对于步骤级推理路径选择,LLMs作为过程奖励模型(PRMs)来评估状态分数。研究将推理分解为选择和推理,使用LLMs判断潜在的推理轨迹;或将LLMs转换为状态转换推理器用于数学推理;或训练LLMs作为PRMs用于推理时监督和best-of-N采样。此外,基于评论的LLM法官提供详细反馈以增强推理过程。

  • 检索评估:LLM-as-a-judge在检索中的作用包括传统文档排名和动态检索增强生成(RAG)方法。在传统检索中,LLMs通过先进的提示技术提高排名准确性,以最少的标记数据实现有效的文档排序。RAG框架利用LLMs在检索信息指导下生成内容的能力,支持需要复杂或不断发展的知识整合的应用。

    最近的研究探索了LLMs作为文档排名的法官,旨在提高精度并减少对大量训练数据的依赖。列表排序的创新包括使用大型语言模型的列表重排器(LRL),无需特定任务训练数据即可重排文档标识符;或引入集合提示策略用于零样本排名,在不牺牲性能的情况下提高效率。为解决位置偏差,研究提出排列自一致性,通过平均多个列表顺序产生与顺序无关的排名。

    最近RAG的进展探索了LLMs在没有注释数据集或参数调整的情况下进行自我评估和改进的能力。例如,提出自我检索,通过自然语言索引将信息检索整合到单个LLM中,将检索转换为文档生成和自我评估过程。在问答中,LLMs越来越多地用作评估代理,生成合成查询并评估检索到的文档,通过RAGElo等框架排名RAG代理变体。

7.2 其他特定领域的应用

金融领域

LLMs在金融领域展示了巨大潜力,特别是在预测、异常检测和个性化文本生成等任务中,从而推动了对LLM评估器的需求增长。

在金融领域的LLM-as-a-judge应用中,专家知识对于特定领域的评估至关重要。当前研究可分为两个领域:一是专注于设计利用专家知识执行特定任务的基于LLM的评估器,例如多任务微调在金融领域的案例研究,或引入FinCon(一种多代理系统,使用概念性语言强化来改进金融决策);二是旨在提供基准来评估和增强LLMs对特定领域知识的理解,这些基准包括基于用户反馈的UCFE、专业考试问题数据集IndoCareer,以及AI生成的特定领域评估集。

在量化投资中,LLM-as-a-judge方法在改进LLM生成的交易信号方面显示出价值。研究提出了一个用于生成自我改进交易信号的两层架构,在内部循环中采用双LLM设置,其中一个LLM生成交易想法,另一个作为法官评估和改进这些想法。外部循环包含一个额外的LLM法官,基于信息系数和夏普比率等定量指标提供全面审查,确保交易信号符合严格的性能标准。

此外,LLM-as-a-judge的概念在信用评分和环境、社会和治理(ESG)评分中显示出良好的应用前景。这项工作仍处于早期阶段,需要进一步探索以完善评估方法并扩大在金融领域的应用。

法律领域

LLMs在法律咨询等专业领域提供专业建议的能力不断增强,尤其在文本摘要和法律推理等任务中表现出色。然而,与其他领域相比,法律行业更关注LLMs内部潜在的偏差和事实不准确。与金融领域类似,法律领域的现有研究主要分为两类。

第一类专注于开发专门用于法律应用的LLM评估器,解决专业局限性或设计评估器本身。例如,利用带有少样本专家提示的通用LLMs有效模拟法律事实相关性的标注过程,展示了LLMs作为自动化司法评估器的潜力;提出构建负责任的法律建议LLMs的四维框架,强调用户属性和行为、查询性质、AI能力和社会影响;开发了Eval-RAG(一种基于检索增强生成(RAG)的评估器),用于评估LLM生成的法律文本的有效性,在韩国法律问答任务上的测试发现,将Eval-RAG与传统LLM评估方法相结合更符合人类专家评估。

第二类研究涉及创建用于评估LLMs在法律场景中适用性的基准,例如多领域评估集(如印度尼西亚的专业考试数据集IndoCareer和LegalBench,一个用于评估LLMs在多个领域和语言中的法律推理能力的协作构建基准)。由于独特的法律结构和术语,这些基准通常是特定语言的,如中文法律文本的LexEval和韩语的Eval-RAG。其他基准针对特定属性,如伦理和危害性。

科学领域(AI for Science)

LLMs在科学领域展示出显著潜力,特别是在医学问答和数学推理等领域,它们作为评估器提高准确性和一致性。在医学领域,研究表明LLaMA2等模型可以评估临床笔记和问答响应,其准确性接近人类专家。这种方法利用提示工程嵌入专家知识,使LLMs能够处理复杂、细致的信息,提供可靠的一线评估,减轻人类专家的负担。

在数学推理中,强化学习(RL)和协作推理方法进一步增强了LLM作为评估器的能力,特别是在定理证明任务中。例如,WizardMath通过基于逐步反馈的强化学习来改进数学任务中的推理;提出了协作推理(CoRe)框架,结合生成和验证来模拟类人的双过程推理,提高模型的问题解决准确性;开发了MathVista,一个用于评估视觉环境中数学推理的基准,评估GPT-4V等LLMs在涉及视觉组件的数学推理任务上的表现。这些方法强调了结合RL、协作推理和提示工程在提高LLMs在数学推理中的评估和推理技能方面的价值。

其他领域

LLMs还被用作评估器,以提高各个领域的效率和一致性:

  • 软件工程:提出了一种使用LLMs评估错误报告摘要的方法,在评估正确性和完整性方面表现出高精度,甚至超过了经历疲劳的人类评估者。这种方法提供了可扩展的评估解决方案。

  • 教育:探索了使用开源LLMs进行自动作文评分和修订,取得了与传统深度学习模型相当的性能。少样本学习和提示调整等技术提高了评分准确性,而修订在不影响原始含义的情况下有效提高了作文质量。

  • 内容 moderation:开发了一种基于LLM的方法来识别Reddit等平台上的规则违反,实现了高真阴性率,但在复杂规则解释方面遇到挑战,强调了对细微案例进行人类监督的必要性。

  • 行为科学:评估了LLM-as-a-Judge框架用于基于角色评估用户偏好,发现由于过度简化的角色,可靠性和一致性存在局限性,但通过语言不确定性估计显著改善,在高确定性案例中与人类评估达成高度一致。

LLMs作为评估器在各种定性评估中表现出显著优势,这些评估难以量化,例如评估服务质量、分析用户体验反馈以及评估艺术或文献评论等创意内容。LLMs理解和生成细微差别的语言的能力使它们非常适合传统上需要人类判断的主观评估任务。未来的研究将更多地关注这些领域,探索LLMs作为法官如何在传统定量方法不足的情况下提高评估准确性和一致性。

八、LLM-as-a-Judge面临的挑战

尽管LLM-as-a-Judge展现出巨大潜力,但在实际应用中仍面临诸多挑战,主要集中在可靠性、鲁棒性和基础模型局限性三个方面。理解这些挑战对于推动LLMs在公平、一致和可靠的评估中应用至关重要。

8.1 可靠性挑战

评估LLMs作为法官的可靠性揭示了几个紧迫的挑战。人类和LLM法官都存在偏差,这引发了对其评估的一致性和公平性的担忧。具体而言,研究发现人类法官也存在固有偏差,甚至可能无法提供可靠的答案。作为人类的替代方案,LLM评估也被发现存在某些偏差,如前文所述,其标注结果需要更多评估。LLM-as-a-judge的偏差更多是由于LLM是一个概率模型。此外,通过人类反馈的强化学习(RLHF)通过使LLMs与人类偏好对齐来提高其性能。然而,确保通过RLHF训练的模型产生稳健且一致的输出仍然是一个持续的挑战。

为了更好地理解可靠性,我们从偏差、过度自信和泛化挑战三个方面进行讨论:

  • 过度自信:研究表明,指令微调的LLMs存在过度自信的问题,这意味着它们在评估自己的响应时倾向于给出过高的分数。过度自信很可能也存在于LLM-as-a-judge的场景中,因为它也参与评估LLMs生成的响应。因此,当LLM-as-a-judge与最新的LLMs(通常是指令微调的)一起使用时,需要仔细检查过度自信的存在及其影响。

  • 公平性和泛化:可靠性的另一个重要方面是公平性和泛化。LLM-as-a-judge的评估可能根据上下文表现出相当大的不一致性。这就是为什么通常使用基于提示的方法来提高LLM-as-a-judge性能的原因。然而,由于提示工程的敏感性,可能会出现公平性和泛化方面的挑战。例如,上下文中示例的顺序会显著影响模型的输出,如果示例安排不当,可能导致不公平的评估。此外,LLMs难以有效处理长上下文窗口,通常表现出性能下降或优先考虑序列中的后面示例。这些问题引发了对基于LLM的评估的公平性和泛化的担忧。

8.2 鲁棒性挑战

尽管LLM功能强大,但研究发现它们容易受到对抗性攻击,在攻击下LLMs可能被诱导生成有害内容。虽然现有的关于LLM攻击的工作主要集中在自然语言生成(NLG)任务上,但对LLM-as-a-judge的攻击研究相对较少。这意味着在使用LLM-as-a-Judge时,我们将面临一些鲁棒性挑战,并且这些风险是未知的。

解决这些鲁棒性挑战需要更深入地理解与LLM-as-a-Judge任务相关的特定漏洞。与传统的对自然语言生成(NLG)的对抗性攻击不同(其目标通常是误导模型生成有害或不正确的输出),对LLM-as-a-Judge的攻击旨在利用模型决策过程中的偏差、不一致性或漏洞。例如,输入措辞或上下文框架的细微操纵可能导致判断的显著偏差,这在高风险应用中引发了对可靠性的担忧。

目前,我们有一些方法来防御此类攻击以保持鲁棒性。这些方法主要涉及后处理技术,如响应过滤和一致性检查,这对提高评估质量至关重要。然而,这些技术仍然面临重大挑战。一个主要问题是自我一致性,因为LLMs在多次评估相同输入时经常产生不一致的输出。另一个挑战是随机评分,即模型分配任意或过高的分数,无法准确反映生成输出的真实质量。这些局限性破坏了这些防御机制的可靠性和鲁棒性。

8.3 强大基础模型的需求

尽管LLMs在基于文本的评估中表现出优异的性能,但该领域缺乏强大的多模态模型来有效作为多模态内容的可靠法官。当前的多模态LLMs(如GPT-4 Vision)在跨不同模态的复杂推理方面仍然存在困难。这一局限性对在多模态评估任务上实现可靠评估构成了挑战。即使在许多情况下,我们的LLM也无法完成高质量的评估内容,因为在评估文本内容时缺乏足够强大的指令遵循能力和推理能力。

九、未来展望:LLM-as-a-Judge的发展方向

在人工智能时代,LLM-as-a-Judge系统越来越多地展示出其辅助甚至取代人类在广泛专业领域做出判断的潜力。许多角色本质上需要评估、评估或裁决复杂场景的能力,而LLMs凭借其先进的数据处理和模式识别能力,非常适合支持或增强这些任务。LLMs可以在不同领域担任多功能评估器,例如,作家可以利用LLMs通过分析叙事结构和市场趋势来评估创意想法的可行性和原创性;医生可以使用LLMs通过处理病历和影像数据来诊断疾病和预测结果;量化分析师可以利用LLMs通过识别金融数据中的模式来预测市场走势和评估风险;法官可以依靠LLMs解释法律和先例,辅助法律案件的裁决。

虽然LLMs在可扩展和灵活的评估方面表现出色,但它们也有局限性。未来的工作应专注于解决这些局限性,同时探索新的应用,并提高LLM-as-a-Judge系统的可靠性、公平性和适应性,以确保其与社会价值观和专业标准保持一致。

9.1 更可靠的LLM-as-a-Judge

如前文的公式和策略所强调的,LLMs是概率模型,需要大量研究和优化才能增强其作为法官的可靠性。尽管当前方法提高了LLM-as-a-Judge的可靠性,但许多挑战(包括适应性和鲁棒性)仍未解决。为了使概率模型能够提供与现实世界场景紧密对齐的评估,未来的研究应优先考虑在整个评估流程中完善和实施LLM-as-a-Judge。在多个方面提高可靠性存在相当大的潜力,包括上下文学习、模型选择、后处理技术以及LLM-as-a-Judge的整体评估框架。这些努力不仅应优先提高评估的可靠性,还应开发系统地评估和验证这些评估的稳健性的方法。此外,建立全面的评估基准和可解释的分析工具对于评估和提高LLM评估器的可靠性至关重要。最后,鲁棒性风险的不确定性和不断演变的性质强调了主动缓解策略的必要性。这些策略应包括开发针对判断任务的对抗性训练技术,整合强大的不确定性量化方法,以及实施人类在环系统来监督关键决策。通过应对这些挑战,我们可以构建更具韧性和可靠性的系统,即使在对抗性条件下也能保持高水平的可靠性。

9.2 用于数据标注的LLM-as-a-Judge

相比之下,LLM-as-a-judge是一种通用技术,您可以使用LLM来近似人类标注。当您要求LLM评估"对来源的忠实性"、"正确性"或"有用性"等质量时,您在评估提示中定义这些术语的含义,并依赖LLM从训练数据中学到的语义关系。尽管应用广泛,但由于数据的复杂性、主观性和多样性,数据标注对当前的机器学习模型构成了重大挑战。这一过程需要领域专业知识,并且在手动标注大型数据集时成本高昂。GPT-4、Gemini和LLaMA-2等先进LLMs为革新数据标注提供了前所未有的机会。LLMs不仅仅是工具,而且在提高数据标注的有效性和精度方面发挥着关键作用。它们自动化标注任务、确保大规模数据的一致性以及通过针对特定领域的微调或提示适应的能力,显著减轻了传统标注方法遇到的挑战,为NLP领域设定了新的可实现标准。

无论是在科学研究还是工业领域,我们都面临目标数据和特定领域数据不足,或数据质量不够高的情况。假设LLM-as-a-judge能够实现稳定的性能并且公平可靠,我们可以在数据不足的场景中使用LLM标注数据来扩展数据。在数据质量低的场景中,我们可以通过LLM评估数据质量,并标记质量标签,以实现选择高质量数据的目标。目前,我们还不能仅依靠LLM来可靠地评估数据的各种场景;大多数时候,我们仍然依赖人类标注来确保专业性和可靠性。LLM-as-a-judge通常需要从人类标注中学习才能执行某些标注任务。

9.3 多模态LLM-as-a-Judge(MLLM-as-a-Judge)

AI系统正在演变为高度多功能和多功能的实体。传统上,不同的语言处理任务需要专门的模型,如情感分析、句法解析和对话建模。然而,大型语言模型(LLMs)已经展示出使用单一权重集在这些任务中胜任的能力。同样,在处理多种数据模态的统一系统方面也取得了进展。最近的模型如GPT-4o、Gemini和LLaVA不再为处理文本、音频和图像采用不同的架构,而是在单个框架中整合这些能力。这些发展凸显了AI系统在结构和功能上日益统一的趋势,这也延伸到了LLM-as-a-Judge的新兴范式。

当前,MLLM-as-a-Judge框架正在涌现用于评估模型。然而,关于MLLM-as-a-Judge如何应用于数据或代理评估的研究仍然有限。除了模型评估之外,与LLM-as-a-Judge非常相似,MLLM-as-a-Judge有望能够评估或标注数据,充当奖励模型,或在中间推理过程中充当验证器。这些扩展的角色将使MLLM-as-a-Judge能够更广泛地为AI流程做出贡献。

评估的未来在于开发能够推理和评估跨文本、音频、图像和视频的复杂内容的强大多模态

Logo

一站式 AI 云服务平台

更多推荐