澳大利亚证券投资委员会对大型语言模型摘要能力的研究结果令人失望

图片源于:https://arstechnica.com/ai/2024/09/australian-government-trial-finds-ai-is-much-worse-than-humans-at-summarizing/

随着大型语言模型(LLM)的日益普及,许多用户和公司开始关注它们快速总结冗长文档的能力,以便人类更容易理解。 然而,澳大利亚证券和投资委员会(ASIC)在调查这一潜在用例时发现,Llama2-70B模型生成的摘要明显不如人类提供的摘要。

ASIC的概念验证研究(PDF)于1月和2月进行,3月撰写,5月在回应参议院询问时发布,该研究有许多局限性,使得很难对目前最先进的LLM的摘要能力进行概括。 尽管如此,政府研究显示了大型组织在简单地将LLM输出纳入现有工作流程前应考虑的许多潜在陷阱。

为此项研究,ASIC与亚马逊网络服务(AWS)合作,评估LLM总结“提交给外部国会联合委员会关于审计和咨询公司的多项公共提交文件”的能力。 对于ASIC而言,好的摘要应强调任何涉及ASIC的提及、避免利益冲突的建议以及对更多监管的呼吁,同时引用页码并提供“简要背景”以解释。

除了Llama2-70B外,ASIC团队在研究早期阶段还考虑了较小的Mistral-7B和MistralLite模型。 这次比较“支持了行业的看法,即较大的模型往往能够产生更好的结果,”作者写道。 但是,正如一些社交媒体用户所指出的那样,Llama2-70B本身已被如ChatGPT-4o、Claude 3.5 Sonnet和Llama3.1-405B等更大模型超越,这些模型在许多普遍的质量评估中得分更高。

ASIC数字与转型负责人Graham Jefferson表示:“摘要内容相对较为一般化,并且关于ASIC被提及的细微差别并没有在AI生成的摘要中体现出来……”。 不过,仅仅选择最大的模型并不足以保证结果的优质,ASIC指出,“适当的提示工程,即仔细设计提问和任务,对优化结果至关重要。”

ASIC和AWS还努力调整模型的后台设置,如温度、索引和top-k采样。 top-k采样是一种选择下一个最有可能的单词或标记的方法,基于模型预测的概率。

ASIC使用五名“商业代表”对LLM的五份提交文档摘要进行评估,与一位主题专家准备的摘要进行对比(评估者不知道每个摘要的来源)。 AI摘要在评估者使用的五个指标上普遍被评判为弱,包括连贯性/一致性、长度以及对ASIC提及的关注。 在五份文件中,AI摘要的平均总分为七分( وفق于ASIC的五个类别、15分的评分标准),而人类摘要的分数则为12.2分。

AI摘要最明显的弱点是“分析和总结需要深入理解上下文、微妙差别或隐含意义的复杂内容的能力有限,”ASIC写道。 一名评估者特别指出AI摘要的问题,称其“冗长且毫无意义,只是在重复提交内容。”

Graham Jefferson在向澳大利亚参议院委员会谈及结果时表示:“我们发现,总体上,摘要相当一般,并且有关ASIC被提及的细微差别并没有以ASIC员工总结的方式呈现出来。”

评估者还指出,AI摘要包括不准确信息,遗漏相关信息,或突出不相关信息。 AI幻觉的存在也意味着“模型生成的文本在语法上是正确的,但偶尔会出现事实不准确的情况。”

将这些问题加在一起,评估者普遍认为,当前状态下使用AI输出可能会增加工作量,因为需要对输出进行事实检查,或者因为原始材料实际上提供了更好的信息。

尽管这些结果似乎对使用LLM进行摘要工作提出了相当有力的反对意见,但ASIC警告称,此概念验证研究存在一些重大局限性。 研究人员指出,他们只有一周的时间来优化模型,认为“在此[优化]阶段投入更多时间可能会产生更好和更准确的结果。”

而聚焦于已经过时的Llama2-70B也意味着“结果并不一定反映其他模型的表现”,作者警告。 具有更大上下文窗口和更好嵌入策略的更大模型可能会有更成功的表现,作者写道,因为“在大型文档中查找引用是一项公认的困难任务。”

尽管有这些结果,ASIC表示仍然相信“随着技术的不断进步,生成性人工智能仍有机会……该领域的技术正在进步,未来的模型可能会提高性能和准确性。”

Ma Lin

Ma Lin is a sports journalist with an infectious enthusiasm for the world of sports. His coverage extends beyond the play-by-play to delve into the personal journeys of athletes and the broader impact of sports on society. Ma's vivid reporting captures the excitement of the game while fostering a deeper appreciation for the role of sports in cultural exchange.

You May Also Like

More From Author