人工智能关键技术和应用评测工业和信息化部重点实验室

联盟动态

AIIA观察｜大模型呼唤新“图灵”测试，基准评测驱动模型发展

发布时间：2024-03-25

作者：中国信通院

2023年7月，在国际著名期刊《Nature》上，一篇名为《ChatGPT broke the Turing test — the race is on for new ways to assess AI》的文章得到了产学研各界的广泛关注。文章认为图灵测试已经无法满足大模型的评测，应该探索新的方法来评估先进人工智能的水平。大模型基准评测通过设计合理的测试任务和数据来对模型的能力进行全面、量化的评估，有助于大家客观认知大模型能力，指导大模型的产业应用落地，还可以进一步预知并防范大模型带来的风险和挑战，引导其朝着更健康和更安全的方向发展。

观察1：大模型基准评测“百花齐放”，全面赋能“产用管”关键环节

据不完全统计，目前产学研各界已经出现超过300种大模型基准评测的相关成果。仅2023年，新推出的评测数据集数量就超过200个。其中，较著名的大模型评测榜单包括Hugging Face推出的Open LLM Leaderboard和Chatbot Arena，以及国内的CompassRank、SuperCLUE和FlagEval等。高频评测数据集包括MMLU、C-Eval、CMMLU、BBH、AGIEval、MBPP、HumanEval、GSM8K、MATHVISTA、MMMU等。大模型在评测数据集上的最佳测试分数不断刷新，一定程度上反映出大模型的能力在持续提升。同时，基准评测的重要性也日益凸显，已全面赋能大模型“产用管”各关键环节。在研发阶段，基准评测被用于快速挖掘大模型当前的不足与痛点问题，推动大模型能力持续提升；在应用阶段，基准评测用于大模型落地效果验证，助力产品的选型（POC）测试和商业推广；在管理阶段，基准评测用于对大模型能力进行持续监控，引导其正向发展。

观察2：大模型应用评测需求强烈，亟需面向产业的解决方案

自2023年下半年起，大模型已持续渗透金融、医疗、软件工程、教育、法律、科研、政务、电信、能源等多个垂直行业。经过统计发现，超过50%的大模型基准评测数据集侧重于考察模型的通用能力，但面向行业的基准评测已经取得显著进展，行业评测数据集数量明显增加，例如金融领域的FinEval、PIXIU，医疗领域的PubMedQA、CMExam，软件工程领域的CoderEval、OpsEval，电信领域的TeleQnA、NetEval等。大模型行业评测需要重点考察行业基础知识和行业应用场景，由于行业数据的敏感性，70%的行业评测数据集侧重于评估行业基础知识，而在行业应用场景方面，智能客服、知识管理、数据分析、办公助手、内容创作、代码助手等是大模型的重点落地方向。当前，产业界对大模型行业应用场景的评估需求十分强烈，根据Meta等在《GAIA: A Benchmark for General AI Assistants》的测试结果显示，人类针对某些实际应用场景的问题回答准确率为92％，而即使是带有插件的 GPT-4 仅有15％的准确率，说明大模型在实际应用场景上仍然有较大的提升空间。中国信通院发布“方升”大模型基准评测体系，涵盖测试指标、测试方法、测试数据集和测试工具关键四要素，重点强化行业和应用导向能力的考查。

观察3：评测效率影响模型迭代，企业级自动化评测平台迎新发展

大模型基准评测的关键流程包括测试需求分析、测试数据准备、测试环境准备、基准测试执行、测试结果评估、测试报告生成、测试结果分析等。其中的测试数据准备和测试结果评估这两步需要大量的人力投入，工作繁琐。传统的脚本化测试框架无法满足高速迭代的业务需求，需要构建人工智能评测平台来提升测试效率。2023年，上海人工智能实验室、北京智源研究院、天津大学等科研机构纷纷推出自研的基准测试平台或框架，极大降低了基准评测的上手门槛。其中，上海人工智能实验室的OpenCompass（司南）框架开源生态较为完善，兼容多个评测数据集和大模型，支持分布式测试等功能。为了实现测试结果的自动化评估，减少专家评估人力投入，北京智源研究院和智谱AI分别推出评估大模型JUDGELM和CRITIQUELLM，测试结果表明大模型评估和人工评估的符合度可超过90%。目前，已有包括华为、字节跳动等公司启动企业级人工智能评测平台的构建，结合当前迫切的产业需求，预计将在2024年迎来新的发展机遇。

观察4：大模型“刷榜”问题频出，新测试方法保障结果公正

随着大模型基准评测高速发展的同时，也伴随着一些问题和挑战。例如，少量大模型在训练阶段加入评测数据来完成模型”刷榜”，这无疑损害了大模型榜单的公平性和可信度，评测数据的污染和泄露是当前产业界亟需解决的问题。国内的上海人工智能实验室、上海交通大学、中国人民大学、昆仑万维，以及国外的UC Berkeley、佐治亚理工大学等纷纷推出针对评测数据集污染的衡量指标和工具，可以支持包括MMLU、GSM8K等主流数据集的污染检测，一定程度上缓解了数据污染的问题。除了直接评估大模型的数据污染情况，动态测试也逐步引入以保障评测结果的真实性。复旦大学推出LLMEval评测框架，通过从海量题库中随机抽样的1000题来确保每次评测题目不重复。中国科学技术大学受心理测量学中的计算机自适应测试（CAT）的启发，利用一种自适应测试方法来根据大模型的反馈动态调整测试问题。北京智源研究院提出平行测试的方法，从多个方面增强大语言模型评测的可靠性。中国信通院创新性提出自适应动态测试方法，重点解决大模型“刷榜”等问题。随着大模新基准评测“刷榜”等问题的解决，评测结果的公正性将进一步得到提升。

观察5：提前布局前沿技术研究，基准评测助力先进人工智能发展

人工智能技术发展迅速，大模型、AGENT、具身智能、通用人工智能（AGI）等新概念和新技术层出不穷。大模型基准评测作为研究较为深入的领域，助力其他新技术的发展。AgentBench、ToolBench、ToolEval等是面向AGENT的代表性评测框架或数据集，通过搭建仿真环境，重点考察大模型与外界交互下完成复杂任务的能力，如网络购物、数据库操作等。SQA3D、Behavior-1k、Mini-BEHAVIOR等利用3D问答、空间操作等任务等评估大模型在具身智能领域内的表现。大模型基准评测还带动了AGI的发展，微软先后发布《通用人工智能的火花：GPT-4的早期实验》和AGIEval评测数据集，通过数学、编程、视觉、医学、法律、心理学等较困难的任务，证明GPT-4已进入AGI的早期阶段。中国科学院和美国俄亥俄州立大学等先后推出AGIBench和MMMU评测数据集，从多模态、多学科、多粒度等多个维度衡量大模型距离AGI的差距。虽然当前AGI发展仍然处于初期阶段，但通过基准评测的研究，可为未来AGI技术的发展提供思路。

中国人工智能产业发展联盟评估组后续将持续监控国内外主流大模型的能力变化，并重点面向大模型的产业落地需求构建模型测试能力，启动大模型基准测试工具平台标准和面向大模型产业应用效果评估系列标准的建设工作。诚邀产学研各界参与“方升”大模型基准测试体系，共同打造人工智能评测领域的共商、共建、共享高地！

联系人：

韩老师 15201696937

hanxu5@caict.ac.cn

王老师 18630392456

wangying5@caict.ac.cn