人工智能关键技术和应用评测工业和信息化部重点实验室

评测新闻

中国信通院可信AI大模型评估体系再升级

发布时间：2024-03-25

作者：中国信通院

近年来，大规模预训练模型（以下简称“大模型”）作为人工智能取得突破性进展的重要驱动力之一，显著加速人工智能工程化和普惠化发展进程，有望成为新一代智能技术底座。自2020年起，中国信息通信研究院（以下简称“中国信通院”）依托人工智能关键技术和应用评测工业和信息化部重点实验室（以下简称“实验室”）正式启动大模型研究工作，面向大模型研究、咨询、标准、评估等共性需求，不断夯实测试数据集、软硬件环境、标准规范等基础，已具备全面、专业、高效的大模型评估测试软硬实力。

实验室大模型工作组携手各方在工作组建设、标准研制、评估测试、案例征集等方面取得多项成果。具体而言：工作组建设方面，大模型工作组截止目前已吸纳成员单位170余家，覆盖了互联网企业、人工智能企业、高校院所、金融机构、电信运营商等。标准研制方面，工作组面向大模型的建、用、管等产业需求形成了“四横一纵”大模型标准体系2.0，推出十余项面向行业的大模型标准体系。评估测试方面，工作组依托可信AI评估体系先后为30余家单位提供60余次大模型评估服务，并颁发等级证书。案例征集方面，工作组先后启动两轮大模型应用案例征集工作，共评选出44家企业申报的55项案例，涉及银行、保险、证券、通信、电商、零售等行业。

微信图片_20240325163053.png

为持续推动大模型产业发展，提升大模型技术能力与应用水平，中国信通院参考《大规模预训练模型技术和应用评估方法》《面向行业的大规模预训练模型技术和应用评估方法》《生成式人工智能技术及产品评估方法》《对话式人工智能技术及产品评估方法》等系列标准，对可信AI大模型评估体系进行再度升级。

一、全能力域项目

模型开发：包括数据构建、模型训练、模型管理、模型部署4个能力域、16个能力子域、60余个能力项，全面评估研究主体开发大模型的能力。

模型能力：包含功能丰富度、性能优越度、服务成熟度3个评估维度、8个能力域、30余个能力项，全面评估大模型的各项技术能力。

模型运营：面向大模型涉及的平台、工具、套件等产品，评估模型调优、模型交付、模型运营等能力。

模型应用：包含应用丰富度、应用灵活度、应用成熟度3个评估维度，9个能力子域、30余个能力项，综合评估大模型应用成熟度。

二、行业大模型专项

从场景丰富度、能力支持度、应用成熟度3个能力域对以下大模型进行评估：

金融大模型：从智能风控、智能客服、智能投研等30余个任务上对金融大模型的技术能力和应用服务进行评估。

政务大模型：从一网统管、一网通办、一网协同、行政服务、人社服务、财税服务等20余个通用场景和专用场景上对政务大模型进行评估。

传媒大模型：从媒体运营、内容审核、版权保护等30余个能力项上对传媒大模型技术能力和应用服务进行评估。

其他行业大模型：包括工业大模型、教育大模型、汽车大模型、家居大模型、电信大模型等。

三、场景大模型专项

评估对话大模型、代码大模型、客服大模型、知识服务大模型、内容审核大模型、多模态生成大模型等在特定领域、场景和任务上的效果。

四、大模型工具平台专项

面向大模型工具平台从功能完备度、工具丰富度、产品易用性、平台可扩展性、任务可满足度等维度，全面评估产品能力。

五、基于大模型的应用专项

评估基于大模型的智能体、检索增强生成、智能文档处理、智能决策、智能搜索、商业智能等产品能力。

第三轮评估结果拟于2024年1月正式发布。如咨询中国信通院可信AI大模型评估体系或意愿参与评估工作，请联系：

张老师，15722924458，

zhangxueqiang@caict.ac.cn

张老师，19852822678，

zhangdan3@caict.ac.cn

陶老师，15150591515，

taoyue@caict.ac.cn