人工智能关键技术和应用评测工业和信息化部重点实验室

评测新闻

中国信通院2024年可信AI大模型标准符合性验证正式启动

发布时间：2024-03-25

作者：中国信通院

当前，新一轮科技革命和产业变革正在向纵深演进，具备涌现性、扩展性、复合性、可持续学习特征的大模型正逐步赋能金融、教育、服务、制造等多个行业，或将成为驱动产业升级、促进创新的关键引擎。然而，当前大模型产品类型繁多，应用效能水准参差不齐，亟需通过标准符合性验证等手段进行全面评价，为技术创新、产业发展、社会可持续发展提供指引。

中国信息通信研究院（以下简称“中国信通院”）人工智能研究中心高度关注大模型发展动态，根据技术发展态势快速迭代大模型标准体系3.0，融合大模型生态应用体系以及量化评估基准体系，重点评估大模型能力、大模型赋能行业水平、基于大模型的智能应用水平等多个方面。同时，依托该标准体系形成系统性测试方法，可面向基础、领域、行业、任务大模型及开展技术能力评估，面向基于大模型的智能应用提供产品评估服务。

图1 可信AI大模型标准体系3.0

自2022年以来，中国信通院已进行3轮可信AI大模型标准符合性验证工作，累计为30余家企业提供60余个模块的验证服务。为进一步促进技术提升、扩展应用效能、辅助产品选型，中国信通院现正式启动第4轮可信AI大模型标准符合性验证工作。

图2 可信AI大模型标准符合性验证结果一览

评估范围

一

基础大模型

验证依据《大规模预训练模型技术和应用评估方法》系列标准，分为模型开发、模型能力、模型运营、模型应用、模型可信五个模块。

1、模型开发

关注大模型开发阶段，包含数据构建、模型构建、模型管理、模型部署共4个能力域、29个能力项，全面评价研究主体开发大模型的能力。

2、模型能力

关注大模型具体能力，包含智能语义、智能视觉、智能语音、跨模态、服务稳定性等5个能力域、40个能力项，全面评价大模型的各项技术能力及产品服务。

3、模型运营

关注大模型工程化阶段，包括数据工程、模型调优、模型交付、服务运营、平台能力共5个能力域，面向大模型平台或工具展开测试。

4、模型应用

关注大模型落地应用阶段，围绕行业覆盖度、场景适配度、任务支持度、个性化服务、多样化管理、效果优越性等评价大模型应用能力。

二

领域大模型

一方面，验证依据《大规模预训练模型技术和应用评估方法第2部分：模型能力》标准、《自然语言处理技术及产品评估方法》系列标准，面向语言大模型、视觉大模型、多模态大模型的专项测试，结合参测大模型产品特点，依托基础大模型五个测试模块，选取智能语义、智能视觉、跨模态生成等部分能力域指标进行测试。

另一方面，依据《智能化软件工程技术和应用要求第1部分：代码大模型》标准，面向代码大模型开展专项测试，围绕通用能力、专用场景能力和应用成熟三个方面，综合评估代码大模型在智能开发领域中的能力。

三

行业大模型

验证依据《面向行业的大规模预训练模型技术和应用评估方法》系列标准，面向金融、电信、教育、汽车、传媒、政务等行业大模型开展专项测试，全方位测评行业大模型的场景适配度、能力支持度、应用成熟度。

1、金融大模型

评价金融大模型对投研、投顾、风控、营销、客服等金融场景的支持度，以及数据可控、模型可控、服务可控方面的应用成熟度。

2、电信大模型

评价电信大模型对通信开发、通信网络规划、通信网络运维、电信涉诈风控等电信场景的支持度，以及在服务可靠性、安全性、灵活性方面的应用成熟度。

3、教育大模型

评价教育大模型对知识问答、知识检索、教学辅助、自主学习、测评考试、语言练习等教育场景支持度，以及可靠、安全、学习、启发、记忆方面的服务成熟度。

4、汽车大模型

评价汽车大模型对研发、生产、销售、使用、售后等汽车场景支持度，以及算力配置、部署推理、可信能力、系统生态方面的应用成熟度。

5、传媒大模型

评价传媒大模型对内容采集、内容生成、内容传播、舆情管理等场景支持度，以及内容可信度、可追溯性、版权保护、等方面的应用成熟度。

6、政务大模型

评价政务大模型对一网统管、一网通办、一网协同、行政服务、公安服务等政务场景的支持度，以及服务可靠性、服务配套性、应用成效方面的应用成熟度。

7、家居大模型

评价家居大模型对智能空间、智能设计、智慧健康、智慧照明等家居场景的支持度，以及在服务安全性、服务稳定性、服务可靠性方面的应用成熟度。

8、工业大模型

评价工业大模型对生产优化、生产运营、生产管控、分类识别等工业场景的支持度，以及在安全性、模型可控性、集成兼容性方面的应用成熟度。

9、企服大模型

评价企服大模型对市场营销、创业创新、法律咨询、人力资源、金融财务等企服场景的支持度，以及在数据合规性、管理灵活性、服务配套性方面的应用成熟度。

10、招聘大模型

评价招聘大模型对面向求职者、面向雇主、面向招聘服务商等招聘场景的支持度；以及在合规性、时效性、真实性、可追溯性等方面的应用成熟度。

11、文旅大模型

评价文旅大模型对文化资源构建、文化内容理解、文化遗产保护、文化创意设计等文化场景和旅游营销、旅游规划、景区管理、平台管理、智能导等游旅游场景上的支持度，以及在实时连接、安全保障、反馈机制、用户体验、个性化定方面的应用成熟度。

四

任务大模型

验证依据《大规模预训练模型技术和应用评估方法》系列标准、《生成式人工智能技术及产品评估方法》系列标准、《对话式人工智能技术及产品评估方法》系列标准，评估对话大模型、客服大模型、知识服务大模型、内容审核大模型、多模态生成大模型等在特定领域、场景和任务上的效果。

五

基于大模型的智能应用

验证依据《大规模预训练模型技术和应用评估方法》系列标准、《自然语言处理技术及产品评估方法》系列标准、《基于知识的人工智能技术及产品评估方法》系列标准，面向大模型驱动的人工智能应用类术产品。

1、大模型+知识管理

面向基于大模型的知识图谱、知识库、知识管理相关产品及应用，评估大模型在知识构建、知识计算、知识应用等方面的应用效果；

2、大模型+智能对话

面向基于大模型的智能对话相关产品及应用，评估大模型在对话类型、对话功能、对话性能、对话体验等方面的应用效果；

3、大模型+智能客服

面向基于大模型的智能客服相关产品及应用，评估大模型在文本客服、语音客服、视频客服等方面的应用效果；

4、大模型+智能文档处理

面向智能文档处理系统、智能文档处理平台、文档智能审阅系统、智能文档分析平台等产品及应用，评估大模型在文档信息抽取、文档生成、文档对比、文档审核等方面的应用效果；

5、大模型+智能助手

面向基于大模型的智能助手相关产品及应用，评估大模型在对话、决策、推理、创作等多模态任务上的应用效果；

6、大模型+智能检索

面向基于大模型的智能检索相关产品及应用，评估大模型在检索效果、检索优化、检索策略等方面的应用效果；

7、大模型+智能推荐

面向基于大模型的智能推荐相关产品及应用，从用户侧和平台侧综合评估大模型在推荐准确性、推荐实时性、推荐多样性等方面的应用效果。

8、大模型+商业智能系统

面向基于大模型的商业智能系统相关产品及应用，评估大模型在智能接入、智能交互、智能分析、智能管理等方面的应用效果。

六

大模型基准测试

2023年底，中国信通院正式发布“方升”大模型基准测试体系，形成《大模型技术能力评估方法第1部分总体框架》标准。“方升”大模型基准测试体系主要针对大模型的通用能力、行业能力、应用效果等维度对大模型进行全面、客观、统一、量化的评估。今年1月，中国信通院启动“方升”大模型基准测试首轮试评估，已经完成国内外主流的开、闭源大模型近30个，即将形成大模型技术能力榜单。

验证流程

标准符合性验证流程主要分为商务确认和技术对接两个部分，商务流程依次为参测意向沟通、验证流程申请和商务合同确认，技术对接主要围绕参测材料的准备、评价测试的实施及验证结果的评审展开。

图3 测试流程概览

时间安排

1.标准符合性验证报名：即日起开始

2.标准符合性验证执行：2024年3月至2024年6月

3.专家评审：2024年7月

4.证书颁发：2024年7月中旬（拟）

联系人

张老师 15722924458（微信同号）

张老师 19852822678（微信同号）

陶老师 15150591515（微信同号）

胡老师 17371328072（代码大模型）