登录通行证
欢迎注册帐户
欢迎找回帐户

评测新闻

返回 新闻详情

评测新闻

中国信通院可信AI大模型评估体系再升级

发布时间:2024-03-25

作者:中国信通院

近年来,大规模预训练模型(以下简称“大模型”)作为人工智能取得突破性进展的重要驱动力之一,显著加速人工智能工程化和普惠化发展进程,有望成为新一代智能技术底座。2020年,中国信息通信研究院(以下简称“中国信通院”)依托人工智能关键技术和应用评测工业和信息化部重点实验室(以下简称“实验室”)正式启动大模型研究工作,面向大模型研究、咨询、标准、评等共性需求,不断夯实测试数据集、软硬件环境、标准规范等基础,已具备全面、专业、高效的大模型评估测试软硬实力。

实验室大模型工作组携手各方在工作组建设、标准研制、评估测试、案例征集等方面取得多项成果。具体而言:工作组建设方面大模型工作组截止目前已吸纳成员单位170余家,覆盖了互联网企业、人工智能企业、高校院所、金融机构、电信运营商等。标准研制方面,工作组面向大模型的建、用、管等产业需求形成了“四横一纵”大模型标准体系2.0,推出十余项面向行业的大模型标准体系。评估测试方面,工作组依托可信AI评估体系先后为30余家单位提供60余次大模型评估服务,并颁发等级证书。案例征集方面工作组先后启动两轮大模型应用案例征集工作,共评选出44家企业申报的55项案例,涉及银行、保险、证券、通信、电商、零售等行业。

微信图片_20240325163053.png

为持续推动大模型产业发展,提升大模型技术能力与应用水平,中国信通院参考《大规模预训练模型技术和应用评估方法》《面向行业的大规模预训练模型技术和应用评估方法》《生成式人工智能技术及产品评估方法》《对话式人工智能技术及产品评估方法》等系列标准,对可信AI大模型评估体系进行再度升级。


一、全能力域项目

模型开发:包括数据构建、模型训练、模型管理、模型部署4个能力域、16个能力子域、60余个能力项,全面评估研究主体开发大模型的能力。

模型能力:包含功能丰富度、性能优越度、服务成熟度3个评估维度、8个能力域、30余个能力项,全面评估大模型的各项技术能力。

模型运营面向大模型涉及的平台、工具、套件等产品,评估模型调优、模型交付、模型运营等能力。

模型应用:包含应用丰富度、应用灵活度、应用成熟度3个评估维度,9个能力子域、30余个能力项,综合评估大模型应用成熟度。


二、行业大模型专项

从场景丰富度、能力支持度、应用成熟度3个能力域对以下大模型进行评估:

金融大模型:从智能风控、智能客服、智能投研等30余个任务上对金融大模型的技术能力和应用服务进行评估。

政务大模型:从一网统管、一网通办、一网协同、行政服务、人社服务、财税服务等20余个通用场景和专用场景上对政务大模型进行评估。

传媒大模型:从媒体运营、内容审核、版权保护等30余个能力项上对传媒大模型技术能力和应用服务进行评估。

其他行业大模型:包括工业大模型、教育大模型、汽车大模型、家居大模型、电信大模型等。


三、场景大模型专项

评估对话大模型、代码大模型、客服大模型、知识服务大模型、内容审核大模型、多模态生成大模型等在特定领域、场景和任务上的效果。


四、大模型工具平台专项

面向大模型工具平台从功能完备度、工具丰富度、产品易用性、平台可扩展性、任务可满足度等维度,全面评估产品能力。


五、基于大模型的应用专项

评估基于大模型的智能体、检索增强生成、智能文档处理、智能决策、智能搜索、商业智能等产品能力。

图片

第三轮评估结果拟于2024年1月正式发布。如咨询中国信通院可信AI大模型评估体系或意愿参与评估工作,请联系:

张老师,15722924458,

zhangxueqiang@caict.ac.cn

张老师,19852822678,

zhangdan3@caict.ac.cn

陶老师,15150591515,

taoyue@caict.ac.cn