登录通行证
欢迎注册帐户
欢迎找回帐户

评测新闻

返回 新闻详情

评测新闻

2023可信AI大模型评测体系全年工作回顾

发布时间:2024-03-25

作者:中国信通院

近年来,大模型呈现加速发展态势,逐步夯实人工智能技术底座,推动人工智能的实用化、通用化、普惠化发展进程。回顾2023年,得益于业界同仁的鼎力支持,中国信通院大模型团队齐心协力,共同推动各项工作取得进展。这一年,我们聚焦通用大模型、行业大模型、基于大模型的智能应用、大模型应用成熟度、智能体、RAG、端侧智能等方向,开展了标准研制、评估测试、专题研讨会、沙龙活动等工作。现诚邀您与我们一起回顾中国信通院大模型团队在2023年度所取得的成果!

工作组建设
2023年,人工智能关键技术和应用评测工业和信息化部重点实验室大模型工作组发展六家副组长单位,分别是华为、百度、中科院自动化所、科大讯飞、三六零、昆仑万维。截至2023年12月,大模型工作组共吸纳成员单位共计170余家,覆盖互联网企业、人工智能企业、高校院所、电信运营商、金融机构等多种类型。点击查看详情!

8.png

产业研究

中国信通院《大模型落地路线图RD2LM框架》正式发布,从大模型的现状诊断、能力建设、应用效能、运维管理等四个阶段着手,全方位分析大模型在落地过程中面临的基础设施、数据资源、模型算法、应用服务、安全合规等问题,探索适合大模型的最佳落地方法。点击查看详情!

9.png

标准研制

2023年,大模型工作组先后完成制定面向通用大模型的大模型标准体系2.0中模型运营、模型应用、可信要求三部分标准。围绕行业特色开展金融、政务、教育、家居、汽车等十二个行业大模型标准编制,并结合基于大模型的智能应用开展智能体、RAG等落地技术标准研究,参考基础设施、数据、算法、产品等不同层级评估大模型应用成熟度,形成大模型标准体系3.0。点击查看详情!

10.png

11.png

评估测试

大模型相关标准符合性验证工作稳步推进,持续开展通用大模型、行业大模型、大语言模型专项、金融大模型专项、生成式AI专项、对话式AI专项等评估工作。相比于2022年,服务企业数量和测试模块数量有了显著增长,从3家企业、6个模块增加至30余家单位、60余个模块。

12.png

评估体系可信AI大模型评估体系(点击查看详情)

评估项目:

评估项目报名详情

基于大模型的智能应用

点击查看详情

电信大模型
点击查看详情
教育大模型

点击查看详情

汽车大模型

点击查看详情

传媒大模型

点击查看详情

政务大模型

点击查看详情

家居大模型

点击查看详情

金融大模型点击查看详情

“方升”体系

2023年,发布“方升”大模型基准评测体系,涵盖测试指标、测试方法、测试数据集和测试工具关键四要素,重点强化行业和应用导向能力的考查,创新性提出自适应动态测试方法,重点解决大模型“刷榜”等问题,搭建动态测试数据库,涵盖测试数据集123个,测试数据条数达到200万,联合产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个。

13.png

会议活动

2023年全年,大模型工作组累计组织召开大模型相关会议近30场。内容涵盖各类标准研讨会、标准贯宣会、技术沙龙、产业论坛。部分会议有:

1. 大模型工作组2023年首次会议暨大模型产业推进方阵筹备会——3月20

亮点回顾:

成立大模型工作组,产业影响力日益凸显;

大模型标准初成体系,编制工作稳步推进;

大模型评测紧扣可信,多维解析模型能力;

发布大模型优秀案例,深刻洞察发展态势。

(点击查看详情)

2. 杭州通用人工智能论坛大模型技术应用分论坛——531

亮点回顾:

大模型工作组定位升级,促进产业交流平台搭建;

大模型应用标准重磅发布,助力行业应用效能评估;

产研多位专家参会分享,剖析技术及应用走向;

大模型、生成式AI优秀案例全新发布,洞察行业发展趋势。

(点击查看详情)

3. 2023可信AI大会暨南京人工智能产业发展大会大模型高质量发展分论坛

亮点回顾:

搭建产学研用交流平台,多视角分享行业新洞察;

发起行业大模型标准联合推进计划,完善标准体系建设;

金融大模型标准重磅发布 ,助力金融行业应用能效评估。

(点击查看详情)

14.png

图片

2024年,中国信通院将继续联合大模型工作组全体成员单位,共同完善大模型标准体系,开展大模型标准符合性验证工作,重点开展智能体、基准测试、RAG、大模型应用成熟度等工作。欢迎各方单位深度参与,共筑大模型标准体系,共推大模型发展进程。