人工智能关键技术和应用评测工业和信息化部重点实验室

评测新闻

2023可信AI大模型评测体系全年工作回顾

发布时间：2024-03-25

作者：中国信通院

近年来，大模型呈现加速发展态势，逐步夯实人工智能技术底座，推动人工智能的实用化、通用化、普惠化发展进程。回顾2023年，得益于业界同仁的鼎力支持，中国信通院大模型团队齐心协力，共同推动各项工作取得进展。这一年，我们聚焦通用大模型、行业大模型、基于大模型的智能应用、大模型应用成熟度、智能体、RAG、端侧智能等方向，开展了标准研制、评估测试、专题研讨会、沙龙活动等工作。现诚邀您与我们一起回顾中国信通院大模型团队在2023年度所取得的成果！

工作组建设

2023年，人工智能关键技术和应用评测工业和信息化部重点实验室大模型工作组发展六家副组长单位，分别是华为、百度、中科院自动化所、科大讯飞、三六零、昆仑万维。截至2023年12月，大模型工作组共吸纳成员单位共计170余家，覆盖互联网企业、人工智能企业、高校院所、电信运营商、金融机构等多种类型。点击查看详情！

产业研究

中国信通院《大模型落地路线图RD²LM框架》正式发布，从大模型的现状诊断、能力建设、应用效能、运维管理等四个阶段着手，全方位分析大模型在落地过程中面临的基础设施、数据资源、模型算法、应用服务、安全合规等问题，探索适合大模型的最佳落地方法。点击查看详情！

标准研制

2023年，大模型工作组先后完成制定面向通用大模型的大模型标准体系2.0中模型运营、模型应用、可信要求三部分标准。围绕行业特色开展金融、政务、教育、家居、汽车等十二个行业大模型标准编制，并结合基于大模型的智能应用开展智能体、RAG等落地技术标准研究，参考基础设施、数据、算法、产品等不同层级评估大模型应用成熟度，形成大模型标准体系3.0。点击查看详情！

评估测试

大模型相关标准符合性验证工作稳步推进，持续开展通用大模型、行业大模型、大语言模型专项、金融大模型专项、生成式AI专项、对话式AI专项等评估工作。相比于2022年，服务企业数量和测试模块数量有了显著增长，从3家企业、6个模块增加至30余家单位、60余个模块。

评估体系：可信AI大模型评估体系（点击查看详情）

评估项目：

评估项目	报名详情
基于大模型的智能应用	点击查看详情
电信大模型	点击查看详情
教育大模型	点击查看详情
汽车大模型	点击查看详情
传媒大模型	点击查看详情
政务大模型	点击查看详情
家居大模型	点击查看详情
金融大模型	点击查看详情

“方升”体系

2023年，发布“方升”大模型基准评测体系，涵盖测试指标、测试方法、测试数据集和测试工具关键四要素，重点强化行业和应用导向能力的考查，创新性提出自适应动态测试方法，重点解决大模型“刷榜”等问题，搭建动态测试数据库，涵盖测试数据集123个，测试数据条数达到200万，联合产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个。