人工智能关键技术和应用评测工业和信息化部重点实验室

评测新闻

中国信通院可信AI政务大模型首批标准符合性验证正式启动

发布时间：2024-03-25

作者：中国信通院

近年来，大模型技术逐渐成熟，正在成为推动新一轮科技创新、产业升级、生产力跃迁的重要力量。北京、深圳等多地政府积极促进业务与大模型技术融合，陆续推出一系列标杆应用场景，涉及政务咨询、辅助办理、城市治理、机关运行、辅助决策等，政务领域正在成为大模型垂直行业落地的重要分支。

中国信息通信研究院人工智能研究中心（以下简称“研究中心”）持续关注大模型在政务行业的技术落地，于2023年6月正式启动了政务大模型标准研制，经四轮标准研讨优化、近四十家单位参与，目前已正式定稿。该项标准聚焦政务领域，为评估和提升政务大模型服务的安全性、可靠性、准确性提供指导。

政务大模型标准涵盖场景丰富度、能力支持度、应用成熟度三个维度。其中，场景丰富度结合政务领域特色，既梳理了一网统管、一网通办、一网协同等通用场景，又梳理了行政服务、公安场景、人社服务等专用场景，为政务大模型建设提供全面的应用场景参考。能力支持度从功能完备度和性能优越度两个维度出发，结合政务场景需求，涉及模型识别、对话、生成、决策、检索、推理六大能力，覆盖政务大模型需具备的能力。应用成熟度包含服务可靠性、服务配套性和应用成效，保障政务大模型服务效果。

图1 政务大模型标准指标体系

为推动政务大模型设计建设和应用落地，帮助政务大模型供应方和应用方对大模型进行能力优化，现正式启动首批政务大模型标准符合性验证。测试依据《面向行业的大规模预训练模型技术和应用评估方法第6部分：政务大模型》标准，共计3个能力域，7个能力子域，40余个能力项，120余个指标项。

（1）场景应用层：评估模型应用场景丰富度，涉及一网通办、一网统管、一网协同、行政服务、公安服务、人社服务等政府通用、专用特色场景。

（2）模型能力层：评估模型具备的功能与性能，涉及识别、对话、生成、决策等政务大模型常用能力，设置功能、性能测试指标。

（3）服务保障层：评估模型应用能效，涉及数据隐私、风险控制、安全合规、反馈优化等服务管控能力。

一

验证流程

图2 标准符合性验证流程

二

时间安排

首批报名时间：截至2024年3月15日

首批结果发布：2024年7月中下旬

三

联系人

孟老师，13893360177，

mengyue@caict.ac.cn

张老师，19852822678，

zhangdan3@caict.ac.cn