人工智能关键技术和应用评测工业和信息化部重点实验室

联盟动态

可信AI技术热点｜大模型持续释放技术红利，产业级大模型评估体系正式发布

发布时间：2022-07-06

作者：中国信通院

近年来，大规模预训练模型（以下简称“大模型”）以强大的研究基础性、技术通用性、应用泛化性，得到产学研各方的高度关注。大模型是指在海量通用数据和任务上进行预先训练的具有大规模参数的人工智能模型。尽管当前大模型尚处于商业模式的探索期，其工程化、产品化进程受到多方因素制约，但作为智能底座带来的丰富功能和优越性能却吸引着头部企业、高校院所持续加注研发。

一、大模型底座效能显著，研究和应用频传利好讯息

自大模型研究工作兴起以来，我国高度重视技术研发和产业应用布局，涌现出众多富有影响力的大模型。近一年，阿里巴巴、华为、智源研究院、百度、中科院自动化所、浪潮、上海人工智能实验室相继发布M6、盘古、悟道2.0、ERNIE3.0、紫东太初、源1.0、书生等面向中文的大模型，积极探索大模型应用落地。步入2022年，国内外大模型呈现出技术更迭提速、应用创新加持、产业热度走高等趋势。

华为“盘古矿山大模型”盘活工业数据，助力矿山行业显著实现降本增效。受限于传统的“手工作坊”开发模式，矿山行业即使具有丰富的开采及生产现场数据，却在模型开发过程中面临着门槛高、碎片化、周期长、效率低等问题。经过充分调研和需求分析，华为基于矿山行业的大量数据训练形成盘古矿山大模型解决方案。实测成效显著，效果方面，盘古矿山大模型在主运皮带异常监测方面的识别准确率超过95%，在掘进作业中动作规范性方面的识别准确率平均超过93%、非动作类的识别准确率超过95%。时间方面，开发周期从传统的多月缩短到多日。

斯坦福大学曼宁教授发表论文，指出大规模语言模型在突破语言界限和认知世界方面取得重要成就。曼宁认为，语言是人类强大的、具有变革性的能力，是区别于其他物种的显著特征，能够给予人类联结个体大脑的方法。在此认知下，曼宁将自然语言处理的发展历程分为四个重要阶段：1950年至1969年的启蒙阶段， 1970年至1992年的探索阶段，1993年至2012年的统计机器学习阶段，以及2013年至今的深度学习阶段。第四阶段对字、词、句、段、篇的语义向量表示更为精准，长距离语境建模能力更为优越，其中最为重大的突破是大模型，能够通过自监督神经网络学习突破语言界限、模态壁垒，与自然语言处理、知识图谱、计算机视觉结合并展现出较强的理解、生成、认知能力。

腾讯云小微提出“神农MShenNonG”多语言预训练模型，登顶XTREME基准榜单。XTREME榜单由CMU和Google于2020年提出，覆盖40种语言，涉及12种语系，包含9种句法和语义推理任务。当前主流的自然语言处理技术高度依赖大规模、高质量的训练数据集，学术研究和产业应用主要集中在中文和英文等高资源语种，低资源语种的研究进程相对落后。神农MshenNonG在数据构造、模型调优、训练方式等方面分别提出混合编码、可插拔多尺度的多语言信息融合模块、引入语种和语义对比学习策略等创新方法，仅以5亿参数规模、10天训练周期就取得了更为优越的语言分析和处理性能。

二、中国信通院联合各方，构建产业级大模型评估体系

中国信通院联合大模型产业各方，分析工程化关键阶段并确立标准体系。2021年11月，中国信通院依托人工智能关键技术和应用评测工信部重点实验室成立人工智能工程化推进委员会大模型工作组，至今已吸纳大模型头部企业、科研院所、互联网企业、AI企业、电信运营商、金融机构近50家单位，涵盖大模型产学研用多方角色。在大模型标准和评测方面，中国信通院联合大模型工作组多家核心成员单位结合大模型工程化重要阶段，确立大模型标准体系为模型开发、模型能力、模型应用和安全可信四个部分。其中，大模型系列标准的前两部分经多次会议研讨，已初步形成V1.0版。

微信图片_20220706142042.png

模型开发标准关注大模型的全栈开发能力。《大规模预训练模型技术和应用评估方法第1部分：模型开发》规范了研究主体开发大模型全栈技术能力的关键指标和评估方法，包括数据构建、模型训练、模型管理、模型部署4个能力域，以及数据获取、训练方式、模型存储、模型微调、模型裁剪、模型量化等16个能力子域，共计60余个能力项。单一能力项由多项客观指标进行综合评价，以模型裁剪为例：分别采用模型裁剪前后的压缩比、推理延迟加速比、内存占用比三项指标表示模型的裁剪效果，并采用裁剪性能差来反映模型裁剪前后的性能变化。综合上述四项指标，通过设置二维区间进行分值评定。

模型能力标准关注大模型的功能、性能、服务三项能力。《大规模预训练模型技术和应用评估方法第2部分：模型能力》围绕功能丰富度、性能优越度、服务成熟度三个维度全面评价大模型能力。其中，功能及性能的评测范围包含智能语义、智能视觉、智能语音、跨模态四个能力域，共计30余个能力项。单一能力项由多个主/客观指标进行综合评价，以智能对话为例：本标准面向单轮对话和多轮对话分别设置意图识别率、任务完成率、下文识别率等客观指标，并设置可接受度用以主观评估对话的流畅度、连贯性、有趣性。

中国信通院首轮大模型评测，面向不同量级模型设置全能/专项赛道。鉴于当前学术界、产业界开展研究的模型规模、训练数据差别较大，并更好地借助评估体系促进大小模型协同发展，中国信通院首轮预训练模型评测工作设置全能、专项两条赛道。其中，全能评测面向大规模预训练模型及超大规模预训练模型，评测内容全面覆盖模型开发、模型能力、模型应用和安全可信四个模块。专项评测面向预训练模型，参评主体可结合实际研究及应用情况，参与单一模块中部分指标的评测。

未来，中国信通院将持续跟踪大模型前沿动态，依托大模型工作组聚焦产业各方力量，积极开展大模型标准研制和产业交流等工作。评测工作现已正式启动，欢迎各方咨询和参与。

相关合作及咨询请联系

张老师 | 15722924458；

zhangxueqiang@caict.ac.cn

陆老师 | 18761677976；

lutiewen@caict.ac.cn