发布时间:2024-03-25
作者:中国信通院
近期,OpenAI、谷歌、Meta、Stability AI分别推出了最新视频大模型,其中,OpenAI发布的文生视频大模型Sora将生成视频时长延长至分钟级,能够生成不同持续时间、宽高比和分辨率的视频和图像,具备高度理解、模拟物理世界等能力。随着视频大模型技术的突破,其有望在游戏、影视、短视频等领域提升内容生产效率,引领行业变革。目前,语言、代码、音乐、图像、视频等模态大模型技术持续演进升级,能力不断取得突破,引发了业内强烈反响。
图1 大模型标准体系一览
目前,视频大模型在复杂场景模拟、因果关系理解、时间联系理解、空间细节把握等方面仍存在一定的局限性。为加速视频大模型应用向实、可靠,大模型工作组现正式启动视频大模型标准研制工作,基于《大规模预训练模型技术和应用评估方法 第2部分:模型能力》《生成式人工智能技术及产品能力评估方法 第1部分:技术能力》标准基础,从功能、效果、性能等维度综合评估视频大模型能力。其中,功能方面考察视频大模型在文本生成视频、视频内容扩展、视频编辑、视频连接等方面的能力,效果方面考察视频大模型生成的图像或视频在匹配度、合理性、互动性等方面的能力,性能方面考察视频大模型生成的结果在视频时长、视频质量等方面的能力。
为进一步完善标准,增进产业交流,中国信通院人工智能研究中心将于3月4日下午召开视频大模型技术研讨会暨标准启动会,邀请业内专家围绕视频大模型的技术特点、应用落地等方面展开研讨,现诚挚邀请各相关单位及专家参与。
3月4日下午14:00-16:00
请有意向参与标准及会议的专家填写标准参编及会议报名二维码,通过报名后参会方式将发送至报名邮箱。同时,如有意向参与本次技术沙龙演讲环节,如有演讲意向请与联系人联络。
吴老师,15927505636,
wusiqi@caict.ac.cn
张老师,19852822678,
zhangdan3@caict.ac.cn