【环球时报记者 刘扬 环球时报特约记者 武彦】美国人工智能(AI)公司OpenAI近日宣布正式上线“文生视频”大模型Sora,立即引起广泛关注,蜂拥而来的大量用户一度导致其官网瘫痪。今年2月Sora首次公开时,不仅展示了从文本到视频的惊人转化能力,更宣告AI不再只是字符与图片世界的幻想,而是能够真实再现或创造出我们所见的世界。时隔10个月,Sora的性能到底有多大程度的提升?这样一场“视频工具革命”将会带来哪些深刻影响及潜在风险?对此,《环球时报》记者11日采访了多位人工智能专家。
核心优势是庞大用户基数
据介绍,这次上线的新版本Sora Turbo能够通过文本直接生成最多20秒或最高分辨率1080P的视频,成为目前全球生成时长最长的视频模型之一。该模型支持三种模式:“文本到视频”“文本+图像到视频”和“文本+视频到视频”,既可以让用户仅通过输入文本描述就生成完整的视频内容,也可以结合文本和指定的图像/视频,从而更精确地理解并展现创作者的创意意图,制作出更符合视觉预期的视频内容。不过OpenAI的技术团队也承认Sora存在不足,“如果认为Sora只需点击按钮就能生成一部故事片,那么你可能抱有错误的期望”。社交媒体流传的相关测试视频显示,Sora生成的视频在遵循物理规律方面存在明显不足,经常出现物体相互穿过、凭空出现和消失的情况。
清华大学新闻学院、人工智能学院教授沈阳11日对《环球时报》记者表示,Sora是目前AI视频大模型当中的佼佼者,但并未与其他竞品拉开代际之上的差距。尤其是可灵AI、Runway两个头部大模型,经过小半年的迭代以及与用户之间的磨合,已经衍生出了一系列的护城河功能,并且模型实现了不断进化,而姗姗来迟的Sora目前表现出的优势还不够明显,尤其是对于确定性创意生成的“图生视频”能力还很薄弱。Sora本次发布所带来的故事板、画面元素增删以及风格化预设等功能都不足以成为颠覆其他竞品的“杀手锏”。
不过沈阳认为,Sora的核心产品优势是背靠OpenAI庞大的用户基数,以ChatGPT的用户数量,将会有效地对Sora进行导流,且通过GPT提示词赋能过的Sora在画面呈现质量上也应高于其他视频大模型。“在12月10日正式发布后,Sora服务器一直处于挤爆状态,这便说明了OpenAI旗下产品的号召力,Sora很可能在几个月的时间内在用户数量上反超其余两大模型。”
或将打破传统影视制作技术壁垒
北京邮电大学人机交互与认知工程实验室主任刘伟11日在接受《环球时报》记者采访时表示,此次Sora正式发布不能看作是一场视频工具的革命,因为它没有Sora首次亮相时那样震撼全世界。我们应该高度关注并跟踪包括Sora在内的“文生视频”大模型的最新发展趋势以及技术进步,并通过了解国际上的技术发展新动向择其善者而从之,择其不善者而改之。
谈到对几款主流AI视频大模型的使用体验,沈阳介绍称,“我们团队在8月AI视频大模型赛道百花齐放之际,就对包括可灵、即梦、Vidu、清影、Runway、Luma在内当时主流的6款模型做过测试,在实际的工作中,我们团队的技术人员也结合各模型相关的优势进行了工作流的搭建与创意项目的执行。从实际效果来看,国内的视频大模型和国外差距不大。”
沈阳认为,相比AI文学、AI绘画、AI音乐,现在的AI短视频似乎是一个更加适合普通人登上时代快车的方式,这降低了通向传媒行业的入门门槛。最早火爆出圈的可灵AI,近半年以来,涌现了复活老照片等一系列或催人泪下或让人忍俊不禁的网络爆款视频。许多爆款内容的创作者都是初次接触短视频创作,而短短十几秒的作品却能取得几百万的播放量,这其实是在AI赋能下所带来的“零知识启动,高知识生产”的一种创作范式。
在谈及AI视频生成技术对影视制作、广告和内容创作等行业的影响时,沈阳表示,现在看到的不仅是技术进步,更是一场行业范式的转变。Sora等模型的出现意味着传统的影视制作流程将被重塑。许多电影人已经将AI作为有效的视觉化脚本呈现工具,甚至在今年3月6日,全球首部完全由AI制作的90分钟长篇电影《终结者2重制版》已经在好莱坞上映。而AI赋能广告短片、文旅短片、公益宣传片的案例不胜枚举。
沈阳认为,Sora等一系列视频大模型的发布标志着AI视频生成技术在影视制作、广告和内容创作领域的应用已经走向了更深阶段。过去一年的发展表明,人工智能不再仅仅停留在理论或实验阶段,而是已经深刻影响到创作流程的各个环节。总体来看,过去一年AI视频生成技术的应用已经释放出实质性的价值,尤其是在提高创作效率和灵活性方面。人工智能正在成为创意策划、内容制作和后期剪辑等环节的得力助手,打破了传统影视制作的技术壁垒和时间限制。随着技术的持续发展,AI将在内容创作中扮演越来越重要的角色,而这种转型也将引领整个行业迈向更加高效、个性化和智能化的未来。
深度伪造画面带来隐患
刘伟表示,Sora等文生视频大模型的发布,对于普通人来说,一方面降低了人们自主生成创意视频的门槛,提供了依托个人优秀创意制作出爆款视频的高质量工具。另一方面也增加了普通人辨伪的成本,特别是在电信诈骗等场景下,深度伪造的画面以及视频很可能会增加普通人的风险。
刘伟认为,我们要加大对文生视频大模型发展过程中伴生的深伪技术在社会各个场景下应用的关注。一方面要跟踪技术发展,另一方面要加强治理,特别是通过技术手段、法律法规限制相关不良内容的传播与滥用,以保证智能向善。他认为,只要Sora等大模型使用的是多内存神经网络系统,就存在出现机器幻觉的可能,因此有经验的专业人员可以找到其中不符合常识和与现实世界不相符的漏洞。刘伟强调,还要关注先进的文生视频大模型等技术被滥用于认知战的情况,这种在国外社交网络上“带节奏”的情况可能会对国家安全构成威胁,这种倾向需要高度关注。