《传媒观察》｜AI视频的兴起：Sora类生成式平台的可能性与风险

编者按 2023年是人工智能视频爆发的一年。作为新型的文本转视频系统，Sora为视频业带来全新冲击，可能为新的视频内容平台提供动力，而把我们带入一个人工合成内容、人类生成内容以及两者混合的世界。在此过程中，视频作为媒介的意义不可避免地会发生变化，而这一切都离不开技术的不确定性和伦理风险。胡泳教授在《传媒观察》2024年第4期刊文，认为Sora可能成为恶意行为者方便而先进的工具，被用来制造更具破坏性的内容，人们将迎来“文化奇点”，即在媒介上的真实与虚构变得无法区分的时刻。生成式人工智能创新需要采取平衡的方法，考虑技术、社会和伦理维度，才能确保AI视频技术为社会做出积极贡献。

2023年是人工智能视频（下称AI视频）爆发的一年。这一年的年初，还没有公开发布的文本转视频模型。仅仅过去12个月，数十种视频生成产品开始投入使用，全球数百万用户已可以根据文本或图像提示创建短片。今天，当我们考虑对视频生成器进行预测时，记住一个观点至关重要——现在你所看到的，只是一项重大新功能的早期步骤。一旦上了轨道，它的发展会极为迅速。

一、Sora的飞跃：重新定义视频生成的界限

2024年2月，OpenAI发布了一款文本转视频的人工智能模型Sora，它可以根据文字描述生成长达60秒的逼真高清视频。虽然还只是一个研究预览版，但从OpenAI放出的合成视频示例来看，这一模型在保真度和一致性方面超越了目前可用的任何同类模型。如我们所知，Sora远非首创——Meta的Make-A-Video、谷歌的Imagen和初创公司Runway的Gen-2等已经奠定了基础，Nvidia在2023年也发布了令人印象深刻的演示。

Sora最引人注目的方面之一是它的适应性。OpenAI强调了创建能够从最少的输入中学习并轻松适应新挑战的人工智能系统的重要性。Sora体现了这一原则，展示了理解上下文、生成相关响应甚至从交互中学习的能力。这种适应性不仅增强了Sora在各种任务中的性能，还减少了大量再训练的需要，使其成为人工智能应用更高效、更具成本效益的解决方案。

总体来看，Sora的核心是一个多方面的人工智能系统，能够理解和执行跨越不同领域的任务。与以前专门用于文本生成、图像识别或策略游戏等特定任务的模型不同，Sora旨在弥合这些功能，提供更全面的方法。这是通过机器学习的尖端技术实现的，包括深度学习、强化学习和迁移学习，它们使得Sora能够利用在一个领域获得的知识来提高在另一领域的表现。

然而，与任何突破性技术一样，Sora也有自己的局限性。尽管该模型具有先进的功能，但有时仍难以准确模拟更为复杂场景的物理特性。这可能导致视觉效果虽给人留下深刻印象，但偶尔也会违背物理定律或无法准确呈现因果场景。例如，视频中的角色与物体的交互方式在物理上或许并不可行，也做不到随着时间的推移而始终保持一致。

所以，虽然Sora号称是在学习物理，但还并不能准确地建立物理模型。OpenAI的公司博客指出，它在模拟物理、理解因果关系和其他简单细节方面遇到了困难。例如，要求生成一个人咬饼干的视频，却发现饼干上没有留下任何咬痕；或是一名男子在跑步机上以错误的方式跑步。它还可能对提示的空间细节感到困惑，如跟随特定的摄像头轨迹等。

加州大学伯克利分校计算机科学教授哈尼法里德（Hany Farid）表示，如果视频生成像此前的图像生成一样取得进展，那么所有这些缺陷很快就会变得不那么常见，也更难发现。Sora的能力源于大量训练数据和在大量计算能力上运行的数十亿个程序参数。与其他使用转换器架构的人工智能模型一样，Sora也会随着训练数据集的大小、参数数量和可用计算量的增加而扩展。可以预期，AI视频的保真度在未来将会进一步提高。换句话说，眼下我们看到的是人工智能生成的“最差”视频。目前还没有同步声音，但未来的模型将会解决这个问题。

目前，Sora正处于独家测试阶段，只有部分红队人员（专门负责从对抗的角度对某一计划、战略、政策或产品提出质疑的专家组）、视觉艺术家、设计师和电影制片人可以使用。这一战略举措可确保技术在广泛发布之前，达到而且超过创意和安全的最高标准。一旦Sora可以公开并为更多人所使用，势将在全球范围内产生更加重大的影响。

二、新AI视频技术的可能性

这项技术将使各种内容创作民主化。Sora发展的重要方向是提高可访问性和用户体验，并扩大对不同语言和文化背景的支持。对于视频创作来说，它可以比智能手机和社交视频平台更公平地进行竞争，由此从根本上改变视频内容行业。

Sora的独特之处在于其惊人的真实感，以及它能够生成比其他模型通常拿出的简短片段更长的剪辑（长达1分钟）。例如，OpenAI公布的一个视频片段，提示要求制作“一个矮矮的毛茸茸的怪物跪在红蜡烛旁边的动画场景”，伴随一些详细的舞台指示（“睁大眼睛和张开嘴巴”）以及对所需氛围的描述。结果，Sora创造了一种皮克斯风格的生物，似乎具有来自《怪兽电力公司》（Monsters，Inc.）中的怪物的DNA。当《怪兽电力公司》2001年上映时，皮克斯曾经大肆宣扬制作怪物皮毛的超复杂纹理有多么困难，因为在怪物移动时，这些纹理也会随之变化。皮克斯的“巫师”们花了数月时间才把它做得恰到好处，而OpenAI的新文本转视频机器似乎轻易就做到了这一点。这当中并没有编码，Sora完全是从观察到的大量数据中学习3D几何和一致性的。

尽管场景确实令人印象深刻，但Sora的能力中最令人震惊的是那些它尚未接受过训练的能力。如前所述，Sora由OpenAI的DALL-E 3图像生成器使用的扩散模型版本以及GPT-4的基于转换器的引擎驱动，它不仅能够制作出满足提示需求的视频，而且在这样做的同时，还展现了对电影语法的新型理解，这可以转化为讲故事的才能。

比如，根据“一个色彩绚丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物”而创建的视频。研究人员发现，Sora通过镜头角度和时间安排创造了叙事主旨。“实际上有多个镜头变化——这些变化不是缝合在一起的，而是由模型一次性生成的”，研究人员称，“我们没有告诉它要这样做，它就自动完成了。”也就是说，Sora在不同的片段之间添加了看似剪切的效果，而模型在其中保持了一致的风格。

在Sora类人工智能应用中，一个超逼真的、带声音的现场视频几乎可以瞬间生成并展示给数以亿计的观众。不仅知道谁看了多长时间、跳过了哪些部分，还知道视频的点赞、分享、评论、搜索以及关于视频的所有平台外讨论，而且还了解创建该视频所使用的确切输入。这一方案一举克服了现有视频平台的两大难题：它提供了对视频的更精确描述（依靠输入文本提示），并大大降低了创作门槛（唯一要做的就是展开你的想象）。无需使用视频剪辑软件，甚至无需演员。

生成式人工智能驱动的视频平台通过指导创作者了解引发参与的因素，并向观众展示相关内容，降低了价值创造的障碍。由于在创作和观看相关内容之间几乎没有摩擦，创作者成了观众，观众也成了创作者。当然，也要认识到，即使生成式视频平台可用，文本提示也不见得能够提供足够精确的视频定义，我们很可能会看到平台生成多种相似但不完全相同的视频，因为创作者和观众撰写了类似的脚本。随着平台学会生成引人入胜的内容，一个问题必然浮出水面：平台和创作者之间的利益冲突如何管理？

虽说存在不确定性，但生成式人工智能极有可能为新的视频内容平台提供动力，取代或至少补充目前的Netflix、YouTube和TikTok。生成式人工智能技术不仅将用于创建内容，还将为平台、创作者和消费者之间的动态关系提供动力，由此产生的经济影响将是巨大的。

传统上，平台上受欢迎的内容只占很小一部分，但却贡献了大部分收益。生成式人工智能平台将为热门内容的更多成功增添助力，因为创作者在算法建议的帮助下，知道下一步该做什么。根据用户偏好和互动情况生成个性化视频内容，对于有针对性的营销、用户参与和互动体验来说非常宝贵。它也将带来成本效益，有可能通过自动化劳动密集型任务，大幅降低制作成本，从而有利于内容机构和内容创作者更有效地分配资源。

三、AI视频进入主流数字内容生产的技术和法律障碍

尽管如此，将这项技术部署到主流数字内容生产中，还存在许多重大障碍。

技术的可用性是实现新平台的关键。从技术上来看，一些尚未解决的棘手问题包括：

控制——用户能控制场景中发生的事情以及“镜头”如何移动吗？

连续性——以前，使用生成式人工智能进行视频创作时，面临着在不同场景之间保持一致性和可重复性的难题。

长度——你能制作超过几秒或十几秒的剪辑吗？

幻觉——幻觉是人工智能程序作出的意想不到的错误反应，出现幻觉的原因尚不完全清楚，可能是由于数据稀少、信息空白、基础不足、模式泛化和分类错误等造成的。在大型语言模型中，人工智能可能编造学术引文，对用户要求它分析的数据撒谎，或者编造训练数据中没有的事实。Sora尚未进行公开测试，但即使是已经发布的部分视频，也出现了困扰ChatGPT和其他大型语言模型的幻觉，即输出明显偏离逻辑或预期模式。从漂浮的椅子到消失得无影无踪的角色，从四条腿的蚂蚁再到七乘七的国际象棋棋盘，观察到的物理错误凸显了在人工智能生成的内容与各类实体细微、可预测的真实世界行为之间架起桥梁所遭遇的困难。

世界模型——与文本和图像不同，视频内容要复杂得多。视频通常涉及精密的细节，如面部表情、自然语言和上下文。目前的人工智能模型很难准确捕捉真实世界场景和情感的复杂性。

除了技术障碍，还有法律障碍。最核心的问题是，高质量的训练数据从哪里来？训练视频模型比其他内容模态更难，很大程度上是因为没有那么多高质量的、有标签的训练数据供这些模型学习。

另一个巨大的阴影是，人工智能是否创造了有偏见的世界。人类发明了计算机，并设计和训练了使计算技术发挥作用的系统。当这些系统被创建时，人类创建者的偏见就会反映在其中。而与人类偏见一样，人工智能偏见一旦转化为决策或行动，就会变成歧视，导致对历史上或当下面临压迫的群体产生不成比例的影响。对于视频模型来说，有偏见的训练数据会导致刻板陈见的延续，并在生成的内容中造成不公平的代表性。同时，问题也不仅仅出在训练数据上。开发模型的公司选择如何使用数据，并决定是否采取某些措施来减轻偏见，也几乎同等重要。

（载《传媒观察》2024年第4期，原文约20000字，标题为《AI视频的兴起：Sora类生成式平台的可能性与风险》。此为部分章节节选，注释从略，学术引用请参考原文。“传媒观察杂志”公号全文链接：https://mp.weixin.qq.com/s/nrHckqtocSlYQbPR1fTUAw。）

【作者简介】胡泳，北京大学新闻与传播学院教授