OpenAI王炸模型引爆科技圈,我们第一时间深读了技术报告
2024-03-04 12:23:51 科技资讯 作者:周小明
OpenAI2月16日凌晨发布了文生大模型Sora,在科技圈引起一连串的震惊和感叹,在2023年,我们见证了文生文、文生图的进展速度,可以说是人类被AI攻占最慢的一块“处女地”。而在2024年开年,OpenAI就发布了王炸文生大模型Sora,它能够仅仅根据提示词,生成60s的连贯,“碾压”了行业目前大概只有平均“4s”的生成长度。
图注:OpenAI专门设计的解码器模型,它可以将生成的潜在表示重新映射回像素空间在更高层次上,我们首先将压缩到一个低维度的潜在空间:这是通过对进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始转化为这些包。
压缩网络
我们专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始作为输入,并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成。
我们还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的或图像。
时空包
当给定一个压缩后的输入时,我们会从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于,因为本质上就是由连续帧构成的,所以图像也可以看作是单帧的。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的和图像进行训练。在推理阶段,我们只需在适当大小的网格中安排随机初始化的包,就可以控制生成的大小和分辨率。
用于生成的缩放Transformers
Sora是一个扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的“干净”包。重要的是,Sora是一个基于扩散的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及图像生成等领域。
图注:随着训练量的增加,扩散转换器生成的样本质量有了明显提高在这项工作中,我们发现扩散转换器在生成领域同样具有巨大的潜力。我们展示了不同训练阶段下,使用相同种子和输入的样本对比,结果证明了随着训练量的增加,样本质量有着明显的提高。
丰富的持续时间、分辨率与纵横比
过去,图像和生成方法常常需要将调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的。但Sora打破了这一常规,它直接在原始大小的数据上进行训练,从而带来了诸多优势。
采样更灵活
Sora具备出色的采样能力,无论是宽屏1920x1080p、垂直1080x1920,还是介于两者之间的任何尺寸,它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora也能以较小的尺寸迅速创建内容原型。而所有这一切,都得益于使用相同的模型。
图注:Sora可以为各种设备生成与其原始纵横比完美匹配的内容改进构图与框架
我们的实验结果显示,在的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点,我们将Sora与一个将所有训练裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会生成仅部分显示主题的。而Sora则能呈现出更加完美的帧,充分展现了其在生成领域的卓越性能。
图注:将所有训练裁剪为方形的模型相比(左),Sora能呈现出更加完美的帧语言理解深化
为了训练文本转生成系统,需要大量带有相应文本字幕的。
为此,我们借鉴了DALL·E3中的re-captioning技术,并应用于领域。
我们训练了一个高度描述性的转译员模型,然后使用它为我们训练集中的所有生成文本转译。通过这种方式,我们发现对高度描述性的转译进行训练,可以显著提高文本保真度和的整体质量。
与此同时,与DALL·E3类似,我们还利用GPT技术将简短的用户提示转换为更长的详细转译,并将其发送到模型。这一创新使得Sora能够精确地按照用户提示生成高质量的。
与提示
在上述所有结果和我们的演示中,你可能已经注意到了文本转的示例。但Sora的功能远不止于此,它还能接受其他类型的输入提示,如预先存在的图像或。这种多样化的提示方式使Sora能够执行广泛的图像和编辑任务,如创建完美的循环、将静态图像转化为动画、向前或向后扩展等。
将DALL·E变成动画
值得一提的是,Sora还能在提供图像和提示作为输入的情况下生成。
下面展示的示例就是基于DALL·E2和DALL·E3的图像生成的。
这些示例不仅证明了Sora的强大功能,还展示了它在图像和编辑领域的无限潜力。
一幅逼真的云朵图像生成,上面写着“SORA”;在一个华丽的历史大厅里,一股巨大的浪潮达到顶峰,并开始崩散,两个冲浪者抓住时机,巧妙地在海浪表面飞驰扩展生成
Sora不仅具备生成的能力,更能在时间维度上实现向前或向后的无限扩展。以下三个便是从同一生成片段出发,逐步向后扩展的示例。尽管它们的起始部分各异,但结局却出奇地一致。
这充分展示了Sora在时间扩展方面的强大功能,甚至能创造出无缝的无限循环。
到编辑
随着扩散模型的发展,我们已经开发出多种方法来编辑基于文本提示的图像和。在此,我们将其中一种名为SDEdit32的技术应用于Sora。这项技术赋予了Sora转换零拍摄输入风格和环境的能力,为编辑领域带来了革命性的变革。
的无缝连接
更令人惊叹的是,Sora还能在两个截然不同的输入之间实现无缝过渡。通过逐渐插入技术,我们能够在具有完全不同主题和场景构图的之间创建出流畅自然的过渡效果。
生成能力
Sora的出色能力不止于数据处理和分析,它现在还能生成图像!这一创新功能的实现得益于一种独特的算法,该算法在一个精确的时间范围内,巧妙地在空间网格中排列高斯噪声补丁。
值得一提的是,Sora的图像生成功能不仅限于特定大小的图像。它可以根据用户需求,生成可变大小的图像,最高可达惊人的2048×2048分辨率。
图注:一个女人在秋天的特写肖像,每一个细节都被捕捉得淋漓尽致,浅景深的应用使得主体脱颖而出
图注:充满生机的珊瑚礁吸引了五颜六色的鱼类和海洋生物新的模拟能力
在大规模训练过程中,我们发现模型展现出了许多令人兴奋的新能力。
这些功能使得Sora能够模拟现实世界中的人物、动物和环境等某些方面。值得注意的是,这些属性的出现并没有依赖于任何明确的3D建模、物体识别等归纳偏差,而是纯粹通过模型的尺度扩展而自然涌现的。
3D一致性:在3D一致性方面,Sora能够生成带有动态摄像头运动的。随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。
较长的连贯性和对象持久性:生成领域面对的一个重要挑战就是,在生成的较长中保持时空连贯性和一致性。Sora,虽然不总是,但经常能够有效地为短期和长期物体间的依赖关系建模。
例如,在生成的中,人物、动物和物体即使在被遮挡或离开画面后,仍能被准确地保存和呈现。同样地,Sora能够在单个样本中生成同一角色的多个镜头,并在整个中保持其外观的一致性。
与世界互动:Sora有时还能以简单的方式模拟影响世界状态的行为。
例如,画家可以在画布上留下新的笔触。随着时间的推移,一个人吃汉堡时也能在上面留下咬痕。
图注:Sora能以简单的方式模拟影响世界状态的行为模拟数字世界:Sora还能够模拟人工过程,比如游戏。它可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。
这些功能都无需额外的训练数据或调整模型参数,只需向Sora提示“我的世界”即可实现。
这些新能力表明,模型的持续扩展为开发高性能的物理和数字世界模拟器提供了一条充满希望的道路。通过模拟生活在这些世界中的物体、动物和人等实体,我们可以更深入地理解现实世界的运行规律,并开发出更加逼真、自然的生成技术。
局限性与展望
尽管Sora在模拟能力方面已经取得了显著的进展,但它目前仍然存在许多局限性。
例如,它不能准确地模拟许多基本相互作用的物理过程,如玻璃破碎等。
在某些交互场景中,比如吃东西时,Sora并不能总是产生正确的对象状态变化。我们在发布页面中列举了模型的其他常见故障模式,包括在长时间样本中发展的不一致性或某些对象不受控的出现等。
我们相信随着技术的不断进步和创新,Sora所展现出的能力预示着模型持续扩展的巨大潜力。未来,我们期待看到更加先进的生成技术,能够更准确地模拟现实世界中的各种现象和行为,并为我们带来更加逼真、自然的视觉体验。
圈内人如何看Sora?
最后再来看看各位技术大牛和内容行业从业者如何评价Sora?
马斯克评OpenAI模型:人类认赌服输,但AI增强的人类将创造出最好作品
OpenAI周四发布了首个生成模型Sora。马斯克的前女友格莱姆斯发布了一连串帖子,讨论这项新技术对电影以及更广泛的艺术创作的影响。
马斯克在其中一条帖子下回应称:“AI增强的人类将在未来几年里创造出最好的作品。”
值得注意的是,马斯克和格莱姆斯在过去大约半年时间里一直在就他们三个子女的抚养权问题对薄公堂。两人之间在X平台上这次罕见的互动引发了人们对他们目前关系状态的猜测。
稍早,一位X用户分享了Sora生成的一名女子在东京街头漫步的,并评论称:“OpenAI宣布了Sora,它使用混合扩散和变压器模型架构生成长达1分钟的。
他们似乎又领先了其他所有人1-2年。”另一位X用户评论称:“gg皮克斯。”
马斯克回应称:“gg人类。”(注:gg是网络游戏用语“goodgames”的缩写,主要用于游戏结束后,输赢双方都可以用,但现在多由失败方发出,表示认赌服输、心服口服的意思。)在马斯克帖子的评论区里,还有用户附和道:“gg好莱坞”。
JimFan感叹:Sora是一个数据驱动的物理引擎
英伟从业者工智能研究院JimFan表示“如果你还是把Sora当做DALLE那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。”JimFan大神的言下之意是,我们不能忽略Sora背后,“世界模型”更进一步,AI已经可以读懂物理规律。
YouTube大V:动画师和3D艺术家的工作可能有危险了
YouTube大VPaddyGalloway感慨:“内容创作永远改变了。这不是夸张。我在YouTube世界已经15年了,OpenAI刚刚展示的东西让我说不出话来…”他认为,Sora将带来以下这些改变:
动画师和3D艺术家的工作可能有危险了库存素材网站将变得无关紧要
任何人都可以立即拥有出色的B-roll(辅助镜头)
制作精美的门槛降至零
在一个每个人都能制作出美丽的世界里,内容背后的“想法”和故事变得更加重要
Sora将真正颠覆教育、和解说的细分市场
AI创业公司创始人:
五年之后,你将能够生成完全沉浸式的世界,并实时体验它们
TakeoffAI是专注于AITools的创业公司,它的创始人认为这一波OpenAI新技术的最大受益者可能是虚拟现实。“在两周内,我们连续有了苹果的VisionPro和OpenAI的Sora文本到AI模型。
五年之后,你将能够生成完全沉浸式的世界,并实时体验它们。Holodeck(应该是指今年火爆的掌机Steamdeck的虚拟现实版本)很快就要来了。”
除了这些技术上的猜测和对产业影响的正面预测外,也有老反对派指出Sora的潜在问题不那么容易纠正。
GaryMarcus:Sora奇怪的物理故障可能不是数据中出现的
纽约大学教授GaryMarcus以其对AI领域的深刻见解和对现有技术的批判性思考而闻名,他的观点和研究对AI社区产生了重要影响。他表示“Sora奇怪的物理故障(例如动物和人在人群中自发出现和消失)令人着迷:这些错误可能不是数据中出现的。这种小故障在某些方面类似于LLM“幻觉”,即从有损压缩中(大致)解压缩产生的伪影,而不是来自这个世界的东西。”
而且这种错误在他看来是一种“与现实世界物理学的系统性偏差,可能很难纠正。”
不过此刻最悲伤的应该是Google,本来拿来翻盘用的的Gemini1.5发布风头完全被Sora压过。
作为AI界的汪峰,它对此没有评论。
文|腾讯科技郭晓静、郝博阳编译|金鹿