本文篇幅很长,主题很多,但循序渐进,对「Sora 究竟是不是世界模拟器」这一说法给出了非常详实的解读。
![图片](https://image.jiqizhixin.com/uploads/editor/18b95444-f83d-48de-97fb-43fec7722122/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/9b15f171-f684-4d84-9c50-47612e22f867/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/1bf04e1a-7f8f-40c0-897d-1084c06d87ae/640.png)
引言 视频生成进展 Sora(可能的)工作原理 模拟假设 直观物理学 世界模型 再看 Sora 结论
我们教 AI 理解和模拟运动中的物理世界,希望达成的目标是训练模型并让它们帮助人们解决需要真实世界交互的问题。
所谓世界模型,即能够构建环境的内在表示并用它来模拟未来环境事件的 AI 系统。你可以将 Gen-2 等视频生成系统看作是非常早期和有限形式的通用世界模型。
![图片](https://image.jiqizhixin.com/uploads/editor/d5a39b4a-cc0c-4d24-a309-abac6d46d446/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/09c6d422-7dcc-4f23-8107-904556dfebf4/640.png)
论文地址:https://arxiv.org/pdf/2212.09748v2.pdf GitHub 地址:https://github.com/facebookresearch/DiT
![图片](https://image.jiqizhixin.com/uploads/editor/10e9314d-8fbb-46eb-b995-841ab12fe38b/640.png)
视频压缩网络将原始视频输入压缩为潜在的时空表示; 压缩后的视频变为「时空 patch」,并作为输入 token 馈入到扩散 Transformer 中; 在最后一个 Transformer 块之后,解码器模型(与视频压缩网络联合训练)将生成的潜在表示映射回像素空间。
![图片](https://image.jiqizhixin.com/uploads/editor/a99fe0e7-cf91-4bd6-a41f-7333014f053c/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a42069fd-c361-4458-a3ca-a47839861b18/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/ce858571-dd91-4c24-94d6-51513a127e33/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/7ce78e29-a809-468d-843a-306199be4196/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/03e7061f-ddf0-453c-a1fb-c0cd3e756544/640.png)