大多数视频推理数据集的侧重点是从复杂的视觉和语言输入中进行模式识别,而不是基于因果结构。在这篇 ICLR 2020 论文中,麻省理工、DeepMind 的研究者提出了一种针对时间和因果推理问题的数据集,包含 20,000 个关于碰撞物体的合成视频以及 300,000 多个问题和答案,从互补的角度研究了视频中的时间和因果推理问题。
论文链接:https://arxiv.org/abs/1910.01442
项目链接:http://clevrer.csail.mit.edu/
描述性(「什么颜色」)
解释性(「什么原因」)
预测性(「将发生什么」)
反事实(「如果…会发生什么」)
![](https://image.jiqizhixin.com/uploads/editor/cbce55f9-8f38-466c-91bf-776d8bb1d7c9/640.png)
![](https://image.jiqizhixin.com/uploads/editor/55cbf4a0-4d5a-49d2-9dce-b903c6cb9afc/640.png)
![](https://image.jiqizhixin.com/uploads/editor/d8c8bd48-fa56-4c55-8e11-99702323778e/640.png)
![](https://image.jiqizhixin.com/uploads/editor/3fd86c86-6ad6-4a1f-b7ab-62cdb52def57/640.png)