论文链接:https://dl.acm.org/doi/10.1145/3450287
数据、代码和讲义链接:https://cs.emory.edu/~lzhao41/projects/event_prediction_site/
挑战 1: 异构多输出预测问题。事件预测方法通常需要预测事件的多个方面,包括时间、地点、主题、强度和持续时间,每个方面都经常使用不同的数据结构。除了异构性,多个输出之前也有很强的相关性。另外,复杂的输出也导致了训练数据标注的难度和精度,以及预测准确性评估的难度。
挑战 2: 不同输出之间的复杂关系。不同于机器学习里经常使用的传统的独立性假设,真实世界的事件预测往往是互相影响甚至互为因果。因此,除了建立当前观测与未来事件的前瞻性映射,未来事件之间的相关性也需要考虑。
挑战 3: 实时预测的需求。事件预测一般需要对观测进行实施持续监控从而及时预报未来事件。然而在这个过程中,经过训练的预测模型逐渐变得过时,因为现实世界的规则和概念是持续变化的,数据的分布也是在变化的,比如社交媒体数据的用户年龄分布、全球气候情况等。
挑战 4: 事件大数据本身的挑战。上述提到的挑战在事件预测的任务中进一步导致收集和利用事件数据的困难。这包括诸如带有异构噪声、数据不完整、多模态,多分辨率这些常见问题。同时事件的发生一般属罕见现象,因此样本的不平衡性是重要问题。另外在很多情况下会有对抗性数据引入,比如舆论监管导致的定向性数据缺失。
对现有技术的系统分类和总结。本文提供了事件预测方法的正式问题表述,并据此对当前技术进行系统性分类。同时本文讨论了不同子类别之间的关系、优点和缺点,以及每个子类别下技术的详细信息。稳重提出的分类法可以帮助领域专家找到合适的技术从而有针对性的解决问题。
主要应用领域的综合分类和总结。本文提供了对事件预测的应用领域详细分类。阐明每个应用领域的实际意义、难点、常用技术以及数据。这将有望帮助数据科学家和模型开发人员搜索其他应用领域和数据集来评估他们提出的方法,并扩展他们的先进技术以涵盖新的应用领域。
标准化的评估指标和程序。如前所述,事件预测的数据结构是复杂的,包含时间、位置、语义等。本文全面总结了事件预测的实验方法,从而标准化了事件预测的评估体系和方法。
对该领域研究现状和未来方向的深入讨论。基于对现有的工作的调查,本文总结和划定了当前事件预测技术和应用的研究前沿。文章最后提出对当前瓶颈、长期挑战和未来方向的讨论。









给定观测量 以及历史事件数据
,事件预测是一个预估未来事件
的过程,这里
是预测出的未来事件的集合。

事件发生预测。它可以说是最广泛、最经典的 并且通常是最简单的事件时间预测任务类型。它侧重于识别是否 在未来的时间段内将有事件发生(正类)或不发生(负类)。因此这个问题通常被表述为一个二元分类问题,并用常见的分类器模型解决。当然也可由回归模型解决。另外,因为很多事件预测问题为非均衡(imbalance)样本问题,单分类模型或者是异常检测模型也经常被使用在极端稀有事件(rare event)的预测上。
离散时间预测。在许多应用中,从业者除了想知道未来事件的发生之外,还想知道未来事件的大致时间(即日期、星期或月份)。为此,通常首先将时间划分为不同的时段和各种方法专注于确定未来事件可能发生在哪个时间段。现有的研究问题可以分为直接方法或间接方法。直接方法即为简单回归、整数回归、有序回归、或者自回归问题。间接方法分为两步:第一步利用自回归模型预测输入数据在未来的走势;第二步对预测的未来数据进行异常检测,检测为异常的时间窗即为预测事件发生的时间段。
连续时间预测。离散时间预测方法,虽然简单却有几个弊端。首先它们的时间分辨率受限于离散化粒度;增加这个粒度会显着增加计算资源要求,这意味着分辨率不能任意高。此外,这种权衡本身就是一个对预测准确性敏感的超参数,这使得在训练期间进行调整变得困难且耗时。为了解决这些问题,一些技术直接预测事件精确时间 [163]。最简单的为简单的回归模型。简单回归的主要问题是高斯分布并不能反映时间量的本质,比如非负性。因而另一类方法比如点过程方法更擅长建模时间分布。最近,一些基于深度学习的方法尝试进一步提高传统的基于参数模型的点过程方法,降低学习时间的分布时对参数模型的依赖。另一个常用的方法为生存分析方法,它能够直接建模“还要多久发生”(time-to-event)的分布,并且能够有效利用训练数据里的删失(censoring)数据。
基于栅格的地点预测。基于栅格的事件位置预测技术包括多种类型,比如空间聚类、空间差值、空间卷积、轨迹目标预测等方法。这里空间聚类的目的是对表现出明显异常的大片空间区域进行识别和分组。这些方法通常是凝聚式的,即他们通常从原始最细粒度的空间栅格单元开始,并通过在每次迭代中合并特定单元的空间邻域来进行。空间聚类完成后,每个空间聚类会被送入分类器判断是否有与之对应的未来事件。另外,在过去的几年中,卷积神经网络 (CNN) 在学习和表现复杂的空间模式方面取得了巨大的成功 来自图像和空间数据。CNN 包含多个卷积层,用于提取图像的分层空间语义。此类别中的现有方法通常将空间图作为输入来预测另一个 表示未来事件热点的空间图 。这种公式类似于近年来在计算机视觉领域流行的 “图像翻译” 问题。具体来说, 研究人员通常利用编码器 - 解码器架构,其中输入图像(或空间图)由多个卷积层处理成更高级别的表示,然后通过反向卷积解码回相同大小的输出图像。轨迹目标预测方法通常侧重于基于人群的事件,例如 “聚集事件” 和“散布事件。这些方法共享一个统一的流程,包括两个步骤:首先根据观察到的轨迹预测未来的轨迹,然后根据预测的未来轨迹检测他们共同形成的诸如 “聚集” 和“散布”等事件。
基于矢量的地点预测。不同于基于栅格的方法,基于矢量的预测可以关注离散的空间区域,这些区域可以分布在欧几里德(例如,空间区域)或非欧几里德空间(例如,图拓扑)。这些方法可以分为有监督和无监督的方法。在监督方法中,每个位置将被分类为关于未来事件发生的 “正作用” 或“负作用”。最简单的设置是基于位置之间的独立和同分布(i.i.d)假设,其中每个位置由分类器使用各自的输入特征独立预测。然而,鉴于不同位置通常具有很强的空间依赖性和异质性,该领域工作进一步已经提出研究根据不同位置的预测变量和输出来解决它们。这引出了两个主要研究方向:即空间多任务学习和空间自回归方法。多任务学习是一种流行的学习策略,它可以 共同学习不同任务的模型,这样学习的模型不仅可以分享他们的 知识,但也保留了特定任务的一些独特特征。这个特点与空间事件预测任务中的空间异质性非常吻合。空间多任务学习把不同的空间位置作为不同的任务,在对不同空间地点的数据进行共同训练的同时会考虑它们的空间依赖性和异质性。空间自回归模型已在地理和计量经济学等领域得到广泛探索,在这些领域中,不同地点的数据不符合独立同分布假设。一个地点的未来事件及可能由当前的观测影响也有可能由相邻地点的未来事件影响。空间自回归模型即被用来建模上述假设。为了减弱空间自回归模型对于空间相邻关系先验信息的依赖,最近一些工作可以在训练模型的同时自学习或部分学习空间相邻关系。
基于关联规则的方法。基于关联规则的方法是数据挖掘领域中最经典的事件预测方法之一,通常由两个步骤组成:首先学习前兆和目标事件之间的关联,然后利用所学的关联预测未来事件。
基于因果关系的预测。这种方法通常共享一个通用的基本步骤:(i) 事件表示. 这种方法通常从提取使用自然语言处理技术从目标文本中提取事件,标记化、词性标签分析和名称实体识别; (ii) 事件图构建. 这里的目标是推断历史事件之间的因果关系。由于其组合优化的性质,缩小候选对的数量是至关重要的。现有的工作通常首先将事件聚集成事件链,每个事件链由相关语义下的一系列事件按时间排序组成,他们通常共享相同主题、参与者和对象。然后可以通过各种方式推断事件对之间的因果关系。最简单的方法是基于贝叶斯推断的方式。其他方法利用 NLP 技术以及知识图谱来识别和扩展因果关系。(iii) 未来事件推理。给定一个任意的种子事件,我们会用它查询它可能导致的未来事件。
基于序列的预测。给定历史事件链的时间序列,这类方法的目标是预测使用序列预测的下一个事件。目前的方法来自两大类:全序列分类和序列预测。基于全序列分类的方法将事件语义预测表述为多类分类问题,其中有限数量的候选事件被排名,并且排名靠前的事件被视为未来事件语义。多类分类问题可以拆分为具有不同主题 / 语义含义的事件。当前方法主要分为如下三个子类,即基于特征的方法、基于原型的方法和基于模型的方法。序列预测主要探索如何预测序列的下一个元素,及其所代表的事件。序列预测方法主要分为两种类型,其中第一种需要人为定义关键属性,而更现代化的方法可以基于深度学习等学习序列的隐含表征以直接预测未来事件。
同时的时间和语义预测。该问题主要流行的有三种方法:最经典的为基于时间关联法则的方法。它们通过将额外的时间信息嵌入到普通的关联法则中,从而扩展了原有定义。比如两个关联事件必须发生在特定时间段才算做关联等等。基于时间序列预测的方法近年来也获得了一定不错的进展。基于时间序列预测的方法分为直接方法和间接方法。直接方法通常将事件预测问题定义为多变量时间序列预测问题,其中每个变量对应于事件类型的表示(比如 one-hot 表示或更复杂的表示),因此可以同时预测未来的事件类型和时间。
同时的时间和地点预测。这类方法侧重于联合预测未来事件的地点和时间。这些方法可以分为两种子类型:第一种为基于栅格的方法,专注于对时段和位置区域的预测,另一种为基于点的方法,它可以预测精确的时间点和位置点。这些方法通常将数据表示成 “图片” 序列,这里的每一张 “图片” 为每一个时间段的空间信息。最简单的技术一般是对各个时间段的空间信息提取特征然后用传统的处理序列分类的方法解决。最近几年,尤其是深度学习在计算机视觉领域中的图片加速了上述时空数据端到端表征的发展。其中最有代表性的为基于卷机 - 循环神经网络(CNN+RNN)的架构。在此之上一些改进的技术比如 convLSTM,stack-convLSTM 之后进一步提出以更好的权衡模型表征能力和学习效率。基于点的方法主要采用时空点过程模型。时空点过程模型在空间和时间点对事件发生率进行建模。传统的时空点模型一般需要假设先验统计参数模型来建模数据的分布。最近几年深度学习的发展刺激了端到端的时空点模型来增强模型对未知分布的建模能力。
同时的时间、地点和语义预测。这类方法可以分为以下主要类别:基于群体智慧的方法、基于对未来事件表述的检测方法以及基于张量分解的方法。
基于群体智慧的方法可以进一步按人工智能体的群体智慧以及人类的群体智慧划分。基于人工智能的群体智慧主要指模型集成(model ensemble)方法和系统。最直观的方式是利用诸如多数投票法整合多个上文中提到的预测器的预测结果。一些现有的系统经常强化各单独预测器的准确率(precision),弱化召回率(recall)因而在他们融合时同时实现高准确率和召回率。基于人类群体智慧的方法主要利用众包(crowdsourcing)技术来融合人类对未来事件作出的预测。例如当前一些基于推荐系统的方案可以针对所需预测的事件类型挑选具有合适技能的人类团队,以最大限度地提高其融合的准确性预测。
事件预测模型的透明性以及预测的可解释行和可问责性。
对于噪声和对抗性数据的敏感性。
深度融合先验知识、机理模型和数据拟合技术。
规范性分析及反事实分析的重要性。
多目标训练的重要性。