Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

姚汝婧、叶迎春、张吉、李书晓、吴偶作者

中国提出的AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律

如何从学术文献中挖掘规律,甚至溯源文献的研究方法等?来自天津大学、之江实验室和中科院自动化所的研究者借鉴生化领域中分子标记示踪的思想,对文献正文中反映研究过程的信息进行示踪,挖掘出了方法的演化规律等更多有价值的信息。

将学术文献中蕴含的规律挖掘出来是非常有意义的。借鉴生化领域中分子标记示踪的思想,本文将 AI 文献中的方法、数据集和指标这三种同粒度的命名实体作为 AI 标记,对文献正文中反映研究过程的信息进行示踪,进而为文献挖掘分析开拓新视角,并挖掘更多有价值的学术信息。

首先,本文利用实体抽取模型抽取大规模 AI 文献中的 AI 标记。其次,溯源有效 AI 标记对应的原始文献,基于溯源结果进行统计分析和传播分析。最后,利用 AI 标记的共现关系实现聚类,得到方法簇和研究场景簇,并挖掘方法簇内的演化规律以及不同研究场景簇之间的影响关系。

上述基于 AI 标记的挖掘可以得到很多有意义的发现。例如,随着时间的发展,有效方法在不同数据集上的传播速度越来越快;中国近年来提出的有效方法对其他国家的影响力越来越大,而法国恰好相反;显著性检测这种经典计算机视觉研究场景最不容易受到其他研究场景的影响。

1 介绍 & 相关工作

对学术文献的探索能够帮助科研人员快速和准确地了解领域发展状况以及发展趋势。目前大多数的文献研究严重依赖论文的元数据,包括作者、关键词、引用等。Sahu 等人通过对文献作者数量的分析来探索其对文献质量的影响[19]。Wang 等人通过对引用数量的统计,发布 AI 领域学者高引排行榜 。Yan 等人使用引用数量来估计未来的文献引用[26]。Li 等人使用从文献元数据衍生的知识图谱来比较嵌入空间中的实体相似性(论文、作者和期刊)[12]。Tang 等人基于关键词和作者的国家研究 AI 领域的发展趋势[27]。此外,还有大量基于作者、关键词、引用等对文献进行分析的研究[4, 13, 14, 20, 24]。

由于元数据涉及到的语义内容有限,一些学者对文献的摘要进行分析。摘要是对文献内容的高度概括,主题模型是主要的分析工具[5, 6, 18, 21, 22, 31]。Iqbal 等人利用 Latent Dirichlet Allocation (LDA) 来探索 COMST 和 TON 中的重要主题[8]。Tang 等人利用 Author-Conference-Topic 模型构建学术社交网络[23]。此外,Tang 等人分析发现当前热点研究话题 TOP10 为 Neural Network、Convolutional Neural Network、Machine Learning 等 。但是,基于主题模型对摘要进行主题分析存在主题粒度不一致的问题。例如 Tang 等人发现的当前热点研究话题 top10 里面,Neural Network、Convolutional Neural Network、Machine Learning 三个话题的粒度完全不一致。

摘要中蕴含的主要是结论性信息,缺少反映研究过程的信息。文献正文中包含了研究的具体过程,但目前还基本未见有对文献正文的研究。其中一个主要原因是,论文正文通常包含几千个单词。在远超摘要长度的正文上,利用现有主题模型技术进行分析,可能会导致正文中与主题相关性低的非主题单词也会被作为主题单词。

我们注意到,生物领域中常用分子标记法来追踪反应过程中物质和细胞的变化,从而获取反应特征和规律[29, 30]。受此启发,我们发现在文献的特征与规律挖掘中,方法、数据集、指标能够起到和分子标记物相同的作用。我们将 AI 文献中这三种同粒度的命名实体作为 AI 标记,利用 AI 标记来对正文中反映研究过程的信息进行示踪。图 1 描述了 AI 标记和分子标记的相似性。基于 AI 标记的挖掘补充了常规的基于元数据和基于摘要的挖掘。

(a) Samuel Ruben 和 Martin Kamen 使用氧同位素 18O 分别标记 H2O 和 CO2,跟踪光合作用中的 O2 的来源。

(b) 当 AI 标记被其他文献提出或引用时,就形成了特定研究过程中的踪迹。因此,AI 标记在挖掘文献的特征和规律性方面可以起到与分子标记相同的作用。

Figure 1:AI 标记和分子标记类比图

在我们的研究中,首先利用实体抽取模型对大规模 AI 文献中的 AI 标记进行抽取,并对有效 AI 标记(方法和数据集)进行统计分析。其次,我们对抽取的有效方法和数据集进行原始文献的溯源,对原始文献进行统计分析,并且研究了有效方法在数据集上和在国家之间的传播规律。最后,根据方法和研究场景共现关系来实现对方法和研究场景的聚类,得到方法簇和研究场景簇。基于方法簇及关联数据集绘制路径图,研究同类方法的演化关系,基于研究场景簇来分析方法对研究场景以及研究场景之间的影响关系。

通过基于 AI 标记的 AI 文献挖掘,我们可以得到如下主要发现与结论:

  1. 我们从有效方法和数据集的新角度,通过对 AI 标记进行统计分析,获得了反映 AI 领域年度发展情况的重要信息。例如,2017 年无人驾驶领域的经典数据集 KITTI 跻身于 top10 数据集,说明无人驾驶是 2017 年的热门研究主题;

  2. 在对 AI 标记进行溯源得到的原始文献的统计分析层面,我们发现新加坡、以色列、瑞士提出的有效方法数量相对较多;从有效方法在数据集上的应用情况来看,随着时间的发展,有效方法应用在不同数据集上的速度越来越快;从有效方法在国家间的传播程度来看,中国提出的有效方法对其他国家的影响力越来越大,而法国恰好相反;

  3. 基于方法簇和数据集信息,我们构建了方法路径图,能够展示同一方法簇内各个方法的时间发展史及数据集应用情况;对于场景簇,我们发现与显著性检测相关的经典计算机视觉研究场景最不容易受到其他研究场景的影响。

2 数据

在我们文献挖掘的研究过程中,需要用到大量的文献数据,因此,本节首先介绍了我们收集的文献数据。此外,在研究过程中,我们需要用到两个机器学习模型。因此,本节对这两个模型的训练数据也分别进行了介绍。

2.1 收集的文献数据

我们使用中国计算机学会(CCF) 等级(Tier-A、Tier-B 和 Tier-C)中的 AI 期刊和会议列表,收集了 2005 年至 2019 年出版的 122,446 篇论文。用 GROBID 将 PDF 格式的论文转换为 XML 格式,从 XML 格式论文中提取标题、国家、机构和参考文献等信息。为了便于阅读,我们将收集到的这些数据称为 CCF corpus。

2.2 章节分类的训练数据

通常,一篇 AI 文献的正文包括引言、方法介绍、实验章节、结论四个部分。本文利用章节分类策略将 AI 文献的正文按上述四部分进行分类。

我们随机选取 2000 篇 CCF corpus 中的文献,并招募 10 名 AI 领域研究生标注这 2000 篇论文中的 63110 个段落。我们称该数据为 TCCdata。TCCdata 用来构建章节分类中的 BiLSTM 分类器[3]。TCCdata 中每类章节的数量以及每类章节包含的段落数量如表 1 所示。

Table 1:TCCdata 中章节和段落的数量

2.3 AI 标记抽取的训练数据

为了训练 AI 标记抽取模型,我们随机选取 1000 篇 CCF corpus 中的文献。将文献正文中方法章节和实验章节的内容按标点符号切分成句子,并招募 10 名 AI 领域研究生对这些句子进行标注。我们采用 BIO 标注策略标注方法、数据集、指标这三种实体,利用机器之心编译好的方法、数据集、指标作为标注参考 。最后我们得到 10410 个句子,称之为 TMEdata。

在构建 AI 标记抽取模型时,我们将 TMEdata 按照 7.5:1.5:1 的比例划分成训练集、验证集和测试集。训练集、验证集和测试集中包含的三种 AI 标记的数量如表 2 所示。

Table 2:TMEdata 中 AI 标记的数量

3 方法

本节介绍本项研究所涉及的具体方法,包括章节分类、AI 标记的抽取与归一、AI 标记原始文献的溯源、方法和研究场景的聚类、方法簇内路径图的生成以及研究场景簇的影响程度

3.1 章节分类

在一篇 AI 文献正文中,位于方法章节和实验章节的 AI 标记对该篇文献起着实质性作用,因此我们只对 AI 文献正文中方法章节和实验章节的 AI 标记进行抽取。但是,由于 AI 文献正文结构的多样性,难以用简单的规则策略对 AI 文献正文章节进行较为准确的分类。因此,本文提出了 BiLSTM 分类器和规则相融合的章节分类策略

3.1.1 提出的分类策略

章节分类的整体流程如图 2 所示。对于一篇 AI 文献的正文内容,我们首先利用规则匹配(关键词和顺序)对正文章节进行标注。对于匹配到的章节,则输出章节标签。对于未匹配到的章节,则将章节下的段落输入到基于 TCCdata 训练的 paragraph-level BiLSTM 分类器进行预测。接下来对相同章节标题下的段落预测结果进行投票,将出现次数最多的标签作为该章节类别。最后,将基于规则匹配得到的章节标签与基于投票得到的章节标签结合,得到整个正文的章节标签。

我们采取了常规的 one layer BiLSTM 架构。其中最大句子长度选取为 200,词向量的维度选取为 200,hidden 维度选取为 256,batchsize 选取为 64。采用交叉熵作为损失函数,TCCdata 作为训练数据。

Figure 2:章节分类整体流程

3.1.2 评估结果

我们将 TCCdata 以 8:1:1 的比例划分成训练集、验证集、测试集。在测试集上,我们对规则匹配、paragraph-level BiLSTM、规则匹配与 paragraph-level BiLSTM 结合这三种章节分类方式分别进行了评估。结果表明,仅利用规则匹配,准确率为 0.793。仅利用基于 TCCdata 训练的 paragraph-level BiLSTM,准确率为 0.792。将规则匹配与基于 TCCdata 训练的 paragraph-level BiLSTM 结合后,准确率达到了 0.928。

3.2 AI 标记的抽取与归一

AI 标记的抽取与归一具有很大的挑战。由于每年都会涌现出大量 AI 文献,新的 AI 标记数量不断增加,形式也多种多样,一些常见词可能也会被当作数据集。例如 DROP 在 2019 年发表的 [2] 中被当成数据集。AI 标记的命名没有特定的规范。此外,一些 AI 标记存在歧义的问题。例如 CNN,既可以表示 Cable News Network 数据集,又可以表示 Convolutional Neural Networks 方法。比如 LDA,既可以表示 Latent Dirichlet Allocation 方法,又可以表示 Linear Discriminant Analysis 方法。

3.2.1 AI 标记抽取模型

AI 标记抽取是一个典型的命名实体识别问题。本文采用的 AI 标记抽取模型基于目前经典的 CNN+BiLSTM+CRF 框架[15],并作了小的改进,如图 3 所示。

Figure 3:AI 标记抽取模型结构

对于一个输入句子 {w_1,w_2,… ,w_n},其中 w_i 表示第 i 个单词。首先将每个单词切分成字符级,通过 CNN 网络获取到每个单词的 character-level embedding。然后经过 Glove embedding[17] 模块获取到每个单词的 word-level embedding。将句子中每个单词的 character-level embedding 与每个单词的 word-level embedding 拼接,然后送入到 Bi-LSTM。使用 self-attention[25] 计算每个单词与其他所有单词之间的关联。最后,将通过 self-attention 获取到的隐向量送入 CRF[10],得到每个单词的标签序列 y。y∈{B-M,I-M,B-D,I-D,B-C,I-C,O,padding},分别对应方法、数据集、指标和其他。

3.2.2 实验设置

模型参数设置如下。最大句子长度选取为 100,最大单词长度选取为 50,batchsize 选取为 16。字符级 CNN 网络使用 5 个并列的 3D 卷积 - 激活 - 最大池化,5 次卷积中每次分别用 10 个 1*1*50,1*2*50,1*3*50,1*4*50,1*5*50 的 3 维卷积核,激活函数均使用 ReLU。最后将 5 次得到的结果进行拼接,得到每个单词 50 维字符级词向量。Bi-LSTM 选用一层,hidden 维度选为 200,self-attention 的 hidden 维度选为 400。

3.2.3 评估结果

利用原始样本与其对应的小写化后的样本对模型进行训练。在测试时,我们分别对测试样本(1040 个句子)及其对应的 1040 个小写化后的样本进行测试。AI 标记抽取模型的评估结果如表 3 所示。

Table 3:AI 标记抽取模型评估结果

由表 3 可看出,相比于传统的 CNN+BiLSTM+CRF 模型,我们的模型无论是对于 AI 标记的整体识别,还是各个 AI 标记的单独识别,在 F1、Recall、precision 三个指标上效果均有所提高。此外,结合黑白名单等规则进行优化后,我们模型的 F1 为 0.864,Recall 为 0.876,Precision 为 0.853。

3.2.4 AI 标记归一

对于一些有多种表示形式的 AI 标记,我们制定了一系列的规则策略进行归一化。例如,对于方法「Long Short-Term Memory」,我们将「LSTM」、「LSTM-based」、「Long Short-Term Memory」等归一化成「LSTM (Long Short-Term Memory)」。对于指标「accuracy」,我们将「mean accuracy」、「predictive accuracy」等包含「accuracy」的指标都归一化成「accuracy」。详细归一化策略参见附录 A。对于出现的一些一词多义的情况,考虑到很多 AI 标记能够根据实体类别进行区分,且同一类型的一词多义出现概率很小,我们不对这种情况专门进行处理。

3.3 AI 标记原始论文溯源

要想得到一个方法或数据集从提出开始逐渐被其他文献引用的研究踪迹,首先需要追溯到方法和数据集的原始文献。我们将追溯到的方法和数据集原始文献称为「原始论文」。我们只对明确出现在后续文献的方法或者实验章节的方法或数据集进行追溯。

3.3.1 溯源方法

考虑到在一篇文献中,方法或数据集在被引用时,后面经常会附有其对应的原始论文。因此,在我们提出的溯源方法中,对于每个 AI 标记,我们首先找出引用该 AI 标记的文献集合。对于文献集合中的每篇文献,查找该 AI 标记出现的句子集合。对于每个句子,查看该 AI 标记后面的一个位置或者两个位置是否有参考文献,将有参考文献的信息记录下来。最后,将每个 AI 标记对应的引用数量最多的文献作为其原始文献。

3.3.2 评估结果

利用本文的溯源方法,我们追溯到了 CCF corpus 中提出的被明确引用次数大于 1 的方法的原始文献 4105 篇,方法 5118 个。追溯到 CCF corpus 中提出的被明确引用次数大于 1 的数据集的原始文献 949 篇,数据集 1265 个。

我们随机抽取得到的结果中被明确引用次数为 5、4、3、2 的方法各 200 个,被明确引用次数为 5、4、3、2 的数据集各 100 个。对这 800 个方法和 400 个数据集对应的原始文献结果进行人工评估,评估结果见表 4。结果准确率都超过了 90%。

Table 4:溯源方法的评估结果

3.4 方法和研究场景的聚类

单独的数据集或者单独的指标可能会对应多个不同研究场景。例如 CMU PIE 数据集与 accuracy 指标的组合表示为人脸识别研究场景,IMDB 数据集与 accuracy 指标的组合表示为影评情感分类研究场景。因此,我们将一篇文献中的数据集和指标进行组合来代表研究场景,进而得到大量冗余的研究场景。

很多指标是同时应用的,比如 precision、recall 等,因此,首先需要将指标进行合并,以减少研究场景的冗余。

我们根据方法与研究场景在文献中的共现次数构建了方法 - 研究场景矩阵。由于数据集和指标的组合较多,使得研究场景的数量非常大,造成了方法 - 场景矩阵的高维稀疏。为解决该问题,我们借鉴 Nonnegative Matrix Factorization (NMF) [1, 11]和谱聚类[16],构建了降维聚类算法。

首先,我们将数据集和指标组合成研究场景,根据方法和研究场景共现关系,得到方法 - 研究场景共现矩阵。其次,基于 NMF 和谱聚类对方法进行聚类,得到 500 类方法簇。然后,根据指标 - 方法簇共现矩阵对指标进行谱聚类,得到 50 类指标簇。将指标簇与数据集组合成研究场景,根据方法 - 研究场景共现矩阵对研究场景进行谱聚类,得到 500 类研究场景簇。我们期望每个簇中的研究场景数量大体比较均衡,因此将包含研究场景数量 500 以上的簇再次根据方法 - 研究场景共现矩阵进行谱聚类。一共有 2 个簇中包含的研究场景数量在 500 以上,通过再次聚类后得到 200 类研究场景簇。将这 200 类研究场景簇与其余 498 类研究场景簇合并后得到 698 类研究场景簇 。

3.5 方法簇内路径图的生成

方法路径图描述了不同但高度相关的方法的演变[28]。在通过上述聚类算法得到的方法簇中,每一类方法簇都是由相同类型方法组成的。在这个簇里面,如果能够构建一个按照时间的方法演化图,并且加入数据集信息,将会为相关的研究提供非常有启发的信息。

本文提出的方法簇内路径图的生成过程如下所示:

  1. 对于一个方法簇,获取其包含的所有方法的原始文献信息:提出时间、方法在提出该方法的论文中所在的章节、该方法对应原始论文使用的数据集 ;

  2. 对于该方法簇中的每种方法 M_i,找出该方法原始论文的实验章节所提到的其它方法 {M_1,…,M_n}。构建 M_i 到 {M_1,…,M_n} 每个方法的路径 M_i→M_j, M_j,∈{M_1,…,M_n}。M_i 与 M_j 之间的边为 M_i 和 M_j 进行对比时使用的数据集;

  3. 合并连续路径,得到同类方法下方法的路径图。(例如, 如果有 (M_1→M_2), (M_2→M_3), (M_1→M_3),只保留(M_1→M_2), (M_2→M_3))。

我们的路径图构建同 [28] 中的方法存在两点区别:1)我们增加了数据集的关系,方法和方法之间通过数据集建立联系,从而提供了额外的信息;2)我们通过大规模文献来获取方法,可以同时得到大量的路径图。

3.6 研究场景簇的影响程度

本文分析了研究场景簇之间的影响程度,以及追溯到的有效方法对其他研究场景簇的影响程度。

根据研究场景与研究场景簇的对应关系,我们找出每篇文献涉及的研究场景所对应的研究场景簇。考虑到一篇论文中一般只涉及 1 类主要的研究场景,因此,我们取每篇文献出现次数最多的研究场景簇作为该文献对应的研究场景簇。最终我们得到了 CCF corpus 中 45,215 篇文献对应的研究场景簇 。结合这 45,215 篇文献及其提出的有效方法,我们分析了这 45,215 篇文献中研究场景簇之间的相互影响关系,以及这些文献提出的有效方法对其他研究场景簇的影响。

我们将研究场景簇为 s 的文献集合定义为 Ls,。文献提出的有效方法三年内被 引用,场景簇非 s 的文献集合为 。研究场景簇 s 对其他研究场景簇 \s 的影响程度比率计算如公式 1 所示:

其中,文献对应的研究场景簇在 45,215 篇论文中的分布,表示文献对应的研究场景簇在 45,215 篇论文中的分布。为计算JS 散度

此外,本文分析了这 45,215 篇文献提出的有效方法对其他研究场景簇的影响。

我们将有效方法 m 对应的原始文献表示为 l_m,文献 l_m 对应的研究场景簇为 s,三年内引用了有效方法 m 且场景簇非 s 的文献集合为 。有效方法 m 对研究场景簇的影响程度 ID_m 和影响程度比率 IDR_m 计算公式如下:

其中,为 l_m 文献对应的研究场景簇在 45,215 篇论文中的分布,表示为文献对应的研究场景簇在 45,215 篇论文中的分布。为计算JS 散度

4 结果

本节基于前述的方法,包括章节分类、AI 标记的抽取与归一、AI 标记原始文献的溯源、方法和研究场景的聚类、方法簇内路径图的生成以及研究场景簇的影响程度,对所收集的 CCF corpus(2005-2019 年的 AI 论文)进行基于 AI 标记的统计分析、传播分析与挖掘,并对结果进行展示。

4.1 有效 AI 标记的统计

我们通过提取 CCF corpus 中的 AI 标记,得到 171,677 个机器学习方法实体、16,645 个数据集实体、1551 个指标实体。考虑到很多只出现一次的 AI 标记基本上没有丰富的信息,我们只对出现 1 次以上的 AI 标记进行分析。我们将出现次数大于 1 的 AI 标记称为有效 AI 标记。

本节介绍了有效 AI 标记关于国家和出版地点的分析,以及对每年使用数量排名前十的有效 AI 标记的分析。

4.1.1 有效 AI 标记关于国家的分析

一个国家提出有效 AI 标记的数量能够体现出该国 的 AI 研究实力。因此,我们首先对 CCF corpus 中各个国家在 2005-2019 年提出的有效方法和数据集的数量分别进行了统计,如图 4 和图 5 所示。

Figure 4:追溯到的由 CCF corpus 提出的有效方法在不同国家中的数量分布

Figure 5:追溯到的由 CCF corpus 提出的有效数据集在不同国家中的数量分布

由图 4 我们可以看出,提出有效方法的数量排名前三的是美国、中国、英国。德国、法国、加拿大、新加坡、澳大利亚等国家提出的有效方法数量次之。由图 5 我们可以看出,提出有效数据集的数量排名前三的也是美国、中国、英国。德国、瑞士、加拿大、法国、新加坡、以色列等国家提出的有效数据集的数量次之。由此可以看出,美国、中国、英国是机器学习领域中相对更为活跃的国家。德国、法国、加拿大、新加坡等国家虽与美国、中国、英国有一定差距,但是相对而言也比较活跃。

为了降低各个国家论文发表数量对分析结果产生的影响,我们对 CCF corpus 中提出有效方法数量排名前十的国家的有效方法提出率和 CCF corpus 中提出有效数据集数量排名前十的国家的有效数据集提出率进行了分析。

国家 c 有效方法的提出率 MRc、有效数据集的提出率 DRc 计算如公式 4 和 5 所示。

其中, 表示 CCF corpus 中国家 c 提出的所有有效方法的集合, 表示 CCF corpus 中国家 c 提出的所有有效数据集的集合, 表示在 CCF corpus 中国家 c 的所有文献的集合。

(a) 图 4 中排名前 10 国家的有效方法提出率。

(b) 图 5 中排名前 10 国家的有效数据集提出率。

Figure 6:图 4 和图 5 中排名前 10 国家中有效 AI 标记的提出率。国家提出的 AI 标记的数量从上到下递减。

基于公式(4)和(5),我们计算了提出有效方法数量排名前 10 的国家中有效方法的提出率和提出有效数据集数量排名前 10 的国家中有效数据集的提出率,结果如图 6 所示。

由图 6a 我们可以看出,美国提出有效方法的数量和比例都稳居第一位。中国和英国虽然提出有效方法的数量比较高,但是提出有效方法率要低于新加坡、以色列、瑞士。由图 6b 可知,瑞士虽然提出有效数据集的数量要低于美国、中国、英国、德国,但是在数据集的提出率上是最高的,反映出瑞士特别重视 AI 数据集。

4.1.2 有效 AI 标记关于出版地点的分析

一个出版地点提出有效 AI 标记的数量能够体现出该出版地点的质量。出版地点 v 有效方法的提出率 MRv、有效数据集的提出率 DRv 计算如公式 6 和 7 所示。

其中,M_v表示 CCF corpus 中出版地点 v 提出的所有有效方法的集合,D_v表示 CCF corpus 中出版地点提出的所有有效数据集的集合,L_v表示在 CCF corpus 中发表在出版地点 v 的所有文献的集合。

利用公式 6 和 7,我们计算了提出有效方法数量排名前 10 的出版地点中有效方法的提出率和提出有效数据集数量排名前 10 的出版地点中有效数据集的提出率,结果如图 7 所示。

(a) 提出有效方法排名前 10 的出版地点的有效方法提出率。

(b) 提出有效数据集排名前 10 的出版地点的有效数据集提出率。

Figure 7:提出有效 AI 标记排名前 10 的出版地点的有效 AI 标记提出率。出版地点提出的 AI 标记的数量从上到下递减。

由图 7a 我们可以看出, ECCV 虽然是 CCF 的 B 类会议,但是其有效方法提出率要高于 CVPR。在提出有效方法的数量排名前十的出版地点中,有 7 个都是 A 类的出版地点,这说明 A 类出版地点中的论文质量确实要比 B 和 C 类的高。

图 7b 展示了有效数据集的分布情况。我们可以看出,CVPR 提出更有效数据集的数量和提出率都排名第一。ECCV 虽然是 B 类会议,但是提出有效数据集的数量和提出率仅次于 CVPR。在提出有效数据集的数量排名前十的出版地点中,有 6 个是 A 类的出版地点,也反映出 A 类出版地点确实更关注有效数据集的提出。

4.1.3 每年使用排名数量前十的有效 AI 标记 

本节分别对 2005-2019 年间每年使用的有效方法和有效数据集的数量进行了统计分析。

(1) 每年使用数量排名前 10 的有效方法

我们对 2005-2019 年间每年使用的有效方法数量进行了统计,每年排名前十的有效方法如图 8 所示。 

Figure 8:每年使用数量排名前十的有效方法

由图 8 可以看出,SVM 作为一种传统的机器学习方法,每年都被广泛使用。LDA 作为用于文本挖掘的经典的主题模型,在 2005-2015 年间一直被广泛应用。但是随着深度学习的快速发展,在 2015 年以后,其使用占比明显下降。2015 年以后,深度学习越来越流行,深度学习方法成为 AI 领域的主流。

计算机视觉自然语言处理是 AI 研究中的两个重要研究学科。由图 8 可知,计算机视觉中的方法始终占据很大的比例,这表明计算机视觉一直是 AI 的热门研究分支。

(2) 每年使用数量排名前 10 的有效数据集

我们对每年使用的有效数据集的数量进行了统计,每年排名前十的有效数据集如图 9 所示。

Figure 9:每年使用数量排名前十的有效数据集

由图 9 可知,MNIST 作为最经典的数据集之一,每年都被普遍使用。2016 年,SemEval 数据集进入了排名前十的行列,而 SemEval 数据集是情感分析常用数据集。由此可看出,2016 年,情感分析受到了广泛关注。2017 年,KITTI 数据集进入了排名前十的行列,而 KITTI 数据集是无人驾驶领域经典数据集,说明 2017 年无人驾驶领域受到了广泛关注,并且在 2017-2019 年期间,KITTI 数据集在每年前十数据集中的占比逐渐提高。此外,由该图我们还可以看出,一般数据集在发布后,至少需要两年时间才会得到认可和在相应领域的广泛使用。比如 PASCAL VOC 数据集 2007 年发布,2009 年被广泛使用;Weizmann 数据集 2006 年发布,2010 年被广泛使用;COCO 数据集 2014 年发布,2016 年得到广泛使用。

人脸识别计算机视觉领域中比较热门的研究方向。我们对每年排名前 10 的有效数据集中人脸识别数据集的占比情况进行了统计,如表 5 所示。

Table 5:每年排名前 10 的有效数据集中人脸识别数据集的占比

表 5 显示,2005-2019 年人脸识别的常用数据集有 Caltech、Yale、CMU PIE、CelebA。Caltech 在每年排名前十的有效数据集中均出现且占比都较高。Yale 出现的年份也很多,但是在 CelebA 数据集出现后,其地位就被 CelebA 替代。

4.2 有效方法的传播

本节对有效方法在数据集上的传播和在国家之间的传播分别进行了分析 。

4.2.1 在数据集上的传播

我们对 2005 年到 2019 年每年由 CCF corpus 中的文献提出的有效方法在数据集上的传播情况进行了分析。y 年提出的有效方法于 y 到 y+△y 时间区间内在数据集上的传播率计算公式如下:

其中,M_y 表示所有在 y 年被提出的方法,表示在 y 到 y+△y 时间区间内被应用在方法 m 上的数据集集合,

基于公式 8,我们得到每年由 CCF corpus 提出的有效方法一年内、两年内、三年内在数据集上的传播率,如图 10 所示。

Figure 10:有效方法在数据集上的传播率

由图 10 可知,随着时间的发展,有效方法在数据集上的传播率呈逐渐上升的趋势,各种知名方法在文献未正式发表以前就通过类似 arxiv 的渠道为人们熟知。

此外,我们还对 2005 年由 CCF corpus 中原始文献提出的 Large margin nearest neighbor (LMNN) 方法和 2018 年由 CCF corpus 中原始文献提出的 Transformer 方法从传播到其他文献开始,两年内在数据集上的应用情况进行了对比,如图 11 所示。

由图 11 可知,Transformer 在 2018 年被提出后,2018 年和 2019 年被应用在了很多不同数据集上。然而 2005 年被提出的 LMNN,在 2006 年才开始被其他文献引用,应用在不同的数据集上。并且,我们还可以明显看出,Transformer 从传播到其他文献开始,两年内在数据集上的应用数量和种类要远多于 LMNN。这也反映出随着时间的发展,方法在数据集上的传播速度越来越快。

a) LMNN 2006 年(内圈)和 2007 年应用的数据集。

b) Transformer 2018 年(内圈)和 2019 年应用的数据集。

Figure 11:有效方法应用的数据集,中间的红点表示方法。内圈和外圈由许多数据集点组成,在数据集点中,点的大小表示该方法应用的数据集的数量,不同数据集点的颜色表示不同的研究场景。

4.2.2 在国家间的传播

本节对有效方法在国家间的传播进行了分析。我们将国家 c 提出的所有有效方法的集合定义为M_c,。在 y 到 y+△y 时间区间内,有效方法由国家 c 到国家 c’ 的传播程度的计算如公式 9 所示。

其中为在 y 到 y+△y 时间区间内,在实验章节引用了 m 的 c’ 国论文集合。为在 y 到 时间区间内,在方法介绍章节引用了 m 的 c’ 国论文集合, 。

基于公式 9,我们以 5 年为一个阶段,对 2005-2009 年、2010-2014 年、2015-2019 年有效方法在国家之间的传播程度进行了计算。每个阶段排名前十的国家之间有效方法传播程度如图 12 所示。


Figure 12:2005 年到 2019 年,有效方法在国家之间的传播程度的 top10。

从图 12 可以看出,有效方法在 2005-2009 年更多地从美国、法国和英国传播到其他国家。相对而言,中国提出的有效方法传播程度较低。在 2010-2014 年,中国提出方法的传播程度逐渐增大,并且到了 2015-2019 年,中国提出方法对美国的传播程度跃到了第四位。反映出中国的 AI 发展越来越好。相反,法国提出的方法在 2005-2014 年传播程度比较大。而到了 2015-2019 年,法国提出的方法的传播程度排到了十名以后,反映出近几年法国的 AI 发展相对较慢。

4.3 路径图和研究场景的结果

本节介绍了方法的路径图和关于研究场景簇的分析。

4.3.1 方法路径图的案例研究

我们对知识图谱中的知识表示学习和生成对抗这两个常见的方法类进行了分析。利用我们提出的路径图生成算法对'Trans' 簇和'GAN' 簇内的方法路径图进行了绘制。

图 13 是'Trans' 簇中的方法路径图。经与 Ji 等人 [9] 发表的文献内容核对,'Trans' 簇中的方法路径图包含上述论文提到的 76% 的知识表示学习算法,同时也包含一些与知识表示学习相关的方法。例如:GMatching 和 KGE 是图嵌入方法,HITS 是链接分析方法。

此外,由图 13 可以直观看到每个方法的提出时间,例如:TransE 在 2013 年提出,TransH2014 年提出。同时,我们可以看到 TransE 方法节点的出度最大,一方面说明很多方法比如 CTransR、RTRANSE 等是从 TransE 方法受到启发,进而拓展出新方法。另一方面,也说明 TransE 是代表性知识表示学习方法,很多新提出的知识表示类方法常与其进行对比。此外,从图中,我们也可以看出'Trans' 簇中的方法使用的数据集情况。

 

Figure 13:'Trans' 簇中方法的路径图,图中点的颜色表示年份,点的大小表示出度,线的颜色表示数字代表的数据集。

图中数字表示路径 Mi→Mj 中 Mi 和 Mj 进行对比时使用的数据集,具体为:1: WIKILINKS  2: WIKILINKS;WN;FB  3: WordNet;FB;WN;Freebase  4: ClueWeb  5: Family  6: FB;WN  7: Freebase;NYT;YORK  8: WordNet;Freebase;WN  9:null  10: RESCAL;WordNet;WN  11: Freebase  12: WordNet;Freebase  13: ClueWeb;WN  14: FB;WN  15: WordNet;FB;WN;Freebase  16: FB;WN  17: null  18: KG;ImageNet;WN  19: null  20: DBpedia  21: FB;WN  22: WN;YAGO;WNRR  23: WNRR;HIT;MR

24: Wikione;NELLone;NELL  25: WNRR;WN  26: WordNet;WN  27: WordNet;Freebase;WN  28: YAGO


Figure 14:'GAN' 簇中方法的路径图,图中点的颜色表示年份,点的大小表示出度,线的颜色表示数字代表的数据集。

图中数字表示路径 Mi→Mj 中 Mi 和 Mj 进行对比时使用的数据集,具体为:1: Face;NIST;SVHN;CelebA  2: CUB(CU Bird);Oxford Flower;Oxford  3: CUB(CU Bird);MPII Human;Caltech;MHP(Maximal Hyperclique Pattern)  4: ILSVRC;SVHN  5: ImageNet  6: NIST;CIFAR;ImageNet  7: NIST  8: CelebA  9: NIST;CIFAR;SVHN  10: BLUR;LSUN;SVHN;CIFAR;Noise;CelebA;LSUN Bedroom  11: NIST;SVHN;CIFAR  12: Google;LSUN;LSUN Bedroom  13: Google  14: NIST;LSUN;CIFAR;CelebA;LSUN Bedroom  15: CUB(CU Bird);Oxford  16: NIST;CIFAR  17: LSUN;CIFAR;LSUN Bedroom  18: ImageNet;COCO  19: NIST;SVHN;LSUN;CelebA;LSUN Bedroom  20: LSUN;CelebA;LSUN Bedroom  21: null  22: NIST;LSUN;CIFAR;CelebA;LSUN Bedroom  23: NIST;SVHN;CIFAR  24: poem;Chinese Poem  25: CONFER  26: null

图 14 是'GAN' 簇中的方法路径图。经与 Hong 等人 [7] 发表的文献内容核对,'GAN' 簇中方法的路径图包含上述论文提到的 75% 的生成对抗类算法。此外,由图 14 可以直观看到每个方法的提出时间,例如:GAN 是 2014 年提出的,DCGAN 是 2016 年提出的。同时,我们可以看到 DCGAN 方法节点的出度最大。一方面说明很多方法比如 AdaGAN、SNDCGAN 是从 DCGAN 受到启发,进而拓展出新方法。另一方面,也可以发现,DCGAN 作为生成对抗的代表性方法,很多新提出来的生成对抗类方法常与 DCGAN 进行对比。此外,从图中,我们也可以看出'GAN' 簇中的方法使用的数据集情况。

4.3.2 研究场景簇的结果

由 3.6 节中的公式 1,我们得到了研究场景簇之间的相互影响强度比率。考虑到只被 1 篇原始文献影响或者包含的研究场景数量过少的研究场景簇含有的信息量不多,包含的研究场景数量过多的研究场景簇内含有的研究场景信息比较杂乱。为保证结果的合理性,我们只对包含的场景数量介于 15-20 之间(包含 15 和 20)的研究场景簇进行分析。

得到最容易受其他研究场景簇影响的 top3 研究场景簇:颜色恒常性、图像记忆性预测、多核学习,以及最不容易受其他研究场景簇影响的 top3 研究场景簇:显著性检测、行人重识别、人脸识别

由 3.6 节中的公式 2 和 3,我们对由 45,215 篇论文提出的有效方法对其他研究场景簇的影响强度和影响强度比率分别进行了计算。每年影响强度最大的方法信息如表 7 所示,每年影响强度比率最大的方法信息如表 8 所示。

Table 7:每年影响强度最大的方法信息

Table 8:每年影响强度比率最大的方法信息

由表 7 和表 8 我们可以发现,2005-2019 年每年对其他研究场景簇影响强度最大的方法中,有 12 个方法都与计算机视觉相关;影响强度比率最大的方法中,有 10 个方法都与计算机视觉相关。这说明计算机视觉类方法相对于其他类方法而言更容易影响其他研究场景簇。此外,从出版地点角度来看,表 7 中的 15 篇文献中 12 篇来自于 A 类出版地点,表 8 中的 15 篇文献中 14 篇来自于 A 类出版地点,这说明 A 类出版地点提出的方法更容易对其他研究场景簇产生影响

5 结论和未来工作

本文借鉴生物领域中通过标记物来追踪反应过程中物质和细胞的变化,从而获取反应特征和规律的思想,将 AI 文献中的方法、数据集、指标实体作为 AI 领域的标记物,利用这三种同粒度命名实体在具体研究过程中的踪迹来研究 AI 领域的发展变化情况。

我们首先利用 AI 标记抽取模型对 122,446 篇论文中方法章节和实验章节的 AI 标记进行提取,对提取的有效方法和数据集进行统计分析,获得反映 AI 领域年度发展情况的重要信息。其次,我们对有效方法和数据集进行了原始文献的溯源,对原始文献进行了计量分析。并挖掘了有效方法在数据集上和在国家之间的传播规律。发现新加坡、以色列、瑞士等国家提出的有效方法数量相对很多;随着时间的发展,有效方法在应用在不同数据集上的速度越来越快;中国提出的有效方法对其他国家的影响力越来越大,而法国恰好相反。最后,我们将数据集和指标进行组合作为 AI 研究场景,对方法和研究场景分别进行聚类。基于方法聚类关联数据集绘制路径图,研究同类方法的演化关系。基于研究场景的聚类结果来分析方法对研究场景以及研究场景之间的影响程度,发现显著性检测这种经典的计算机视觉研究场景最不容易受其他研究场景的影响。

在以后的工作中,我们将对 AI 标记抽取模型进行改进,优化其抽取性能,并尝试从 AI 文献的表格、图像等部分提取 AI 标记,更全面、准确地实现对 AI 标记的提取,进而更准确地展示 AI 领域的发展情况。

参考文献

[1] Fatemah Alghamedy and Jun Zhang. 2018. Enhance NMF-based recommendation systems with social information imputation. Computer Science & Information Technology (CS & IT). AIRCC (2018), 37–54. https://doi.org/10.5121/csit.2018.81503

[2] Dheeru Dua, YizhongWang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. 2019. DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs. arXiv preprint arXiv:1903.00161 (2019).

[3] Chris Dyer, Miguel Ballesteros, Wang Ling, Austin Matthews, and Noah A Smith. 2015. Transition-based dependency parsing with stack long short-term memory. arXiv preprint arXiv:1505.08075 (2015).

[4] Masaki Eto. 2016. Rough co-citation as a measure of relationship to expand co-citation networks for scientific paper searches. Proceedings of the Association for Information Science and Technology 53, 1 (2016), 1–4. https://doi.org/10.1002/pra2.2016.14505301131

[5] Thomas L Griffiths and Mark Steyvers. 2004. Finding scientific topics. Proceedings of the National academy of Sciences 101, suppl 1 (2004), 5228–5235. https://doi.org/10.1073/pnas.0307752101

[6] David Hall, Dan Jurafsky, and Christopher D Manning. 2008. Studying the history of ideas using topic models. In Proceedings of the 2008 conference on empirical methods in natural language processing. 363–371. https://doi.org/10.3115/1613715.1613763

[7] Yongjun Hong, Uiwon Hwang, Jaeyoon Yoo, and Sungroh Yoon. 2019. How generative adversarial networks and their variants work: An overview. ACM Computing Surveys (CSUR) 52, 1 (2019), 1–43. https://doi.org/10.1145/3301282

[8] Waleed Iqbal, Junaid Qadir, Gareth Tyson, Adnan Noor Mian, Saeed-ul Hassan, and Jon Crowcroft. 2019. A bibliometric analysis of publications in computer networking research. Scientometrics 119, 2 (2019), 1121–1155. https://doi.org/10.1007/s11192-019-03086-z

[9] Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, and Philip S Yu. 2020. A survey on knowledge graphs: Representation, acquisition and applications. arXiv preprint arXiv:2002.00388 (2020).

[10] John Lafferty, Andrew McCallum, and Fernando CN Pereira. 2001. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In Proceedings of the Eighteenth International Conference on Machine Learning. 282–289.

[11] Daniel D Lee and H Sebastian Seung. 2001. Algorithms for non-negative matrix factorization. In Advances in neural information processing systems. 556–562.

[12] Xinyi Li, Yifan Chen, Benjamin Pettit, and Maarten De Rijke. 2019. Personalised reranking of paper recommendations using paper content and user behavior. ACM Transactions on Information Systems (TOIS) 37, 3 (2019), 1–23. https://doi.org/10.1145/3312528

[13] Jiaying Liu, Jing Ren, Wenqing Zheng, Lianhua Chi, Ivan Lee, and Feng Xia. 2020. Web of scholars: A scholar knowledge graph. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2153–2156. https://doi.org/10.1145/3397271.3401405

[14] Ting Liu, Liu Tang, et al. 2020. Open innovation from the perspective of network embedding: knowledge evolution and development trend. Scientometrics (2020), 1–28. https://doi.org/10.1007/s11192-020-03520-7

[15] Xuezhe Ma and Eduard Hovy. 2016. End-to-end sequence labeling via bi-directional lstm-cnns-crf. arXiv preprint arXiv:1603.01354 (2016).

[16] Andrew Y Ng, Michael I Jordan, and YairWeiss. 2002. On spectral clustering: Analysis and an algorithm. In Advances in neural information processing systems. 849–856.

[17] Jeffrey Pennington, Richard Socher, and Christopher D Manning. 2014. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 1532–1543. https://doi.org/10.3115/v1/D14-1162

[18] Anke Piepenbrink and Elkin Nurmammadov. 2015. Topics in the literature of transition economies and emerging markets. Scientometrics 102, 3 (2015), 2107–2130. https://doi.org/10.1007/s11192-014-1513-2

[19] Satya Ranjan Sahu and Krushna Chandra Panda. 2014. Does the multi-authorship trend influence the quality of an article? Scientometrics 98, 3 (2014), 2161–2168. https://doi.org/10.1007/s11192-013-1127-0

[20] Lei Shi, Hanghang Tong, Jie Tang, and Chuang Lin. 2015. Vegas: Visual influence graph summarization on citation networks. IEEE Transactions on Knowledge and Data Engineering 27, 12 (2015), 3417–3431. https://doi.org/10.1109/TKDE.2015.2453957

[21] Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi, and Thomas Griffiths. 2004. Probabilistic author-topic models for information discovery. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 306–315. https://doi.org/10.1145/1014052.1014087

[22] Cassidy R Sugimoto, Daifeng Li, Terrell G Russell, S Craig Finlay, and Ying Ding. 2011. The shifting sands of disciplinary development: Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation. Journal of the American Society for Information Science and Technology 62, 1 (2011), 185–204. https://doi.org/10.1002/asi.21435

[23] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. 2008. Arnetminer: extraction and mining of academic social networks. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 990–998. https://doi.org/10.1145/1401890.1402008

[24] Shahadat Uddin, Liaquat Hossain, Alireza Abbasi, and Kim Rasmussen. 2012. Trend and efficiency analysis of co-authorship network. Scientometrics 90, 2 (2012), 687–699. https://doi.org/10.1007/s11192-011-0511-x

[25] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems. 5998–6008.

[26] Rui Yan, Jie Tang, Xiaobing Liu, Dongdong Shan, and Xiaoming Li. 2011. Citation count prediction: learning to estimate future citations for literature. In Proceedings of the 20th ACM international conference on Information and knowledge management. 1247–1252. https://doi.org/10.1145/2063576.2063757

[27] Sha Yuan, Zhou Shao, Xingxing Wei, Jie Tang, Wendy Hall, Yongli Wang, Ying Wang, and Ye Wang. 2020. Science behind AI: the evolution of trend, mobility, and collaboration. Scientometrics (2020), 1–21. https://doi.org/10.1007/s11192-020-03423-7

[28] Hanwen Zha, Wenhu Chen, Keqian Li, and Xifeng Yan. 2019. Mining Algorithm Roadmap in Scientific Publications. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1083–1092. https://doi.org/10.1145/3292500.3330913

[29] Huan Zhao, Xueying Tian, Lingjuan He, Yan Li, Wenjuan Pu, Qiaozhen Liu, Juan Tang, Jiaying Wu, Xin Cheng, Yang Liu, et al. 2018. Apj+ vessels drive tumor growth and represent a tractable therapeutic target. Cell reports 25, 5 (2018), 1241–1254. https://doi.org/10.1016/j.celrep.2018.10.015

[30] Ning Zhao, Kouta Kamijo, Philip D Fox, Haruka Oda, Tatsuya Morisaki, Yuko Sato, Hiroshi Kimura, and Timothy J Stasevich. 2019. A genetically encoded probe for imaging nascent and mature HA-tagged proteins in vivo. Nature communications 10, 1 (2019), 1–16. https://doi.org/10.1038/s41467-019-10846-1

[31] Bin Zheng, David C McLean, and Xinghua Lu. 2006. Identifying biological concepts from a protein-related corpus with a probabilistic topic model. BMC bioinformatics 7, 1 (2006), 58. https://doi.org/10.1186/1471-2105-7-58


附录 A. 归一化策略

1 方法

1) 除了「C4.5」、「ID3」等特殊方法以外,其余方法去除数字。如果方法是复数形式,则将其转换为单数形式。例如,「SVMs」归一化成「SVM」。

2) 将去除数字和转为单数形式后,小写化形式相同的方法归一化成同一种形式。

3) 将词组中全由小写字母构成的单词去除后,小写化形式相同的方法归一化成同一种形式。

4) 取词组中每个单词的首字母(如果该单词全由大写字母组成,则取该单词的全部字母),查询所有方法中是否存在唯一与之对应的单词(即查找全称对应的唯一缩写)。若存在,则将缩写与全称都归一化成「缩写(全称)」。例如将「Long Short-Term Memory」和「LSTM」,都归一化成「LSTM (Long Short-Term Memory)」。

2 数据集

1) 去除数据集中的数字。如果数据集是复数形式,则将其转换为单数形式。例如,「COLT 2011」归一化成「COLT」。

2) 将去除数字和复数后,小写化形式相同的数据集归一化成同一种形式。

3) 如果词组中有单词以大写字母开头,则只保留词组中以大写字母开头的单词。例如,「Yale face」归一化成「Yale」。

4) 取词组中每个单词的首字母(如果该单词全由大写字母组成,则取该单词的全部字母),查询所有数据集中是否存在唯一与之对应的单词(即查找全称对应的唯一缩写)。若存在,则将缩写与全称都归一化成「缩写(全称)」。

3 指标

1) 去除指标中的数字。如果指标是复数形式,则将其转换为单数形式。例如,「error rates」归一化成「error rate」。

2) 将去除数字和复数后,小写化形式相同的指标归一化成同一种形式。

3)只要指标中包含 recall、accuracy、precision、speed 或 error rate 这几个词,就把指标都分别归一化成「recall」、「accuracy」、「precision」、「speed」、「error rate」。例如,「mean accuracy」、「predictive accuracy」等包含「accuracy」的指标都归一化成「accuracy」。

4) 只要指标中包含 F-score、F-measure、macroF、microF、F1,就把指标都归一化为「F-measure」。

5) 如果词组中的某个单词全由大写字母组成且该词组最后一个单词不是 rate、ratio、error,则只保留全由大写字母组成的单词。例如,「ACC information」归一化成「ACC」,「RMS error」归一化成「RMS error」。

6) 取词组中每个单词的首字母(如果该单词全由大写字母组成,则取该单词的全部字母),查询所有指标中是否存在唯一与之对应的单词(即查找全称对应的唯一缩写)。若存在,则将缩写与全称都归一化成「缩写(全称)」。



理论文献阅读文本挖掘天津大学自然语言处理
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

谱聚类技术

在多元统计和数据聚类中,谱聚类技术利用数据相似度矩阵的谱(特征值)在较少维度聚类之前执行降维。 相似性矩阵作为输入提供,并由对数据集中每对点的相对相似性的定量评估组成。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

最大池化技术

最大池化(max-pooling)即取局部接受域中值最大的点。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

JS 散度技术

多核学习技术

多内核学习指的是一组机器学习方法,它们使用预定义的一组内核,并学习内核的最优线性或非线性组合作为算法的一部分。

链接分析技术

这是一种网络理论中用于评估节点之间关系(连接)的数据分析技术,属于网络计量学(Webometrics)范畴。网络中的节点可以包括多种类型的对象及其组合,如组织、人员和事务。链接分析已被用于调查犯罪活动(欺诈侦查、反恐和情报)、计算机安全分析、搜索引擎优化、市场研究、医学研究和艺术等领域。链接分析中最基础且重要的两类算法是PageRank算法与HITS算法。除此之外,其他常见算法还包括SALSA、PHITS、贝叶斯和Reputation等几类。而上述每一类算法都各自衍生出一些变种算法,从而形成了链接分析的算法体系。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

关联数据技术

关联数据是一组用来描述用户任务运行环境以及在区域中连接用户任务方式的信息。用户任务是与用户定义的事务相关的任务,或与 CICS® 提供的事务相关的任务。CEMT 是通常由操作员启动的用户启动任务示例,CSMI 是由系统代表用户启动事务启动的任务示例。

WordNet技术

WordNet是由普林斯顿大学心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而是按照单词的意义组成一个“单词的网络”。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
图生成技术

根据给定信息信息生成图表。

命名实体识技术

命名实体识别(英语:Named Entity Recognition,简称NER),又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

显著性检测技术

显著性检测是指定位图像或场景中显著区域的自动化过程。

情感分类技术

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。

暂无评论
暂无评论~