Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

孟瑜获杰出博士论文奖,中科大获最佳学生论文,KDD 2024全部奖项放出

ACM SIGKDD(国际数据挖掘与知识发现大会,KDD) 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。

今年的 KDD 大会是第 30 届,8 月 25 日 - 29 日在西班牙巴塞罗那召开,最佳论文奖、时间检验奖、杰出博士论文奖等奖项也逐一揭晓。

其中有多位华人研究者获奖,孟瑜的《Efficient and Effective Learning of Text Representations》获得了 KDD 2024 杰出博士论文奖,最佳论文奖(研究方向)颁给了六位华人学者参与的《CAT: Interpretable Concept-based Taylor Additive Models》,最佳学生论文(研究方向)颁给了中国科学技术大学、华为合作的《Dataset Regeneration for Sequential Recommendation》。KDD 2024 最佳论文奖(应用数据科学方向)由领英获得,此外,大会还颁发了两项时间检验奖。

杰出博士论文奖

KDD 2024 杰出博士论文奖颁发给了《Efficient and Effective Learning of Text Representations》,作者是弗吉尼亚大学助理教授孟瑜(Yu Meng )。

图片

孟瑜于 2024 年加入弗吉尼亚大学 (UVA) 计算机科学 (CS) 系,担任助理教授(tenure-track)。此前,他获得了伊利诺伊大学厄巴纳 - 香槟分校 (UIUC) 的博士学位,与韩家炜教授一起工作。他还曾在普林斯顿 NLP 小组担任访问研究员,与陈丹琦一起工作。

论文摘要:文本表示学习在广泛的自然语言处理 (NLP) 任务中发挥了关键作用。这些表示通常是通过深度神经网络将原始文本转换为向量获得的。LLM 的最新进展已经证明了学习通用文本表示的巨大潜力,可适用于广泛的应用。这一成功由两个关键因素支撑:

  • 在预训练和微调中使用广泛的文本数据来训练 LLM;
  • LLM 的规模可扩展到包含数百亿甚至数千亿个参数

因此,训练 LLM 需要大量成本,包括获取大量带标签的数据以及支持这些大型模型所需的基础设施。在这些挑战的基础上,本文旨在开发高效且有效的文本表示学习方法,涉及以下关键内容:

利用球面空间进行文本表示学习。表示空间的传统选择是欧几里得空间,但非欧几里得球面空间在通过方向相似性捕捉语义相关性的研究方面表现出卓越的能力。本文的工作重点是利用球面表示空间进行文本表示学习的自监督技术。

使用球面文本表示法发现主题结构。基于在球面空间中学习到的文本表示法,本文开发了通过联合建模主题和文本语义自动从给定语料库中发现主题结构的方法。

使用 LLM 生成训练数据以实现自然语言理解 (NLU)。要在 NLU 任务上实现稳健的性能,通常需要大量人工标注的训练样本来微调预训练的文本表示。为了减轻人工标注的需求,本文开发了一种新范式,使用 LLM 作为训练数据生成器来取代人工标注过程。

这些努力共同促进了文本表征更高效、更有效的学习,解决了训练和使用 LLM 面临的挑战。

图片

论文详细内容请参阅:
https://scholar.google.com/citations?view_op=view_citation&hl=en&user=S2-yZKcAAAAJ&cstart=20&pagesize=80&citation_for_view=S2-yZKcAAAAJ:_Qo2XoVZTnwC

杰出博士论文奖(亚军)

此次还有两项研究获得了本届 KDD 的杰出博士论文奖(亚军)。

图片

  • 论文标题:Make Knowledge Computable: Towards Differentiable Neural-Symbolic AI 
  • 机构:加利福尼亚大学
  • 作者:Ziniu Hu
  • 论文地址:https://escholarship.org/uc/item/3ft4t0nj

论文摘要:本论文探讨了神经人工智能系统与符号人工智能系统的交叉点。近年来的深度学习方法能够记忆大量的世界知识,但在此基础上进行符号推理仍存在局限性;而符号 AI 擅长解决推理任务,但在适应新知识方面效率较低。此前将两者结合的研究主要集中在构建基于解析的系统,这类系统需要大量的中间标签标注,且难以扩展。

作者的研究目标是使神经模型能够以可微分的方式与符号推理模块进行交互,并实现无需中间标签的端到端训练的这种神经 - 符号模型。为实现这一愿景,作者开展了以下研究工作:

  • 设计新型推理模块:设计可微分的神经模块,能够进行符号推理,包括知识图谱推理和复杂的逻辑推理。  
  • 通过自监督学习:从结构化和符号知识库中获取自监督信号来训练神经模型,无需额外的标注。  
  • 跨领域泛化:神经 - 符号系统的模块化设计天然有助于更好地进行分布外、词汇外、跨语言和跨类型的泛化。

图片

  • 论文标题:Artificial Intelligence for Data-centric Surveillance and Forecasting of Epidemics
  • 机构:佐治亚理工学院
  • 作者:Alexander Rodriguez
  • 论文地址:https://repository.gatech.edu/entities/publication/aa292b79-26bb-4aec-a3f3-0fd87911ff74/full

论文摘要:对流行病的监控和预测是政府官员、企业和公众进行决策和规划的重要工具。尽管人们在理解疾病如何在人群中传播方面取得了多项进展,但从许多方面来看,人们对流行病传播的理解仍处于初期阶段。许多主要的挑战源于复杂的动态因素,如人员流动模式、政策遵守情况,甚至数据收集程序的变化。随着收集和处理新来源数据的努力,拥有许多变量的细粒度数据逐渐变得可用。然而,这些数据集很难通过传统的数学流行病学和基于智能体的建模方法来利用。相反,流行病学中的 AI 方法面临数据稀疏、分布变化和数据质量差异的挑战。

图片

AI 技术在流行病学动态方面也缺乏理解,可能会导致不切实际的预测。为了解决这些挑战并向数据中心方法迈进,本论文提出了几个框架。具体来说,作者通过多个实例展示了将 AI 的数据驱动表达能力引入流行病学,可以实现对流行病更为敏感和精准的监控与预测。

研究方向论文奖

最佳论文

KDD 2024 最佳论文奖(研究方向)颁给了《CAT: Interpretable Concept-based Taylor Additive Models》。

图片

  • 作者:Viet Duong, Qiong Wu, Zhengyi Zhou, Hongjue Zhao, Chenxiang Luo, Eric Zavesky, Huaxiu Yao, Huajie Shao
  • 论文地址:https://arxiv.org/pdf/2406.17931
  • 项目地址:https://github.com/vduong143/CAT-KDD-2024

论文摘要:作为一种新兴的可解释技术,广义相加模型(Generalized Additive Models,GAMs)让神经网络单独学习每个特征的非线性函数,然后通过线性模型组合以进行最终预测。尽管 GAM 可以在特征级别解释深度神经网络 (DNN),但它们需要大量模型参数,并且容易过度拟合,从而难以训练和扩展。

此外,对人类来说,在具有许多特征的现实数据集中,基于特征的解释的可解释性会降低。为了解决这些问题,最近的研究已转向基于概念的可解释方法。这些方法试图将概念学习作为做出预测之前的中间步骤,并用人类可理解的概念来解释预测。然而,这些方法需要领域专家用相关名称及其真实值广泛地标记概念。

基于此,该研究提出了一种可解释的、基于概念的新型泰勒相加模型 ——CAT,以简化这个过程。CAT 不需要领域专家来注释概念及其真实值。相反,它只需要用户简单地将输入特征分类为广泛的组,这可以通过快速元数据审查轻松完成。

具体来说,CAT 首先将每组输入特征嵌入到一维高级概念表征中,然后将概念表征输入到新的白盒泰勒神经网络(TaylorNet)中。 TaylorNet 旨在使用多项式学习输入和输出之间的非线性关系。多个基准的评估结果表明,CAT 可以优于基准或与基准竞争,同时减少对大量模型参数的需求。重要的是,它可以通过高级概念有效地解释模型预测。

图片

最佳学生论文

KDD 2024 最佳学生论文(研究方向)颁给了《Dataset Regeneration for Sequential Recommendation》。

图片

  • 机构:中国科学技术大学、华为
  • 作者:Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Suojuan Zhang, Sirui Zhao, Defu Lian, Enhong Chen
  • 论文地址:https://arxiv.org/pdf/2405.17795
  • 项目链接:https://anonymous.4open.science/r/KDD2024-86EA

论文摘要:序列推荐系统(SR)是现代推荐系统中的关键组件,其目标是捕捉用户不断变化的偏好。为了增强 SR 系统的能力,已经进行了大量研究。这些方法通常遵循以模型为中心的范式,即基于固定数据集开发有效模型。然而,这种方法往往忽略了数据中潜在的质量问题和缺陷。基于数据中心化 AI 的潜力,研究团队提出了一种新颖的数据中心化范式,利用名为 DR4SR 的模型无关数据集再生框架来开发理想的训练数据集。该框架能够生成具有出色跨架构泛化能力的数据集。此外,他们还引入了 DR4SR + 框架,它结合了模型感知的数据集定制功能,能够为目标模型专门定制再生的数据集。

为了验证数据中心化范式的有效性,研究团队将该框架与各种以模型为中心的方法结合,观察到在四个广泛使用的数据集上性能显著提升。我们还进行了深入分析,探索数据中心化范式的潜力,并提供了宝贵的见解。

应用数据科学方向

最佳论文

KDD 2024 最佳论文(应用数据科学方向)颁给了《LiGNN: Graph Neural Networks at LinkedIn》。

图片

  • 机构:领英
  • 作者:Fedor Borisyuk, Shihai He, Yunbo Ouyang, Morteza Ramezani, Peng Du, Xiaochen Hou, Chengming Jiang, Nitin Pasumarthy, Priya Bannur, Birjodh Tiwana, Ping Liu, Siddharth Dangi, Daqi Sun, Zhoutao Pei, Xiao Shi, Sirou Zhu, Kay Shen, Kuang-Hsuan Lee, David Stein, Baolei Li, Haichao Wei, Amol Ghoting, Souvik Ghosh
  • 论文地址:https://arxiv.org/pdf/2402.11139

论文摘要:这篇论文介绍了已部署的大规模图神经网络(GNNs)框架 LiGNN,并分享了领英开发和部署大规模 GNN 的经验。论文提出了一系列算法改进来提升 GNN 表示学习的质量,包括具有长期损失的时间图架构,通过图密集化、ID 嵌入和 multi-hop 相邻采样实现的有效冷启动解决方案。

具体来说,论文介绍了如何通过自适应相邻采样、训练数据 batch 的分组和切片、专用共享内存队列和局部梯度优化,在 LinkedIn 图上构建大规模训练,并将训练速度提高 7 倍。研究者总结了从 A/B 测试实验中收集到的部署经验和教训。这项工作中介绍的技术帮助提高了约 1% 的工作应用回听率、2% 的广告点击率提升、0.5% 的日活用户提升、0.2% 的会话提升和 0.1% 的每周活跃用户数提升。这项工作有望为大规模应用图神经网络的工程师提供实用的解决方案和见解。

最佳论文亚军

KDD 2024 最佳论文亚军(应用数据科学方向)颁给了《Nested Fusion: A Method for Learning High Resolution Latent Structure of Multi-Scale Measurement Data on Mars》。

图片

  • 机构:佐治亚理工学院、加州理工学院
  • 作者:Austin Wright, Duen Chau, Scott Davidoff
  • 论文地址:https://dl.acm.org/doi/pdf/10.1145/3637528.3671596
  • 项目链接:https://github.com/pixlise/NestedFusion.

论文摘要:火星探测车「毅力号」代表了火星测量精度的代际变化,然而这种精度的提高也为探索性数据分析技术带来了新的挑战。探测车上的多个仪器分别测量科学家感兴趣的特定属性,因此分析底层现象如何共同影响多个不同的仪器,对于全面了解数据至关重要。然而,每个仪器的分辨率各不相同,使得不同数据层的映射变得复杂。

这项研究提出了 Nested Fusion 方法,该方法能够结合不同分辨率的任意分层数据集,并在可能的最高分辨率下生成潜在分布,编码不同测量和尺度之间的复杂相互关系。

图片

该方法能够对大型数据集高效处理,甚至可以对未见过的数据进行推理,并在真实的火星探测车数据上,超越了现有的降维和潜在分析方法。他们已在 NASA 喷气推进实验室(JPL)内的火星科学团队中部署了 Nested Fusion 方法,并且通过多轮参与式设计,大大提升了科学家的探索性分析工作流程。

时间检验奖

大会还评出了两项时间检验奖。

KDD 2024 时间检验奖(研究方向)颁给了《DeepWalk: online learning of social representations》。

图片

  • 机构:纽约州立大学石溪分校
  • 作者:Brian Perozzi, Rami Al-Rfou, Steven Skiena
  • 论文链接:https://arxiv.org/pdf/1403.6652
  • 项目链接:https://github.com/phanein/deepwalk

论文摘要:这篇论文介绍了研究团队所提出的一种用于学习网络中顶点隐层表示的新方法 ——「DeepWalk」。这些隐层表示将社会关系编码在连续的向量空间中,统计模型则可以轻松利用这些表示。

DeepWalk 将语言建模和无监督特征学习(或深度学习)从词序列推广到了图结构。DeepWalk 通过截断随机游走获取局部信息,并将游走等同视为句子,从而学习隐层表示。他们在多个社交网络的多标签网络分类任务中展示了 DeepWalk 的隐层表示,例如 BlogCatalog、Flickr 和 YouTube。

图片

结果表明,DeepWalk 在有缺失信息的情况下,表现优于能够看到全局网络视图的其他强大基线方法。特别是在标注数据稀缺的情况下,DeepWalk 的表示可以将图片分数提高最多 10%。在某些实验中,DeepWalk 使用少于 60% 的训练数据时,仍能超越所有基线方法。DeepWalk 具有可扩展性,它是一种在线学习算法,能够构建有用的增量结果,且易于并行化。这些特性使其适用于广泛的实际应用场景,如网络分类和异常检测

图片

KDD 2024 时间检验奖(应用数据科学方向)颁给了《U-Air: when urban air quality inference meets big data》。

图片

  • 机构:微软亚洲研究院
  • 作者:Yu Zheng, Furui Liu, Hsun-Ping Hsieh
  • 论文链接:http://chbrown.github.io/kdd-2013-usb/kdd/p1436.pdf

论文摘要:这篇论文介绍了研究团队所提出的一种基于协同训练框架的半监督学习方法。关于城市空气质量的信息(例如 PM2.5 的浓度),对于保护人类健康和控制空气污染至关重要。然而,城市中空气质量监测站的数量有限,并且空气质量在城市空间中又呈现非线性变化,并受多种因素的影响,例如气象、交通流量和土地利用等。在本文中,研究团队基于现有监测站报告的(历史和实时)空气质量数据,以及在城市中观察到的各种数据来源(如气象、交通流量、人员流动、道路网络结构和兴趣点 POIs),推断整个城市的实时、细粒度的空气质量信息。

他们提出了一种基于协同训练框架的半监督学习方法,该框架包含两个独立的分类器。一个是基于人工神经网络(ANN)的空间分类器,它将空间相关特征(如 POI 的密度和高速公路的长度)作为输入,以建模不同地点之间空气质量的空间相关性。另一个则是基于线性链条件随机场(CRF)的时间分类器,使用时间相关特征(如交通和气象)来建模一个地点空气质量的时间依赖性。

图片

研究团队在北京和上海所获取的五个真实数据源的基础上进行了广泛的实验评估。结果表明,与四类基线方法(包括线性 / 高斯插值、经典扩散模型、决策树和 CRF 等著名分类模型,以及 ANN)相比,他们所提出的基于协同训练框架的半监督学习方法具有显著优势。

更多信息,可参考大会官网:
https://kdd2024.kdd.org/awards/
产业ACM SIGKDD
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
韩家炜人物

韩家炜,美国伊利诺伊大学香槟分校计算机系教授,IEEE和ACM院士,美国信息网络学术研究中心主任。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席,创办了ACM TKDD学报并任主编。在数据挖掘、数据库和信息网络领域发表论文600余篇。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

概念学习技术

概念学习,也称为类别学习、概念获得和概念形成,定义为“搜索和列出可用于区分各种类别的非样本的样本的属性”。 更简单地说,概念是帮助我们对对象、事件或想法进行分类的心理类别,建立在对每个对象、事件或想法具有一组共同相关特征的理解的基础上。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

条件随机场技术

条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链接式的架构,链接式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。 条件随机场跟隐马尔可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐马尔可夫模型那般强烈的假设存在。 线性链条件随机场应用于标注问题是由Lafferty等人与2001年提出的。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

在线学习技术

在计算机科学中,在线学习是一种机器学习方法。和立即对整个训练数据集进行学习的批处理学习技术相反,在线学习的数据按顺序可用,并在每个步骤使用未来数据更新最佳预测器。

A/B 测试技术

一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。

符号人工智能技术

符号人工智能是指人工智能研究中所有的基于高阶“符号”(人类可读)表示的问题、逻辑和搜索的方法的集合。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

暂无评论
暂无评论~