Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜伟、楚航、罗若天参与

7 Papers & Radios | 史上最大AI模型GPT-3上线;Transformer跨界做目标检测

本周的重要论文包括OpenAI推出的史上最大AI模型GPT-3,以及Facebook AI将Transformer用于目标检测和全景分割的跨界尝试。

目录:

  1. Knowledge Graph Embedding for Link Prediction: A Comparative Analysis

  2. Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

  3. The Resurgence of Structure in Deep Neural Networks 

  4. End-to-End Object Detection with Transformers

  5. Point2Mesh: A Self-Prior for Deformable Meshes

  6. Language Models are Few-Shot Learners

  7. PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End ASR

  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Knowledge Graph Embedding for Link Prediction: A Comparative Analysis

  • 作者:Andrea Rossi、Donatella Firmani、Antonio Matinata、Paolo Merialdo、Denilson Barbosa

  • 论文链接:https://arxiv.org/pdf/2002.00819.pdf


摘要:知识图谱(Knowledge graph, KGs)在工业和学术领域有很多应用,这反过来又推动了从各种来源大规模提取信息的研究工作。尽管付出了诸多努力,但不得不承认最先进的知识图谱也是不完整的。链路预测(Link Prediction, LP)是一种根据知识图谱中的已存在实体去预测缺失事实的任务,它是一种有前途、广泛研究且旨在解决知识图谱不完整性的任务。

在最近,基于知识图谱嵌入的链路预测技术在一些基准测试中实现了良好的性能。尽管这方面的研究文献在快速增加,但对这些方法中不同设计选择的影响却没有投以充分的注意。此外,这一领域的标准做法是测试大量的事实来报告准确性,其中一些实体被过度表示;这使得链路预测方法只修改包含这些实体的结构属性来展示良好的性能,而忽略知识图谱的主要部分。

因此,在这篇综述论文中,来自罗马第三大学和阿尔伯塔大学的研究者对基于嵌入的链路预测方法进行全面比较,将分析维度扩展到常见的文献范围之外。他们通过实验比较了 16 种当前 SOTA 方法的有效性和效率,考虑到了一个基于规则的基准,并提供了文献中最流行基准的详细分析。

本研究中链路预测模型的分类。

本研究对比分析中模型的损失函数、约束和空间复杂度。

本研究对比分析中采用的 5 个链路预测数据集以及它们的常规属性。

每个链路预测模型在 5 个数据集上的训练时长。

推荐:这篇长达 43 页的综述论文首次对基于知识图谱嵌入的链路预测模型进行了全面的对比分析,囊括 16 个方法和架构各异的链路预测模型,并在 5 个最流行的数据集上验证了它们的有效性和效率。

论文 2:Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

  • 作者:Tianpei Yang、Jianye Hao、Zhaopeng Meng 等

  • 论文链接:https://arxiv.org/pdf/2002.08037.pdf


摘要:通过利用过去学得的相关任务策略的先验知识迁移学习(Transfer Learning, TL)在加速强化学习方面表现出了极大的潜力。现有的迁移方法要么显式地计算任务间的相似度,要么选择合适的源策略为目标任务提供指导性探索。但是,如何利用合适的源策略知识并且隐式地度量相似度,进而直接优化目标策略,这种思路的研究目前是缺失的。

因此,在本文中,来自华为诺亚方舟实验室等机构的研究者提出的新型策略迁移框架(Policy Transfer Framework, PTF)通过利用上述思路来加速强化学习。该框架学习对于目标策略来说何时复用以及复用哪种源策略才能达到最佳效果,以及通过将多策略迁移建模为选择学习问题来确定何时终止这种源策略。

本研究中策略迁移框架(PTF)示意图。

算法 1:PTF-A3C。

两种风格的网格世界(Grid world)W 和 W』。

两种具有连续控制的评估环境。

推荐:实验表明,这种新型策略迁移框架能够显著加速学习过程,并在独立和连续动作空间中的学习效率和最终性能两方面超越了当前 SOTA 策略迁移方法。

论文 3:The Resurgence of Structure in Deep Neural Networks

  • 作者:Petar Veličković

  • 论文链接:https://www.repository.cam.ac.uk/handle/1810/292230


摘要:使用深度神经网络机器学习(「深度学习」)允许直接从原始输入数据中学习复杂特征,并完全消除了学习流程中手动硬编码的特征提取。这就可以通过以往分裂的研究领域,如计算机视觉自然语言处理强化学习和生成建模等来实现最佳性能。这些成功的案例都离不开大量可用的标签训练样本(「大数据」),这些训练样本展现出简单的网格结果(「文本或图像」),并通过卷积或循环网络加以利用。但是由于神经网络的自由度非常大,使得它们的泛化能力易于受到过拟合等的影响。

但是,对于很多领域来说,广泛的数据收集并不总是适合、负担得起或者可行的。此外,数据通常以更为复杂的结构组织起来,大多数现有方法也只是不采纳这种结构。这种类型的任务在生物医学领域非常丰富。

所以,在本文中,GAT 作者、剑桥大学三一学院博士生 Petar Veličković做出假设,如果深度学习能够在此类环境中充分发挥其潜力,则需要重新考虑「硬编码」方法,即通过结果性归纳偏差,将输入数据中固有结构的假设直接集成到他提出的架构和学习算法中。作者通过自己开发的 3 个 structure-infused 神经网络架构(在稀疏多模态和图结构数据上运算)和 1 个 structure-informed 图神经网络学习算法直接验证了以上假设,并证明了较传统基线模型和算法的显著性能提升。

本文作者 Petar Veličković现为 DeepMind 研究科学家,在剑桥大学三一学院取得计算机科学博士学位,其导师为 Pietro Liò。他的研究兴趣是设计能够在非平凡结构数据(如图)上运算的神经网络架构,以及这些架构在算法推理和计算生物学领域的应用。

本篇博士论文的主要贡献:早期跨模态融合、图卷积和图无监督学习。

左:单个循环神经网络单元;中:RNN 单元的扩展,以执行反向传播;右:堆叠两个 RNN 单元,得到「深度」RNN。

用于图像分类的简单跨模态 CNN 图示。

推荐:最为大家所熟知的是,Peter Veličković为图注意力网络(Graph Attention Network, GAT)和深度图信息最大化(Deep Graph Infomax, DGI)的第一作者。

论文 4:End-to-End Object Detection with Transformers

  • 作者:Nicolas Carion、Francisco Massa、Gabriel Synnaeve 等

  • 论文链接:https://arxiv.org/pdf/2005.12872v1.pdf


摘要:近年来,Transformer 成为了深度学习领域非常受欢迎的一种架构,它依赖于一种简单但却十分强大的机制——注意力机制,使得 AI 模型有选择地聚焦于输入的某些部分,因此推理更加高效。Transformer 已经广泛应用于序列数据的处理,尤其是在语言建模、机器翻译自然语言处理领域。此外,它在语音识别、符号数学、强化学习等多个领域也有应用。但令人意外的是,计算机视觉领域一直还未被 Transformer 所席卷。

为了填补这一空白,Facebook AI 的研究者推出了 Transformer 的视觉版本—Detection Transformer(以下简称 DETR),用于目标检测和全景分割。与之前的目标检测系统相比,DETR 的架构进行了根本上的改变。这是第一个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架。在性能上,DETR 可以媲美当前的 SOTA 方法,但架构得到了极大简化。

具体来说,研究者在 COCO 目标检测数据集上将 DETR 与 Faster R-CNN 基线方法进行了对比,结果发现 DETR 在大型目标上的检测性能要优于 Faster R-CNN,但在小目标的检测上性能不如后者,这为今后 DETR 的改进提供了新的方向。

DETR 通过将一个常见 CNN 与 Transformer 结合来直接预测最终的检测结果。在训练期间,二分匹配(bipartite matching)向预测结果分配唯一的 ground truth 边界框。没有匹配的预测应生成一个「无目标」的分类预测结果。

传统两阶段检测系统,如 Faster R-CNN,通过对大量粗糙候选区域的过滤来预测目标边界框。与之相比,DETR 利用标准 Transformer 架构来执行传统上特定于目标检测的操作,从而简化了检测 pipeline。

在 COCO 验证集上与 Faster R-CNN 的对比结果。

DETR-R101 处理的全景分割效果。

推荐:这是模型的跨界,Transformer 首次用于目标检测,效果媲美 Faster R-CNN。

论文 5:Point2Mesh: A Self-Prior for Deformable Meshes

  • 作者:Rana Hanocka、Gal Metzer、Raja Giryes、Daniel Cohen-Or

  • 论文链接:https://arxiv.org/pdf/2005.11084.pdf


摘要:近日,来自以色列特拉维夫大学的研究者提出了一种从输入点云重构曲面网格的技术——Point2Mesh。与之前方法需指定一个用于编码期望形状的 prior 不同,该研究使用输入点云来自动生成 prior,并称其为 self-prior。该 self-prior 将重复出现的几何形状由单一形状封装在深度神经网络权重之中。

研究者对网络权重进行优化,使得初始网格变形,以收缩包覆(shrink-wrap)单个输入点云。由于共享的局部内核被用来拟合整个物体,因此考虑到了整个重构的形状。将多个卷积核在整体形状上进行全局优化,从而鼓励了局部尺度在形状曲面上的几何自相似性。

研究者展示了,与预先设置的平滑 prior(经常陷入不佳的局部最优)相比,使用 self-prior 收缩包覆点云能够收敛至令人满意的结果。传统的重构方法在非理想条件下性能会恶化,并且如非定向法线,噪音和部件缺失(低密度)等情况在现实世界的扫描里经常出现,而 Point2Mesh 在非理想条件下具有一定的鲁棒性。研究者在大量不同复杂度的各种形状上验证了 Point2Mesh 的性能表现。

该方法从单个对象学习,通过优化卷积神经网络(CNN)的权重来使一些初始网格变形,以收缩包覆输入点云。

使用平滑 prior 从有缺失区域的点云中重构完整的网格,该方法会忽略整体形状特征。

在 l 层上的 Point2Mesh 框架概览。

在估计法线上的重建结果展示。

推荐:与使用预先设定的光滑 prior 不同,这篇 SIGGRAPH 论文使用 CNN 自动生成 prior,准确建模细粒度特征的同时过滤噪声与异常值。

论文 6:Language Models are Few-Shot Learners

  • 作者:Tom B. Brown、Benjamin Mann、Nick Ryder 等

  • 论文链接:https://arxiv.org/pdf/2005.14165.pdf


摘要:近日,OpenAI 提出的 GPT-3 在社交网络上掀起了新一阵风潮,它的参数量要比 2 月份刚刚推出的、全球最大深度学习模型 Turing NLP 大上十倍,而且不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。这样强大的深度学习,不禁让人产生一种错觉:真正的 AI 要来了吗?

首先,GPT-3 最令人惊讶的还是模型体量。根据 OpenAI 的算力统计单位 petaflops/s-days,训练 AlphaGoZero 需要 1800-2000pfs-day,而 OpenAI 刚刚提出的 GPT-3 用了 3640pfs-day,看来拥有微软无限算力的 OpenAI,现在真的是为所欲为了。

研究者们希望 GPT-3 能够成为更通用化的 NLP 模型,解决当前 BERT 等模型的两个不足之处:对领域内有标记数据的过分依赖,以及对于领域数据分布的过拟合。GPT-3 致力于能够使用更少的特定领域,不做 fine-tuning 解决问题。

GPT-3 生成新闻示例。

人类对 GPT-3 175B 模型生成的约 500 词文章的判断准确率为 52%,不过相比于 GPT-3 control 模型(没有语境和不断增加的输出随机性且只具备 1.6 亿参数的模型),GPT-3 175B 生成的文本质量要高得多。

OpenAI 研究人员在以上 10 项任务中测试了 GPT-3 做简单计算的能力,且无需任何任务特定的训练。

OpenAI 在多项任务中对 GPT-3 的性能进行了测试,包括语言建模、补全、问答、翻译、常识推理、SuperGLUE 等任务。

推荐:包含 1750 亿参数,GPT-3 成为史上最大 AI 模型,不仅会写文章、答题,还懂数学。

论文 7:PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End ASR

  • 作者:Yiwen Shao、Yiming Wang、Daniel Povey、Sanjeev Khudanpur

  • 论文链接:https://arxiv.org/pdf/2005.09824.pdf


摘要:在本文中,来自约翰霍普金斯大学和小米的研究者(Daniel Povey)提出了 PyChain,对于 Kaldi 自动语音识别(automatic speech recognition, ASR)工具包中链式模型的端到端无网格最大交互信息(lattice-free maximum mutual information, LF-MMI)训练,PyChain 可以实现完全并行化 PyTorch 实现。

与其他基于 PyTorch 和 Kaldi 的 ASR 工具包不同,PyChain 在设计上尽可能轻巧灵活,这样可以轻松地插入新的 ASR 项目或者其他基于 PyTorch 的 ASR 工具。PyChain 的效率和灵活性体现在以下这些新特征上,如在分子/分母图上的完全 GPU 训练以及对不规则长度序列的支持。

利用本研究中 PyChain 做端到端 LF-MMI 训练的 pipeline。

PyChain 模块组成。

算法 1:前向算法。

数据增强下各模型的 WER(%) 结果对比。

推荐:在 WSJ 数据集上的实验表明,利用简单的神经网络和常用的机器学习方法,PyChain 可以实现媲美 Kaldi 甚至优于其他端到端 ASR 系统的结果。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

10 NLP Papers.mp300:0021:06

本周 10 篇 NLP 精选论文是:


1. Language Models are Few-Shot Learners. (from Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child等)
2. Verification and Validation of Convex Optimization Algorithms for Model Predictive Control. (from Raphaël Cohen, Eric Féron, Pierre-Loïc Garoche)
3. Counterfactual Detection meets Transfer Learning. (from Kelechi Nwaike, Licheng Jiaoo)
4. T-RECS: a Transformer-based Recommender Generating Textual Explanations and Integrating Unsupervised Language-based Critiquing. (from Diego Antognini, Claudiu Musat, Boi Faltings)
5. Syntactic Structure Distillation Pretraining For Bidirectional Encoders. (from Adhiguna Kuncoro, Lingpeng Kong, Daniel Fried, Dani Yogatama, Laura Rimell, Chris Dyer, Phil Blunsom)
6. Investigating Label Bias in Beam Search for Open-ended Text Generation. (from Liang Wang, Jinlong Liu, Jingming Liu)
7. K{\o}psala: Transition-Based Graph Parsing via Efficient Training and Effective Encoding. (from Daniel Hershcovich, Miryam de Lhoneux, Artur Kulmizev, Elham Pejhan, Joakim Nivre)
8. A Corpus for Large-Scale Phonetic Typology. (from Elizabeth Salesky, Eleanor Chodroff, Tiago Pimentel, Matthew Wiesner, Ryan Cotterell, Alan W Black, Jason Eisner)
9. Exploring aspects of similarity between spoken personal narratives by disentangling them into narrative clause types. (from Belen Saldias, Deb Roy)
10. The Discussion Tracker Corpus of Collaborative Argumentation. (from Christopher Olshefski, Luca Lugini, Ravneet Singh, Diane Litman, Amanda Godley)

10 CV Papers.mp300:0022:59

本周 10 篇 CV 精选论文是:

1. Symbolic Pregression: Discovering Physical Laws from Raw Distorted Video. (from Silviu-Marian Udrescu, Max Tegmark)
2. Learning to Simulate Dynamic Environments with GameGAN. (from Seung Wook Kim, Yuhao Zhou, Jonah Philion, Antonio Torralba, Sanja Fidler)
3. Detecting Scatteredly-Distributed, Small, andCritically Important Objects in 3D OncologyImaging via Decision Stratification. (from Zhuotun Zhu, Ke Yan, Dakai Jin, Jinzheng Cai, Tsung-Ying Ho, Adam P Harrison, Dazhou Guo, Chun-Hung Chao, Xianghua Ye, Jing Xiao, Alan Yuille, Le Lu)
4. Robust Object Detection under Occlusion with \\Context-Aware CompositionalNets. (from Angtian Wang, Yihong Sun, Adam Kortylewski, Alan Yuille)
5. Novel Human-Object Interaction Detection via Adversarial Domain Generalization. (from Yuhang Song, Wenbo Li, Lei Zhang, Jianwei Yang, Emre Kiciman, Hamid Palangi, Jianfeng Gao, C.-C. Jay Kuo, Pengchuan Zhang)
6. Hashing-based Non-Maximum Suppression for Crowded Object Detection. (from Jianfeng Wang, Xi Yin, Lijuan Wang, Lei Zhang)
7. Region-adaptive Texture Enhancement for Detailed Person Image Synthesis. (from Lingbo Yang, Pan Wang, Xinfeng Zhang, Shanshe Wang, Zhanning Gao, Peiran Ren, Xuansong Xie, Siwei Ma, Wen Gao)
8. Towards Fine-grained Human Pose Transfer with Detail Replenishing Network. (from Lingbo Yang, Pan Wang, Chang Liu, Zhanning Gao, Peiran Ren, Xinfeng Zhang, Shanshe Wang, Siwei Ma, Xiansheng Hua, Wen Gao)
9. A Convolutional Neural Network with Parallel Multi-Scale Spatial Pooling to Detect Temporal Changes in SAR Images. (from Jia-Wei Chen, Rongfang Wang, Fan Ding, Bo Liu, Licheng Jiao, Jie Zhang)
10. Fine-Grain Few-Shot Vision via Domain Knowledge as Hyperspherical Priors. (from Bijan Haney, Alexander Lavin)

10 ML Papers.mp300:0022:27

本周 10 篇 ML 精选论文是:


1. Instability, Computational Efficiency and Statistical Accuracy. (from Nhat Ho, Koulik Khamaru, Raaz Dwivedi, Martin J. Wainwright, Michael I. Jordan, Bin Yu)
2. Non-IID Graph Neural Networks. (from Yiqi Wang, Yao Ma, Charu Aggarwal, Jiliang Tang)
3. Parameter Sharing is Surprisingly Useful for Multi-Agent Deep Reinforcement Learning. (from Justin K Terry, Nathaniel Grammel, Ananth Hari, Luis Santos, Benjamin Black, Dinesh Manocha)
4. Accelerating Antimicrobial Discovery with Controllable Deep Generative Models and Molecular Dynamics. (from Payel Das, Tom Sercu, Kahini Wadhawan, Inkit Padhi, Sebastian Gehrmann, Flaviu Cipcigan, Vijil Chenthamarakshan, Hendrik Strobelt, Cicero dos Santos, Pin-Yu Chen, Yi Yan Yang, Jeremy Tan, James Hedrick, Jason Crain, Aleksandra Mojsilovic)
5. A Feature-map Discriminant Perspective for Pruning Deep Neural Networks. (from Zejiang Hou, Sun-Yuan Kung)
6. Multi-Source Deep Domain Adaptation with Weak Supervision for Time-Series Sensor Data. (from Garrett Wilson, Janardhan Rao Doppa, Diane J. Cook)
7. Incidental Supervision: Moving beyond Supervised Learning. (from Dan Roth)
8. Approximation in shift-invariant spaces with deep ReLU neural networks. (from Yunfei Yang, Yang Wang)
9. FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity to Non-IID Data. (from Xinwei Zhang, Mingyi Hong, Sairaj Dhople, Wotao Yin, Yang Liu)
10. COVID-19 and Your Smartphone: BLE-based Smart Contact Tracing. (from Pai Chet Ng, Petros Spachos, Konstantinos Plataniotis)
理论理论知识图谱迁移学习深度神经网络Transformer目标检测AI
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
小米集团机构

小米公司正式成立于2010年4月,是一家专注于智能手机自主研发的移动互联网公司,定位于高性能发烧手机。小米手机、MIUI、米聊是小米公司旗下三大核心业务。“为发烧而生”是小米的产品理念。小米公司首创了用互联网模式开发手机操作系统、发烧友参与开发改进的模式。2018年7月,工业和信息化部向与中国联合网络通信集团有限公司首批签约的15家企业发放了经营许可证,批准其经营移动通信转售业务,其中包括:小米科技有限责任公司。 2018年7月9日,正式登陆香港交易所主板 。

https://www.mi.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

Jianfeng Gao人物

微软研究院人工智能深度学习组合作研究经理、IEEE Fellow,研究兴趣主要为自然语言处理、强化学习等。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

连续控制技术

连续控制代指需要进行连续控制的任务,经典例子包括推杆摆动,3D人形运动等等。

云来机构
暂无评论
暂无评论~