Jerry Chi(SmartNews数据科学主管)作者丁楠雅校对和中华翻译

脑洞大开!机器学习与AI突破(附链接)

本文介绍了近期在机器学习/人工智能领域一些非常有创意的突破,每一个都脑洞大开,不管是否是相关从业人员都值得一读。

本文介绍了一些近期在机器学习人工智能领域最受欢迎的突破,并附上一些论文、视频链接和简要总结。

与其他领域相比,机器学习/人工智能现在发展的非常快,经常有一些有趣的突破。让你不由自主的发出“wow”甚至“人间值得”的感叹!(两分钟论文作者的口头禅)

两分钟论文

https://www.youtube.com/channel/UCbfYPyITQ-7l4upoX8nvctg

免责声明:我并没有对“振奋人心”或“突破”进行严格的定义;这只是一个非正式的清单。我会用可能不那么严格的术语来让这篇文章更通俗易懂。

从看似不可用的信息中得出惊人的准确估计

透过墙对人体姿态做估计

麻省理工学院研究人员的网站/视频,2018年

http://rfpose.csail.mit.edu/

我们可以根据某人对WiFi信号的扰乱,准确地估计此人在墙壁另一侧是如何站着/坐着/走路的。

从视频中测量材料的物理特性

麻省理工学院研究人员的文章/视频,2015年

http://news.mit.edu/2015/visual-microphone-identifies-structural-defects-0521

研究人员在2014年首次展示了根据振动情况从薯片包装袋的视频(没有声音)中重现人类的语音。该成果没有涉及机器学习。2015年,他们使用机器学习,并展示了通过视频来估计材料的刚度、弹性、单位面积的重量等(在某些情况下,仅仅空气正常循环引起的振动就足够了)。

从键盘旁边的智能手机估计键盘敲击

论文,2015

https://www.sigmobile.org/mobicom/2015/papers/p142-liuA.pdf

研究人员发现,从一台放在键盘旁边的智能手机中录制的音频,可以以94%的准确率估计键盘敲击。与以前在键盘周围放置许多麦克风的情况下使用有监督的深度学习方法不同,这篇论文实际上使用了相对简单的机器学习技术(k-均值聚类)和无监督学习

生成模型

逼真的面部生成、样式混合和移植

Nvidia研究人员的论文/视频,2018年

论文

https://arxiv.org/abs/1812.04948

视频

https://www.youtube.com/watch?v=kSLJriaOumA

研究人员将一种新的结构与大量的GPU结合起来,创造出极其逼真的人造人脸,这些人脸是其他人脸之间的移植,或者是一个人脸到另一个人脸的“样式”应用。这项工作建立在过去关于生成对抗网络(GANs)的工作之上。GANs是在2014年发明的,从那时起对它的研究就出现了爆炸式增长。GANs最基本的解释是两个相互对抗的神经网络(例如,一个是将图像分类为“真实”或“假冒”的神经网络,另一个是以试图“欺骗”第一个神经网络将假冒图像错误分类为真实的方式生成图像的神经网络……因此,第二个神经网络是第一个的“对手”)。

总的来说,关于对抗性机器学习有很多很酷的研究,已经存在了十多年。对网络安全等也有许多令人毛骨悚然的影响,但我再讲就跑题了。

很酷的研究

https://github.com/yenchenlin/awesome-adversarial-machine-learning

教机器绘图

Google Brain的博客帖子,2017年

https://ai.googleblog.com/2017/04/teaching-machines-to-draw.html

两幅图之间的插值我在Google Brain的好朋友David Ha用一个生成循环神经网络(RNN)来绘制基于矢量的图形(除了自动以外,我认为这就是Adobe Illustrator)。

David Ha

https://twitter.com/hardmaru

把炫酷的舞步迁移给不会跳舞的人

加州大学伯克利分校研究人员的网站/视频,2018年

网站

https://carolineec.github.io/everybody_dance_now/

视频

https://www.youtube.com/watch?v=PCBTZh41Ris

想想“舞蹈版的Auto-Tune”。通过姿势估计和生成对抗训练,研究人员能够制作任何真人(“目标”人物)跳舞的假冒视频,视频中的人舞技精湛。所需输入仅为:

  • 一段舞蹈高手的跳舞短视频

  • 几分钟目标人物跳舞的视频(通常很糟,因为大多数人都不擅长跳舞)

我还看到了Nvidia的首席执行官黄延森(Jensen Huang)展示了一段自己像迈克尔杰克逊一样跳舞的视频(用这种技术)。很高兴我之前参加了GPU技术大会,哈哈。

强化学习

世界模型-人工智能在自己的梦里学习

Google Brain网站,2018年

https://worldmodels.github.io/

人类并不真正了解或思考我们生活的世界里的所有细节。我们的行为基于我们头脑中世界的抽象。例如,如果我骑在自行车上,我不会想到自行车的齿轮/螺母/螺栓;我只是大致了解车轮、座椅和把手的位置以及如何与它们交互。为什么不对人工智能使用类似的方法呢?

这种“世界模型”方法(同样,由David Ha等人创建)允许“agent”(例如,在赛车游戏中控制汽车的人工智能)创建一个世界/周围环境的生成模型,这是对实际环境的简化/抽象。所以,你可以把这个世界模型看作是一个存在人工智能头脑中的梦。然后人工智能可以通过强化学习在这个“梦”中得到更好的表现。因此,这种方法实际上是将生成性机器学习强化学习相结合。通过这种方式,研究人员能够在特定的电子游戏任务上实现目前最先进的水平。

[2019/2/15更新]在上述“世界模型”方法的基础上,谷歌刚刚发布了PlaNet:Deep Planning Network for Reinformation Learning,与以前的方法相比,数据效率提高了5000%。

PlaNet:Deep Planning Network for Reinformation Learning

https://ai.googleblog.com/2019/02/introducing-planet-deep-planning.html

AlphaStar——击败顶级职业玩家的星际争霸II AI

DeepMind(Google)的博客文章,e-sports-ish视频,2019年

博客文章

https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/

e-sports-ish视频

https://www.youtube.com/watch?v=cUTMhmVh1qs

我们在李世石和DeepMind AlphaGo之间的历史性围棋比赛之后已经走了很长的路,这场比赛震撼了全世界,它仅仅发生在3年前的2016年(看看NetFlix纪录片,让一些人哭泣)。更令人惊讶的是,尽管没有使用任何来自人类比赛的训练数据,2017年的AlphaZero在围棋方面比AlphaGo更好(也比国际象棋、日本象棋等领域的其他算法更好)。但2019年的AlphaStar更惊人。

李世石和DeepMind AlphaGo之间的历史性围棋比赛

https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol

NetFlix纪录片

https://www.netflix.com/sg/title/80190844

自1998年以来,作为一名星际迷,我很了解星际的精髓“……需要平衡短期和长期目标,适应意外情况……这是一个巨大的挑战。”这是一个真正困难和复杂的游戏,需要多层次的理解才能玩得好。自2009年以来,对星际游戏算法的研究一直在进行。

AlphaStar基本上使用了监督学习(来自人类比赛)和强化学习(与自身对抗)的组合来实现其结果。

人类训练机器人

通过一次人工演示将任务传授给机器

Nvidia研究人员的文章/视频,2018年

文章

https://news.developer.nvidia.com/new-ai-technique-helps-robots-work-alongside-humans/

视频

https://www.youtube.com/watch?time_continue=1&v=B7ZT5oSnRys

我可以想到三种典型的方法来教机器人做一些事情,但都需要大量的时间/劳力:

  • 针对每种情况手动编程机器人的关节旋转等

  • 让机器人多次尝试这个任务(强化学习

  • 多次向机器人演示任务

通常对深度学习的一个主要批评是,产生数以百万计的示例(数据)是非常昂贵的。但是,有越来越多的方法不依赖如此昂贵的数据。

研究人员根据一个单一的人类演示视频(一个实际的人类用手移动方块),找到了一种机器人手臂成功执行任务的方法(例如“拿起方块并将其堆叠起来,使它们按顺序排列:红色、蓝色、橙色”),即使视频是从不同角度拍摄的。该算法实际上生成了一个它计划执行的任务的可读描述,这对于故障排除非常有用。该算法依赖于具有姿态估计,合成训练数据生成和模拟到现实传递的对象检测。

无监督机器翻译

Facebook人工智能研究博客,2018年

https://code.fb.com/ai-research/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages/

通常,你需要一个庞大的翻译文档训练数据集(例如联合国议项的专业翻译),以便很好地进行机器翻译(即监督学习)。然后,许多主题和语言之间没有高质量、丰富的训练数据。在这篇论文中,研究人员发现,可以使用无监督学习(即不使用翻译数据,只使用每种语言中不相关的语料库),达到最先进的监督学习方法的翻译质量。Wow。

基本思想是,在任何语言中,某些单词/概念往往会出现在很近的位置(例如“毛茸茸的”和“猫咪”)。他们把这描述为“不同语言中的词嵌入具有相似的邻域结构。”好吧,我明白这个想法,但是使用这种方法,他们可以在没有翻译数据集的情况下达到如此高的翻译质量,仍然让人吃惊。

结语

如果你之前没有对机器学习/人工智能的发展感兴趣的话,我希望这篇文章能帮到你。也许一年后我会再写一篇类似的文章。请随意在这里留下任何想法/评论,或发电子邮件至jerrychi123@gmail.com。

人间值得!

简介:Jerry Chi在数据科学机器学习、数据工程和数字产业战略方面有丰富的经验。

原创。经许可转载。

https://blog.usejournal.com/my-favorite-mind-blowing-ml-ai-breakthroughs-e7b4f3637e3d?gi=cafbb835aaa9

资源:

  • On-line and web-based: Analytics, Data Mining, Data Science, Machine Learning education

https://www.kdnuggets.com/education/online.html

  • Software for Analytics, Data Science, Data Mining, and Machine Learning

 https://www.kdnuggets.com/software/index.html

相关:

  • Acquiring Labeled Data to Train Your Models at Low Costs

https://www.kdnuggets.com/2019/02/labeled-data-train-models.html

  • 4 Reasons Why Your Machine Learning Code is Probably Bad

https://www.kdnuggets.com/2019/02/4-reasons-machine-learning-code-probably-bad.html

  • Artificial Neural Network Implementation using NumPy and Image Classification

https://www.kdnuggets.com/2019/02/artificial-neural-network-implementation-using-numpy-and-image-classification.html

原文标题:

My favorite mind-blowing Machine Learning/AI breakthroughs

原文链接:

https://www.kdnuggets.com/2019/03/favorite-ml-ai-breakthroughs.html

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

入门机器学习
2
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

加州大学伯克利分校机构

加利福尼亚大学伯克利分校,简称加州大学伯克利分校,又常被译为加利福尼亚大学伯克莱分校,位于美国加利福尼亚州旧金山湾区伯克利市,是一所世界著名的公立研究型大学。其许多科系位于全球大学排行前十名,是世界上最负盛名的大学之一,常被誉为美国乃至世界最顶尖的公立大学。

https://www.berkeley.edu/
聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

AlphaStar技术

AlphaStar是2019年1月DeepMind推出的打星际争霸2的AI系统。在1月的首次亮相中,DeepMind播放的比赛视频显示AlphaStar击败了两名人类职业选手TOL与MaNa,引起了业内极大的关注。DeepMind 官方博客介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络使用了一个 transformer 作为躯干,结合了一个深度 LSTM 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

暂无评论
暂无评论~