一小时说服发那科合作,这家日本顶尖AI创业公司迈向“日本三强”产业链顶端

这家日本顶尖AI创业公司,迈向“日本三强”产业链顶端

认识 Preferred Network(以下简称 PFN),就像玩拼图。

很多人知道智能上色应用 PaintsChainer,但未必知道它只是这家公司的「副业」;

码农们都知道 PyTorch,但未必知道它的理念源自这家公司,他们研发出了全球最早动态图框架 Chainer;

工业界的人都知道发那科正在试水人工智能,但未必知道合作的这家创业公司还要做家用机器人;

当你将这些散落在不同人群目光下的板块拼在一起后,公司全貌才浮现在眼前:

全栈,并且还要全能。

PFN 研发的不仅仅是深度学习算法,还有简单好用的 Chainer(TM),一个开源深度学习框架。构建了日本最大的 GPU 集群,甚至自研了专用芯片。

业务跨度之大,更让这家创业公司显得与众不同。

不到 200 名成员的公司已经将深度学习应用到了汽车,制造和生物医疗等行业(日本实力最强的三个领域),而且还有个人机器人的计划。每个领域都充满挑战,一般创业公司通常只会专注某个领域。

2012 年,深度学习取得重要突破后,冈原大辅和西川彻注意到了深度学习的两个独特之处,可以将它应用到更加广泛领域中。

一方面,可以很容易处理非常高维的数据。高维数据的一个重要例子就是时间序列数据,这在工业设备的传感器数据中很常见;

另一方面,深度学习是无模型,不需要假设概率分布先验知识,任何一个概率分布可以用足够复杂的神经网络来逼近。

2014 年,他们成立了 PFN。如果说公司设立之初,创始人曾犹豫业务支柱是否放在深度学习上,那么,2015 年春天对富士山脚下巨头公司的拜访,让他们确信制造将是应用深度学习专业知识的核心领域。

当谷歌、亚马逊等互联网巨头竞相训练系统理解语言时,能造出世界上最先进设备的日本制造业尚未得到开垦。

这家日本顶尖AI创业公司,迈向“日本三强”产业链顶端经历最初的怀疑之后,公司创始人冈原大辅 (左) 和西川彻 (Toru Nishikawa) 确信,他们应该把整个业务建立在深度学习的基础上。

如今,PFN 将图像识别技术用于制造过程中的视觉检测、仓库货架上的取物、机器故障预测,还扩展到了自动驾驶、生物医疗、智慧城市,公共安全等领域。公司估值超过 10 亿美元,成为日本最大、最有前途的人工智能公司,合作伙伴包括发那科、丰田、三井、松下、瑞惠金融、京都大学等。打开 innovation Japan 网页,第八个创新案例就是他们。

巨头们也开始攻城略地。

谷歌的 14 个机器人手臂可以分享知识并加快行动速度,他们也希望进入日本市场。亚马逊微软、英伟达也虎视眈眈。

借用深度学习技术让机器人操作更加简单,也正在成为一个创业热点。一份对机器人报告网站全球数据库中 752 家机器人创业公司的分析显示,超过一半的创业公司都是以软件起家。

不过,他们担心的不是竞争对手,而是人才的引进与留存。

他们相信,与世界顶级机器人公司和其他制造商的密切关系,可以帮助他们深入了解客户的实际需求和所面临的挑战。

「与再造索尼相比,建立第二家索尼的速度更快。」两年前,接受《金融时报》采访的公司首席商务官(chief business officer)长谷川在谈及为何离开索尼加入这家创业公司时,曾这样说。

最近,PFN 首席研究官、研发 VP Shohei Hido 接受了机器之心的独家专访。以下是这次专访的主要内容。我们做了不更改原意的编辑。

这家日本顶尖AI创业公司,迈向“日本三强”产业链顶端Preffered Network 首席研究官、研发 VP Shohei Hido

与发那科合作

发那科在世界制造业的地位,一句话就可以表明,「如果富士山喷发,整个世界都会停止运转。」公司有三大块业务:FA(工厂自动化);Robot 以及 Robo-Machine(小型数控机床)。2015 年 8 月,发那科获得 PFN6% 的股权,计划将运行深度学习的机器人纳入不久的未来。2017 年 12 月,发那科再获得 PFN 额外股权。目前,PNF 已经将 DL 应用到发那科三大块业务中,并取得了优于传统方法的效果,已商用。比如在 FA 中,将机器学习用于伺服器调整;在 Robot 中,将 DL 模型用于提升机器人抓取任务的学习效率与准确性;在 Robo-machine 中,利用机器学习技术预测和补偿由温度波动引起的热位移,与现有功能相比,加工精度提高了约 40%。在谈及与发那科合作面临的主要挑战时,PFN 认为专业背景差异导致相互理解很难。计算机科学背景的码农没办法理解机械或控制理论术语。相应地,机器人工程师也没办法理解机器学习术语。为此,两家公司会定期面对面和视频会议,FANUC 也一视同仁地将 PFN 纳入公司的强制性培训课程。

机器之心深度学习应用场景有很多,比如金融、零售,为什么最终选择制造业?

日本有大型银行、零售商和电子设备制造商,但大多比较保守,我们没有找到足够大的 AI 应用市场,也没有很好的成功机会。和发那科 CEO 稻叶善治交谈后,我们发现在机器人应用方面有很大潜力,他们也在寻找人工智能方面的合作伙伴。他们认为,将自己产品与市场上其他机器人产品(比如 ABB)区别开来的关键差异化因素,接下来会是基于 AI 技术的软件。

机器之心:彭博社报道你们谈了一个小时就成功说服发那科投资 900 万美金,还获得了数千台机器人的巨大数据流,怎么做到的?

我们是日本最有前途的创业公司。其实在会面之前,发那科就做了一些调查,也知道有我们这样一家公司,见面也是为了确认一下真假。在会面的当天早上(会面之前),稻叶先生已经知道 Tensorflow 发布的消息。这是一个很好的信号,他们很了解最新技术趋势。当然,我们的 CEO 也很善于谈判。

机器之心:发那科的 AI 战略是怎么样的?

一开始,也就是四到五年前,他们对 AI 并不如今天这样积极。当我们展示了一些应用成果后,比如机器人一夜之间就学会了 bin picking,了解到深度学习应用到机器人和其他机器上的机会,现在变得积极多了。一开始,我们只是和机器人业务合作,取得了一些进展后,也与其他业务板块(Robo-machine 和 FA) 合作。

合作后,发那科也成立了自己的人工智能实验室,研究人工智能技术。现在已经可以将新技术应用到程序中去,而不是完全依赖我们。在人工智能战略方面,发那科是领先市场竞争对手的。

机器之心:Bin picking 是机器人应用中最需要解决的问题之一,在深度学习的帮助下,发那科机器人抓取能力得到了哪些具体提升?

在这段最初的概念验证实验视频结尾处可以看到,抓取精度在 8 小时内就可以达到专家水平,这意味着如果花更多时间,它可以超过人类。

这家日本顶尖AI创业公司,迈向“日本三强”产业链顶端来自公司 Youtube 视频截图

机器之心:去年发那科推出了新功能 AI bin picking 是否采用了深度强化学习技术?

一开始,我们使用的有监督学习,而不是深度强化学习。因为强化学习很难控制获得很好的结果,用监督学习的方法解决问题更好一些。对于 bin picking 机器人来说,我们通过使用真实的机器人收集了监督学习训练数据集,不同情况下,很多时候会失败,偶尔也有成功,我们搜集有关拾取点的图像,进行监督学习,训练神经网络预测下一次抓取哪个点更容易成功。

机器之心:你们也正尝试将深度强化学习用到诸如 bulk Bin Picking 等更加广阔场景中,有商用案例吗?

目前还没有。

机器之心:这种技术落地最大的难点是什么?

深度强化学习很有前景,但是,很难控制获得好的结果,训练样本也不够,这个训练方法需要大量的数据样本训练模型。所以,就目前来说,深度强化学习的方法比监督学习的办法难很多。如果你有好的机器人模拟器,就能在虚拟环境中训练好的模型,如果没有合适的机器人模拟器,就很难通过使用深度强化学习训练好模型,因为你在真实世界的环境中并没有那样的 machine(机器)。模拟器是个关键因素。

机器之心:2018 年亚马逊机器人挑战赛(Amazon Picking Challenge)取消,有人认为这表明自主学习机器人发展远远低于预期,你们怎么看?

深度学习在解决感知问题上很发达,计算机可以看见世界。但是,对于机器人来说,抓取(grasp) 仍然很难,即便你使用 CV 和最先进抓取技术,仍然很难做好控制、优化(optimize),我认为这是当前机器人抓取任务最难的地方。

但是,我认为亚马逊去年取消挑战赛的原因,并非你说的那个。三年前,我们也参加过这个比赛。我们相信,亚马逊之所以这么做是因为最先进的深度学习对机器人技术的改变,并非一两年内的事情,所以没必要一年举办一次。

机器之心深度学习在工业上的一个重要应用就是预测机械故障,尽可能早地检测传感器数据中的异常。现在许多工业机器已经变得可靠,以至于我们无法获得很多正 (即异常) 数据的样本,大大降低了预测准确性。你如何处理这个问题?

我们有一个针对时间序列传感器数据的异常检测算法(anomaly detection algorithm),可以训练出处理任何正常情况数据的检测模型,对目标系统正常状态下数据 normalness 建模,然后根据测试数据与正常状态差异程度,估计测试数据的异常值。如果一个新的输入数据在统计上是非常不可能的,我们确定输入数据是一个异常,标志着机器可能的未来故障。这个方法对工业机器人的故障预测非常有效,可以将监测到故障的发生时间,从几分钟前提升到几周前。

不过,我们仍然需要收集一些阳性异常样本来评估检测模型的正确性。与发那科合作进行第一次异常检测研究时,在一个加速实验中,为了收集阳性样本,他们让机器连续运转了几个月。

机器之心:一些跑在英伟达芯片上的经典深度学习模型(比如 alexnet VGG, googlenet),运行速度仍然满足不了工业案例对实时性的高要求,你们在这方面有些什么探索?

就吞吐量来说(主要就训练而言),并行使用更多 GPU 是一个解决办法。不过,我不能透露更多,考虑到更多现有客户案例情况。就模型推论的延迟来说,我们尝试加速 NN 模型,既会调整网络结构,也会调整系统(system)方面。我们研发了 Chainer-TensorRT 库,这个工具包可以用来将 Chainer 模型转化为 NVIDIA‘s TensorRT 推论引擎,进而可以在 GPU 上进行更快的推论。(1)另外,我们还研究了在英特尔 CPU 上快速运行 ONNX 模型,可以使用许多编程语言 (C/C#/Node..)(2)

机器之心:仿真环境与现实环境之间的现实差距也是个头疼的问题,你们尝试了怎样的解决方案?

我们在 2016 年日本高新技术博览会上展示了一个控制无人机的 demo,用的是一种叫「spiral learning」的 sim-to-real(从仿真到现实环境的迁移)技术。我们先在模拟器训练飞行模型,至少要先让无人机飞起来,接下来在真实环境中校准,不断弥合模拟和真实世界的鸿沟。这是个不断迭代的过程,直到模型收敛到一个好的策略。另外,我们是通过控制无人机击中虚拟旗帜来训练模型。无人机经不起撞击,掉在地上或者撞墙了,很容易就坏掉了。有了这个办法,我们可以用更少的无人机来测试。

机器之心:目前与丰田的自动驾驶合作进展如何?

自动驾驶研发合作项目还在进行,不过不方便透露这方面的进展情况。

机器之心:2019 年,深度学习在制造业和机器人领域的应用,你们认为值得关注的趋势有哪些?

很多事情,这个领域一直在变化。不过,听说亚马逊今年某些时候会推出(make) 自己的家用机器人,细节不是很清楚,但我们必须关注这个趋势。

家用机器人:深度学习技术的融合

我们已经习惯了用唤醒词唤醒智能音箱,然后简单地命令它执行一些简单的任务;我们已经习惯按下按钮,让扫地机器人自己工作。但是,你有没有想过用自然语言直接命令机器人执行一些简单的任务?这正是 PFN 2018ICRA 人机交互最佳论文的主要成果——他们提出了首个可处理无约束口语(Unconstrained Spoken Language)的系统,并能有效解决口语指令中的歧义。而且,他们创造性地将现有的边界框预测方法与自然语言处理技术融合在了一个简单框架中,机器人可以根据用户指令,拾取、归位房间物品,且运行速度和精度已经达到了实用水平,公司已经有明确的商业化打算。不难看出,除了与与制造业巨头合作,这家公司正在探索当前主要商业模式之外的可能,将触角伸向更为广阔的 C 端消费者市场,探索自己的商业模式。

这家日本顶尖AI创业公司,迈向“日本三强”产业链顶端来自 Youtube 视频

机器之心:你们在 2018 年日本高新技术博览会上展示了一款整理(tidy) 家用机器人。家庭环境与工厂环境有很大不同,不仅更复杂,很多物品也不像工件那样易于抓取,你们做了哪些突破?

我们不仅使用了最先进的深度学习技术(CV 和 NLP),而且还将这些最先进的技术做了融合,让机器人变得实用。你可以通过自由表达的方式告诉系统需要收拾的玩具的具体位置,对话可以帮助系统提升完成任务的成功率。家庭环境很复杂,会出现各种各样的物品,我们相信深度学习可以解决感知方面的问题,但是让机器人成功抓取所有这些东西,还是很难。我们也在开展相关研究课题,比如针对末端执行器。不过,整理机器人不会很快上市。

这家日本顶尖AI创业公司,迈向“日本三强”产业链顶端

机器之心:什么是无约束的口语指令?如何解决口语指令的模糊性问题?

这是我们在 ICRA 2018 会议上发表的研究成果。和传统的口语指令不同,无约束意味着,不需要担心如何发出命令,直接对机器人发出命令就可以了,比如 play music。一般的口语指令是有固定语法的,就像 Alexa 那样,需要念出「Alexa」唤醒词,再对 Alex 发出命令。为了解决传统口语指令系统不利于自由表达的问题,我们使用了基于神经网络模型的系统,它可以理解每个表达或命令的具体意思。

不过,难点在于需要搜集大量数据来训练模型,针对每一个物品、每个命令搜集很多相关表达数据,让机器可以理解。我们用众包的方式,搜集了足够大的口语指令数据集,因此训练数据集的多样性也更高,训练后的文本识别模型具有足够的泛化能力,可以识别一般的口语表达。

机器之心:融合这些不同深度学习技术最大的难点是什么?

非常依赖可用的计算资源。比如,针对新问题和既有模型引入一个新 trick 时,仅用一套固定参数训练模型判断这个 trick 是否有效,通常一开始就会降低准确性。相反,你要再次调优所有参数,判断这个 trick 是不是真的见效。追求高效的深度学习研发工作,实验数量和速度非常重要。因此,在训练模型时,我们使用了自己的分布式深度学习框架,和专门的英伟达 GPU 集群(1500 多个),这也是目前这个领域最大的 GPU 集群之一。(3)另外,针对高效的超参调优,我们研发了开源库 Optuna,目前已经在公司广泛应用开来。(4)

机器之心:说到计算资源,你们也在研发自己的芯片,目前进展如何?

做自己的芯片,也是我们 CEO 的梦想。GPU 很有用,我们肯定会在自己的芯片旁继续使用它,但与此同时也需要有所替换,这也是为了解决我们的深度学习训练问题。就每瓦性能来说,我们的芯片性能更优,因为 GPU 是一个通用处理器,针对专门任务,会被专门芯片超越。去年 12 月,我们宣布了要自研芯片,我们计划 2020 年 4 月投入运营装有这个芯片的新型大型计算集群。

机器之心:有商业化整理机器人的计划吗?目前服务机器人商业化都不成功,家庭服务机器人商业化也会面临更多的难题,比如高昂售价就足以让用户望而却步,你们打算如何解决这个问题?

是的,我们确实有商业化的打算。研发、销售都需要大量投入,这些也会推高产品价格,一般的新兴创业公司(new born)很难搞定这些事情。如果未来需要给我们的产品投资,我们已经拥有与机器人有关的业务,比如与发那科在工业机器人方面合作,与丰田的合作,现在也在尝试医疗领域,这是我们独特的优势,也是其他新生的机器人创业公司所不具备的。

机器之心:如何看待 Rethink Robotics 的失败?

他们主要瞄准的是实验室和教研市场,而不是实际应用,比如发那科那样,优傲也很不错,简单、便宜、可以用于实际场景。他们选择的这个市场规模太小了,市场选择的问题。

公司与生态

日本初创公司的普遍成功模式是这样的:利用研究者在大学开发的技术,受到日本政府政策支持,并得到像大和房屋这样的大企业在资金上的支援,最终拿出有竞争力的产品,完成上市。一路走来的 PFN 也带有这样的色彩,不过 PFN 认为,如果公司由他们的投资者控制,那对每个人来说都会变得乏味。

机器之心:作为一家创业公司,你们不仅拥有全栈能力,而且业务多元,涉足制造业、自动驾驶、生物医疗等,每个领域难度都不小,业务之间的跨度也大,这一策略背后的逻辑是什么?如何驾驭业务的多元化?

我们也知道这样的战略很少见。但这些垂直领域的人工智能应用有交叉部分,可以帮助我们的技术规模化。另外,获取不用领域大型公司的资金支持,也有利于公司财务独立。我们不想单纯依赖某一个公司,或某一个消费群体,这是非常有风险的。同时发展许多方向,我们不仅可以更好的管理我们公司的产品组合,也可以帮助我们实现财务独立。

但也像你们说的,同时管理如此多元的业务(manage diverse different product)存在许多困难:不同领域有着不同的商业模式,不同的产品有不同的生命周期,在一个公司内同时运作这些项目,是很难横向对比每个项目的进度,也比较难管理的,这对我们管理团队来说是比较困难的。

你很难用单一的简单 kpi 对所有业务,去衡量各个项目的进度,因为有自己的时间轴和商业模式。如果你用一个简单的单一的数字去评估项目,那么管理团队是很容易评估项目和团队成员的。如果你没有那么简单的 kpi,那么评估项目进度,这时候就需要理解所有的细节,不光光是技术,还需要理解项目的商业模式,以及该产业中的一些商业习惯。

对于管理来说,有很多事情要做。我们的经验是,放弃简单管理的方式,而是管理团队必须学习公司的各个项目,理解每个领域,并且投入到团队中来,参与到用户学习中来。

机器之心:目前公司的主要商业模式是怎样的?有没有考虑向海外扩展业务?

B2B,与丰田、发那科等公司合作是我们目前主要的商业模式。同时,我们也在医疗健康、家用机器人等领域探索我们自己的商业模式。比如,在医疗健康领域,我们已经与在三井(美国)公司合作,我们在伯克利子公司负责这方面的工作。

机器之心:日本经济有着自己的特点,比如长期主导日本经济的是「Japan Inc」(日本传统的,高度集中的经济体系);日本市值最高的十家公司中并没有诸如谷歌、亚马逊、阿里、腾讯这样的互联网巨头,它们如何影响着日本的 AI 创业公司?

我们没有从 VC 那里获得投资,我们引入的都是产业资本。日本市值最高的公司大多都来自制造业,他们往往缺乏软件能力,这些正是我们的机会,不过同时也面临着国外巨头的竞争,比如谷歌云、亚马逊云,英伟达等公司提供的解决方案。

现在,如果你有十来个人,有一个 AI 项目,很容易就能获得几百万美元投资,情况比过去好多了。像中、美一样,日本的风投对 AI 创业公司也很感兴趣,2017 年是一个高峰,但这之后他们关注区块链比特币更多。

产业芯片创业公司日本投资
5
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

比特币技术

比特币是一种用去中心化、全球通用、不需第三方机构或个人,基于区块链作为支付技术的电子加密货币。比特币由中本聪于2009年1月3日,基于无国界的对等网络,用共识主动性开源软件发明创立。比特币也是目前知名度与市场总值最高的加密货币。 任何人皆可参与比特币活动,可以通过称为挖矿的电脑运算来发行。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

控制理论技术

控制理论是工程学与数学的跨领域分支,主要处理在有输入信号的动力系统的行为。系统的外部输入称为“参考值”,系统中的一个或多个变数需随着参考值变化,控制器处理系统的输入,使系统输出得到预期的效果。 控制理论一般的目的是借由控制器的动作让系统稳定,也就是系统维持在设定值,而且不会在设定值附近晃动。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

工业机器人技术

工业机器人是面向工业加工制造的可自动控制,多用途,需有三轴及以上可编程的固定或可移动机械手。其系统中包括带有执行机构的机械手以及示教控制器。 它可以依靠自身控制能力来执行预设的轨迹及动作。典型应用包括焊接,刷漆,组装,采集和放置等工作。工业机器人完成工作具有高效性,持久性和准确性。目前常用的工业机器人包括关节机器人,SCARA机器人,并联机器人和直角坐标机器人等。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
暂无评论
暂无评论~