Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

碳硅智慧 CEO 邓亚峰:用 AI 解开生命的密码

离开 360 集团创办碳硅智慧,是因为邓亚峰相信,创新药研发的范式,将从专家+实验驱动,变为智能计算+自动化实验+专家驱动,在未来十年甚至更久远的时间里,AI 和计算将成为整个生命科学领域发展的核心驱动力。在这里他将更好地挑战自我并创造价值。

21 世纪是生命科学的世纪。

要是你认识本科学生物的人,尤其是在本世纪之交那几年参加高考的,他们会告诉你这句话有多么讽刺。与同期学计算机或通信的人相比,无论是搞科研还是找工作,别问,问就是没前(钱)途。

但情况正在发生改变。

碳硅智慧创始人兼 CEO 邓亚峰告诉机器之心,生命科学正处在新一轮爆发的前期,人工智能技术与这个领域开始深度融合,展现出巨大的可能,对于一直渴望成就一番事业的他来说,眼下正是最好的时机。

两个月前,邓亚峰结束了他在 360 作为集团副总裁、人工智能研究院院长兼搜索事业部总经理的任职,为期不到三年,网络上关于他的搜索结果还有不少停留在格灵深瞳 CTO 时期,而邓亚峰自己则似乎更乐意从 2013 年加入百度 IDL(注:百度深度学习研究院,现百度研究院的前身)说起,强调他是最早一批投身深度学习的人。

从求学清华入门计算机视觉,到加入百度 IDL 再到格灵深瞳力挽狂澜,邓亚峰凭借着对人工智能尤其是深度学习的强大信念,在不断挑战自我的同时,敏锐地把握住了每一次技术和行业的发展,让自己站得更高,想得更远。如今吸引着他并且他也深信不疑的,是不远的前方一个由 AI 驱动的生命科学时代。

图片

第十一届国际图象图形学学术会议(ICIG 2021),邓亚峰代表 360 集团发表报告

药物发现即将迎来范式的转变,邓亚峰相信,AI 和计算将成为新的核心驱动力,在这种技术的代际更替进程中,新势力完全有可能与行业巨擘并驾齐驱,共同推动领域发展。

碳硅智慧将作为 AI 基础设施和服务提供商,提供针对新药发现的一站式全流程设计平台及相关服务。「我们希望与合作伙伴一起探索 AI 赋能新药发现的边界,共享新药发现新范式,期待在人工智能、物理计算和自动化技术的驱动下,新药发现领域取得十倍速的效率提升。」

预判、选择与时机

回望职业生涯 20 年,几段经历,邓亚峰每一步都踩在了对的点上。

2002 年考入清华电子工程系读研究生,并凭兴趣选择了模式识别方向,尚不知晓十多年后这个方向会热得发烫。在 2012 年以前,大家都是用传统的机器学习技术解决领域问题,当时的他,总感觉前面有堵看不见的墙。邓亚峰回忆说,那时候团队经过一年的努力,大概能让识别率提升 3~5 个百分点,而且是在 70% 的水平上,距离落地仍有很大的距离。「你会发现努力一年,依然看不到真正落地的希望。」

2012 年,深度学习算法在学术界展露了实力。但那时并非所有人都看好深度学习,这不难理解,试想现在有人告诉你科学家在小鼠——不,在与人类亲缘关系最近的倭黑猩猩身上发现了某种基因,可以延缓衰老,你会依此对即将到来的人类抗衰老药物抱有多大期待?

邓亚峰调研后认为,深度学习拥有巨大的潜力,于是毅然加入当时刚成立的百度 IDL,国内最早专注于研究深度学习并将其定位为核心技术创新的机构,那时候的院长还是余凯——没错,地平线的那个余凯。在百度 IDL 的三年里,邓亚峰参与提出了第一个基于深度学习的端到端的一阶段物体检测框架 DenseBox,和团队一起将那时候的「学术界人脸识别世界杯」——LFW 评测的准确率做到了第一,成绩是接近极限的 99.77%,随着图像分类语义分割人脸识别、物体检测……很多以前觉得不太可能的任务被逐渐突破,他也度过了一段快乐而充实的技术时光。那时候刷榜很容易,但落地却有些难。

2016 年 8 月,邓亚峰加入格灵深瞳。这家 2013 年成立的公司今年 3 月在上海科创板作为第一家 AI 公司挂牌上市,但彼时正因前期战略性的误判在市场表现上陷入低谷。邓亚峰加入后主要做了两件事,完善技术团队的组织架构,以及建立技术体系框架并攻坚深度学习技术。例如,为算法团队建立数据智能和数据标注等支撑团队,启动深瞳大脑项目,让数据的获取、标注和管理,以及模型的训练与部署自动化;成立基础引擎团队,优化人工智能算法在各种分布式异构平台上的性能、部署和调度,更好地连通应用和算法;对软件团队做了垂直领域划分,使得各团队能更专注于智慧安防、智慧银行、智慧零售等业务。

经过调整以及团队的努力,格灵深瞳的技术和产品有了显著的提升。邓亚峰本人也实现了从 CV 技术专家到技术管理者的蜕变,作为 CTO 带领团队将包括人脸识别、车辆结构化以及人体再识别等核心算法,后来居上做到行业一流水平,不仅仅赢得了客户,也赢得了生态合作伙伴华为英特尔的尊敬。特别是在 2019 年,格灵深瞳在「工业界人脸识别世界杯」——美国标准化局举办的 FRVT 竞赛中,取得了四项任务综合成绩排名世界第一的殊荣。而这背后,整个团队的研发投入,特别是研发团队人数,仅是行业头部公司的十分之一。

2020 年 4 月,邓亚峰加入 360 集团,一手接过颜水成离开后的 360 人工智能研究院,另一手担起 360 搜索事业部的大梁。选择加入 360 集团的原因与加入格灵深瞳一样,邓亚峰坦言,都是为了更好地提升自己,都是最需要他同时也是他最能有所施展的平台。

此时的邓亚峰管理着 400 人左右的团队,一方面带领人工智能研究院在支撑公司内部业务AI 需求的同时进行 AI 前沿探索,另一方面管理着搜索事业部,保障集团最重要的业绩来源。360 有着非常广阔的 AI 落地场景,从互联网软件到智能硬件,有海量用户和数据,近期大热的多模态预训练大模型,在 360 有最好的应用场景。他和团队一起,提出一种新的中文图文跨模态预训练框架 R2D2 ,结合双塔模型和单塔模型的优点,在 8 个评测数据集上都取得了最好成绩,且显著超越之前最好成绩。这些模型与 2000 多万优质训练测试数据一起都已经开源,为中文大模型的研究及社区发展贡献了一点力量。此外,在知识图谱的权威竞赛 OGB-WIKI 上,他的团队曾两次登顶。

在 360 的这几年,邓亚峰从计算机视觉领域成功拓展到了自然语言理解、机器人等领域,深度学习技术的发展,让他越来越意识到 AI 的底层技术方法及在各个领域的演进是相通的。同时,在软硬件协同及 SaaS 服务方面的经验,以及在产业数字化等方向的探索和思考,进一步历练了他业务规划和判断能力,也让他习惯站在行业的高度洞悉技术趋势和市场动向。这个时间点,他已经由一个技术管理者蜕变为一个创新业务负责人。

在外人看来,在 360,他一方面负责AI 研究院,一方面负责搜索,既管最前沿的创新部门,又管非常核心的业务部门,一切都很完美。

然而,他心底总觉得缺了一点什么。
我希望自己能做一件更有成就感,而且能对我个人的成长更有价值的一件事情。如果最初选择留在百度,我可以不断提升技术,不断晋升,原来我所带领团队的小伙伴已经升到 T9、T10 了。做了 20 年人工智能,我一直在追求把 AI 技术大规模落地,而且希望真正能给大家的生活带来价值和改变。

此外,我内心也一直期待自己能创立一家我认同的公司,一个能发挥出每个人潜质和优势,而且真正为社会创造价值的一个平台。

发现 AI for Science 新机遇

做过智慧城市、智慧商业、智慧银行这些计算机视觉相关的软硬件产品,又做过互联网、移动互联网的搜索、移动应用、视频推荐等产品,从商业角度看,邓亚峰发现这个时间点新机会相对来说比较少。更重要的,对他个人来讲,「价值感上会感觉没有特别强」。

比较偶然的机会接触到生命科学,尤其是新药发现这个领域后,邓亚峰说他天然地被吸引,觉得非常有兴趣,这是一个提起来就非常有使命感的行业。看好 AI 赋能药物研发有很多原因,最核心的还是他认为药物研发领域迎来了研发范式变革的机会点,在这样的机会点躬身入局,对他而言是非常顺理成章的事情。

邓亚峰相信,创新药研发的范式,将从专家+实验驱动的模式,变革为 AI 计算+自动化实验+专家驱动的模式,在未来十年甚至更久的时间里,AI 计算将成为生命科学领域发展的核心驱动力。作为 AI 从业者,最让人激动的当然是找到一个对社会非常有价值,且以 AI 为核心驱动力的行业。

药物研发当然需要领域知识,不仅仅涉及到药学,还包括物理、化学、生物、医学等,这绝对是一个非常跨学科的交叉领域,邓亚峰总结说。但是,当运用领域知识把一些问题抽象之后,会发现和其他领域遇到的人工智能任务并没有本质不同。

与其他领域不同的是,这个领域的 AI 技术能力还处于较为初级的阶段,还没有被解决,这背后的原因,一方面是因为药物研发领域的问题有独特挑战,另外一方面是因为太少真正具有 AI 建模能力的人进入这个领域。从最早期就亲身经历了深度学习技术的兴起,并见证了深度学习计算机视觉自然语言理解领域的颠覆式发展之后,邓亚峰对人工智能于生命科学的改变坚信不已。

邓亚峰回忆道「这只是时间问题。2013 年时,除了亲身见证的人外,很少有人相信深度学习,甚至包括一些行业大佬,人总是见到才会相信。」

对于药物研发而言,确实需要有领域知识,除了计算之外,也包括非常多的复杂环节。但过去药物研发领域失败率高的重要原因,是人类专家难以完全掌握药物研发过程中的所有知识,也难以完全消化利用所有的试验数据,使得药物研发充满了偶然性。而人工智能,有望理解和建模药物研发领域的所有数据,融入人类知识,并与专家人机协作,显著提高药物研发的确定性。这里面涉及到的大量模型,就如同量化交易领域一样,最终会被既懂领域知识,更懂建模的团队解决。

碳硅智慧的另一位创始人兼首席科学家是浙江大学药学院的侯廷军教授,拥有 20 多年药物设计方法学和应用研究经验。这是一只拥有 20 年以上经验的药学专家和人工智能专家领衔的团队,他们希望将最先进的生命科学技术与人工智能等信息科学技术深度融合,利用人工智能、物理计算,以及软硬件自动化技术,三轮驱动,通过提高新药研发领域生产数据、管理数据以及对数据进行 AI 建模的能力,将新药研发的各个环节数字化和智能化,形成干湿试验数据闭环,解决新药研发难题。这个团队过去在深度学习、多模态预训练、知识图谱、软硬件自动化、高性能计算、物理计算、计算化学和药学上的经验,将会让他们区别于其他团队,为行业带来不同价值。

碳硅智慧目前已建立了业内领先且完全拥有自主知识产权的一站式新药发现平台 DrugFlow,包括靶标发现、虚拟筛选、先导化合物优化、成药性预测等模块,可以帮助药化专家更高效、便捷地找到潜在成药分子。

图片
碳硅智慧为创新药研发量身定做,涵盖药物发现全流程的一站式 SaaS 平台 DrugFlow

从市场的角度,中国的制药行业与国外相比差距悬殊,新的政策导向下 Me-too 药和仿制药发展受限,药企和生物制药公司有更强的诉求去做差异化和创新药物研发。

邓亚峰强调说,作为新药研发领域的 AI 基础设施和服务提供商,碳硅智慧的战略目标是与药厂和生物医药公司合作,而非竞争。「相对传统的CRO 模式,我们会在提供软硬件基础设施之上,与战略合作伙伴一起针对重点管线进行合作研发,提供包括新靶点发现、成药分子发现及优化等服务。我们也希望用更开放的姿态,与行业伙伴一起推动生命科学领域人工智能技术的发展。」

范式改变的力量

1944 年,物理学家薛定谔出版了生物学著作《生命是什么?》(What Is Life? The Physical Aspect of the Living Cell),从物理学家的视角探讨生物学问题。尽管当时的物理和化学无法回答「生命是什么」这个问题,但薛定谔指出,这种无法回答是经过充分论证的,正是说明了需要用新的科学理论和科学工具去解释生物系统。

如今,一个类似的机遇摆在我们面前。生命或许本质上是一种信息系统,从计算的角度能够被更好地理解。如果说数学是科学的语言,那么 AI 则最适合用来描述生命。

药物发现需要领域知识,但 AI 人在这里拥有得天独厚的优势。在药物发现领域,人工智能的力量还没有真正发挥出来,想想过去几年计算机视觉自然语言理解、自动驾驶等领域的巨变,一切都不过才刚要开始。

邓亚峰说:「新药研发领域踏实做人工智能的团队其实非常少,真正懂药又懂 AI 的团队屈指可数。我们团队希望能够通过自己的努力,与整个行业生态一起,把中国新药研发的能力向前推进一大步。也期待更多志同道合的朋友加入这个领域,无论从产业角度还是技术角度,这里都是一片全新的蓝海。」

产业AI for Science
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
地平线机构

地平线具有领先的人工智能算法和芯片设计能力,通过软硬结合,设计开发高性能、低成本、低功耗的边缘人工智能芯片及解决方案,开放赋能合作伙伴。面向智能驾驶和AIoT,地平线可提供超高性价比的边缘AI芯片、极致的功耗效率、开放的工具链、丰富的算法模型样例和全面的赋能服务。

horizon.ai
颜水成人物

颜水成,新加坡国立大学副教授、360集团副总裁、人工智能研究院院长、第十三批国家 "千人计划"专家。颜水成的主要研究领域包括计算机视觉、深度学习、信息检索应用与多媒体分析。他带领的团队曾提出的“Network in Network” ,对深度学习产生了很大的推动力,同时他的团队开发的”Purine”是全球第一个开源的支持多机多GPU的深度学习系统。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

自动化技术技术

自动化技术是一门综合性技术,它和控制论、信息论、系统工程、计算机技术、电子学、液压气压技术、自动控制等都有着十分密切的关系,而其中又以“控制理论”和“计算机技术”对自动化技术的影响最大。一些过程已经被完全自动化。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~