Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

每人10万元,这13位青年人才获得2023年度字节跳动奖学金

一年一度,字节跳动奖学金计划「开奖」了。

2023 年 5 月,第三届「字节跳动奖学金计划」正式发起,吸引了来自数十所高校、数百位国内优秀青年学子的报名申请。经过专家团队的初审、复审、终审等层层考核,共有 13 位同学凭借着卓越的学术成果和优异的个人实践,每人荣获 10 万奖学金。

今年的获奖者来自北京大学复旦大学清华大学、上海交通大学、香港科技大学、浙江大学、中国科学技术大学(按学校拼音首字母排序)这 7 所国内高校,研究领域涉及机器学习、生成式模型、自然语言处理、智能媒体数据生成与编码等当前热门技术领域。

他们之中,有人是国际顶会的杰出论文获得者、高被引作者,有人是国产开源深度学习框架核心参与者、对话式大模型产品研发主导者,也有人是生成式 AI、AI4science 等前沿课题的早期探索者。

图片

                                  10月24日,2023 字节跳动奖学金颁奖典礼暨学术交流会活动在北京线下举行。

完整名单如下:

  • 常建慧 (北京大学
  • 董天 (上海交通大学)
  • 国孟昊 (清华大学
  • 黄融杰 (浙江大学)
  • 孔祥哲 (清华大学
  • 李云飞 (清华大学
  • 路橙 (清华大学
  • 孙天祥 (复旦大学
  • 汪子龙 (香港科技大学)
  • 袁牧 (中国科学技术大学)
  • 张博航(北京大学
  • 张心怡(北京大学
  • 朱琪豪(北京大学
*(按姓名首字母拼音排序,不分先后)

接下来,让我们看看本年度奖学金获得者都有哪些特别的经历和成果。

2023 年度获奖名单

常建慧

图片

北京大学 视频与视觉技术国家工程研究中心
研究领域:智能媒体数据生成与编码
导师:高文、马思伟

常建慧目前是北京大学计算机学院在读博士,曾获北京大学优秀科研奖、三好学生、计算机学院斯伦贝谢奖学金等荣誉。

常建慧在图像视频编码领域的权威会议及期刊发表了学术论文 10 余篇,其中一作 5 篇,包括 T-IP、IJCV、ACMMM 等 CCF-A 类期刊会议,申请三项专利并全部授权,并担任期刊 IEEE T-C、T-IP、T-CSVT、ACL 等多个国际期刊与会议的审稿人。

针对主流的混合编码框架与全神经网络编码在极低码率遭遇编码瓶颈,主观重构质量差的问题,常建慧首次提出了一种结构 - 纹理分层的新型概念压缩框架,将视觉数据编码为紧凑的空间相关稀疏结构表示和空间无关纹理特征表示,并以深度合成方式解码。目前已经能够实现了超过千倍的极限压缩比,在相同主观质量下相比最新编码标准 VVC 能够实现 30% 至 59% 的码率节省。常建慧提出的编码方案已扩展至人脸及人体视频编码、三维数字人生成式压缩相关研究中,研究成果在 IJCV、TIP 等国际期刊会议上发表,并有三项专利获得授权。

董天

图片

上海交通大学 网络安全与隐私保护实验室
研究领域:计算机安全、人工智能安全
导师:朱浩瑾

董天现为上海交通大学计算机系博士在读,主要围绕人工智能领域里的安全、隐私与可信治理三方面开展研究。

安全方面,董天参与研究并提出了语言模型的隐匿后门攻击,为进一步构建安全语言模型服务打下基础,发表于安全四大顶会之一 CCS 2021 上,获得最佳论文提名奖(Best Paper Award Runner-up)。此外,董天首次揭示了一种针对边缘计算中动态深度神经网络的隐蔽后门威胁,为边缘计算人工智能安全防护提供了新的视角,发表于网络顶会 INFOCOM 2023。

隐私方面,基于模型落地实际需求,董天发现数据集浓缩技术可以带来额外的隐私保障,为隐私边缘智能计算提供了新型解决方案,相关成果发表于机器学习顶会 ICML 2022 上,并获得了杰出论文奖。

治理方面,针对云端模型确权过程中身份难确定的问题,董天提出了一种基于参数碰撞概率分析的数据集与模型身份注册与审计框架,同时允许可信第三方对问题模型进行确权,可用于模型与数据集版权保护等场景,助力了负责任的人工智能生态发展,相关成果发表于国际安全顶会 NDSS 2023。

国孟昊

图片

清华大学 计算机系可视媒体研究中心
研究领域:计算机视觉计算机图形学、基础模型
导师:胡事民

国孟昊目前是清华大学计算机系四年级博士生,在 IEEE TPAMI,ACM TOG,CVPR,NeurIPS,CVMJ 等多个国际期刊和会议上发表多篇论文,主要成果包括大核注意力机制(Large kernel attention),外部注意力机制(External attention)以及点云注意力机制(PCT)等。

他曾获 CVMJ 2022 最佳论文奖,3 篇论文入选 ESI 高被引论文,2 篇论文入选热点论文,谷歌学术引用超过 2400 次,并担任 IEEE TPAMI、IJCV、IEEE TIP、CVPR、 ICCV、NeurIPS、ICLR 等多个国际期刊和会议的审稿人。

除此之外,国孟昊还积极参与开源社区的建设,不仅将自己的论文成果开源,还以核心成员的身份参与了中国高校第一个开源深度学习框架计图(Jittor)的研发工作。目前,他参与的所有开源项目累积已超 7000 个 stars。

黄融杰图片
浙江大学 数字媒体与计算 (DCD) 实验室
研究领域:语音音乐生成模型,多模态语言处理
导师:赵洲

黄融杰目前是浙江大学数字媒体与计算 (DCD) 实验室在读硕士生,研究方向为语音音乐生成模型、多模态语言处理等。

黄融杰参与的 NATSpeech、TransFace、Make-An-Audio 等系列工作解决了非自回归生成、多模态语音翻译、开放域和多任务生成的难题。近年来,他在 NeurIPS/ICML/ICLR/ACL 等 A 类会议发表了十余篇文章,引用量超过 500,Github 星标 10k+。他长期担任 NeurIPS/ICML/ICLR/ACL 等顶会审稿人,2022 年 ICML 杰出审稿人。

在非自回归 NATSpeech 系列中,高泛化性 GenerSpeech 实现了对未见语者、情感、韵律的可泛化零样本迁移与高质量无监督风格建模,解决了高质量、可控性、可泛化的跨模态序列映射问题;

在多模态同传的 TransFace 系列研究中,TranSpeech 建立非自回归 S2ST 模型,应对了非自回归翻译中的语言学多峰性挑战。音视频 TranSpeech 则用视觉信息补充音频流,以提高系统的鲁棒性,开辟了口述、为档案电影配音的应用前景;

在开放域多任务系列中,文本到音频的生成系统 Make-An-Audio 可将任意模态(例如文本、音频、图像、视频等)作为输入,输出开放域符合描述的音频音效;多任务生成模型 AudioGPT 以 ChatGPT 充当负责对话与控制的大脑,语音基础模型协同以完成跨模态转换、以及音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成,能够完成超过 20 种多任务、多语言、多模态语言语音任务。

孔祥哲 

图片

清华大学 自然语言处理与社会人文计算实验室
研究领域:几何图学习,分子表征学习,分子生成,抗体设计
导师:刘洋

孔祥哲是清华大学计算机科学与技术系博士生,目前主要的研究方向为 AI4science,包含几何图学习、分子表征学习、分子生成、抗体设计等,在多个国际顶级会议(NeurIPS、ICLR 和 ICML 等)上发表过高水平论文,其中《Conditional Antibody Design as 3D Equivariant Graph Translation》获 ICLR 2023 杰出论文奖提名。

孔祥哲的研究对象大多是生物、化学等科学领域中三维空间的微观粒子(原子、分子等),在这类微观数据结构上开发符合物理世界对称性(例如 E (3) 空间等变性)的深度学习模型,是他非常重要的研究方向。

在模型本身之外,孔祥哲致力于通过 AI4science 产生新的落地成果。例如,他认为 AI 的参与有望为药物研发带来新的范式,从而提升药物研发的效率和速度。同时,他也希望生成式 AI 强大的空间探索能力最终可以实现传统药物研发过程难以完成的困难靶点药物发现(例如癌症、HIV 等疾病相关靶点以及跨膜靶点),在落地中寻找有价值的科研问题,在科研中推动落地的进程,连通科研和落地的闭环。

李云飞 

图片

清华大学 交叉信息研究院
研究领域:强化学习,机器人
导师:吴翼

李云飞是清华大学交叉信息研究院博士生,主要研究内容是如何让机器人具有像人一样自主解决复杂任务的能力,从而更好地适应灵活多变的人类日常生活,从实验室和工厂来到现实生活。

在上述方向,李云飞提出了两条研究路径,一条是增强机器人探索到复杂策略的能力,另一条是复用机器人已有能力去解决新任务,以达到持续创新能力。截至目前,李云飞已在 ICLR, ICML, IROS, ICRA 等机器学习、机器人领域顶级会议上发表相关研究成果近 10 篇。

在积累学术研究经验的同时,李云飞同样有着丰富的工业界实践经验。在与产业界公司的智能机械臂项目合作中,她可以在没有图纸的情况下探索出利用长短不一的物料搭建稳定的积木桥的策略,并在实机部署;此外她提出的主动简化任务再复用自我策略的强化学习框架是第一个仅依赖二值化奖励信号就能控制机械臂搭出 6 层积木塔的工作。

作为所在实验室最早研究机器人方向的学生,李云飞从头开始搭建了机械臂、足式机器人等软硬件设施,逐渐开发出了双臂 / 人机协同传接物品、开放域自然语言驱动的机械臂操作、四足机器人的双足动作等项目,未来还将继续研究如何让机器人更好地适应人的生活、更自然地与人交互。

路橙 图片
清华大学 统计人工智能与学习组  
研究领域:机器学习、深度生成模型
导师:朱军

路橙现在是清华大学计算机系 TSAIL 组博士五年级学生,他的研究方向包括机器学习、深度生成模型及其在计算机视觉和离线强化学习中的应用,在 ICML/ICLR/NeurIPS 等国际顶会发表了多篇论文。

路橙很早就开始致力于扩散模型的研究,科研成果颇受瞩目,曾以一作身份发表多篇「明星」论文。他提出的无需额外训练的扩散模型加速采样算法 DPM-Solver 和 DPM-Solver++ 是目前扩散模型最主流的采样算法之一。该算法极大地提升了扩散模型的采样效率,仅仅需要 10 到 25 步就可以得到非常高质量的采样,且无需额外训练。

截至目前,DPM-Solver 已经在各大开源社区产生了广泛的影响,在 Github 获得了 1k+ Star,并被扩散模型主流库 Diffusers 支持。该算法是目前 Stable-Diffusion 的官方示例的默认采样算法,在 DreamStudio、StableBoost、Stable-Diffusion-WebUI 等各大 text-to-image 项目中也为公认的加速效果最好的算法。

一直以来,路橙积极探索扩散模型的基础理论和应用场景,在扩散模型的最大似然训练理论、加速采样、可控生成、跨域生成等方面发表了十余篇论文。

孙天祥 图片
复旦大学 自然语言处理实验室
研究领域:自然语言处理
导师:黄萱菁、邱锡鹏

孙天祥现为复旦大学计算机学院博士生,研究方向为自然语言处理,主要关注预训练语言模型的知识增强、高效训练、动态推理、无梯度优化等研究方向。

2022 年初,孙天祥首次公开提出「语言模型即服务」的概念,并开发了面向大规模语言模型的黑箱优化方法,该方向后续被 MIT、UCB、CMU、Google Brain 等高校和科研机构引用和延续。

在最近的大模型浪潮中,孙天祥主导研发了 MOSS 系统,这是国内最早的对话式语言模型之一和最早的多插件增强语言模型之一,在 Github 获得 11K+ Star,在行业内也收获了极高的关注度。

他作为第一作者在 ICML, AAAI, ACL, EMNLP, NAACL, COLING 等国际顶级会议发表论文 10 余篇,据 Google Scholar 统计被引 1900 余次,曾获复旦大学国家奖学金、复旦大学学术之星、WAIC 云帆奖・明日之星等。

汪子龙 

图片

香港科技大学 智能网络与系统实验室 iSING Lab
研究领域:数据中心高性能网络与系统、硬件加速

导师:陈凯

汪子龙目前是香港科技大学计算机科学专业博士生,研究兴趣主要集中在数据中心高性能网络与系统以及硬件加速,专注于通过硬件和软件的方法来优化数据中心网络和云、AI 系统,主要分为高速网络和领域专用加速器两个方面。高速网络方面,汪子龙致力于为各种场景提供高性能的网络服务,包括高吞吐、低延迟,例如为数据中心云设计通用的 RDMA 网络,以及为 AI 集群定制芯片互联技术。针对领域专用加速器,能结合具体应用和系统的特点来做硬件加速优化。

在这些领域的研究中,汪子龙已取得多项重要成果,相关工作发表在 NSDI、SIGCOMM、OSDI 等顶级网络系统会议,如高速网络方面的 SRNIC(NSDI’23,高性能的、可拓展的 RDMA 网卡)、Tiara(NSDI‘22,可拓展的、高效的数据中心网关系统)、Aeolus(SIGCOMM’20,最优化数据中心主动传输协议)以及领域专用加速器方面的 FAERY(OSDI‘22,首个推荐召回加速器)。这些成果不仅在学术界引起了关注,同时也在工业界得到了落地,助力实际业务得到了进一步提升。

袁牧 

图片

中国科学技术大学 LINKE 实验室
研究领域:智能物联网
导师:李向阳

袁牧是中国科学技术大学博士生,研究主要围绕智能物联网场景中的模型推理系统,关注深度学习模型在实际系统中如何提供低延迟、低功耗、高精度的推理服务。

针对视频智能分析系统中长期存在的带宽需求大、处理延迟高、资源占用多等效率低下问题,他研发了一系列模型推理优化技术,相关成果以第一作者论文在 ACM SIGCOMM / ACM MobiCom / IEEE TPAMI 等顶会和顶刊上发表,并作为项目主要学生负责人成功将相关技术落地应用于实际场景。

袁牧以第一作者发表过 CCF-A 类论文六篇,曾作为队长获得全国高校云计算应用创新大赛 1500 余支队伍中的唯一特等奖。

张博航

图片

北京大学 通用人工智能国家重点实验室
研究领域:机器学习
导师:王立威

张博航现在是北京大学五年级博士生,聚焦神经网络表达能力这一机器学习领域基础性问题,并以表达能力为指导来研究鲁棒学习、图学习、大语言模型等领域的核心问题。博士期间,张博航在 NeurIPS、ICLR、ICML 上共发表 9 篇论文,均为(共同)第一作者,并有 3 篇论文入选口头报告。

在今年的国际顶会 ICLR 2023 中,张博航为一作的研究论文《Rethinking the Expressive Power of GNNs via Graph Biconnectivity》获得了会议最高奖项 —— 杰出论文奖,该工作通过双连通性这一新颖的指标重新审视了图神经网络的表达能力,并从理论上证明了距离信息与双连通性之间的密切关系,开创了图神经网络表达能力领域的新研究方向。

目前,张博航还有一项代表性工作已入选 NeurIPS 2023 口头报告,该论文探究了大语言模型中的「思维链提示」(CoT)这一常用技术背后的深层次机理,从理论上指出了 Transformer 模型在数学和推理能力上的本质缺陷以及「思维链提示」对提升相关能力的帮助。

张心怡

图片

北京大学 数据与智能实验室
研究领域:自治数据库系统
导师:崔斌

张心怡现为北京大学计算机学院博士研究生,重点关注了数据库系统智能调优在生产环境中的关键问题,包括数据冷启动、安全隐患和高维优化等方面。已发表 10 篇 CCF-A 类论文,其中 5 篇是数据库领域顶级会议的第一作者论文。

在研究生涯中,张心怡取得了多项突破,包括首个数据库在线调优系统(SIGMOD 2022)、首个多模块数据库调优框架(SIGMOD 2023)、基于元学习的资源优化研究(SIGMOD 2021)。这些工作从不同角度提高了数据库系统的性能和表现。

张心怡同样注重将科研成果应用于实际项目,设计并开发了工业界首个正式上线的数据库智能调参系统。该系统在不同工作负载下实现了 13% 到 50% 的吞吐率提升,为企业和云服务提供商提供了重要的性能优化工具。核心技术成果于 SIGMOD 2021 会议上以第一作者身份发表。

张心怡的工作对自治数据库系统研究做出了积极贡献,并为实际应用场景提供了创新性解决方案。

朱琪豪图片
北京大学 高可信软件技术教育部重点实验室
研究领域:程序自动生成、程序自动修复
导师:熊英飞

朱琪豪现为北京大学计算机科学技术系博士生,他的研究兴趣在于软件工程与深度学习的交叉领域,特别是研究程序编程语言的语言定义与神经网络的融合。

在他看来,编程语言可以被看作一种具有特定语言定义的系统,相比于将其视为一种自然语言,这一概念更能准确、全面地理解代码的结构和语义信息。一直以来,朱琪豪都在努力探索这一核心信息,并基于此推动软件工程和深度学习领域的发展,致力于发掘和利用这一关键信息,以推动软件工程和深度学习领域的发展。

此前,朱琪豪的研究工作涉及将对程序语言定义的语法、类型、语义等约束信息设计了特定的神经网络结构进行编码,分别发表于 ICSE、ESEC/FSE、ASE、IJCAI、AAAI 等国际会议上,并获得了杰出论文提名和杰出论文奖。

面向未来,朱琪豪希望将现有的语言定义编码技术与大型代码模型相结合,提出具备变革性的深度程序处理框架,进一步提高模型的泛化能力和对程序约束的理解能力,解决更多实际问题,为软件工程和深度学习领域做出更多贡献。

2019 年,机器之心曾经报道过朱琪豪参与的研究工作《A Grammar-Based Structural CNN Decoder for Code Generation》,这是首个成功用 CNN 解码器生成代码的工作,论文被 AAAI 2019 大会接收。团队将提出的新方法在《炉石传说》数据集上进行了测试,效果超过了此前各类业内最佳模型,引起了广泛讨论。

连续三年评选
32 位杰出青年人才被「看见」

字节跳动奖学金计划设立于 2021 年,设立的初衷是帮助具有创新精神的科技人才用专业知识解决实际难题,用技术回馈社会、引领未来。目前,字节跳动奖学金计划已经连续完成了三届评选,共有 32 位杰出的青年人才入选,受到了更多的关注。

该计划为每位获奖学生提供 10 万元人民币的资助基金。在奖学金的支持下,年轻的学子们可以获得新的科研项目费用、学术交流机会,让自己的才华和努力有了更进一步的发挥空间。除了现金奖励,每位奖学金得主还将获得「直通心仪技术部门面试」、「深度参与字节团队内部研讨」、「专属研学计划」等丰厚奖励。

在往届的字节跳动奖学金得主中,有人选择了留在学界,成为新晋青年教师,做出了不俗的科研成果。也有人选择来到工业界,利用自己的研究积累创造出惊艳的落地成果。对于一部分奖学金得主来说,获奖是他们与字节跳动结下深厚的「缘分」的起点,也让字节跳动成为了他们在工业界求职的首选。

从今日头条首创的「信息流 + 推荐引擎」的模式开始,字节跳动以业务场景驱动的技术创新方式与成果,一直以来不断体现在数款产品的更新迭代中,也渗透于技术产品与 ToB 业务场景的深度结合。

目前,字节跳动技术团队在基础架构、人工智能、安全、大数据技术、音视频等领域持续创新。这些技术成果不仅在字节内部业务落地应用,也通过「火山引擎」平台为更多企业提供服务,助力业务的可持续增长。

更多字节跳动奖学金项目资讯,欢迎登陆【字节跳动校园合作官网】https://ur.bytedance.com/home
产业字节跳动奖学金计划
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
吴翼人物

加利福尼亚大学伯克利分校人工智能方向博士,导师为Stuart Russell 教授,研究方向包括概率编程、自然语言处理、深度强化学习。吴翼博士曾获得NIPS 2016最佳论文,也获得过ACM-ICPC北美冠军、世界总决赛银牌,2010年国际奥林匹克信息学IOI竞赛银牌得主。

朱军人物

朱军,清华大学计算机系长聘副教授、卡内基梅隆大学兼职教授。2001 到 2009 年获清华大学计算机学士和博士学位,之后在卡内基梅隆大学做博士后,2011 年回清华任教。主要从事人工智能基础理论、高效算法及相关应用研究,在国际重要期刊与会议发表学术论文百余篇。担任人工智能顶级杂志 IEEE TPAMI 和 AI 的编委、《自动化学报》编委,担任机器学习国际大会 ICML2014 地区联合主席, ICML (2014-2018)、NIPS (2013, 2015, 2018)、UAI (2014-2018)、IJCAI(2015,2017)、AAAI(2016-2018)等国际会议的领域主席。获 CCF 自然科学一等奖、CCF 青年科学家奖、国家优秀青年基金、中创软件人才奖、北京市优秀青年人才奖等,入选国家「万人计划」青年拔尖人才、MIT TR35 中国区先锋者、IEEE Intelligent Systems 杂志评选的「AI's 10 to Watch」(人工智能青年十杰)、及清华大学 221 基础研究人才计划。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

二值化技术

二值化是将像素图像转换为二进制图像的过程。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征(即从数据层到隐含层的编码过程),之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型,当然,两个模型需要结构一致。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
Audi机构

奥迪是一间德国跨国豪华汽车制造商,主要从事豪华和高性能汽车制造业。总部位于德国巴伐利亚州的英戈尔施塔特。是大众集团的成员。奥迪与德国品牌宝马和梅赛德斯-奔驰一起,是世界上最畅销的豪华汽车品牌之一。

http://www.audi.com/
语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~