Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

2024智源大会议程公开丨大语言模型

2024年6月14日-15日,第6届北京智源大会将以线下与线上结合的形式召开,线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野,汇聚年度杰出工作研究者,交流新思想,探讨新思路,引领新前沿。目前已正式开放报名渠道。

大语言模型 论坛丨6月14日下午

近年来,大语言模型取得了重要的技术进展,成为了人工智能领域最受社会关注的研究方向之一,其应用范围逐渐覆盖了信息产业的多个领域。对其底层原理与训练方法的探索也成为了学术界与工业界的共同关注焦点。本次论坛针对大语言模型相关的基础问题展开相关探讨,主要包括思维链推理能力、能力涌现机理、知识机理与编辑、训练效率优化、分布式训练技术等,旨在针对这些核心议题给出最前沿的技术进展介绍。为此,本次论坛邀请了来自学术界与工业界的七位优秀讲者,分别针对各自擅长的研究议题进行报告,并且将在报告后通过圆桌形式对于若干公众所关注的问题进行深入讨论,使得听众们能够对于大模型关键技术有更为深刻的认识与理解。

论坛议程

图片

论坛主席

图片

赵鑫,中国人民大学教授,智源学者

赵鑫,中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文200余篇,谷歌学术引用1.8万余次,曾主导研发了玉兰大语言模型,组织编写了大语言模型综述论文《A Survey of Large Language Models》(预印版文章)以及《大语言模型》中文书。曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖,CCF-IEEE CS青年科学家奖。

图片

宋睿华,中国人民大学长聘副教授

宋睿华博士,国家高层次人才特聘教授,现任中国人民大学高瓴人工智能学院长聘副教授。曾任微软亚洲研究院主管研究员、微软小冰首席科学家。近期研究兴趣为多模态理解、创作和交互。发表学术论文100余篇,申请专利30余项。曾获WWW 2004最佳论文提名奖,AIRS 2012最佳论文奖和CLWS 2019优秀论文奖,2022年度教育部自然科学一等奖。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。2021-2022年作为学术带头人,发布文澜系列中文多模态对齐大模型,并成功落地快手、OPPO等企业。2023年,参与发布玉兰大语言模型,完成从基础模型到对话模型的自研训练。曾担任SIGIR短文和讲习班主席、ACL领域主席、EMNLP资深领域主席和Information Retrieval Journal主编。

演讲主题及嘉宾介绍(按照发言先后顺序)

1、是否所有Transformer结构都具备思维链推理能力?

报告简介:国内外有许多研究工作提出多种Transformer的高效变体,但对于众多模型变体,有许多问题需要回答:这些变体模型是否存在理论缺陷?面临具体实际问题时模型结构应当如何选择?到底哪些变体模型能真正完美地取代Transformer?最近的研究发现,思维链(Chain-of-Thought)提示(CoT)可以显著提高大型语言模型(LLMs)的性能,特别是在处理涉及数学或推理的复杂任务。尽管经验上取得了巨大的成功,但CoT背后的机制以及它如何发挥LLMs的潜力仍然难以捉摸。是不是所有大模型都具备思维链推理能力?在这个talk中,我们首次尝试在理论上回答这些问题,并展示不同模型的能力上限差异。

图片


贺笛,北京大学助理教授

贺笛,北京大学智能学院助理教授,前微软亚洲研究院主管研究员。主要从事机器学习模型、算法与理论方向的研究工作,已发表ICML、NeurIPS、ICLR等重要期刊/会议论文50余篇,谷歌引用数超过8000。所设计的模型、算法多次被DeepMind、OpenAI、微软、Meta等国际顶尖研究机构使用。获得机器学习顶级国际会议ICLR 2023杰出论文奖和ICLR 2024杰出论文奖提名。

2、ChatGLM:理解与探索大模型能力涌现

报告简介:基础大模型在意图感知、指令跟随、目标规划等方面展现出强大的泛化能力,为智能体的研究和应用提供了通用模型基座。报告将分享GLM-4模型智能体能力提升研发过程中的探索,我们发现预训练损失可以比模型大小或计算量更好地预测语言模型的涌现能力,进而合理指导模型训练与能力提升。以GLM-4 All Tools模型为列,其可实现自主理解用户意图,自动规划复杂指令,自由调用网页浏览器、代码解释器以及多模态模型等,以完成复杂任务。

详见 https://github.com/THUDM。

图片


东昱晓,清华大学副教授

东昱晓,清华大学计算机系副教授,知识工程实验室(KEG)成员,曾工作于脸书人工智能和微软总部研究院。研究方向为数据挖掘、图机器学习和基础大模型,相关成果应用于十亿级用户社交网络和知识图谱。入选IJCAI Early Career Spotlight,获2017年ACM SIGKDD博士论文奖提名和2022年ACM SIGKDD Rising Star Award。

3、大语言模型知识机理与编辑问题

报告简介:掌握知识一直是人工智能系统发展的核心追求。在这方面,大语言模型展示了巨大的潜力并在一定程度上掌握和应用了广泛的知识。然而,我们对于大语言模型如何内在地习得、存储知识等方面的理解仍然非常有限,我们也无法及时对大语言模型内部的错误及有害知识进行修正。在本次Talk中,我将基于团队最近的研究成果,探讨大语言模型的知识机理与编辑问题,并介绍知识回路和知识更新、擦除的新方法。

图片

张宁豫,浙江大学副教授

张宁豫,浙江大学副教授,浙江大学启真优秀青年学者,在高水平国际学术期刊和会议上发表多余篇论文,6篇入选Paper Digest高影响力论文,1篇被选为Nature子刊Featured Articles。主持国家自然科学基金、计算机学会、人工智能学会多个项目,获浙江省科技进步二等奖,IJCKG最佳论文/提名2次,CCKS最佳论文奖1次, 担任ACL、EMNLP领域主席、ARR Action Editor、IJCAI 高级程序委员,主持开发大语言模型知识编辑工具EasyEdit (1.5k)。

4、小钢炮MiniCPM是如何炼成的?

报告简介:MiniCPM系列是全球领先的端侧模型,包括旗舰端侧模型MiniCPM-2.4B和MiniCPM-1.2B,以及全球最强端侧多模态模型MiniCPM-V系列。通过SFT(指令微调)与DPO(对比学习)优化,MiniCPM在各种公开评测集上(如MTBench等)展现出优异性能,甚至超越了Llama2-13B、MPT-30B和Falcon-40B等现有模型。MiniCPM特别支持Int4量化,显著降低存储和计算成本,同时在手机等端侧设备上也能实现准确率损失较小的实时推理。该系列模型具备强大的OCR能力,能够处理高达180万像素的图像,支持中英双语交互,并通过RLHF技术降低幻觉率,增强多模态互动体验。此外,MiniCPM的开源为行业交流和发展提供了便利,其轻量高性能设计反映了AI原生应用和AI原生硬件的发展趋势。MiniCPM-V系列支持在多种设备上的高效部署,包括安卓和Harmony系统的手机,并且可通过多种方式进行推理和微调。此次报告将分享这一系列轻量高性能模型的研究方法与技术路径,包括其在开放基准测试中的表现以及在不同设备上的高效部署方案。

图片

曾国洋,面壁智能联合创始人兼CTO

曾国洋,面壁智能联合创始人兼CTO。悟道·文源中文预训练模型团队骨干成员。2021年作为联合发起人创建了OpenBMB开源社区,是模型训练加速和推理加速BMTrain、BMInf的主要作者之一,也是 CPM-Ant、CPM-Bee 两期大模型的主要完成人之一。

5、大语言模型预训练的效率优化

报告简介:由ChatGPT引领的大语言模型是当前人工智能技术最前沿的研究方向。基于百亿千亿甚至万亿的自回归无监督语言模型在诸多任务中都达到了惊人的效果。实现大语言模型能力突破的关键方法是所谓的扩展法则(scaling law),即不断的加大预训练模型参数的大小,同时不断提升训练数据量的大小。然而,在真正的预训练过程中,除了本身计算资源的扩展之外,还需要不断提升计算效率的提升,在单位资源时间内对数据进行更高效率的压缩。本报告将着重介绍当前业界在提升预训练效率方向的若干尝试,包括模型结构的优化、训练方案的优化、数据的优化等。 

图片


王炳宁,百川智能研究员

王炳宁,百川智能预训练负责人。博士毕业于中国科学院自动化研究所,主要研究问答系统和大语言模型。历任搜狗、腾讯高级研究员,有着丰富大规模生成式模型经验,主导并发布如ReCO、ComQA、ChiQA、T2Ranking等大规模中文问答数据,以及Baichuan系列预训练模型。在ACL、SIGIR、AAAI等国际顶级人工智能和自然语言处理会议上以第一作者发表论文11篇,并获得2021年CIKM best paper runner up。博士论文《机器阅读理解关键技术研究》获2019年中国中文信息学会优秀博士论文奖。中国中文信息学会青年工作委员会委员。

6、大语言模型训练的分布式计算技术

报告简介:深度学习技术在多个领域取得了突破性进展,但随着模型规模的不断扩大,对硬件资源的需求也日益增加。潞晨科技创造的Colossal-AI深度学习系统,通过集成高效的多维并行系统,异构内存管理系统和推理加速系统,帮助解决大模型大规模训练和推理中的效率和成本问题。Colossal-AI深度学习系统对主流开源模型如ViT, Stable Diffusion, Llama3等提供完善的支持和极致的加速。该系统已在自然语言处理、计算机视觉和生物信息学等领域得到广泛应用,并在ICML、NeurIPS等人工智能领域的顶级学术会议上获得了高度评价和广泛认可。

图片


尤洋,新加坡国立大学校长青年教授,潞晨科技创始人兼董事长

尤洋教授是清华大学硕士,加州伯克利大学博士,新加坡国立大学计算机系的校长青年教授。他曾创造ImageNet、BERT、AlphaFold、ViT训练速度的世界纪录,并被ScienceDaily、The Next Web、i-programmer等几十家媒体广泛报道,相关技术被广泛应用于谷歌、微软、英特尔、英伟达等科技巨头。他近三年以第一作者身份在NIPS、ICLR、Supercomputing、IPDPS、ICS等国际重要会议或期刊上发表论文十余篇,总计发表论文近百篇。他曾以第一作者获国际并行与分布式处理大会(IPDPS)的最佳论文、国际并行处理大会(ICPP)的最佳论文,AAAI、ACL杰出论文等。他曾获清华大学优秀毕业生,以及当时清华大学计算机系数额最高的西贝尔奖学金。他在2017年获得美国计算机协会(ACM)官网上唯一颁给在读博士生的ACM-IEEE CS George Michael Memorial HPC Fellowship。他获得颁发给伯克利优秀毕业生的Lotfi A. Zadeh Prize。他被UC Berkeley提名为ACM Doctoral Dissertation Award候选人(81名UC Berkeley EECS 2020博士毕业生中选2人)。他曾任职于谷歌、微软、英伟达、英特尔和IBM,在2021年被选入福布斯30岁以下精英榜 (亚洲)并获得IEEE-CS超算杰出新人奖。

7、Large Language Models: Past, Present and Future

图片


Thomas Scialom,Meta研究科学家,Llama2、3作者

Thomas Scialom,Meta研究科学家,Llama2、3作者。Thomas是索邦大学博士毕业,专攻自然语言生成。他是世界上一系列最著名的生成式人工智能的幕后推手,包括 Llama 2、Llama3、BLOOM、Toolformer和Galactica,为通用人工智能的发展做出了杰出贡献。

8、圆桌讨论


圆桌讨论嘉宾:

宋睿华丨中国人民大学长聘副教授(主持人)

贺   笛丨北京大学助理教授

东昱晓丨清华大学副教授

张宁豫丨浙江大学副教授

曾国洋丨面壁智能CTO

王炳宁丨百川智能研究员

尤   洋丨新加坡国立大学校长青年教授,潞晨科技创始人兼董事长

即刻扫码注册,参与大会报名

本届大会采用线下与线上模式融合,报名通道已开启,欢迎扫码免费注册。由于线下席位有限,请尽早完成注册,组委会将根据注册次序审核,并在会前发送审核结果通知。公开环节将向注册用户全程线上直播。

图片

产业
暂无评论
暂无评论~