为什么AI能让决策更智能?如何让AI帮助我们实现更智能的决策?这不仅是现代科技发展的前沿,更是当下社会现代化治理和企业数智化转型过程的关键举措和必由之路。
7月2日,由清华大学电子工程系主办,清华大学电子工程系城市科学与计算研究中心承办、北京清鹏智能科技有限公司协办,机器之心、集智俱乐部、科学家在线等多家科技前沿媒体支持的第二届“AI模拟与智能决策”论坛在京线上线下同步举办,吸引超万人次实时观看互动!
清华大学电子工程系教授、系党委书记金德鹏,新加坡科研局新加坡制造技术研究院科学家Cao Zhiguang,杭州云栖工程院首席科学家黎珍辉,阿里巴巴达摩院决策智能实验室负责人印卧涛,天津大学智算学部副教授、华为诺亚决策推理实验室主任郝建业,南方科技大学计算机系教授唐珂,清华大学电子工程系长聘副教授李勇,清鹏智能创始人兼CEO李中阳等全球顶尖专家学者、知名企业与创业公司负责人出席了此次论坛,共同探讨智能模拟与决策领域的前沿问题,如何推动关键科学技术的快速发展,促进相关领域的创新与实践落地。
李勇(第一排左)唐珂(第一排中)、黎珍辉(第一排右)Cao Zhiguang(第二排左)、印卧涛(第二排中)李中阳(第二排右)、金德鹏(第三排左)郝建业(第三排右)
部分线下会场
多平台线上会场
论坛嘉宾精彩报告回顾
01《Learning to Solve Vehicle Routing Problems》
新加坡科研局新加坡制造技术研究院科学家Cao Zhiguang
来自新加坡科研局新加坡制造技术研究院的科学家Cao Zhiguang老师带来了题为《学习求解车辆路径问题》(Learning to solve vehicle routing problems) 的主题报告,属于“学习优化” (Learn to optimize) 这一近来在AI和运筹优化领域十分热门的研究话题。
曹老师首先介绍了车辆路径问题 (Vehicle Routing Problem, VRP )的定义及其研究现状,详细介绍了两类神经启发式方法 (Neural heuristics) 和相关工作,最后指出尽管神经启发式方法正在快速发展并取得了不错的成果,但仍然面临着若干重要挑战。
车辆路径问题 (Vehicle Routing Problem) 是在一定约束条件下求解一个车队服务若干客户最优路径的问题,常见约束为车的容量限制,即带容量约束的车辆路由问题 (Capacitated VRP, CVRP)。
CVRP问题和旅行商问题(TSP)同属于NP难问题,其精确求解要花费大量时间,在现实应用中对于此类大规模问题的求解大多采用启发式的方法。传统的启发式方法由专家手工设计,而近年来出现了一些效果很好的神经启发式方法 (Neural heuristics)。直观上来说,很多VRP实例可能具有相似的问题结构,只是在具体的客户位置和需求上存在些许差别,因此神经启发式方法可以从大量数据中学习到这些结构和模式,从而更好地求解问题。
在方法层面,该问题与自然语言处理的文本翻译任务具有一定的相似性,均是以序列作为输入和输出。如果采取监督学习的方法,需要最优解的真值标签,但对真值的计算是十分耗时的;而强化学习则只需要奖励(如当前解的代价)来表明解的好坏即可。此外,对于同一个问题,可能存在多个等价的最优解,例如TSP中1-2-3-1和2-3-1-2是完全相同的,监督学习方法难以处理,而强化学习方法可以通过设置相同的奖励来进行处理。
神经启发式方法可以分为两类,一类是构造式方法,对问题输入直接输出解,另一类是迭代式方法,对输入问题定义和一个初始解,输出改进后的解,并循环迭代进行。
AM (Attention, learn to solve routing problems!) 是构造式方法的一个里程碑式工作,它使用了一个注意力模型,采用强化学习方法训练,按顺序输出下一步要访问的客户结点。
POMO (Policy optimization with multiple optima for reinforcement learning) 相比于AM可以并行地输出多条轨迹,且在推理阶段采用了数据增强方法,取得了更好的效果。
DACT (Dual-aspect collaborative transformer) 属于迭代式方法,用Transformer编码每一步的问题定义和解,输出新的解,如果这个新的解优于迭代过程中所得最优解,那么就以它们的代价之差作为奖励。DACT所解决的一个核心问题是解的编码表示。一方面,绝对位置编码是为线性序列设计,不能表示VRP解的环形特性,受格雷码的启发,DACT设计了从中间镜像对称的位置编码,以体现环形特性。另一方面,将结点表征向量和位置编码向量相加会导致信息混淆,因此DACT将这两部分分开处理,再用交叉注意力机制让它们相互作用。实验结果表明DACT在不同规模的TSP和CVRP测试集上取得了超过其他神经启发式方法的性能。
目前神经启发式方法正在飞速发展,每年都有很多新的论文发表在顶级AI会议上。但曹老师认为,在求解VRP上神经启发式方法并没有真正超过传统方法。虽然它有这个潜力,但还面临着一些重要挑战。在泛化性方面,大部分神经启发式方法都是在客户均匀分布的问题上训练和测试的,而如果在一些非均匀的数据集上测试性能就会比较差,并且实验表明,即使在多种不同分布的数据集上训练也不能很好地改善泛化性问题。此外,在小规模问题上训练的模型,也不能很好地解决大规模问题。另一个挑战是如何处理问题的约束条件,现有工作求解的多是没有约束的TSP或者带有简单容量约束的CVRP,处理方法是在动作空间去掉那些会破坏约束的动作,但这种做法无法处理更为复杂的约束。
02《Open Data Research Toward a Science of Cities》
杭州云栖工程院首席科学家黎珍辉
杭州云栖工程院首席科学家黎珍辉 (Jessie Li) 教授进行了题为《Open Data Research Toward a Science of Cities》的主题报告。
首先,黎老师强调了数据集公开对于城市科学研究的重要意义。如果所需要的数据集未公开,则对于该数据的后续研究人员带来很多的困难与阻碍。在研究《scale》书中提到的规模经济问题(城市人口与道路长度关系)时,黎老师分别找到两个互联网公开的数据集拟合对数分布下的系数,但两个结果与书中数值都相差较大。分析其数据来源,发现是对多种数据的整合,包括黑箱处理的卫星图片、人口普查数据、天气、地理等等信息以及人工校正处理后最终得到的结果,关于其可靠性无从考证,该数据拟合结果的真实性也不能保证。
接着,黎老师提出足够的公开数据可以促进更多有意义的问题研究。例如城市科学中patents, GDP, housing, gasoline station等很多问题都值得讨论研究,并得到有意思的结论。例如,大家通常认为降水量与用水量之间会存在某种关系,为研究该问题,黎老师对100多个城市的公开数据集进行分析,最终发现一个城市的降水量和用水量关系不大。
最后,黎老师提到第四范式研究(data-driven research)的重要性,即并不是单纯的方法驱动、技术驱动,要更多地去思考数据背后的深刻问题。数据集公开可以帮助研究人员无壁垒地开展研究工作。黎老师希望大家积极参与到构建公开数据库的工作中,共同促进城市科学的发展。
03《Learning to Optimize: Algorithmic Unfolding》
阿里巴巴达摩院决策智能实验室负责人印卧涛
来自阿里巴巴达摩院的印卧涛老师进行了题为《Learning to Optimize: Algorithmic Unfolding》的主题报告。
印老师首先介绍了在决策领域机器学习与优化问题结合的潜力与可能性。传统的优化方法通常是由专家根据自己的经验和对理论的理解来构建的,如单纯形法。这些经典方法虽然可以解决很多优化问题,但是面对如今越来越复杂的优化决策场景,求解速度和精度难以满足现实要求。而且在一些专家知识较为匮乏的领域,传统方法可能难以奏效。机器学习特别是深度学习,具有极强的数据拟合能力,训练好的模型可以快速对问题进行求解,并取得很好的结果。因此,learning to optimize 就是将机器学习与优化相结合,通过学习“优化记录”,更快地得到更好的优化方案。
之后,印老师介绍了当前研究“learning to optimize”的两种基本范式。一种是完全数据驱动的无模型范式,它通常是训练一个端到端的网络,虽然可以比传统方法更快的推理,但是由于参数太多可能会导致训练速度变慢,而且有些时候性能并不稳定,可能会输出一些不准确的解,泛化性较差,因此这种方法并不太受欢迎。另一种是基于模型的学习范式,它基于现有算法进行修改和调整,常见的有“算法展开”和“定点网络”等。下面以“算法展开”为例进行介绍。
“算法展开”包括两个步骤,首先是选择一个经典的优化算法,如LASSO,并展开到一个神经网络,然后选择一组神经网络参数进行学习。比如在LASSO和ISTA中,通过对算法进行调整,可以将原来的算法重写成类似于神经网络的形式,基于构建好的训练数据集,就可以对算法进行训练。实验表明,该方法具备更快的收敛速度,求解速度远远高于其它传统方法,而且在CT图片重建以及图片去噪等多个子任务中性能远超传统方法以及单纯的机器学习方法。
印老师也介绍了在“learning to optimize”领域当前面临的一些问题,主要有三个方面:模型的参数量太大,对训练造成困难;神经网络模型当前还是一个黑盒,可解释性较差,难以应用到一些要求高可靠性的领域;模型的泛化性仍然较差,在一些模型从未见过的场景中性能甚至比不上传统方法。针对以上挑战,研究者们近年来也做出了很多努力。就模型参数量太大而言,可以通过在模型中引入耦合来减少参数量并提高模型训练的稳定性,也可以调整训练中迭代的方法,或者使用一些估计的方法来提高训练速度。更加具体的内容可以参考“Learning to optimize:A Primer and A Benchmark”这篇综述文章。
最后印老师总结,在“learning to optimize”领域还有很大的创作空间,在优化速度方面还可以获得更大的提升,机器学习与优化决策还有很大的价值空间等待大家挖掘。在“算法展开”方面,当前方法的成功基本还是基于稀疏编码,还需要更多先进的、解释性更强的方法来拓展“算法展开”的应用场景。
04《Self-supervised Reinforcement Learning》
天津大学智算学部副教授,华为诺亚决策推理实验室主任郝建业
天津大学智算学部副教授,华为诺亚决策推理实验室主任郝建业老师进行了题为《Self-supervised Reinforcement Learning》的主题报告。郝老师从强化学习的状态、策略、动作、环境、奖励等关键要素谈如何构建自监督强化学习,并展望了自监督强化学习通向通用决策大模型的潜力。
郝老师对自监督强化学习的构建方法论进行了详细介绍,包括以下几个部分:通过构建对比样本,学习更好的状态表征;将策略表示OPR、SPR通过自监督的方式嵌入构建对比学习;以动作对状态的影响来定义动作的状态表征,将动作作用前后的状态进行编码,并尝试解码还原出动作,得到自监督的动作表征;通过对环境有限次数的交互尝试学习对环境的表征,从而能在新的环境下快速地更新表征并适应新的任务等。
最后,郝老师指出,虽然当前自监督强化学习模型仍然只对特定的相似任务表现出了有限的泛化能力,但其提高探索效率、泛化性的特性,是实现通用决策大模型远大愿景的潜在关键技术。当前相关工作日新月异,通用强化学习大模型具体如何构建,可以从不同的范式结合具体问题和领域知识,进行开放的尝试。