机器之心原创

2023/08/24 14:40

陈萍、杜伟报道

DeepMind等摘得杰出论文、IBM超算深蓝成经典，IJCAI2023奖项公布

国际人工智能联合会议（IJCAI）是 AI 领域中顶级学术会议之一，首届大会于 1969 年在加利福尼亚举办，之后每两年召开一次。从 2016 年开始 IJCAI 变为每年举行一次。

2023 IJCAI 论文接收情况如下，其中摘要提交 5120 篇、完整论文提交 4566 篇，最终接收了 643 篇，接收率约为 14%，相较去年的 15% 又有所下降。

下图为基于关键词的提交和接收论文情况，可以看到，机器学习和计算机视觉领域提交和接收的论文数量最多。

杰出论文奖（Distinguished Papers）

IJCAI 今年评选出了三篇杰出论文奖，获奖机构包括 Google DeepMind 、阿尔伯塔大学、阿姆斯特丹大学、莱比锡大学等机构。

论文 1《Levin Tree Search with Context Models》

论文地址：https://www.ijcai.org/proceedings/2023/0624.pdf
作者：Laurent Orseau 、 Marcus Hutter 、 Levi H. S. Lelis
机构：Google DeepMind 、阿尔伯塔大学

摘要：Levin 树搜索 (LTS) 是一种利用策略（动作的概率分布）的搜索算法，并提供了在达到目标节点之前进行多少扩展的理论保证（guarantee），这取决于策略的质量。这种保证可以看作损失函数，研究者将其称之为 LTS 损失，从而用来优化表示策略的神经网络（LTS+NN）。

本文展示了神经网络可以替换成从在线压缩文献中产生参数化的上下文模型（LTS+CM）。本文表明，在这个新模型下 LTS 损失是凸的，它允许使用标准的凸优化工具，并且在给定的一组解轨迹的在线设置中获得了最优参数的收敛保证 —— 这是神经网络无法提供的保证。

新的 LTS+CM 算法在几个基准上优于 LTS+NN，包括 Sokoban (Boxoban)、The Witness、STP（the 24-Sliding Tile puzzle）基准。

在 STP 基准上的结果表明，两者的差异非常大，即 LTS+NN 无法解决大多数测试实例，而 LTS+CM 在不到一秒内就解决了每个测试实例。此外，LTS+CM 能够学习解决魔方策略，只需要几百个扩展，从而大大改善了之前的机器学习方法。

下表为带有 Budgeted LTS 的上下文模型：

论文 2《SAT-Based PAC Learning of Description Logic Concepts》

论文地址：https://www.ijcai.org/proceedings/2023/0373.pdf
作者：Balder ten Cate 、Maurice Funk、Jean Christoph Jung、Carsten Lutz
机构：阿姆斯特丹大学、莱比锡大学等

摘要：在知识表示中，知识库 (KB) 的手动管理既耗时又昂贵，这使得基于学习的知识获取方法成为一种有吸引力的替代方案。

本文提出了 SPELL，这是一个基于 SAT 的系统，可在

下实现

的有界拟合。

本文在多个数据集上评估了 SPELL，结果表明 SPELL 的运行时间几乎总是显着低于 ELTL（EL tree learner）。这意味着 SPELL 可以学习比 ELTL 更大的目标查询。本文还分析了两种方法的相对优势和劣势，确定其中一种系统的性能明显优于另一种系统的输入类别。最后，本文进行了关于泛化的初步实验，表明两个系统都可以很好地泛化到看不见的数据，即使是在非常小的样本上。

下图为 SPELL、ELTL 一些比较结果：

论文 3《Safe Reinforcement Learning via Probabilistic Logic Shields》

论文地址：https://www.ijcai.org/proceedings/2023/0637.pdf
作者：Wen-Chi Yang 、 Giuseppe Marra 、 Gavin Rens 、 Luc De Raedt
机构：鲁汶大学、斯泰伦博斯大学

摘要：安全强化学习（Safe RL）旨在保持安全的同时学习最优策略，它的一种流行解决方案是屏蔽，利用逻辑安全规范来防止 RL 智能体采取危险的行动。不过，传统的屏蔽技术很难与连续、端到端的深度 RL 方法集成。

研究者提出了概率逻辑策略梯度（Probabilistic Logic Policy Gradient, PLPG），它是一种基于模型的安全 RL 技术，使用概率逻辑编程将逻辑安全约束建模为可微函数。因此，PLPG 可以无缝地应用于任何策略梯度算法，还能提供相同的收敛保证。下图 1 为概率逻辑屏蔽的示例。

实验表明，与其他 SOTA 屏蔽技术相比，PLPG 可以学习更安全、更有价值的策略。

论文一作 Wen-Chi Yang 为鲁汶大学 DTAI 研究团队的博士，致力于通过形式化验证与机器学习的结合，来提升安全约束可满足性。她还特别对智能体利用背景知识来安全地学习和探索感兴趣。本科毕业于台湾交通大学，之后进入鲁汶大学攻读硕士和博士学位（均为计算机科学）。

个人主页：https://wenchiyang.github.io/

AIJ 奖

AIJ 的全称为 Artificial Intelligence Journal，即《人工智能期刊》，始建于 1970 年，是人工智能研究领域的顶级学术期刊，具有公认的权威性与知名性。

AIJ 突出论文奖

2023 年 AIJ 突出论文奖授予 José Camacho-Collados、Mohammad Taher Pilehvar、Roberto Navigli 合著的论文《Nasari: Integrating explicit knowledge and corpus statistics for a multilingual representation of concepts and entities》。该论文发表于 2016 年。

论文地址：https://www.sciencedirect.com/science/article/pii/S0004370216300820

摘要：语义表征被认为是 NLP 和 AI 研究中最基本的内容，其在过去几十年中一直是词汇语义学的重要研究领域。然而，由于缺乏大型的语义标注语料库，大多数现有的表征技术仅限于词汇层面，因此无法有效地应用于单个单词的语义。

本文提出了一种新的多语言向量表征，称为 Nasari，它不仅能够准确地表征不同语言的词义，而且与现有方法相比存在两个优点：

高覆盖率，包括概念和命名实体；
跨语言和语言级别（即单词、意义和概念）的可比性。

此外，Nasari 表征很灵活，可以应用于多种应用程序，并且可以在网站上免费获得。该研究在四个不同任务上进行评估，即单词相似度、语义聚类、域标记和词义消歧，结果显示，Nasari 表征在所有任务上表现 SOTA。

下表为统一向量构造方法：

AIJ 经典论文奖

今年的 AIJ 经典论文奖颁给了关于超级计算机深蓝的论文《Deep Blue》。该论文发表于 2002 年。

作者：Murray Campbell、A. Joseph Hoane Jr.、Feng-hsiung Hsu
机构：IBM T.J. 沃森研究中心、Sandbridge Technologies、Compaq
论文地址：https://core.ac.uk/download/pdf/82416379.pdf

摘要：深蓝（Deep Blue）是由 IBM 开发的专门用以分析国际象棋的超级计算机。其在 1997 年的六场比赛中击败了当时的世界象棋冠军加里・卡斯帕罗夫。促成这一成功的因素有很多，包括：

单芯片国际象棋搜索引擎；
具有多层并行性的大规模并行系统；
搜索扩展；
复杂评价函数；
有效地使用 Grandmaster 游戏数据库。

本文描述了深蓝系统，并给出了深蓝背后设计决策的一些基本原理。如下为 dual credit 算法。

IJCAI-JAIR 最佳论文奖

自 2003 年起，IJCAI-JAIR 最佳论文奖每年从最近 5 年发表在 JAIR 的论文中评选并表彰一篇杰出论文。评审的标准基于论文的重要性和 presentation 的质量。

2023 年的 IJCAI-JAIR 最佳论文奖授予了论文《Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning》，作者来自智利天主教大学、加拿大 AI 研究机构 Vector Institute、多伦多大学等。

论文地址：https://jair.org/index.php/jair/article/view/12440

此前，2023 IJCAI 的「Donald E. Walker 杰出服务奖」授予了香港科技大学讲座教授杨强，以表彰其对 IJCAI 组织和整个人工智能领域的杰出贡献。他也成为了该奖项设置以来首位获奖的华人科学家。

参考链接：https://www.ijcai.org/awards

理论IJCAI 2023

相关技术

感知

杨强人物

杨强现任香港科技大学新明工程学讲席教授、计算机科学和工程学系主任，大数据研究所所长。他是人工智能研究的国际专家和领军人物，在学术界和工业界做出了杰出的服务和贡献，尤其近些年为中国人工智能(AI)和数据挖掘(KDD)的发展起了重要引导和推动作用。

来源：百度百科 Yang, Q.

词义消歧技术

在计算机语言学，词义消歧(WSD) 是一个自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题，在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象，消歧即指根据上下文确定对象语义的过程。词义消歧即在词语层次上的语义消歧。

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

概率分布技术

概率分布（probability distribution）或简称分布，是概率论的一个概念。广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量具有同样的分布（或同分布）时，我们是无法用概率来区别它们的。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

凸优化技术

凸优化，或叫做凸最优化，凸最小化，是数学最优化的一个子领域，研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单，譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用，如次导数等。凸优化应用于很多学科领域，诸如自动控制系统，信号处理，通讯和网络，电子电路设计，数据分析和建模，统计学（最优化设计），以及金融。在近来运算能力提高和最优化理论发展的背景下，一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化（凸最小化）问题，例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

逻辑编程技术

逻辑编程是种编程范型，它设置答案须匹配的规则来解决问题，而非设置步骤来解决问题。过程是事实+规则=结果。不同的方法，可以看Inductive logic programming。逻辑编程的要点是将正规的逻辑风格带入计算机程序设计之中。数学家和哲学家发现逻辑是有效的理论分析工具。

来源：维基百科

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

语义学技术

语义学，也作“语意学”，是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性，但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义，这里的自然语言可以是词汇，句子，篇章等等不同级别的语言单位。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科