多智能体系统 | 机器之心

简介

多智能体系统是由多个交互智能体组成的计算机化系统。是由一个在一个环境中交互的多个智能体组成的计算系统。多智能体系统也能被用在解决分离的智能体以及单层系统难以解决的问题。智能可以由一些方法，函数，过程，搜索算法或加强学习来实现。

人工智能已经在围棋、图像识别和语音识别等领域达到甚至超越了人类专家，但今天看来，智能化的机器还离我们很远。要想实现通用智能，AI 智能体必须学习如何在共享环境中与「他人」进行互动：这就是多智能体强化学习面临的挑战。

多智能体系统由智能体及其环境组成。智能体可以分为从简单到复杂的类型。分类包括：

被动智能体或“无目标智能体”（如任何简单模拟中的障碍物、苹果或密钥）
具有简单目标的智能体（如植物中的鸟类，捕食者 - 捕食者模型中的狼 - 羊）
认知智能体（需要复杂计算）

智能体环境则可以分为虚拟、离散和连续环境。

智能体环境也可以根据其所含的属性进行分类，例如可访问性（是否可以收集有关环境的完整信息）、确定性（动作是否会产生明确的效果）、动态性（当前有多少实体会影响环境）、离散性（环境中的可能行动的数量是否有限）、情节性（某些时间段内的行动者行为是否影响其他时段）和维度（空间特征是否是环境的重要因素，以及智能体在决策时是否考虑空间）。

多智能体系统中的智能体具有几个重要特征：

自主性：智能体至少部分独立、自觉、自主；
短视性：没有智能体具有完整的全局视图，或者对于智能体来说利用关于全局环境的信息太复杂；
分散性：没有智能体是处于控制地位的（或者系统不能被有效地简化为单一系统）；

[描述来源：维基百科 URL：https://en.wikipedia.org/wiki/Multi-agent_system]

多智能体系统的应用范围是很广泛的。例如，多机器人控制，通信和语言的发现，多个玩家参与的游戏，以及对社会困境的分析都会涉及多智能体领域。相关的问题也可以以不同的级别和水平来等同于多智能体问题，例如分层强化学习的变体也可以被看做多智能体系统。此外，多智能体自我模拟最近也被证明是一个有用的训练范式。

[描述来源：使用Gym和CNN构建多智能体自动驾驶马里奥赛车|机器之心]

发展历史

多智能体系统的应用研究开始于 20 世纪 80 年代中期，1989年，第一届国际多智能体欧洲学术会议举行，标志着该技术受到了研究者的广泛重视。同年，Durfee和Lesser讨论了如何通过谈判在多智能体之间分享任务。1993年，智能体形式化模型国际会议召开，1994年又召开了第一届智能体理论、体系结构和语言国际会议。到2000年后，MAS研究迎来了一波热潮。2000年，Stone展示了智能体如何在机器人足球这种竞争性强、动态的、部分可观察的环境中作为队友进行合作。

2006年，Livnat和Pippenger证明，对于最佳路径寻找问题，以及对计算资源有限的问题，智能体的最佳体系结构是子智能体的集合。2007年，Marvin Minsky在他极具影响力的著作中再一次提出，人类的思想是由一群多智能体构建的。这些研究都为多智能体系统的研究价值提供了理论基础。同年，Olfati-Saber等学者为多智能体联网系统的一致性算法分析提供了一个理论框架，重点在于定向信息流的作用、对于链路/节点故障导致的网络拓扑变化的鲁棒性、时延和性能保证。这篇文章为MAS研究奠定了重要的基础。

MAS的研究实用性很强，目前已应用于各种问题，包括市场模拟，监测，系统诊断和补救行动等。2016年Liu等学者在他们提出的战略电力基础设施防御（SPID）框架内提出了变电站物理安全监控（SPSM）系统，能够远程监控变电站的物理安全。

2017年，来自阿里巴巴和 UCL 的研究者们把多智能体星际争霸战斗任务设定为零和随机游戏，他们使用了神经网络，不同智能体通过新提出的双向协调网络（BiCNet）来相互交流，而学习是通过评估-决策方式来完成的。此外，研究者们还提出了共享参数与动态分组的概念，以解决扩展性的问题。在没有手动标记数据进行监督学习的情况下，BiCNet 可以学会多种有经验的人类玩家展示出的协调策略。而且，BiCNet 能够轻松适应异构智能体任务。

主要事件

年份	事件	相关论文/Reference
1989	Durfee和Lesser讨论了如何通过谈判在多智能体之间分享任务	Durfee, E. H. and Lesser, V. R. (1989). Negotiating task decomposition and allocation using partial global planning. In Huhns, M. and Gasser, L. (Eds.), Distributed AI, Vol. 2. Morgan Kaufmann.
2000	Stone展示了多智能如何在机器人足球这种竞争性强、动态的、部分可观察的环境中作为队友进行合作	Stone, P. (2000). Layered Learning in Multi-Agent Systems: A Winning Approach to Robotic Soccer. MIT Press.
2006	Livnat和Pippenger证明，对于最佳路径寻找问题，以及对计算资源有限的问题，智能体的最佳体系结构是子智能体的集合	Livnat, A. and Pippenger, N. (2006). An optimal brain can be composed of conflicting agents. PNAS, 103(9), 3198–3202.
2007	Marvin Minsky在他极具影响力的著作中再一次提出，人类的思想是由一群多智能体构建的。这些研究都为多智能体系统的研究价值提供了理论基础	Minsky, M. L. (2007). The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind. Simon and Schuster
2007	Olfati-Saber等学者为多智能体联网系统的一致性算法分析提供了一个理论框架	Olfati-Saber, R.; Fax, J. A. and Murray, R. M. (2007). Consensus and Cooperation in Networked Multi-Agent Systems. Proceedings of the IEEE. 95(1): 215-233.
2016	Liu等学者在他们提出的战略电力基础设施防御（SPID）框架内提出了变电站物理安全监控（SPSM）系统，能够远程监控变电站的物理安全	Xie J, Liu C-C, Sforna M, et al. (2016). On-line physical security monitoring of power substations. Int Trans Electr Energy Syst. 26(6):1148–1170.
2017	来自阿里巴巴和 UCL 的研究者们提出了双向协调网络（BiCNet）	Peng, P. et al. (2017).Multiagent Bidirectionally-Coordinated Nets: Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games.arXiv:1703.10069.

发展分析

瓶颈

目前关于多智能体系统的研究仍然十分基础，单个智能体可以在困难的任务中取得优秀的成绩，但简单的问题却是难解的。AI 智能体如何在共享环境中与「他人」进行互动，是一个难点。智能体不会推断和概括。纯机器学习可用于单个智能体或完全可观察的系统，但是多智能体系统不是一个完全已知的世界，必须采用一个更普遍的方法，少数智能体的硬编码功能与多智能体系统的可扩展和可泛化实现之间存在差距。

未来发展方向

要实现通用人工智能，多智能体系统是必须突破的研究方向，因此，这必然是一个研究重点。可能的方向有多智能体间的协商、交互机制、集成等。

简介