部分可观察马尔可夫决策过程

一种通用化的马尔可夫决策过程。POMDP模拟代理人决策程序是假设系统动态由MDP决定，但是代理人无法直接观察目前的状态。相反的，它必须要根据模型的全域与部分区域观察结果来推断状态的分布。因为POMDP架构的通用程度足以模拟不同的真实世界的连续过程，应用于机器人导航问题、机械维护和不定性规划。架构最早由研究机构所建立，随后人工智能与自动规划社群继续发展。