概率潜在语义分析 | 机器之心

简介

概率潜在语义分析是一种用于分析双模式（two-mode）和共现数据（ co-occurrence data）的统计技术，它在信息检索和过滤，自然语言处理，机器学习文本以及相关领域都有应用。与源自线性代数并通过奇异值分解缩小发生表（co-occurrence table）的标准潜在语义分析（standard Latent Semantic Analysis）相比，pLSA基于从潜在类模型（latent class model）推导出的混合分解（mixture decomposition）。

从文本和自然语言中学习是人工智能和机器学习的重大挑战之一。这个领域的任何实质性进展都会对从信息检索，信息过滤和智能接口到语音识别，自然语言处理和机器翻译的许多应用产生强大的影响。其中一个基本问题是以数据驱动的方式学习单词的含义和用法，即从某些给定的文本语料库中学习，并可能没有进一步的语言学先验知识。

机器学习系统必须解决的主要挑战是由于文本或话语中“实际上已经说过/写过的内容”的词汇层面与“潜在内容”的语义层面之间的区别带来的，这样造成的问题有：（i）多义词，即一个词在不同的语境中可能有多种意义和多种用法，以及（ii）同义词和语义相关词，即不同词可能有相似之处，即他们可能至少在某些情况下表示相同的概念，或者——在较弱的意义上——指的是同一主题。这也是pLSA这些方法被提出的原因，它的主要思想在于类似文件中会出现类似含义的词。

考虑到词语和文档的共现（w，d）形式的观察结果，PLSA将每个共现的概率模型化为条件独立的多项分布的混合：

其中 'c' 代表单词所属的主题，而主题的数量是需要提前确定的超参数。上式中等式右边第一个公式是对称公式，其中w和d都是以类似的方式通过条件概率P(d|c)和P(w|c)从潜在类c中生成的。而第二个公式是不对称公式，对于每个文档d，根据P（c | d）一个潜类会被分配给文档，然后根据 P（w | c）一个单词从这个潜类中被生成。虽然我们在这里将该公式限定在文本处理领域内，但实际上任何几个离散变量的共同出现都可以用这种方式建模。上式中涉及到的参数可以通过EM算法进行估计。

[描述来源：Hofmann, T. (1999). Probabilistic Latent Semantic Analysis. Uncertainity in Arti cial Intelligence. ]

[描述来源：维基百科 URL: https://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis ]

发展历史

Thomas Hofmann于1999年提出了pLSA，并在文中描述了pLSA与LSA（潜在语义分析）的区别，即前文提到的LSA主要基于奇异值分解（SVD）而pLSA则依赖混合分解。他随后进行了一系列实证研究，并讨论了pLSA在自动文档索引中的应用。他的实证结果表明pLSA相对于LSA的表现有明显进步。

2003年Andrew Y. Ng等人在论文中提出用于pLSA的aspect model具有严重的过度拟合问题，他们提出了隐狄利克雷分布（LDA)，这可以看作是结合了贝叶斯思想的pLSA。2005年Li Feifei等人将LDA应用于计算机视觉领域，他们的研究显示LDA在13类复杂场景下的大量测试中取得了令人满意的分类表现。

主要事件

年份	事件	相关论文/Reference
1999	Thomas Hofmann提出了pLSA	Hofmann, T. (1999).Probabilistic Latent Semantic Analysis.Uncertainity in Arti cial Intelligence.
2001	Thomas Hofmann讨论了pLSA在自动文档索引中的应用	Hofmann, T. (2001).Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning. 42(1-2): 177-196.
2003	Andrew Y. Ng等人在论文中提出用于pLSA的aspect model具有严重的过度拟合问题，他们提出了隐狄利克雷分布（LDA)	Blei, D. M.; Ng, A. Y.; Jordan, M. I. (2003).Latent Dirichlet Allocation. JMLR. pp 993-1022.
2005	Feifei Li等人将LDA应用于计算机视觉领域	Fei-Fei, L. and Perona, P. (2005). A Bayesian hierarchical model for learning natural scene categories.2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2: 524-531.

发展分析

瓶颈

pLSA 模型pLSA 模型在文档层面不提供任何概率模型，因而很难泛化到新的没见过的文档，另一个缺点是P（c | d）的参数数随着文档数量线性增长，这会导致过拟合问题。

未来发展方向

作为主题模型的一种，pLSA在推荐系统、自然语言处理相关方向都有广泛应用。

Contributor：Yuanyuan Li

简介