概率潜在语义分析

概率潜在语义分析(PLSA),也称为 概率潜在语义索引(PLSI),尤其是在信息检索领域)是一个一种用于分析双模式和共现数据的统计技术。 实际上,就像从PLSA进化而来的潜在语义分析一样,可以根据它们对某些隐藏变量的亲和性来导出观察变量的低维表示。

来源:维基百科
简介

概率潜在语义分析是一种用于分析双模式(two-mode)和共现数据( co-occurrence data)的统计技术,它在信息检索和过滤,自然语言处理,机器学习文本以及相关领域都有应用。与源自线性代数并通过奇异值分解缩小发生表(co-occurrence table)的标准潜在语义分析(standard Latent Semantic Analysis)相比,pLSA基于从潜在类模型(latent class model)推导出的混合分解(mixture decomposition)。

从文本和自然语言中学习是人工智能和机器学习的重大挑战之一。这个领域的任何实质性进展都会对从信息检索,信息过滤和智能接口到语音识别,自然语言处理和机器翻译的许多应用产生强大的影响。其中一个基本问题是以数据驱动的方式学习单词的含义和用法,即从某些给定的文本语料库中学习,并可能没有进一步的语言学先验知识。

机器学习系统必须解决的主要挑战是由于文本或话语中“实际上已经说过/写过的内容”的词汇层面与“潜在内容”的语义层面之间的区别带来的,这样造成的问题有:(i)多义词,即一个词在不同的语境中可能有多种意义和多种用法,以及(ii)同义词和语义相关词,即不同词可能有相似之处,即他们可能至少在某些情况下表示相同的概念,或者——在较弱的意义上——指的是同一主题。这也是pLSA这些方法被提出的原因,它的主要思想在于类似文件中会出现类似含义的词。

考虑到词语和文档的共现(w,d)形式的观察结果,PLSA将每个共现的概率模型化为条件独立的多项分布的混合:

其中 'c' 代表单词所属的主题,而主题的数量是需要提前确定的超参数。上式中等式右边第一个公式是对称公式,其中w和d都是以类似的方式通过条件概率P(d|c)和P(w|c)从潜在类c中生成的。而第二个公式是不对称公式,对于每个文档d,根据P(c | d)一个潜类会被分配给文档,然后根据 P(w | c)一个单词从这个潜类中被生成。 虽然我们在这里将该公式限定在文本处理领域内,但实际上任何几个离散变量的共同出现都可以用这种方式建模。上式中涉及到的参数可以通过EM算法进行估计。

[描述来源:Hofmann, T. (1999). Probabilistic Latent Semantic Analysis. Uncertainity in Arti cial Intelligence. ]

[描述来源:维基百科 URL: https://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis ]

发展历史

Thomas Hofmann于1999年提出了pLSA,并在文中描述了pLSA与LSA(潜在语义分析)的区别,即前文提到的LSA主要基于奇异值分解(SVD)而pLSA则依赖混合分解。他随后进行了一系列实证研究,并讨论了pLSA在自动文档索引中的应用。他的实证结果表明pLSA相对于LSA的表现有明显进步。

2003年Andrew Y. Ng等人在论文中提出用于pLSA的aspect model具有严重的过度拟合问题,他们提出了隐狄利克雷分布(LDA),这可以看作是结合了贝叶斯思想的pLSA。2005年Li Feifei等人将LDA应用于计算机视觉领域,他们的研究显示LDA在13类复杂场景下的大量测试中取得了令人满意的分类表现。

主要事件

年份事件相关论文/Reference
1999Thomas Hofmann提出了pLSAHofmann, T. (1999).Probabilistic Latent Semantic Analysis.Uncertainity in Arti cial Intelligence.
2001Thomas Hofmann讨论了pLSA在自动文档索引中的应用Hofmann, T. (2001).Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning. 42(1-2): 177-196.
2003Andrew Y. Ng等人在论文中提出用于pLSA的aspect model具有严重的过度拟合问题,他们提出了隐狄利克雷分布(LDA)Blei, D. M.; Ng, A. Y.; Jordan, M. I. (2003).Latent Dirichlet Allocation. JMLR. pp 993-1022.
2005Feifei Li等人将LDA应用于计算机视觉领域Fei-Fei, L. and Perona, P. (2005). A Bayesian hierarchical model for learning natural scene categories.2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2: 524-531.

发展分析

瓶颈

pLSA 模型pLSA 模型在文档层面不提供任何概率模型,因而很难泛化到新的没见过的文档,另一个缺点是P(c | d)的参数数随着文档数量线性增长,这会导致过拟合问题。

未来发展方向

作为主题模型的一种,pLSA在推荐系统、自然语言处理相关方向都有广泛应用。

Contributor:Yuanyuan Li

相关人物
吴恩达
吴恩达
斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。
Thomas Hofmann
Thomas Hofmann
李飞飞
李飞飞
李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。
简介
相关人物