概率的潜在语义分析(PLSA),也称为概率潜在语义索引(PLSI,尤其是在信息检索领域),是用于分析双模和共现数据的统计方法。 实际上,人们可以根据对某些隐变量的亲和性来推导出观测变量的低维表示,就像PLSA是从潜在语义分析中演化而来。
与源于线性代数并缩小发生表(通常通过奇异值分解)的标准潜在语义分析所不同的是,概率潜在语义分析基于从潜类模型导出的混合分解。
模型
考虑到以单词和文档的共现 形式进行的观察,PLSA将每次共现的概率建模为条件独立的多项分布的混合:
其中'c'是单词的主题。值得注意的是,模型的主题数量是一个超参数,必须提前设置而不是从数据中估计。第一个公式是对称式,其中 和 都是以类似的方式从潜变量 生成(基于条件概率 和 );而第二个公式是不对称的 ,对于每个文档 根据 有条件地从文档中选择潜在类 ,然后根据 从该类生成一个单词。虽然在这个例子中我们使用单词和文档建模,但是任何离散变量的共现也可以用完全相同的方式建模。
因此,模型参数的数量等于 ,参数数量随文档数量呈线性增长。此外,尽管PLSA是基于文档集的生成模型,但它并不是新文档的生成模型。
模型的参数使用最大期望算法(EM算法)学习得到。
应用
PLSA可以通过Fisher核函数用于判别设置。[1]
扩展
- 分层扩展:
- 生成模型:已经开发了以下模型来解决经常被批评的PLSA缺点——它不是新文档的正确生成模型。
- 潜在狄利克雷分配(LDA)——在每个文档-主题分布上添加狄利克雷先验
- 高阶数据:尽管在科学文献中很少讨论这一点,但PLSA可以自然地扩展到更高阶数据(三种模式或更高阶),它可以模拟三个或更多变量的共现。在上面的对称公式中,这仅需要为这些附加变量添加条件概率分布就可以实现。这是非负张量因子分解的概率类比。
历史
这是潜类模型的一个特例(参见其中的参考文献),它与非负矩阵分解有关。[5][6]当前的术语是由Thomas Hofmann在1999年创造的。[7]
参见
参考文献
外部链接
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.