什么是潜在狄利克雷分配（LDA, Latent Dirichlet allocation）？

2023-03-28 13:07:50

什么是潜在狄利克雷分配（LDA, Latent Dirichlet allocation）？

　　本文为大家介绍了主题建模的概念、LDA算法的原理，示例了如何使用Python建立一个基础的LDA主题模型，并使用pyLDAvis对主题进行可视化。

　　图片来源：Kamil Polak

　　主题建模包括从文档术语中提取特征，并使用数学结构和框架（如矩阵分解和奇异值分解）来生成彼此可区分的术语聚类（cluster）或组，这些单词聚类继而形成主题或概念。

　　主题建模是一种对文档进行无监督分类的方法，类似于对数值数据进行聚类。

　　这些概念可以用来解释语料库的主题，也可以在各种文档中一同频繁出现的单词之间建立语义联系。

　　主题建模可以应用于以下方面：

　　发现数据集中隐藏的主题；

　　将文档分类到已经发现的主题中；

　　使用分类来组织/总结/搜索文档。

　　有各种框架和算法可以用以建立主题模型：

　　潜在语义索引（Latent semantic indexing）

　　潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）

　　非负矩阵分解（Non-negative matrix factorization，NMF）

　　在本文中，我们将重点讨论如何使用Python进行LDA主题建模。具体来说，我们将讨论：

　　什么是潜在狄利克雷分配（LDA, Latent Dirichlet allocation）；

　　LDA算法如何工作；

　　如何使用Python建立LDA主题模型。

　　潜在狄利克雷分配（LDA, Latent Dirichlet allocation）是一种生成概率模型（generative probabilistic model），该模型假设每个文档具有类似于概率潜在语义索引模型的主题的组合。

　　简而言之，LDA背后的思想是，每个文档可以通过主题的分布来描述，每个主题可以通过单词的分布来描述。

　　LDA由两部分组成：

　　我们已知的属于文件的单词；

　　需要计算的属于一个主题的单词或属于一个主题的单词的概率。

　　注意：LDA不关心文档中单词的顺序。通常，LDA使用词袋特征（bag-of-word feature）表示来代表文档。

　　以下步骤非常简单地解释了LDA算法的工作原理：

　　1. 对于每个文档，随机将每个单词初始化为K个主题中的一个（事先选择K个主题）；

　　2. 对于每个文档D，浏览每个单词w并计算：

　　P(T | D)：文档D中，指定给主题T的单词的比例；

　　P(W | T)：所有包含单词W的文档中，指定给主题T的比例。

　　3. 考虑所有其他单词及其主题分配，以概率P(T | D)′ P(W | T) 将单词W与主题T重新分配。

　　LDA主题模型的图示如下。

　　图片来源：Wiki

　　下图直观地展示了每个参数如何连接回文本文档和术语。假设我们有M个文档，文档中有N个单词，我们要生成的主题总数为K。

　　图中的黑盒代表核心算法，它利用前面提到的参数从文档中提取K个主题。

　　图片来源：Christine Doig

　　我们将使用Gensim包中的潜在狄利克雷分配（LDA）。

　　首先，我们需要导入包。核心包是re、gensim、spacy和pyLDAvis。此外，我们需要使用matplotlib、numpy和panases以进行数据处理和可视化。

　　像am/is/are/of/a/the/but/…这样的词不包含任何关于“主题”的信息。因此，作为预处理步骤，我们可以将它们从文档中移除。

　　要做到这一点，我们需要从NLT导入停用词。还可以通过添加一些额外的单词来扩展原始的停用词列表。

　　在本教程中，我们将使用20个新闻组数据集，其中包含来自20个不同主题的大约11k个新闻组帖子。这可以作为newsgroups.json获得。

　　删除电子邮件链接和换行符

　　在我们开始主题建模之前，需要清理数据集。首先，删除电子邮件链接、多余的空格和换行符。

　　标记（tokenize）单词和清理文本

　　让我们把每个句子标记成一个单词列表，去掉标点符号和不必要的字符。

　　创建二元（Bigram）模型和三元（Trigram）模型

　　删除停用词（stopword），建立二元模型和词形还原（Lemmatize）

　　在这一步中，我们分别定义了函数以删除停止词、建立二元模型和词形还原，并且依次调用了这些函数。

　　创建主题建模所需的词典和语料库（corpus）

　　Gensim为文档中的每个单词创建一个唯一的id，但是在此之前，我们需要创建一个字典和语料库作为模型的输入。

　　建立主题模型

　　现在我们准备进入核心步骤，使用LDA进行主题建模。让我们开始建立模型。我们将建立20个不同主题的LDA模型，其中每个主题都是关键字的组合，每个关键字在主题中都具有一定的权重（weightage）。

　　一些参数的解释如下：

　　num_topics —需要预先定义的主题数量；

　　chunksize — 每个训练块（training chunk）中要使用的文档数量；

　　alpha — 影响主题稀疏性的超参数；

　　passess — 训练评估的总数。

　　查看LDA模型中的主题

　　我们可以可视化每个主题的关键词和每个关键词的权重（重要性）。

　　计算模型困惑度（Perplexity）和一致性分数（Coherence Score）

　　模型困惑度是对概率分布或概率模型预测样本好坏的一种度量。主题一致性通过测量主题中得分高的单词之间的语义相似度来衡量单个主题的得分。

　　简而言之，它们提供了一种方便的方法来判断一个给定的主题模型有多好。

　　可视化主题-关键词

　　现在，我们可以检查生成的主题和相关的关键词。最好的方法是使用pyLDAvis可视化我们的模型。

　　pyLDAvis旨在帮助用户在一个适合文本数据语料库的主题模型中解释主题。它从拟合好的的线性判别分析主题模型（LDA）中提取信息，以实现基于网络的交互式可视化。

　　1. # Visualize the topics2. pyLDAvis.enable_notebook()3. vis=pyLDAvis.gensim.prepare(lda_model, corpus, id2word)4. vis

　　至此，我们成功建立了一个可观的主题模型！

　　简要地解释一下结果：左手边的每个气泡代表一个话题。气泡越大，该主题就越盛行。根据经验，一个好的主题模型会有大的、不重叠的气泡。

　　我们也可以点击右边的侧边工具条，以调整阿尔法（alpha）参数。

　　主题建模是自然语言处理的主要应用之一。本文的目的是解释什么是主题建模，以及如何在实际使用中实现潜在狄利克雷分配（LDA）模型。

　　为此，我们深入研究了LDA的原理，使用Gensim包中的LDA构建了一个基础的主题模型，并使用pyLDAvis对主题进行了可视化。

　　希望您喜欢该文并有所收获。

建模可视化术语特征

推荐阅读

WPS里面PDF如何删除一页|word文档怎么去除

WPS里面PDF如何删除一页|word文档怎么去除多余的一页，WPS教程，1.word文档怎么去除多余的一页Word怎么删除空白页方法：1。将鼠标放在前一页

电脑里没有word文档怎么办|为什么我的电脑

电脑里没有word文档怎么办|为什么我的电脑没有word文档，，1. 为什么我的电脑没有word文档1、首先打开电脑，进入到电脑桌面中，右键单击Word文

AMD平台专业术语

AMD平台专业术语，，1. AMD VISION技术 AMD公司曾经发布过的一份调查报告显示，消费者推迟购买硬件是由于他们对PC术语感到困惑。因此，AMD公

对照审阅两个wps文档|快速比较两份WPS文档

对照审阅两个wps文档|快速比较两份WPS文档，审阅,对照,两个,文档，1.如何快速比较两份WPS文档使用方法步骤一：用WPS文字同时打开两个需要比较

反向选择word快捷键|word文档转向快捷键

反向选择word快捷键|word文档转向快捷键，，1. word文档转向快捷键打开办公软件 Word ，选择文字右键选择文字方向在弹出的对话框里选择自

的故障_计算机解决无法打印文档

的故障_计算机解决无法打印文档，，核心提示：最近，打印机出现了一个奇怪的现象，在打印正常之前，打印机不能打印最近的突然，提示发送打印作业，计算

wps文档拆分各种元格|WPS拆分单元格

wps文档拆分各种元格|WPS拆分单元格，拆分,文档,wps，1.WPS如何拆分单元格“拆分单元格”是WPS文字和WPS演示中的功能。下面分两部分介绍。

wps去除右键新建文档|右键新建中的wps图标

wps去除右键新建文档|右键新建中的wps图标去掉，右键,去除,新建,文档，1.右键新建中的wps图标怎么去掉----有许多种方法可以删除“新建”菜

wps文档内容杂乱规范|在wps文档固定文字和

wps文档内容杂乱规范|在wps文档固定文字和图片防止排版混乱，杂乱,规范,文档,内容，1.在wps文档怎么固定文字和图片防止排版混乱wps文档固定

文档排版怎么设置|文档文字排版怎么设置

文档排版怎么设置|文档文字排版怎么设置，，1. 文档文字排版怎么设置word的排版问题段落左右两端对齐方法：1.右对齐：是让文本右侧对齐，左侧不考

wps单独打开标签|wps单独打开多个文档,不喜

wps单独打开标签|wps单独打开多个文档,不喜欢在一个窗口显示多个书签，不喜欢在一个窗口显示多个书签),单独,打开,标签,wps，1.wps怎么单独

Win10系统下实现快速打印PDF文档的方法|win

Win10系统下实现快速打印PDF文档的方法|win10系统pdf文件闪退，快速,文档，我们在日常工作中经常都会接触到PDF格式文档，该格式其实也最

mac关闭文档快捷键|mac关闭程序快捷键

mac关闭文档快捷键|mac关闭程序快捷键，，1. mac关闭程序快捷键苹果电脑关机方法：方法一：1、在苹果电脑桌面，点击左上角的“苹果LOGO图标”在弹

关闭wps云文档我的文档|wps云文档关闭

关闭wps云文档我的文档|wps云文档关闭，我的文档,关闭,文档,wps，1.wps云文档怎么关闭以WPS 2019版本为例：如需关闭「文档自动备份」功能，可点

1分钟学会在C++中将图像转换为Word文档，快速

1分钟学会在C++中将图像转换为Word文档，快速入手光学字符处理控件Aspose.OCR！，图像,转换为，图像和扫描的文档可能包含您可能需要进一步处理