组件名称:LDA主题分类

  [版本号:5] [更新时间:2019-09-20]

简介

  LDA主题分类:LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。【该组件执行后可以生成模型,后续将保存在左侧组件栏下方的模型列表,直接拖拽到画布使用或在快速应用页面直接使用。】

组件详情

  点击进入组件【LDA主题分类】详情介绍

输入和输出

  输入端口个数:1

  第1个输入端口输入【词频向量】

  输出端口个数:1

  第1个输出端口输出【模型对训练数据的预测结果数据】

参数配置

参数名称 参数说明 参数默认值 是否必填
迭代次数 做足够的迭代是很重要的。比如在早期迭代中,通常具有无用的主题,但在多次迭代之后,这些主题会显著提高。根据数据集的不同,使用至少20次,可能50-100次迭代通常是合理的。【寻求最优参数】下是最大迭代次数,从起始20次到该值进行不同迭代次数的多次训练,递增间隔是【迭代递增步长】,一般取值为【迭代递增步长】的整数倍数;【确定参数】下,是确定好的迭代次数,运行一次必填 80 -
主题数量(或者说聚簇中心数量) 【寻求最优参数】下是最大主题数量,从起始2个主题到该值进行不同主题数量的多次训练;【确定参数】下,是确定好的训练的主题数量,运行一次。必填 5 -
迭代递增步长 【寻求最优参数】下,迭代次数增加的间隔必填 20 -
全量主题词语向量分布数据是否保存可选 No -
全量文档主题向量分布数据表名可选 -
全量主题词语向量分布数据表名可选 -
显示每个主题下的概率权重最高的词的个数 默认10可选 100 -
训练模式 1.寻求最优参数模式:通过不同主题个数和不同次数地迭代进行多次训练,展现每一次训练的指标值,通过判断确定最优参数,主题个数从2开始,迭代次数从20开始。耗时长,是反复的测试过程。2.确定参数模式:指定主题个数和迭代次数,一般都是在确定参数后的一次训练。 寻求最优参数 -
是否计算对数似然率 对数似然率是LDA模型的主要评估指标,选择Yes将在评估报告中输出对数似然率图形,该步骤是对根据训练好的模型对整个训练集进行计算,很耗费时间。 Yes -
全量文档主题向量分布数据是否保存可选 No -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 选择需要进行LDA处理的字段 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__topics LDA预测的每个主题的权重数组字段列 向量
__max_likelihood_topic LDA预测的最大可能性的主题 短整型

results matching ""

    No results matching ""