组件名称

  LDA主题模型 [版本号:1] [更新时间:2018-08-09]

简介

  LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。平台算法是按照Hoffman论文实现的一种在线变分学习算法,在线变分预测是一种训练LDA模型的技术,它以小批次增量式地处理数据,比较节省内存。由于每次处理一小批数据,我们可以轻易地将其扩展应用到大数据集上。LDA多用途包括聚类、降维和特征生成,一举多得,典型的多面手。LDA为每一篇文章推断一个主题分布,K个主题即是K个数值特征。这些特征可以被用在像逻辑回归或者决策树这样的算法中用于预测任务。降维:每篇文章在主题上的分布提供了一个文章的简洁总结,在这个降维了的特征空间中进行文章比较,比在原始的词汇的特征空间中更有意义。模型中文档在主题上分布的先验参数α和主题在单词上的先验分布参数β均使用默认的。

组件详情

  点击进入组件【LDA主题模型】详情介绍

输入和输出

  输入端口个数:1

  第1个输入端口输入【词频向量】

  输出端口个数:1

  第1个输出端口输出【模型对训练数据的预测结果数据】

参数配置

  

字段配置

  

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""