组件名称

  TFIDF-逆词频向量 [版本号:1] [更新时间:2018-05-08]

简介

  TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量数据表名 全量数据表名,表名可以是中文 可选 -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销 可选 No -
出现某个术语的文档的最小数量 默认最小是1 可选 1 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要转换TFIDF特征的字段 必填
原样输出列 推荐添加id列,方便评估 必填

输出节点的字段配置说明

  运行后会生成新字段。输出节点如果需要选择当前节点的字段,需要先运行当前节点,可以采用小数据量运行方式:“从前面节点运行到当前节点”。

results matching ""

    No results matching ""