组件名称:TFIDF-逆词频向量

  [版本号:5] [更新时间:2019-10-28]

简介

  TFIDF-逆词频向量:TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,【该组件执行后可以生成模型,后续将保存在左侧组件栏下方的模型列表,直接拖拽到画布使用或在快速应用页面直接使用。】

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量数据表名 全量数据表名,表名不可以是中文可选 -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
在所有文档中词语出现的文档数 过滤以忽略文档中的稀有字词。对应所有文档,忽略词语出现的文档数小于阈值的词语。默认值为1可选 1 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要转换TFIDF特征的字段 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__tfidf_vectors IDF逆向转换后的字段列 向量

results matching ""

    No results matching ""