组件名称:TF-词频向量

  [版本号:5] [更新时间:2019-09-20]

简介

  TF-词频向量:TF即词频,统计文本中各个词的出现频率,将文本文档的集合转换为词频计数的向量并作为文本特征。一般进行TF处理前要进行词性过滤,停用词过滤。【该组件执行后可以生成模型,后续将保存在左侧组件栏下方的模型列表,直接拖拽到画布使用或在快速应用页面直接使用。】

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
最高词频词个数 根据语料库中的词频排序选出前TOPn个词,默认为空是选择全部词频,在语料库大的情况下,可以截取词频最大的n个可选 -
在所有文档中词语出现的文档数 过滤以忽略文档中的稀有字词。对应所有文档,忽略词语出现的文档数小于阈值的词语。默认值为1可选 1 -
词语在单个文档中最少出现的次数 过滤以忽略文档中的稀有字词。对于每个文档,忽略频数小于给定阈值的词语。默认值为1可选 1 -
二值化 可选的二值参数控制输出向量,如果设置为真那么所有非零的计数为1。这对于二值型离散概率模型非常有用可选 False -
词频向量数据是否保存 节点输出的全量词频向量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
词频向量数据保存表名 全量词频向量数据保存的表名,表名不可以是中文可选 -
语料库词语数据是否保存 节点输出的语料库词语数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
语料库词语数据保存表名 语料库词频数据表名,表名不可以是中文可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要转换TF特征的字段 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__tf_vectors 词频向量字段列 向量

results matching ""

    No results matching ""