组件名称:HashTF-词频向量

  [版本号:5] [更新时间:2019-09-20]

简介

  HashTF-词频向量:使用散列技巧将一系列词语映射到其词频的向量。HashingTF 的过程就是对每一个词作了一次哈希并对特征维数取余得到该词的位置,然后按照该词出现的次数计次。不用像传统方法一样每次维护一张词表,运用 HashingTF 就可以方便的得到该词所对应向量元素的位置。代价是向量维数会非常大,好在 spark 可以支持稀疏向量,所以计算开销并不大。【该组件执行后可以生成模型,后续将保存在左侧组件栏下方的模型列表,直接拖拽到画布使用或在快速应用页面直接使用。】

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
特征向量维度 默认为空,此情况下特征向量维度是2^18次方=262144维度可选 262144 -
二值化 可选的二值参数控制输出向量,如果设置为真那么所有非零的计数为1。这对于二值型离散概率模型非常有用可选 False -
全量数据保存 全量HashingTF特征向量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
全量数据表名 全量数据表名,表名不可以是中文可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要转换HashingTF特征的字段 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__hashingtf_vectors 哈希词频向量字段列 向量

results matching ""

    No results matching ""