组件名称:Word2Vec

  [版本号:5] [更新时间:2019-10-28]

简介

  Word2Vec:是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。【该组件执行后可以生成模型,后续将保存在左侧组件栏下方的模型列表,直接拖拽到画布使用或在快速应用页面直接使用。】

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
输出的词的向量维数 默认为100。大的size需要更多的训练数据,但是效果会更好.推荐值为几十到几百。可选 100 -
截断词频 对word2vec模型词典做截断.词频少于该值次数的单词会被丢弃掉,默认值为5。可选 5 -
步长 每次迭代优化的步长大小(>=0)可选 0.025 -
窗口大小 模型训练的窗口大小,例如5表示考虑每个词上下文前5个词与后5个词。可选 5 -
截断句子长度 输入数据中每个句子的最大长度(以词为单位)。任何比这个阈值长的句子都会被截断分割可选 1000 -
训练词向量并发数 默认为1,表示单机,可以增大该数量,一般是几十到100可选 1 -
最大迭代次数 1 -
种子数 设置随机种子数值,大于0的整数.默认是空。可选 -
全量向量数据是否保存 节点输出的全量文本向量数据是否保存至数据库;若保存,会增加时间及存储资源开销。可选 No -
全量向量数据报错表名 全量文本向量数据表名,表名不可以是中文。可选 -
全量模型词典向量数据是否保存 节点输出的模型词典向量数据是否保存至数据库;若保存,会增加时间及存储资源开销。可选 No -
全量模型词典向量数据保存表名 全量模型词典向量数据表名,表名不可以是中文。可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 选择需要转换Word2Vec特征的字段 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__word2vec_vectors word2vec转换后的字段列 向量

results matching ""

    No results matching ""