组件名称

  Word2Vec [版本号:1] [更新时间:2018-05-08]

简介

  Google 公司在 2013年开放了 Word2vec这一款用于训练词向量的软件工具。Word2vec是实现文本转化为向量表示的重要方法,转换之后可以进行模型处理。word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量模型词典向量数据表名 全量模型词典向量数据表名,表名可以是中文 可选 -
截断句子长度 输入数据中每个句子的最大长度(以词为单位)。任何比这个阈值长的句子都会被截断分割可选 1000 -
窗口大小 模型训练的窗口大小,例如5表示考虑每个词上下文前5个词与后5个词可选 5 -
步长 每次迭代优化的步长大小(>=0)可选 0.025 -
种子数 设置随机种子数值,大于0的整数. 默认是空 可选 -
最大迭代次数 1 -
输出的词的向量维数 默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。 可选 100 -
截断词频 对word2vec模型词典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5。 可选 5 -
全量文本向量数据保存 节点输出的全量文本向量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
全量文本向量数据表名 全量文本向量数据表名,表名可以是中文 可选 -
全量模型词典向量数据数据保存 节点输出的模型词典向量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 选择需要转换Word2Vec特征的字段 必填
原样输出列 推荐添加id列,方便评估 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""