组件名称:中文分词

  [版本号:5] [更新时间:2019-09-20]

简介

  中文分词:用来对中文文本进行分词处理。该组件内部实现分布式jieba分词接口,基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
分词模式 ,支持三种:1)精确模式,试图将句子最精确地切开,适合文本分析;2)全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;3)搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词可选 精确模式 -
是否使用HMM(隐马尔可夫)模型 分词是否使用HMM(隐马尔可夫)模型可选 No -
添加新词或调整词的权重 在默认词典基础上添加自定义词或者对已有的词修改词频。一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。 -
保留的词性 当选择标志词性时,可以选择只保留的选中词性的词语,默认全选 "名词", "动词", "形容词", "介词", "量词", "区别词", "连词", "副词", "叹词", "方位词", "语素", "前缀", "成语", "简称略语", "后缀", "习用语", "数词", "拟声词", "代词", "处所词", "时间词", "助词", "标点符号", "字符串", "语气词", "状态词", "英文字母" -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
全量数据表名 全量数据表名,表名不可以是中文可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要分词的字段 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__words 分词后的字段列 字符串数组
__flags 标注词性模式分词后词性字段列 字符串数组

results matching ""

    No results matching ""