组件名称:词云图

  [版本号:5] [更新时间:2019-10-09]

简介

  词云图:“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。该组件可以直接对文本字段数据生成词云图,可以选择各种形状。内置自动经过分词、过滤停用词等处理。不需要对文本先分词。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
图表主题 图表主题决定图表的底色和风格 阳光风格 -
图表高度 图表高度,可以使用百分比或者英寸单位 100% -
图表宽度 图表宽度,可以使用百分比或者英寸单位 100% -
语言类型 提供中文和英文可选 中文 -
词云形状 生成的词云的形状可选 圆形 -
选取频率最大前n个词作为词频结果 默认为100,最大支持1000个,超过自动截取1000个可选 100 -
分词模式 支持三种:1)精确模式,试图将句子最精确地切开,适合文本分析;2)全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;3)搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词可选 精确模式 -
是否使用HMM(隐马尔可夫)模型 分词是否使用HMM(隐马尔可夫)模型可选 No -
添加新词或调整词的权重 在默认词典基础上添加自定义词或者对已有的词修改词频。一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。 -
保留的词性 当选择标志词性时,可以选择只保留的选中词性的词语,默认全选 "名词", "动词", "形容词", "介词", "量词", "区别词", "连词", "副词", "叹词", "方位词", "语素", "前缀", "成语", "简称略语", "后缀", "习用语", "数词", "拟声词", "代词", "处所词", "时间词", "助词", "标点符号", "字符串", "语气词", "状态词", "英文字母" -
是否过滤单字词 可以选择过滤单个字的词语,默认过滤 Yes -
添加过滤词 在停用词表的基础上,添加自定义过滤的词。 -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 需要生成词云图的文本字段列 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__word 词汇字段列 字符串数组
__frequency 词频字段列 短整型

results matching ""

    No results matching ""