组件名称:字符串相似度

  [版本号:5] [更新时间:2019-10-28]

简介

  字符串相似度:主要用来求两个字符串之间的距离和相似度大小(取值0-1,越接近1表示越相似)。计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域。提供两种计算方式:Levenshtein Distance(编辑距离),HammingDistance(海明距离)。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
相似度计算方法可选 编辑距离 -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
全量数据表名 全量数据表名,表名不可以是中文可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
比较字段列【两列】 选择需要做字符串相似度的字段列只可选两个字段 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__str_distance 字符串距离字段列 字符串类型
__resemblance 字符串相似度 字符串类型

results matching ""

    No results matching ""