组件名称:字符串相似度
[版本号:5] [更新时间:2019-10-28]
简介
字符串相似度:主要用来求两个字符串之间的距离和相似度大小(取值0-1,越接近1表示越相似)。计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域。提供两种计算方式:Levenshtein Distance(编辑距离),HammingDistance(海明距离)。
输入和输出
输入端口个数:1
输出端口个数:1
参数配置
参数名称 | 参数说明 | 参数默认值 | 是否必填 |
---|---|---|---|
相似度计算方法可选 | 编辑距离 | - | |
全量数据保存 | 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 | No | - |
全量数据表名 | 全量数据表名,表名不可以是中文可选 | - |
字段配置
字段名称 | 字段说明 | 字段默认值 | 是否必配 |
---|---|---|---|
比较字段列【两列】 | 选择需要做字符串相似度的字段列只可选两个字段 | 必填 |
运行后生成的字段列
运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。
字段名称 | 字段说明 | 字段类型 |
---|---|---|
__str_distance | 字符串距离字段列 | 字符串类型 |
__resemblance | 字符串相似度 | 字符串类型 |