组件名称:杰卡德距离LSH

  [版本号:5] [更新时间:2019-10-28]

简介

  杰卡德距离LSH:LSH(局部敏感哈希)的一种计算方法,是一种针对海量高维数据的快速最近邻查找算法,可应用于近似重复的检测、全基因组的相关研究等领域。平台上模型输入是密集的(dense)或稀疏的(sparse)矢量,每个矢量表示为0和1的集合,杰卡德相似度算法没有考虑向量中潜在数值的大小,而是简单的处理为0和1,这样的处理之后杰卡德方法的计算效率比较高。输出将是可配置维度的向量。相同维度中的哈希值由相同的哈希函数计算。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量数据表名 全量数据表名,表名不可以是中文可选 -
哈希桶的长度 每个哈希桶的长度,桶长度越大则假阴性率越低。默认为1 1 -
哈希表的数量 哈希表的数量(维度)可以平衡运行时间和误判率(OR-amplification)。增加哈希表的数量会提高准确性,但也会增加程序的通信成本和运行时间。在进行哈希值关联的,哈希表按照各自的顺序分别比较,只有其中一个相等则为匹配。默认情况下,哈希表的数量设置为1。 1 -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -

字段配置

字段名称 字段说明 字段默认值 是否必配
选择字段列 选择需要计算的字段列 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__jaccard_LSH_features 杰卡德距离LSH结果列 向量数组

results matching ""

    No results matching ""