组件名称:K均值聚类

  [版本号:5] [更新时间:2019-09-20]

简介

  K均值聚类:k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。【该组件执行后可以生成模型,后续将保存在左侧组件栏下方的模型列表,直接拖拽到画布使用或在快速应用页面直接使用。】

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
类簇个数 要聚类的类簇个数,至少2类 2 -
最大迭代次数 20 -
初始聚类中心选择 可以选择随机点(random)作为初始聚类中心,也可利用k-means++算法(使用并行方式选择相距较远的点做为聚类中心的算法,对看kmeans的改进)选择聚类中心 k-means -
最小收敛误差 1e-06 -
种子数 设置随机种子数值,大于0的整数.默认是空 -

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列必须是数值型字段列必选 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__prediction 预测结果字段列 双精度类型

results matching ""

    No results matching ""