组件名称

  随机森林分类 [版本号:1] [更新时间:2018-05-08]

简介

  随机森林(random forest),实现过程通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个回归树组成随机森林,单棵树的预测能力可能很小,但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的预测结果经统计后均值作为最终结果。它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
计算信息增益的准则 用于信息增益计算的标准(不区分大小写)。可支持的选项: entropy,gini 可选 gini 必填
种子数 设置随机种子数值,大于0的整数. 默认是空 可选 必填
最小实例数 每个子项在拆分后必须具有的最小实例数。 如果拆分后导致左或右子节点少于最小实例数,则此拆分将作为无效丢弃。 可选 1 必填
森林中决策树的个数 训练过程用到的树的个数 可选 20 必填
最大树深 5 必填
每棵树每次分裂选取特征策略 设置特征维度属性子集选取策略(随机森林有两个随机,构成树的样本随机,每棵树分裂的特征属性是随机的。支持的选项有: auto, all, onethird, sqrt, log2, (0.0-1.0], 1-n 可选 auto 必填
最小信息增益值 分裂节点时所需最小信息增益值 可选 0 必填
用于学习每个决策树的训练数据的比例分数 在范围(0,1] 可选 1 必填
最大的划分数 连续型特征离散化的最大数量 可选 100 必填

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入模型的样本特征列 必选 支持Double/Int类型字段 必填
标签列 输入模型的样本类别标签列 必选 支持Double/Int类型字段 必填

输出节点的字段配置说明

  运行后不生成新字段。后续节点可以直接选择字段。

results matching ""

    No results matching ""