组件名称:卡方特征选择器

  [版本号:5] [更新时间:2019-10-28]

简介

  卡方特征选择器:主要作用是在高维数据分析中剔除掉“冗余”和“无关”的特征,提升学习器的性能,适用于带有类别特征的标签数据。卡方选择是统计学上常用的一种有监督特征选择方法。基本原理是通过对特征和真实标签之间进行卡方检验,来判断该特征和真实标签的关联程度,进而确定是否对其进行选择。使用卡方检验对特征与应变量进行独立性检验,如果独立性高,那么表示两者没太大关系,特征可以舍弃;如果独立性小,两者相关性高,则说明该特征会对应变量产生比较大的影响,应当选择。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
numTopFeatures的参数 设置固定的提取特征的数量,程序会根据卡方值的高低返回前num个卡方值最高的特征。(预测能力最强的前num个特征) 5 -
fwe的参数 取值[0~1]。p值低于阈值的特征将会被选择出来。此阈值使用1/numFeatures来进行缩放,以控制family-wiseerrorrate(fwe即至少出现一次错误地拒绝真实H0的可能性)来进行特征选择 0.05 -
全量数据表名 全量数据表名,表名不可以是中文可选 -
特征选择方法 选择器支持的不同的特征选择方法,包括以下几种:1.numTopFeatures:根据卡方检验选择固定数量的顶部特征。2.percentile:百分位与numTopFeatures相似,但选择所有特征的一部分,而不是一个固定的数字。3.fpr:选择所有p值低于阈值的特征,从而控制选择的假阳性率。4.fdr:使用Benjamini-Hochbergprocedure来选择错误发现率低于阈值的所有特征。5.fwe:选择所有p值低于阈值的特征。阈值按1/numFeatures进行缩放,从而控制选择的FWER(Familywiseerrorrate)家族模样差别率。 numTopFeatures -
percentile的参数 取值[0~1]。按照百分比选取一小部分特征而不是固定个数num的特征 0.1 -
fpr的参数 取值[0~1]。预先设定一个显著性水平α,所有p值低于α的特征将会被选择出来,此方法可以控制假阳性率来进行特征选择 0.05 -
fdr的参数 取值[0~1]。假阳性率低于阈值的特征将会被选择出来。此方法使用Benjamini-Hochbergprocedure控制错误发现率来进行特征选择。fdr即错误拒绝——拒绝真的(原)假设的个数占所有被拒绝的原假设个数的比例的期望值 0.05 -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销 No -

字段配置

字段名称 字段说明 字段默认值 是否必配
特征列 输入选择器的样本特征列必选支持Double/Int类型字段 必填
标签列 输入模型的样本类别标签列必选支持Double/Int类型字段 必填

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型
__chiselected_features 卡方校验选择器结果字段列 向量

results matching ""

    No results matching ""