组件名称:异常值过滤—检测

  [版本号:5] [更新时间:2019-09-20]

简介

  异常值过滤|检测:为了检测查询所选数据列里的异常数据或者过滤所选数据列的异常数据。实验室将由于系统误差,人为误差或者固有数据的变异使得他们与总体数据的特征、结构或相关性等不一样的数据定义为异常值。该组件主要设计两类处理方法:3σ探测方法和四分位数展布法。其中3σ探测方法的思想其实就是来源于切比雪夫不等式。

组件详情

(1)3σ探测方法

  3σ探测方法的思想其实就是来源于切比雪夫不等式。 对于任意ε>0,有:P(XE(x)>=ε)<=D(X))ε2P(|X-E(x)|>=\varepsilon )<=\frac{D(X))}{\varepsilon ^{2}}ε=3σ\varepsilon =3\sigma时,如果总体为一般总体的时候,统计数据与平均值的离散程度可以由其标准差D(x)=σ\sigma反映,因此有:P(XE(x)>=3σ)<=D(X))(3σ)20.11P(|X-E(x)|>=3\sigma )<=\frac{D(X))}{(3\sigma )^{2}}\approx 0.11。 一般所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内。所以如果我们一般是把超过三个离散值的数据称之为异常值。这个方法在实际应用中很方便的使用,但是他只有在单个属性的情况下才适用。

(2)四分位数展布法

  把数据按照从小到大排序,其中25%为上四分位用FLF_{L}表示,75%处为下四分位用FUF_{U}表示。 计算展布为:dF=FLFUd_{F}=F_{L}-F_{U} 上截断为:FL+1.5dFF_{L}+1.5d_{F} 下截断点为:FU1.5dFF_{U}-1.5d_{F} 上面的参数1.5不是绝对的,而是根据经验,但是效果很好哦。我们把异常值定义为大于上截断点,或者小于下截断点的数据称为异常值。 优点:与方差和极差相比,更加不如意受极端值的影响,且处理大规模数据效果很好。 缺点:小规模处理略显粗糙。而且只适合单个属相的检测。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
结果集内容 指定输出结果集是异常值数据还是非异常值数据(正常值),输出异常值可以查看包含的异常值记录,输出正常值可以作为下一环节处理的输入 输出异常值记录 -
特征异常检测方式 特征异常检测的类型:“四分位数展布法”表示箱线图的异常值截断点,也称内限,也即Q3(上四分位数)+1.5IQR(四分位距)和Q1(下四分位数)-1.5IQR两个位置,处于内限以外位置的点表示的数据都是异常值;“3σ探测方法”表示相应的数值字段与平均值的偏差超过两倍标准差的数值为异常值可选 四分位数展布法 -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
全量数据表名 全量数据表名,表名不可以是中文可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
检测特征列必选 用于检测是否存在异常的特征列,类型字段要求数值类型 -

运行后生成的字段列

  运行之后生成的字段列是该组件新增的字段列,在结果数据中会体现出来,后续节点可以选择到这些字段列。

字段名称 字段说明 字段类型

results matching ""

    No results matching ""