组件名称:缺失值填充

  [版本号:5] [更新时间:2019-09-20]

简介

  缺失值填充:针对数据集中各字段缺失的情况,采取一定规则进行填充。组件中主要采取三种填充方法,针对数值型的字段采取该字段的非空值的中值和均值进行填充;针对字符型的字段采取统一的标注字符串进行填充。

组件详情

  对于某个对象的属性值未知的情况,我们称它在该属性的取值为空值(null value)。可以把空值分成以下三类:

1)不存在型空值。即无法填入的值,或称对象在该属性上无法取值,如一个未婚者的配偶姓名等。

2)存在型空值。即对象在该属性上取值是存在的,但暂时无法知道。一旦对象在该属性上的实际值被确知以后,人们就可以用相应的实际值来取代原来的空值,使信息趋于完全。存在型空值是不确定性的一种表征,该类空值的实际值在当前是未知的。但它有确定性的一面,诸如它的实际值确实存在,总是落在一个人们可以确定的区间内。一般情况下,空值是指存在型空值。

3)占位型空值。即无法确定是不存在型空值还是存在型空值,这要随着时间的推移才能够清楚,是最不确定的一类。这种空值除填充空位外,并不代表任何其他信息。

  数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,空值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;第二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;第三,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。 数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,空缺的数据需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。

  组件中主要采取三种填充方法,针对数值型的字段采取该字段的非空值的中值和均值进行填充;针对字符型的字段采取统一的标注字符填充,即生成新类别。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
全量数据表名 全量数据表名,表名不可以是中文可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
用中位数填充的字段列可选 选择需要用中位数填充缺失值的字段列 必填
用均值填充的字段列可选 选择需要用均值填充缺失值的字段列 必填
指定值填充缺失值可选 以字典的格式传入。字典的键是含有缺失值的列名,请加上单引号,键对应的值是字段要填充的值,字符串需要加单引号。例如填写{"age":50,"name":"unknown"},表示将列age的缺失值填充为50,把name的缺失值填充为"unknown"字符串。字典中值的数据类型必须于数据列的类型一致,数值型对应数值型或者能够转换为数值的字符串,字符型对应字符型,否则不发生作用。 -

results matching ""

    No results matching ""