组件名称:分层加权采样

  [版本号:5] [更新时间:2019-10-28]

简介

  分层加权采样:针对性地对数据某字段列里的某些值进行加权抽样。根据数据集字段列所有值的分布情况,对指定的数据内容按照比例抽样选取。例如在一个学生群体数据集中,可以针对性别属性进行指定列采样,分别对男女生按照不同比例抽取计算数据。

输入和输出

  输入端口个数:1

  输出端口个数:1

参数配置

参数名称 参数说明 参数默认值 是否必填
种子数 数据每次抽样的随机种子数,保证数据抽样的随机性 100 -
全量数据保存 节点输出的全量数据是否保存至数据库;若保存,会增加时间及存储资源开销可选 No -
全量数据表名 全量数据表名,表名不可以是中文可选 -

字段配置

字段名称 字段说明 字段默认值 是否必配
指定分层的目标抽样列名必选 必填
目标采样列各值的比例 比例在[0,1]之内。格式以字典的形式传入,如{2017:0.5,2016:0.3,2015:0.3},表示对目标列,值为2017、2016、2015的分别采样50%、30%、30%。又例如{"a":0.5,"b":0.5},表示对目标列值为"a"和"b"的分别采样50%。 -

results matching ""

    No results matching ""