Skip to content

undersampling - oversampling - 欠采样/过采样 #70

@junxnone

Description

@junxnone

Reference

undersampling

多数据较多的类别丢弃一些样例,使得各类别数据量更平衡

EasyEnsemble - 模型融合

  • 把数量较多的类别分成多个子集
  • 把子集和数据量较少的类别合成数据集训练多个子模型
  • 多个模型集成

image

BalanceCascade - 增量训练

  • 欠采样数量较多(major)的样本
  • 训练一个分类器
  • 每次移除分类正确的样本

image

NearMiss - KNN

  • 从多数类样本中选取最具代表性的样本用于训练

  • NearMiss-1:选择到最近的K个少数类样本平均距离最近的多数类样本
  • NearMiss-2:选择到最远的K个少数类样本平均距离最近的多数类样本
  • NearMiss-3:对于每个少数类样本,选择K个最近的多数类样本
    • 目的是保证每个少数类样本都被多数类样本包围

ENN - Edited Nearest Neighbor

  • 删除那些类别与其最近的三个近邻样本中的两个或两个以上的样本类别不同的样本

NCL - Neighborhod Cleaning Rule

oversampling

重复采样数据较少的类别,使得各类别输入数据量更平衡

  • 容易过拟合

SMOTE

Synthetic Minority Oversampling Technique

  • 对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中

Borderline-SMOTE

ADASYN - Adaptive Synthetic

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions