一种基于混合重取样策略的非均衡数据集分类算法

快速导航

期刊信息

1973年创刊

《计算机工程与科学》的办刊宗旨是为计算机界同行发表有创见的学术论文，介绍有特色的科研成果，探讨有新意的学术观点提供理想园地；�...查看更多>>

通知公告

您现在所在位置：首页 > 期刊导读 > 2012年 > 10 > 信息摘要

【出处】：《计算机工程与科学》 CSCD 2012年第34卷第10期 128-134页,共7页

【作者】：谷琼 ; 袁磊 ; 宁彬 ; 吴钊 ; 华丽 ; 李文新

【摘要】非均衡数据是分类中的常见问题，当一类实例远远多于另一类实例，则代表类非均衡，真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视，非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点，是对传统分类算法的重大挑战。本文提出了一种新型重取样算法，采用改进的SMOTE算法对少数类数据进行过取样，产生新的少数类样本，使类之间数据量基本均衡，然后再根据sMO算法的特点，提出使用聚类的数据欠取样方法，删除冗余或噪音数据。通过对数据集的过取样和清理之后，一些有用的样本被保留下来，减少了数据集规模，增强支持向量机训练执行的效率。实验结果表明，该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。