文章摘要:高维非均衡数据的整合一直是数据分析所面临的难点之一。针对随机森林(RF)算法以及过采样技术(Oversampling)处理高维非均衡数据的不足,提出了新的算法:首先结合随机森林模型基尼系数与OOB准确率提出MAG算法,并用此算法对高维数据进行降维处理;其次用动态离差平方和(PDSSD)机器学习方法改进中心SMOTE算法来优化非均衡数据少样本结构,使数据结构成为低维均衡结构;最后运用最小二乘支持向量机(LSSVM)与随机森林(RF)对整合数据进行分类来判定本文所提出的算法的有效性。RF分类器和LSSVM分类器的实验结果表明本文所提出的MAG-PDSSD-SMOTE算法整合数据较已有方法在F-value值、G-mean值和Accuracy值上都有显著的提高,表明所提出算法整合数据较已有方法更精准,但从时间复杂度来看,提出的MAG-PDSSD-SMOTE算法比已有方法复杂一点,但还是处于同一个数量级别。
文章关键词:
项目基金:《黑龙江医学》 网址: http://www.hljyxzzs.cn/qikandaodu/2021/1112/2061.html