您好,欢迎来到网暖!

当前位置:网暖 » 站长资讯 » 建站基础 » 网络技术 » 文章详细 订阅RssFeed

不同预测算法比较实例(R语言)

来源:网络整理 浏览:239次 时间:2022-05-17

      实例演示框架


此次我们使用的样本数据共538条,包括18个自变量和1个因变量组成。因变量取0时代表会发生异常,取1时代表不会发生异常。整体演示框架如下:

实例演示框架

step1

SMOTE方法平衡正负样本;

LOF方法剔除异常值;

step2



step3

分别使用随机森林、逻辑回归、

svm训练分类器;


绘制3个分类器的ROC曲线,

比较结果;



      分步讲解


step1

导入数据后,观察y值的取值分布,发现整体样本较少,且正样本数与负样本数比例仅为4:10,因此需要扩充样本并进行正负样本平衡,这里我们使用SMOTE方法。

对数据扩充平衡后,使用LOF方法,删除异常点。根据下方异常值得分密度图,将得分超过3的点作为异常点剔除。

剔除后,数据分布如下:

step2

对处理后数据进行训练集与测试集划分,使用三种算法在训练集上构建分类器,在测试集上比较结果。

首先使用随机森林构建分类器。在构建随机森林分类器时,根据OBB误差最小选择合适的mtry值,再根据树的棵树与误差图选择合适的ntree值。

确定好参数后,训练最终分类器,并可得到变量重要性排序。

构建好随即森林分类器后,继续将逻辑回归及svm分类器构建完毕,然后将三个分类器分别对测试集进行预测。

step3

通过roc曲线比较三个分类器效果。在本例中,随即森林效果最好,逻辑回归效果最差。

      完整代码


本例涉及到多个包,关于R语言包的安装方法可参见R语言包的安装。





推荐站点

  • 腾讯腾讯

    腾讯网(www.QQ.com)是中国浏览量最大的中文门户网站,是腾讯公司推出的集新闻信息、互动社区、娱乐产品和基础服务为一体的大型综合门户网站。腾讯网服务于全球华人用户,致力成为最具传播力和互动性,权威、主流、时尚的互联网媒体平台。通过强大的实时新闻和全面深入的信息资讯服务,为中国数以亿计的互联网用户提供富有创意的网上新生活。

    www.qq.com
  • 搜狐搜狐

    搜狐网是全球最大的中文门户网站,为用户提供24小时不间断的最新资讯,及搜索、邮件等网络服务。内容包括全球热点事件、突发新闻、时事评论、热播影视剧、体育赛事、行业动态、生活服务信息,以及论坛、博客、微博、我的搜狐等互动空间。

    www.sohu.com
  • 网易网易

    网易是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。

    www.163.com
  • 新浪新浪

    新浪网为全球用户24小时提供全面及时的中文资讯,内容覆盖国内外突发新闻事件、体坛赛事、娱乐时尚、产业资讯、实用信息等,设有新闻、体育、娱乐、财经、科技、房产、汽车等30多个内容频道,同时开设博客、视频、论坛等自由互动交流空间。

    www.sina.com.cn
  • 百度一下百度一下

    百度一下,你就知道

    www.baidu.com