加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡水站长网 (https://www.0318zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

光纤在数据中心网络中的应用

发布时间:2021-01-29 14:16:37 所属栏目:评论 来源:互联网
导读:1.1.3 随机森林 一、定义 在机器学习中,随机森林是一个包含多个决策树的分类器,其输出的类别是由个别树输出的类别的众数而定(随机森林就是通过集成学习的思想将多棵树集成的一种算法,其基本单元是决策树)。 二、优缺点 1.优点 具有极好的准确率(由集成算

1.1.3 随机森林

一、定义

在机器学习中,随机森林是一个包含多个决策树的分类器,其输出的类别是由个别树输出的类别的众数而定(随机森林就是通过集成学习的思想将多棵树集成的一种算法,其基本单元是决策树)。

二、优缺点

1.优点

  • 具有极好的准确率(由集成算法的特点引入)
  • 抗过拟合能力:通过平均决策树,降低过拟合的风险性(由随机这个特点引入)
  • 能够有效地运行在大数据集上,处理具有高维特征的输入样本,而且不需要降维
  • 能够评估各个特征在分类问题上的重要性

2.缺点

  • 在某些噪音较大的分类或回归问题上会过拟合
  • 比决策树算法更复杂,计算成本更高

三、重要知识点

1.随机森林的每棵树的生成规则(A表示训练集总样本个数、N表示训练样本个数、M表示特征个数)

(1)对于每棵树随机有放回的从训练集中抽取N个训练样本,作为该树的训练集 (2)指定一个常数m<

2..为什么要随机抽样训练集?

随机抽样是为了保证每棵树的训练集都不一样,若不随机抽样会导致最终训练出的分类结果完全一样。

3.为什么要有放回的抽样?

有放回的抽样才能保证每次抽取时的概率是一样的,达到独立同分布,可保证每一棵决策树都是相互独立的。

4.随机森林分类效果(错误率)相关因素?

(1)森林中任意两棵树的相关性:相关性越大,错误率越大

(2)森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低

(注:减小特征选择个数m,树的相关性和分类能力会相应降低,反之会随之增大)

四、代码
 

小结

本篇文章主要讲解了如何选择一合适技术栈,以及后面分享的技术实时数仓的架构图。我们在离线数仓使用的是hive我们可以在Hive中进行一个层,而要做实时数仓的话需要使用消息队列来做分层,本次项目使用Kafka来分层。我在这里为大家提供大数据的资源需要的朋友可以去下面GitHub去下载,信自己,努力和汗水总会能得到回报的。我是大数据老哥,我们下期见~~~

(编辑:衡水站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读