光纤在数据中心网络中的应用
1.1.3 随机森林 一、定义 在机器学习中,随机森林是一个包含多个决策树的分类器,其输出的类别是由个别树输出的类别的众数而定(随机森林就是通过集成学习的思想将多棵树集成的一种算法,其基本单元是决策树)。 二、优缺点 1.优点
2.缺点
三、重要知识点 1.随机森林的每棵树的生成规则(A表示训练集总样本个数、N表示训练样本个数、M表示特征个数) (1)对于每棵树随机有放回的从训练集中抽取N个训练样本,作为该树的训练集 (2)指定一个常数m< 2..为什么要随机抽样训练集? 随机抽样是为了保证每棵树的训练集都不一样,若不随机抽样会导致最终训练出的分类结果完全一样。 3.为什么要有放回的抽样? 有放回的抽样才能保证每次抽取时的概率是一样的,达到独立同分布,可保证每一棵决策树都是相互独立的。 4.随机森林分类效果(错误率)相关因素? (1)森林中任意两棵树的相关性:相关性越大,错误率越大 (2)森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低 (注:减小特征选择个数m,树的相关性和分类能力会相应降低,反之会随之增大)
四、代码 小结
本篇文章主要讲解了如何选择一合适技术栈,以及后面分享的技术实时数仓的架构图。我们在离线数仓使用的是hive我们可以在Hive中进行一个层,而要做实时数仓的话需要使用消息队列来做分层,本次项目使用Kafka来分层。我在这里为大家提供大数据的资源需要的朋友可以去下面GitHub去下载,信自己,努力和汗水总会能得到回报的。我是大数据老哥,我们下期见~~~ (编辑:衡水站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |