哪门编程语言比较适合非计算机专业学生学习

发布时间：2021-01-29 14:17:08 所属栏目：评论来源：互联网

导读：注： g(D, A)表示特征A对训练数据集D的信息增益 H(D)表示集合D的信息熵 H(D|A)表示条件熵 3.常用算法 (1)ID3算法 ID3算法是采用信息增益作为特征选择的标准，信息增益越大，说明按此特征分类后越能消除信息的不确定性。 (2)C4.5算法 ID3算法具有两大缺点：一

注：

g(D, A)表示特征A对训练数据集D的信息增益
H(D)表示集合D的信息熵
H(D|A)表示条件熵

3.常用算法

(1)ID3算法

ID3算法是采用信息增益作为特征选择的标准，信息增益越大，说明按此特征分类后越能消除信息的不确定性。

(2)C4.5算法

ID3算法具有两大缺点：一个是类别越多的特征计算出的信息增益越大，易导致生成的决策树广而浅;另一个是只能处理离散变量，不能处理连续变量。C4.5是在ID3的算法基础上采用信息增益率作为特征选择，通过增加类别的惩罚因子，规避了类别越多信息增益越大的问题，同时也可以对连续变量通过均值离散化的方式解决无法处理连续变量的问题。

数据来源PV/UV数据来源

来自于页面埋点数据，将用户访问数据发送到web服务器
web服务器直接将该部分数据写入到kafka的click_log topic 中

销售金额与订单量数据来源

订单数据来源于mysql
订单数据来自binlog日志，通过canal 实时将数据写入到kafka的order的topic中

购物车数据和评论数据

购物车数据一般不会直接操作mysql，通过客户端程序写入到kafka(消息队列)中
评论数据也是通过客户端程序写入kafka(消息队列)中

三、架构设计

根据分析需求我们可以这样设计我们架构。

根据上述图片就可以清晰的分析出该用什么技术。我在这里也推荐一下仅供参考

如果对延迟要求不高的情况下，可以使用 Spark Streaming，它拥有丰富的高级 API，使用简单，并且 Spark 生态也比较成熟，吞吐量大，部署简单，社区活跃度较高，从 GitHub 的 star 数量也可以看得出来现在公司用 Spark 还是居多的，并且在新版本还引入了 Structured Streaming，这也会让 Spark 的体系更加完善。

如果对延迟性要求非常高的话，可以使用当下最火的流处理框架 Flink，采用原生的流处理系统，保证了低延迟性，在 API 和容错性方面做的也比较完善，使用和部署相对来说也是比较简单的，加上国内阿里贡献的 Blink，相信接下来 Flink 的功能将会更加完善，发展也会更加好，社区问题的响应速度也是非常快的，另外还有专门的钉钉大群和中文列表供大家提问，每周还会有专家进行直播讲解和答疑。

本项目：使用Flink来搭建实时计算平台

二、需求分析

目前需求有最后通过报表实时展示：

统计用户日活对比分析(PV、UV、游客数)分别使用柱状图显示

（编辑：衡水站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

蓄势待发！小米12三机	入世20年之我见\|宋和平
如何诚实地宣传 Win11	苹果柏林第二家AppleS