Uber永久定位系统实时数据分析过程实践！

发布时间：2018-08-26 08:03:47 所属栏目：教程来源：赵钰莹

导读：根据Gartner所言，到2020年，每个智慧城市将使用约13.9亿辆联网汽车，这些汽车配备物联网传感器和其他设备。城市中的车辆定位和行为模式分析将有助于优化流量，更好的规划决策和进行更智能的广告投放。例如，对GPS汽车数据分析可以允许城市基于实时交通信

Spark MapR-DB Connector利用Spark DataSource API。连接器体系结构在每个Spark Executor中都有一个连接对象，允许使用MapR-DB(分区)进行分布式并行写入，读取或扫描。

写入MapR-DB接收器

要将Spark Stream写入MapR-DB，请使用tablePath，idFieldPath，createTable，bulkMode和sampleSize参数指定格式。以下示例将cdf DataFrame写到MapR-DB并启动流。

使用Spark SQL查询MapR-DB JSON

Spark MapR-DB Connector允许用户使用Spark数据集在MapR-DB之上执行复杂的SQL查询和更新，同时应用投影和过滤器下推，自定义分区和数据位置等关键技术。

将数据从MapR-DB加载到Spark数据集中

要将MapR-DB JSON表中的数据加载到Apache Spark数据集，我们可在SparkSession对象上调用loadFromMapRDB方法，提供tableName，schema和case类。这将返回UberwId对象的数据集：

使用Spark SQL探索和查询Uber数据

现在，我们可以查询连续流入MapR-DB的数据，使用Spark DataFrames特定于域的语言或使用Spark SQL来询问。

显示第一行(注意行如何按_id分区和排序，_id由集群ID和反向时间戳组成，反向时间戳首先排序最近的行)。

df.show

每个集群发生多少次搭乘?

df.groupBy("cid").count().orderBy(desc( "count")).show

（编辑：衡水站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

PDF文件如何修改,教您	错误代码678,教您宽带
网站建设前的准备流程	PS怎么快速标注尺寸一