SSH只能用于远程Linux主机?
|
针对数据的提取、转换和加载(Extract Transform Load,ETL),Cascading提供了6个基本操作:
初级的ETL应用程序通常涉及数据和文件的复制,以及不良数据的过滤。针对多种不同数据源的输入文件,需要对它们进行合并。计数和平均是对数据和记录进行处理的常用操作。结合指的是将不同处理分支中的处理结果按照给定的规则进行结合。 10 Spark
与Hadoop类似,Spark也是一个针对大数据的分布式计算框架。Spark可以用来构建大规模、低延迟的数据处理应用程序。 ig有两种工作模式:Local模式和MapReduce模式。 在Local模式下,Pig的运行独立于Hadoop体系结构,全部操作均在本地进行。 在MapReduce模式下,Pig使用了Hadoop集群中的分布式文件系统HDFS。 作为一种程序设计语言,Pig能够对数据进行加载、处理,并且存储获得的结果。Pig和Hive均能够简化Hadoop的常见工作任务。Hive通常应用在静态数据上,处理例行性的分析任务。 Pig比Hive在规模上更加轻量,其与SQL的结合使得用户能够使用比Hive更加简洁的代码来给出解决方案。与MapReduce相比,Pig在接口方面提供了更高层次的抽象,具有更多的数据结构类型。此外,Pig还提供了大量的数据变换操作,MapReduce在这方面比较薄弱。 09 Cascading
Cascading是用Java语言编写成的开源库,能够脱离MapReduce来完成对复杂数据工作流的处理。该开源库提供的应用程序编程接口定义了复杂的数据流以及将这些数据流与后端系统集成的规则。此外,其还定义了将逻辑数据流映射至计算平台并进行执行的规则。 然使用MapReduce也能够实现查询,但是对于逻辑复杂度高的查询,用户在实现时难度较大。Hive提供类似于SQL的语法接口,降低了学习成本,提高了开发效率。 Hive基于SQL的语法来定义名为HiveQL或HQL的查询语言,其支持常规的索引化和基本的数据查询,更重要的是能够将基于SQL的查询需求转化为MapReduce的作业例程。 除了自身具有的功能之外,用户可以在Hive中编写自定义函数,具体来说分为三种:
08 Pig
Pig是一个面向过程的高级程序设计语言,能够分析大型数据集,并将结果表示为数据流,其内置了多种数据类型,并且支持元组(tuple)、映射(map)和包(package)等范式。 (编辑:衡水站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


