Hadoop工具箱：何时使用Hadoop工具箱-数据分析

Hadoop工具箱：何时使用Hadoop工具箱

八年前甚至没有道格切割本来认为这是他自己的孩子的毛绒玩具后的命名该工具会这么快成为愤怒和改变人们和组织看看他们的数据。今天，Hadoop和大数据已经几乎成为同义词对方。但是Hadoop的不只是现在的Hadoop。随着时间的推移它已演变成各种工具，每一个旨在服务于不同的目的一个大的牛群。但粘在一起，他们给你一个powerpacked组合。

话虽如此，在选择这些工具为自己的具体使用情况作为一个尺寸不适合所有必须小心。什么是工作的人可能不是生产力为您服务。所以，在这里我会告诉你哪些工具应该这情景被拾起。这不是一个很大的对比研究，但很短的介绍一些非常有用的工具。而且，这是完全基于我的经验，所以总是有一些建议范围。请随意发表评论或建议，如果您有任何。我很想从你的来信。让我们开始吧：

1 的Hadoop： Hadoop是基本上两件事情，一个分布式文件系统（HDFS ）构成Hadoop的存储层和一个分布式计算框架（MapReduce的）构成的处理层。你应该去的Hadoop如果你的数据是非常巨大的，你有下线，批量处理还挺需求。Hadoop是不适合于实时的东西。你设置一组连接在一起通过网络（称为群集）商品机器的Hadoop集群。然后，通过编写MapReduce程序（或工作）存储大量的数据到HDFS和处理这些数据。分发，HDFS是所有的机器分布在集群和MapReduce处理该分散的数据在本地通过去每台机器，这样你就不必重新定位数据的这个巨大的数额。

2- HBASE ： HBase的是一个分布式的，可扩展性，大数据存储，此前谷歌的BigTable为蓝本。它存储的数据作为键/值对。这基本上是一个数据库， 数据库的NoSQL 像任何其他数据库它的最大优点是，它为您提供的随机读/写功能。正如我刚才所说，Hadoop是不是很好的实时需求，让你可以使用HBase的来达到这一目的。如果你有，你要访问一些实时的数据，你可以将其存储在HBase的。HBase的得到了它自己的一套很不错的API，它可以用来推/拉数据。不仅如此，HBase的可无缝地与MapReduce的集成，以便你可以做批量操作，如索引，分析等等等等

提示： 您可以通过Hadoop作为 存储库 的静态数据和HBase的作为 数据存储 ，这将保存数据是一些加工后随着时间的推移可能会改变。

3- 蜂巢：最初由Facebook开发，配置单元基本上是一个数据仓库。它坐落在Hadoop集群之上，为您提供类似的界面对存储在Hadoop集群中的数据的SQL。然后，您可以编写SQLish查询使用蜂巢的查询语言，称为HiveQL和店面一样进行操作，选择加入，等等。它使处理更容易，你不必做冗长，繁琐的编码。编写简单的蜂房查询，得到的结果。是不是很酷？RDBMS人肯定会喜欢它。简单地映射HDFS文件蜂房表，并开始查询数据。不仅如此，你可以映射表的HBase，以及，对这些数据进行操作。

提示： 使用蜂巢，当你有仓储的需求和你所擅长的SQL，不想写MapReduce作业。但很重要的一点，蜂巢查询被转换成它运行在集群上，让您的结果引擎盖下的相应的MapReduce作业。蜂巢的伎俩为您服务。但每个问题不能使用HiveQL来解决。有时候，如果你真的需要细粒度和复杂的处理，你可能不得不采取的MapReduce的栖身之所。

4- 猪： 猪是一种 数据流语言 ，它允许你通过反复变换它的步骤来处理大量的数据很容易和迅速。它主要有两部分，猪翻译和语言， PigLatin 。猪最初是在雅虎，他们使用广泛。像蜂巢，PigLatin但是查询也被转换成一个MapReduce的工作，并给你的结果。您可以使用猪的同时存储在HDFS和HBase的非常方便的数据。就像蜂巢，猪八戒也真的有效它是什么意思做。它允许你不写MapReduce程序，并通过简单的查询，猪的运做节省了大量的精力和时间。

提示： 使用猪，当你想要做了很多的数据转换的，不想拿编写MapReduce作业疼痛。

5- Sqoop ： Sqoop是一个工具，允许你到关系数据库和Hadoop的之间传输数据。它支持一个单一表或游离形式的SQL查询的增量载荷以及可运行多次导入自上次导入到数据库进行的更新保存作业。不仅如此，进口也可以用于填充在蜂房或HBase的表。随着这Sqoop还允许您将数据输出回从集群中的关系型数据库。

提示： 使用Sqoop当你有大量的遗留数据，你希望它是存储和处理在Hadoop集群，或当你想以增量将数据添加到现有的存储。

6 Oozie的 ： 现在你拥有了一切的地方和想做的处理，但发现它的疯狂，开始工作和人工管理工作流程的所有时间。特别是在情况下，当它需要多个连锁MapReduce作业，共同实现一个目标。你想有一些方法来自动做这一切。不用担心，Oozie的就派上用场了。它是一个可扩展的，可靠的，可扩展 的工作流系统的调度。你刚才定义的工作流（这是 导演非循环图）一次，其余的照顾由Oozie的。您可以使用Oozie的安排MapReduce作业，作业猪，蜂房工作，Sqoop进口，甚至你的Java程序

提示： 使用Oozie的，当你有很多工作运行，并希望基于一些时间来自动一切某些有效的方式（频率）和数据可得性。

7 渡槽 / Chukwa ： 两个水槽和Chukwa是 数据汇总工具 ，并允许您汇总数据以高效，可靠和分布式的方式。你可以从一些地方挑数据转储到您的集群。既然你正在处理BigData，它更有意义做一个分布式和并行方式其中两个这些工具都非常擅长。你只需要定义你的流量和养活他们这些工具和剩下的东西会被他们自动完成。

提示： 去水槽/ Chukwa时，你必须聚集大量的数据到您的Hadoop环境的一个分布式和并行的方式。

8 Avro公司 ： Avro的是一个 数据序列化系统。它提供了类似像协议缓冲器，节俭等系统的功能除了它提供了丰富的类似的数据结构，结构紧凑，速度快，二进制数据格式，容器文件存储持久性数据，RPC机制和非常简单的一些其他功能显著动态语言的集成。而最好的部分是，Avro公司可以很容易地与MapReduce的，蜂巢和猪使用。Avro的使用 JSON 定义的数据类型。

转载请注明：数据分析 » Hadoop工具箱：何时使用Hadoop工具箱