本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

不是所有的Hadoop用户降酸

hadoop培训 cdadata 2600℃

不是所有的Hadoop用户降酸

在企业的年龄数据,生活在几十甚至上百台服务器,预计交易的完整性和数据的一致性和货币都是老式的概念。Hadoop上,你只需要满足于BASE和最终一致性的新的NoSQL标准。这就是他们说的。但是,像往常一样,“他们”是错误的。并不是所有的Hadoop用户必须降酸。

已经度过了愉快的一天,在Hortonworks在休斯顿最近路演,我用一个有趣的聊天突破它关闭欧文奥马利,一个Hortonworks的联合创始人和设计师。我们开始与一些相互geekiness了在他的讲话中提到的“一个平台来统治他们”,他怎么来命名ORC文件与特定的缩写(优化排柱状,正式)。然后,我们转移到讨论变化面对编程,计算机,数据存储和令人眼花缭乱的飞速进步,我们已经看到两者在我们的有生之年中。最后,我们降落在一个事实,即酸是成为一个高优先级的SQL在Hadoop的世界,现在,它几乎是闻所未闻的很短的时间前。

Hadoop的用户都不得不放弃ACID和解决的新标准,BASE,作为一般规则,但像数据这么多的事情闹得不可开交行业,那也迅速改变。这可能是一个冲击来了很多的Hadoop当前用户和数据库用户考虑将切换到Hadoop的,但使用Hadoop并不意味着你必须放弃你的胃酸的习惯。

凡没有这种酸从何而来?

酸是一种数据库的缩写是很多人的使用,但即使是谁使用了很多的人不一定知道它的产地,所以这里是一个非常简单的定义。(从友好,邻里缩写译者注:有很多更深入的ACID的定义,在那里如果您想了解更多的细节,谷歌是你的朋友虽然,如果你不想让你的头脑完全被震撼,你可能。要搜索“ACID数据库,”不只是ACID)。

原子:一个交易的所有部分都被视为一个单一的动作。所有完成或没有一个是。

一致性:交易遵循的规则和数据库的限制。所以,没有交易创建一个无效数据状态。

隔离:没有未完成的事务会影响另一未完成的事务。

耐久性:一旦一个事务被提交,它完成并且将持续存在,即使有一个系统发生故障。

酸是70年代的关系数据库革命的残存者,我们真的不希望看到去头带和钟底的牛仔裤的方式之一。ACID兼容意味着,欧文奥马利的扎染的话,一个数据库提供“一致更改数据的意见。”ACID创建事务的完整性的心态改变观念,使得关系型数据库在20世纪的革命,它来到了数据管理。

谁在乎的Hadoop没有做酸?不是所有的Hadoop用户降酸

ACID使得标准的CRUD(创建,检索,更新,删除)数据库的操作发生在一个可预见的,可追溯的方式。如果你希望能够查询数据的历史来看,看到最后一周,上月该数据站着,你需要ACID。如果你想跟踪作出特定的行或列随着时间的推移,当他们所做的更改,通过谁,等等,这是酸。如果你想喜欢的人的电子邮件地址,例如,数据保持电流,并始终得到正确的当前地址,当你查询,这是酸。如果您需要删除过去的某个日期,符合政策或法律的老唱片,你需要ACID。如果一些数据被插入不准确,你要能够更新与修正后的数据,ACID。如果需要治疗多发性变化作为一个动作,所以,例如,金钱不能从一个帐户中扣除,除非它被添加到其他的,酸。

基本上,如果你习惯于插入,更新和删除数据,因为它的变化,并具有数据的行为可预测,可靠,你一直在做ACID。

Hadoop是所有关于BASE

在大数据时代,ACID只是一直没有臀部。大多数的NoSQL和Hadoop的数据存储不做ACID。他们工作在一个称为基本原则。(这又是一个模糊数据库的缩写,所以这里的另一个匆匆的定义。)

基本上可用:即使一个计算单元出现故障,集群中的例如一个节点,所有的数据仍然可用于查询。

软状态:数据状态可以随时间即使没有进行任何额外的数据变化而改变。这是因为最终一致性。

最终一致性是真正的基地概念的核心。与试图维持在一个基于集群的数据存储系统更改数据的问题是,数据在多个位置复制。这是在一个地方的变化可能需要一段时间才能传播到另一个地方。所以,如果两个人发送一个查询同时和命中数据的两个不同的复制版本,它们可以得到两个不同的答案。最终,该数据将跨越所有副本,并且该数据被复制,假设在此期间由其他修改,然后将是一致的。这就是所谓的“最终一致性”。

这个概念就是BASE被认为是酸的极性相反。最终一致性假设数据将达到一个一致的,不受干扰的安静状态。有关数据,事情虽然,在一般情况下,是它从不休息。它改变不断。虽然最终一致性试图追赶,新数据的变化极有可能影响系统。这意味着,NoSQL数据库经常发现自己在那柔软的状态下数据的变化和动作,从来没有变得稳定。

对于非常高容量,低改,非事务性数据系统中事务的完整性是不是真的在那里的时,这工作正常。它可以让你的数据,没有规模不断检查,以确保每一个变化通过一束来自男人的规则。它让你的数据从一个很大的限制,并赋予了它更多的自由成长和发现自己。

但是这是有代价的。

最终一致性失败ACID测试

在一个商业环境中,如果两个人发送相同的查询相同的数据在同一时间,他们会期望得到同样的答案。如果两个人问的数据同样的问题,得到两个不同的答案,这答案是正确的?人类对这种情况的一般反应是不相信任何答案。然后,他们扔在数据查询一遍,即使他们没有改变任何东西,软态概念,意味着他们可能会没有第三个答案。这对信任有很大影响。

即采用数据湖概念的企业有Hadoop集群,其实质上是对新数据的不断变化的倾销地。即使预期只有某些数据在SQL的方式进行查询,该数据是极不可能的,以保持静态。如果数据是不断变化的,并正在复制出像的液体,具有波纹的工作他们的方式向外滴落,从未有当数据可以到达该定居,理想一致状态的时间。目前还没有出现时,查询结果可以被视为明确的时间。

ACID兼容的集群为基础的数据管理系统是指“最终一致性”和数据查询的结果是一致的简单回归结束。

什么Hadoop的技术做酸?

奥马利领导负责对符合ACID的蜂巢和HBase的在Hortonworks。Actian,我工作的地方,有一个只有两个基于Hadoop的数据库技术,我知道,一个已经拥有符合ACID,Actian旋涡。另一种是剪接机。人们在熔接机  已经骄傲地穿着T恤在不同的Hadoop活动多年,说:“ 还是做ACID “。

HBase的/蜂房 -那迷幻的幻灯片我偷了(与奥马利的许可)是从一个演讲,他在Hadoop的首脑会议2014年那样,加酸更新蜂巢。他的同事,阿兰·盖茨上个月在圣何塞,做了一个演讲,在地层+ Hadoop的世界蜂巢0.14不酸。这些幻灯片给出一个相当不错的国家的的工会在蜂巢与HBase的。所以,去阅读它们。现在,请。我会等待。请注意,在盖茨的第三滑动,“做或不做,没有尝试。”我爱怎么说整齐,geekily总结酸的精髓。

他的一个其他幻灯片非常强调说,“不是OLTP!”(缩写翻译服务:在线事务处理)和HBase的蜂巢并不意味着运行事务,业务一天到一天的系统,如POS(点销售),或ERP(企业资源规划)。插入,更新和删除功能的目的是保持当前的数据和查询一致,而不是使HBase的类固醇新的Oracle。

所以,这就是蜂巢的HBase上是不好的。到底有什么好处呢?这对时间序列和流数据集绝对真棒。HBase的可从消防软管像人的业务摄取数据,并在Hadoop集群存储,只要你需要它。我并不是说这是唯一的东西是好的。HBase的和蜂巢是非常灵活的系统。但持续数据流,做历史分析是真的击倒,从我的经验园区。

如果你认为你不能有很好的,一致的,目前在查询了大规模,大批量,时间序列数据集,你裂纹。蜂巢是酸性。

熔接机 -你知道,幻灯片蜂房,HBase的,上面写着:“不!OLTP”好,剪接是OLTP。接头是在Hadoop的唯一技术,我知道那是打算用来作为日常的一天,交易,运营RDBMS(关系数据库管理系统)。从本质上讲,他们是甲骨文对类固醇。更准确的说,他们有那种能力,人们期望从一个RDBMS,如Oracle,只有建立在Hadoop上的实惠,行业标准的硬件和横向扩展架构。(他们建立在德比和HBase的核心。)

这是一个疯狂,wacked出,激进的概念,但你真的没有权衡的功能,如标准ANSI SQL(对不起,我完成了。缩写超载。谷歌它。)的支持和ACID兼容拿到承受能力和规模。人们一直的印象是使用Hadoop意味着牺牲易用性,商业智能工具的支持,符合ACID,等下

都能跟得上。你可以有你的Hadoop和RDBMS的,太。

顺便说一句,我绝不参加与拼接机。我知道他们是什么,你可以通过访问他们的网站,或与他们在展销会上,你绝对应该做的聊天学习。

Actian涡 -在另一方面,因为我在工作Actian,我只知道一件事或两个关于Actian涡(原名的Actian分析平台的Hadoop的SQL版,但每个人都厌倦了他说的一切,我知道我做到了。没有人想保持翻译AAP -无论是HSE)Actian涡并不像拼接OLTP数据库。这是一个OLAP(分析,而不是事务)的数据库。从本质上讲,涡更像是Netezza的类固醇,但Actian载体,涡流的单服务器版Netezza公司吹出来的水与查询速度。去检查了TCP-H的非集群基准测试记录。当涉及到查询的响应,Actian矢量几乎打击一切消失在小数据的舞台。因此,涡基本上是矢量的实惠,向外扩展的Hadoop技术。(它有一个核心安格尔,并使用HDFS和纱线。)没有公布的基准还没有,但Cloudera的黑斑羚已经吃我们的灰尘。看看那些基于集群的TCP-H的记录。你可以打赌的钱,涡街将采取那些很快结束。

这是另一回事乡亲想了一会儿,他们不得不放弃时,他们采取了行动,以Hadoop的:交互式查询响应速度。没有人希望能够抛出一个ANSI标准的SQL查询到Hadoop的数据源,百TB的数据,并得到一个不错的,可靠的ACID兼容在几秒钟的回答。但他们应该。该技术是在这里,它的成熟,它的工作原理。

这是什么使它好?它踢屁股在各种响应时间敏感的分析类似财务风险分析,停止ATM欺诈和客户数据 ​​的分析。涡还特别岩石如果你已经习惯了能够点击的Tableau一个点,并将它立即展开了,并且告诉你所有关于你的销售数字的细节像喂养画面,MicroStrategy的,驱动,黄鳍等BI工具新罕布什尔州,但数据的状态得到太大,以适应在Tableau的单服务器内存格式,将涡旋解决您的问题。如果你想扔即席查询你的大数据,并回答了几分钟,而不是几小时,几天或几周的新问题,这是旋涡。如果你需要做一些非常复杂的SQL体操与您的数据,但你还是要能够得到答案背快,旋涡是你的首选药物。

有一个免费版本,也Actian涡快递。随意下载的小狗和浅尝辄止。正如他们所说,前味是免费的。

(我监视Actian涡和数据流社区论坛,所以如果你想聊涡能力,或卡住关于如何做一些事情,就问我。我会回答,或者如果我不能,我会追查谁可以。)

任何人在Hadoop做酸?

这并不是说我知道,但我没有水晶球。在此业务东西变化如此之快很迷幻。有可能已经在Hadoop数据库的地方,不酸,我只是不知道发生什么。或者,有人可能打造一名即将。ping通我的意见,如果你知道Hadoop的系统,该系统是ACID兼容,我没有提到的。我一直在学习。

因此,使用Hadoop并不意味着滴酸?

不,你的选择。如果BASE是你的场景,也有很多不错的数据存储和管理技术,在Hadoop的生态系统。如果你需要事务完整性或者你只是需要你改变数据的一致视图,即使它的Hadoop大象大小,该选项已经在这里,每天都在成熟度和多样性不断增长。无论您是需要ACID兼容的数据系统流动,时间相关的数据,日交易运行数据,或低延迟的分析数据,Hadoop的生态系统可以确保你没有一个坏之旅。

和平。

转载请注明:数据分析 » 不是所有的Hadoop用户降酸

喜欢 (0)or分享 (0)