本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

保存大数据永不丢失的重要性

大数据技术 cdadata 3245℃

保存大数据永不丢失的重要性

如果有人知道如何保存数据和信息的长期价值,它的程序员在互联网档案,总部设在加利福尼亚州旧金山事实上,互联网档案馆正试图捕捉每一个网页,视频,电视节目,MP3文件,或DVD在世界任何地方出版。如果互联网档案馆正在寻求保持和保存数百年的数据,我们能从这个非营利有关架构的解决方案,以保持我们了解自己的数据维护和访问长期的?

保存大数据永不丢失的重要性

有一个迷人的13分钟的纪录片数据策展人在互联网档案馆的工作。互联网档案馆的使命是“普遍可及的所有数据”。在他们的努力抓取每个网页,扫描每一本书,并提供给世界的任何一个公民信息,互联网档案馆的团队设计了一个系统,它是有弹性的,冗余的,高度可用的。

保存知识世代是不容易的任务。这个艰巨的任务的关键组成部分包括决策技术体系结构数据存储数据访问

首先,几乎所有的技术使用互联网档案,无论是开源软件或商品硬件。对于网页抓取和添加内容到他们的数字档案Heritrix的是由互联网档案馆开发。要启用互联网档案馆的网站上,全文搜索Nutch的对Hadoop的文件系统中运行时使用的 “让谷歌风格的全文检索的网页内容,包括相同的内容,因为它随时间变化。”还有的网站是提HBase的也可以是在混合作为数据库技术。

其次,冗余性和灾难规划的概念出炉到整个互联网档案架构。非营利拥有位于旧金山的服务器,但保持一个多世纪及以后的愿景,互联网档案馆的数据反映在阿姆斯特丹和埃及天气历史事件的波动。

第三,许多企业很难确定他们应该使用,归档,或者扔掉哪些数据。然而,随着硬盘存储成本直线下降,而开源的Hadoop,捕获和存储所有的数据永远比以往任何时候都更加可行。对于互联网档案馆所有的数据被捕获并没有被扔掉。

最后,这是一件事来捕获和存储数据,而另一个使其访问。互联网档案的目标是让世界的知识基础,提供给大家。在互联网档案网站,用户可以搜索和浏览古文书,从查看过去几年录制的视频和艺术家们再也走不动了地球听音乐。布鲁斯特卡勒,互联网档案的创始人说,与一个简单的网络连接; “一个可怜的孩子在Keyna或堪萨斯可以访问…伟大的作品,无论他们在哪里,或者当他们(组成)。”

捕捉多结构化数据山(目前PB级10和成长)是一个令人钦佩的壮举,但是真正的神奇之处在于确保世界上最好,最有用的知识是保存的互联网档案的多世纪的愿景。政治制度来来去去,但随着互联网档案馆的大数据的保存方法,世界上数字内容的珍品有望数百年来存在。

转载请注明:数据分析 » 保存大数据永不丢失的重要性

喜欢 (1)or分享 (0)