基于云的大数据分析系统_数据分析系统

随着通信技术的高速发展，数据爆炸成为这个时代所有新话题的根源，如何应对这一严峻挑战是业界共同关注的课题。
企业数据以GB、TB再到PB级方式爆炸增长，而其中80%的信息是不需要经常访问的信息，它们占据着大量存储空间。更重要的是，这些数据不能删除，并要保存多年，以应对法规遵从和商业政策等需要。
大数据分析系统设计
很多企业都面临着从大数据中提取所需信息的苦恼，同时需要不断投入高额成本新购设备，来满足大数据存储和计算。一些企业采用甲骨文一体机和EMCGreenplum等解决方案，这些解决方案的最大好处就是开发应用简单。但是，随着数据和应用需求不断增加，此类解决方案诸如设备昂贵、维护费用高等弱点逐渐显露出来，严重影响了它们的使用和推广。
本文介绍了一种基于云计算的大数据分析系统ClouDil。ClouDil系统基于Hadoop平台开发，实现了数据预先清洗，以及大数据的后台统计分析和数据钻取查询的功能。

数据ETL层
    数据ETL层用来实现对不同格式的外部数据提供统一的数据转换，并且在扫描数据时，根据不同的应用需求对数据进行初步的过滤和筛选。当接收到外部数据后，系统调用的数据导入功能把大数据导入到集群中，然后再对大数据进行清洗操作。数据ETL层主要包括以下几个组件：
1.数据适配器来自不同采集渠道的数据格式、数据内容等都可能会不同。最致命的是外部数据可能会出现少量的错误。为了兼容不同格式的数据和排除错误，数据适配器定义了统一的接口和错误的处理方案，并根据不同数据格式编写不同的数据解析类对象。系统根据配置文件来确定外部数据源的格式，以及根据配置文件来确定解析类对象和错误处理方式，把外部数据转换为统一的CSV格式的数据，并输出各种类型的日志。
2.Map对象适配器和Reduce对象适配器它也是定义了统一的接口，能方便增加和修改不同应用的Map对象和Reduce对象。由于外部数据是大数据，因此必须要根据不同的应用需求来过滤数据。一般的应用只会取大数据里面某几个字段和满足一定条件的数据。因此系统会合并不同应用需要的字段和过滤条件，再根据不同的应用需求，做到扫描一次全部大数据，把满足不同需求的数据分类存放到不同的目录中，对数据进行初次的分类和过滤。
3.主动任务调度外部数据都是实时发送过来的，但是很多应用的分析处理又是基于不同时间粒度的数据，例如30分钟的数据，1个小时的数据等。因此需要把数据按时间分目录，然后确认某时间段的数据全部接收完成后，主动任务调度组件就开始工作。具体的处理步骤如下：
a)主动任务调度组件调用数据适配器，根据配置的数据格式，把外部数据按行来解析，并且每一行数据解析为统一的CSV格式，存放到内存中。再根据错误数据判断的标准来确认每个字段项是否正确。如果数据存在错误，再根据错误处理方案来修复或者删除错误数据，以确保数据的完整性和正确性。
b)如果数据正确，主动任务调度组件再调用Map适配器组件和Reduce适配器组件。不同的应用需要编写不同的Map对象和Reduce对象，提取出需要的字段，对数据进行过滤，并且把过滤后的数据分类存放到不同目录中。
数据服务中心层
    在数据服务中心层，系统采用了元数据处理中心组件和智能SQL引擎中间件。其中，智能SQL引擎中间件根据SQL脚本的类型，能识别关系数据库还是Hadoop的模块。如果是发送给Hadoop的脚本，它会自动把脚本分解为Map对象和Reduce对象再进行分布式计算。通过它能大大降低开发难度和提高开发效率。数据处理具体的步骤如下：
1.通过数据适配器和ETL模块，把不同数据源或不同格式的数据进行数据清洗，再把数据导入到Hadoop中。
2.根据不同的应用，编写不同的元数据脚本。把元数据脚本统一优化后，配置到JSON格式的元数据脚本文件中。
3.数据处理中心会把JSON文件的内容读取到内存中，根据配置的业务规则，通过智能算法找出最优的运行模式和不同应用的共性，分解成最优的数据处理组件。
4.不同的数据处理组件对象通过智能SQL引擎中间件的JDBC驱动程序，采用并行的方式运行各自的脚本，实现对数据多次的过滤和统计汇总。
5.系统根据导出数据业务规则，来判断是否把保留在Hadoop中的计算结果导出到关系型数据库。如果数据量不大，并且是结构化的数据，调用关系型数据库的导入工具，把计算结果导出到关系型数据库中；如果数据量比较大，或者是非结构化的数据，这样的数据会继续保留在Hadoop中。
6.数据进入到关系型数据库中后，可以对数据进行进一步的处理。如关联配置信息表等，对数据创建索引等，方便应用层的应用系统查询和下钻。
7.系统把关系型数据库中和Hadoop的数据通过API接口发布到数据总线中，提供给不同的应用层系统使用。通过松耦合的可重复服务，将相关的数据直接呈现给各种应用和流程，并利用开放标准获得数据的可互操作性。
应用层
    应用层主要是采用网页模式来实现不同的应用需求，以及对各种任务的状态、Hadoop运行的状态等进行监控。系统采用开放式和分层设计，可以很方便地增加和删除不同的应用。所有的应用系统不会直接读取Hadoop生成的数据，只能从数据总线来获取数据。应用层主要包括以下几个组件：
1.数据订阅通过数据订阅功能，用户可以灵活订阅自己需要的数据，实现同一订阅的数据可以给不同应用使用，也可以实现同一应用使用不同的订阅数据。通过任务订阅管理来规定任务启动时间、结束数据、运行的周期等，这样可以把更多的资源分配给重要的任务。
2.任务监控由于处理大数据都是很耗时的，并且任务执行的过程可能会出现错误，因此需要对任务的状态进行监控，方便及时发现问题并解决问题。
3.应用系统它是数据的消费者，通过数据总线来获取数据，并且把数据展现给用户。但是Hadoop比较适合大的数据处理，不是很适合做实时的数据查询。因此后台采用主动的数据生成方式，根据不同的应用需要时间段粒度，自动生成数据到关系型数据库或Hadoop中，并且把数据发布到数据服务总线（ESB）中，而不是在用户点击查询按钮时，再去启动后台计算程序。
4.安全体系保证数据不会因人为或者意外的损坏而泄露或更改。系统通过防火墙、入侵检测、安全配置、数据加密、访问认证、权限控制、数据备份等手段来保证数据的安全性。由于传统软件和云计算在技术架构上有着非常明显的差异，在传统解决方案基础上，我们采用先进的数据分级隔离技术。对于共享的数据，以及安全级别比较低的数据，放在共享区。对于安全级别比较高、隐私的数据，隔离放在不同区。
系统主要特点
    ClouDil系统主要的特点如下：1.系统保留了Hadoop具有集群规模大（可扩展到1500台服务器以上）、存储容量大（可存储PB级数据）、并发用户数大（可满足几百个用户同时在线）等基本的特点外，还特别加强了安全性和容灾性的处理，以满足不同用户的特殊需求。
2.在高效性、高可靠性、高容错性的基础上，系统提供了智能SQL引擎中间件，简化了云计算系统的开发难度，提高了应用开发效率。
3.最高性价比解决方案。与其他解决方案相比，ClouDil系统最大的特点在于它能任意扩展和减少各种高低配置的电脑，并且能充分利用所有资源大幅减低成本。另外，其他解决方案只能采用专用的软硬件设备，在以后的数据升级维护中，成本会变得非常昂贵。
4.采用成熟的元数据驱动和适配器等设计模式，统一接口，并且把大量可能会出现变化的内容全部设计为元数据文件。实现了数据和功能共享，再通过ESB向外提供一个完善的数据服务中心。
5.完美地结合Hadoop和关系型数据库各自的优缺点。把处理时间长、数据量大的非结构化数据交给Hadoop，把处理时间短、数据量小的结构化数据交给关系型数据库，完美地解决了不同应用中各自不同的需求。
目前世纪鼎利ClouDil系统已经在电信、电力等行业的大数据分析领域得到广泛使用，并且获得了用户赞同和好评。他们使用该系统后，在投入较低成本的基础上，获得了高效的计算和存储能力；弥补了以前关系型数据库不能处理大数据的不足；通过使用智能SQL引擎中间件，降低了分布式程序的开发难度，大大提高了应用程序的开发效率；并且通过Hadoop和关系型数据库相结合，解决了结构化数据和非结构化数据、小数据和大数据的实时下钻查询的性能问题。

转载请注明：数据分析 » 基于云的大数据分析系统_数据分析系统