本站分享:大数据、数据分析师考试认证培训,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训广告位

一个快速指南,以结构化和非结构化数据

大数据技术 cdadata 1361℃

一个快速指南,以结构化和非结构化数据

大数据已经打开的门从未被很多人认为企业。利用非结构化数据进行分析的想法在过去已经太昂贵,大多数公司考虑。由于技术,如Hadoop的,非结构化的数据分析正在成为商业世界更为常见。

企业主可能会想,如果使用非结构化数据可以给他们宝贵的见解,以及。回答这个问题开始理解结构化和非结构化数据之间的差异。

非结构化数据

首先,我想指的是提供了结构化与非结构化数据的快照的说明。

我想加入非结构化数据的定义进一步范围内添加到插图:

“非结构化数据是指信息,要么不具有预先定义的数据模型和/或没有组织以预定方式”。

在晴朗的,非结构化的数据是没有用的,当适合到一个模式/表。我将使用电子邮件作为一个例子。有从该可配合到一个表中的电子邮件的某些值。发件人,收件人,邮件正文等。尽管你可以有电子邮件正文一列,存放在该列中的信息时,会以这样的方式进行分析是无用的。有什么问题可以问分析师的所有数据项中的“电子邮件正文”列?难道他们回答?答案是否定的。

当看着插图很明显,社交媒体在非结构化数据沉重的作用。据该PewResearch,73%的成年网民使用社交网站。其中许多企业都利用这一数据的方法之一是收集品牌人气。

除了社交媒体也有非结构化数据的其他许多常见的形式:

  • Word文档的,PDF文件和其他文本文件 – 书籍,信件,其他书面文件,音频和视频成绩单
  • 音频文件 – 客服录音,语音邮件,911电话
  • 演示文稿 – PPT资源,SlideShares
  • 视频 – 警察破折号凸轮,个人视频,YouTube的上传
  • 图片 – 照片,插图,模因
  • 消息 – 即时消息,短信
  • 在所有这些情况下,数据可以提供令人信服的见解。使用正确的工具,非结构化数据可以添加一个深度的数据分析,可能无法实现,否则。

我想用客户服务的音频和成绩单作为一个例子。多数民众赞成在收集客户服务方案的结构化数据可以包括以下内容:

  • 客户查询号码
  • 投诉的类别
  • 一个问题是如何快速解决
  • 通过消费者的反馈客户服务评级

所有这些数据是有帮助的,但它缺少从增强其非结构化数据的对应。通过查看客户服务的音频同步进行结构化数据的见解,一个公司可能会发现以下几点:

  1. 问题的成因 – 什么是在技术或计费部门造成的问题?是客户感到困惑,因为他们没有有效的引导?是否有跨某些地区,年龄组和技术能力的问题?

  2. 更好的回馈消费者 – 而不是一星评级,企业可以明白为什么他们得到的评价摆在首位。被消费者感到沮丧与代表的沟通能力?做了主管的参与带来更好的体验?什么是销售代表和客户之间的对话的基调?

  3. 洞察速度解决问题 – 都采取了什么样的问题广泛的时限来解决?是客户服务代表训练有素充分地处理常见的问题?是否有一个合理的制度,得到了客户的权利人尽可能快地解决他们的问题?

所有这些见解跟结构化的数据对应。非结构化数据,以提高从数据集中获得更深入的了解一个企业的能力。

非结构化数据是有价值的一块任何企业的数据馅饼。今天的工具被广泛访问能够帮助企业利用这些数据,其最大的潜能。

结构化数据

对比非结构化数据,结构数据是可以很容易地组织的数据。不管它的简单,大多数专家在今天的数据业估计,结构化数据仅占20%的可用数据。它是干净的,分析通常存储在数据库中。

如今,大数据工具和应用程序都允许结构化数据的探索,曾经过于昂贵,收集和储存。结构化数据的一些例子:

机器生成的

  • 感官数据 – 全球定位系统数据,制造传感器,医疗设备

  • 销售点的数据 – 信用卡信息,销售地点,产品信息

  • 呼叫详细记录 – 通话,来电和收件人信息的时间

  • Web服务器日志 – 页面请求,其它服务器活动

人类产生

  • 输入数据 – 输入到计算机中的任何数据:年龄,邮政编码,性别等

虽然它的数量上超过其非结构化兄弟,结构化数据始终并将永远发挥数据分析了至关重要的作用。它充当骨干,以关键业务洞察力。如果没有结构化数据,也很难知道在哪里找到的见解躲在你的非结构化数据集。

结论

结构化和非结构化的数据有很大的不同。不管他们之间的分歧,他们在协同工作的任何有效的大数据的操作。公司希望充分利用他们的数据应使用利用两者的优点的工具。

转载请注明:数据分析 » 一个快速指南,以结构化和非结构化数据

喜欢 (0)or分享 (0)