当数据遇到挖掘（上）_什么是数据挖掘_机器学习与数据挖掘-数据分析

当数据遇到挖掘（上）

关键词：时序数据上的数据挖掘,数据挖掘,数据挖掘概念与技术,机器学习与数据挖掘,数据挖掘导论,python 数据挖掘,数据挖掘技术

SAS软件有限公司资深顾问张磊博士

信息化的浪潮给全世界带来的翻天覆地的变化。当你使用信用卡刷卡消费的时候，刷卡交易的信息和购物情况已经进入了银行和商场的数据库；当你拿起手机拨打电话的时候，话单的信息已经进入了电信运营商的数据库；当你在医院挂号就医的时候，门诊和处方的信息已经进入了医院的数据库；当你使用公交卡乘车的时候，购买车票的信息也已经进入了公交公司的数据库。各种的情况都在表明，信息无处不在，而且每时每刻都有大量新的信息在产生，如同上下班高峰期的人流，拥挤而又嘈杂。

这还只是一幅幅静止的画面，如果让我们以时间为胶片，把这些画面连接起来，更会真切地发现在最近的二三十年内，企业中积累的各种数据已经远远超乎我们的想像。就像观看一部科幻式的灾难片，日积月累的数据如同因全球变暖而不断上升的海平面，一步步逼近我们生存的陆地，那些我们曾经熟悉的大楼、公园、道路，则在一个个沉没……

是否觉得有些危言耸听？但是对于企业来说，这并不是一个神话。让我来举一个例子，你就可以看到数据量的急速增长给企业带来多么大的困扰和改变。萨姆·沃尔顿1918年出生于美国俄克拉何马的金菲舍镇，是一个土生土长的农村人，他7岁就开始送牛奶和报纸，另外还饲养兔子和鸽子出售，学费与生活费用大部分全靠自己打工筹措，取得了萨姆大学的商学士学位。1945年他退伍后，萨姆在阿肯色州的本顿维尔小镇开了一家廉价商店，这是一家典型的旧式杂货店，50英尺宽，100英尺深，面临前大街，位于市中心，向外远望看得到铁路。商店里有现金收银机，整个店堂每个柜台后面都有供店员走动的通道，店员们坐等着顾客上门。创业之初，客户非常少，萨姆可以记住那些熟客的名字，知道他们喜欢什么样的杂货商品，常用的是哪些品牌，什么商品最好卖，下个月应该进什么货等等。此时他对数据的处理分析只需通过纸笔就可以了。

经过几十年的锲而不舍的奋斗，萨姆的连锁店已经遍布全球，2006年的营收高达3511亿美元，超过美国石油巨头埃克森美孚公司，占据美国“财富”杂志世界五百强的榜首。萨姆的公司名字就叫做“沃尔玛”（WalMart）。

作为全球第一大的零售业巨头，今天的规模已远非当年创业时可比了，遍布14个国家，7131家连锁店，近200万员工，上亿的客户。每天大量的交易信息都在源源不断地传输到公司总部的数据仓库，数据容量超过了数百TB。如何从信息的海洋中发现营销机会，找到有利可图的客户，调整货物的摆放位置，协调物流的计划和调度等等问题，已经不能简单地根据人的经验、通过查看报表或者手工分析来获取答案，人们需要更加依赖于计算机的处理能力，需要更高级的分析技术来协助从海量数据中发现潜在的规律。

这种高级的分析技术之一就是数据挖掘，而数据挖掘领域里最典型的案例就是“啤酒与尿布”的故事。

1、三个小故事

故事一、啤酒与尿布

世界零售连锁企业巨头沃尔玛拥有世界上最大的数据仓库系统之一，里面存放了各个门店的详细交易信息。为了能够准确了解顾客的购买习惯，沃尔玛利对顾客的购物行为进行了购物篮分析，想知道顾客经常一起购买的商品有哪些，结果他们有了意外的发现：“跟尿布一起购买最多的商品竟是啤酒！”

这是数据挖掘技术对历史数据进行分析的结果，它符合现实情况吗？是否是一个有用的知识？是否有利用价值？

于是，沃尔玛派出市场调查人员和分析师对这一挖掘结果进行调查分析。经过大量实际调查和分析，揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式：一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

既然尿布与啤酒一起被购买的机会很多，于是沃尔玛就将尿布与啤酒并排摆放在一起，结果是尿布与啤酒的销售量双双增长。

按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。

故事二、犯罪的根源

格洛斯特郡是英格兰西部的一个郡，大约有五十多万人口。在有一段时间内，发生了多起抢劫案，民众不再感觉到安全，对郡警察局的舆论压力也陡然增加了，强烈要求及时破获这些案件，并避免案件的进一步发生。警方一方面在加快破案的同时，也在努力思考怎么样才可以降低发案率。

按照传统的做法，一般会采取这样的措施：锁定抢劫案的多发地区，加派警力进行巡逻，对行为异常的人员加强盘查等等。然而，格洛斯特郡警察局发现，这些措施的收效甚微，发案率依然居高不下，因为抢劫案的发案地点并不集中，分散在多个不同的街区，这让巡逻警力的安排显得捉襟见肘，难以全面顾及。

此时，来自警察局内部的分析系统却有了新的发现。系统中保存了多年的案件和案犯的卷宗信息，通过利用数据挖掘等分析技术，揭示出最近这段时间的抢劫犯具有一些非常显著的特征：他们大多是没有固定住所，无家可归，而且也没有稳定的工作。另外，在很多抢劫案发生前，这些罪犯都吸食了毒品。正是在毒品的刺激作用下，他们失去了自控能力，临时见财起意，对单身女性或情侣实施抢劫。

新的发现给警察局带来了新的思路，警方当机立断，对原来的增加警力加强巡逻的做法进行了调整，改为采取如下措施：一是加强对无业人员和有吸毒前科人员的管理，并通过社会福利机构对他们实施救助；然后，加强了对毒品交易易发场所的严打和治理，从源头上掐断毒品的供应。

治理得到了良好的效果，抢劫案的发案率迅速降低，格洛斯特郡的人们又重新恢复了平静的生活。

故事三、电邮加新闻

Yahoo是第一家招募了首席数据官的公司，以验证对公司而言，数据的确是一笔真实而有战略意义的财富。目标是通过提供以客户为中心的数据平台和洞察力服务，激励用户积极参与，对营销方案进行创新，从而为消费者和卖家带来价值。Usama Fayyad博士是Yahoo的首席数据官，他在和KDnuggets的Gregory的访谈中介绍了一些Yahoo在数据挖掘方面的成功案例。

“产品整合：一个例子就是你今天在Yahoo电子邮箱上看到的，数据挖掘的可视结果。通过对用户使用行为的意外模式分析，我们发现在每次会话中，人们阅读邮件和阅读新闻的行为之间存在很强的相关关系。我们把这个发现传达给Yahoo电子邮箱产品小组，他们首先想到的就是验证这种关系的影响：在一组测试用户的邮箱首页上显示一个新闻模块，其中的新闻标题被醒目显示。”

“对于象电子邮箱这种产品，最头痛的问题就是如何获取新的‘轻量级用户’，并推动他们的用量，使之变成‘重量级用户’。如果你做到了，那么流失率就会显著下降。实际上，在我们的试验中，最显著的一组流失率下降了40%。于是Yahoo立刻开发并完善了新闻模块，并嵌入Yahoo电子邮箱的首页，到现在，上亿的消费者都可以看到并使用这种产品。我喜欢提及这个故事，因为它很好地说明了我们产品团队的及时反应能力，也证明了在用户使用行为数据中蕴含着很多很多极具价值的潜在模式。”

“即时通信：我们对雅虎通（Instant Messenger）的使用情况进行了分析，以了解激励用量的关键因素是什么。结果发现，最重要的因素是让用户扩大他们的‘好友列表’，至少增加5个新的好友。据此Yahoo精心设计了相应的营销活动，鼓励用户增加好友列表中的好友数，从而显著激励了雅虎通的用量。”

“Yahoo首页的搜索框：一个简单的例子就是我们发现，在Yahoo的首页上，把搜索框放在居中的位置（而不是以前的左侧）将提高用户的用量。这样一方面可以促进用户的积极使用，对Yahoo来说也没有成本支出。这个结果的发现过程也很有趣，我们首先发现Netscape浏览器的用户比IE的用户更多地使用了搜索功能，进一步探查发现两个浏览器在视觉上的唯一区别就是：二者中的搜索框位置不同！搜索框在Netscape浏览器中是居中放置，而在IE中则是靠近左侧。很不明显的差别，但却很重要。一般谁会想到呢？”

2、什么是数据挖掘？

关于什么是数据挖掘，很多学者和专家给出了不同的定义，以下我们列出几种常见的说法：

“简单地说，数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’，不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。” ——《数据挖掘：概念与技术》（J. Han and M. Kamber）

“数据挖掘就是对观测到的数据集（经常是很庞大的）进行分析，目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”——《数据挖掘原理》（David Hand, et al）

“运用基于计算机的方法，包括新技术，从而在数据中获得有用知识的整个过程，就叫做数据挖掘。”——《数据挖掘－－概念、模型、方法和算法》（Mehmed Kantardzic）

“数据挖掘，简单地说，就是从一个数据库中自动地发现相关模式。”——《构建面向CRM的数据挖掘应用》（Alex Berson, et al）

“数据挖掘(DM)是从大型数据库中将隐藏的预测信息抽取出来的过程。”——《数据挖掘：机遇与挑战》（John Wang）

而作为数据挖掘领域的华人第一人，韩家炜教授在《数据挖掘：概念与技术》的教学幻灯片中，给出一个更清晰的定义：“数据挖掘，就是从大型数据库中抽取有意义的（非平凡的，隐含的，以前未知的并且是有潜在价值的）信息或模式的过程。”

这里我们可以看到数据挖掘具有以下几个特点：

l 基于大量数据：并非说小数据量上就不可以进行挖掘，实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是，一方面过小的数据量完全可以通过人工分析来总结规律，另一方面来说，小数据量常常无法反映出真实世界中的普遍特性。

l 非平凡性：所谓非平凡，指的是挖掘出来的知识应该是不简单的，绝不能是类似某著名体育评论员所说的“经过我的计算，我发现了一个有趣的现象，到本场比赛结束为止，这届世界杯的进球数和失球数是一样的。非常的巧合！”那种知识。这点看起来勿庸赘言，但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。

l 隐含性：数据挖掘是要发现深藏在数据内部的知识，而不是那些直接浮现在数据表面的信息。常用的BI工具，例如报表和OLAP，完全可以让用户找出这些信息。

l 新奇性：挖掘出来的知识应该是以前未知的，否则只不过是验证了业务专家的经验而已。只有全新的知识，才可以帮助企业获得进一步的洞察力。

l 价值性：挖掘的结果必须能给企业带来直接的或间接的效益。有人说数据挖掘只是“屠龙之技”，看起来神乎其神，却什么用处也没有。这只是一种误解，不可否认的是在一些数据挖掘项目中，或者因为缺乏明确的业务目标，或者因为数据质量的不足，或者因为人们对改变业务流程的抵制，或者因为挖掘人员的经验不足，都会导致效果不佳甚至完全没有效果。但大量的成功案例也在证明，数据挖掘的确可以变成提升效益的利器。

“数据挖掘”这个术语是在什么时候被大家普遍接受的，已经难以考证，大约在上世纪90年代开始兴起。其中还有一段趣话。在科研界，最初一直沿用“数据库中的知识发现”（即KDD，Knowledge Discovery in Database）。在第一届KDD国际会议中，委员会曾经展开讨论，是继续沿用KDD，还是改名为Data Mining（数据挖掘）？最后大家决定投票表决，采纳票数多的一方的选择。投票结果颇有戏剧性，一共14名委员，其中7位投票赞成KDD，另7位赞成Data Mining。最后一位元老提出“数据挖掘这个术语过于含糊，做科研应该要有知识”，于是在科研界便继续沿用KDD这个术语。而在商用领域，因为“数据库中的知识发现”显得过于冗长，就普遍采用了更加通俗简单的术语——“数据挖掘”。

严格地说，数据挖掘并不是一个全新的领域，它颇有点“新瓶装旧酒”的意味。组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果，其它还包含了可视化、信息科学等内容。数据挖掘纳入了统计学中的回归分析、判别分析、聚类分析以及置信区间等技术，机器学习中的决策树、神经网络等技术，数据库中的关联分析、序列分析等技术。

转载请注明：数据分析 » 当数据遇到挖掘（上）_什么是数据挖掘_机器学习与数据挖掘