大数据与统计学的关系

大数据和统计的区别主要有两个方面：其一是数据分析时不再进行抽样，而是采用population（n=all）；其二是分析方法，侧重所有变量之间的相关性，而不再根据背景学科理论筛选变量，进行假设检验。

这两点具体来说区别如下：

大数据的应用，解决了一般统计方法上主要误差来源：抽取样本以及假设检验中使用的前提假设。

一般统计方法中依据的中值定理和大数定律阐明我们可以通过增大样本容量，且多次抽取样本使得结果更加精确，但这一结论成立的条件在于所有样本的抽取满足i.i.d.（independent and identically distributed，即假设变量分布独立且相同），而这一假设在现实中很难满足。样本的选择很难做到完全随机。一般商业案例中采用的隔多少位抽取样本的方法在统计学意义上不满足随机要求，所得结果误差在所难免。
类似，多大的样本才算足够大也存在争议，而大数据直接采用全样本（population）来进行分析可以消除这一部分造成的误差。

再说分析方法。传统分析方法是对需要回答的问题作出一定的假设，例如教育背景对保险购买金额有影响，然后根据这一假设在所抽取的样本上进行检验。而检验假设这一方法就充满着现实数据不满足的前提假设，比如最著名的正态分布。正态分布是一个很好的假设，因为它能简化计算，而且通过对数据的各种变形，基本上也可以在一定置信区间内勉勉强强算为正态分布。
再次，假设检验的结果只能不否认原假设，并不能得出完全支持的结论。

但大数据的情况就不一样。对大数据进行分析时，我们并不需要对问题提出假设，而是通过算法找出变量之间的相关度。同样以上面例子为例，如果教育背景和保险购买额这两个变量间相关度高（e.g. 接近1），那么保险公司就应该更主要针对高教育背景的人推销保险。

大数据的应用可以说是在减少人类处理数据时带入的主观假设的影响，而完全依靠数据间的相关性来阐述。而由于消除人为因素带入的误差，已经分析人员作出假设的限制（如果教育背景和保险购买额是相关的，而分析人员没想到，那这个结论就不会被分析出来，这在实际案例中是很容易发生的，大数据的核心也就在于它能更充分的发掘数据的全部真实含义。

大数据和传统统计学的区别

大数据（big data），是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
有人把数据比喻为蕴 藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是成为赢得竞争的关键。

大数据的价值体现在以下几个方面：
1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
2) 做小而美模式的中长尾企业可以利用大数据做服务转型;
3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。

转载请注明：数据分析 » 大数据与统计学的关系_大数据和统计的区别