本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

大数据来了,Python怎么办_python数据分析

python培训 cdadata 5128℃

大数据来了,Python怎么办

关键词:python数据分析python 数据挖掘python 数据类型python大数据

在大数据领域内,每一毫秒的性能损失都影响巨大。然而,像Python这样通常被认为性能不是太好的编程语言,在大数据应用中却变得越来越流行了。那么大数据vs. Python,到底会是什么情况呢?

  俗话说具体问题具体对待,而一般我们从本质上把大数据应用场景分为两个方面:

  1. CPU密集型操作

  在CPU密集型操作情况下,我们需要对海量的数据进行计算;而刚刚说到作为解释性语言Python有着“相对杯具”的运行效率,那么在像求逆矩阵、向量相似度等对语言高效性非常依赖的情景下,让Python去做这些必然会造成性能下降和负载增加。然而别忘了Python还有个昵称 —— 胶水语言,其集成机制可以轻松的联结使用其它语言编写的模块,比如:C、C++、Java。这样我们就可以完全根据情况需要,使用Python来做框架,在核心CPU密集操作部分调用C或者其它高效语言。这样开发效率和性能都得以保障,至于对开发团队要求的增高就是另外一回事了。

  2. I/O密集型操作

  在这个场景下,我们经常做的是频繁的I/O操作、频繁的输入/读取文件系统,但是不会涉及到复杂的计算。出于这些操作通常都是调用操作系统接口来完成,所以对语言的要求显然不会太高。

   下面看看业内专业人士的说法:

   AdRoll的首席工程师Ville Tuulos认为编程语言本身的性能其实并不重要。Ville于2013年9月在旧金山将自己的调查发现发布到了一个meetup组中,向我们展示了AdRoll中使用的基于Python构建的后端架构,以及它们是如何在性能上超过那些业界中的巨头(例如Amazon的Redshift)的。他们获得成功的关键是,整个系统是基于他们自己非常特殊的用例而构建的,因此可以针对那种用例进行优化。正如Ville所说:不管通用解决方案是采用何种编程语言实现的,你都可以使用一种高级编程语言来快速地实现出一个性能比通用方案更好的,应用于特定领域的解决方案。

    来自Dish Network的数据科学家Tom Rampley所说:我经常使用R语言的各种包中所提供的统计功能。我还使用它在小规模的数据集上面执行各种数据操作。但是对于文本解析、大数据集上的数据操作以及编写自己的算法这些任务来说,我更加喜欢使用Python并结合使用它的Numpy、Scipy和Pandas这些包。

来自Monak的大数据分析师Karissa McKelvey说,“我的数据太大了,无法装载到R语言中”,还有斯坦福的数据科学家Matt Asay也声称,“在数据科学的博士们中间,R语言仍然很受欢迎,但是随着数据逐渐成为主流,Python正在接替R语言的地位”。

看来,Python在大数据领域已经被广泛接受并获得了一定的认可。喜欢折腾的coder又可以忙起来啦。

转载请注明:数据分析 » 大数据来了,Python怎么办_python数据分析

喜欢 (1)or分享 (0)