本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

我们可以自动化的数据挖掘?

数据挖掘 cdadata 3657℃

我们可以自动化的数据挖掘

这是一个大问题!早在2006年,我们开始对数据挖掘的研究讨论,与岗位有关的书Java的数据挖掘。我们很幸运得到专家和这本书的作者之一意见。在2010年,我们将继续讨论有关数据挖掘的具体方面可能实现自动化。

最近,我重新启动了辩论的分析在瑞士协会。但是,我认为这是值得的专用博客文章。为了回答这个大问题,我们需要分析的数据挖掘和估计哪一个可以实现自动化的不同阶段。为此,我选择了CRISP-DM方法(我猜测任何其他数据挖掘过程中会导致类似的结论)。

业务了解

在这关键的一步,我们把商业问题转化为数据挖掘的。我们需要了解什么应该被解决,这是为什么。答案将导致下面的步骤。很显然,此步骤不能为一个新的项目自动化。数据矿工有专家来定义数据挖掘问题解决互动。

数据理解

这个步骤包括理解数据,他们已经收集的方式,他们的特殊性,等再次,数据挖掘工作协同领域的专家,以获得有用的知识准备的数据(下一步)。这是无法实现自动化的手动任务。

数据准备

在这一步中,我们将原始数据转换成有意义的信息,以我的。一个例子是异常值检测(和删除)。一些公司认为,他们的工具可以自动完成这一步。这是真实的,以在一定程度上,但也有局限性。下面是一个简单的例子:什么是门槛变量“年龄”是一个异常?100,110,150年的历史?这是问题的依赖。遗漏值相同的问题发生。检测它们往往是简单的,但决定要采取的操作需要人工干预。

数据准备的另一个重要方面是特征选择和提取。而选择可以自动进行,提取(通过聚集)需要的数据的理解。最后,任何数据挖掘工具可以自动目标变量的检测。然而,最终的选择是留下来的数据挖掘,谁知道企业需要解决的问题。

造型

这一步是我们申请的建模算法来处理的数据。其中,它涉及到选择数据挖掘算法和调​​整其参数。这当然可以是最容易实现自动化任务。一些厂商声称,他们的工具可以自动建模过程。测试几个算法,不同组的参数(调整)的概念可以自动化到一定程度。然而,假设有足够的数据,即该算法的选择不是业务相关的(通常是不是这种情况),而且评价标准是已知的(见下文)。

我们可以自动化的数据挖掘?

跨行业标准过程进行数据挖掘(CRISP-DM)

评估

为了验证我们的数据挖掘结果,我们需要评估标准。虽然应用的标准,可以自动和不同的建模算法进行比较,标准的选择可能是业务相关。在预测的情况下,例如,不同的评价标准存在,如均方根误差(RMSE),平均绝对误差(MAE)和平均绝对误差缩放(MASE)。如果我们在同一个时间序列比较不同的预测算法,我们可以使用RMSE。如果目标是比较不同时间序列,MASE是比较合适的。这是业务相关的,因此难以实现自动化。

部署

在这个阶段,我们的目标是要改变我们的概念证明或者原型成为一个工业化的解决方案。这一步涉及到改变我们的“一拍”的项目到可以用尽可能少人工干预尽可能工作的解决方案。尽管如预测模型标记语言(标准PMML)的出现,这一步剧照需要人工干预。的问题,如在哪里以及如何在一个整体的解决方案/工具整合我们的数据挖掘过程中需要探讨。

作为结论,我们已经看到,从CRISP-DM方法大多数数据挖掘的步骤不能自动化,需要人工干预。数据准备和建模,在一定程度上,可以实现自动化。然而,随着数据挖掘专业人士都知道,在大多数数据挖掘项目涉及的业务和数据理解的努力。下面是从Berry和Linoff(重新解释由David S.科波克)一个很好的比喻:

该相机可以不必设置拍摄照片时,每一次的快门速度,光圈和其他设置减轻摄影师。这使得专家摄影师的过程更容易,使接触到的人谁不是专家更好的摄影。但是这仍然是自动化生产照片的过程中的一小部分。选择主题,透视和照明,以获得正确的地点在合适的时间,印刷和安装等诸多方面都产生了良好的照片都非常重要。

转载请注明:数据分析 » 我们可以自动化的数据挖掘?

喜欢 (1)or分享 (0)