从0到1详解数据挖掘应用过程

从0到1详解数据挖掘应用过程

典型的数据挖掘应用程序流程包括以下阶段。

1.数据采集

数据收集可以使用专门的硬件,如传感器网络、手动输入的用户调查或软件工具,如网络爬虫来收集文档。虽然这个阶段与具体的应用密切相关,但它往往不在数据挖掘分析师考虑的范围内,这个阶段对数据挖掘过程也至关重要,因为在这个阶段做出的选择显然会影响整个数据挖掘过程。

采集阶段产生的数据通常存储在数据库中,广义上称为数据仓库,然后进行处理。

2.特征提取和数据清理

上述采集阶段获得的数据格式往往不适合直接处理。例如,收集的数据可以是复杂的编码日志或自由格式文档,并且在许多情况下,各种类型的数据被随机混合在一起以形成自由格式文档。

为了使这种数据适合进一步处理,有必要将其转换成更适合数据挖掘算法的格式,例如多维数据、时间序列数据或半结构化数据。

多维数据是最常见的格式,其不同的字段对应着各种度量属性,可以称为特征、属性或维度。提取这些特征是数据挖掘的关键阶段,特征提取阶段通常与数据清理阶段并行进行,以估计或纠正丢失的数据和错误的数据。

此外,在很多情况下,数据可能是从多个来源聚合而来的,在处理时需要转换成统一的格式。上述过程的最终结果是一个结构良好的数据集,计算机程序可以有效地使用它。在特征提取阶段之后,可以将数据保存回数据库进行进一步处理。

3. 分析处理和算法

数据挖掘过程的最后一步是为处理过的数据设计有效的分析方法。在许多情况下,不太可能将手头的应用直接转化成一个标准的数据挖掘问题,比如转化成关联模式挖掘、聚类、分类以及异常检测这四个“超级问题”中的某一个。

但这四个超级问题具有很广泛的覆盖性,可以构成数据挖掘任务的基本模块,而大多数应用都能由这些作为基本模块的组件拼搭起来实现。

从0到1详解数据挖掘过程

整个数据挖掘过程可由图表示。请注意,图中的分析处理模块显示了对特定应用设计的、由多个基本模块组合而成的解决方案,这一部分依赖于分析师的技能。通常的做法是使用四个主要问题中的一个或多个作为基本模块来搭建。

以上就是小编为大家介绍的数据挖掘应用程序流程,有兴趣学习的朋友们可以点击课程进行学习:

https://edu.hellobi.com/course/explore?c2=38

分享扩散:

改版

反馈