数据挖掘过程模型的详细步骤

数据挖掘过程模型的详细步骤

数据挖掘过程模型步骤主要包括定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施。

定义问题。在进行操作前最先的也是最重要的要求便是了解数据和业务中问题。要明白自己的目的是什么。比如,想提高电子信箱的利用率时,想做的可能是“提高用户使用率”,也可能是“提高使用价值”,要处理这两个问题需要进行的操作也是完全不同的。

建立数据挖掘库。树立数据挖掘库包括以下几个步骤:数据搜集,数据选择,数据描述,数据质量点评和数据清理,合并与整合,构建元数据,加载数据发掘库,维护数据发掘库。

分析数据。分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包括成百上千的字段,那么进行分析时这些数据将是一件十分耗时和累人的工作,这时需挑选一个具有好的界面和功能强大的工具软件来协助你完成这些工作。

准备数据。这是树立模型之前的最后一步数据准备工作。能够把此步骤分为四个部分:选择变量,数据记载,创立新变量,转化变量。

建立模型。建立模型是一个重复的过程。需要仔细参考不同的模型来判断哪个模型对面对的商业问题最有用。先用一部分数据树立模型,然后再用剩余的数据来测验和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测验集可能受模型的特性的影响,这时需求一个独立的数据集来验证模型的准确性。练习和测验数据发掘模型需求把数据至少分成两个部分,一个用于模型练习,另一个用于模型测验。

评价模型。模型建立完成后,必须评价得到的结果、解说模型的价值。从测验集得到的准确率只对用于建立模型的数据有意义。在实际使用中,需进一步了解错误的类型和由此带来的相关费用的多少。历史证明,有用的模型并不一定是正确的模型。造成这一点的直接原因便是模型建立中隐含的各种假定,因而,直接进行模型测验是很重要的。先在小范围内使用,获得测验数据,满意后再向大范围推广施行。模型建立并通过验证之后,能够有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型使用到不同的数据集上。

数据挖掘过程模型的详细步骤

以上就是数据挖掘过程模型的详细步骤,它能够帮助决策者调整市场策略,减少风险,从而作出正确的决策。

分享扩散:

改版

反馈