如何用数据挖掘获取高质量的数据?

如何用数据挖掘获取高质量的数据?

数据挖掘算法一般是用于为其他目的收集的数据,或者在收集时没有明确目的的算法。

01 测量和数据搜集问题

期望数据完美是不现实的。人类的错误 、测量设备的限制或数据搜集过程中的漏洞细节都可能带来问题。数据的值乃至整个数据对象都可能会丢掉。在有些情况下,或许有不真实或重复的对象,即对应于单个“实际”对象出现了多个数据对象。

例如,关于一个最近住过两个不同地方的人,或许有两个不同的记录。即使一切的数据都不缺,并且“看上去很好”,也有可能存在不一致,如一个人身高2m,但体重只有2kg。

下面我们关注数据测量和收集方面的数据质量问题。我们先定义测量误差和数据收集错误,然后考虑涉及测量误差的各种问题:噪声、伪像、偏置、精度和准确率。最后讨论同时涉及测量和数据收集的数据质量问题:离群点、遗漏和不一致的值、重复数据。

如何用数据挖掘获取高质量的数据?

1. 测量误差和数据收集错误

测量误差(measurement error)是指测量过程中产生的问题。一个常见的问题是:在某种程度上,记录的值与实际值不同。对于连续属性,测量值与实际值的差称为误差(error)。

数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或者不当地包含了其他数据对象等错误。例如,一种特定种类动物研究可能包含了相关种类的其他动物,它们只是表面上与要研究的种类相似。测量误差和数据收集错误可能是系统的也可能是随机的。

我们只考虑一般的错误类型。在特定的领域中,总有某些类型的错误是常见的,并且通常存在很好的技术,能检测并纠正这些错误。例如,人工输入数据时,键盘录入错误是常见的,因此许多数据输入程序具有检测技术,并通过人工干预纠正这类错误。

2. 噪声和伪像

噪声是测量误差的随机部分。这通常涉及值被扭曲或加入了谬误对象。图2.5显示了被随机噪声干扰前后的时间序列。如果在时间序列上添加更多的噪声,形状将会消失。图2.6显示了三组添加一些噪声点(用“+”表示)前后的数据点集。注意,有些噪声点与非噪声点混在一起。

“噪声”通常用于包含时间或空间分量的数据。在这些情况下,常常可以使用信号或图像处理技术降低噪声,从而帮助发现可能“淹没在噪声中”的模式(信号)。尽管如此,完全消除噪声通常是困难的,而许多数据挖掘工作都关注设计鲁棒算法(robust algorithm),即在噪声干扰下也能产生可以接受的结果。

数据错误可能是更确定性现象的结果,如一组照片在同一地方出现条纹。数据的这种确定性失真常称作伪像(artifact)。

如何用数据挖掘获取高质量的数据?

3. 精度、偏置和准确率

在统计学和实验科学中,测量过程和结果数据是用精度和偏置度量的。我们给出标准的定义,随后简略加以讨论。对于下面的定义,我们假定对相同的基本量进行重复测量。

精度(precision):(同一个量的)重复测量值之间的接近程度。

偏置(bias):测量值与被测量之间的系统的变化。

精度通常用值集合的标准差度量,而偏置用值集合的均值与测出的已知值之间的差度量。只有那些通过外部手段能够得到测量值的对象,偏置才是可确定的。

假定我们有1g质量的标准实验室重量,并且想评估实验室的新天平的精度和偏置。我们称重5次,得到下列值:{1.015,0.990,1.013,1.001,0.986}。这些值的均值是1.001,因此偏置是0.001。用标准差度量,精度是0.013。

通常使用更一般的术语准确率表示数据测量误差的程度。

准确率(accuracy):被测量的测量值与实际值之间的接近度。

准确率依赖于精度和偏置,但是没有用这两个量表达准确率的公式。

准确率的一个重要方面是有效数字(significant digit)的使用。其目标是仅使用数据精度所能确定的数字位数表示测量或计算结果。

例如,对象的长度用最小刻度为毫米的米尺测量,则我们只能记录最接近毫米的长度数据,这种测量的精度为±0.5mm。这里不再详细地讨论有效数字,因为大部分读者应当在先前的课程中接触过,并且在理工科和统计学教材中讨论得相当深入。

诸如有效数字、精度、偏置和准确率问题常常被忽视,但是对于数据挖掘、统计学和自然科学,它们都非常重要。通常,数据集并不包含数据精度信息,用于分析的程序返回的结果也没有这方面的信息。45但是,缺乏对数据和结果准确率的理解,分析者将可能出现严重的数据分析错误。

4. 离群点

离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是相对于该属性的典型值来说不寻常的属性值。我们也称其为异常(anomalous)对象或异常值。有许多定义离群点的方法,并且统计学和数据挖掘界已经提出了很多不同的定义。

此外,区别噪声和离群点这两个概念是非常重要的。与噪声不同,离群点可以是合法的数据对象或值。例如,在欺诈和网络入侵检测中,目标就是在大量的正常对象或事件中找到异常对象或事件。

以上就是关于数据挖掘算法的一些介绍了哦。

分享扩散:

改版

反馈