系统分析师在收集、分析、处理数据时常会遇到零星异常数据(野点、离群点),即大大偏离其他数据值的数据。关于异常数据的叙述,不正确的是(56)。

admin2018-04-25  56

问题 系统分析师在收集、分析、处理数据时常会遇到零星异常数据(野点、离群点),即大大偏离其他数据值的数据。关于异常数据的叙述,不正确的是(56)。

选项 A、异常数据属于不良数据,应尽快找出来,修正它或删除它
B、处理大批数据时,其统计量中位数不易受零星异常数据的影响
C、用最小二乘法进行线性拟合时,零星异常数据可能导致拟合结果完全失真
D、测量误差、输入错误、程序运行错误等都可能产生异常数据

答案A

解析 人们在收集、分析和处理大批数据时常会遇到零星异常数据(野点、离群点),这些异常数据可能是由于测量误差、输入错误或程序运行错误产生的,也可能是偏离系统正常状态的故障引起的,还有可能是出现了出乎意料的情况,甚至是发生了人们尚未认识清楚的现象。
   有时,个别异常数据对大批数据的某些统计量影响不大。例如,中位数就是这样的统计量。它位于这批数据的中间位置,比它大的数与比它小的数一样多。对于奇数2n+1个数而言,依大小排序后,第n+1个数就是它的中位数,在它左边有n个数,在它右边也有n个数。对于已排序的偶数2n个数而言,它的中位数就等于第n个数与第n+1个数的平均数,它两边的数各有n个。即使这批数据中个别极端数增大很多或减少很多,中位数一般也不大变。因此人们常说,中位数是比较稳定的反映大批数据的代表值,不易受极端异常数据的干扰。算术平均值则更容易受异常数据的影响,算术平均值中体现了所有各数的作用(贡献),包括好的作用及捣乱作用。
   在处理大批数据时,有时个别异常数据的破坏作用非常大。
   例如,用最小二乘法进行线性拟合时,对于某些正常的数据(如图1所示)可以得到比较符合实际的拟合直线:但如果其中有少数点(可能因为输入错误)发生了严重错误(大大脱离了群体),那么,拟合的结果就会发生严重失真(如图2所示)。由于拟合直线顾及了这些异常数据,结果被个别害群之马拉偏了方向,脱离了轨道,做出了完全没有实际意义的结果。
                       
   对于数据出错的情况,我们需要尽快将其找出来,修正或删除它。错误严重的数据即使数量不多,但对数据处理的危害却很大。
   然而,异常数据还可能不是错误的数据。我们不能简单地删除它,需要认真研究分析,再进行特殊的处理。
   居里夫人在做物理实验时,发现了少量严重偏离轨道的射线,从而发现了X射线。
   电信部门在计算电话费用时发现了个别客户有异常大的费用,经认真调查分析,发现了盗用电话号码的犯罪分子。
   某医院对某单位进行了普遍体检,发现某人的某种指标高得惊人,他们并没有简单地认为一定是仪器故障出错,经过认真分析,再进一步检查,发现了世界上非常特殊的一种疾病,还研究出了治疗方法,取得了重大的科研成果。
   某单位在检测某系统运行过程中,有一天突然发现了异常数据。由于对异常数据的重视,经过分析,他们查出了系统的故障,避免了大的损失。
   所以,异常数据不一定是错误数据,可能具有特殊的意义,可能含有有用的信息,还可能隐含大的商机,也有可能含有发现新知识、新现象的线索。我们一定要认真分析,不能简单地将其删除(舍去)。
   现在兴起了多种方法进行异常数据的检测、剔除与修正。例如,基于统计模型的方法、基于距离的检测方法、神经网络方法和支持向量机方法等,还非常重视异常数据的挖掘。
转载请注明原文地址:https://kaotiyun.com/show/1xLZ777K
0

最新回复(0)