信息处理技术员在收集、分析、处理数据时常会遇到零星异常数据(野点、离群点),即大大偏离其他数据值的数据。关于异常数据的叙述,不正确的是(34)。

admin2010-01-17  35

问题 信息处理技术员在收集、分析、处理数据时常会遇到零星异常数据(野点、离群点),即大大偏离其他数据值的数据。关于异常数据的叙述,不正确的是(34)。

选项 A、测量误差、输入错误、程序运行错误等都可能产生异常数据
B、处理大批数据时,其统计量中位数不易受零星异常数据的影响
C、异常数据属于不良数据,应尽快找出来,修正它或删除它
D、算术平均值容易受异常数据的影响

答案C

解析 人们在收集、分析和处理大批数据时常会遇到零星异常数据(野点、离群点),这些异常数据可能是由于测量误差、输入错误或程序运行错误产生的,也可能是由偏离系统正常状态的故障引起的,还有可能是出现了出乎意料的情况,甚至是发生了人们尚未认识清楚的现象。
   有时,个别异常数据对大批数据的某些统计量影响不大,中位数就是这样的统计量。它位于这批数据的中间位置,比它大的数与比它小的数一样多。对于奇数2n+1个数而言,按大小排序后,第n+1个数就是它的中位数,在它左边有n个数,在它右边也有n个数。对于己排序的偶数2n个数而言,它的中位数就等于第n个数与第n+1个数的平均数,它两边的数各有n个。即使这批数据中个别极端数增大很多或减小很多,中位数一般也不大变。因此人们常说,中位数是比较稳定地反映大批数据的代表值,不易受极端异常数据的干扰。算术平均值则更容易受异常数据的影响,算术平均值中体现了所有各数的作用(贡献),包括好的作用及破坏作用。
   在处理大批数据时,有时个别异常数据的破坏作用非常大。例如,用最小二乘法进行线性拟合时,对于某些正常的数据可以得到比较符合实际的拟合直线;但如果其中有少数点(可能因为输入错误)发生了严重错误(大大脱离了群体),那么拟合的结果就会发生严重失真。由于拟合直线顾及了这些异常数据,结果被个别害群之马拉偏了方向,脱离了轨道,做出了完全没有实际意义的结果。
   对于出错的数据,我们需要尽快将其找出来,修正或删除它。错误严重的数据即使数量不多,对数据处理的危害也会很大。然而,异常数据还可能不是错误的数据。我们不能简单地删除它,需要认真研究分析,再进行特殊的处理。
   居里夫人在做物理实验时,发现了少量严重偏离轨道的射线,从而发现了X射线。
   电信部门在计算电话费用时发现个别客户有异常高的费用,经认真调查分析,发现了盗用电话号码的犯罪分子。
   某医院对某单位进行了普遍体检,发现某人的某种指标高得惊人,他们并没有简单地认为一定是仪器出了故障,而是经过认真分析,再进一步检查,发现了世界上非常特殊的一种疾病,还研究出了治疗方法,取得了重大的科研成果。
   某单位在检测某系统的运行的过程中,有一天突然发现了异常数据。由于对异常数据的重视,经过分析,他们查出了系统的故障,避免了给单位造成大的损失。
   所以,异常数据不一定是错误数据,可能具有特殊的意义,可能含有有用的信息,还可能隐含大的商机,也有可能含有发现新知识、新现象的线索。我们一定要认真分析,不能简单地将其删除(舍去)。
   现在兴起了多种方法进行异常数据的检测、剔除与修正,例如基于统计模型的方法、基于距离的检测方法、神经网络方法和支持向量机方法等,我们应重视异常数据的挖掘。
转载请注明原文地址:https://kaotiyun.com/show/e63Z777K
0

相关试题推荐
最新回复(0)