首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
信息处理技术员在收集、分析、处理数据时常会遇到零星异常数据(野点、离群点),即大大偏离其他数据值的数据。关于异常数据的叙述,不正确的是(34)。
信息处理技术员在收集、分析、处理数据时常会遇到零星异常数据(野点、离群点),即大大偏离其他数据值的数据。关于异常数据的叙述,不正确的是(34)。
admin
2010-01-17
44
问题
信息处理技术员在收集、分析、处理数据时常会遇到零星异常数据(野点、离群点),即大大偏离其他数据值的数据。关于异常数据的叙述,不正确的是(34)。
选项
A、测量误差、输入错误、程序运行错误等都可能产生异常数据
B、处理大批数据时,其统计量中位数不易受零星异常数据的影响
C、异常数据属于不良数据,应尽快找出来,修正它或删除它
D、算术平均值容易受异常数据的影响
答案
C
解析
人们在收集、分析和处理大批数据时常会遇到零星异常数据(野点、离群点),这些异常数据可能是由于测量误差、输入错误或程序运行错误产生的,也可能是由偏离系统正常状态的故障引起的,还有可能是出现了出乎意料的情况,甚至是发生了人们尚未认识清楚的现象。
有时,个别异常数据对大批数据的某些统计量影响不大,中位数就是这样的统计量。它位于这批数据的中间位置,比它大的数与比它小的数一样多。对于奇数2n+1个数而言,按大小排序后,第n+1个数就是它的中位数,在它左边有n个数,在它右边也有n个数。对于己排序的偶数2n个数而言,它的中位数就等于第n个数与第n+1个数的平均数,它两边的数各有n个。即使这批数据中个别极端数增大很多或减小很多,中位数一般也不大变。因此人们常说,中位数是比较稳定地反映大批数据的代表值,不易受极端异常数据的干扰。算术平均值则更容易受异常数据的影响,算术平均值中体现了所有各数的作用(贡献),包括好的作用及破坏作用。
在处理大批数据时,有时个别异常数据的破坏作用非常大。例如,用最小二乘法进行线性拟合时,对于某些正常的数据可以得到比较符合实际的拟合直线;但如果其中有少数点(可能因为输入错误)发生了严重错误(大大脱离了群体),那么拟合的结果就会发生严重失真。由于拟合直线顾及了这些异常数据,结果被个别害群之马拉偏了方向,脱离了轨道,做出了完全没有实际意义的结果。
对于出错的数据,我们需要尽快将其找出来,修正或删除它。错误严重的数据即使数量不多,对数据处理的危害也会很大。然而,异常数据还可能不是错误的数据。我们不能简单地删除它,需要认真研究分析,再进行特殊的处理。
居里夫人在做物理实验时,发现了少量严重偏离轨道的射线,从而发现了X射线。
电信部门在计算电话费用时发现个别客户有异常高的费用,经认真调查分析,发现了盗用电话号码的犯罪分子。
某医院对某单位进行了普遍体检,发现某人的某种指标高得惊人,他们并没有简单地认为一定是仪器出了故障,而是经过认真分析,再进一步检查,发现了世界上非常特殊的一种疾病,还研究出了治疗方法,取得了重大的科研成果。
某单位在检测某系统的运行的过程中,有一天突然发现了异常数据。由于对异常数据的重视,经过分析,他们查出了系统的故障,避免了给单位造成大的损失。
所以,异常数据不一定是错误数据,可能具有特殊的意义,可能含有有用的信息,还可能隐含大的商机,也有可能含有发现新知识、新现象的线索。我们一定要认真分析,不能简单地将其删除(舍去)。
现在兴起了多种方法进行异常数据的检测、剔除与修正,例如基于统计模型的方法、基于距离的检测方法、神经网络方法和支持向量机方法等,我们应重视异常数据的挖掘。
转载请注明原文地址:https://kaotiyun.com/show/e63Z777K
本试题收录于:
信息处理技术员上午基础知识考试题库软考初级分类
0
信息处理技术员上午基础知识考试
软考初级
相关试题推荐
描述程序处理过程的工具称为过程设计的工具,它们可以分为图形、表格和语言3类,下述(15)不属于过程设计的工具。
某种中继设备提供运输层及运输层以上各层之间的协议转换,这种中继设备是(61)。从OSI协议层次来看,用以实现不同网络间的地址翻译、协议转换和数据格式转换等功能的路由器属于(62)范畴。当采用数据报服务时,负责端到端的流量控制的是(63)。路由器的主要功能是
数据库系统由数据库、(35)和硬件等组成,数据库系统是在(36)的基础上发展起来的。数据库系统由于能减少数据冗余,提高数据独立性,并集中检查(37),由此获得广泛的应用。数据库提供给用户的接口是(38),它具有数据定义、数据操作和数据检查功能,可独立使用
根据乔姆斯基于20世纪50年代建立的形式语言的理论体系,语言的文法被分为4种类型,即0型(短语文法),1型(上下文有关文法)、2型(上下文无关文法)和3型(正规文法)。其中,2型文法与(28)等价,所以有足够的能力描述多数现今程序设计的语言的句法结构。一个
直接存储器访问(DMA)是一种快速传送大量数据常用的技术。工作过程大致如下所述。1.向CPU申请DMA传送。2.向CPU申请DMA控制器接管(1)的控制权。3.在DMA控制器的控制下,在存储器和(2)之间直接进行数据传送,在传送过中
直接存储器访问(DMA)是一种快速传送大量数据常用的技术。工作过程大致如下所述。1.向CPU申请DMA传送。2.向CPU申请DMA控制器接管(1)的控制权。3.在DMA控制器的控制下,在存储器和(2)之间直接进行数据传送,在传送过中
假设一条指令的执行过程分为“取指令”、“分析”和“执行”3段,每一段的时间分别为t、2t 和 3t。在下面的情况下,分别写出连续执行n条指令所需要的时间表达式。(1)顺序执行方式(48)。(2)仅“取指令”和“执行”重叠(49)。(3)“取指令”、“分析”
假设一条指令的执行过程分为“取指令”、“分析”和“执行”3段,每一段的时间分别为t、2t 和 3t。在下面的情况下,分别写出连续执行n条指令所需要的时间表达式。(1)顺序执行方式(48)。(2)仅“取指令”和“执行”重叠(49)。(3)“取指令”、“分析”
软件开发的螺旋模型综合了瀑布模型和演化模型的优点,还增加了(58)。采用螺旋模型时,软件开发沿着螺线自内向外旋转,每转一圈都要对(59)进行识别和分析,并采取相应的对策。螺旋线第一圈的开始点可能是一个(60)。从第二圈开始,一个新产品开发项目开始了,新产品
多媒体音频处理中,人所敏感的声频最高为(51)(Hz),数字音频文件中对音频的采样频率为(52)(Hz)。对一个双声道的立体声,保持1秒钟声音,波形文件所需的字节数为(53),这里假设每个采样点的量化数为8位。MIDI文件是最常用的数字音频文件之一,MID
随机试题
《氓》中“桑之未落,其叶沃若”的比兴义暗喻女子的年轻貌美。()
A.经典途径激活物B.旁路激活途径的固有成分C.三条激活途径的共同成分D.IFN-aE.旁路途径激活物IgG型抗原抗体复合物
A.SMB.PZAC.EMBD.RFPE.PAS能引起严重胃肠道反应的是
本案的保证属于()。乙公司应承担保证责任的范围包括()。
对于存货的盘亏、盘盈,下列说法正确的是()。
某工程单代号网络计划中,工作B的最早开始时间为第6天,持续时间为5天,工作B有三项紧后工作,其最早开始时间分别为第14天、16天、17天,则工作B的自由时差是()天。
在美洲某个国家,希望戒烟的人使用一种尼古丁皮肤贴,它可释放小剂量的尼古丁透过皮肤。从下个月开始,人们可以不用医生处方购买这种皮肤贴,尽管非处方购买的皮肤贴并不比使用处方购买的皮肤贴更有效,而且二者价格同样昂贵,但是皮肤贴制造商预计非处方购买的身份将令近年来
[2007年]设三阶实对称矩阵A的特征值λ1=1,λ2=2,λ3=-2,α1=[1,-1,1]T是A的属于λ1的一个特征向量.记B=A5-4A3+E,其中E为三阶单位矩阵.验证α1是矩阵B的特征向量,并求B的全部特征值与特征向量;
RoleofSecurityManagementinanIndustryTherearemanycompaniesprovidingyousolutionsforsecuritymanagement.Someof
Assoonasheopenedthedoor,a______ofcoldairsweptthroughthehouse.
最新回复
(
0
)