首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
从结构的角度看,数据仓库有3种模型:企业仓库、(1)和虚拟仓库。数据挖掘就是要智能化和自动化地把数据转换为有用的信息和知识,目前已有多种数据挖掘方法。如果需要一个示例库(该库中的每个元组都有一个给定的类标识)做训练集时,该方法称为(2)。
从结构的角度看,数据仓库有3种模型:企业仓库、(1)和虚拟仓库。数据挖掘就是要智能化和自动化地把数据转换为有用的信息和知识,目前已有多种数据挖掘方法。如果需要一个示例库(该库中的每个元组都有一个给定的类标识)做训练集时,该方法称为(2)。
admin
2007-10-08
69
问题
从结构的角度看,数据仓库有3种模型:企业仓库、(1)和虚拟仓库。数据挖掘就是要智能化和自动化地把数据转换为有用的信息和知识,目前已有多种数据挖掘方法。如果需要一个示例库(该库中的每个元组都有一个给定的类标识)做训练集时,该方法称为(2)。
选项
A、用户仓库
B、产品仓库
C、关系型OLAP
D、数据集市
答案
D
解析
从结构的角度看,有3种数据仓库模型,分别是企业仓库、数据集市和虚拟仓库。
企业仓库收集跨越整个企业的各个主题的所有信息,它提供整个企业范围的数据集成,数据通常来自多个操作型数据库和外部信息提供者,并且是跨多个功能范围的。它通常包含详细数据和汇总数据。
数据集市包含对特定用户有用的、企业范围数据的一个子集,它的范围限定选定的主题。
虚拟仓库是操作型数据库上视图的集合。
数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。也可以说,数据挖掘是一类深层次的数据分析。常见和应用最广泛的数据挖掘方法有如下几种。
(1)决策树
决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性宇段的不同取值创建树的分支;在每个分支子集中重复建立树的下层结点和分支的过程。国际上最早的、也是最有影响的决策树方法是Quiulan研究的ID3方法;
(2)神经网络
神经网络方法是模拟人脑神经元结构,完成类似统计学中的判别、回归、聚类等功能,是一种非线性的模型,主要包括3种模型:前馈式网络、反馈式网络和自组织网络。人工神经网络最大的长处是可以自动地从数据中学习,形成知识,这些知识有些是人们未曾发现的,因此它具有较强的创新性。神经网络的知识体现在网络连接的权值上,神经网络的学习主要表现在神经网络权值的逐步计算上。
(3)遗传算法
遗传算法是模拟生物进化过程的算法,它由3个基本过程组成:繁殖(选择)、交叉 (重组)和变异(突变)。采用遗传算法可以产生优良的后代,经过若干代的遗传,将得到满足要求的后代,即问题得解。
(4)关联规则挖掘算法
关联规则是描述数据之间存在关系的规则,形式为“A1A2...An=>B1B2...Bn”。一般分为2步,.即求出大数据项集;用大数据项集产生关联规则。
除了上述的常用方法外,还有粗集方法、模糊集合方法、Bayesian BeliefNetords、最邻近算法(k-nearest neighbors method(kNN))等。
无论采用哪种技术完成数据挖掘,从功能上都可以将数据挖掘的分析方法划分为4种,即关联分析(associations)、序列模式分析(sequential patterns)、分类分析(classifiers)和聚类分析(clustering)。
(1)关联分析
关联分析的目的是为了挖掘出隐藏在数据间的相互关系。若设只={A1,A2,..., An}为{0,1)域上的属性集,r为R上的一个关系,关于r的关联规则表示为X→B,其中 X∈R,B∈R,且X∩B=¤。关联规则的矩阵形式为:矩阵r中,如果在行X的每一列为 1,则行B中各列趋向于为1。
在进行关联分析的同时还需要计算2个参数,最小置信度(confidence)和最小支持度 (support)。前者用以过滤掉可能性过小的规则,后者则用来表示这种规则发生的概率,即可信度。
(2)序列模式分析
序列模式分析的目的也是为了挖掘出数据之间的联系,但它的侧重点在于分析数据间的前后关系(因果关系)。例如,将序列模式分析运用于商业,经过分析,商家可以根据分析结果发现客户潜在的购物模式,发现顾客在购买一种商品的同时经常购买另一种商品的可能性。在进行序列模式分析时也应计算置信度和支持度。
(3)分类分析
分类分析时首先为每一个记录赋予一个标记(一组具有不同特征的类别),即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。这些描述可能是显式的,如一组规则定义;也可能是隐式的,如一个数学模型或公式。
(4)聚类分析
聚类分析法是分类分析法的逆过程,它的输入集是一组未标定的记录,即输入的记录没有做任何处理。目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别。
在实际应用的DM系统中,上述4种分析方法有不同的适用范围,因此经常被综合运用。
转载请注明原文地址:https://kaotiyun.com/show/fdQZ777K
本试题收录于:
系统分析师上午综合知识考试题库软考高级分类
0
系统分析师上午综合知识考试
软考高级
相关试题推荐
输入一个整数数组,判断该数组是不是某二元查找树的后序遍历的结果。如果是返回true,否则返回false。例如输入5、7、6、9、11、10、8,由于这一整数序列是如下树的后序遍历结果:8/\610
下面的例子中usingSystem;classA{publicstaticintX;staticA(){X=B.Y+1;
2005年11月15日华为软件研发笔试题。实现一单链表的逆转。
2005年11月23日慧通笔试题:写一函数判断某个整数是否为回文数,如12321为回文数。可以用判断入栈和出栈是否相同来实现(略微复杂些),这里是将整数逆序后形成另一整数,判断两个整数是否相等来实现的。
设置Internet选项使得在表单上完成输入用户名就会自动完成填写密码。
设置拨号连接属性使得用户在使用拨号连接时需要使用我的Windows登录名和密码。
请打开"计算器"应用程序,利用科学型模式将十六进制的ABC转换为二进制。
设置DOS窗口为“快速编辑模式”。
将“开始”菜单设置成为经典模式。
计算机中用于存放软件和硬件规格及开机密码等重要数据的部件,称为()A.存储器B.romC.cmosD.主存
随机试题
在其他条件不变的情况下,会引起总资产周转率指标上升的经济业务有()。
We’llgetinallthewheatbeforethesun______.
关于中耳鼓室型血管瘤CT表现的描述,不正确的是
下列有关流行性出血热的叙述,正确的是
A、通过抑制5-羟色胺,去甲肾上腺素能通路抑制食欲B、选择性地抑制淀粉酶C、选择性地抑制磷酸酯酶D、选择性地抑制胰蛋白酶E、选择性地抑制胃肠道脂肪酶减肥药物西布曲明的药理作用是通过
甲公司承建某体育场馆工程,与发包方签订建设工程合同。施工中,因为一台挖掘机损坏,为了赶进度,甲公司从丙公司处租赁一台挖掘机继续施工。基建工程完工后,甲公司将该挖掘机出租给丁公司,后因向戊公司购买建材,为担保支付货款,将该挖掘机出质给戊公司,并通知了丁公司。
房屋建筑按高度分类,7~9层应定为()建筑。
最低工资立法是各国管制劳动力市场的通行做法。一些经济学家认为,这种做法会提高失业率,而另一些经济学家则指出,这种做法不仅不会提高失业率,反而能够带来工资水平和就业水平双重上升。请根据你所学的微观经济学理论和模型,讨论一下几个主题:最低工资立法的经济学含
Thisfigureofspeechisplainandpungent.Saltissavory,purifying,preservative.Itisoneofthosesuperfluitieswhichthe
withthesurgeofnetworkingmarketing,workathomejobsandMLMcompanies,manypeoplearediscoveringnetworkmarketingoppor
最新回复
(
0
)