首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
论数据挖掘方法及应用 随着信息技术和数据库技术的普遍应用,人类获取数据的能力不断增强,数据库的数量和规模在迅速增加。数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是识别数据库中以前不知道
论数据挖掘方法及应用 随着信息技术和数据库技术的普遍应用,人类获取数据的能力不断增强,数据库的数量和规模在迅速增加。数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是识别数据库中以前不知道
admin
2020-04-30
59
问题
论数据挖掘方法及应用
随着信息技术和数据库技术的普遍应用,人类获取数据的能力不断增强,数据库的数量和规模在迅速增加。数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是识别数据库中以前不知道的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。数据挖掘是数据库知识发现过程的一个步骤,其目标就是要智能化和自动化地把数据转换为有用的信息和知识。
请围绕“数据挖掘方法及应用”论题,依次从以下三个方面进行论述。
详细阐述三种常用的数据挖掘方法。
选项
答案
详细阐述三种常用的数据挖掘方法。 1.关联规则挖掘。关联规则挖掘的典型问题是:给定一个销售交易的数据库,要求发现数据项之间的重要关联性,即在一个交易中出现某些数据项蕴含着其他一些数据项也可能会在同一交易中出现。例如许多顾客在购买尿布的同时也购买啤酒的结论就是通过关联规则分析所得到的结果。关联规则分析是一个从现象到本质的揣测推理过程。也就是说,通过关联分析所得到的结果,仅仅是一种可能的因果关系,它能够协助业务专家对事物的本质进行分析,深化对事物关系的认识,但需要业务专家加以确认,并予以合理的解释,才能够成为对决策进行指导的规律。 2.特征描述。数据库中通常存放大量的细节数据,然而,用户常常希望能够得到对于所关心的一类数据的简洁概貌描述。特征描述是对月标类数据的一般特征或特性进行汇总,并以直观易理解的方式显示给用户。通常,用户首先通过数据库查询来对目标类数据进行查询,例如为研究上一年在某超市消费超过1000美元以上的顾客特征,可以通过执行一个SOL查询收集关于这些产品的数据。特征描述通常采用的方法是进行数据概化,将庞大的任务相关的数据集从较低的概念层抽象到较高的概念层。例如,对于上述消费超过1000美元以上的顾客,特征描述的结果可能是顾客的一般轮廓,如年龄在40至50岁之间、已婚、有工作等。 3.分类分析。分类分析是找出数据集中各组对象的共同特征,并建立分类模型,从而能够将数据集中的其他对象分到不同的组中分类也称作制导的学习,为了建立分类模型,需要有一个用做训练集的示例数据库E,其中的每个元组都有一个给定的类标识。分类过程是首先分析训练集中的数据,根据每个类中数据的特征为每个类生成分类模型,然后用得到的分类模型对未知类别的数据进行分类。表示分类模型的一种常用方法是决策树。 4.聚类分析。若干个相似的数据对象组合在一起称作一个聚簇。聚类分析是将数据集分割为若干个有意义的聚簇的过程。聚类分析也称作无制导的学习,因为聚类分析与分类分析不同,它不依赖于没有事先确定的类,也没有已具有类标识的训练集。好的聚类分析算法应该使得所得到的聚簇内的相似性很高,而不同的聚簇间的相似性很低。
解析
转载请注明原文地址:https://kaotiyun.com/show/jeQZ777K
本试题收录于:
系统分析师下午论文考试题库软考高级分类
0
系统分析师下午论文考试
软考高级
相关试题推荐
Researchersinthefieldofartificialintelligencehavelongbeenintriguedbygames,andnotjustasawayofavoidingwork.G
定义栈的数据结构,要求添加一个min函数,能够得到栈的最小元素。要求函数min、push以及pop的时间复杂度都是O(1)。
如何通过ADO.NET读取数据库中的图片?
.什么是code-behind技术
某队列的声明如下:templateclassCQueue{public:CQueue(){}~CQueue(){}voidappendTail(constT&node);//appendaelementto
ASP.net的身份验证方式有哪些?分别是什么原理?
输入两个字符串,从第一字符串中删除第二个字符串中所有的字符。例如,输入”Theyarestudents.”和”aeiou”,则删除之后的第一个字符串变成”Thyrstdnts.”。
用手动的方法设置IP地址,其中IP地址为“202.204.54.23”,默认网关为“202.204.54.1”,DNS服务器地址为“202.106.60.10”。
在桌面上打开帮助和支持中心,利用“索引”的方法取得关于WindowsXP的“磁盘清理程序”方面的帮助信息。
一般情况下,Excel97默认的显示格式右对齐的是()。A.数值型数据B.字符型数据C.逻辑型数据D.不确定
随机试题
小腿部肩反射区位于小腿外侧。()
计算曲线积∮L(excosy一3y)dx—exsinydy,其中积分路径L为圆周x2+y2=2x的正向.
我国基础教育新课程管理的政策是()(淄博市直)
按照我国现行法律规定,下列说法不正确的是()。
PPP教学模式是指教学过程中按照展示、练习和____________三个阶段展开的。(上海外国语大学2016)
甲因病在乙医院住院治疗,因输入血液不合格而致慢性丙型肝炎。经查,该血液是由丙血站提供的。下列表述正确的是()。
Biologically,thereisonlyonequalitywhichdistinguishesusfromanimals:theabilitytolaugh.Inauniversewhichappearst
In1924America’sNationalResearchCouncilsenttwoengineerstosuperviseaseriesofexperimentsatatelephone-partsfactory
ShowLovebyKnittingMymotherknewhowtoknit,butshenevertaughtme.Sheassumed,asdidmanywomenofhergeneration,
Ofthefollowingpoems,______isnotwrittenbySamuelTaylorColeridge.
最新回复
(
0
)