某互联网销售企业需要建立自己的电子商务平台,将所有产品信息集中在一起,为用户提供全方位的产品信息检索服务。但产品供应商大多数已经建有自己的电子商务平台,且数据独立存储,而且数据格式和数据平台有较大差异,有的供应商甚至没有采用数据库来存储商品信息。为此该企业

admin2011-01-03  37

问题 某互联网销售企业需要建立自己的电子商务平台,将所有产品信息集中在一起,为用户提供全方位的产品信息检索服务。但产品供应商大多数已经建有自己的电子商务平台,且数据独立存储,而且数据格式和数据平台有较大差异,有的供应商甚至没有采用数据库来存储商品信息。为此该企业专门成立专家组来论证其数据集成方案。
   李工提出采用集中式集成方式把产品供应商的数据集中在一起,采用数据仓库技术来实现与各家供应商的数据集成。而王工提出采用松耦合的联邦数据库集成方案。专家组经过激烈讨论,认为王工方案更为合理,建议采用王工提出的集成方案。
部分供应商的产品信息没有相应的数据库,而是直接嵌入在Web页面中供用户浏览。数据集成时需要直接从供应商电子商务平台的网页上获取其产品信息。请简要给出此类数据集成的方法和基本步骤。

选项

答案此类数据往往是非结构化或者半结构化的,但同一个数据源往往有统一的页面模式,因此应该采用Web内容提取(挖掘/文本挖掘)的集成方法来获取对应供应商的产品信息。 其基本步骤为: (1)分析页面,确定其页面中的数据模式。 (2)抓取页面,通过爬虫技术获取对应的网页。 (3)特征提取与处理,获取相应数据。 (4)数据清洗,根据规则进行判断,抛弃异常数据。 (5)数据转换,根据预先定义好的语义映射关系,将数据转换为统一格式。

解析 本问题考查Web内容提取或Web数据挖掘的相关知识。Web信息系统中的数据往往是非结构化或者半结构化的,但同一个数据源往往有统一的页面模式,但是其数据呈现是嵌入在页面中。因此需要采用Web内容提取(挖掘/文本挖掘)的集成方法来获取对应供应商的产品信息。
   其基本的步骤是:
   (1)分析页面,确定其页面中的数据模式。制定数据挖掘的特征和提取规则,编写特定的页面分析和数据提取程序。
   (2)抓取页面,通过爬虫技术获取对应的网页。将远端的页面下载到本地进行存储,为后续数据提取做准备。
   (3)特征提取与处理,获取相应数据,依据的原则是分析页面阶段所形成的特征和提取规则。
   (4)数据清洗,根据规则进行判断,抛弃异常数据。
   (5)数据转换,根据预先定义好的语义映射关系,将数据转换为统一格式。
   Web内容提取的算法程序本身是近似的,因此在获取数据的内容上存在不确定性。
转载请注明原文地址:https://kaotiyun.com/show/EZQZ777K
0

最新回复(0)