首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
阅读以下说明和流程图,填补流程图中的空缺(1)~(5),将解答填入答题纸的对应栏内。 [说明] 指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组公共的关键词。因此,每个新闻网页都存在一组词频,称为该新闻网页
阅读以下说明和流程图,填补流程图中的空缺(1)~(5),将解答填入答题纸的对应栏内。 [说明] 指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组公共的关键词。因此,每个新闻网页都存在一组词频,称为该新闻网页
admin
2016-03-25
23
问题
阅读以下说明和流程图,填补流程图中的空缺(1)~(5),将解答填入答题纸的对应栏内。
[说明]
指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组公共的关键词。因此,每个新闻网页都存在一组词频,称为该新闻网页的特征向量。
设两个新闻网页的特征向量分别为:甲(a
1
,a
2
,…,a
k
)、乙(b
1
,b
2
…,b
k
),则计算这两个网页的相似度时需要先计算它们的内积S=a
1
b
1
+a
2
b
2
+…+a
k
b
k
。一般情况下,新闻网页特征向量的维数是巨大的,但每个特征向量中非零元素却并不多。为了节省存储空间和计算时间,我们依次用特征向量中非零元素的序号及相应的词频值来简化特征向量。为此,我们用(NA(i),A(i)|i=1,2,…,m)和(NB(j),B(i)…j=1,2,…,n)来简化两个网页的特征向量。
其中:NA(i)从前到后描述了特征向量甲中非零元素A(i)的序号(NA(1)<NA(2)<…),
NB(j)从前到后描述了特征向量乙中非零元素B(j)的序号(NB(1)<NB(2)<…)。
下面的流程图描述了计算这两个特征向量内积S的过程。
(5)
选项
答案
i>m or j>n或i=m+1 or j=n+1或等价表示
解析
本题是简化了的一个大数据算法应用之例。世界上每天都有大量的新闻网页,门户网站需要将其自动进行分类,并传送给搜索的用户。为了分类,需要建立网页相似度的衡量方法。流行的算法是,先按统一的关键词组计算各个关键词的词频,形成网页的特征向量,这样,两个网页特征向量的夹角余弦(内积/两个向量模的乘积),就可以衡量两个网页的相似度。因此,计算两个网页特征向量的内积就是分类计算中的关键。对于存在大量零元素的稀疏向量来说,用题中所说的简化表示方法是很有效的。这样,求两个向量的内积只需要在分别从左到右扫描两个简化向量时,计算对应序号相同 (NA(i)=NB(j))时的A(i)*B(j)之和(其他情况两个向量对应元素之乘积都是0)。因此,流程图中(2)处应填S+A(i)*B(j),而累计的初始值S应该为0,即(1)处应填0。
流程图中,NA(i)<NB(j)时,下一步应再比较NA(i+1)<NB(j),除非i+1已经越界。
因此,应先执行i+1→i,再判断是否i>m或i=m+1(如果成立,则扫描结束)。因此(3)处应填i>m或i=m+1。
流程图中,NA(i)>NB(j)时,下一步应再比较NA(i)<NB(j+1),除非j+1已经越界。
因此,应先执行j+1→j,再判断是否j>n或j=n+1(如果成立,则扫描结束)。因此(4)处应填j>n或j=n+1。
(5)处应填扫描结束的条件,i>m or j>n或i=m+1 or j=11+1,即两个简化向量之一扫描结束时,整个扫描就结束了。
转载请注明原文地址:https://kaotiyun.com/show/P9jZ777K
本试题收录于:
程序员下午应用技术考试题库软考初级分类
0
程序员下午应用技术考试
软考初级
相关试题推荐
在Word中,为将正在编辑的文档以新的文件名保存,可使用______命令。
在Excel中,设单元格A1中的值为100,B1中的值为200,A2中的值为300,B2中的值为400,若在A3单元格中输入函数“=SUM(A1:B2)”,按回车键后,A3单元格中的值为()。
(1)是固化在主板ROM内的程序,为计算机提供最底层、最直接的硬件访问和控制。
下列关于系统软件的叙述中,正确的是(7)。
在Access2007中,若要想查询所有姓名为2个汉字的学生记录,应在准则中输入______。
对一批数据进行质量分析时,需要检查的问题一般不包括_______。
通常,网购产品需要依次进行以下操作步骤:浏览商品、放入购物车、生成订单、支付订单、完成交易。某网站对一个月内执行每一步操作的客户人数及其比例做了统计(按浏览商品的人数比例为100%进行统计),制作了如下的漏斗图(只有20%的浏览商品者实际完成了交易)。
现在,企业数字化转型已是大势所趋。以下关于企业数字化转型的叙述中,不正确的是_________。
综合布线系统由6个子系统组成,将图1-1中(1)~(6)处空缺子系统的名称填写在答题纸对应的解答栏内。制作交叉双绞线(一端按EIA/TIA568A线序,另一端按EIA/TIA568B线序)时,其中一端的线序如图1-2(a)所示,另一端线序如图1—2
网页留言效果如下图所示,网页文档如下,请参照表格给出的说明在下划线处填写正确的答案到答题纸对应的栏内。[上图网页中的元素说明] [HTML文本]<!DOCrYPEHTMLPUBLIC“-//W3C//DTDHTML
随机试题
有两个关系R与S如下,由关系R和S得到关系T,则所使用的操作为
女性,45岁。因SLE口服糖皮质激素近2年,发热2周伴咳嗽,痰中带血丝,查肺部无异常体征,胸片右上肺野多发片状结节影伴空洞,血沉40mm/h,PPD5IU(一)。诊断首先考虑
某养猪户发现饲养的猪体温升高,口腔黏膜、牙龈、舌面和鼻翼边缘出现水痘,根据症状可判断猪患的是()
枕骨大孔疝小脑幕裂孔疝
口服补液盐治疗腹泻适用于
近年来,大力发展循环经济、实施绿色GDP已经深入人心。其目的就是要减少资源消耗,加强资源有效回收利用,发展再生资源。核算GDP时,要考虑环境成本和生态成本。这是人们在总结实践中的经验教训后做出的选择。为此,必须强化全民族的环保意识、节约意识。这表明(
根据合同法律制度的规定,下列关于买卖合同中解除合同的表述正确的有()。
有一天,小明上学迟到了。班主任并没有立刻把小明找来训斥一顿,而是在班上责备全体同学:“咱们班今天有人迟到了,希望以后不要再发生这样的事情。”事后,全班的人都来教育小明,对他说:“你迟到了,就等于说我们全班都迟到了!”小明很快就克服了上学迟到的毛病。通过这种
如图,M为△ABC边BC的中点,则下列结论不正确的是().
(2016年真题)下列关于刑法中法条竞合的说法,正确的有()。
最新回复
(
0
)