搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来，每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高，其实互异的查询串不超过三百万个；显然，一个查询串的重复度越高，说明查询它的用户越多，也就是越热门)。现要统计最热门的

admin2019-05-11 67

问题搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来，每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高，其实互异的查询串不超过三百万个；显然，一个查询串的重复度越高，说明查询它的用户越多，也就是越热门)。现要统计最热门的10个查询串，且要求使用的内存不能超过1GB。以下各方法中，可行且效率最高的方法是____________。

选项 A、将一千万个查询串存入数组并进行快速排序，再统计其中每个查询串重复的次数
B、将一千万个查询串存入数组并进行堆排序，再统计其中每个查询串重复的次数
C、利用哈希表保存所有的查询串并记下每个查询串的重复次数，再利用小根堆选出重复次数最多的10个查询串
D、利用哈希表保存所有的查询串并记下每个查询串的重复次数，再利用大根堆选出重复次数最多的10个查询串

答案C

解析本题考查数据结构应用知识。
快速排序和堆排序都属于内部排序方法，要求待排序的元素序列都放在内存。按最坏情况考虑，一千万个查询串需要的存储空间为225千万字节，也就是2．25×10¹⁰字节，远超过1GB(约等于10⁹)的存储容量限制，所以选项A和B是不可行的。另外，即便不考虑存储容量限制，在只要求找出最大的10个元素时快速排序也是不适用的。
选项C和D的区别是利用大顶堆还是小顶堆。设想需要在1000个元素中找出10个最大元素，用小顶堆的思路是：先用前10个元素建个小顶堆(堆顶是最小元素)，此后从第11个元素开始，顺序地将每个元素与堆顶元素比较，若小于或等于堆顶元素就舍弃之，若大于堆顶元素，则用该元素替换堆顶元素，并再次调整为小顶堆。重复该过程直到最后一个元素处理完，那么，在小顶堆中留下的10个元素实际上就是这1000个元素中的前10大元素。
本问题中需要在三百万个元素中按照重复次数找最大的10个元素，由于10个元素构成的小顶堆建立和调整时所花费的时间是个很小的常数c0，因此，采用这种方式在n为三百万个元素时找出10个最大者的运算时间是线性阶的(大约为n+e0，c0是小整数)。反之，如果采用大顶堆，一种情况是建立10个元素构成的大项堆，则在顺序地处理后面元素时，无法简单地确定需要替换该大顶堆中的哪个元素；另一种情况是建立由三百万个元素构成的大顶堆，在该数据量情况下，哈希表和大项堆都在内存存储，可能会突破1GB的存储容量限制，而且建立初始大顶堆的运算时间(有可能是达到4n)以及后面9次调整大顶堆的时间(9logn)的时间都远多于前面的小顶堆方案。

转载请注明原文地址:https://kaotiyun.com/show/GvVZ777K

本试题收录于：程序员上午基础知识考试题库软考初级分类

程序员上午基础知识考试

软考初级

相关试题推荐

随机试题

最新回复(0)

程序员上午基础知识考试

软考初级

路由协议RIPv2是RIPv1的升级版，它的特点是______。A．RIPv2是链路状态路由协议B．RIPv2支持VLSMC．RIPv2每隔90秒广播一次路由信息D．RIPv2允许的最大跳数为30

下面关于ARP协议的描述中，正确的是______。A．ARP报文封面在IP数据报中传送B．ARP协议实现域名到IP地址的转换C．ARP协议根据IP地址获取对应的MAC地址D．ARP协议是一种路由协议

“与非”门中的某一个输入值为“0”，那么它的输出值______。A．为“0”B．为“1”C．取决于其他输入端的值D．取决于正逻辑还是负逻辑

以下二进制数中，______可能是英文字母的ASCII码。A．11000110B．00000101C．01001100D．10011010

一个功能完备的计算机网络需要指定一套复杂的协议集。对于复杂的计算机网络协议来说，最好的组织方式是______。A．连续地址编码模型B．层次结构模型C．分布式进程通信模型D．混合结构模型

不能打开HTML源代码文件的软件为(1)__。若在网页中需要增加“提交”和“重置”两个按钮，则应将它们的TYPE属性分别设置为(2)。在HTML的标记中，不需要成对出现的标记为(3)_。(1)__A．Word

以太网的媒体访问控制协议采用的是(1)___，最大帧长度为(2)_。(2)___A．512字节B．1500字节C．1518字节D．4096字节

一般8口的小型以太网交换机的传输方式为(36)。

在定点二进制运算中，减法运算一般通过________来实现。

下列哪种方法不属于灭菌法

将RNA转移到硝基纤维素膜上的技术叫

药品作为特殊商品的特征包括

过氧乙酸不能用于（　　）。【历年考试真题】

()是以建设项目中某些关键性的重要事件的开始或完成时间点作为基准所形成的计划，是一种战略计划，它规定了建设项目的可实现的中间结果。

依据《安全生产法》，关于安全生产违法行为责任主体，下列说法中，正确的是()。

A、Albania.B、Hungary.C、Romania.D、Czechoslovakia.D选项表明，本题考查国家名称，听音时应留意与国家名称有关的信息。对话中女士首先提到男士想去访问的国家，然后问What’sthepriority?由男士

程序员上午基础知识考试

软考初级

路由协议RIPv2是RIPv1的升级版，它的特点是______。A．RIPv2是链路状态路由协议B．RIPv2支持VLSMC．RIPv2每隔90秒广播一次路由信息D．RIPv2允许的最大跳数为30

下面关于ARP协议的描述中，正确的是______。A．ARP报文封面在IP数据报中传送B．ARP协议实现域名到IP地址的转换C．ARP协议根据IP地址获取对应的MAC地址D．ARP协议是一种路由协议

“与非”门中的某一个输入值为“0”，那么它的输出值______。A．为“0”B．为“1”C．取决于其他输入端的值D．取决于正逻辑还是负逻辑

以下二进制数中，______可能是英文字母的ASCII码。A．11000110B．00000101C．01001100D．10011010

一个功能完备的计算机网络需要指定一套复杂的协议集。对于复杂的计算机网络协议来说，最好的组织方式是______。A．连续地址编码模型B．层次结构模型C．分布式进程通信模型D．混合结构模型

不能打开HTML源代码文件的软件为(1)____。若在网页中需要增加“提交”和“重置”两个按钮，则应将它们的TYPE属性分别设置为(2)____。在HTML的标记中，不需要成对出现的标记为(3)_____。(1)____A．Word

以太网的媒体访问控制协议采用的是(1)_____，最大帧长度为(2)_____。(2)_____A．512字节B．1500字节C．1518字节D．4096字节

一般8口的小型以太网交换机的传输方式为(36)。

在定点二进制运算中，减法运算一般通过________来实现。

下列哪种方法不属于灭菌法

将RNA转移到硝基纤维素膜上的技术叫

药品作为特殊商品的特征包括

过氧乙酸不能用于（ ）。【历年考试真题】

()是以建设项目中某些关键性的重要事件的开始或完成时间点作为基准所形成的计划，是一种战略计划，它规定了建设项目的可实现的中间结果。

依据《安全生产法》，关于安全生产违法行为责任主体，下列说法中，正确的是()。

A、Albania.B、Hungary.C、Romania.D、Czechoslovakia.D选项表明，本题考查国家名称，听音时应留意与国家名称有关的信息。对话中女士首先提到男士想去访问的国家，然后问What’sthepriority?由男士

不能打开HTML源代码文件的软件为(1)__。若在网页中需要增加“提交”和“重置”两个按钮，则应将它们的TYPE属性分别设置为(2)。在HTML的标记中，不需要成对出现的标记为(3)_。(1)__A．Word

以太网的媒体访问控制协议采用的是(1)___，最大帧长度为(2)_。(2)___A．512字节B．1500字节C．1518字节D．4096字节

过氧乙酸不能用于（　　）。【历年考试真题】