考生文件夹下存在2个Python源文件和1个文本文件。其中，2个Python源文件对应2个问题，文本文件data．txt中包含一篇从互联网上下载的关于“德国工业4．0战略规划实施建议摘要”的文章。请分别补充2个Python源文件，完成以下功能。提取主

admin2022-09-10 114

问题考生文件夹下存在2个Python源文件和1个文本文件。其中，2个Python源文件对应2个问题，文本文件data．txt中包含一篇从互联网上下载的关于“德国工业4．0战略规划实施建议摘要”的文章。请分别补充2个Python源文件，完成以下功能。

提取主题词并统计其频次。要求：在文件PY301-2．py中补充代码，提取clean．txt文件中长度不少于3个字符的词语并统计词频，将词频最高的10个词语作为主题词，并将主题词及其频次显示到屏幕上。输出示例如下。
4．0：10，制造业：9，…
注意：输出格式采用英文冒号和英文逗号，标点符号前后无空格，各词语中间用逗号分隔，最后一个词语后无逗号。
试题程序
#
#以下代码仅供参考
#
　　import jieba
　　
d={}
lt=list(d．items())
lt．sort(key=lambda x：x[1]，reverse=True)

选项

答案import jieba f=open(’clean．txt’，’r’) data=f．read() l=jieba．lcut(data) d={} for i in l： if len(i)>=3： d[i]=d．get(i，0)+1 lt=list(d．items()) lt．sort(key=lambda x：x[1]，reverse=True) for i in lt[：9]： print(i[0]，’：’，end=’，’，sep=’’) print(lt[9][0]，’：’，lt[9][1]，sep=’’) f．close()

解析 (1)本题无须使用jieba库，直接读取文件。此处需要将读取文件的编码设置为utf-8，通过参数encoding设置即可。创建一个包含中文标点符号的字符串，并且该字符串需将空格和换行符考虑进去。考生可先浏览data．txt文件查看有关中文标点。接下来对读取的数据进行遍历，只要不在标点符号字符串内的数据都添加到新的变量中，然后直接写入文件clean．txt即可。
(2)本题要使用jieba库，则首先用import保留字导入jieba库。打开data．txt文件后，需要用read()方法读入整个文件内容并赋值给data；然后使用jieba库的lcut()函数对data进行精准分词，其分词结果存放在列表1中；最后定义一个字典d，用来存放选出的主题词(键)和该词出现的次数(值)。
用for循环遍历列表l中的每个元素(主题词)，题目要求选出长度大于等于3个字符的主题词(len(i)>=3)，当主题词符合要求时，就将该元素存入字典d中作为一个键(d)，该键所对应的值设置为1(d．get(i，0)+1)，在后面循环中只要遍历的主题词和键相同，就将该键对应的值加1。
lt=list(d．items())表示将字典类型变成列表类型，字典中的每个键值对对应列表中的一个元组。随后，对列表lt中的元素进行排序，使用sort()方法。参数“key=lambda x：x[1]”中，lambda是一个隐函数，是固定写法，不能写成别的单词；x表示列表中的一个元素，在这里表示一个元组，x只是临时起的一个名字，也可以使用任意的名字；x[1]表示以元组中第2个元素排序。sort()方法的第2个参数表示排序方式，若该参数为“reverse=True”，则表示按降序排序；若该参数未填写或为“reverse=False”，则表示按升序排序，即按照列表lt中每个元组中的第2个元素(次数)降序排序。
排序后，通过一个for循环，遍历列表lt中的前9个元组，每个元组的第1个元素(主题词)和第2个元素(次数)通过“：”连接输出，并添加逗号作为输出结束符，空格作为字符分隔符。最后输出第10个元组即可。

转载请注明原文地址:https://kaotiyun.com/show/hznp777K

本试题收录于：二级Python题库NCRE全国计算机二级分类

二级Python
NCRE全国计算机二级

相关试题推荐

随机试题

最新回复(0)

二级Python

NCRE全国计算机二级

下面属于表单方法名(非事件名)的是

在“表单控件”工具栏中，除了控件按钮，还有4个辅助按钮。默认情况下处于按下状态的辅助按钮是

表单文件的扩展名是

在数据库系统中，用户所见的数据模式为

下列选项中不属于结构化程序设计原则的是

下列叙述中正确的是

假定一个表单里有一一个文本框Text1和一个命令按钮组CommandGroup1。命令按钮组是一个容器对象，其中包含Command1和Command2两个命令按钮。如果要在Command1命令按钮的某个方法中访问文本框的Value属性值，正确的表达式是(

(1)建立数据库bookauth．dbc，把表books．dbf和authors．dbf。添加到该数据库。(2)为authors表建立主索引，索引名“pk”，索引表达式“作者编号”。(3)为books表分别建立两个普通索引，一个索引名为

以下描述中，不是线性表顺序存储结构特征的是()。

A、ItisfamousforlocalBritishfood.B、ItisthebiggestgourmetcenterinLondon.C、Itisaplacewherealotofculturesare

()的发明专利，对国家利益或者公共利益具有重大意义，需要推广应用的，由国务院有关主管部门报国务院批准后，允许指定的单位实施，由实施单位按照国家规定向专利权人支付使用费。

参数间的数量、属性或量纲不匹配，全局变量的定义不一致，参数被漏传，是哪种错误()

《医疗事故处理条例》开始施行的日期是

国家禁毒委员会为国务院议事协调机构。关于该机构，下列哪一说法是正确的?

根据《中华人民共和国证券法》的规定，证券交易内幕信息的知情人或者非法获取内幕信息的人违反本法规定从事内幕交易的，处罚的情形包括()。

为详细核算一般纳税人应缴纳增值税的计算、解缴和抵扣等情况，下列各项中属于企业应在“应交增值税”明细科目下设置的专栏有()。

2015年9月5日，某事业单位购入一台不需要安装的检测专用设备，设备价款为600000元，由财政直接支付。不考虑质量保证金等其他因素影响，下列会计处理中正确的是()。

2013年全国留学回国人数比2009年增加约()。

小张的毕业论文设置为2栏页面布局，现需在分栏之上插入一个横跨两栏内容的论文标题，最优的操作方法是()