首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
《三国演义》是中国古典四大名著之一,曹操是其中的主要人物,考生文件夹下文件“data.txt”给出《三国演义》简介。 问题1:请编写程序,用Python中文分词第三方库jieba对文件“data.txt”进行分词,并将结果写入文件“out.tx
《三国演义》是中国古典四大名著之一,曹操是其中的主要人物,考生文件夹下文件“data.txt”给出《三国演义》简介。 问题1:请编写程序,用Python中文分词第三方库jieba对文件“data.txt”进行分词,并将结果写入文件“out.tx
admin
2021-03-17
83
问题
《三国演义》是中国古典四大名著之一,曹操是其中的主要人物,考生文件夹下文件“data.txt”给出《三国演义》简介。
问题1:请编写程序,用Python中文分词第三方库jieba对文件“data.txt”进行分词,并将结果写入文件“out.txt”,每行一个词。例如:
内容简介
编辑
整个
故事
在
东汉
……
在考生文件夹下给出了程序框架文件“PY301-1.py”,补充代码完成程序。
试题程序:
#请在________处使用一行代码或表达式替换
#注意:请不要修改其他已给出的代码
import jieba
f=open(’data.txt’,’r’)
lines=f.readlines()
f.close()
f=open(’out.txt’.’w’)
for line in lines:
line=________(1)________ #删除每行首尾可能出现的空格
wordList=________(2)________ #用jieba库对每行内容进行分词
f.writelines(’\n’________((3)________))#将分词结果存到文件out.txt中
f.close()
问题2:对文件“out.txt”进行分析,输出“曹操”出现的次数。
在考生文件夹下给出了程序框架文件“PY301-2.py”,补充代码完成程序。
试题程序:
#请在________处使用一行代码或表达式替换
#注意:请不要修改其他已给出代码
import jieba
f=open(’out.txt’,’r’) #以只读模式打开文件
words=f.readlines()
f.close()
D={}
for w in________(1)________: #词频统计
D[w[:-1]]=________(2)________+1
print("曹操出现次数为:{}".format(________(3)________))
选项
答案
(1)import jieba f=open(’data.txt’.’r’) lines=f.readlines() f.close() f=open(’out.txt’,’w’) for line in lines: line=line.strip() wordList=jieba.lcut(line) f.writelines(’\n’.join(wordList)) f.close() (2)import jieba f=open(’out.txt’,’r’) words=f.readlines() f.close() D={} for w in words: D[w[:-1]=D.get(w[:-1],0)+1 print("曹操出现次数为:{}".format(D["曹操"]))
解析
(1)本题要使用jieba库,首先用import关键字引用jieba库。打开“data.txt”文件后,需要用readlines()函数读入所有行,以每行为元素形成列表lines。然后用for循环遍历该列表中的每个元素并进行分词。在遍历每个元素时,首先用strip()方法删除元素首尾出现的空格。因此第1空填入line.strip();再使用jieba库的lcut()方法对元素进行精准分词。因此第2空填入jieba.1cut(line);最后将换行符插入每个词组之间,并写入文件“out.txt”中。因此第3空填入join(wordList)。
(2)首先用import关键字引用jieba库。打开“out.txt”文件后,需要用readlines()方法读入所有行,以每行为元素形成列表words,然后用for循环遍历该列表中每个元素出现的次数。因此,第1空填入words。
在遍历每个元素时,若字典D中没有键与该元素相同,就将该元素作为字典D的一个键,该键所对应的值置为1;若字典D中存在键与该元素相同,就将该键对应的值加1。因此,第2空填入D.get(w[:-1],0)。
题目要求的是输出“曹操”出现的次数,字典D中键“曹操”对应的值即为该词出现的次数。因此,第3空填入D["曹操"]。
转载请注明原文地址:https://kaotiyun.com/show/si6p777K
本试题收录于:
二级Python题库NCRE全国计算机二级分类
0
二级Python
NCRE全国计算机二级
相关试题推荐
(1)在考生文件夹下建立如下图所示的表单文件form_three.表单名为forml。标签控件命名为Ln,文本框控件命名为Textn,命令按钮控件命名为Commands。表单运行时在文本框中输入职员号,单击“开始查询”命令按钮查询该职员所经手的订购单信息(
在考生文件夹下,打开数据库“宾馆”,完成如下操作:1.打开“客户”表,为“性别”字段增加约束规则:性别只能为“男”或“女”,默认值为“女”,表达式为:性别$”男女”。2.为“入住”表创建一个主索引,索引名为fkkey,索引表达式为“客房号+客户号”。
以下小题使用的数据表结果如下:图书(总编号C(6),分类号C(8),书名C(16),作者C(6),出版单位C(20),单价N(6,2))读者(借书证号C(4),单位C(8),姓名C(6),性别C(2),职称C(6),地址C(20))借阅(借书证号C(4
用程序计算一个整数的各位数字的乘积,在下划线处应填写的语句是()。INPUT“NUM=”TOnumcj=1DOWHlLEnum!=0cj=cj*MOD(num,10)ENDDO?cj
在VisualFoxPro中,执行SOL的DELETE命令和传统的SQLDELETE命令都可以删除数据库表中的记求,下面对它们正确的描述是()。
(1)将当前史件夹下的自由表class(班级表)和teacher(教师表)添加到学牛数据库sdb中。(2)为班级表class创建一个丰索引和普通索引(升序),主索引的索引名和索引表达式均为“班级号”;普通索引的索引名和索引表达式均为“班主任
在“表单控件”工具栏中,除了控件按钮,还有4个辅助按钮。默认情况下处于按下状态的辅助按钮是
对项口进行连编测试的目的是()。
数据管理技术发展的三个阶段中,()没有专门的软件对数据进行管理。Ⅰ.人工管理阶段Ⅱ.文件系统阶段Ⅲ.数据库阶段
设树T的深度为4,其中度为1,2,3,4的结点个数分别为4,2,1,1。则T中的叶子结点数为
随机试题
锅炉压力容器是生产中广泛使用的()的承载设备。
微分方程=0的通解是()
(2007年)全波整流、滤波电路如图8—54所示,如果输入信号ui=10sin(ωt+30°)V,则开关S闭合前,输出电压u0为()V。
国际债券是指一国借款人在国际证券市场上以本国货币为面值向外国投资者发行的债券。()
某大型电器商场是一般纳税人,本月将外购的空调10台,用于职工奖励,外购价为每台5200元(不含税价),该商场对外销售空调含税售价为每台6435元,关于企业所得税中收入的确认,下列说法正确的是()。
《中华人民共和国教育法》规定,学生教育权利包括()。
下列情形中,可以构成玩忽职守罪的是()
设f(x)连续,且∫0xtf(2x-t)dt=1/2arctanx2,f(1)=1,求∫12f(x)dx.
关于网络拓扑的描述中,正确的是()。
在以下选项中,按照C语言规定,不能出现在标识符中的是()。
最新回复
(
0
)