首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
《三国演义》是中国古典四大名著之一,曹操是其中的主要人物,考生文件夹下文件“data.txt”给出《三国演义》简介。 问题1:请编写程序,用Python中文分词第三方库jieba对文件“data.txt”进行分词,并将结果写入文件“out.tx
《三国演义》是中国古典四大名著之一,曹操是其中的主要人物,考生文件夹下文件“data.txt”给出《三国演义》简介。 问题1:请编写程序,用Python中文分词第三方库jieba对文件“data.txt”进行分词,并将结果写入文件“out.tx
admin
2021-03-17
124
问题
《三国演义》是中国古典四大名著之一,曹操是其中的主要人物,考生文件夹下文件“data.txt”给出《三国演义》简介。
问题1:请编写程序,用Python中文分词第三方库jieba对文件“data.txt”进行分词,并将结果写入文件“out.txt”,每行一个词。例如:
内容简介
编辑
整个
故事
在
东汉
……
在考生文件夹下给出了程序框架文件“PY301-1.py”,补充代码完成程序。
试题程序:
#请在________处使用一行代码或表达式替换
#注意:请不要修改其他已给出的代码
import jieba
f=open(’data.txt’,’r’)
lines=f.readlines()
f.close()
f=open(’out.txt’.’w’)
for line in lines:
line=________(1)________ #删除每行首尾可能出现的空格
wordList=________(2)________ #用jieba库对每行内容进行分词
f.writelines(’\n’________((3)________))#将分词结果存到文件out.txt中
f.close()
问题2:对文件“out.txt”进行分析,输出“曹操”出现的次数。
在考生文件夹下给出了程序框架文件“PY301-2.py”,补充代码完成程序。
试题程序:
#请在________处使用一行代码或表达式替换
#注意:请不要修改其他已给出代码
import jieba
f=open(’out.txt’,’r’) #以只读模式打开文件
words=f.readlines()
f.close()
D={}
for w in________(1)________: #词频统计
D[w[:-1]]=________(2)________+1
print("曹操出现次数为:{}".format(________(3)________))
选项
答案
(1)import jieba f=open(’data.txt’.’r’) lines=f.readlines() f.close() f=open(’out.txt’,’w’) for line in lines: line=line.strip() wordList=jieba.lcut(line) f.writelines(’\n’.join(wordList)) f.close() (2)import jieba f=open(’out.txt’,’r’) words=f.readlines() f.close() D={} for w in words: D[w[:-1]=D.get(w[:-1],0)+1 print("曹操出现次数为:{}".format(D["曹操"]))
解析
(1)本题要使用jieba库,首先用import关键字引用jieba库。打开“data.txt”文件后,需要用readlines()函数读入所有行,以每行为元素形成列表lines。然后用for循环遍历该列表中的每个元素并进行分词。在遍历每个元素时,首先用strip()方法删除元素首尾出现的空格。因此第1空填入line.strip();再使用jieba库的lcut()方法对元素进行精准分词。因此第2空填入jieba.1cut(line);最后将换行符插入每个词组之间,并写入文件“out.txt”中。因此第3空填入join(wordList)。
(2)首先用import关键字引用jieba库。打开“out.txt”文件后,需要用readlines()方法读入所有行,以每行为元素形成列表words,然后用for循环遍历该列表中每个元素出现的次数。因此,第1空填入words。
在遍历每个元素时,若字典D中没有键与该元素相同,就将该元素作为字典D的一个键,该键所对应的值置为1;若字典D中存在键与该元素相同,就将该键对应的值加1。因此,第2空填入D.get(w[:-1],0)。
题目要求的是输出“曹操”出现的次数,字典D中键“曹操”对应的值即为该词出现的次数。因此,第3空填入D["曹操"]。
转载请注明原文地址:https://kaotiyun.com/show/si6p777K
本试题收录于:
二级Python题库NCRE全国计算机二级分类
0
二级Python
NCRE全国计算机二级
相关试题推荐
在考生文件夹下完成如下操作:1.打开表单one,如图1所示,通过设置控件的相关属性,使得表单开始运行时焦点在“打开”命令按钮上,并且接下来的焦点的移动顺序是“关闭”和“退出”。2.打开表单two,如图2所示,使用“布局”工具栏的“顶边对齐”按钮将表
假设temp.dbf数据表中有两个字段“歌手号”和“最后得分”,下面程序段的功能是:将temp.dbf中歌手的“最后得分”填入“歌手”,表对应歌手的“最后得分”字段中(假设已增加了该字段),在下划线处应填写的SOL语句是()。USE歌手DO
在菜单设计中,可以在定义菜单名称时,为菜单项指定一个访问键。例如,要为“文件”菜单项指定访问键为“F”的菜单名称定义是()。
在表单数据环境中,将环境中所包含的表字段拖到表单中会生成相应的控件,下列各项中,埘应正确的一项是()。
下面关于创建报表的方法中,错误的是()。
查询“仓库”表的所有记录并存储于临时表文件temp中的SQL语句是()。
要控制两个表中数据的完整性和一致性可以设置“参照完整性”,要求这两个表()。
以下程序(请注意循环体内的LOOP和EXIT语句)的运行结果是()。CLEARX=5DOWHILE.T.X=X+5IFX=INT(X/5)*577XELSELOOPENDIFIFX>10EXITENDIFENDD0
结构化程序设计的3种结构是()。
设计一个文件名和表单名均为rate的表单,表单的标题为“外汇汇率查询”.表单界面如图3一17所示,表单中有两个下拉列表框(Combol和Comb02),这两个下拉列表框的数据源类型(RowSourcc’Type属性)均为字段,且数据源(RowSourc
随机试题
死锁
Theaccuracyofscientificobservationsandcalculationsisalwaysatthemercyofthescientist’stime-keepingmethods.Forthi
鼠疫的主要传播媒介是
与鼓室相通的管道是
公司的法定公积金不足以弥补上一年度公司亏损的,先依照法律规定提取法定公积金和法定公益金后,就可以分配利润。( )
2003年,某中级人民法院在一份判决书中,认定《某某省农作物种子管理条例》(以下简称《条例》)的有关内容“无效”。该省人大常委会已指出某市中级人民法院的行为严重违法,并要求该市人大对此进行纠正,要求省高级人民法院汇报,要求有关方面处理直接责任人和主管领导。
根据财政部和国家税务总局的规定,2005年1月1日前,已按免抵的增值税税额征收的城建税及教育费附加不再退还,未征的不再补征,这样规定符合税法适用原则中的()。
“三家分晋”的三家是()。
颞下颌关节脱位最常见的类型是()。
SET支付模式的工作流程包括如下步骤:1.支付响应阶段2.支付请求阶段3.授权请求阶段4.授权响应阶段5.支付初始化请求和响应阶段正确的流程顺序是:(1)A.5-2-3-4-1B.2-
最新回复
(
0
)