首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
《三国演义》是中国古典四大名著之一,曹操是其中的主要人物,考生文件夹下文件“data.txt”给出《三国演义》简介。 问题1:请编写程序,用Python中文分词第三方库jieba对文件“data.txt”进行分词,并将结果写入文件“out.tx
《三国演义》是中国古典四大名著之一,曹操是其中的主要人物,考生文件夹下文件“data.txt”给出《三国演义》简介。 问题1:请编写程序,用Python中文分词第三方库jieba对文件“data.txt”进行分词,并将结果写入文件“out.tx
admin
2021-03-17
128
问题
《三国演义》是中国古典四大名著之一,曹操是其中的主要人物,考生文件夹下文件“data.txt”给出《三国演义》简介。
问题1:请编写程序,用Python中文分词第三方库jieba对文件“data.txt”进行分词,并将结果写入文件“out.txt”,每行一个词。例如:
内容简介
编辑
整个
故事
在
东汉
……
在考生文件夹下给出了程序框架文件“PY301-1.py”,补充代码完成程序。
试题程序:
#请在________处使用一行代码或表达式替换
#注意:请不要修改其他已给出的代码
import jieba
f=open(’data.txt’,’r’)
lines=f.readlines()
f.close()
f=open(’out.txt’.’w’)
for line in lines:
line=________(1)________ #删除每行首尾可能出现的空格
wordList=________(2)________ #用jieba库对每行内容进行分词
f.writelines(’\n’________((3)________))#将分词结果存到文件out.txt中
f.close()
问题2:对文件“out.txt”进行分析,输出“曹操”出现的次数。
在考生文件夹下给出了程序框架文件“PY301-2.py”,补充代码完成程序。
试题程序:
#请在________处使用一行代码或表达式替换
#注意:请不要修改其他已给出代码
import jieba
f=open(’out.txt’,’r’) #以只读模式打开文件
words=f.readlines()
f.close()
D={}
for w in________(1)________: #词频统计
D[w[:-1]]=________(2)________+1
print("曹操出现次数为:{}".format(________(3)________))
选项
答案
(1)import jieba f=open(’data.txt’.’r’) lines=f.readlines() f.close() f=open(’out.txt’,’w’) for line in lines: line=line.strip() wordList=jieba.lcut(line) f.writelines(’\n’.join(wordList)) f.close() (2)import jieba f=open(’out.txt’,’r’) words=f.readlines() f.close() D={} for w in words: D[w[:-1]=D.get(w[:-1],0)+1 print("曹操出现次数为:{}".format(D["曹操"]))
解析
(1)本题要使用jieba库,首先用import关键字引用jieba库。打开“data.txt”文件后,需要用readlines()函数读入所有行,以每行为元素形成列表lines。然后用for循环遍历该列表中的每个元素并进行分词。在遍历每个元素时,首先用strip()方法删除元素首尾出现的空格。因此第1空填入line.strip();再使用jieba库的lcut()方法对元素进行精准分词。因此第2空填入jieba.1cut(line);最后将换行符插入每个词组之间,并写入文件“out.txt”中。因此第3空填入join(wordList)。
(2)首先用import关键字引用jieba库。打开“out.txt”文件后,需要用readlines()方法读入所有行,以每行为元素形成列表words,然后用for循环遍历该列表中每个元素出现的次数。因此,第1空填入words。
在遍历每个元素时,若字典D中没有键与该元素相同,就将该元素作为字典D的一个键,该键所对应的值置为1;若字典D中存在键与该元素相同,就将该键对应的值加1。因此,第2空填入D.get(w[:-1],0)。
题目要求的是输出“曹操”出现的次数,字典D中键“曹操”对应的值即为该词出现的次数。因此,第3空填入D["曹操"]。
转载请注明原文地址:https://kaotiyun.com/show/si6p777K
本试题收录于:
二级Python题库NCRE全国计算机二级分类
0
二级Python
NCRE全国计算机二级
相关试题推荐
1.在考生文件夹下打开数据库“订单管理”,然后删除其中的customer表(从磁盘中删除)。2.为employee表建立一个按升序排列的普通索引,索引名为xb,索引表达式为“性别”。3.为employee表建立一个按升序排列的普通索引,索引名为xyz,
(1)在考生文件夹下创建一个名为mymenu.mnx的下拉式菜单,运行该菜单程序时会在当前VisualFoxPro系统菜单的末尾追加一个“考试”子菜单,如下图所示。“统计”和“返回”菜单命令的功能都通过执行“过程”完成。菜单命令“统计”的功能是以
数据库表的字段可以定义默认值,默认值是()。
报表的数据源可以是()。
以下小题使用如下3个数据库表:学生表:S(学号,姓名,性别,出生日期,院系)课程表:C(课程号,课程名,学时)选课成绩表:SC(学号,课程号,成绩)在上述表中,出生日期数据类型为日期型,学时和成绩为数值型,其他均为字符型。用SQL语句检索选修课
关于容器,以下叙述中错误的是()。
在一个空的表单中添加一个选项按钮组控件,该控件可能的默认名称是()。
(1)打开程序文件progerr.prg,按文件中给出的功能要求改正其中的错误,以文件名prognewr.prg重新保存该文件并运行程序。(2)建立项层表单,表单文件名为myform.sex,表单控件名为myform,表单标题为“顶层表单”。为顶
使用报表设计器建立一个报表,具体要求如下:①报表的内容(细节带区)是orderl—list表的订单号、订购日期和总金额。②增加数据分组,分组表达式是“order—list.客广号”•组标头带区的内容是“客户号”。组注脚带区的内容是该组订单的
下列队列的描述中,正确的是()。
随机试题
与报纸产量有关的统计指标的基本单位是【】
简述国家和国际组织成为国际经济关系主体的过程。
意志行动过程可分为_______、_______两个阶段。
地方各级人大主要以召开会议的方式进行工作。会议每年至少举行一次,经下列选项中的哪一法定数额代表的提议可以临时召集本级人大会议?()
背景资料(二):下图所示为梁的结构施工图,请据图回答下列问题。该梁为框架梁,编号为7,共3跨。()
参加房地产经纪人资格全部4个科目考试的人员,必须在()考试年度内通过应试科目,才视为考试通过。
1994年提出的房改的内容可以概括为“三改四建”。下列对其表述有误的是()。
某工程双代号网络计划如下图所示,图中已标出各项工作的最早开始时间和最迟开始时间,该计划表明()。
连杆机构按各构件相对运动的性质不同,可分为()。
明治维新:睦仁天皇
最新回复
(
0
)