首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
《三国演义》是中国古典四大名著之一,曹操是其中主要人物,考生文件夹下文件data.txt给出《三国演义》简介。 问题1:请编写程序,用Python语言中文分词第三方库jieba对文件data.txt进行分词,并将结果写入文件out.txt,每行一个
《三国演义》是中国古典四大名著之一,曹操是其中主要人物,考生文件夹下文件data.txt给出《三国演义》简介。 问题1:请编写程序,用Python语言中文分词第三方库jieba对文件data.txt进行分词,并将结果写入文件out.txt,每行一个
admin
2020-04-10
41
问题
《三国演义》是中国古典四大名著之一,曹操是其中主要人物,考生文件夹下文件data.txt给出《三国演义》简介。
问题1:请编写程序,用Python语言中文分词第三方库jieba对文件data.txt进行分词,并将结果写入文件out.txt,每行一个词,例如:
内容简介
编辑
整个
故事
在
东汉
…
在考生文件夹下给出了程序框架文件PY301—1.py,补充代码完成程序
试题程序:
#请在_____处使用一行代码或表达式替换
#
#注意:请不要修改其他已给出代码
import jieba
f=open(’data.txt’,’r’)
lines =f.readlines()
f.close()
f=open(’out.txt’,’w’)
for line in lines:
line=_____(1)_____ #删除每行首尾可能出现的空格
wordList=_____(2)_____ #用结巴分词,对每行内容进行分词
f.writelines(’\n’_____(3)____)#将分词结果存到文件out.txt中
f.close()
问题2:对文件out.txt进行分析,打印输出曹操出现次数。
在考生文件夹下给出了程序框架文件PY301—2.py,补充代码完成程序
试题程序:
#请在______处使用一行代码或表达式替换
#
#注意:请不要修改其他已给出代码
import jieba
f=open(’out.txt’,’r’) #以读的方式打开文件
words =f.readlines()
f.close()
D={}
for w in_____(1)_____: #词频统计
D[w[:一1]]=_______(2)_______+1
print(”曹操出现次数为:{}”.format(______(3)________))
选项
答案
(1)import jieba f=open(’data.txt’,’r’) lines=f.readlines() f.close() f=open(’out.txt’,’w’) for line in lines: line=line.strip() wordList=jieba.lcut(line) f.writelines(’\n’.join(wordList)) f.close() (2)import jieba f=open(’out.txt’,’r’) words=f.readlines() f.close() D={} for w in words: D[w[:一1]]=D.get(w[:-1],0)+1 print(”曹操出现次数为:{}”.format(D[’曹操’]))
解析
(1)本题要使用jieba库,则首先用import保留字引用jieba库。打开”data.txt”文件后,需要用readlines()函数读人所有行,以每行为元素形成列表lines,然后用for循环遍历该列表中的每个元素并进行分词。在遍历每个元素时,首先用strip()方法删除元素首尾出现的空格,因此第一空填入:line.strip();然后使用jieba库的lcut()函数对元素进行精准分词,因此第二空填入:jieba.lcut(line);最后将换行符’\n’插入到每个词组之间,并写入到文件”out.txt”中,因此第三空填入:join(wordList)。
(2)首先用import保留字引用jieba库。打开”out.txt”文件后,需要用readlines()函数读入所有行,以每行为元素形成列表words,然后用for循环遍历该列表中每个元素出现的次数。因此,第一空填入:words。
在遍历每个元素时,若字典D中不存键与该元素相同,就将该元素作为字典D的一个键,该键所对应的值置为1;若字典D中存在键与该元素相同,就将该键对应的值加1。因此,第二空填入:D.get(w[:一1],0)。
题目要求的是打印输出曹操出现次数,字典D中键”曹操”对应的值即为该词出现的次数。因此,第三空填入:D[’曹操’]。
转载请注明原文地址:https://kaotiyun.com/show/OA6p777K
本试题收录于:
二级Python题库NCRE全国计算机二级分类
0
二级Python
NCRE全国计算机二级
相关试题推荐
(1)在考生文件夹下根据SCORE_MANAGER数据库,使用查询向导建立一个含有“姓名”和“出生日期”的标准查询QUERY3_1.QPR。(2)从SCORE_MANAGER隅数据库中删除名为NEW_VIEW3的视图。(3)用SQL命令
在使用查询设计器创建查询时,为了指定在查询结果中是否包含重复记录(对应于DISTINCT),应该使用的选项卡是()。
在VisualFoxPro中调用表单文件mf1的正确命令是()。
扩展名为sex的文件是()。
结构化程序所要求的基本结构不包括()。
软件按功能可以分为应用软件、系统软件和支撑软件(或工具软件)。下面属于应用软件的是()。
(1)在考生文件夹下,将BOOKS表中所有书名中含有“计算机”3个字的图书复制到BOOKS_BAK表中,以下操作均在BOOKS_BAK表中完成。(2)复制后的图书价格在原价格的基础上降低5%。(3)从图书均价高于25元(含25)的出版社
在考生目录下完成下列操作:(1)用SQL语句完成下列操作:列出所有赢利(现价大于买入价)的股票简称、现价、买入价和持有数量,并将检索结果按持有数量降序排序存储于表stock_temp中。(2)使用一对多报表向导建立报表。要求:父表为st
在SQLSELECT语句中为了将查询结果存储到临时表应该使用短语()。
随机试题
甲公司系上市公司,属于增值税一般纳税人,适用的增值税税牢为17%,适用的所得税税率为25%,所得税采用资产负债表债务法核算。不考虑除增值税、所得税以外的其他相关税费。甲公司按当年实现净利润的10%提取法定值余公积。甲公司2011年度所得税汇算清缴于2012
某餐厅设有可坐12人和可坐10人两种规格的餐桌共28张,最多可容纳332人同时就餐,问:该餐厅有几张10人桌?()
广告信息的发掘就是确定广告信息的内容,它直接影响广告的促销效果。()
会阴后侧切开缝合完毕,最重要的是
场(厂)内专用机动车辆的检验周期为()
E公司是C国一家卫浴产品生产企业,成立的时间不长。在成立初期,为了在市场上取得较好的成绩,主要投资人以一个较高的起点设立了这家企业,花巨资购买了世界最先进的一条生产线,并通过给予优厚的待遇招聘到了一些资深的研发人员,为他们配备了很好的设备和环境,期望能够在
互联网并非__________、整齐划一的技术革命的产物,而是在各种混乱、争论和复杂的利益纠葛中发展成今天的规模和影响力,正是一个个小的草根网络,最终汇集成一个____________的大潮流。依次填入画横线部分最恰当的一项是()。
“创新”作为严格的经济学概念。特指企业以新产品、新服务、新市场、新的管理和商业模式获取利润的行为。根据上述定义,下列不属于经济学概念中的创新的是:()
论述在我党历史上建立工农联盟的经验教训。
AsanationalleaderwithoverfortyyearsofexperienceprovidingTV,radio,andmarketingservicestothecorporateworld,Abi
最新回复
(
0
)