考生文件夹下存在2个Python源文件和2个文本文件。其中，2个Python源文件对应2个问题，2个文本文件分别摘自2019年和2018年的×××工作报告。请分别补充2个Python源文件，实现以下功能。数据关联。要求：修改PY301-2．py文件中的

admin2022-09-10 74

问题考生文件夹下存在2个Python源文件和2个文本文件。其中，2个Python源文件对应2个问题，2个文本文件分别摘自2019年和2018年的×××工作报告。请分别补充2个Python源文件，实现以下功能。
数据关联。要求：修改PY301-2．py文件中的代码，对比两组主题词的差异，输出两组的共有词语和分别的特有词语。输出示例如下(示例词语非答案)。
共有词语：改革，…，深化
2019特有：企业，…，加强
2018特有：效益，…，创新
注意：输出格式采用英文冒号和英文逗号，标点符号前后无空格，各词语间用逗号分隔，最后一个词语后无逗号。
试题程序
#
#以下代码仅供参考
#
d={}
It=list(d．items())
It．sort(key=lambda x：x[1]，reverse=True)

选项

答案import jieba def fenci(txt) f=open(txt，’r’) datas=f．read() f．close() data=jieba．lcut(datas) d={} for i in data： if len(i)>=2： d[i]=d．get(i，0)+1 lt=list(d．items()) sort(key=lambda x：x[1]，reverse=Ture) ls=[x[0]for x in lt[：10]] return ls def show(lt)： print(’，’．join(lt)) l1=fenci(’data2018．txt’) l2=fenci(’data2019．txt’) l3=[] for i in l1： if i in l2： append(i) for i in l3： remove(i) remove(i) print(’共有词语：’，end=’’，sep=’’) show(l3) print(’2019特有：’，end=’’，sep=’’) show(l2) print(’2018特有：’，end=’’，sep=’’) show(l1)

解析 (1)本题考核的是jieba库的应用和对组合数据类型方法的熟练使用。分析题目可知，本题需要对文件的词语进行频次统计，并输出数量的前10名。题目已给出的代码提示了需要使用字典对词频进行统计，然后转化成列表进行排序。因为本题需要对两个文件进行统计输出，所以考生可以选择使用函数，以减少冗余的操作。首先创建分词排序函数，此函数传入的参数为文件名，使得本函数可以操作多个文件。在分词排序函数体内部，首先对文件内容进行读取，需要打开文件并读取文件内容，然后需要使用jieba库将读取的内容分词。接下通过循环遍历分词的结果，通过判断其长度是否大于2来取得关键词并将其作为键存放到字典中，然后通过字典的get()方法，对词语出现的次数进行统计，并将其作为值。最后将字典通过items()方法和list()函数转化为列表，通过列表的sort()方法进行排序。
继续创建另一个函数用来展示前10名的数据，此函数接收上一个函数的分词结果作为参数。输出需要注意几点，每个数据需要通过冒号分隔词语，标点符号前后无空格，各词语间用逗号分隔，最后一个词语后无逗号。所以通过循环输出，输出时sep参数设置为空，end参数设置为逗号，并且第10个据在循环外部自行输出，否则在末尾最后一个数据后就会存在逗号。
最后调用函数，按次序输出即可。答案不唯一。
(2)本题考核的是jieba库分词和数据的比对。提示代码与第一题类似，并且统计的数据需要符合第一题条件的主题词，所以前半部分代码与第一题基本相同。依然选择创建函数以减少冗余操作。首先创建分词函数，此函数与上题略有不同，其中先将整理好的数据进行排序，然后使用列表生成式，将前10个符合要求的主题词存储入列表ls中，最后将ls作为返回值以便后续赋值操作。
再创建一个展示函数，因为列表中全部数据皆为字符串类型，所以此函数可以直接利用字符串的join()方法对列表内容进行拼接。最后在函数体外部对列表数据进行处理，将处于两个列表中的数据加入l3中，再将l1和l2列表中存在于13列表中的数据删除。这样就使l1属于2018年的数据，l2属于2019年的数据，l3属于共有数据。
最后调用函数输出即可。

转载请注明原文地址:https://kaotiyun.com/show/C76p777K

本试题收录于：二级Python题库NCRE全国计算机二级分类

二级Python

NCRE全国计算机二级

相关试题推荐

随机试题

最新回复(0)

考生文件夹下存在2个Python源文件和2个文本文件。其中，2个Python源文件对应2个问题，2个文本文件分别摘自2019年和2018年的×××工作报告。请分别补充2个Python源文件，实现以下功能。数据关联。要求：修改PY301-2．py文件中的

二级Python

NCRE全国计算机二级

使用如下数据表：学生．DBF：学号(C，8)，姓名(C，6)，性别(C，2)，出生日期(D)选课．DBF：学号(C，8)，课程号(C，3)，成绩(N，5，1)假定学号的第3、4位为专业代码，要计算各专业学生选修课程号为“101”课程的

查询客户名称中有“网络”二字的客户信息的正确命令是

如果一个过程不包含RETURN语句，或者RETURN语句中没有指定表达式，那么该过程：

下列程序段执行时在屏幕上显示的结果是DIMEa(6)a(1)=1a(2)=1FORi=3TO6a(i)=a(i-1)+a(i-2)NEXT?a(6)

要将显示日期值时所用的分隔符设置为竖杠“｜”，错误的设置命令是

表单文件的扩展名是

下列描述中错误的是

在软件开发中，需求分析阶段可以使用的工具是

下列组织中属于国家行政机关的是（）。

A,阵发性腹痛B,持续性腹痛C,两者都有D,两者都无胃十二指肠溃疡穿孔

下列具有受体酪氨酸蛋白激酶活性的是

后马托品丙胺太林

下列有关我国税收执法权的表述中，正确的是()。

根据我国宪法的规定，下面不属于我国公民所享有的政治自由的是()。

考生文件夹下存在2个Python源文件和2个文本文件。其中，2个Python源文件对应2个问题，2个文本文件分别摘自2019年和2018年的×××工作报告。请分别补充2个Python源文件，实现以下功能。 数据关联。要求：修改PY301-2．py文件中的

二级Python

NCRE全国计算机二级

使用如下数据表：学生．DBF：学号(C，8)，姓名(C，6)，性别(C，2)，出生日期(D)选课．DBF：学号(C，8)，课程号(C，3)，成绩(N，5，1)假定学号的第3、4位为专业代码，要计算各专业学生选修课程号为“101”课程的

查询客户名称中有“网络”二字的客户信息的正确命令是

如果一个过程不包含RETURN语句，或者RETURN语句中没有指定表达式，那么该过程：

下列程序段执行时在屏幕上显示的结果是DIMEa(6)a(1)=1a(2)=1FORi=3TO6a(i)=a(i-1)+a(i-2)NEXT?a(6)

要将显示日期值时所用的分隔符设置为竖杠“｜”，错误的设置命令是

表单文件的扩展名是

下列描述中错误的是

在软件开发中，需求分析阶段可以使用的工具是

下列组织中属于国家行政机关的是（）。

A,阵发性腹痛B,持续性腹痛C,两者都有D,两者都无胃十二指肠溃疡穿孔

下列具有受体酪氨酸蛋白激酶活性的是

后马托品丙胺太林

下列有关我国税收执法权的表述中，正确的是()。

根据我国宪法的规定，下面不属于我国公民所享有的政治自由的是()。

考生文件夹下存在2个Python源文件和2个文本文件。其中，2个Python源文件对应2个问题，2个文本文件分别摘自2019年和2018年的×××工作报告。请分别补充2个Python源文件，实现以下功能。数据关联。要求：修改PY301-2．py文件中的