材料: 机器“阅读”剧本,是一项高难度的自然语言处理课题。对于人类而言,小学生就能够完成的语言学习过程在计算机上的实现却是十分复杂和困难的。因为人类语言有其特殊性,它是一个离散的、象征性的、绝对的信号系统。这意味着人们可以通过使用不同的方式传达相同的含

admin2021-10-19  34

问题 材料:
  机器“阅读”剧本,是一项高难度的自然语言处理课题。对于人类而言,小学生就能够完成的语言学习过程在计算机上的实现却是十分复杂和困难的。因为人类语言有其特殊性,它是一个离散的、象征性的、绝对的信号系统。这意味着人们可以通过使用不同的方式传达相同的含义,如演说、手势、信号等。人类大脑对这些符号的编码是持续激活的模式,在这个模式中,符号通过声音和视觉的连续信号实现传输。正是由于其复杂性,使计算机理解人类语言成为一项艰难的任务。直到20世纪90年代之前,人们还在试图让计算机学会人类语言的规则,从而理解其背后的含义。但由于人们日常使用语言时往往并不严格按照规则,而机器则无法处理偏离规则的内容。后来,人们开始尝试让机器自己进行学习,获取语言知识。发展到今天,自然语言处理领域的研究已经基本达到可以应付单个句子,以及理解句子成分的水平。近十年来,计算机性能的大幅度提升和机器学习理论的兴起使得计算机已经能够编写短新闻、创作诗词,并且能够与人类对话。各大手机及智能电子产品的人工智能语音系统已经可以识别并完成用户的指令,并且能够进行简单的对话与交流。
  然而,机器对于中文(汉语)文本的阅读理解比对英文的阅读理解更加困难,有关长文本的机器阅读理解所取得的进展也几乎都是在英文领域。这在很大程度上是由表义(字形)系统的中文与表音(字音)系统的英文这两种语言系统截然不同的形态所造成的。如何正确地根据语义完成中文句子切分就是一个具有挑战性的任务,一旦分词发生失误,会导致后续的文本处理产生连锁问题,给正确理解语义带来障碍。如“乒乓球拍卖了”,将语句切分为“乒乓/球拍/卖了”和“乒乓球/拍卖/了”都是可行的。因此,就要通过上下文语境来选择正确的语句切分方法。
  除了切分词语之外,还有语素提取、词性标注、标点符号、词汇粒度等多个方面都是中英文在自然语言处理上存在较大差异的关键。英文自然语言处理的研究由于在技术积累和科研力量方面均领先于中文自然语言处理的研究,因此中文机器阅读理解方面的进展目前还达不到英文机器阅读理解的技术发展高度。因此,就阅读剧本而言,无论是英文还是中文,人工智能目前能够实现机器阅读的程度还非常有限。目前较为集中的技术突破是对长、短文本进行情感分析方面的机器学习研究。全球的软件工程师目前都在机器翻译和情感分析方面做着不懈努力。所谓情感分析,是指识别出文本所反映的情绪,如机器能够很容易地判断出一条关于电影的微博评论是积极还是消极的,这在营销领域里对于分析舆情有着重要的应用价值。但是像人类那样能够理解复杂文本,现在的计算机技术还远远做不到。
                                                                                                                                                 (摘编自赵海域、陈昌业《人工智能引发电影创作生产变革新浪潮》,有删改)
  问题:
  (1)为何对于人类而言,小学生就能够完成的语言学习过程在计算机上的实现却是十分复杂和困难的?请结合文本,简要概括。
  (2)文章认为目前中文机器阅读的现状是怎样的?请结合文本,简要分析。

选项

答案(1)人类语言具有特殊性,它是一个离散的、象征性的、绝对的信号系统,并且人们在日常使用语言时往往并不严格按照规则,而机器是无法处理偏离规则的内容的。 (2)目前中文机器阅读的现状可以归纳为以下几点。 ①机器对于中文(汉语)文本的阅读理解比对英文的阅读理解更加困难,在处理中文的语句切分、语素提取、词性标注、标点符号、词汇粒度等方面,仍存在很大探索空间。 ②中文自然语言处理的研究在技术积累和科研力量方面仍存在不足,使得中文机器阅读理解方面的进展目前还达不到英文机器阅读理解的技术发展高度。 ③在对长、短文本进行情感分析方面取得了技术性突破,但机器技术还远远做不到像人类一样能够理解复杂文本。

解析
转载请注明原文地址:https://kaotiyun.com/show/VYyv777K
0

相关试题推荐
最新回复(0)