材料一 1997 年,国际象棋大师加里·卡斯帕罗夫败给了电脑“深蓝”;2016 年,谷歌人工智能 AlphaGo 又战胜了韩国棋手李世石,这标志着人工智能终于征服了它在棋类比赛中最后的弱项——围棋,谷歌公司的 DeepMind团队比预期提前了整整 10 年

admin2019-05-31  24

问题 材料一
1997 年,国际象棋大师加里·卡斯帕罗夫败给了电脑“深蓝”;2016 年,谷歌人工智能 AlphaGo 又战胜了韩国棋手李世石,这标志着人工智能终于征服了它在棋类比赛中最后的弱项——围棋,谷歌公司的 DeepMind团队比预期提前了整整 10 年达到了既定目标。
对计算机来说,围棋并不是因为其规则比国际象棋复杂而难以征服——与此完全相反,围棋规则更简单,它其实只有一种棋子,对弈的双方轮流把黑色和白色的棋子放到一个 19×19 的正方形棋盘中,落下的棋子就不能再移动了,只会在被对方棋子包围时被提走。到了棋局结束时,占据棋盘面积较多的一方为胜者。
围棋的规则如此简单,但对于计算机来说却又异常复杂,原因在于围棋的步数非常多,而且每一步的可能下法也非常多。以国际象棋作对比,国际象棋每一步平均约有 35 种不同的可能走法,一般情况下,多数棋局会在 80 步之内结束。围棋棋盘共有 361 个落子点,双方交替落子,整个棋局的总排列组合数共有约 10171 种可能性,这远远超过了宇宙中的原子总数——1080!
对于结构简单的棋类游戏,计算机程序开发人员可以使用所谓的“暴力”方法,再辅以一些技巧,来寻找对弈策略,也就是对余下可能出现的所有盘面都进行尝试并给予评价,从而找出最优的走法。这种对整棵博弈树进行穷举搜索的策略对计算能力要求很高,对围棋或者象棋程序来说是非常困难的,尤其是围棋,从技术上来讲目前不可能做到。
“蒙特卡罗树搜索”是一种基于蒙特卡罗算法的启发式搜索策略,能够根据对搜索空间的随机抽样来扩大搜索树,从而分析围棋这类游戏中每一步棋应该怎么走才能够创造最好机会。举例来说,假如筐里有 100 个苹果,每次闭着眼拿出 1 个,最终要挑出最大的 1 个,于是先随机拿 1 个,再随机拿 1 个跟它比,留下大的,再随机拿 1 个……每拿一次,留下的苹果都至少不比上次的小,拿的次数越多,挑出的苹果就越大。但除非拿 100次,否则无法肯定挑出了最大的。这个挑苹果的方法,就属于蒙特卡罗算法。虽然“蒙特卡罗树搜索”在此前一些弈棋程序中也有采用,在相对较小的棋盘中也能很好地发挥作用,但在正规的全尺寸棋盘上,这种方法仍然存在相当大的缺陷,因为涉及的搜索树还是太大了。
AlphaGo 人工智能程序中最新颖的技术当属它获取知识的方式——深度学习。AlphaGo 借助两个深度卷积神经网络(价值网络和策略网络)自主地进行新知识的学习。深度卷积神经网络使用很多层的神经元,将其堆叠在一起,用于生成图片逐渐抽象的、局部的表征。对图像分析得越细,利用的神经网络层就越多。AlphaGo也采取了类似的架构,将围棋模盘上的盘面视为 19×19 的图片输入,然后通过卷积层来表征盘面。这样,两个深度卷积神经网络中的价值网络用于评估盘面,策略网络则用于采样动作。在深度学习的第一阶段——策略网络的有监督学习(即从中 I 中学习)阶段,拥有 13 层神经网络的AlphaGo 借助围棋数据库 KGS 中存储的 3000 万份对弈棋谱进行初步学习。这 3000 万份棋谱样本可以用 a、b 进行统计。a 是一个二维棋局,把 a 输入到一个卷积神经网络进行分类,分类的目标就是落子向量 A。通过不断的训练,尽可能让计算机得到的向量 A 接近人类高手的落子结果 b,这样就形成了一个模拟人类下围棋的神经网络,然后得出一个下棋函数 F_go()。当盘面走到任何一种情形的时候,AlphaGo 都可以通过调用函数 F_go()计算的结果来得到最佳的落子结果 b 可能的概率分布,并依据这个概率来挑选下一步的动作。在第二阶段——策略网络的强化学习(即从 Ⅱ 中学习)阶段,AlphaGo 开始结合蒙特卡罗树搜索,不再机械地调用函数库,而类似于一种人类进化的过程:AlphaGo 会和自己的老版本对弈。即,先使用 F_go(1)和 F_go(1)对弈,得到了一定量的新棋谱,将这些新棋谱加入到训练集当中,训练出新的 F_go(2),再使用 F_go(2)和 F_go(1)对弈,以此类推,这样就可以得到胜率更高的 F_go(n)。这样,AlphaGo 就可以不断改善它在第一阶段学到的知识。在第三阶段——价值网络的强化学习阶段,AlphaGo 可以根据之前获得的学习经验得出估值函数 v(s),用于预测策略网络自我对抗时棋盘盘面 s 的结果。最后,则是将 F_ go()、v(s)以及蒙特卡罗树搜索三者相互配合,使用 F_ go()作为初始分开局,每局选择分数最高的方案落子,同时调用 v(s)在比赛中做出正确的判断。
这就是 AlphaGo 给围棋带来的新搜索算法。它创新性地将蒙特卡罗模拟和价值网络、策略网络结合起来训练深度神经网络。这样价值网络和策略网络相当于 AlphaGo 的两个大脑,策略网络负责在当前局面下判断“最好的”下一步,可以理解为落子选择器;价值网络负责评估整体盘面的优劣,淘汰掉不值得深入计算的走法,协助前者提高运算效率,可以理解为棋局评估器,通过两个“大脑”各自选择的平均值,AlphaGo 最终决定怎样落子胜算最大。通过这种搜索算法,AlphaGo 和其他围棋程序比赛的胜率达到了 99.8%。
AlphaGo 的飞快成长是任何一个围棋世界冠军都无法企及的。随着计算机性能的不断增强,遍历蒙特卡罗搜索树将进一步提高命中概率。大量的计算机专家,配合大量的世界围棋高手,在算法上不断革新,再配合不断成长的超级计算能力,不断地从失败走向成功,最终打造出围棋人工智能。在 AlphaGo 击败李世石后,欧洲围棋冠军樊麾说了这么一句话:“这是一个团队的集体智慧用科技的方式战胜了人类数千年的经验积累。”人和机器其实没有站在对立面上,“是人类战胜了人类”。
材料二
上世纪 80 年代,M 市高温首日经常出现在 6 月中下旬至 7 月,到 21 世纪,往往还没到 6 月中句,M 市气温就会蹿至 35℃以上,仅有两年的高温日到 7 月才出现,1981 年以来,M 市 6-8 月高温日出现越来越频繁,可见,M 市首个高温日的出现时间越来越早,21 世纪后每年首个高温日出现时间肯定早于上世纪 80 年代。
在 M 市,一年中最热的时候莫过于 7 月,1997 年以来,高温日数逐渐增多。截至 2018 年 7 月中旬,2018年 M 市高于 35℃的日子已有 6 个,比往年 7 月的平均数还多 2 个。可以确定,这一年 M 市 7 月的高温日总数将是 1997 年以来最多的一年。另外据统计,M 市 7 月的高温日整体多于 6 月和 8 月,照此趋势,2018 年 8 月的高温日可能不会超过 7 月。
近 30 年来,M 市 7 月的夜温越来越高,1999 年以来 7 月的夜间最低气温普遍超过 23℃,所以 2018 年 7 月下旬 M 市夜间的最低气温不会低于 23℃。同样近 30 年来,M 市 6-8 月出现持续 3 天以上高温的总次数为 27 次,20 次都是在 2000 年以后出现的,2018年 6 月和 7 月,M 市已经分别出现了一次持续 3 天以上的高温。既然 2018 年 M 市出现 3 天以上持续高温的次数已经超过了近 30 年来的平均值,那么 8 月份 M 市不会出现 3 天以上的持续高温天气。
30 年来,M 市“城市热岛效应”愈发显著,城区与郊区的平均气温差值越来越大。2018 年 7 月 M 市各区平均气温偏高,均超过 26.7℃。其中市中心 2 个城区气温最高,其次是环市中心的其他 4 个城区,2 个郊区的气温最低。(注:高温日为日最高气温≥35℃)
材料三
材料一:细菌学家弗莱明的实验室里摆放着许多有毒细菌培养皿。多年来,他试验了各种药剂,力图找到一种能杀灭这些细菌的理想药品,但一直未能成功。1928 年的一个早晨,他在检查细菌的变化时,突然发现一个葡萄状球菌的培养皿里长出了一团青色霉菌,并且其周围原来生长着的葡萄状球菌消失了,他进一步研究发现,这种青色霉菌对其他多种有毒细菌同样具有杀灭作用,他把这种青色霉菌分泌的杀菌物质称为青霉素。
材料二:1870 年,英国科学家克鲁克斯在做阴极射线管放电实验时,意外发现管子附近的照相底片有模糊阴影,他判断是照相的干板有毛病;1890 年美国科学家古德斯柏德在做相同的实验时也发现同样的现象,他归因于冲洗药水和冲洗技术有问题;到了 1892 年,德国有些物理学家也观察到这一现象,但当时他们的注意力都集中在研究阴极射线的性质上,对此并没有警觉。直到 1895 年,这一奇特现象才被德国物理学家伦琴敏锐地抓住,他反复研究实验,最终发现了 X 射线,他也因此获得诺贝尔物理学奖。
材料三:丹麦天文学家第谷三十年如一日观测天象,记录了 750 颗星相对位置的变化,纠正了以往星表中的错误。但第谷不善于对感性材料进行科学抽象和概括,终究未能揭示行星运动规律。临终前,他把自已所有的材料交给了学生开普勒,要求他继续研究行星运动的理论。起初,开普勒以第谷宇宙体系为基本框架来探讨这个问题,但毫无所获,于是转而以哥白尼日心体系为基本框架展开研究。他精于理论思维和数学推导,根据老师留下的大量一手资料,最终发现了天体运动的三大定律,被誉为“天空立法者”。
请认真阅读文章,按照每道题的要求作答。
根据材料一,回答下列问题:
1.判断题:请用 2B 铅笔在答题卡相应的题号后填涂作答,正确的涂“A”,错误的涂“B”。
(1)国际象棋的走法不超过 35*80 种。
(2)结构简单的棋类游戏可以通过对博弈树的“暴力”穷举搜索找出最优走法。
(3)传统的计算机围棋程序能够完全尺寸棋盘的蒙特卡罗树模拟并计算最大胜率。
(4)函数 F_go(n)比 F_go(n-1)的胜率更高。
2.填空题:请根据文意,分别填补Ⅰ、Ⅱ两处缺项,没空不超过 6 个字。
Ⅰ( ) Ⅱ( )
3.多项选择题:备选项中有两个或两个以上符合题意,请用 2B 铅笔在答题卡相应的题号后填涂正确选项的序号,错选、少选均不得分。
(1)这篇文章开头认为围棋是人工智能在棋类游戏中最弱项的原因是:
A.围棋每一步可能的下法太多,无法使用穷举搜索
B.围棋的规则对于计算机来说太复杂,无法理解
C.单一的计算机神经网络难以应对围棋的搜索计算
D.围棋盘面局势的评估缺乏现代就三家技术的支撑
(2)下列关于 AlphaGo“两个大脑”的说法正确的是
A.价值网络负责评估盘面优劣
B.策略网络负责判断走法优劣
C.策略网络能够协助价值网络提高运算效率
D.价值网络和策略网络共同确定最终的落子位置
4.比较分析 AlphaGo 新算法和蒙特卡罗树搜索的不同之处。
要求:概括准确,层次清晰,文字简洁,不超过 250 字。
5.请为本文写一篇内容摘要
要求:全面、准确,条理清晰,不超过 350 字。

选项

答案1 (1)B 根据第 3 自然段“整个棋局的总排列组合数共有约 10171 种可能性,这远远超过了宇宙中的原子总数——1080”可知,国际象棋的走法超过了 35×80 种,并非“不超过 35×80 种”,表述错误; (2)A 根据第 4 自然段“对于结构简单的棋类游戏,计算机程序开发人员可以使用所谓的‘暴力’方法……也就是对余下可能出现的所有盘面都进行尝试并给予评价,从而找出最优的走法”可知,“结构简单的棋类游戏”可以把“所有盘面都进行尝试并给予评价”,即“穷举”,故表述正确; (3)B 根据第 5 自然段“虽然‘蒙特卡罗树搜索’……在正规的全尺寸棋盘上,这种方法仍然存在相当大的缺陷,因为涉及的搜索树还是太大了”可知,“能够完成全尺寸棋盘的蒙特卡罗树模拟”表述错误; (4)A 根据第 7 自然段“先使用 F_go(1)和 F_go(1)对弈,得到了一定量的新棋谱,将这些新棋谱加入到训练集当中,训练出新的 F_go(2),再使用 F_go(2)和 F_go(1)对弈,以此类推,这样就可以得到胜率更高的 F_go(n)”可知,函数 F_go(2)比 F_go(1)的胜率更高,以此类推,函数 F_go(n)比 F_go(n-1)的胜率更高,表述正确。 2 Ⅰ(数据库的棋谱) Ⅱ(与老版本对弈) 3 (1) 【答案】ABCD 【解析】定位原文第 2 段,第 3 段。 A 项,由“原因在于围棋的步数非常多,而且每一步的可能下法也非常多”可知“下法太多”表述正确;由“这种对整棵博弈树进行穷举搜索的策略对计算能力要求很高……从技术上来讲目前不可能做到”可知,A项“无法使用穷举搜索”表述正确,当选。 B 项,由“围棋的规则如此简单,但对于计算机来说却又异常复杂”,可知“围棋的规则对于计算机来说太过复杂”表述正确,B 项当选。 C 项,由“这种对整棵博弈树进行穷举搜索的策略对计算能力要求很高……尤其是围棋,从技术上来讲目前不可能做到。”可知,目前的计算机还无法对整棵博弈树进行穷举搜索,C 项“难以应对围棋的搜索计算”表述正确,当选。 D 项,由“也就是对余下可能出现的所有盘面都进行尝试并给予评价,从而找出最优的走法……尤其是围棋,从技术上来讲目前不可能做到。”可知目前围棋盘面的评估缺乏相关技术的支持,D 项表述正确,当选。 故正确答案为 ABCD。 (2) 【答案】ABD 【解析】A 项,由“价值网络负责评估整体盘面的优劣……可以理解为棋局评估器”可知,盘面优劣是由价值网络评估的,A 项表述正确,当选。 B 项由“策略网络负责在当前局面下判断“最好的”下一步,可以理解为落子选择器” 可知,如何落子由策略网络负责,B 项表述正确,当选。 C 项,由“价值网络负责评估整体盘面的优劣……协助前者提高运算效率”可知,起到协助作用的是价值网络而非策略网络,C 项“策略网络能够协助价值网络”表述错误,排除。 D 项,由“通过两个‘大脑’各自选择的平均值,AlphaGo 最终决定怎样落子胜算最大”可知,如何落子由价值网络和策略网络这两个大脑共同决定,D 项表述正确。 故正确答案为 ABD。 4 一、算法理论不同。AlphaGo 利用深度学习的方式,借助价值网络和策略网络自主学习新知识。“蒙特卡罗树搜索”是一种基于蒙特卡罗算法的启发式搜索策略。 二、算法步骤不同。AlphaGo 先进行策略网络的有监督学习,再进行强化学习,最后进行价值网络的强化学习。“蒙特卡罗树搜索”先根据对搜索空间的随机抽样来扩大搜索树,再分析每一步棋的最佳走法。 三、适用性不同。AlphaGo 可以适用于正规全尺寸棋盘,且胜率高。“蒙特卡罗树搜索”因搜索树大而无法在正规的全尺寸棋盘应用。 AlphaGo 新算法更先进。未来人工智能发展应重视深度学习这一方法。 5 摘要:围棋规则看似简单,但每一步走法多,单纯通过计算机进行穷举搜索难度大,但人工智能克服了这些困难,战胜了人类。 目前,计算机两种算法:一种是蒙特卡罗树搜索算法。它是基于蒙特卡罗算法的启发式搜索策略,根据对搜索空间的随机抽样来扩大搜索树,再分析最佳走法。另一种是 AlphaGo 新算法,利用深度学习的方式,借助价值网络和策略网络自主学习新知识,分为策略网络监督、强化和价值网络强化学习三个阶段。蒙特卡罗树搜索因搜索树大而适用性较弱。AlphaGo 可以适用于正规全尺寸棋盘,且胜率高。 人工智能实质上是人类集体智慧在科技方面的体现,人和机器没有站在对立面上,与其说人工智能战胜了人类,不如说人类战胜了人类。

解析
转载请注明原文地址:https://kaotiyun.com/show/y1el777K
0

相关试题推荐
最新回复(0)