新版AlphaGo摆脱人类训练 展现出无师自通的学习能力_原创频道_财经网 - CAIJING.COM.CN
当前位置:原创频道 >
个股查询:
 

新版AlphaGo摆脱人类训练 展现出无师自通的学习能力

本文来源于《财经》杂志 2017-10-19 13:29:00 我要评论(0
字号:

在围棋上,AlphaGo Zero已经到达了人类从未涉足的知识疆域,人工智能进入无师自通的新时代

《财经》记者贺涛/文 王小/编辑

世界上最强大的围棋程序诞生了。对,又是AlphaGo干的。

这款名叫AlphaGo Zero的新程序,在没有任何人类数据输入的情况下,经过短短三天的围棋自学,就以100比0的战绩打败了它的“前任”——在2016年击败世界冠军李世石的那款。

在自我训练40天后,AlphaGo Zero变得更为强大,超越了AlphaGo的前一版本“大师”,“大师”曾折服了围棋世界排名第一的柯洁。这是人工智能(AI)领域的一大步。北京时间10月19日凌晨1点,Nature杂志发表了这篇研究论文。

算法的升级

以往所有版本的AlphaGo,都是从利用人类棋手的数据培训开始。其特点是基于上百万种专业棋手的下棋步骤,通过“监督式学习”来掌握围棋。就像培养孩子一样,通过人类高手数据的“喂招”,加之不断地反馈,让AlphaGo成长。

此外,也使用了基于自我对弈的增强学习。就是不给AlphaGo任何指导,只是告诉它围棋输赢的规则,让它自己下棋,并根据输赢的结果总结最优策略。

AlphaGo的创造者、谷歌旗下的DeepMind公司没有止步于此,而是要探索一种能从零开始、以超人的水平学习复杂概念的算法。于是,AlphaGo Zero诞生了。

AlphaGo Zero的学习从零开始,且单纯基于与自己的对弈,无需任何人类示例或干预。它仅用到一张神经网络,这张网络经过训练,专门预测程序自身的棋步和棋局的赢家,在每次自我对弈中进步。

当年首款AlphaGo的训练过程长达几个月,用到多台机器和48个TPU(神经网络训练所需的专业芯片)。而AlphaGo Zero只使用了一台机器和4个TPU,对计算能力的要求降低了一个数量级,而棋力水准反而得到跃升。这表明,算法比所谓的计算能力或数据可用性更重要。

延伸出新的知识边疆

AlphaGo Zero还带来了更大的彩蛋。

“它总结出一些人类目前尚未发现的东西,形成一些极具创意的新知识。”AlphaGo项目的主要负责人戴维·席尔瓦(David Silver)说。AlphaGo不仅在短时间内重新发现了人类经过上千年总结出来的所有围棋知识,如先在角落里落子,它还独创了自己的下法,有些下法甚至是人类从未触及的。

中国科学院计算技术研究所研究员张云泉对《财经》记者分析,人类棋手为了降低计算需求和追求棋形之美,通过定式等手段对围棋下法进行了大量的简化和限制,从而错失了很多有效的下法,AlphaGo Zero代替人类探索了围棋世界的巨大的空间。

这正是AlphaGo Zero惊人的地方。随着知识和数据的爆炸,人类已经没有能力学习和掌握所有的新知识并进行创造,而AlphaGo却做到了。作为人类的新知识的助手,去探索发现和总结目前人类能力无法到达的新的知识空间。

“它可以延伸人类探索发现新知识边疆的能力!”张云泉说。这预示着机器学习将正式进入无师自通时代,一个新时代已经到来。

需要明晰的是,这并不代表有了AlphaGo Zero,人类经验就没用了,人工智能已经超过人类智力。

中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃认为,在所有“规则界定得非常清楚,而且规则中包含了所有信息”的任务中,机器或程序都应超过人类。正如汽车会跑得比人快,飞机会飞得比人高。围棋属于这个范畴。

问题是,人工智能在应用中面临的更多挑战是那些规则不清,或者清楚但不包含所有信息的事情。在军事国防、社会经济,特别是日常生活中,大多数应用场景都属于此类,即使人为界定出来的规则可以简化复杂性,但无法确定所有信息。比如,交通规则无法杜绝交通拥堵和事故的发生。也就是说,在目前大多数应用场景下,人工智能还无法超越人类智力。

成功要复制

DeepMind公司的使命感很强,他们希望首先解决人工智能问题,然后用人工智能去解决一切其他问题。

显然,研发出AlphaGo Zero不会让它仅坐在围棋王座上。

最让戴维·席尔瓦惊喜的,也是它在现实世界里的应用前景。AlphaGo Zero在围棋这个复杂、高挑战的领域能够达到极高水平,意味着可以将它从围棋领域移植到其他领域,建立一种普遍算法,来着手解决对人类来说最棘手、影响最大的难题了。

“最终,我们希望将这种算法上的突破,用于帮助解决现实世界各种的紧迫问题,如蛋白质折叠、设计新材料。如果我们能在这些问题上做出同样的进步,AlphaGo就有潜力推动人类的知识,并对我们的生活产生积极的影响。”DeepMind联合创始人兼首席执行官戴密斯·哈萨比斯(Demis Hassabis)说。

(编辑:daisongyang)
关键字: 学习能力 人类 训练
分享到:

财经网微评论0人参与)

查看更多>>
匿名评论
  • 全部评论(0条)
查看更多>>

热门文章

热点商讯

编辑推荐

要闻

更多>>

编辑推荐

  • 宏观
  • 金融
  • 产经
  • 地产
  • 政经
  • 评论
  • 生活
  • 海外

排行榜

  • 热文
  • 本周热文
  • 热图
  • 热评
  • 博客