从谷歌的AlphaGo与人类的对弈中,人们发现AlphaGo使用了很多人类没有想到甚至以为是错误的策略,可以说 AlphaGo的出现,拓宽了人类在围棋这个项目上的视野。那么在不同规则下,人工智能之间会如何互动呢?谷歌的Deepmind的团队真的将两个人工智 能放在不同的规则下,看他们会选择什么样的交互策略。
从实践上看,未来社会人工智能将应用在很多领域上,在不同领域中,必然会存在人工 智能之间的互动,搞清楚人工智能间如何互动就成了非常实际的问题了。为此Deepmind做了个实验,将数个人工智能植入到一个类似“囚徒困境”的情形 中,在此情况下,个体可以通过背叛他人获利,但如果所有人都十分自私,就没有人能获利。
Deepmind设计了两个游戏,一个叫“捡苹 果”,玩家可以再一条管道上收集苹果,谁捡的苹果多谁获胜,每个玩家还拥有一项叫激光的技能,玩家可以用激光让对手消失一段时间。另一个游戏叫狼群,两名 玩家在一个充满困难和障碍的环境中捕猎一只猎物,当猎物被猎杀时,不但抓到猎物的玩家能得分,周围的玩家也可以得分。
实验结果显示,人工智能会根据不同的情况改变自己的策略,时而合作时而敌对,但无论怎样都是尽量让自己的利益最大化。
在“捡苹果”游戏中,如果苹果数量很多,人工智能就很少会阻碍对手,专心捡苹果。但随着苹果数量越来越少,人工智能使用技能阻碍对手的频率就会逐渐增 加。但是如果你在游戏中引入一个较强的人工智能时,这个较强的人工智能会从一开始就尽量阻碍对手,表面上看,这好像是说明更聪明的人工智能更好斗,但事实 却是,阻碍对手是一项比艰难的行为,需要大量的计算,如果没有足够的能力,那么随意使用这个技能反而会影响自己捡苹果,但更强大的人工智能有能力在捡好苹 果的同时,计算如何阻碍对手,所以他们更倾向于使用技能。
在“狼群”游戏中,情况却截然相反,更聪明的人工智能会更倾向于和其他玩家配合,因为配合捕猎不但需要计算自己和猎物的关系,还得将其他玩家计算进来。
可以说规则导致了人工智能行为的不同,当人工智能面临“零和博弈”时,就会倾向于更加好斗,但在它们面临“正和博弈”时,就会倾向于合作。
实验结果显示,在涉及到多人工智能交互的场景中,一定要保证规则合理,否则人工智能会为了自己的目标无所不用其极。控制人工智能行为的关键就是设置合理的规则。
除此以外,该实验也有心理学意义,在试验中的人工智能和无情绪和道德感的人类行为很类似,通过实验可以看到人工智能的行为模式是因为环境的变化,这和心理学的假设基本一致。(王蔚)
从谷歌的AlphaGo与人类的对弈中,人们发现AlphaGo使用了很多人类没有想到甚至以为是错误的策略,可以说AlphaGo的出现,拓宽了人类 在围棋这个项目上的视野。那么在不同规则下,人工智能之间会如何互动呢?谷歌的Deepmind的团队真的将两个人工智能放在不同的规则下,看他们会选择 什么样的交互策略。
从实践上看,未来社会人工智能将应用在很多领域上,在不同领域中,必然会存在人工智能之间的互动,搞清楚人工智能间 如何互动就成了非常实际的问题了。为此Deepmind做了个实验,将数个人工智能植入到一个类似“囚徒困境”的情形中,在此情况下,个体可以通过背叛他 人获利,但如果所有人都十分自私,就没有人能获利。
Deepmind设计了两个游戏,一个叫“捡苹果”,玩家可以再一条管道上收集苹 果,谁捡的苹果多谁获胜,每个玩家还拥有一项叫激光的技能,玩家可以用激光让对手消失一段时间。另一个游戏叫狼群,两名玩家在一个充满困难和障碍的环境中 捕猎一只猎物,当猎物被猎杀时,不但抓到猎物的玩家能得分,周围的玩家也可以得分。
实验结果显示,人工智能会根据不同的情况改变自己的策略,时而合作时而敌对,但无论怎样都是尽量让自己的利益最大化。
在“捡苹果”游戏中,如果苹果数量很多,人工智能就很少会阻碍对手,专心捡苹果。但随着苹果数量越来越少,人工智能使用技能阻碍对手的频率就会逐渐增 加。但是如果你在游戏中引入一个较强的人工智能时,这个较强的人工智能会从一开始就尽量阻碍对手,表面上看,这好像是说明更聪明的人工智能更好斗,但事实 却是,阻碍对手是一项比艰难的行为,需要大量的计算,如果没有足够的能力,那么随意使用这个技能反而会影响自己捡苹果,但更强大的人工智能有能力在捡好苹 果的同时,计算如何阻碍对手,所以他们更倾向于使用技能。
在“狼群”游戏中,情况却截然相反,更聪明的人工智能会更倾向于和其他玩家配合,因为配合捕猎不但需要计算自己和猎物的关系,还得将其他玩家计算进来。
可以说规则导致了人工智能行为的不同,当人工智能面临“零和博弈”时,就会倾向于更加好斗,但在它们面临“正和博弈”时,就会倾向于合作。
实验结果显示,在涉及到多人工智能交互的场景中,一定要保证规则合理,否则人工智能会为了自己的目标无所不用其极。控制人工智能行为的关键就是设置合理的规则。
除此以外,该实验也有心理学意义,在试验中的人工智能和无情绪和道德感的人类行为很类似,通过实验可以看到人工智能的行为模式是因为环境的变化,这和心理学的假设基本一致。
银行系飞机金融租赁公司-市场总监 | 年薪120万 |
北京知名矿业集团集团常务副总裁 | 年薪84万 |
通信网络工程上市公司-市场部经理 | 年薪60万 |
股份制银行系背景飞机金融租赁公司 | 年薪300万 |
国内知名上市地产集团CIO | 年薪70万 |
北京跨境电商公司CFO | 年薪48万 |
互联网金融支付上市公司-CTO | 年薪120万 |
国外知名珠宝公司事业发展部总监 | 年薪60万 |
国外高端品牌珠宝公司电商总经理 | 年薪100万 |
北京知名互联网金融公司财务总监 | 年薪50万 |
菇菌产业集团-首席运营官COO | 年薪80万 |
知名箱包集团厂长(生产基地副总) | 年薪80万 |
银行系飞机金融租赁公司-市场总监 | 年薪120万 |
国内知名地产公司-美国上市-CFO | 年薪300万 |
股份制银行系飞机金融租赁公司 | 年薪300万 |
互联网金融支付上市公司-技术总监 | 年薪120万 |
知名品牌珠宝公司事业发展部总监 | 年薪60万 |
国外高端品牌珠宝公司电商总经理 | 年薪100万 |
某投资控股集团公关总监 | 年薪48万 |
大农业电子商务平台-首席技术官 | 年薪70万 |
知名婚庆用品公司-分公司总经理 | 年薪100万 |
通信网络工程上市公司--市场部经理 | 年薪60万 |
香港上市燃气公司-城市财务经理 | 年薪40万 |
互联网金融支付上市公司-技术总监 | 年薪120万 |
互联网保险创新事业部市场运营经理 | 年薪50万 |
香港上市燃气公司-行政人事经理 | 年薪30万 |
香港上市燃气公司-城市运营副总 | 年薪40万 |
大农业电商平台-首席技术官CTO | 年薪70万 |
菇菌产业集团-首席运营官COO | 年薪80万 |
年销10亿家居企业-总经理(家纺) | 年薪100万 |