强化学习:教机器玩转Flappy bird教程
2024-04-19 11:34:14
强化学习
强化学习的来源来自于行为主义理论,即物体或机器如何在环境的刺激和反馈下做出适当的回应,当该回应满足预期时,则说明该物体或机器已经学习到了某种知识。
强化学习本质上是在解决决策上的问题,即学会自动进行决策,且决策较为符合预期的发展。类比于人类,就是人类为什么能够做出决策,且方向是按着最优方向进行。这个过程,就是强化学习所需要学习的过程。
原理
强化学习作为一个序列决策问题,需要做出一系列决策达到最终目的,就像玩九宫格最终目的是要到达终点前要做一系列动作。当然,这和平时的监督学习有着一些区别,因为监督学习有着明确的label,机器去学习用标签属性去辨别不同的label。而强化学习有着类似的label作用的值——reward,该值能够让机器去辨别这次决策的优劣,就像做对了有奖,做错了惩罚,reward就是表明机器做这次决策有奖还是惩罚的值,来判定下次是否做这次决策。
通过不断地迭代和试错,最终结果是机器的“逻辑思维"是在这种环境下,我应该做什么,在接下来的环境下,我又应该做什么的一种思路。所以强化学习更专注于在线规划,需要在Exploration(探索未知的领域)和Exploitation(利用现有知识)之间找到平衡。
一个简单的例子
图中黄点是机器人,目的是走到绿色的方块,reward+1000,黑色方块是墙壁,撞到reward-10,红色方块是陷阱,撞到reward-1000,其他reward+0。那么每次行走一步,黄点会有四个方向的选择,当前走到下图方向时:
往右走会撞到黑色方块reward-100,其他方向reward+0,所以只能往其他方向走,继续走,到下图所示情况。
往右走会撞到黑色方块reward-100,往下走会撞到红色方块reward-1000,左、上方向reward+0,所以只能往左、上方向走。通过不断地迭代,最终即可找到目标绿色方块。
以上就是强化学习的一般流程,每一次决策不断试错,然后记忆经验,最终往目标方向进行。
相关推荐

-
刺激战场:最稳的枪械,m416只能排第二,第一是把冲锋枪!
第一名UMP9,讲真的,这把枪确实是首选,作为一把冲锋枪,它的后坐力非常小,完全可以忽略不计,在伤害方面虽然比起其他枪械差了点,但是很稳,也就是我们说的不用骚操作也能压的住枪,新手老手都非常适合,并且这把枪最近也是开始崛起了,很多玩家都喜欢将它带到决赛圈去,因为其开火时稳定的枪身,拥有者极高的命中率
2025-06-24 01:24:42 -
LOL:新增赛前皮肤预览功能,赛前亮出我的龙瞎,谁还敢说我坑?
今日,拳头官方发布了一条英雄联盟的动态,大致意思就是:英雄联盟下个版本,将新增一项皮肤预览功能。这功能的设定真的方便了喜欢秀皮肤的人,比如选个盲僧秀一下龙虾,选个瑞雯秀一下花木兰。拳头非常懂得国内LOL玩家喜欢用皮肤,所以刻意更新了这个功能,有些玩家可能觉得没多大用处,因为现在LOL皮肤太多了,而且
2025-06-24 00:31:49 -
《原神》红色采集物分布在哪 红色采集物分布位置一览
原神福至五彩红色采集物分布在哪?面对线上任务,找到颜色物品。九游夏了夏天小编带来玩法技巧,轻松完成起来。今天的红色植物有:苹果,日落果,胡萝卜,金鱼草,嘟嘟莲,落落莓,风车菊,绝云椒椒,霓裳花,烈焰花。其实指拍一种,换个个体也行。推荐拍摄地点:清策庄,蒙德城周边。推荐拍摄植物:苹果,日落果,绝云椒椒
2025-06-23 00:43:45 -
《和平精英》新手学会这几种常见的枪械搭配是迈向大神的第一步
中远距离步枪+栓狙是游戏内最为常规的一类搭配,非常常见,步枪一般情况下装备低倍镜,最高不宜超过4倍,而栓狙则以6~8倍瞄准镜为佳,步枪用来对付中近距离的敌人,栓狙可以用来偷袭远处的敌人。而步枪+射手步枪这个枪械组合也挺常见的,步枪主要负责遭遇战中的激烈对拼,而射手步枪依靠射程较远、威力较大的特点,主
2025-06-23 00:39:08 -
原神霓裳花分布图路线 原神霓裳花怎么采集收集
原神游戏中不少材料都有固定的分布区域,比如今天要讲的霓裳花,那么下面我们一起来看看霓裳花的分布图以及采集路线吧。原神霓裳花分布图路线分享璃月1-琉璃百合16、霓裳花14 -特产30。璃月2-霓裳花路线2:14个。璃月3-11个琉璃百合+2石泊+3绝云椒椒-16个特产。璃月4-27个绝云椒椒-3琉璃袋
2025-06-22 01:30:23