强化学习:教机器玩转Flappy bird教程
2024-04-19 11:34:14
强化学习
强化学习的来源来自于行为主义理论,即物体或机器如何在环境的刺激和反馈下做出适当的回应,当该回应满足预期时,则说明该物体或机器已经学习到了某种知识。
强化学习本质上是在解决决策上的问题,即学会自动进行决策,且决策较为符合预期的发展。类比于人类,就是人类为什么能够做出决策,且方向是按着最优方向进行。这个过程,就是强化学习所需要学习的过程。
原理
强化学习作为一个序列决策问题,需要做出一系列决策达到最终目的,就像玩九宫格最终目的是要到达终点前要做一系列动作。当然,这和平时的监督学习有着一些区别,因为监督学习有着明确的label,机器去学习用标签属性去辨别不同的label。而强化学习有着类似的label作用的值——reward,该值能够让机器去辨别这次决策的优劣,就像做对了有奖,做错了惩罚,reward就是表明机器做这次决策有奖还是惩罚的值,来判定下次是否做这次决策。
通过不断地迭代和试错,最终结果是机器的“逻辑思维"是在这种环境下,我应该做什么,在接下来的环境下,我又应该做什么的一种思路。所以强化学习更专注于在线规划,需要在Exploration(探索未知的领域)和Exploitation(利用现有知识)之间找到平衡。
一个简单的例子
图中黄点是机器人,目的是走到绿色的方块,reward+1000,黑色方块是墙壁,撞到reward-10,红色方块是陷阱,撞到reward-1000,其他reward+0。那么每次行走一步,黄点会有四个方向的选择,当前走到下图方向时:
往右走会撞到黑色方块reward-100,其他方向reward+0,所以只能往其他方向走,继续走,到下图所示情况。
往右走会撞到黑色方块reward-100,往下走会撞到红色方块reward-1000,左、上方向reward+0,所以只能往左、上方向走。通过不断地迭代,最终即可找到目标绿色方块。
以上就是强化学习的一般流程,每一次决策不断试错,然后记忆经验,最终往目标方向进行。
相关推荐

-
《幻境双生》1-5通关攻略
向右推箱子打开泡泡机关,推下右边中间箱子,小心不要推最上方的箱子,防止跳不回去。 跳上去把最上方的箱子推下路,拿取钥匙,开门。 返回正常世界。 去最左边,推动压住泡泡机关的箱子挡住激光,留下如图所示2个幻象,再次进入门内世界。 收集碎片和宝石通关。
2025-05-07 02:11:05 -
荒野行动:三种天气用这三把枪,在决赛圈里最容易吃鸡
晴天和雪天模式:狙击枪和步枪为什么在这两种天气模式中,鱼玩所推荐的枪是一样的,都是狙击枪和步枪。是鱼玩码字码错了吗?并不是,鱼玩可不会去误导萌新,给萌新推荐一些奇葩枪去玩这两种天气模式。因为晴天和雪天这两种天气模式,其实整体上区别并不是很大,视野都不怎么受限制(除了吉利服外),狙击枪和步枪自然是首选
2025-05-07 01:07:53 -
《剑网3:指尖江湖》云梦幽墟秘境玩法初解
在不久前官方更新的风起稻香版本中,全新的【云梦幽墟】秘境挑战开启了。玩家不仅可以在里面重返梦魇挑战,还可以获得海量的奖励哦!让我们一起来探究一下这个新秘境的深浅吧。【玩法介绍】1. 在【云梦幽墟】秘境中,少侠可以选择独自作战,也或者拉上好友一起挑战。当然了,新的秘境同样支持师徒亦或帮会成员一起挑战。
2025-05-06 00:57:05 -
三国志11血色衣冠特技详解十二:妙计、秘计、看破、洞察
原版链接在这里。原版特技介绍得比较详细,这个血色衣冠的系列,主要是找不同。关键是这一篇,好像没啥不同。三国志11特技详解十三:妙计、秘计、看破、洞察,没有想象的美好书接上文。妙计(58)特技释义:对智力比自己低的敌方部队施展计略成功时,必定会暴击。直接把几个“妙计”都放出来看看。特技效果和原版是一样
2025-05-06 00:40:38 -
剑网3pve副本机制调整详解
剑网3副本boss独立cd机制是什么意思?小伙伴们都明白了吗?52z飞翔网小编为大家带来了剑网3pve副本机制调整详解,一起来看看吧!剑网3pve副本机制调整:剑网3长风破晓新版本在PVE上将引入三大全新机制,适用于全新的“辉天堑”秘境。机制一:秘境首领享有独立CD全新资料片将在部分秘境启用秘境首领
2025-05-05 00:05:07