Reinforcement Learning 笔记(3)

Sarsa & Q-Learning

![]()

根据公示表,似乎Sarsa相对于Q的区别在于,Sarsa的学习更新过程中,

Q(s', a')的获取方式与Q(s, a)相同,都是通过类似的epsilon-greedy方法获取的.

而Q-Learning 的思路则是直接抓取s',将其对应的所有action中,选取最大的作为学习来源,即max(a') [Q(s', a')]

对于Q:

我们有了s,我们选择了a,然后得到了s',用已存在的q_table中s'的信息,选取最大者作为a'进行学习,这样可以最快逼近终点.但是当s'->s的时候,a'并不保留,也就是说,新的一步中,可能并不会选取曾经的a',而是重新用 policy

对于sarsa:

我们有了s,我们选择了a,然后得到了s',直接用policy选取下回合的a',作为学习内容修改当前的权重,而下次的state和action都已确定.

因此结果就是,Q的learning是直奔终点去的,如果是单reward系统的话,就是明显的从后向前逐步传递,而对于sarsa,则是逐步试探,第一次获得的经验可能不会很快就被第二次用上,最后的结果是,尝试了足够多的路径,最终逐渐找出最优方案.

声明:该文章系转载,转载该文章的目的在于更广泛的传递信息,并不代表本网站赞同其观点,文章内容仅供参考。

本站是一个个人学习和交流平台,网站上部分文章为网站管理员和网友从相关媒体转载而来,并不用于任何商业目的,内容为作者个人观点, 并不代表本网站赞同其观点和对其真实性负责。

我们已经尽可能的对作者和来源进行了通告,但是可能由于能力有限或疏忽,导致作者和来源有误,亦可能您并不期望您的作品在我们的网站上发布。我们为这些问题向您致歉,如果您在我站上发现此类问题,请及时联系我们,我们将根据您的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。