【强化学习】Actor Critic、稀疏奖励
之前的博客介绍了Value-based方法和Policy-based方法,这些方法已经过时了。本文介绍一些更实用的强化学习算法,以及实践中容易遇到的稀疏奖励问题。
Actor Critic
前面介绍了Value-based方法和Policy-based方法,这一部分介绍二者的结合体Actor-Critic框架下的算法,这是现在几乎所有强化学习算法所使用的思路。在介绍Actor Criti...
【强化学习】Model-Free算法
马尔可夫决策过程是四元组 $<\mathcal S,\mathcal A,P,R>$,上一篇文章介绍的值迭代算法依赖于 $P$ 和 $R$ 去求解最优策略。但是,实际应用中我们并不知道具体的 $P$ 和 $R$。那我们知道什么呢?我们能获取的是和环境交互来获取reward以及新的状态,如下面的代码展示的:
done = False
state = env.reset()
whi...
【强化学习】马尔可夫决策过程
马尔可夫决策过程(Markov Decision Process,MDP)是一个四元组 $<\mathcal S,\mathcal A, P,R>$:
$\mathcal S$ 是状态集合:在 $t$ 时刻的状态记为 $S_t$
$\mathcal A$ 是行为集合:在 $t$ 时刻的行为记为 $A_t$
$P$ 是状态转...
【推荐系统】推荐系统中关注的话题
用户体验与业务目标
Feedback Loop问题
推荐系统决定用户看到的内容,用户的行为会以训练数据或序列特征的形式影响推荐系统,形成一个闭环。这样会导致马太效应:item本身由于内容差异以及冷启动问题会在热度上形成一个长尾分布,而由于推荐系统feedback loop的特征,被推荐得越多的item用户看到的也越多,导致长尾加剧。论文Feedback Loop and Bias Amp...
【算法】零散的算法记录
卡特兰数
一些LeetCode题目和经典问题与卡特兰数 $G(n)$ 有关:
22. 括号生成:$n$ 对合法的括号数量
$n$ 个数可能的入栈出栈顺序的数量
Dyck路径:从 $(0, 0)$ 走到 $(n, n)$ 走 $2n$ 步,每次可以向左或向右一步,且始终不越过对角线($y\ge x$)的路径数量
这些题目的结果都是卡特兰数$G(n)$,原因是它们的输入都是 ...
共计 24 篇文章,3 页。