博客

【强化学习】Actor Critic、稀疏奖励

之前的博客介绍了Value-based方法和Policy-based方法,这些方法已经过时了。本文介绍一些更实用的强化学习算法,以及实践中容易遇到的稀疏奖励问题。 Actor Critic 前面介绍了Value-based方法和Policy-based方法,这一部分介绍二者的结合体Actor-Critic框架下的算法,这是现在几乎所有强化学习算法所使用的思路。在介绍Actor Criti...

阅读更多

【强化学习】Model-Free算法

马尔可夫决策过程是四元组 $<\mathcal S,\mathcal A,P,R>$,上一篇文章介绍的值迭代算法依赖于 $P$ 和 $R$ 去求解最优策略。但是,实际应用中我们并不知道具体的 $P$ 和 $R$。那我们知道什么呢?我们能获取的是和环境交互来获取reward以及新的状态,如下面的代码展示的: done = False state = env.reset() whi...

阅读更多

【推荐系统】推荐系统中关注的话题

用户体验与业务目标 Feedback Loop问题 推荐系统决定用户看到的内容,用户的行为会以训练数据或序列特征的形式影响推荐系统,形成一个闭环。这样会导致马太效应:item本身由于内容差异以及冷启动问题会在热度上形成一个长尾分布,而由于推荐系统feedback loop的特征,被推荐得越多的item用户看到的也越多,导致长尾加剧。论文Feedback Loop and Bias Amp...

阅读更多

【算法】零散的算法记录

卡特兰数 一些LeetCode题目和经典问题与卡特兰数 $G(n)$ 有关: 22. 括号生成:$n$ 对合法的括号数量 $n$ 个数可能的入栈出栈顺序的数量 Dyck路径:从 $(0, 0)$ 走到 $(n, n)$ 走 $2n$ 步,每次可以向左或向右一步,且始终不越过对角线($y\ge x$)的路径数量 这些题目的结果都是卡特兰数$G(n)$,原因是它们的输入都是 ...

阅读更多