博客 - lurenjie's Blog

之前的博客介绍了Value-based方法和Policy-based方法，这些方法已经过时了。本文介绍一些更实用的强化学习算法，以及实践中容易遇到的稀疏奖励问题。 Actor Critic 前面介绍了Value-based方法和Policy-based方法，这一部分介绍二者的结合体Actor-Critic框架下的算法，这是现在几乎所有强化学习算法所使用的思路。在介绍Actor Criti...

本文介绍深度强化学习算法，即把神经网络引入深度学习。

马尔可夫决策过程是四元组 $<\mathcal S,\mathcal A,P,R>$，上一篇文章介绍的值迭代算法依赖于 $P$ 和 $R$ 去求解最优策略。但是，实际应用中我们并不知道具体的 $P$ 和 $R$。那我们知道什么呢？我们能获取的是和环境交互来获取reward以及新的状态，如下面的代码展示的： done = False state = env.reset() whi...

马尔可夫决策过程（Markov Decision Process，MDP）是一个四元组 $<\mathcal S,\mathcal A, P,R>$： $\mathcal S$ 是状态集合：在 $t$ 时刻的状态记为 $S_t$ $\mathcal A$ 是行为集合：在 $t$ 时刻的行为记为 $A_t$ $P$ 是状态转...

用户体验与业务目标 Feedback Loop问题推荐系统决定用户看到的内容，用户的行为会以训练数据或序列特征的形式影响推荐系统，形成一个闭环。这样会导致马太效应：item本身由于内容差异以及冷启动问题会在热度上形成一个长尾分布，而由于推荐系统feedback loop的特征，被推荐得越多的item用户看到的也越多，导致长尾加剧。论文Feedback Loop and Bias Amp...

推荐系统中训练双塔模型的标准做法是使用sampled softmax，可以说就是一个加了logQ矫正的infoNCE Loss，这里介绍它的原理和不同实现。

卡特兰数一些LeetCode题目和经典问题与卡特兰数 $G(n)$ 有关： 22. 括号生成：$n$ 对合法的括号数量 $n$ 个数可能的入栈出栈顺序的数量 Dyck路径：从 $(0, 0)$ 走到 $(n, n)$ 走 $2n$ 步，每次可以向左或向右一步，且始终不越过对角线($y\ge x$)的路径数量这些题目的结果都是卡特兰数$G(n)$，原因是它们的输入都是 ...

博客

【强化学习】Actor Critic、稀疏奖励

【强化学习】深度强化学习、AlphaZero

【强化学习】Model-Free算法

【强化学习】马尔可夫决策过程

【推荐系统】推荐系统中关注的话题

【推荐系统】logQ矫正

【算法】零散的算法记录

【备忘】绘图脚本