图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读 【by 知乎】 去年此时我写了这篇文章,当时的主要目的是,想让读者在没有RL知识的情况下,能从直觉上快速理解代码,以便上手训练和修改。由于一切从“直觉”出发,因此有很多表述不准确的地方,所以最近我写了... 论文 2个月前02730