Sublime

渣大米 mp.weixin.qq.com

RelatedInsightsHighlights

样本效率做到了之前的deepmind的5-6倍。预计能在10h内实现双足的实机学习

在机器人领域应用深度强化学习，目前主流的一些思路是什么？ - 知乎

LLM Powered Autonomous Agents

Lilian Weng lilianweng.github.io

The Bitter Lesson

incompleteideas.net incompleteideas.net

我们可以通过确定agent是否了解环境模型来划分可用的RL算法。了解模型可以使agent提前知道状态转移概率矩阵和未来的reward

【重磅综述】用于机器人操作的深度强化学习- 知乎