强化学习 - 码客汇

强化学习——马尔可夫决策过程（MDP）【附 python 代码】

强化学习与马尔可夫决策过程（MDP）强化学习是一种机器学习的范畴，其中智能体通过与环境的交互学习获得经验，以最大化累积的奖励。马尔可夫决策过程（MDP，Markov Decision Process）是强化学习最基础的数学框架之一，可以有效地用来描述具有随机性和决策过程的环境。MDP的组成部分

后端 2024年09月21日 0 点赞 0 评论 38 浏览

【RL Latest Tech】分层强化学习：Option-Critic架构算法

分层强化学习：Option-Critic架构算法近年来，分层强化学习（Hierarchical Reinforcement Learning, HRL）逐渐成为研究的热点之一。该方法通过在多个层次上组织学习过程，使得智能体能够以更高的抽象层次进行决策。其中，Option-Critic架构是一种新兴

后端 2024年10月02日 0 点赞 0 评论 34 浏览

【深度强化学习】(1) DQN 模型解析，附Pytorch完整代码

DQN 模型解析及 Pytorch 完整代码深度强化学习（Deep Reinforcement Learning）是强化学习与深度学习相结合的重要领域。它的一个经典模型是 DQN（Deep Q-Network），是由谷歌 DeepMind 在 2013 年提出的。DQN 通过深度神经网络来逼近 Q

后端 2024年09月30日 0 点赞 0 评论 25 浏览

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

深度强化学习（Deep Reinforcement Learning, DRL）是深度学习和强化学习相结合的产物，近年来在自动化控制、游戏等领域取得了显著的成果。深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）是一种结合了价值函数方法和策略梯度方

后端 2024年09月26日 0 点赞 0 评论 21 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期

强化学习——马尔可夫决策过程（MDP）【附 python 代码】

【RL Latest Tech】分层强化学习：Option-Critic架构算法

【深度强化学习】(1) DQN 模型解析，附Pytorch完整代码

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

强化学习 首页 强化学习

列表 默认 浏览次数 发布日期

强化学习——马尔可夫决策过程（MDP）【附 python 代码】

【RL Latest Tech】分层强化学习：Option-Critic架构算法

【深度强化学习】(1) DQN 模型解析，附Pytorch完整代码

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期