Playing Atari with Deep Reinforcement Learning

文章标题：使用深度强化学习玩雅达利游戏
作者/机构：Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)

A1 主要贡献

本文提出首个能够直接从高维感官输入（如原始像素）中，通过强化学习成功学习控制策略的深度学习模型。

核心问题：直接从视觉和语音等高维感官输入中学习控制智能体是强化学习（RL）领域一个长期存在的挑战。过去成功的RL应用大多依赖于手工设计的特征与线性价值函数或策略表示相结合，其性能严重依赖于特征表示的质量。
研究目标：创建一个单一的神经网络智能体，能够直接从原始视频数据中学习，成功地玩尽可能多的雅达利（Atari）2600游戏。该网络不应被提供任何特定于游戏的信息或手工设计的视觉特征，也不应接触模拟器的内部状态，仅通过视频输入、奖励和终止信号以及可能的动作集合进行学习，就像人类玩家一样。
创新点与主要贡献：
1. 端到端的强化学习模型：本文证明了一个卷积神经网络（CNN）可以直接处理原始像素输入，通过强化学习成功学习复杂RL环境中的控制策略。该网络以原始像素作为输入，输出一个估计未来奖励的价值函数。
2. 结合Q-learning和经验回放：该模型使用Q-learning的一个变体进行训练，并通过随机梯度下降更新权重。为了解决强化学习中数据样本高度相关和数据分布非平稳的挑战，本文采用了一种经验回放（experience replay）机制。该机制通过随机采样先前的转换（transitions），平滑了训练数据的分布，使其覆盖了许多过去的行为。
3. 通用性和鲁棒性验证：该方法被应用于Arcade学习环境（ALE）中的七款雅达利2600游戏，而无需调整网络架构或学习算法。实验结果表明，该模型在其中六款游戏上的表现优于所有先前的方法，并在三款游戏上超越了人类专家。

图1：五款雅达利2600游戏的截图：（从左到右）Pong, Breakout, Space Invaders, Seaquest, Beam Rider

A3 背景知识与相关工作

背景知识

智能体与环境的交互 本文考虑智能体与环境E（在此为雅达利模拟器）在一系列动作、观察和奖励中进行交互的任务。在每个时间步，智能体从合法的游戏动作集合 $A = \{1, ..., K\}$ 中选择一个动作 $a_t$。该动作被传递给模拟器，从而改变其内部状态和游戏得分。环境E通常是随机的。智能体无法观察到模拟器的内部状态，而是观察到一个来自模拟器的图像 $x_t \in R^d$，这是一个代表当前屏幕的原始像素值向量。此外，它还会收到一个代表游戏得分变化的奖励 $r_t$。值得注意的是，游戏得分可能取决于整个先前的动作和观察序列，对某个动作的反馈可能在数千个时间步之后才能收到。

部分可观察性与状态定义 由于智能体仅观察当前屏幕的图像，任务是部分可观察的，并且许多模拟器状态在感知上是混淆的（perceptually aliased），即仅从当前屏幕 $x_t$ 无法完全理解当前情况。因此，本文考虑动作和观察的序列，$s_t = x_1, a_1, x_2, ..., a_{t-1}, x_t$，并学习依赖于这些序列的游戏策略。模拟器中的所有序列都假定在有限的时间步内终止。这种形式化产生了一个巨大但有限的马尔可夫决策过程（MDP），其中每个序列都是一个独特的状态。因此，我们可以通过简单地使用完整的序列 $s_t$ 作为时间 $t$ 的状态表示，来应用MDP的标准强化学习方法。

目标函数与最优动作-价值函数 智能体的目标是通过选择动作与模拟器交互，以最大化未来的奖励。本文做出标准假设，即未来奖励按每时间步因子 $\gamma$ 进行折扣，并将时间 $t$ 的未来折扣回报定义为 $R_t = \sum_{t'=t}^{T} \gamma^{t'-t} r_{t'}$，其中 $T$ 是游戏终止的时间步。我们将最优动作-价值函数 $Q^*(s, a)$ 定义为在看到某个序列 $s$ 并采取某个动作 $a$ 后，遵循任何策略可实现的最大期望回报，$Q^*(s, a) = \max_{\pi} E[R_t|s_t = s, a_t = a, \pi]$，其中 $\pi$ 是一个将序列映射到动作（或动作分布）的策略。

贝尔曼方程 最优动作-价值函数遵循一个称为贝尔曼方程的重要恒等式。这基于以下直觉：如果对于所有可能的动作 $a'$, 下一个时间步序列 $s'$ 的最优值 $Q^*(s', a')$ 是已知的，那么最优策略就是选择能最大化 $r + \gamma Q^*(s', a')$ 期望值的动作 $a'$。

价值迭代与函数逼近 许多强化学习算法的基本思想是利用贝尔曼方程作为迭代更新来估计动作-价值函数，$Q_{i+1}(s, a) = E[r + \gamma \max_{a'} Q_i(s', a')|s, a]$。这类价值迭代算法会收敛到最优动作-价值函数，即当 $i \to \infty$ 时，$Q_i \to Q^*$ 【23, Reinforcement Learning: An Introduction, MIT Press, 1998】。在实践中，这种基本方法完全不切实际，因为它为每个序列单独估计动作-价值函数，没有任何泛化能力。因此，通常使用函数逼近器来估计动作-价值函数，$Q(s, a; \theta) \approx Q^*(s, a)$。在强化学习社区中，这通常是线性函数逼近器，但有时也使用非线性函数逼近器，如神经网络。

Q-网络与损失函数 本文将使用权重为 $\theta$ 的神经网络函数逼近器称为Q-网络。Q-网络可以通过最小化在每次迭代 $i$ 时都会变化的损失函数序列 $L_i(\theta_i)$ 来进行训练。

其中，$y_i = E_{s' \sim E}[r + \gamma \max_{a'} Q(s', a'; \theta_{i-1})|s, a]$ 是迭代 $i$ 的目标，而 $\rho(s, a)$ 是我们称之为行为分布的序列 $s$ 和动作 $a$ 上的概率分布。在优化损失函数 $L_i(\theta_i)$ 时，前一次迭代的参数 $\theta_{i-1}$ 是固定的。注意，目标依赖于网络权重，这与监督学习中在学习开始前就固定的目标形成对比。

梯度计算 对损失函数关于权重求导，我们得到以下梯度：

随机梯度下降与Q-learning 与计算上述梯度中的完整期望值相比，通过随机梯度下降来优化损失函数通常在计算上更为便捷。如果权重在每个时间步后都更新，并且期望值分别被行为分布 $\rho$ 和模拟器 $E$ 的单个样本所替代，那么我们就得到了众所周知的Q-learning算法【26, Q-learning, Machine learning, 1992】。

算法特性：无模型与离策略 该算法是无模型的（model-free）：它直接使用从模拟器E中采样的样本来解决强化学习任务，而无需显式地构建E的估计模型。它也是离策略的（off-policy）：它学习贪婪策略 $a = \max_a Q(s, a; \theta)$，同时遵循一个确保对状态空间进行充分探索的行为分布。在实践中，行为分布通常通过 $\epsilon$-greedy策略来选择，该策略以 $1-\epsilon$ 的概率遵循贪婪策略，以 $\epsilon$ 的概率选择一个随机动作。

A2 方法细节

深度强化学习的动机 近期计算机视觉和语音识别领域的突破依赖于在非常大的训练集上高效地训练深度神经网络。最成功的方法是直接从原始输入进行训练，使用基于随机梯度下降的轻量级更新。通过向深度神经网络提供足够的数据，通常可以学到比手工制作的特征更好的表示【11, Imagenet classification with deep convolutional neural networks, NIPS 25, 2012】。这些成功启发了我们对强化学习的方法。我们的目标是将一个强化学习算法与一个直接在RGB图像上操作的深度神经网络连接起来，并通过使用随机梯度更新来高效地处理训练数据。

经验回放机制的引入 Tesauro的TD-Gammon架构为这种方法提供了一个起点。该架构直接从算法与环境交互（或在西洋双陆棋中通过自我对弈）中获得的在策略（on-policy）经验样本 $s_t, a_t, r_t, s_{t+1}, a_{t+1}$ 来更新估计价值函数的网络参数。与TD-Gammon和类似的在线方法不同，我们利用一种称为经验回放（experience replay）的技术【13, Reinforcement learning for robots using neural networks, Technical report, 1993】。我们将智能体在每个时间步的经验 $e_t = (s_t, a_t, r_t, s_{t+1})$ 存储在一个数据集 $D = e_1, ..., e_N$ 中，这个数据集汇集了许多回合（episodes）的经验，形成一个回放记忆库。在算法的内循环中，我们对从存储样本池中随机抽取的经验样本 $e \sim D$ 应用Q-learning更新或小批量更新。执行经验回放后，智能体根据 $\epsilon$-greedy策略选择并执行一个动作。由于将任意长度的历史作为神经网络的输入可能很困难，我们的Q函数转而工作在一个由函数 $\phi$ 产生的固定长度的历史表示上。我们称之为深度Q学习（deep Q-learning）的完整算法在算法1中呈现。

经验回放的优势 与标准的在线Q-learning【23, Reinforcement Learning: An Introduction, MIT Press, 1998】相比，这种方法有几个优势。
- 首先，每一步的经验都可能被用于多次权重更新，从而提高了数据效率。
- 其次，直接从连续的样本中学习是低效的，因为样本之间存在强相关性；随机化样本可以打破这些相关性，从而减少更新的方差。
- 第三，在在策略（on-policy）学习中，当前的参数决定了下一个用于训练参数的数据样本。例如，如果最大化动作是向左移动，那么训练样本将主要由左侧的样本构成；如果最大化动作接着切换到右侧，训练分布也会随之切换。这很容易产生不必要的反馈循环，导致参数陷入一个差的局部最小值，甚至灾难性地发散【25, An analysis of temporal-difference learning with function approximation, IEEE Transactions on, 1997】。通过使用经验回放，行为分布在其许多先前的状态上被平均，从而平滑了学习过程，避免了参数的振荡或发散。注意，当通过经验回放学习时，有必要进行离策略（off-policy）学习（因为我们当前的参数与生成样本时使用的参数不同），这促使我们选择Q-learning。

经验回放的实现细节与局限性 在实践中，我们的算法只在回放记忆中存储最近的 $N$ 个经验元组，并在执行更新时从 $D$ 中均匀随机抽样。这种方法在某些方面是有限的，因为记忆缓冲区不会区分重要的转换，并且由于有限的内存大小 $N$，总是用最近的转换覆盖旧的。同样，均匀采样对回放记忆中的所有转换赋予了同等的重要性。一个更复杂的采样策略可能会强调那些我们能学到最多的转换，类似于优先扫描（prioritized sweeping）【17, Prioritized sweeping: Reinforcement learning with less data and less real time, Machine Learning, 1993】。

4.1 预处理与模型架构

输入预处理 直接处理原始的雅达利帧（210×160像素、128色调色板的图像）在计算上可能要求很高，因此我们采用了一个旨在降低输入维度的基本预处理步骤。原始帧的预处理首先将其RGB表示转换为灰度图，并将其下采样至110×84的图像。最终的输入表示是通过裁剪图像的一个84×84区域获得的，该区域大致捕捉了游戏区域。最后的裁剪阶段是必需的，仅因为我们使用了来自【11, Imagenet classification with deep convolutional neural networks, NIPS 25, 2012】的2D卷积的GPU实现，该实现期望方形输入。在本文的实验中，算法1中的函数 $\phi$ 对历史记录的最后4帧应用此预处理，并将它们堆叠起来，以产生Q函数的输入。

Q网络架构设计 使用神经网络来参数化Q有几种可能的方式。由于Q将历史-动作对映射到其Q值的标量估计，一些先前的方法【20, Neural fitted q iteration–first experiences with a data efficient neural reinforcement learning method, ECML 2005】、【12, Deep auto-encoder neural networks in reinforcement learning, IJCNN 2010】已将历史和动作作为神经网络的输入。这种类型架构的主要缺点是，计算每个动作的Q值需要一次单独的前向传播，导致成本与动作数量成线性关系。我们转而使用一种架构，其中每个可能的动作都有一个单独的输出单元，只有状态表示是神经网络的输入。输出对应于输入状态下各个动作的预测Q值。这种类型架构的主要优点是，能够在给定状态下，仅通过一次网络前向传播就计算出所有可能动作的Q值。

具体的网络架构（DQN） 现在我们描述用于所有七个雅达利游戏的确切架构。
1. 输入：神经网络的输入是由 $\phi$ 产生的84×84×4的图像。
2. 第一个隐藏层：使用16个8×8的滤波器，步长为4，对输入图像进行卷积，并应用一个整流线性单元（rectifier nonlinearity, ReLU）【10, What is the best multi-stage architecture for object recognition?, CVPR 2009】、【18, Rectified linear units improve restricted boltzmann machines, ICML 2010】。
3. 第二个隐藏层：使用32个4×4的滤波器，步长为2，进行卷积，同样后面跟着一个ReLU。
4. 第三个隐藏层：是一个全连接层，由256个ReLU单元组成。
5. 输出层：是一个全连接的线性层，每个有效动作对应一个输出。在我们考虑的游戏中，有效动作的数量在4到18之间变化。我们将用我们的方法训练的卷积网络称为深度Q网络（Deep Q-Networks, DQN）。

A4 实验

实验环境

数据集/环境：在七款流行的雅达利（ATARI）游戏上进行了实验，这些游戏来自Arcade Learning Environment (ALE) 平台，包括：Beam Rider, Breakout, Enduro, Pong, Q*bert, Seaquest, Space Invaders。
模型架构：采用4.1节描述的DQN架构，其关键参数在所有七款游戏中保持一致，体现了方法的通用性。
硬件配置：论文未明确指定具体的硬件型号，但提到了使用了2D卷积的GPU实现。
软件配置：
- 环境：Arcade Learning Environment (ALE) 【3, The arcade learning environment: An evaluation platform for general agents, Journal of Artificial Intelligence Research, 2013】。
- 学习算法：RMSProp，小批量大小为32。
- 训练策略：$\epsilon$-greedy策略，$\epsilon$ 在前一百万帧内从1线性退火到0.1，之后固定为0.1。
- 训练时长：总共训练1000万帧。
- 经验回放内存：存储最近的100万帧。
训练细节：
- 奖励裁剪：为了便于在多个游戏中使用相同的学习率，在训练期间对奖励结构进行了修改。所有正奖励被固定为1，所有负奖励被固定为-1，而0奖励保持不变。这限制了误差导数的规模，但可能影响智能体区分不同大小奖励的能力。
- 跳帧技术（Frame-Skipping）：智能体在每k帧而不是每帧上观察和选择动作，其最后一个动作在被跳过的帧上重复。这使得智能体可以在不显著增加运行时间的情况下玩大约k倍的游戏。除Space Invaders（k=3，为了使激光可见）外，所有游戏均使用k=4。这是各游戏之间唯一的超参数差异。

实验结果

5.1 训练与稳定性

实验内容：在训练期间跟踪两个评估指标：1) 每回合的平均总奖励；2) 对一个固定状态集的平均最大预测Q值。
实验结果：
- 平均总奖励指标非常嘈杂，无法清晰地展示学习的稳定进展（图2左侧两图）。
- 相比之下，策略的估计动作-价值函数Q（在固定的状态集上评估）的增长则平滑得多，表明学习过程是稳定的（图2右侧两图）。
分析结论：尽管缺乏理论收敛保证，但该方法能够使用强化学习信号和随机梯度下降稳定地训练大型神经网络，实验中未遇到任何发散问题。

图2：左侧两图分别显示了Breakout和Seaquest训练期间每回合的平均奖励。该统计数据是通过运行一个epsilon=0.05的e-greedy策略10000步计算的。右侧两图分别显示了在Breakout和Seaquest上，一个固定的状态集的平均最大预测动作价值。一个epoch对应50000次小批量权重更新，或大约30分钟的训练时间。

5.2 价值函数可视化

实验内容：可视化在Seaquest游戏中学到的价值函数在一个30帧片段内的变化。
实验结果：如图3所示，当一个敌人出现在屏幕左侧时（点A），预测值跃升。然后智能体向敌人发射鱼雷，当鱼雷即将击中敌人时，预测值达到峰值（点B）。最后，在敌人消失后，价值回落到大致原始水平（点C）。
分析结论：该方法能够学习到价值函数如何在一个相当复杂的事件序列中演变，表明模型学到了有意义的价值表示。

图3：左图显示了Seaquest游戏一个30帧片段的预测价值函数。三个截图分别对应于标记为A、B和C的帧。

5.3 主要评估

实验内容：将DQN的性能与文献中的其他方法（Sarsa、Contingency）、人类专家、随机策略以及演化策略搜索方法（HNeat）进行比较。
实验结果：
- 与RL文献方法对比：如表1上半部分所示，DQN在所有七款游戏上的表现均大幅优于其他学习方法（Sarsa【3】和Contingency【4】），尽管DQN几乎没有利用任何关于输入的先验知识（如背景剔除或颜色通道分离）。
- 与演化方法对比：DQN的表现也优于HNeat方法【8】，即使是与使用了手工设计的对象检测器（HNeat Best）或特殊颜色通道（HNeat Pixel）的HNeat相比。DQN的平均结果（第4行）在除Space Invaders外的所有游戏上都超过了HNeat的最佳单次游戏结果（第8行）。
- 与人类专家对比：DQN在Breakout、Enduro和Pong三款游戏上的表现超过了人类专家，在Beam Rider上接近人类水平。但在Q*bert、Seaquest和Space Invaders上仍有较大差距，因为这些游戏需要更长期的策略规划。
分析结论：DQN方法在多种Atari游戏上取得了当时最先进的性能，证明了其作为一个通用智能体的有效性和强大能力。

表1：上表比较了各种学习方法通过运行epsilon=0.05的e-greedy策略固定步数后的平均总奖励。下表报告了HNeat和DQN单次最佳表现回合的结果。HNeat产生确定性策略，总是得到相同的分数，而DQN使用epsilon=0.05的e-greedy策略。

A5 结论

本文介绍了一种用于强化学习的新的深度学习模型（DQN），并展示了它仅使用原始像素作为输入，就能掌握雅达利2600电脑游戏的高难度控制策略。我们还提出了一种在线Q-learning的变体，它将随机小批量更新与经验回放记忆相结合，以简化深度网络在强化学习中的训练。我们的方法在所测试的七款游戏中的六款上取得了最先进的结果，且无需对架构或超参数进行调整。

引用文献分析

【1】Leemon Baird. Residual algorithms: Reinforcement learning with function approximation. (ICML 1995)
- 引用位置: 背景知识/相关工作
- 引用内容: 论文指出，将离策略学习（off-policy learning）与非线性函数逼近器结合可能导致Q网络发散。这篇文献被引用以支持这一观点，说明了早期强化学习面临的稳定性挑战。
【2】Marc Bellemare, et al. Sketch-based linear value function approximation. (NIPS 2012)
- 引用位置: 背景知识/相关工作
- 引用内容: 在回顾Atari平台上的先前工作时，引用此文说明通过使用更多特征和“拔河”哈希（tug-of-war hashing）技术来改进基于线性函数逼近的强化学习算法。
【3】Marc G Bellemare, et al. The arcade learning environment: An evaluation platform for general agents. (J. Artif. Intell. Res. 2013)
- 引用位置: 背景知识/相关工作，实验部分
- 引用内容: 多次引用。首先，作为引入Atari 2600模拟器作为RL平台的开创性工作。其次，在实验评估中，作为Sarsa基线方法的来源，并遵循其评估策略。
【4】Marc G Bellemare, et al. Investigating contingency awareness using atari 2600 games. (AAAI 2012)
- 引用位置: 实验部分
- 引用内容: 作为实验对比的基线方法之一（Contingency），该方法在Sarsa基础上增强了特征集。
【8】Matthew Hausknecht, et al. A neuro-evolution approach to general atari game playing. (2013)
- 引用位置: 背景知识/相关工作，实验部分
- 引用内容: 描述了HyperNEAT演化架构在Atari平台上的应用，并作为实验评估中的一个重要对比基线。论文指出这种方法依赖于利用确定性序列。
【9】Nicolas Heess, et al. Actor-critic reinforcement learning with energy-based policies. (EWRL 2012)
- 引用位置: 背景知识/相关工作
- 引用内容: 在讨论深度学习与强化学习结合的近期进展时，引用此文作为使用受限玻尔兹曼机（RBM）估计策略的一个例子。
【10】Kevin Jarrett, et al. What is the best multi-stage architecture for object recognition? (CVPR 2009)
- 引用位置: 方法细节
- 引用内容: 引用此文作为在DQN架构中使用整流线性单元（rectifier nonlinearity）的依据之一。
【11】Alex Krizhevsky, et al. Imagenet classification with deep convolutional neural networks. (NIPS 2012)
- 引用位置: 主要贡献，方法细节
- 引用内容: 引用此文作为深度学习在计算机视觉领域取得突破的代表性工作，启发了本文的研究思路。同时，DQN的预处理（裁剪为方形输入）是为了适配此文提出的GPU卷积实现。
【12】Sascha Lange and Martin Riedmiller. Deep auto-encoder neural networks in reinforcement learning. (IJCNN 2010)
- 引用位置: 背景知识/相关工作，方法细节
- 引用内容: 在与NFQ方法对比时引用。该文献展示了NFQ通过深度自编码器学习低维表示来处理视觉输入，与本文的端到端方法形成对比。同时，在讨论Q网络架构时，引用其将历史和动作作为输入的方案。
【13】Long-Ji Lin. Reinforcement learning for robots using neural networks. (Technical report, 1993)
- 引用位置: 背景知识/相关工作，方法细节
- 引用内容: 这是经验回放（experience replay）机制的原始出处。论文多次引用此文，将其作为自己方法的核心组成部分，并指出Lin的工作是基于低维状态而非原始视觉输入。
【14】Hamid Maei, et al. Convergent Temporal-Difference Learning with Arbitrary Smooth Function Approximation. (NIPS 2009)
- 引用位置: 背景知识/相关工作
- 引用内容: 引用此文说明梯度时间差分方法在解决Q-learning发散问题上的进展，特别是在非线性函数逼近下评估固定策略时的收敛性证明。
【15】Hamid Maei, et al. Toward off-policy learning control with function approximation. (ICML 2010)
- 引用位置: 背景知识/相关工作
- 引用内容: 同样是关于梯度时间差分方法的进展，此文被引用来说明其在线性函数逼近下学习控制策略的收敛性。
【17】Andrew Moore and Chris Atkeson. Prioritized sweeping: Reinforcement learning with less data and less real time. (Machine Learning, 1993)
- 引用位置: 方法细节
- 引用内容: 在讨论经验回放的局限性（如均匀采样）时，引用此文提出的“优先扫描”（prioritized sweeping）作为一个潜在的改进方向，即更智能地选择重要的经验进行回放。
【18】Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. (ICML 2010)
- 引用位置: 方法细节
- 引用内容: 引用此文作为在DQN架构中使用整流线性单元（ReLU）的依据之一。
【19】Jordan B. Pollack and Alan D. Blair. Why did td-gammon work. (NIPS 1996)
- 引用位置: 背景知识/相关工作
- 引用内容: 引用此文解释了为什么TD-Gammon的成功曾被视为一个特例，可能与西洋双陆棋的随机性有关。
【20】Martin Riedmiller. Neural fitted q iteration–first experiences with a data efficient neural reinforcement learning method. (ECML 2005)
- 引用位置: 背景知识/相关工作，方法细节
- 引用内容: 作为与本文方法最相似的先前工作（NFQ）进行详细比较。引用内容包括其批处理更新方式以及将历史和动作作为网络输入的架构设计。
【21】Brian Sallans and Geoffrey E. Hinton. Reinforcement learning with factored states and actions. (J. Mach. Learn. Res. 2004)
- 引用位置: 背景知识/相关工作
- 引用内容: 在讨论深度学习与RL结合的近期进展时，引用此文作为使用RBM估计价值函数的一个例子。
【23】Richard Sutton and Andrew Barto. Reinforcement Learning: An Introduction. (MIT Press, 1998)
- 引用位置: 背景知识，方法细节
- 引用内容: 作为强化学习领域的经典教科书，被引用来支持价值迭代算法收敛到最优动作价值函数，以及与标准在线Q-learning进行比较。
【24】Gerald Tesauro. Temporal difference learning and td-gammon. (Communications of the ACM, 1995)
- 引用位置: 背景知识/相关工作
- 引用内容: 引用TD-Gammon作为强化学习的早期里程碑式成功案例。
【25】John N Tsitsiklis and Benjamin Van Roy. An analysis of temporal-difference learning with function approximation. (IEEE Trans. Autom. Control, 1997)
- 引用位置: 背景知识/相关工作，方法细节
- 引用内容: 多次引用。主要用于说明将无模型RL（如Q-learning）与非线性函数逼近器结合时可能出现的发散问题，强调了本文所解决的稳定性挑战的重要性。
【26】Christopher JCH Watkins and Peter Dayan. Q-learning. (Machine learning, 1992)
- 引用位置: 摘要，背景知识
- 引用内容: 作为Q-learning算法的原始出处，是本文所采用方法的核心基础。