深度強化學習粵拼sam1 dou6 koeng4 faa3 hok6 zaap6英文Deep Reinforcement Learning,簡稱「DRL」)係一門結合深度學習強化學習嘅學科。

最經典嘅 DRL 演算法有 Google DeepMind 演出嘅深度Q學習(Deep Q-Learning亦稱 Deep Q-Networks)。如果個馬可夫決策過程(Markov Decision Process)有多過一隻個體(agent)嘅話,噉就變深度多個體強化學習(Deep Multi-Agent Reinforcement Learning)㗎啦。

深度Q學習

編輯

深度Q學習同Q學習嘅原理係一模一樣,之不過將個Q學習表(Q-Learning Table)用一個會估Q值函數(Q-value function)嘅深度神經網絡嚟代替。 噉樣代替法有幾個好處嘅。首先呢,個神經網絡會大大減少可學習嘅參數嘅數量(no. of learnable parameters),同埋可以令到隻個體嘅過去經驗可以更好噉普遍化(generalize)到一啲未見過嘅情況。

深度Q學習亦都有用到經驗回顧(Experience Replay)。

進階版嘅演算法有彩虹深度Q學習(簡寫彩虹DQN,英文:Rainbow DQN),佢有包到雙深度Q學習(Double DQN),優先嘅經驗回顧(Prioritised Experience Replay),互鬥性網絡結構(Dueling Network Architecture),多步回報(Multi-step Returns),分佈強化學習(Distributional RL)同埋雜音網絡(Noisy Nets)。彩虹DQN雖然勁過DQN好多,但係最大壞處就係run得慢同埋好容易甩轆。

其他嘅深度強化學習演算法

編輯

基於政策梯度(Policy Gradient)嘅演算法:

  • 深度決定性政策梯度(Deep Deterministic Policy Gradient,簡稱DDPG)
  • 附近性政策最佳化(Proximal Policy Optimization,簡稱PPO)

深度多個體強化學習

編輯

基本嘅演算法有獨立Q學習(Independent Q-Learning,簡稱 IQL)同埋比較新啲嘅數值分解網絡(Value Decomposition Network,簡稱VDN)。

參考文獻

編輯