深度強化學習
深度強化學習(粵拼:sam1 dou6 koeng4 faa3 hok6 zaap6;英文:Deep Reinforcement Learning,簡稱「DRL」)係一門結合深度學習同強化學習嘅學科。
最經典嘅 DRL 演算法有 Google DeepMind 演出嘅深度Q學習(Deep Q-Learning亦稱 Deep Q-Networks)。如果個馬可夫決策過程(Markov Decision Process)有多過一隻個體(agent)嘅話,噉就變深度多個體強化學習(Deep Multi-Agent Reinforcement Learning)㗎啦。
深度Q學習
編輯深度Q學習同Q學習嘅原理係一模一樣,之不過將個Q學習表(Q-Learning Table)用一個會估Q值函數(Q-value function)嘅深度神經網絡嚟代替。 噉樣代替法有幾個好處嘅。首先呢,個神經網絡會大大減少可學習嘅參數嘅數量(no. of learnable parameters),同埋可以令到隻個體嘅過去經驗可以更好噉普遍化(generalize)到一啲未見過嘅情況。
深度Q學習亦都有用到經驗回顧(Experience Replay)。
進階版嘅演算法有彩虹深度Q學習(簡寫彩虹DQN,英文:Rainbow DQN),佢有包到雙深度Q學習(Double DQN),優先嘅經驗回顧(Prioritised Experience Replay),互鬥性網絡結構(Dueling Network Architecture),多步回報(Multi-step Returns),分佈強化學習(Distributional RL)同埋雜音網絡(Noisy Nets)。彩虹DQN雖然勁過DQN好多,但係最大壞處就係run得慢同埋好容易甩轆。
其他嘅深度強化學習演算法
編輯基於政策梯度(Policy Gradient)嘅演算法:
- 深度決定性政策梯度(Deep Deterministic Policy Gradient,簡稱DDPG)
- 附近性政策最佳化(Proximal Policy Optimization,簡稱PPO)
深度多個體強化學習
編輯基本嘅演算法有獨立Q學習(Independent Q-Learning,簡稱 IQL)同埋比較新啲嘅數值分解網絡(Value Decomposition Network,簡稱VDN)。
參考文獻
編輯攷
編輯