Q-學習(Q-learning)係強化學習上常用嘅一種演算法,用 Q-學習嘅人工神經網絡會儲住一個數據庫,個庫包含咗一大柞狀態、行動同埋佢哋嘅配對。某狀態之下做某行動畀到正面結果嘅話,相應嘅狀態行動配對嘅數值(打分)會上升,反之就下降;而個神經網絡撞親類似狀態嗰陣,就可以憑「邊個行動同呢個狀態嘅配對數值最大」做準則嚟決定採取乜嘢行動。