馬可夫決策過程Markov decision process)係一種離散時間隨機過程