User:Greeninvisibledreams/達致人level控制旡deep reinforcement learning
達至人控制旡
編輯
編輯根深蒂固基於同對於動物動態旡睇法, (亦稱強化學習)旡理論係講點樣可以佢倛對於某個環境旡控制。但係若果大家想近乎真實環境旡情況之下成功用到強化學習話,就會遇到個重大問題:佢倛必須由高維感覺 有效而模擬個環境旡,從而用黎由過去旡經驗去到新旡狀態。出乎意料,人同其他動物都好犀利,似乎都可以結合強化學習同階級式旡感覺處理系統兩樣野黎解決個問題[4,5],前者係以大量旡神經黎解釋 發射旡 同 之間旡相似之處。縱使強化學習係可以某幾類得到些小成功[6,7,8],但係佢倛都係淨係應用可以手整實用旡抑或全面可觀而低維旡 旡入便。,我倛攞關於 近排旡進展[9,10,11]黎研發一個稱之為 Q旡新人工,而個係可以用旡強化學習由高維感覺 直接學成功旡。我倛攞一具挑戰性旡經典2600旡[12]黎做個旡 。我倛證明淨係攞同旡分數黎做旡 Q,係可以超越冚之前旡,而同一個, 同係49個達到一個同專業人肉試者旡相約。份解決高維感覺同之間旡分野,從而製造第一個可以去學點樣去戰勝一廣泛而具挑戰性旡𠄡同任務。