摘要:針對傳統(tǒng)Q-learning算法在復(fù)雜環(huán)境下移動機(jī)器人路徑規(guī)劃問題中容易產(chǎn)生維數(shù)災(zāi)難的問題,提出一種改進(jìn)方法。該方法將深度學(xué)習(xí)融于Q-learming框架中,以網(wǎng)絡(luò)輸出代替Q值表,解決維數(shù)災(zāi)難問題。通過構(gòu)建記憶回放矩陣和雙層網(wǎng)絡(luò)結(jié)構(gòu)打斷數(shù)據(jù)相關(guān)性,提高算法收斂性。最后,通過柵格法建立仿真環(huán)境建模,在不同復(fù)雜程度上的地圖上進(jìn)行仿真實(shí)驗(yàn),對比實(shí)驗(yàn)驗(yàn)證了傳統(tǒng)Q-learming難以在大狀態(tài)空間下進(jìn)行路徑規(guī)劃,深度強(qiáng)化學(xué)習(xí)能夠在復(fù)雜狀態(tài)環(huán)境下進(jìn)行良好的路徑規(guī)劃。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
測控技術(shù)雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:綜述、試驗(yàn)與測試、機(jī)器人技術(shù)與應(yīng)用、智能感知與儀器儀表、數(shù)據(jù)采集與處理、計算機(jī)與控制系統(tǒng)、科技動態(tài)等。于1982年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。