基于斯蒂芬森價(jià)值迭代的改進(jìn)DDPG算法
計(jì)算機(jī)工程與設(shè)計(jì)
頁(yè)數(shù): 8 2024-12-16
摘要: 針對(duì)DDPG算法的值函數(shù)迭代學(xué)習(xí)收斂緩慢以及經(jīng)驗(yàn)利用率低的問(wèn)題,提出一種基于Steffensen價(jià)值迭代和注意力經(jīng)驗(yàn)回放的DDPG算法。將Steffensen迭代法應(yīng)用于價(jià)值迭代過(guò)程,提高其收斂速度;采用基于注意力的經(jīng)驗(yàn)回放機(jī)制,計(jì)算智能體當(dāng)前所處狀態(tài)與經(jīng)驗(yàn)中狀態(tài)的相似性,優(yōu)先采樣相似度高的經(jīng)驗(yàn),使智能體專(zhuān)注學(xué)習(xí)包含當(dāng)前策略頻繁訪問(wèn)的狀態(tài)的經(jīng)驗(yàn)。在PyBullet環(huán)境的6個(gè)連續(xù)... (共8頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)