基于優(yōu)質(zhì)樣本篩選的離線強(qiáng)化學(xué)習(xí)算法
模式識(shí)別與人工智能
頁(yè)數(shù): 11 2024-11-15
摘要: 針對(duì)離線強(qiáng)化學(xué)習(xí)算法過(guò)度依賴數(shù)據(jù)集樣本質(zhì)量的問(wèn)題,提出基于優(yōu)質(zhì)樣本篩選的離線強(qiáng)化學(xué)習(xí)算法.首先,在策略評(píng)估階段,賦予優(yōu)勢(shì)值的樣本更高的更新權(quán)重,并添加策略熵項(xiàng),快速識(shí)別高質(zhì)量且在數(shù)據(jù)分布內(nèi)概率較高的動(dòng)作樣本,從而篩選更有價(jià)值的動(dòng)作樣本.在策略優(yōu)化階段,最大化歸一化優(yōu)勢(shì)函數(shù)的同時(shí),保持對(duì)數(shù)據(jù)集上動(dòng)作的策略約束,使算法在數(shù)據(jù)集樣本質(zhì)量較低時(shí)也可高效利用優(yōu)質(zhì)樣本,提升策略的學(xué)習(xí)效率和... (共11頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)