本發(fā)明屬于強化學(xué)習、多智能體領(lǐng)域,具體涉及一種基于集成學(xué)習的多智能體信用分配方法、系統、設備,旨在解決解決現有技術(shù)只關(guān)注局部狀態(tài)空間, 對全局狀態(tài)信息的利用不充分, 從而導致智能體無(wú)法在博弈環(huán)境中取得最優(yōu)動(dòng)作,造成多智能體協(xié)調能力差的問(wèn)題。本方法包括:分別獲取博弈雙方每一個(gè)智能體的動(dòng)作信息和歷史觀(guān)測信息,作為輸入信息;將輸入信息分別輸入各智能體對應的智能體網(wǎng)絡(luò ),得到Q值;各智能體根據Q值,得到e?greedy策略,進(jìn)而在設定的博弈場(chǎng)景中進(jìn)行探索。本發(fā)明通過(guò)平衡多樣性和準確性來(lái)充分利用全局狀態(tài)信息, 實(shí)現有效的集成信用分配,進(jìn)而實(shí)現了智能體在博弈環(huán)境中取得最優(yōu)動(dòng)作進(jìn)行探索,提升多智能體協(xié)調能力。


