關於週刊
強化學習作為人工智慧領域研究熱點之一,其研究進展與成果也引發了眾多關注。為幫助研究與工程人員瞭解該領域的相關進展和資訊,智源社群結合領域內容,撰寫為第29期《強化學習週刊》。本期週刊整理了強化學習領域相關的最新論文推薦和研究綜述等,以饗諸位。
週刊採用社群協作的模式產生,歡迎感興趣的朋友們參與我們的工作,一起來推動強化學習社群的分享、學習和交流活動。可以掃描文末的二維碼加入強化學習社群群。
本期貢獻者:李明、劉青、小胖、陳元
論文推薦
強化學習近年來取得了令人矚目的成就,其應用於各個領域的研究也取得較大的進步,比如分層強化學習在機器人及遊戲領域、基於深度強化學習的金融投資組合、線上強化學習在多人非零和博弈應用、多智慧體系強化學習在可再生能源應用相關的理論及其最新應用等。
本次推薦了13篇強化學習領域的相關論文,主要涉及於基於樣本有效的分層強化學習翫 Minecraft、基於深度強化學習的高維股票組合交易、基於分層強化學習的四足機器人多步態學習、金融強化學習的最新研究進展、基於深度強化注意迴歸的區域性草圖影象檢索、基於多智慧體深度強化學習的可再生能源整合與微電網能源交易、RLCFR:透過深度強化學習最小化反事實後悔、可證明的高效多工強化學習與模型轉移、透過具有差異私有噪聲的知識轉移進行多智慧體強化學習、基於深度強化學習協同推動和抓取緊密堆疊的物件、連續時間馬爾可夫跳躍線性系統的線上強化學習多人非零和博弈等。
標題:JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning(JueWu-MC:基於樣本有效的分層強化學習翫 Minecraft)
簡介:由於部分可觀察性、高維視覺感知和延遲獎勵的複合挑戰,在Minecraft等開放世界遊戲中學習理性行為仍然是強化學習(RL)研究仍然具有挑戰性。為此,本文提出了JueWu MC,一種樣本有效的分層RL方法,配備了表徵學習和模仿學習來處理感知和探索。具體地說,該方法包括兩個層次結構,其中高階控制器學習控制選項的策略,低階控制器學習解決每個子任務。為了促進子任務的學習,本文提出了一種技術組合,包括1):捕捉動作和表徵之間潛在關係的動作感知表徵學習,2):基於鑑別器的自模仿學習,用於有效探索,以及 3) 整合行為克隆與一致性過濾以實現策略穩健性。大量的實驗表明,JueWu MC顯著提高了樣本效率,大大優於一組基線。值得注意的是,該方法贏得了 NeurIPS MineRL 2021 研究競賽的冠軍,並取得了有史以來的最高效能分數。
論文地址:JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning - AMiner
標題:High-Dimensional Stock Portfolio Trading with Deep Reinforcement Learning(基於深度強化學習的高維股票組合交易)
簡介:本文提出了一種基於深度Q學習的金融投資組合交易深度強化學習演算法。該演算法能夠從任何規模的橫截面資料集中交易高維投資組合,其中可能包括資產中的資料缺口和非唯一歷史長度。透過為每個環境取樣一項資產來依次設定環境,同時以所得資產的平均回報獎勵投資,並以資產組的平均平均回報獎勵現金儲備。這會強制代理策略性地將資本分配給其預期業績高於平均水平的資產。本文在樣本外分析中應用了該方法,對48個美國股票投資組合進行了分析,股票數量從10只到500只不等,選擇標準和交易成本水平也各不相同。平均而言,該演算法在所有投資組合中僅使用一個超引數設定,大大優於所有考慮的被動和主動基準投資策略。
論文地址:High-Dimensional Stock Portfolio Trading with Deep Reinforcement Learning - AMiner
標題:Learning multiple gaits of quadruped robot using hierarchical reinforcement learning(基於分層強化學習的四足機器人多步態學習)
簡介:由於其魯棒性和可擴充套件性,人們對使用強化學習學習四足機器人的速度命令跟蹤控制器越來越感興趣。然而,無論命令速度如何,經過端到端訓練的單一策略通常都會顯示單一的步態。考慮到根據四足動物的速度存在最佳步態,這可能是次優解決方案。本文為四足機器人提出了一種分層控制器,它可以在跟蹤速度命令的同時生成多種步態(即步伐、小跑、跳躍)。該控制器由兩個策略組成,每個策略都用作中央模式生成器和本地反饋控制器,並透過分層強化學習進行訓練。實驗結果表明 1) 存在特定速度範圍的最佳步態 ;2) 與由單個策略組成的控制器相比,本文的分層控制器的效率更高,通常顯示單個步態。
論文地址: Learning multiple gaits of quadruped robot using hierarchical reinforcement learning - AMiner
標題:Recent Advances in Reinforcement Learning in Finance(金融強化學習的最新研究進展)
簡介:由於資料量的增加,金融業發生了快速變化,這徹底改變了資料處理和資料分析技術,並帶來了新的理論和計算挑戰。與經典隨機控制理論和其他解決嚴重依賴模型假設的財務決策問題的分析方法相比,強化學習 (RL) 的新發展能夠以較少的模型假設充分利用大量金融資料並改進複雜金融環境中的決策。本文旨在回顧 RL 方法在金融領域的最新發展和使用。其介紹了馬爾可夫決策過程,這是許多常用 RL 方法的設定。然後介紹了各種演算法,重點是不需要任何模型假設的基於價值和策略的方法。透過神經網路建立連線以擴充套件框架以包含深度強化學習演算法。本文的最新研究最後討論了這些 RL 演算法在金融領域的各種決策問題中的應用,包括最優執行、投資組合最佳化、期權定價和對沖、做市商、智慧訂單路由和機器人諮詢。
論文地址:Recent Advances in Reinforcement Learning in Finance - AMiner
標題:Renewable energy integration and microgrid energy trading using multi-agent deep reinforcement learning(基於多智慧體深度強化學習的可再生能源整合與微電網能源交易)
簡介:本文將多智慧體強化學習用於控制混合儲能系統,透過最大化可再生能源的價值和交易,協同工作以降低微電網的能源成本。智慧體必須學會控制三種不同型別的儲能系統,適合在需求波動、能源批發價格動態變化和可再生能源發電不可預測的情況下進行短期、中期和長期儲能。本文考慮了兩個案例研究:一個案例研究了儲能系統如何在動態定價下更好地整合可再生能源發電,第二個案例研究了這些代理如何與聚合代理一起使用,將能源出售給自利的外部微電網,以減少自身的能源賬單。研究表明,多智慧體深度確定性策略梯度的集中學習和分散執行及其最先進的變體使得多智慧體方法的效能明顯優於單個全域性智慧體的控制。並在多智慧體方法中使用單獨的獎勵函式比使用單個控制智慧體的效果要好得多。其能夠與其他微電網進行交易,而不僅僅是向公用電網出售電力,也能大大增加電網的節約。
論文地址:Renewable energy integration and microgrid energy trading using multi-agent deep reinforcement learning - AMiner
標題:Deep Reinforced Attention Regression for Partial Sketch Based Image Retrieval(基於深度強化注意迴歸的區域性草圖影象檢索)
簡介:基於細粒度草圖的影象檢索(FG-SBIR)旨在從給定查詢草圖的大型相簿中查詢特定影象。儘管FG-SBIR在許多關鍵領域(如犯罪活動跟蹤)具有廣泛的適用性,但現有方法仍然存在精度低的問題,同時對外部噪聲(如草圖中不必要的筆劃)敏感。在更實際的動態設定下,檢索效能將進一步惡化,在這種情況下,只有一個只有少量(噪聲)筆劃的部分完整草圖可用於檢索相應的影象。該文提出了一個新的框架,利用一個獨特設計的深度強化學習模型,執行雙層次的探索來處理部分草圖訓練和注意區域選擇。透過加強模型對原始草圖重要區域的關注,它對不必要的筆劃噪聲保持魯棒性,並大幅度提高檢索精度。為了充分探索區域性草圖並定位要參與的重要區域,該模型執行引導策略梯度進行全域性探索,同時調整控制區域性探索定位器網路的標準偏差項。訓練過程由混合損失指導,該混合損失集成了強化損失和監督損失。提出了一種動態排序獎勵方法,以適應使用部分草圖的動態影象檢索過程。
論文地址:Deep Reinforced Attention Regression for Partial Sketch Based Image Retrieval - AMiner
標題:Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation(離線強化學習:價值函式逼近的基本障礙)
簡介:本文考慮離線強化學習問題,其目的是從日誌資料中學習決策策略。離線RL——特別是當與值函式近似結合以允許在大型或連續狀態空間中進行泛化時——在實踐中變得越來越重要,因為它避免了昂貴和耗時的線上資料收集,並且非常適合於安全關鍵領域。離線值函式近似方法的現有樣本複雜度保證通常要求(1)分佈假設(即良好的覆蓋率)和(2)代表性假設(即代表部分或所有Q值函式的能力)強於監督學習所需。然而,儘管進行了幾十年的研究,這些條件的必要性和離線RL的基本限制還沒有得到很好的理解。這導致僅集中性(覆蓋率的最標準概念)和可實現性(最弱的表示條件)不足以實現樣本有效的離線RL。文章透過證明,在一般情況下,即使滿足集中性和可實現性,任何演算法都需要狀態空間大小的樣本複雜度多項式來學習非平凡策略,從而從正面解決了這個猜想。
論文地址:Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation - AMiner
標題: Information is Power: Intrinsic Control via Information Capture (資訊就是力量:透過資訊捕捉實現內在控制)
簡介: 人類和動物即使在沒有明確目標的情況下也會探索他們的環境並獲得有用的技能,表現出內在的動機。對智慧體的內在動機的研究涉及以下問題:什麼是智慧體好的通用目標?本文在動態的部分觀察環境中研究了這個問題,並認為一個緊湊的、通用的學習目標是使智慧體的狀態訪問熵最小化,這個狀態訪問熵是用一個潛在的狀態空間模型估計的。這個目標促使智慧體既要收集關於其環境的資訊,相應地減少不確定性,又要獲得對其環境的控制,相應地減少未來世界狀態的不可預測性。本文將這種方法例項化為一個配備了深度變異貝葉斯濾波器的深度強化學習代理。本文發現智慧體學會了在各種部分觀察的環境中發現、表示和控制動態物體,這些環境是透過視覺觀察感知的,沒有外在的獎勵。
論文地址: Information is Power: Intrinsic Control via Information Capture - AMiner
標題: Provably efficient multi-task reinforcement learning with model transfer (可證明的高效多工強化學習與模型轉移)
簡介: 本文研究了表格偶發馬爾科夫決策過程(MDPs)中的多工強化學習(RL)。文章中提出了一個異質多玩家RL問題,其中一組玩家同時面對相似但不一定相同的MDP,目標是透過玩家間的資訊共享提高他們的集體表現。本文設計並分析了一個基於模型的演算法提供了依賴差距和不依賴差距的遺憾上界和下界,以描述該問題的內在複雜性。
論文地址: Provably Efficient Multi-Task Reinforcement Learning with Model Transfer - AMiner
標題:Multi-agent reinforcement learning via knowledge transfer with differentially private noise(透過具有差異私有噪聲的知識轉移進行多智慧體強化學習)
簡介:在多智慧體強化學習中,遷移學習是透過智慧體之間的知識交換來加速學習效能的關鍵技術之一。但是,將這種技術應用於實際問題存在三個挑戰:大多數現實世界的領域都是部分而非完全可觀察的;未知領域的知識很難預先收集;負遷移阻礙了學習進度。本文針對多智慧體強化學習問題提出了一種新的差分遷移學習方法,具有以下三個關鍵特徵:允許智慧體在部分可觀察的域中實現彼此之間的實時知識轉移;消除了對轉移知識相關性的限制,這在很大程度上擴充套件了知識集;透過將差分指數噪聲和相關權重應用於轉移的知識來提高對負轉移的魯棒性。本文所提出的方法是第一個利用差分隱私的隨機化特性來刺激多智慧體強化學習系統中的學習效能的方法。
論文地址:Multi-agent reinforcement learning via knowledge transfer with differentially private noise. - AMiner
標題:Collaborative Pushing and Grasping of Tightly Stacked Objects via Deep Reinforcement Learning(基於深度強化學習協同推動和抓取緊密堆疊的物件)
簡介:直接抓取緊密堆疊的物體可能會引起碰撞並導致故障,從而降低機械臂的功能。觀察到首先將物體推到相互分離的狀態然後單獨抓取它們可以有效提高成功率,本文設計了一種新穎的深度 Q 學習框架來實現協同推動和抓取。具體而言,提出了一種有效的非最大抑制策略(policyNMS),透過對不合理的動作實施抑制約束來動態評估推和抓取動作。此外,一種名為 PR-Net 的新型資料驅動推送獎勵網路旨在有效評估物件之間的分離或聚合程度。本文在模擬和真實場景中建立了一個包含常見家居用品資料集(CHID)。實驗結果證明本文的方法可以很好地泛化到真實場景中,並且在真實世界環境中以快速地實現了 97% 的抓取成功率以進行物件分離。
論文地址:Collaborative Pushing and Grasping of Tightly Stacked Objects via Deep Reinforcement Learning - AMiner
標題:Online reinforcement learning multiplayer non-zero sum games of continuous-time Markov jump linear systems(連續時間馬爾可夫跳躍線性系統的線上強化學習多人非零和博弈)
簡介:本文中,提出了一種新穎的線上無模型積分強化學習演算法來解決多人非零和遊戲。本文首先收集和學習子系統的狀態和輸入資訊;然後使用線上學習來計算相應的耦合代數 Riccati 方程。本文提出的策略迭代演算法可以求解多人非零和博弈對應的耦合代數Riccati方程。最後,透過三個玩家的模擬例項證明了本文設計方法的有效性和可行性。
論文地址:Online Reinforcement Learning Multiplayer Non-Zero Sum Games Of Continuous-Time Markov Jump Linear Systems - AMiner
標題:RLCFR: Minimize counterfactual regret by deep reinforcement learning(RLCFR:透過深度強化學習最小化反事實後悔)
簡介:反事實後悔最小化 (CFR) 是一種用於處理具有不完全資訊的兩人零和博弈決策問題的主要方法。與以往主要探索解決大規模問題或加速求解效率的研究不同,本文提出了一個框架 RLCFR,旨在提高 CFR 方法的泛化能力。在 RLCFR 中,遊戲策略是透過強化學習 (RL) 框架中基於 CFR 的方法來解決的。迭代互動策略更新的動態過程被建模為馬爾可夫決策過程(MDP)。本文的方法學習策略以在迭代過程中選擇合適的後悔更新方法。此外,還制定了逐步獎勵函式來學習動作策略,這與迭代策略在每一步的執行情況成正比。在各種遊戲上的大量實驗結果表明,與現有的最先進方法相比,本文方法的泛化能力更高。
論文地址:Rlcfr: Minimize Counterfactual Regret By Deep Reinforcement Learning - AMiner
[關於轉載]:本文轉載於智源社群,僅用於學術分享,有任何問題請與我們聯絡:[email protected]