sponsored links

《強化學習週刊》第29期:Atari 深度強化學習和金融強化學習進展

關於週刊

強化學習作為人工智慧領域研究熱點之一,其研究進展與成果也引發了眾多關注。為幫助研究與工程人員瞭解該領域的相關進展和資訊,智源社群結合領域內容,撰寫為第29期《強化學習週刊》。本期週刊整理了強化學習領域相關的最新論文推薦和研究綜述等,以饗諸位。

週刊採用社群協作的模式產生,歡迎感興趣的朋友們參與我們的工作,一起來推動強化學習社群的分享、學習和交流活動。可以掃描文末的二維碼加入強化學習社群群。

本期貢獻者:李明、劉青、小胖、陳元

論文推薦

強化學習近年來取得了令人矚目的成就,其應用於各個領域的研究也取得較大的進步,比如分層強化學習在機器人及遊戲領域、基於深度強化學習的金融投資組合、線上強化學習在多人非零和博弈應用、多智慧體系強化學習在可再生能源應用相關的理論及其最新應用等。

本次推薦了13篇強化學習領域的相關論文,主要涉及於基於樣本有效的分層強化學習翫 Minecraft、基於深度強化學習的高維股票組合交易、基於分層強化學習的四足機器人多步態學習、金融強化學習的最新研究進展、基於深度強化注意迴歸的區域性草圖影象檢索、基於多智慧體深度強化學習的可再生能源整合與微電網能源交易、RLCFR:透過深度強化學習最小化反事實後悔、可證明的高效多工強化學習與模型轉移、透過具有差異私有噪聲的知識轉移進行多智慧體強化學習、基於深度強化學習協同推動和抓取緊密堆疊的物件、連續時間馬爾可夫跳躍線性系統的線上強化學習多人非零和博弈等。

標題:JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning(JueWu-MC:基於樣本有效的分層強化學習翫 Minecraft)

簡介:由於部分可觀察性、高維視覺感知和延遲獎勵的複合挑戰,在Minecraft等開放世界遊戲中學習理性行為仍然是強化學習(RL)研究仍然具有挑戰性。為此,本文提出了JueWu MC,一種樣本有效的分層RL方法,配備了表徵學習和模仿學習來處理感知和探索。具體地說,該方法包括兩個層次結構,其中高階控制器學習控制選項的策略,低階控制器學習解決每個子任務。為了促進子任務的學習,本文提出了一種技術組合,包括1):捕捉動作和表徵之間潛在關係的動作感知表徵學習,2):基於鑑別器的自模仿學習,用於有效探索,以及 3) 整合行為克隆與一致性過濾以實現策略穩健性。大量的實驗表明,JueWu MC顯著提高了樣本效率,大大優於一組基線。值得注意的是,該方法贏得了 NeurIPS MineRL 2021 研究競賽的冠軍,並取得了有史以來的最高效能分數。

論文地址:JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning - AMiner

標題:High-Dimensional Stock Portfolio Trading with Deep Reinforcement Learning(基於深度強化學習的高維股票組合交易)

簡介:本文提出了一種基於深度Q學習的金融投資組合交易深度強化學習演算法。該演算法能夠從任何規模的橫截面資料集中交易高維投資組合,其中可能包括資產中的資料缺口和非唯一歷史長度。透過為每個環境取樣一項資產來依次設定環境,同時以所得資產的平均回報獎勵投資,並以資產組的平均平均回報獎勵現金儲備。這會強制代理策略性地將資本分配給其預期業績高於平均水平的資產。本文在樣本外分析中應用了該方法,對48個美國股票投資組合進行了分析,股票數量從10只到500只不等,選擇標準和交易成本水平也各不相同。平均而言,該演算法在所有投資組合中僅使用一個超引數設定,大大優於所有考慮的被動和主動基準投資策略。

論文地址:High-Dimensional Stock Portfolio Trading with Deep Reinforcement Learning - AMiner

標題:Learning multiple gaits of quadruped robot using hierarchical reinforcement learning(基於分層強化學習的四足機器人多步態學習)

簡介:由於其魯棒性和可擴充套件性,人們對使用強化學習學習四足機器人的速度命令跟蹤控制器越來越感興趣。然而,無論命令速度如何,經過端到端訓練的單一策略通常都會顯示單一的步態。考慮到根據四足動物的速度存在最佳步態,這可能是次優解決方案。本文為四足機器人提出了一種分層控制器,它可以在跟蹤速度命令的同時生成多種步態(即步伐、小跑、跳躍)。該控制器由兩個策略組成,每個策略都用作中央模式生成器和本地反饋控制器,並透過分層強化學習進行訓練。實驗結果表明 1) 存在特定速度範圍的最佳步態 ;2) 與由單個策略組成的控制器相比,本文的分層控制器的效率更高,通常顯示單個步態。

論文地址: Learning multiple gaits of quadruped robot using hierarchical reinforcement learning - AMiner

標題:Recent Advances in Reinforcement Learning in Finance(金融強化學習的最新研究進展)

簡介:由於資料量的增加,金融業發生了快速變化,這徹底改變了資料處理和資料分析技術,並帶來了新的理論和計算挑戰。與經典隨機控制理論和其他解決嚴重依賴模型假設的財務決策問題的分析方法相比,強化學習 (RL) 的新發展能夠以較少的模型假設充分利用大量金融資料並改進複雜金融環境中的決策。本文旨在回顧 RL 方法在金融領域的最新發展和使用。其介紹了馬爾可夫決策過程,這是許多常用 RL 方法的設定。然後介紹了各種演算法,重點是不需要任何模型假設的基於價值和策略的方法。透過神經網路建立連線以擴充套件框架以包含深度強化學習演算法。本文的最新研究最後討論了這些 RL 演算法在金融領域的各種決策問題中的應用,包括最優執行、投資組合最佳化、期權定價和對沖、做市商、智慧訂單路由和機器人諮詢。

論文地址:Recent Advances in Reinforcement Learning in Finance - AMiner

標題:Renewable energy integration and microgrid energy trading using multi-agent deep reinforcement learning(基於多智慧體深度強化學習的可再生能源整合與微電網能源交易)

簡介:本文將多智慧體強化學習用於控制混合儲能系統,透過最大化可再生能源的價值和交易,協同工作以降低微電網的能源成本。智慧體必須學會控制三種不同型別的儲能系統,適合在需求波動、能源批發價格動態變化和可再生能源發電不可預測的情況下進行短期、中期和長期儲能。本文考慮了兩個案例研究:一個案例研究了儲能系統如何在動態定價下更好地整合可再生能源發電,第二個案例研究了這些代理如何與聚合代理一起使用,將能源出售給自利的外部微電網,以減少自身的能源賬單。研究表明,多智慧體深度確定性策略梯度的集中學習和分散執行及其最先進的變體使得多智慧體方法的效能明顯優於單個全域性智慧體的控制。並在多智慧體方法中使用單獨的獎勵函式比使用單個控制智慧體的效果要好得多。其能夠與其他微電網進行交易,而不僅僅是向公用電網出售電力,也能大大增加電網的節約。

論文地址:Renewable energy integration and microgrid energy trading using multi-agent deep reinforcement learning - AMiner

標題:Deep Reinforced Attention Regression for Partial Sketch Based Image Retrieval(基於深度強化注意迴歸的區域性草圖影象檢索)

簡介:基於細粒度草圖的影象檢索(FG-SBIR)旨在從給定查詢草圖的大型相簿中查詢特定影象。儘管FG-SBIR在許多關鍵領域(如犯罪活動跟蹤)具有廣泛的適用性,但現有方法仍然存在精度低的問題,同時對外部噪聲(如草圖中不必要的筆劃)敏感。在更實際的動態設定下,檢索效能將進一步惡化,在這種情況下,只有一個只有少量(噪聲)筆劃的部分完整草圖可用於檢索相應的影象。該文提出了一個新的框架,利用一個獨特設計的深度強化學習模型,執行雙層次的探索來處理部分草圖訓練和注意區域選擇。透過加強模型對原始草圖重要區域的關注,它對不必要的筆劃噪聲保持魯棒性,並大幅度提高檢索精度。為了充分探索區域性草圖並定位要參與的重要區域,該模型執行引導策略梯度進行全域性探索,同時調整控制區域性探索定位器網路的標準偏差項。訓練過程由混合損失指導,該混合損失集成了強化損失和監督損失。提出了一種動態排序獎勵方法,以適應使用部分草圖的動態影象檢索過程。

論文地址:Deep Reinforced Attention Regression for Partial Sketch Based Image Retrieval - AMiner

標題:Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation(離線強化學習:價值函式逼近的基本障礙)

簡介:本文考慮離線強化學習問題,其目的是從日誌資料中學習決策策略。離線RL——特別是當與值函式近似結合以允許在大型或連續狀態空間中進行泛化時——在實踐中變得越來越重要,因為它避免了昂貴和耗時的線上資料收集,並且非常適合於安全關鍵領域。離線值函式近似方法的現有樣本複雜度保證通常要求(1)分佈假設(即良好的覆蓋率)和(2)代表性假設(即代表部分或所有Q值函式的能力)強於監督學習所需。然而,儘管進行了幾十年的研究,這些條件的必要性和離線RL的基本限制還沒有得到很好的理解。這導致僅集中性(覆蓋率的最標準概念)和可實現性(最弱的表示條件)不足以實現樣本有效的離線RL。文章透過證明,在一般情況下,即使滿足集中性和可實現性,任何演算法都需要狀態空間大小的樣本複雜度多項式來學習非平凡策略,從而從正面解決了這個猜想。

論文地址:Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation - AMiner

標題: Information is Power: Intrinsic Control via Information Capture (資訊就是力量:透過資訊捕捉實現內在控制)

簡介: 人類和動物即使在沒有明確目標的情況下也會探索他們的環境並獲得有用的技能,表現出內在的動機。對智慧體的內在動機的研究涉及以下問題:什麼是智慧體好的通用目標?本文在動態的部分觀察環境中研究了這個問題,並認為一個緊湊的、通用的學習目標是使智慧體的狀態訪問熵最小化,這個狀態訪問熵是用一個潛在的狀態空間模型估計的。這個目標促使智慧體既要收集關於其環境的資訊,相應地減少不確定性,又要獲得對其環境的控制,相應地減少未來世界狀態的不可預測性。本文將這種方法例項化為一個配備了深度變異貝葉斯濾波器的深度強化學習代理。本文發現智慧體學會了在各種部分觀察的環境中發現、表示和控制動態物體,這些環境是透過視覺觀察感知的,沒有外在的獎勵。

論文地址: Information is Power: Intrinsic Control via Information Capture - AMiner

標題: Provably efficient multi-task reinforcement learning with model transfer (可證明的高效多工強化學習與模型轉移)

簡介: 本文研究了表格偶發馬爾科夫決策過程(MDPs)中的多工強化學習(RL)。文章中提出了一個異質多玩家RL問題,其中一組玩家同時面對相似但不一定相同的MDP,目標是透過玩家間的資訊共享提高他們的集體表現。本文設計並分析了一個基於模型的演算法提供了依賴差距和不依賴差距的遺憾上界和下界,以描述該問題的內在複雜性。

論文地址: Provably Efficient Multi-Task Reinforcement Learning with Model Transfer - AMiner

標題:Multi-agent reinforcement learning via knowledge transfer with differentially private noise(透過具有差異私有噪聲的知識轉移進行多智慧體強化學習)

簡介:在多智慧體強化學習中,遷移學習是透過智慧體之間的知識交換來加速學習效能的關鍵技術之一。但是,將這種技術應用於實際問題存在三個挑戰:大多數現實世界的領域都是部分而非完全可觀察的;未知領域的知識很難預先收集;負遷移阻礙了學習進度。本文針對多智慧體強化學習問題提出了一種新的差分遷移學習方法,具有以下三個關鍵特徵:允許智慧體在部分可觀察的域中實現彼此之間的實時知識轉移;消除了對轉移知識相關性的限制,這在很大程度上擴充套件了知識集;透過將差分指數噪聲和相關權重應用於轉移的知識來提高對負轉移的魯棒性。本文所提出的方法是第一個利用差分隱私的隨機化特性來刺激多智慧體強化學習系統中的學習效能的方法。

論文地址:Multi-agent reinforcement learning via knowledge transfer with differentially private noise. - AMiner

標題:Collaborative Pushing and Grasping of Tightly Stacked Objects via Deep Reinforcement Learning(基於深度強化學習協同推動和抓取緊密堆疊的物件)

簡介:直接抓取緊密堆疊的物體可能會引起碰撞並導致故障,從而降低機械臂的功能。觀察到首先將物體推到相互分離的狀態然後單獨抓取它們可以有效提高成功率,本文設計了一種新穎的深度 Q 學習框架來實現協同推動和抓取。具體而言,提出了一種有效的非最大抑制策略(policyNMS),透過對不合理的動作實施抑制約束來動態評估推和抓取動作。此外,一種名為 PR-Net 的新型資料驅動推送獎勵網路旨在有效評估物件之間的分離或聚合程度。本文在模擬和真實場景中建立了一個包含常見家居用品資料集(CHID)。實驗結果證明本文的方法可以很好地泛化到真實場景中,並且在真實世界環境中以快速地實現了 97% 的抓取成功率以進行物件分離。

論文地址:Collaborative Pushing and Grasping of Tightly Stacked Objects via Deep Reinforcement Learning - AMiner

標題:Online reinforcement learning multiplayer non-zero sum games of continuous-time Markov jump linear systems(連續時間馬爾可夫跳躍線性系統的線上強化學習多人非零和博弈)

簡介:本文中,提出了一種新穎的線上無模型積分強化學習演算法來解決多人非零和遊戲。本文首先收集和學習子系統的狀態和輸入資訊;然後使用線上學習來計算相應的耦合代數 Riccati 方程。本文提出的策略迭代演算法可以求解多人非零和博弈對應的耦合代數Riccati方程。最後,透過三個玩家的模擬例項證明了本文設計方法的有效性和可行性。

論文地址:Online Reinforcement Learning Multiplayer Non-Zero Sum Games Of Continuous-Time Markov Jump Linear Systems - AMiner

標題:RLCFR: Minimize counterfactual regret by deep reinforcement learning(RLCFR:透過深度強化學習最小化反事實後悔)

簡介:反事實後悔最小化 (CFR) 是一種用於處理具有不完全資訊的兩人零和博弈決策問題的主要方法。與以往主要探索解決大規模問題或加速求解效率的研究不同,本文提出了一個框架 RLCFR,旨在提高 CFR 方法的泛化能力。在 RLCFR 中,遊戲策略是透過強化學習 (RL) 框架中基於 CFR 的方法來解決的。迭代互動策略更新的動態過程被建模為馬爾可夫決策過程(MDP)。本文的方法學習策略以在迭代過程中選擇合適的後悔更新方法。此外,還制定了逐步獎勵函式來學習動作策略,這與迭代策略在每一步的執行情況成正比。在各種遊戲上的大量實驗結果表明,與現有的最先進方法相比,本文方法的泛化能力更高。

論文地址:Rlcfr: Minimize Counterfactual Regret By Deep Reinforcement Learning - AMiner

[關於轉載]:本文轉載於智源社群,僅用於學術分享,有任何問題請與我們聯絡:[email protected]

分類: 體育
時間: 2021-12-21

相關文章

懷念梅繼生校長和梅小滿同學

懷念梅繼生校長和梅小滿同學
最近幾天由於某個蹩腳的電影引發對一段歷史的網路熱議.我本來不喜歡跟風,也不輕易發表觀點.但是"抗美援朝"這個詞,使我回憶起來自己小時候的一段經歷,和2個人物. 1970年,我舉家下 ...

五大聯賽100球殿堂榜單:C羅2度上榜 範尼=唯一非現役傳奇

五大聯賽100球殿堂榜單:C羅2度上榜 範尼=唯一非現役傳奇
根據外媒的統計,羅列出5大聯賽中,代表各自俱樂部打進100粒進球的最快數字.C羅2次上榜,伊布和蘇亞雷斯也榜上有名. C羅代表皇馬105場比賽就打進100球,也是目前為止最快的百球記錄,蘇亞雷斯代表巴 ...

網紅孫書梅的開掛人生,從身無分文到月入千萬,56歲嫁小16歲男友

網紅孫書梅的開掛人生,從身無分文到月入千萬,56歲嫁小16歲男友
10月8日,網紅"貓七七"的媽媽孫書梅和小16歲的男友舉辦了婚禮,55歲的孫書梅和男友相戀18年,兩個人一路上相互扶持,從一無所有到現在月入千萬. 這場遲到了18年的婚禮,盛大豪華 ...

波蘭改裝商在梅賽德斯-AMG GLE 63 S Coupe上施展魔法

波蘭改裝商在梅賽德斯-AMG GLE 63 S Coupe上施展魔法
Auto Dynamics 給他們的這款改裝版GLE 63 S Coupe 起了個名字:Project Inferno.這款改裝車配備了經過全面改裝的 5.5 升雙渦輪增壓 V8發動機.這家波蘭改裝商 ...

十大良心國產動漫!鬥羅、武庚紀、羅小黑均上榜,部部封神

十大良心國產動漫!鬥羅、武庚紀、羅小黑均上榜,部部封神
說到動漫,可能很多人第一印象可能是<龍珠>.<海賊王>等等日本出產的動漫片.其實,隨著中國社會水平的發展,雖然國產電影不咋滴,但是國產動漫片確實讓人為之震驚的. 近些年來,國產 ...

C羅連慶祝動作都要反覆練習,人設打造,他是足壇歷史第一

C羅連慶祝動作都要反覆練習,人設打造,他是足壇歷史第一
C羅連慶祝動作都要反覆練習,人設打造,他是足壇歷史第一 C羅偉大嗎?當然偉大,國家隊射手王,七百加進球,這樣的成績可是歷史頂級. C羅包裝嗎?當然包裝,C羅的包裝可以說是全方位三百六十度無死角.無論是 ...

誰才是決戰巔峰的真球王?2、梅羅與齊達內在巔峰之上的貢獻對比
當代雙驕梅西和C羅都是當紅球星,網際網路流量史無前例,商業價值遠超前輩,那麼誰在通向球王寶座的世界盃之路上走的更遠.更加璀璨呢?上節我們分析了梅羅在世界盃上的貢獻比較,發現梅西略強於C羅.今天我們來看 ...

梅羅爭霸數十年餘暉下,誰是世界第三人?

梅羅爭霸數十年餘暉下,誰是世界第三人?
梅羅的儲君,有毒的王冠.世界第三,不但是超巨的敲門磚,更是一頂格外沉重.充滿詛咒的王冠. "老大老二打架,結果老三死了"--商界屢見不鮮的競爭法則,在足壇同樣適用.2008年至今統 ...

擁兵數十萬的伊朗國王,為何被“手無寸鐵”的霍梅尼趕下了臺?

擁兵數十萬的伊朗國王,為何被“手無寸鐵”的霍梅尼趕下了臺?
一邊是擁兵40萬,得到了美國的堅定支援.一邊是手無寸鐵,支持者基本是普通民眾.兩者狹路相逢,誰可獲勝?大家都會覺得,肯定是前者啊,飛龍騎臉怎麼輸? 可"飛龍"的一方還真就輸了.70 ...

戲曲世家梅寶
參考資料:梅寶 韓家姑娘 ..夜空如墨,星星和月亮已為雲層所掩住,只剩下一串串因電力不足而顯得黯然無光的街燈,勉強照出了街道和房屋的輪廓.時間剛過午夜,但兩三年來,號稱十里洋場的大上海,在日本軍國主義 ...

民間故事 梅妃傳奇
#民間傳說# #民間故事# 梅妃,本姓江,莆田(今福建省莆田縣東南)人.她的父親名叫江仲遜,江家世世代代都以行醫為生.梅妃從小聰明伶俐,九歲時就能背誦<詩經>中的好幾個篇章.她曾對父親說: ...

秋花好評排行榜出爐:月季沒上榜,三角梅跌出前三

秋花好評排行榜出爐:月季沒上榜,三角梅跌出前三
秋天哪些花草好養又能開得燦爛?很多人馬上就想到月季.三角梅.的確,月季和三角梅養護得當,秋天是可以開出一茬美麗秋花的.但除了月季和三角梅,還有一些花草開的更好,養護也更簡單.秋花好評排行榜出爐:月季沒 ...

重新定義豪華轎車——2022年梅賽德斯-邁巴赫S級轎車

重新定義豪華轎車——2022年梅賽德斯-邁巴赫S級轎車
當你想到豪華汽車時,你會想到什麼?是的,首先價格比其他的汽車高得多.然而,有一件事是你無法忽略的,那就是舒適性.豪華車所帶來的寧靜和放鬆是首屈一指的.梅賽德斯-賓士邁巴赫S級車在豪華車方面絕對是完美的 ...

梅賽德斯-賓士SL跑車進化史

梅賽德斯-賓士SL跑車進化史
近70年來,梅賽德斯-賓士SL一直是跑車界的標誌產品,SL系列推出的汽車是一種宣告.這些令人驚歎的汽車幫助梅賽德斯-賓士確定了其作為高檔跑車品牌的地位.這款車的工程和工藝被傾注在挑戰賽車世界的期望和創 ...

東京審判,中國被安排靠後坐,梅汝璈怒懟審判長:這不是英美法庭

東京審判,中國被安排靠後坐,梅汝璈怒懟審判長:這不是英美法庭
1946年3月19日,<中央日報>.<申報>.<大公報>等近十家中國權威媒體,在當天的頭版頭條,全部刊登著同一個醒目的標題: "清算血債!審判官梅汝璈今飛 ...

品種大全丨奼紫嫣紅的三角梅,驚豔你的可不是它的花…附品種介紹

品種大全丨奼紫嫣紅的三角梅,驚豔你的可不是它的花…附品種介紹
人生一大幸:得一方淨土,耕耘樹藝,忘卻喧囂浮躁,話詩和遠方-- 我是三妹兒,點選右上方"關注",和你相遇皆是緣[心] 今天,應花友要求,三角梅來了-- 一.三角梅簡介 三角梅又名光 ...

水平最高的全運女子百米:冠亞軍均破亞洲紀錄 李雪梅10秒79難超越

水平最高的全運女子百米:冠亞軍均破亞洲紀錄 李雪梅10秒79難超越
西安全運田徑比賽明天開幕,女子百米雲集葛曼棋.梁小靜.韋永麗.李賀.李玉婷等名將,葛曼棋pb11秒04,保持著11秒15賽季亞洲第一成績,是本屆全運奪金最大熱門,但史上水平最高的全運女子百米比賽不是今 ...

《鷓鴣天》作者:梅亦風清·詩書畫

《鷓鴣天》作者:梅亦風清·詩書畫
鷓鴣天 作者:梅亦風清 曉來池塘影亂蓬,嘆秋色悵自愁濃,三千粉黛紅顏老,多少相逢是夢中. 天易老,地無窮,驚卻殘萼有花紅,光陰無賴人還遠,一霎秋涼雨落空. 梅亦風清攝影: 梅亦風清書畫作品賞析: 詩書 ...

越劇唱段賞析,悼念越劇宗師王文娟專欄:可歌可敬觀《慧梅》

越劇唱段賞析,悼念越劇宗師王文娟專欄:可歌可敬觀《慧梅》
越劇<慧梅>是根據姚雪垠的<李自成>裡慧梅的故事改編的劇目. 記得以前看<李自成>的連環畫,裡面說高夫人收養了一些孤兒,其中幾個女孩子特別讓人留下印象,有慧英.慧梅 ...

什麼是梅頭肉 梅頭肉怎麼做好吃

什麼是梅頭肉 梅頭肉怎麼做好吃
大家在生活中應該都聽說過非常多的肉類食品吧,那麼你瞭解梅頭肉嗎,究竟什麼是梅頭肉,以及梅頭肉怎麼做好吃?跟著小編我們一起來學習吧. 什麼是梅頭肉 梅頭肉是豬肉,梅頭肉是豬肉去骨後所得的肩胛肉.肉質細膩 ...