關於週刊
強化學習作為人工智慧領域研究熱點之一,其研究進展與成果也引發了眾多關注。為幫助研究與工程人員瞭解該領域的相關進展和資訊,智源社群結合領域內容,撰寫為第31期《強化學習週刊》。本期週刊整理了強化學習領域相關的最新論文推薦及新工具,以饗諸位。
週刊採用社群協作的模式產生,歡迎感興趣的朋友們參與我們的工作,一起來推動強化學習社群的分享、學習和交流活動。可以掃描文末的二維碼加入強化學習社群群。
本期貢獻者:李明、劉青、小胖、陳元
論文推薦
強化學習近年來取得了令人矚目的成就,其應用於各個領域的研究也取得較大的進步,比如深度強化學習在道路預測性維護、深度強化學習在組合最佳化問題、對抗性強化學習在自動駕駛領域、多智慧體城市城市中深度強化學習在自動駕駛應用魯棒性、安全深度強化學習、離線強化學習、深度強化學習應用於交通訊號控制和5/6G相關的理論及其最新應用等。
本次推薦了13篇強化學習領域的相關論文,主要涉及於道路資產預測性維護規劃的深度強化學習模型:整合 LCA 和 LCCA、求解無人機旅行商問題的深度強化學習方法、基於可信自動駕駛策略的對抗性深度強化學習、在多智慧體城市駕駛環境中評估自主和對抗策略的深度強化學習的魯棒性、基於水上航行的安全深度強化學習基準研究、基於約束強化學習的安全證書和安全控制策略聯合綜合、利用動作影響規律和部分已知模型進行離線強化學習、基於搜尋和注意力的魯棒排程學習、近端策略最佳化中提前停止最佳化的實證研究、學習獎勵機器:部分可觀察強化學習的研究、透過深度強化學習自適應最佳化交通訊號時間、使用深度強化學習擴充套件 5G/6G 核心網中的 UPF 例項及基於深度強化學習的動態避障中速度資訊缺失的影響等。
標題:A deep reinforcement learning model for predictive maintenance planning of road assets: Integrating LCA and LCCA(道路資產預測性維護規劃的深度強化學習模型:整合 LCA 和 LCCA)
簡介:道路維護規劃是道路資產管理的組成部分。維護和修復(M&R)實踐中的主要挑戰之一是確定維護型別和時間。本研究基於長期路面效能(LTPP)資料庫提出了使用強化學習的框架,以確定M&R實踐的型別和時間。在所提出的演算法中首先開發了預測DNN模型,該模型用作RL演算法的環境。針對RL模型的策略估計,開發了DQN模型和PPO模型。由於更好的收斂性和更高的樣本效率,最終選擇了PPO。本研究中使用的指標是國際粗糙度指數(IRI)和車轍深度(RD)。並在成本效益計算(獎勵)中,本文考慮了M&R處理的經濟和環境影響。成本和環境影響已經用paLATE 2.0軟體進行了評估。研究表明,本文擬議的計劃有一個合乎邏輯的結果。決策者和運輸機構可以利用這一方案進行更好的維護實踐,防止預算浪費,同時最大限度地減少環境影響。
論文連結:「連結」
標題:A Deep Reinforcement Learning Approach for Solving the Traveling Salesman Problem with Drone(求解無人機旅行商問題的深度強化學習方法)
簡介:強化學習最近在許多組合最佳化問題的學習質量解決方案中顯示出前景。特別是,基於注意力的編碼器-解碼器模型在各種路由問題上表現出很高的效率,包括旅行商問題。然而它們在帶有無人機的TSP(TSP-D)中表現不佳,需要協調路由一個異構車隊——一輛卡車和一架無人機。在TSP-D中,兩輛車一前一後移動,可能需要在一個節點等待另一輛車加入。基於無狀態注意力的解碼器無法在車輛之間進行這種協調。故本文提出了一個注意力編碼器-LSTM解碼器混合模型,其中解碼器的隱藏狀態可以表示所做的動作序列。從經驗上證明,這種混合模型在解決方案質量和計算效率方面都優於純粹基於注意力的模型。並在min-max Capacitated Vehicle Routing Problem (mmCVRP)最小-最大容量約束車輛路徑問題上的實驗也證實了混合模型比基於注意力的模型更適合多車輛的協調路徑。
論文連結:「連結」
標題:Adversarial Deep Reinforcement Learning for Trustworthy Autonomous Driving Policies(基於可信自動駕駛策略的對抗性深度強化學習)
簡介:深度強化學習被廣泛用於在模擬環境中訓練自動駕駛汽車。儘管如此,無人駕駛汽車在遭遇敵對攻擊時還是很容易受到攻擊。由此引發的問題為是否可以訓練對手作為驅動智慧體,在自動駕駛汽車中發現故障場景,然後用新的對抗性輸入重新訓練自動駕駛汽車,以提高它們的魯棒性。本文首先在兩個自定義獎勵函式上訓練和比較對抗性汽車策略,以測試多智慧體環境下自動駕駛汽車的駕駛控制決策。其次,透過驗證對抗性示例不僅可以用於發現不想要的自動駕駛行為,還可以幫助自動駕駛汽車改進其深度強化學習策略。透過使用高保真城市駕駛模擬環境和基於視覺的駕駛代理,本文證明了使用對手播放器重新訓練的自動駕駛汽車在減少碰撞和越野轉向錯誤方面顯著提高了其駕駛策略的效能。
論文連結:「連結」
標題:Evaluating the Robustness of Deep Reinforcement Learning for Autonomous and Adversarial Policies in a Multi-agent Urban Driving Environment(在多智慧體城市駕駛環境中評估自主和對抗策略的深度強化學習的魯棒性)
簡介:深度強化學習被積極用於在基於視覺的城市模擬環境中訓練自動駕駛智慧體。由於各種強化學習演算法的可用性很高,仍然不確定在單智慧體和多智慧體駕駛環境中訓練自動駕駛汽車時,演算法優劣性。基於視覺的自動駕駛中深度強化學習的比較將為訓練更好的自動駕駛汽車策略開闢可能性。本文對6種深度強化學習演算法進行了系統的評估和比較分析,分別用於四向交叉場景下的自主駕駛和對抗駕駛。即首先使用最新的深度強化學習演算法來訓練自動駕駛汽車。其次,測試了訓練好的自主策略在單智慧體和多智慧體場景下的驅動能力。最後,使用相同的深度強化學習演算法來訓練對抗性駕駛代理,以測試自動駕駛汽車的駕駛效能,並尋找可能的碰撞和越野駕駛場景,和使用純視覺高保真城市駕駛模擬環境進行實驗。
論文連結:「連結」
標題:Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation(基於水上航行的安全深度強化學習基準研究)
簡介:本文提出了一個新的基於水上航行的安全強化學習基準環境。由於非靜態環境和機器人平臺的不確定性,水上航行是一項極具挑戰性的任務,因此透過分析訓練網路的行為來避免危險情況(例如碰撞)來考慮問題的安全方面至關重要。為此,本文考慮了基於價值和策略梯度的深度強化學習(DRL),提出了基於交叉的策略,該策略結合了基於梯度和無梯度的DRL來提高樣本效率。並且提出了基於區間分析的驗證策略,該策略檢查經過訓練的模型在一組所需屬性上的行為。研究結果表明,基於交叉的訓練優於先前的DRL方法,而本文的驗證允許量化違反由屬性描述的行為的配置的數量。至關重要的是,這將成為該應用領域未來研究的基準。
論文連結: 「連結」
標題:The Impact of Missing Velocity Information in Dynamic Obstacle Avoidance based on Deep Reinforcement Learning(基於深度強化學習的動態避障中速度資訊缺失的影響)
簡介:本文透過定義具有可變複雜度的交通型別獨立環境,提出了一種基於深度強化學習的動態避障方法。填補了現有文獻的空白,透過深入研究了速度資訊缺失對智慧體在避障任務中效能的影響。這在實踐中是一個關鍵問題,因為幾個感測器只產生物體或車輛的位置資訊。本文評估了部分可觀測場景中常用的方法,即在深層神經網路中加入遞迴和簡單的幀疊加。對於本文的分析,其依賴於最先進的無模型深度RL演算法。速度資訊的缺乏會顯著影響代理的效能。這兩種方法—重現和幀疊加—都不能始終如一地替代觀測空間中缺失的速度資訊。但是,在簡化的場景中,它們可以顯著提高效能並穩定整個訓練過程。
論文連結:「連結」
標題:Joint Synthesis of Safety Certificate and Safe Control Policy using Constrained Reinforcement Learning(基於約束強化學習的安全證書和安全控制策略聯合綜合)
簡介:安全性是使用強化學習(RL)控制複雜動力系統的主要考慮因素,其中安全證書可以提供可證明的安全保證。有效的安全證書是一種能量函式,表明安全狀態為低能,並且存在相應的安全控制策略,允許能量函式始終消散。安全證書和安全控制政策密切相關,兩者都很難綜合。因此,現有的基於學習的研究將其中一個視為學習另一個的先驗知識,這限制了它們在一般未知動態下的適用性。本文提出了一種新的方法,該方法同時綜合基於能量函式的安全證書,並利用CRL學習安全控制策略。本文不依賴現有基於模型的控制器或完美安全證書的先驗知識。特別是,本文建立了一個損失函式,透過最小化能量增加的發生來最佳化安全證書引數。透過將此最佳化過程作為外環新增到基於拉格朗日的約束強化學習(CRL)中,本文聯合更新策略和安全證書引數,並證明它們將收斂到各自的區域性最優解、最優安全策略和有效安全證書。
論文連結:「連結」
標題:Exploiting Action Impact Regularity and Partially Known Models for Offline Reinforcement Learning(利用動作影響規律和部分已知模型進行離線強化學習)
簡介:離線強化學習從一批資料中學習策略是很困難的:如果不做出強有力的假設,很容易構造反例,導致現有演算法失敗。在這項工作中,本文考慮了一些現實世界的問題,其中離線強化學習應該是有效的:那些行動只對國家的一部分有有限的影響。本文形式化並引入這個動作影響規律性(AIR)屬性。文章進一步提出了一種演算法,該演算法假設並利用了AIR特性,並在MDP滿足AIR時,對輸出策略的次優性進行了約束。最後,文章在兩個模擬環境中證明了演算法在不同的資料收集策略下優於現有的離線強化學習演算法。
論文連結:「連結」
標題:Learning Robust Scheduling with Search and Attention(基於搜尋和注意力的魯棒排程學習)
簡介:基於通道質量、緩衝區大小、需求和約束為使用者分配物理層資源是無線資源管理中的核心最佳化問題之一。解空間隨著每個維度的基數組合增長,使得在嚴格的時間要求下,很難使用窮舉搜尋甚至經典最佳化演算法找到最優解。這個問題在MU-MIMO排程中更為明顯,由於排程器可以將多個使用者分配給相同的時頻物理資源。因此,傳統的方法求助於設計啟發式演算法,以最優性換取執行的可行性。本文將MU-MIMO排程問題視為一個樹結構的組合問題,並借鑑AlphaGo Zero最近的成功經驗,研究使用蒙特卡羅樹搜尋和強化學習相結合的方法搜尋最佳效能解決方案的可行性。為了迎合當前問題的本質,比如使用者缺乏內在的排序以及使用者組合之間依賴關係的重要性,透過引入自我注意機制對神經網路結構進行了根本性的修改。在存在測量不確定性和有限緩衝區的情況下,所得到的方法不僅可行,而且大大優於最新的基於啟發式的排程方法。
論文連結:「連結」
標題:An Empirical Investigation of Early Stopping Optimizations in Proximal Policy Optimization(近端策略最佳化中提前停止最佳化的實證研究)
簡介:程式碼級最佳化是演算法實現中使用的低階最佳化技術,一般不會出現在已釋出的強化學習(RL)虛擬碼演算法中。最近研究表明,這些最佳化對演算法的效能至關重要,如近端策略最佳化(PPO)。本文研究了在openai/spinningup庫中,為PPO實施的一種稱為“提前停止”的最佳化效果。如果目標策略和當前策略之間的平均Kullback-Leibler(KL)差異太大,這種最佳化技術(KLE Stop)可以在一個時期內停止策略更新。具體來說,本文進行實驗以檢驗 KLE-Stop 及其保守變體 KLE-Rollback 在與其他常見程式碼級最佳化結合使用時的經驗重要性。本文主要發現:1)PPO的效能對每個回合的更新迭代次數K很敏感,2)提前停止最佳化(KLE停止和KLE回滾)透過動態調整一個回合內的實際更新迭代次數來降低這種敏感性,3)提前停止最佳化可以作為調整K的一種方便的替代方法。
論文連結:「連結」
標題:Learning Reward Machines: A Study in Partially Observable Reinforcement Learning(學習獎勵機器:部分可觀察強化學習的研究)
簡介:強化學習(RL)是人工智慧的核心問題,包括定義可以透過與環境互動來學習最佳行為的人工智慧體—其中最佳行為是根據智慧體尋求最大化的獎勵訊號來定義的。獎勵機器 (RM) 提供獎勵函式的結構化,使 RL智慧體能夠將 RL 問題分解為結構化子問題,這些子問題可以透過離線策略學習有效地學習。本文表明 RM 可以從經驗中學習,而不是由使用者指定,並且由此產生的問題分解可用於有效解決部分可觀察的 RL 問題。本文將學習 RM 的任務視為離散最佳化問題,其目標是找到將問題分解為一組子問題的 RM,使得它們的最佳無記憶策略的組合是原始問題的最佳策略。本文在三個部分可觀察的領域展示了這種方法的有效性,在這些領域它明顯優於 A3C、PPO 和 ACER,並討論了它的優勢、侷限性和更廣泛的潛力。
論文連結:「連結」
標題:Adaptive Optimization of Traffic Signal Timing via Deep Reinforcement Learning(透過深度強化學習自適應最佳化交通訊號時間)
簡介:傳統的紅綠燈控制是透過最佳化迴圈長度,計算出一系列相應的時序引數的方法。然而,固定交通燈的順序和持續時間對於動態交通流量調節是低效的。為了解決上述問題,本研究提出了一種基於深度強化學習(DRL)的交通燈配時最佳化方案。在該方案中,紅綠燈可以根據路口各個方向的交通流狀態輸出合適的相位,動態調整相位長度。具體來說,本文首先採用近端策略最佳化(PPO)來提高模型的收斂速度。然後,本文詳細闡述狀態、動作的設計以及獎勵,車輛狀態由離散交通狀態編碼(DTSE)方法定義。最後,本文透過交通模擬平臺SUMO對真實交通資料進行了實驗。結果表明,與傳統的時序控制相比,所提出的方案能夠有效減少車輛在各種交通流模式下的等待時間和佇列長度。
論文連結:「連結」
標題:Scaling UPF Instances in 5G/6G Core With Deep Reinforcement Learning(使用深度強化學習擴充套件 5G/6G 核心網中的 UPF 例項)
簡介:在 5G 核心和即將推出的 6G 核心中,使用者平面功能 (UPF) 負責在協議資料單元(PDU)會話中向用戶傳輸資料。UPF 通常在軟體中實現並打包到虛擬機器或容器中,這些虛擬機器或容器可以作為 UPF 例項啟動,在叢集中具有特定的資源需求。為了節省 UPF 例項所需的資源消耗,啟動 UPF 例項的數量應取決於客戶所需的 PDU 會話數量,這通常由縮放演算法控制。本文研究了深度強化學習 (DRL) 在擴充套件 Kubernetes 容器編排框架容器中的 UPF 例項方面的應用。本文提出了一種制定基於閾值的獎勵函式的方法,並採用了近端策略最佳化 (PPO) 演算法。此外,本文應用支援向量機 (SVM) 分類器來處理智慧體因隨機策略而建議不需要的動作時的問題。
論文連結:「連結」
新工具
標題:康奈爾大學 | DB-BERT:“閱讀手冊”的資料庫調優工具
簡介:DB-BERT是一個數據庫調優工具,它利用透過手冊和其他相關文字文件的自然語言分析獲得的資訊。它使用文字來標識要調整的資料庫系統引數以及推薦的引數值。DB-BERT應用大型的、預先訓練好的語言模型(特別是BERT模型)進行文字分析。在初始訓練階段,它微調模型權重,以便將自然語言提示轉換為推薦設定。在執行時,DB-BERT學會聚合、調整和區分提示的優先順序,以實現特定資料庫系統和基準的最佳效能。這兩個階段都是迭代的,使用強化學習來指導選擇要評估的調優設定(懲罰資料庫系統拒絕的設定,同時獎勵提高效能的設定)。本實驗利用數百個關於資料庫調優的文字文件作為DB-BERT的輸入。考慮到不同的基準(TPC-C和TPC-H)、度量(吞吐量和執行時間)以及資料庫系統(Postgres和MySQL),並將DB-BERT與各種基準進行比較。在所有情況下,DB-BERT都會在所有比較的方法中找到最佳的引數設定。
論文連結:「連結」
【關於轉載】本文轉載於公眾號“智源社群”,僅用於學術分享,有任何問題請與我們聯絡:[email protected]