sponsored links

《強化學習週刊》第31期:康奈爾大學推出資料庫調優工具DB-BERT

關於週刊

強化學習作為人工智慧領域研究熱點之一,其研究進展與成果也引發了眾多關注。為幫助研究與工程人員瞭解該領域的相關進展和資訊,智源社群結合領域內容,撰寫為第31期《強化學習週刊》。本期週刊整理了強化學習領域相關的最新論文推薦及新工具,以饗諸位。

週刊採用社群協作的模式產生,歡迎感興趣的朋友們參與我們的工作,一起來推動強化學習社群的分享、學習和交流活動。可以掃描文末的二維碼加入強化學習社群群。

本期貢獻者:李明、劉青、小胖、陳元

論文推薦

強化學習近年來取得了令人矚目的成就,其應用於各個領域的研究也取得較大的進步,比如深度強化學習在道路預測性維護、深度強化學習在組合最佳化問題、對抗性強化學習在自動駕駛領域、多智慧體城市城市中深度強化學習在自動駕駛應用魯棒性、安全深度強化學習、離線強化學習、深度強化學習應用於交通訊號控制和5/6G相關的理論及其最新應用等。

本次推薦了13篇強化學習領域的相關論文,主要涉及於道路資產預測性維護規劃的深度強化學習模型:整合 LCA 和 LCCA、求解無人機旅行商問題的深度強化學習方法、基於可信自動駕駛策略的對抗性深度強化學習、在多智慧體城市駕駛環境中評估自主和對抗策略的深度強化學習的魯棒性、基於水上航行的安全深度強化學習基準研究、基於約束強化學習的安全證書和安全控制策略聯合綜合、利用動作影響規律和部分已知模型進行離線強化學習、基於搜尋和注意力的魯棒排程學習、近端策略最佳化中提前停止最佳化的實證研究、學習獎勵機器:部分可觀察強化學習的研究、透過深度強化學習自適應最佳化交通訊號時間、使用深度強化學習擴充套件 5G/6G 核心網中的 UPF 例項及基於深度強化學習的動態避障中速度資訊缺失的影響等。

標題:A deep reinforcement learning model for predictive maintenance planning of road assets: Integrating LCA and LCCA(道路資產預測性維護規劃的深度強化學習模型:整合 LCA 和 LCCA)

簡介:道路維護規劃是道路資產管理的組成部分。維護和修復(M&R)實踐中的主要挑戰之一是確定維護型別和時間。本研究基於長期路面效能(LTPP)資料庫提出了使用強化學習的框架,以確定M&R實踐的型別和時間。在所提出的演算法中首先開發了預測DNN模型,該模型用作RL演算法的環境。針對RL模型的策略估計,開發了DQN模型和PPO模型。由於更好的收斂性和更高的樣本效率,最終選擇了PPO。本研究中使用的指標是國際粗糙度指數(IRI)和車轍深度(RD)。並在成本效益計算(獎勵)中,本文考慮了M&R處理的經濟和環境影響。成本和環境影響已經用paLATE 2.0軟體進行了評估。研究表明,本文擬議的計劃有一個合乎邏輯的結果。決策者和運輸機構可以利用這一方案進行更好的維護實踐,防止預算浪費,同時最大限度地減少環境影響。

論文連結:「連結」

標題:A Deep Reinforcement Learning Approach for Solving the Traveling Salesman Problem with Drone(求解無人機旅行商問題的深度強化學習方法)

簡介:強化學習最近在許多組合最佳化問題的學習質量解決方案中顯示出前景。特別是,基於注意力的編碼器-解碼器模型在各種路由問題上表現出很高的效率,包括旅行商問題。然而它們在帶有無人機的TSP(TSP-D)中表現不佳,需要協調路由一個異構車隊——一輛卡車和一架無人機。在TSP-D中,兩輛車一前一後移動,可能需要在一個節點等待另一輛車加入。基於無狀態注意力的解碼器無法在車輛之間進行這種協調。故本文提出了一個注意力編碼器-LSTM解碼器混合模型,其中解碼器的隱藏狀態可以表示所做的動作序列。從經驗上證明,這種混合模型在解決方案質量和計算效率方面都優於純粹基於注意力的模型。並在min-max Capacitated Vehicle Routing Problem (mmCVRP)最小-最大容量約束車輛路徑問題上的實驗也證實了混合模型比基於注意力的模型更適合多車輛的協調路徑。

論文連結:「連結」

標題:Adversarial Deep Reinforcement Learning for Trustworthy Autonomous Driving Policies(基於可信自動駕駛策略的對抗性深度強化學習)

簡介:深度強化學習被廣泛用於在模擬環境中訓練自動駕駛汽車。儘管如此,無人駕駛汽車在遭遇敵對攻擊時還是很容易受到攻擊。由此引發的問題為是否可以訓練對手作為驅動智慧體,在自動駕駛汽車中發現故障場景,然後用新的對抗性輸入重新訓練自動駕駛汽車,以提高它們的魯棒性。本文首先在兩個自定義獎勵函式上訓練和比較對抗性汽車策略,以測試多智慧體環境下自動駕駛汽車的駕駛控制決策。其次,透過驗證對抗性示例不僅可以用於發現不想要的自動駕駛行為,還可以幫助自動駕駛汽車改進其深度強化學習策略。透過使用高保真城市駕駛模擬環境和基於視覺的駕駛代理,本文證明了使用對手播放器重新訓練的自動駕駛汽車在減少碰撞和越野轉向錯誤方面顯著提高了其駕駛策略的效能。

論文連結:「連結」

標題:Evaluating the Robustness of Deep Reinforcement Learning for Autonomous and Adversarial Policies in a Multi-agent Urban Driving Environment(在多智慧體城市駕駛環境中評估自主和對抗策略的深度強化學習的魯棒性)

簡介:深度強化學習被積極用於在基於視覺的城市模擬環境中訓練自動駕駛智慧體。由於各種強化學習演算法的可用性很高,仍然不確定在單智慧體和多智慧體駕駛環境中訓練自動駕駛汽車時,演算法優劣性。基於視覺的自動駕駛中深度強化學習的比較將為訓練更好的自動駕駛汽車策略開闢可能性。本文對6種深度強化學習演算法進行了系統的評估和比較分析,分別用於四向交叉場景下的自主駕駛和對抗駕駛。即首先使用最新的深度強化學習演算法來訓練自動駕駛汽車。其次,測試了訓練好的自主策略在單智慧體和多智慧體場景下的驅動能力。最後,使用相同的深度強化學習演算法來訓練對抗性駕駛代理,以測試自動駕駛汽車的駕駛效能,並尋找可能的碰撞和越野駕駛場景,和使用純視覺高保真城市駕駛模擬環境進行實驗。

論文連結:「連結」

標題:Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation(基於水上航行的安全深度強化學習基準研究)

簡介:本文提出了一個新的基於水上航行的安全強化學習基準環境。由於非靜態環境和機器人平臺的不確定性,水上航行是一項極具挑戰性的任務,因此透過分析訓練網路的行為來避免危險情況(例如碰撞)來考慮問題的安全方面至關重要。為此,本文考慮了基於價值和策略梯度的深度強化學習(DRL),提出了基於交叉的策略,該策略結合了基於梯度和無梯度的DRL來提高樣本效率。並且提出了基於區間分析的驗證策略,該策略檢查經過訓練的模型在一組所需屬性上的行為。研究結果表明,基於交叉的訓練優於先前的DRL方法,而本文的驗證允許量化違反由屬性描述的行為的配置的數量。至關重要的是,這將成為該應用領域未來研究的基準。

論文連結: 「連結」

標題:The Impact of Missing Velocity Information in Dynamic Obstacle Avoidance based on Deep Reinforcement Learning(基於深度強化學習的動態避障中速度資訊缺失的影響)

簡介:本文透過定義具有可變複雜度的交通型別獨立環境,提出了一種基於深度強化學習的動態避障方法。填補了現有文獻的空白,透過深入研究了速度資訊缺失對智慧體在避障任務中效能的影響。這在實踐中是一個關鍵問題,因為幾個感測器只產生物體或車輛的位置資訊。本文評估了部分可觀測場景中常用的方法,即在深層神經網路中加入遞迴和簡單的幀疊加。對於本文的分析,其依賴於最先進的無模型深度RL演算法。速度資訊的缺乏會顯著影響代理的效能。這兩種方法—重現和幀疊加—都不能始終如一地替代觀測空間中缺失的速度資訊。但是,在簡化的場景中,它們可以顯著提高效能並穩定整個訓練過程。

論文連結:「連結」

標題:Joint Synthesis of Safety Certificate and Safe Control Policy using Constrained Reinforcement Learning(基於約束強化學習的安全證書和安全控制策略聯合綜合)

簡介:安全性是使用強化學習(RL)控制複雜動力系統的主要考慮因素,其中安全證書可以提供可證明的安全保證。有效的安全證書是一種能量函式,表明安全狀態為低能,並且存在相應的安全控制策略,允許能量函式始終消散。安全證書和安全控制政策密切相關,兩者都很難綜合。因此,現有的基於學習的研究將其中一個視為學習另一個的先驗知識,這限制了它們在一般未知動態下的適用性。本文提出了一種新的方法,該方法同時綜合基於能量函式的安全證書,並利用CRL學習安全控制策略。本文不依賴現有基於模型的控制器或完美安全證書的先驗知識。特別是,本文建立了一個損失函式,透過最小化能量增加的發生來最佳化安全證書引數。透過將此最佳化過程作為外環新增到基於拉格朗日的約束強化學習(CRL)中,本文聯合更新策略和安全證書引數,並證明它們將收斂到各自的區域性最優解、最優安全策略和有效安全證書。

論文連結:「連結」

標題:Exploiting Action Impact Regularity and Partially Known Models for Offline Reinforcement Learning(利用動作影響規律和部分已知模型進行離線強化學習)

簡介:離線強化學習從一批資料中學習策略是很困難的:如果不做出強有力的假設,很容易構造反例,導致現有演算法失敗。在這項工作中,本文考慮了一些現實世界的問題,其中離線強化學習應該是有效的:那些行動只對國家的一部分有有限的影響。本文形式化並引入這個動作影響規律性(AIR)屬性。文章進一步提出了一種演算法,該演算法假設並利用了AIR特性,並在MDP滿足AIR時,對輸出策略的次優性進行了約束。最後,文章在兩個模擬環境中證明了演算法在不同的資料收集策略下優於現有的離線強化學習演算法。

論文連結:「連結」

標題:Learning Robust Scheduling with Search and Attention(基於搜尋和注意力的魯棒排程學習)

簡介:基於通道質量、緩衝區大小、需求和約束為使用者分配物理層資源是無線資源管理中的核心最佳化問題之一。解空間隨著每個維度的基數組合增長,使得在嚴格的時間要求下,很難使用窮舉搜尋甚至經典最佳化演算法找到最優解。這個問題在MU-MIMO排程中更為明顯,由於排程器可以將多個使用者分配給相同的時頻物理資源。因此,傳統的方法求助於設計啟發式演算法,以最優性換取執行的可行性。本文將MU-MIMO排程問題視為一個樹結構的組合問題,並借鑑AlphaGo Zero最近的成功經驗,研究使用蒙特卡羅樹搜尋和強化學習相結合的方法搜尋最佳效能解決方案的可行性。為了迎合當前問題的本質,比如使用者缺乏內在的排序以及使用者組合之間依賴關係的重要性,透過引入自我注意機制對神經網路結構進行了根本性的修改。在存在測量不確定性和有限緩衝區的情況下,所得到的方法不僅可行,而且大大優於最新的基於啟發式的排程方法。

論文連結:「連結」

標題:An Empirical Investigation of Early Stopping Optimizations in Proximal Policy Optimization(近端策略最佳化中提前停止最佳化的實證研究)

簡介:程式碼級最佳化是演算法實現中使用的低階最佳化技術,一般不會出現在已釋出的強化學習(RL)虛擬碼演算法中。最近研究表明,這些最佳化對演算法的效能至關重要,如近端策略最佳化(PPO)。本文研究了在openai/spinningup庫中,為PPO實施的一種稱為“提前停止”的最佳化效果。如果目標策略和當前策略之間的平均Kullback-Leibler(KL)差異太大,這種最佳化技術(KLE Stop)可以在一個時期內停止策略更新。具體來說,本文進行實驗以檢驗 KLE-Stop 及其保守變體 KLE-Rollback 在與其他常見程式碼級最佳化結合使用時的經驗重要性。本文主要發現:1)PPO的效能對每個回合的更新迭代次數K很敏感,2)提前停止最佳化(KLE停止和KLE回滾)透過動態調整一個回合內的實際更新迭代次數來降低這種敏感性,3)提前停止最佳化可以作為調整K的一種方便的替代方法。

論文連結:「連結」

標題:Learning Reward Machines: A Study in Partially Observable Reinforcement Learning(學習獎勵機器:部分可觀察強化學習的研究)

簡介:強化學習(RL)是人工智慧的核心問題,包括定義可以透過與環境互動來學習最佳行為的人工智慧體—其中最佳行為是根據智慧體尋求最大化的獎勵訊號來定義的。獎勵機器 (RM) 提供獎勵函式的結構化,使 RL智慧體能夠將 RL 問題分解為結構化子問題,這些子問題可以透過離線策略學習有效地學習。本文表明 RM 可以從經驗中學習,而不是由使用者指定,並且由此產生的問題分解可用於有效解決部分可觀察的 RL 問題。本文將學習 RM 的任務視為離散最佳化問題,其目標是找到將問題分解為一組子問題的 RM,使得它們的最佳無記憶策略的組合是原始問題的最佳策略。本文在三個部分可觀察的領域展示了這種方法的有效性,在這些領域它明顯優於 A3C、PPO 和 ACER,並討論了它的優勢、侷限性和更廣泛的潛力。

論文連結:「連結」

標題:Adaptive Optimization of Traffic Signal Timing via Deep Reinforcement Learning(透過深度強化學習自適應最佳化交通訊號時間)

簡介:傳統的紅綠燈控制是透過最佳化迴圈長度,計算出一系列相應的時序引數的方法。然而,固定交通燈的順序和持續時間對於動態交通流量調節是低效的。為了解決上述問題,本研究提出了一種基於深度強化學習(DRL)的交通燈配時最佳化方案。在該方案中,紅綠燈可以根據路口各個方向的交通流狀態輸出合適的相位,動態調整相位長度。具體來說,本文首先採用近端策略最佳化(PPO)來提高模型的收斂速度。然後,本文詳細闡述狀態、動作的設計以及獎勵,車輛狀態由離散交通狀態編碼(DTSE)方法定義。最後,本文透過交通模擬平臺SUMO對真實交通資料進行了實驗。結果表明,與傳統的時序控制相比,所提出的方案能夠有效減少車輛在各種交通流模式下的等待時間和佇列長度。

論文連結:「連結」

標題:Scaling UPF Instances in 5G/6G Core With Deep Reinforcement Learning(使用深度強化學習擴充套件 5G/6G 核心網中的 UPF 例項)

簡介:在 5G 核心和即將推出的 6G 核心中,使用者平面功能 (UPF) 負責在協議資料單元(PDU)會話中向用戶傳輸資料。UPF 通常在軟體中實現並打包到虛擬機器或容器中,這些虛擬機器或容器可以作為 UPF 例項啟動,在叢集中具有特定的資源需求。為了節省 UPF 例項所需的資源消耗,啟動 UPF 例項的數量應取決於客戶所需的 PDU 會話數量,這通常由縮放演算法控制。本文研究了深度強化學習 (DRL) 在擴充套件 Kubernetes 容器編排框架容器中的 UPF 例項方面的應用。本文提出了一種制定基於閾值的獎勵函式的方法,並採用了近端策略最佳化 (PPO) 演算法。此外,本文應用支援向量機 (SVM) 分類器來處理智慧體因隨機策略而建議不需要的動作時的問題。

論文連結:「連結」

新工具

標題:康奈爾大學 | DB-BERT:“閱讀手冊”的資料庫調優工具

簡介:DB-BERT是一個數據庫調優工具,它利用透過手冊和其他相關文字文件的自然語言分析獲得的資訊。它使用文字來標識要調整的資料庫系統引數以及推薦的引數值。DB-BERT應用大型的、預先訓練好的語言模型(特別是BERT模型)進行文字分析。在初始訓練階段,它微調模型權重,以便將自然語言提示轉換為推薦設定。在執行時,DB-BERT學會聚合、調整和區分提示的優先順序,以實現特定資料庫系統和基準的最佳效能。這兩個階段都是迭代的,使用強化學習來指導選擇要評估的調優設定(懲罰資料庫系統拒絕的設定,同時獎勵提高效能的設定)。本實驗利用數百個關於資料庫調優的文字文件作為DB-BERT的輸入。考慮到不同的基準(TPC-C和TPC-H)、度量(吞吐量和執行時間)以及資料庫系統(Postgres和MySQL),並將DB-BERT與各種基準進行比較。在所有情況下,DB-BERT都會在所有比較的方法中找到最佳的引數設定。

論文連結:「連結」

【關於轉載】本文轉載於公眾號“智源社群”,僅用於學術分享,有任何問題請與我們聯絡:[email protected]

分類: 數碼
時間: 2021-12-30

相關文章

山東2021年度一級造價工程師職業資格考試考務工作有關問題的通知
各市人事考試機構: 根據<住房城鄉建設部 交通運輸部 水利部 人力資源社會保障部關於印發〈造價工程師職業資格制度規定〉〈造價工程師職業資格考試實施辦法〉的通知>(建人[2018]67號)和 ...

2021年度C-NCAP熱門車豐田卡羅拉完成AEB測試

2021年度C-NCAP熱門車豐田卡羅拉完成AEB測試
[太平洋汽車網 行業頻道]2021年9月14日至9月18日,2021年度C-NCAP熱門車豐田卡羅拉,在中國汽車技術研究中心有限公司的試驗場內,按照<C-NCAP管理規則(2018年版)> ...

169項!教育部公示2021年度高校思政課教師研究專項評審結果

169項!教育部公示2021年度高校思政課教師研究專項評審結果
日前,教育部公示了2021年度高校思想政治理論課教師研究專項評審結果,公示期為2021年9月17日-9月23日.一起來看名單-- 公示期間,如有異議,請以書面方式向教育部社會科學司反映,並提供必要的證 ...

中部戰區組織2021年度面向社會公開招考文職人員網路面試

中部戰區組織2021年度面向社會公開招考文職人員網路面試
9月14日至16日,中部戰區組織2021年度面向社會公開招考文職人員面試工作,首次採用網路視訊會議的方式進行. 此次網路面試依託騰訊會議進行,每個考場安排有1名考場管理員隨機抽取1套考題,由主考官進行 ...

做好2021年度高階審計師和正高階審計師任職資格評審工作的通知
黑龍江省審計廳 黑審文[2021]6號 關於做好2021年度高階審計師和正高階審計師 任職資格評審工作的通知 各行署.市.縣審計局,省直各單位: 按照黑龍江省人力資源和社會保障廳<關於做好202 ...

廣東省2021年度二級建造師分數有史最低,你合格了嗎
廣東省2021年度二級建造師執業資格考試,各科目合格標準均為試卷滿分的50%: <建設工程施工管理>科目合格標準為60分:<建設工程法規及相關知識>科目合格標準為50分:< ...

海南省崖州灣種子實驗室釋出2021年度“揭榜掛帥”專案指南
海南省崖州灣種子實驗室(以下簡稱實驗室)近日釋出2021年度"揭榜掛帥"專案指南,重點圍繞種子產業鏈"卡脖子"技術和企業依靠自身力量難以解決的關鍵核心技術開展聯 ...

江西省萍西楊氏宗親聯誼會2021年度優秀學子獎勵表彰大會召開

江西省萍西楊氏宗親聯誼會2021年度優秀學子獎勵表彰大會召開
十年樹木,百年樹人,百年大計,教育為本.8月21日上午,萍西楊氏在安源區青山鎮下柳源村隆重舉辦2021年度優秀學子獎勵表彰大會,族宗親尊長.楊氏理事會成員.愛心企業代表.學子所在轄區村委會書記.各片區 ...

鐵騎力士入選2021年度全國農業農村資訊化示範基地

鐵騎力士入選2021年度全國農業農村資訊化示範基地
2021年9月19日,從農業農村部市場與資訊化司獲悉鐵騎力士成功入選2021年度全國農業農村資訊化示範基地,成為全國15個經營型示範單位之一,也是四川省唯一入選的經營型示範單位! 據悉,<202 ...

美媒評選2021年度最新NBA50大球星排名 第31到40位

美媒評選2021年度最新NBA50大球星排名 第31到40位
美媒評選出了2021年度最新的NBA50大球星排名,從球員的個人榮譽,到球隊的團隊榮譽,從球員的個人資料到團隊的成功,從特定球員所處的時期.傷病歷史等諸多方面考慮,最後評選出的球員名單如下,第31-4 ...

2021年度J.D. Power汽車魅力指數榜,道奇竟然排在榜首

2021年度J.D. Power汽車魅力指數榜,道奇竟然排在榜首
近日,J.D. Power公佈了2021年度汽車魅力指數,在汽車效能.設計等方面進行調研,從而釋出的排行榜. 排行榜中,我們能夠看出,道奇品牌蟬聯了指數榜的榜首,而大眾集團旗下的保時捷同樣也是並列榜首 ...

2021年度“全國十佳農民”揭曉
來源:中國日報網 中國日報9月23日電(記者 趙伊夢)9月23日,2021年度"全國十佳農民"在浙江省嘉興市"中國農民豐收節"活動主會場揭曉.王佔傑.王穎.尤良 ...

國家統計局公示2021年度接收應屆高校畢業生情況

國家統計局公示2021年度接收應屆高校畢業生情況
來源:中工網 中工網訊 據國家統計局官網訊息,根據人力資源和社會保障部要求,現將國家統計局在京直屬企事業單位2021年度接收的26名高校畢業生的相關資訊予以公示.公示時間為2021年9月23日至202 ...

2021年度中國企業500強出爐,車企中上汽位居第一(完整名單)

2021年度中國企業500強出爐,車企中上汽位居第一(完整名單)
2021年9月25日,中國企業聯合會.中國企業家協會發布了"2021年度中國企業500強"名單. 2021中國企業500強營業收入合計89.83萬億元,比上年500強增長4.43% ...

2021年度7000元左右最值得購買的微單有哪些?各有什麼優缺點?

2021年度7000元左右最值得購買的微單有哪些?各有什麼優缺點?
其實,選擇7000元上下微單的小夥伴,絕大多數都是業餘愛好,希望獲得更好的照片畫質.更強悍的影片拍攝能力以及更好的對焦和追焦能力,更重要的是獲得更好的高感效能--在比較暗的環境下拍出比較清晰純淨的靜態 ...

科技創新2030-“腦科學與類腦研究”重大專案2021年度專案申報中
關於組織申報科技創新2030-"腦科學與類腦研究"重大專案2021年度專案的通知 根據<科技部關於釋出科技創新2030-"腦科學與類腦研究"重大專案202 ...

黑龍江唯一!這個醫院獲批2021年度中醫全科規培重點專業基地
來源:黑龍江日報 近日,中國醫師協會公佈2021年度中醫全科規培重點專業基地名單,黑龍江中醫藥大學附屬第一醫院成功入選,成為黑龍江省內唯一獲批該基地的單位. 為鞏固完善中醫全科住院醫師規範化培訓制度, ...

《脫口秀大會4》年度7強誕生,誰會是2021年度脫口秀大王?

《脫口秀大會4》年度7強誕生,誰會是2021年度脫口秀大王?
<脫口秀大會4>年度7強已經誕生,他們是周奇墨.楊笠.呼蘭.龐博.肉食動物.徐志勝.何廣智. 那麼問題來了,誰會是2021年度脫口秀大王呢? 魚樂泉與諸君分析一下. 楊笠的脫口秀,一貫以吐 ...

青海省科技廳舉辦2021年度青海省初級技術經紀人培訓班
近日,由青海省科技廳主辦,省生產力促進中心.國家技術轉移人才培養基地(青海)承辦,省技術市場協會協辦的2021年度青海省初級技術經紀人培訓班在西寧舉辦.全省各市州和各園區科技管理部門人員,各高校.科研 ...

科技前沿知識講座全程高能 2021年度《亦莊學院》又上新啦
以科學的眼光認知世界.北京經濟技術開發區(簡稱北京經開區,也稱北京亦莊)科技前沿新知系列講座品牌活動<亦莊學院>,將於9月23日(本週四),再次開啟連續上新.全程高能模式.中國資訊經濟學會 ...