電力負荷屬於具有時間序列特性的資料,依據資料固有的規律性和波動性特徵,修補由於各種因素而缺失的負荷資料,可為電力系統研究和實驗結果的有效性和可預測性奠定基礎。內蒙古電力經濟研究院的研究人員蔡文斌、程曉磊 等,在2021年第12期《電氣技術》上撰文,首先提出基於密度的含噪聲應用空間聚類(DBSCAN)二次聚類的方法;其次,提出針對配電網負荷資料的負荷屬性相似度。
研究人員在此基礎上進一步提出負荷記錄綜合相似度;然後,依據DBSCAN二次聚類方法的負荷類別結果和所得負荷記錄綜合相似度,匹配相似度最大的資料類別,並依據該類別的記錄資訊對所缺失資料進行修補;最後,採用算例分析證明所提方法的有效性和正確性。
用電資訊採集系統、自動化技術等在配電網的應用,為智慧配電網運用大資料技術解決各種問題提供了路徑。但是在電力資料的採集、傳輸及儲存過程中常常會出現資料缺失、資料異常等質量問題,這些異常資料的存在使配電網的執行、排程、分析實驗等工作受到潛在的影響。因此,如何對這些資料進行修復成為當前研究的一個重要熱點問題。
事實上,針對缺失資料的處理技術廣泛存在於各行各業之中,缺失資料處理工作隨著各個領域特徵的不同,以及資料應用目的的不同可採用多種方法。實際處理時,往往根據缺失資料的特徵屬性、資料處理需要達到的目的、資料缺失的具體原因等選擇最佳的處理方法以求達到最好的效果。
配電網負荷資料往往存在時空特徵明顯、資料的規律性較強、資料在電力系統規劃、排程、執行等各個環節的應用面較廣等特徵,所以需要對缺失的資料進行較為精準的填充和修補。
針對配電網負荷資料具有時間規律的特點,對缺失資料的填充修補主要分為三種類型:
①採用構造對映的方法,根據資料規律的相似性,構造已有資料對缺失資料的對映進行修補;
②採用多重填補的方法,透過構造或者模擬影響其變動規律的相關因素的運動軌跡,推斷出缺失資料的可能範圍,再進一步透過統計、綜合分析等方法從中優選最匹配結果;
③採用機器學習的方法,在海量資料集中進行資料集的聚類分析,透過去噪、壓縮感知等方法匹配與缺失資料所屬資料集最為接近的特徵,從而完成對缺失資料的填補。
在配電網負荷資料有較多積累的現狀下,採用聚類分析,並按照特徵匹配的方法填補缺失資料已成為針對具有時間特性規律資料的一種廣泛而有效的方法。針對電力負荷資料,主要採用的聚類方法包括最近鄰加權聚類、K均值聚類、熵權聚類等多種分析方法,這些方法的基本思想均為先將資料物件聚類,劃分成多個簇,根據簇內相似物件對缺失資料進行修補。
其中,基於密度的含噪聲應用空間聚類(density-based spatial clustering of applications with noise, DBSCAN)方法對資料集的分佈不敏感,抗噪性好,且對於資料集的識別能力較強,針對空間分佈較為廣泛的配電網負荷資料聚類具有較好的適應性,但該方法在處理大量龐雜資料時的計算速度還有待進一步提高。
基於上述背景,內蒙古電力經濟研究院的研究人員依據配電網負荷資料的時序特性,提出一種改進的DBSCAN二次聚類方法對配電網負荷缺失資料進行修補。
首先依據負荷資料長週期特徵的關鍵指標,提取每一個數據記錄的關鍵資訊,針對縮減的資料集進行初步聚類,然後在初步聚類的基礎上針對完整資料再次進行DBSCAN空間密度二次聚類,以利於縮短由於龐大資料集而延長的聚類時間。其次透過負荷資料的數值屬性相似度和記錄值相似度比較,以相似度最大為原則、以同類資料屬性相同為原則修復缺失的負荷資料。最後將模擬結果與實測資料進行對比,驗證所提方法對配電網負荷資料修復的有效性和準確性。
研究人員最後得出如下結論:
1)在針對配電網負荷資料進行缺失資料修補時,DBSCAN二次聚類演算法可以較好地依據負荷特性對負荷資料進行修補,且修補效果較好。
2)改進的DBSCAN二次聚類演算法,透過首先按照長時間週期特徵對資料進行初步聚類形成子集,再在每一個子集內按照短時間週期二次聚類的方法,有效提高了聚類演算法的計算速度。
3)算例分析結果表明,DBSCAN二次聚類演算法進行資料修補有更高的準確度,且針對連續性資料缺失也能取得較好的修補效果。
後續研究還需要重點結合兩方面問題進行考慮:一是兩次DBSCAN聚類中,引數Eps和MinPts大小的適度配合,尤其是面向更大量資料的時候,兩者的相互配合直接關係到計算速度的提升幅度;二是負荷記錄綜合相似度包含多種負荷屬性特徵,針對不同型別的資料修補問題,各權重大小如何取值才能取得更好的資料修補效果。
本文編自2021年第12期《電氣技術》,論文標題為“基於DBSCAN二次聚類的配電網負荷缺失資料修補”,作者為蔡文斌、程曉磊 等。