對全球不可靠的網際網路絡和大容量分散式系統的挑戰,如何以使用者為中心,從可用變得更好用,追求更流暢、更清晰、更快、更省的極致使用者音影片體驗?2021LiveVideoStacCon北京站邀請到華為雲媒體服務資深研發專家—康永紅,為大家分享華為雲媒體服務在追求極致使用者體驗質量道路上的沉澱成果——“視鏡”。
文/康永紅
整理/Live Video Stack
今天分享的主題是華為雲媒體質量管理最新實踐成果,“視鏡”是華為雲研發的與媒體服務相關的質量管理平臺。
分享的內容主要包括三部分:
- 首先從新需求和新挑戰二方面分享下我們對音影片媒體業務質量的發展理解;
- 第二部分針對媒體質量的新需求與挑戰,華為雲的解決之道;
- 第三部分華為雲針對媒體質量做了哪些實踐。
媒體質量新需求與新挑戰
隨著使用者對音影片業務的體驗要求越來越高,音影片體驗整體表現特點是“二高二低”,超高質量、超高流暢、極低時延、低成本。
超高質量:使用者對於沉浸式的觀感要求越來越高,影片位元速率也從4K、8K發展到更高;同時幀率也在向120fps發展。超高流暢:要求低於0.3%的丟包率;極低時延:使用者“天涯若比鄰”的實時互動感要求低於50ms的極低時延;
低成本:當前網際網路流量中,音影片流量佔比約80%,算力消耗佔比約40%,60%的儲存佔比60%。不同運營商的頻寬成本不同,不同區域的計算算力價格也不同,要綜合考慮成本最優。
另外,要支撐極致體驗,還需要一張具備頻寬、時延和可靠性三個核心特徵的媒體網路,具備感知QoS質量的Fullmesh化實時音影片網路。
這裡提到三個關鍵詞:無所不在的音影片聯接、“資源共享”、“雲原生”。
網路時代,人們白天使用雲桌面辦公,進行視訊會議,晚上看直播或和朋友影片聊天等,使用者隨時隨地在消費音影片業務,音影片聯接無處不在,多種業務跑在音影片媒體網路上,從成本和質量上要求資源共享複用,資源複用模式也在不斷演進,從CDN共棧模式,向共網路、共算力、共例項的OneMedia的趨勢發展。而且未來隨著高畫質晰度、高流暢度、強互動感的元宇宙在驅動算力重構,向邊緣計算快速演進,高計算處理能力放置在更靠近使用者和裝置的位置,內容就近計算儲存,邊緣計算可節省高達35%的資源。
以上是新需求,再來看一下音影片媒體業務面臨的質量挑戰。眾所周知,體驗質量對業務至關重要:體驗質量每提升1個點,收益預估可以增加20%,而且成本會下降30%。從直播來看嗎,如果我們能將直播卡頓率降低20%,整個直播播放時長,能增加30%以上。但體驗質量最佳化提升面臨的挑戰也非常大,以直播業務媒體網路結構為例,從推流、拉流、傳輸、到分發,任何一個環節出現不穩定的情況,都會導致終端播放體驗變差。
總體而言,目前音影片業務普遍面臨著以下四大挑戰:
- 使用者體驗最佳化手段少,目前主要是區域性調優或人工調優,效率較低,效果較差;
- 終端硬體種類多,有低端、中端、高階、作業系統也分為Android、Windows等。不同終端、不同作業系統上跑的業務也不同,比如直播、實時音影片互動、視訊會議,每個場景對體驗的要求各不相同,比如直播更關注清晰度,會議通話更關注流暢度。如何適應不同終端的不同業務場景,也是一個挑戰;
- 成本最佳化難:多樣性體驗成本訴求以及資源建設週期成本都需要最佳化;
- 查問題定位難,運維效率低。
以上四個挑戰可以綜合為一個問題:如何實現多業務多客戶多目標質量最優?
如何做到多業務多客戶多目標的綜合質量最優,接來下從體系和能力建設視角分享下我們的最佳化之道。去年也做了關於體驗最佳化這個問題的分享,但當時只分享了兩部分,體驗診斷及體驗提升。但在實際業務中,這兩點根本無法達到預期。
經過摸索總結,我們認為區域性最佳化在業務量比較小的階段作用很明顯,但進入到幾百T的大業務量階段時其作用就不明顯。體驗質量貫穿媒體業務的設計-研發-運維全生命週期,就要求建立端到端的質量管理過程,音影片媒體網路是基於不可靠元件和不可靠網際網路絡,在全球範圍構建大容量分散式系統,在設計階段,考慮跨國跨區域跨運營商的網路的不可靠性,要具備面向不同業務場景定義體驗質量體系標準和網路設計能力,來保障使用者確定的實時音影片互動體驗需求。在研發環節要具備音影片體驗質量的測試服務能力,在運維階段,整個閉環中的每一環節都需要進行從監控到診斷智慧的體驗提升。最後是專業的運維保障能力,對重大的運維事件及場景進行保障。
接來下分別針對各個環節分享華為雲的實踐。
華為雲音影片媒體體驗質量體系
首先分享下華為雲音影片媒體體驗質量體系,華為雲以使用者為中心,從使用者使用不同音影片業務的生命週期體驗歷程去看體驗質量。入房請求階段,使用者關注的是快速看到內容,這一階段的核心關注項是拉流成功率、首幀時長、時延等指標。播放環節使用者關注的是播放是否清晰流暢以及端到端到時延。
音影片媒體網路是基於不可靠元件和不可靠網際網路絡,在全球範圍構建大容量分散式系統,來保障使用者確定的實時音影片互動體驗需求。為解決音影片體驗質量無章可循、不可衡量、無保障的痛點,基於使用者體驗歷程,從保障的維度範圍我們綜合端、網路,從傳輸層、媒體層、信令層定義了一套華為雲音影片全網路體驗規範框架ELA,各個音影片業務都可以參照這個框架來定義體驗質量。
我們認為“質量”的邊界絕不會僅止於此,一切皆為“序章”。
區別於直播體系只關注QoS或QoE環節,我們基於體驗框架ELA以使用者體驗為中心的宗旨設計了一套4層SLA-QoS-QoE-ELA的音影片體驗指標金字塔體系,每層都包含對應體驗框架定義的傳輸、媒體、信令三種類型,從低向上逐層支撐使用者體驗。
每個音影片業務都可以參照這個金字塔體系定義業務指標。 SLA層定義系統的高可用性(節點可用度、例項可用度、API可用度),將“可用”轉為“好用”的過程需要QoS層和QoE層來保障,ELA層是我們向客戶提供音影片服務的體驗承諾,是非常嚴謹的指標,只有達到這個指標,服務才是好用的。從網路端環節和終端環節的每一層開啟都包含網路層、媒體層和管理層,對每一層進行相應的質量評估。以終端媒體層為例,在QoS層,會監控媒體的卡頓率、幀率、位元速率,在QoE層,會監控流暢度、清晰度。在ELA層,會監控卡頓達標情況等業務綜合性指標。
以SparkRTC業務為例,基於ELA體系,SparkRTC釋出了視鏡服務,可以透過9個維度方面的指標實時監控和洞察分析業務質量情況和發展情況,例如通話監控觀測實時通訊指標、體驗監控分析體驗質量、規模監控觀測用量規模、網路監控實時情況、裝置監控判斷記憶體、CPU情況、異常診斷(基於ELA體系及時發現問題在終端或是網路)、質量評測。
視鏡服務依賴於網路和端的監控資料,由使用者行為資料、網路傳輸面及媒體面資料等綜合分析計算而成。
有了體驗質量框架和指標體系,還需要質量管理過程和技術平臺保障,從技術架構上,支援媒體體驗質量工作涉及音影片測試技術、雲網絡設計、全鏈路監控與分析、智慧決策和排程、智慧A/B實驗平臺、音影片專業的運維能力等6方面的核心技術。
下面針對這6個核心能力展開介紹我們做的一些實踐。
華為雲媒體質量最佳化實踐
之前在研發環節沒有對音影片體驗質量進行充分測試,導致版本上線後出現了體驗質量問題,有使用者反映出現黑屏、卡頓,經過覆盤及思考整個研發環節的短板後,我們構建了專業的音影片測試服務,具體包括:
- 現網環境的無參考自動對比測試,替換傳統的手工撥測方式,提高撥測效率;
- 實驗室環境的體驗全參考評測,基於網路模型+全參考,全覆蓋測試現網真實場景的體驗質量,解決路測的短板,因為路測無法覆蓋測試現網所有的網路弱網場景,而有了全參考的環境評測機制,基本能夠模擬現網90%的場景,而且全參考測試出的質量更接近使用者主觀感受。
在測試流程中,我們針對兩個短板設計瞭解決方案。
- 自動化持續檢測影片畫面質量測試:解決了以往在會議場景下只能抽取某一時間點觀察畫質情況的問題,彌補單點抽測質量覆蓋不完整的短板。
- 音影片質量測試整合研發流水線:音影片質量測試整合研發流水線---增加了體驗質量的流水線門禁,透過和上個版本測試結果對比自動驗證體驗質量透過。
產品上線,進入運維週期,首先要具備全鏈路質量監控與分析,對於瞭解網路狀況、體驗最佳化、容量規劃、故障排除等十分重要。全鏈路檢測和分析面臨著四方面挑戰:準確性(監控指標是否完整,定義指標是否合理)、可擴充套件性(對於監控上千個節點的大容量網路時,需要具備實時伸縮性)、速度(達到實時監控)、完備性(監控需要覆蓋端到端,從推流到拉流)。
我們設計了三條最佳化實踐之路:
- 基於雲原生大資料湖構建了億級規模音影片質量監控資料服務價值鏈體系,支撐幾十T業務監控。另外資料湖基於流式計算,能做到毫秒級、秒級、分鐘級的實時監控,解決了可擴充套件性及速度問題;
- 基於“人、站、流”三維度空間實時監控百萬級物件各項指標,將系統分為人、站、流後基本能夠詳細定義指標;
- 基於端(一方端+三方端)和網路資料進行全鏈路的網路實時監控與分析,解決完備性問題。下面2個案例分別是直播業務和SparkRTC二個業務的全鏈路監控和分析,直播全鏈路分析場景下,端的資料是結合客戶的三方端資料和我們的一方端網路資料構建而來,可以監控從主播到觀眾到網路的整個鏈路。
右側的SparkRTC是基於一方端的資料和一方網路資料做的全鏈路網路質量監控,每個節點的QoE、QoS指標都可以進行對比,還可以分析使用者操作,監控網路的質量。
下面我們從監控的三個維度,使用者、站、流分析開啟看一些具體實踐。
首先是使用者體驗監控和分析。
在通話過程中,由於使用者、網路、裝置等限制,使用者可能會遇到卡頓、延時、黑屏等問題,此類問題統稱為體驗異常,解決體驗異常之前先要定義體驗指標,不同業務的體驗指標不同,以SparkRTC為例,對進房慢的使用者(5s內入房失敗)、音訊卡頓使用者(音訊卡頓率≥3%)、影片卡頓使用者(影片卡頓率≥5%),進行實時指標監控,檢測到指標異常會觸發告警、同時實時自動診斷技術能夠檢測卡頓原因在於主播端網路、傳輸網路還是接收端網路,如果原因在於端網路,後續還要對其進行網路排程及解決。
其次從網路質量監控分享一些實踐。
音影片媒體網路是基於不可靠網際網路絡,在網路最佳化實踐中,我們遇到了三個困境:
- 研發測試基本是路測,帶著手機去地鐵站、機場等場所,無法覆蓋真實、全量的網路場景;
- 現網監控缺少基於網路QoS對卡頓等使用者體驗質量的預測;
- 現網會針對弱網、編解碼做最佳化演算法,但目前最佳化演算法較單一,缺少對真實網路各種場景的針對性最佳化。
基於這些困境,我們思考構建網路模型學習系統,學習現網所有傳送端及接收端的QoS資料,之後用於研發的音影片測試服務、線上體驗自動診斷和線上體驗調控最佳化。線上體驗自動診斷是在測試某個網路模型時,這個網路模型會告知此模型中機場或辦公室場景的大致卡頓率或其它質量指標,此時如果現網來了一段類似的網路QoS時序,那麼就會匹配到此網路模型上,我們就可以大概知道可能會出現何種體驗問題。線上體驗調控最佳化是在發現某位使用者端的網路特別差時,我們會為他選擇弱網場景的最佳化引數(流控引數或降碼引數)進行適配。
技術上採用基於網路QoS時序聚類智慧學習業務場景網路模型,先時序特徵聚類,後形狀聚類。這裡面臨的兩個挑戰,1、每天需要學習現網幾十甚至上百T的QoS資料,透過結合特徵聚類和形狀聚類的方式能夠解決此問題。2、每天要學習現網前一天的全量模型,這裡有一個增量策略。
從實際使用情況來看,有以下兩個觀點適用於所有業務:
- 聚類模型數量呈現顯著長尾效應,針對少量場景模型最佳化可覆蓋大部分場景(前100個模型能覆蓋95%+場景);
- QoS模型數量呈現亞線性增長,不會新增過多模型,針對已有場景模型最佳化可覆蓋後續大部分場景。
最後是媒體流內容質量評估的實踐。
媒體流在現網傳輸、分發過程中可能出現損傷,引起畫質變差。一般幀率、位元速率能側面反映影片質量,但不等同於使用者的主觀質量評價。目前如PSNR、SSIM以及比較火的VMF影片質量評估主要是有參考的,我們需要有效的、實時的、無參考的客觀影片質量評估模型以解決四個方面的問題:
- 質量評估,對影片質量做出客觀評估,保證終端使用者的視覺體驗;
- 編碼最佳化,評估、最佳化編碼器質量;
- 質量提升,前處理、後處理、畫質增強對清晰度的影響;
- 成本最佳化,調節最優的清晰度、節省位元速率以及頻寬成本。
構建自動化極致體驗最佳化系統,提升終端使用者體驗。
為此,華為自研構建影片線上媒體質量評估能力HVQA。HVQA是基於深度網路學習模型的無參考影片質量評估,主要解決兩個問題:1、能夠檢測異常內容,比如黑屏、破圖,目前能滿足1080p,30幀的檢測能力。2、能對畫質進行評估,比如清晰度等客觀指標。HVQA已應用在兩個場景中:1、端側影片質量評估。2、服務側影片質量評估:在服務端對轉碼影片流進行影片內容質量評估。
實際測試效果顯示,異常內容檢測方面,在實際業務測試集上對黑屏、破圖的檢測準確率達100%,召回率達60%,對影片畫質,如清晰度的測試情況為SROCC=0.8283,PLCC=0.7886,CPU佔用增加1.9%,記憶體佔用增加1%。
目前華為雲的會議系統已在逐步應用HVQA。
大家平時在體檢時會按照體檢的大致框架一步步進行,框架中包括體檢的指標,也就是系統的組成。我們將體檢思路運用到媒體質量診斷,在診斷網路之前要先理解網路,主要做法是基於時空理解網路,包括理解系統、理解使用者、理解內容,從影響音影片卡頓的因素看,包括系統(站點之間的網路時好時壞,邊緣站點有水位,資源有瓶頸)、使用者(接入網路wifi/4G、本區域和跨區域接入影響)和內容(冷熱流影響,主播端產生內容質量差)等各方面。
基於時空體驗診斷能力,我們構建了一個整個網路時空孿生世界。主要解決了運維面臨的問題如查詢難、定位難、最佳化難,解決之道是基於資料和演算法重新定義媒體網路運維,首先要感知網路中的業務型別,業務內容,使用者內容,感知之後基於“人、站、流”構建數字世界。系統站方面主要感知時延、頻寬、丟包、抖動、負荷等引數;影片流內容方面主要感知質量;使用者人方面主要感知行為、QoE。
數字世界中已有百萬級物件、千萬級關係、億級時序線。
診斷模型的構建策略是分三層來構建整體的能力,最基礎的能力就是構建L0全鏈路網路拓撲基礎能力,其次是基於L0能力構建基於時空質量因素自動診斷全網體驗問題,最上層是業務分析能力層,支撐體驗指標與業務規模的多維分析,如果上層業務體驗指標發生了變化,透過業務模型、診斷能力,全鏈路能夠快速找到影響因素並進行最佳化。
接下來介紹在體驗提升方面的一些實踐,實踐包括業務層的全域排程及傳輸層的全鏈路加速。現網存在的很多問題是無法使用單一方法解決,這裡有四個問題:多SLA保障問題,成本高昂問題、資源訴求劇增、業務場景融合,這些問題往往都是多業務,多目標的綜合性問題,需要一個數據驅動的雲原生媒體網路決策系統來解決,決策系統需要具備的核心能力是智慧畫像(能夠進行QoS預測、頻寬預測、使用者數預測、算力消耗預測),流量排程、算力排程、商業助手(因為所有業務都跑在一張網路上,涉及到資源複用,需要知道下一位使用者第二天的複用情況。需要從回源率、成本、複用比三個維度進行預測)。
解密多業務多目標全域決策的實施流程,首先從四個維度感知各個音影片業務,包括健康特徵、容量特徵、成本特徵,質量特徵。接著建立特徵畫像庫,包括使用者畫像庫、站點畫像庫、網路畫像庫。綜合以上畫像結合排程演算法(接入排程演算法、回源排程演算法、Full Mesh排程演算法、轉碼算力排程演算法)支撐使用者體驗的提升及降成本。
透過多目標、多業務的排程技術實踐,在回源率降低20%的情況下,首幀時延還能最佳化8%,轉碼算力成本降低50%。
下面分享傳輸層全鏈路加速服務。
傳統Internet透過OSPF、BGP等標準路由協議Underlay傳輸,它不感知時延、丟包等QoS故障,導致無法滿足上層業務應用QoS質量訴求。Internet長距離傳輸無法滿足普通TCP類業務QoS要求,因為跨國端的時延基本大於300ms,丟包率超過20%。
我們針對以上問題自研了全鏈路網路加速服務,在Internet Underlay網路上疊加Overlay網路,實時感知每條鏈路的QoS(時延、丟包率),選擇最佳Overlay路徑流量轉發,從而提供相應的QoS承諾。
基於全鏈路傳輸加速服務,應用於國內RTC加速場景,從測量資料上看,ADN選擇的路徑時延要小於級聯架構組網下RTC的時延,在極端情況下對比更明顯。部分路徑優勢非常明顯,如鄭州到濟南,從50ms提升至10ms以內。應用於海外加速效果,時延加速在Internet傳輸的幾百毫秒的基礎上平均提升20%,全球時延在200ms以內,消除了90%的丟包場景。
最後分享我們在重大事件運維保障的一些實踐,如保障國家級重大會議或直播賽事,保障挑戰很大,包括時間緊,任務重,保障方案複雜,保障壓力大,還要做到零事故、零中斷、零卡頓,零破圖。透過上百個專案的沉澱,我們將保障實踐總結為一個高可用平臺加6個保障DNA,高可用平臺是基於雲原生基礎設施提出一個高可用架構,同時建造穩定的音影片網路系統及豐富的故障管理能力。DNA主要覆蓋需求交付、整體協調、全球覆蓋、系統高可靠、立體演練。系統高可靠包括雙平面保底方案,確保極限場景下可用;媒體資源VIP保障,資源隔離,專屬使用;關鍵風險識別、應急預案制定並演練。立體演練包括全流程演練,問題日清日結;同聲傳譯、主會場螢幕顯示、掌聲等關鍵場景多場次演練並最佳化方案;數字化遠端運維平臺,演練及時監控,效果和問題分析。
總結與展望
最後,總結下今天分享的內容:
1、音影片發展的兩個需求(網路感知,FullMesh化;算力重構、多業務融合、資源複用)和四大挑戰(使用者體驗最佳化手段少、多場景客戶端QoS保障難、降資源成本難、查問題定位難);
2、音影片體驗質量解決之道:
- 業務策略,建立面向不同媒體業務場景的體驗質量體系;
- 端到端的質量管理過程,體驗質量貫穿媒體業務的設計、研發、運維全生命週期;
- 核心技術實踐,音影片質量測試服務、全鏈路質量監控分析、智慧決策與全域排程、全鏈路智慧加速等。
展望未來,當元宇宙時代出現時,怎麼定義音影片體驗質量規範。基於端、邊、雲時空資料協同,如何做到多業務、多目標、多客戶的綜合決策和千人千面的使用者體驗。這兩點都以上是本次的分享,謝謝!
關注@華為雲,瞭解更多資訊