網路爬蟲技術本為網際網路行業的常用技術之一,被廣泛應用到各個領域。人們對於資料的採集和分析能力,獲得了大幅的提升。但客觀現實是,技術的應用,特別是市場化、大規模的應用,往往具有明確的目的性。在很長一段時間內,惡意爬蟲未經授權肆意抓取、突破robots協議爬取、同行業間資料爬取,成為常規操作。
作為資訊時代的重要資源,隨著數字經濟的發展,資料也逐漸成為企業的一項重要資產,能夠產生無窮的商業價值。11月14日,國家網際網路資訊辦公室對《網路資料安全管理條例(徵求意見稿)》公開徵求意見,資料合規再套“緊箍咒“。當網路平臺或者個人透過技術手段抓取別的平臺數據時,這種行為是否合法,平臺數據主體是誰,歸誰使用,資料如何流轉才能提升市場運作效率、對消費者福利帶來積極影響,值得深入研討。
資料的邏輯
爬蟲技術作為一項常見的抓取技術,在業內廣泛使用,技術的發展也形成了技術的標準和技術的規則。Robots協議的英文全稱為RobotsExclusionProtocol,指網站所有者透過一個置於網站根目錄下的文字檔案,即robots.txt,告知搜尋引擎的網路機器人(或稱網路爬蟲、網路蜘蛛)哪些網頁不應被抓取,哪些網頁可以抓取,其本質上是受訪網站與搜尋引擎之間的一種互動方式。
Robots協議解決前置性問題,即抓取行為是否得當。一方面,robots協議要求搜尋引擎的網路機器人遵守受訪網站的robots協議,另一方面也要求受訪網站設定的robots協議本身應當是合理的,不應違背“促進資訊共享”的初衷。網路服務商或網站所有者既可以在robots協議中列明准許或禁止網路機器人抓取的網站內容,也可以列明准許或不准許抓取其網站內容的網路機器人。但網路機器人識別該robots協議後,無論是否遵守,robots協議都不會起到強制禁止訪問的結果。
2012年11月1日,在中國網際網路協會的牽頭組織下,十二家網際網路企業簽署了《網際網路搜尋引擎服務自律公約》(簡稱《自律公約》),第七條第一款規定:遵循國際通行的行業慣例與商業規則,遵守機器人協議(robots協議)。第八條規定:網際網路所有者設定機器人協議應遵循公平、開放和促進資訊自由流動的原則,限制搜尋引擎抓取應有行業公認合理的正當理由,不利用機器人協議進行不正當競爭行為,積極營造鼓勵創新、公平公正的良性競爭環境。
(一)公開資料的限度
提到對公開資料的爬取,繞不開的是2016年被列為“影響中國網際網路法治程序十大案例”之一的大眾點評訴百度不正當競爭案。
在百度涉案行為的不正當競爭性上,上海智慧財產權法院認為,在判斷經營者使用他人資訊的相關行為是否違反商業道德、擾亂公平競爭的市場秩序的時候,主要應綜合考慮公司行為是否具有積極的效果、是否超出了必要的限度、超出必要限度的行為對市場秩序所產生的影響、是否影響競爭行為正當性的判斷等方面。百度地圖大量使用大眾點評網的點評資訊,替代大眾點評網向網路使用者提供資訊,會導致大眾點評網的流量減少。百度地圖在大量使用大眾點評網點評資訊的同時,又推介自己的團購等業務,攫取了大眾點評網的部分交易機會。
同樣,作為公開分享平臺,在微博訴“飯友”APP 案中,復娛公司開發的“飯友”App在明星帳號中設定微博專題,並巢狀該明星的新浪微博介面,完整地展示了該明星微博包括介面和內容在內的全部資料,還遮蔽了新浪微博中的部分功能且添加了自有功能。這裡有兩個行為,一個是爬蟲爬取資料的行為,一個是遮蔽微博部分功能替代的行為。
北京市海淀區人民法院認為,新浪可就他人非法抓取並使用該資料的行為主張權益【(2017)京0108民初24510號】。二審北京智慧財產權法院維持原判,認為微夢公司作為微博運營者,對微博前後端全部資料享有權益,並透過微博這一生態鏈實現商業利益。【(2019)京73民終2799號】
(二)未公開資料的限度
現在的爬蟲技術已經從原來的網頁爬蟲進入到底層資料的爬取。平臺的非公開資料通常涉及資料安全、使用者隱私以及平臺經營者商業策略的實現等,系平臺經營者的核心資源。業內通行的觀點認為,這些資料不屬於可自由流動的資料範疇,未經平臺經營者許可,他人不得隨意獲取、使用。
在微博訴“飯友”APP 案中,北京市海淀區人民法院一審認為,鑑於二者的釋出時間,點贊、評論和轉發數量具體化的程度亦不同,且微博的此類資訊相較於飯友App精簡等事實,法院認定復娛公司系透過繞開或破壞微夢公司技術保護措施的手段,實施了抓取和展示微博後臺資料之行為。
在抖音訴“小葫蘆”網站案中,浙江省杭州市餘杭區法院審查發現,小葫蘆網站透過“爬蟲”等技術手段,從抖音等多平臺獲取抖音平臺主播直播資料、抖音直播資料及抖音直播主播詳情,短影片資料、電商資料、輿情分析和使用者畫像等內容。小葫蘆網站的行為具有不正當性,也存在侵犯使用者隱私可能,還破壞了抖音產品的運營邏輯和秩序。法院對小葫蘆網站作出針對非法抓取直播資料行為的全國首例禁令。
10月中旬,一家名叫“胖球資料”的直播資料平臺,也因涉嫌用爬蟲竊取直播相關資料被一鍋端這裡面有一個核心問題:資料從哪來的。
(三)公開資料處理的限度
公開的資料,是否必然可以無限制使用?還是在大眾點評訴百度不正當競爭案中,法院認為,在靠自身使用者無法獲取足夠點評資訊的情況下,百度公司透過技術手段,從大眾點評網等網站獲取、大量使用了這些點評資訊,其行為具有明顯的“搭便車”、“不勞而獲”的特點。
2021年6月,美國最高法院駁回了下級法院禁止Linkedln阻止hiQ訪問其使用者公開資訊的判決,併發回舊金山第九巡回法庭重審。此前,領英(LinkedIn)認為其競爭對手hiQ Labs從公開資料中收集個人資料的行為威脅使用者隱私,因而希望阻止這種行為。事實上,已公開的個人資訊是否因已公開狀態,二次處理是否具有正當依據,很大程度得進行個案考量。
法律的邏輯
在數字經濟時代,資料的價值在於流通、開發和使用,但無論是《個保法》還是《資料安全法》,都沒能正面回應資料財產權的歸屬這一問題。《網路資料安全管理條例(徵求意見稿)》只能從使用的角度去強化資料處理與流轉利用規則。其中,第七條第二款明確規定,國家建立健全資料交易管理制度,明確資料交易機構設立、執行標準,規範資料流通交易行為,確保資料依法有序流通。司法裁判也在不斷探索資料權益保護。
網際網路資料中心(DCCI)、未來智庫創始合夥人胡延平認為,“開放有開放的合作,合作有合作的玩法,分享也有分享的路徑。不是因為開放,不是因為是一個網際網路,所有人都可以為所欲為,所有企業都可以想怎麼抓取就怎麼抓取。”
(一)授權的流通
資料的蒐集和整理往往需要透過投入巨大成本才獲得資料。如果沒有限制地讓網路爬蟲任意獲取他人透過巨大投入獲取的資料資源,不但可能直接違背了使用者的意願和知情權,也將沒有經營者再願意投入鉅額成本進行類似的創新性、基礎性的工作,從而抑制經營者創新的動力。
在大眾點評訴百度不正當競爭案中,法院認為,透過法律維護點評資訊使用市場的正當競爭秩序,有利於鼓勵經營者創新業務模式,投入成本改善消費者福祉。相反,將沒有經營者再願意投入鉅額成本進行類似的創新性、基礎性的工作,從而抑制經營者創新的動力。
在抖音訴“刷寶”APP 案中,海淀區人民法院認為,微播公司作為抖音 App 的開發者和運營者,投入相應的人力、財力成本,透過正當合法的經營,吸引使用者釋出、觀看、評論、分享短影片,積累使用者、短影片內容、流量,並依據與使用者的協議在正常的經營活動中使用相關短影片內容,抖音 App 所展示的短影片內容、使用者評論等資源均是微播公司透過正當合法的商業經營所獲得,並由此帶來經營收益、市場利益及競爭優勢,上述合法權益應受反不正當競爭法的保護。
《網路資料安全管理條例(徵求意見稿)》第八條做出了相應的規定,其中第三項規定,禁止透過竊取或者以其他非法方式獲取資料。此外,資料處理者向第三方提供個人資訊,或者共享、交易、委託處理重要資料的還必須遵循告知、明示、約定處理規則等要求。
這一條的前提是在向用戶明確告知和使用者授權的前提下,資料處理者才能向第三方提供相關資料。反之也可以推匯出,如果沒有得到使用者授權,也沒有獲得資料處理者的同意,第三方資料接收方也沒有約定資料的目的、範圍、處理方式和安全保護措施,第三方資料接收方不能獲取更不能使用相關資料。這一點和”三重授權原則“有本質上相似的基本邏輯。
即使相關行為不“搭便車”,是否就可以全面抓取使用?根據《網路資料安全管理條例(徵求意見稿)》第十二條第二款規定,(二)與資料接收方約定處理資料的目的、範圍、處理方式,資料安全保護措施等,透過合同等形式明確雙方的資料安全責任義務,並對資料接收方的資料處理活動進行監督。由此可見,第三方資料接收方超首先必須合法獲取公開資料,其次,如果超過約定的目的、範圍、處理方式處理個人資訊和重要資料,仍然構成違法。
(二)合理的流通
在“車來了”不正當競爭案中,自 2015 年 11 月起至 2016 年 5 月,武漢元光科技有限公司為了提高其開發的智慧公交應用程式“車來了”的市場份額及資訊查詢的準確度,利用網路爬蟲技術大量獲取競爭對手深圳市穀米科技有限公司經營的同類公交應用程式“酷米客”的實時公交資訊資料,無償使用於其“車來了”應用程式,並向公眾提供查詢服務。
深圳市中級人民法院在本案中認定【(2017)粵03民初822號】,原告穀米公司出於商業模式或其他需要向公眾免費提供資料查詢,被告元光公司未經權利人許可,以網路爬蟲技術入侵後臺盜用資料, 並將盜取資料用於經營同類業務的,具有破壞他人市場競爭優勢、謀取競爭優勢的主觀故意,屬於嚴重破壞市場秩序的行為,構成不正當競爭。
有一個例外,搜尋引擎之間相互爬取是否需要獲得授權?在北京百度網訊科技有限公司、百度線上網路技術(北京)有限公司與北京奇虎科技有限公司不正當競爭糾紛案中,北京市高階人民法院二審【(2017)京民終487號】判決認為,應結合robots協議設定方與被限制方所處的經營領域和經營內容、被限制的網路機器人應用場景、robots協議的設定對其他經營者、消費者以及競爭秩序的影響等多種因素進行綜合判斷。這並不意味著對於網際網路企業所設定的任何robots協議均能夠基於企業自主經營權而當然地認定其具有正當性。
(三)有序的流通
任何流通都必須有序進行。網際網路平臺獲取資料一般透過兩種方式:一種是透過商業合作進行資料交易或交換(如OpenAPI模式),另一種是利用爬蟲技術自動抓取資料的模式。不論是哪一種方式,爬蟲技術是否中立要看爬蟲的功能及爬蟲使用的目的,不能完全脫離其使用目的而去談它的中立性。在正當性判別上,既要考慮平臺的合法權益和相關消費者的利益,也要考慮是否損害正常的競爭秩序,還要考慮是否足以保障資料的安全性。
有電商平臺的負責人曾表述,惡意爬蟲案例經常發生在內容平臺和電商平臺。在內容上被爬取的更多是影片、圖片、文字、網紅互動資料、使用者行為等,在電商領域則多為商家資訊和商品資訊。這些商業化、市場化的技術應用背後,往往具有商業主體明確的目的性。越來越多的司法判決也在釐清一個基本規則:“有序”和“流轉”同等重要、缺一不可。
2014年,北京淘友天下技術有限公司和北京淘友天下科技發展有限公司運營的脈脈未經使用者允許和微博平臺授權,非法抓取、使用新浪微博使用者資訊,非法獲取並使用脈脈註冊使用者手機通訊錄聯絡人與微博使用者的對應關係。該案也被稱為首例大資料不正當競爭糾紛案。
2017年,北京智慧財產權法院終審認定,脈脈的經營公司未經使用者允許和微博平臺授權,非法抓取、使用新浪微博使用者資訊,構成不正當競爭。也就是在該案中,北京智慧財產權法院以司法判例方式確立的“三重授權”原則。“三重”,指的是第三方開發者透過Open API獲得使用者資訊時必須遵循“使用者授權+平臺方/公司授權+使用者授權”。
(四)競爭的權益
關於資料和競爭的相關討論,在大眾點評訴百度不正當競爭案中,法院考量漢濤公司是否具備可訴諸法律保護的合法權益上,關注了漢濤公司獲取涉案資料資訊的成本,以及涉案資料資訊為漢濤公司帶來的效益。法院認為,在百度公司靠自身使用者無法獲取足夠點評資訊的情況下,透過技術手段,從大眾點評等網站獲取點評資訊,用於充實百度地圖,百度公司的這種類似於“搭便車”、“不勞而獲”的行為違反了公認的商業道德和誠實信用原則,具有不正當性。
在微博訴“飯友”APP 案中一審和二審法院均認為,飯友App使用者無需註冊或登入微博帳號即可檢視微博全部內容,飯友App已對微博構成實質性替代;既實際分流走了微夢公司的潛在使用者流量,也影響了微夢公司透過微博可以獲得的廣告、票務等商業收益,給微夢公司實際造成了損失。
在微博訴今日頭條關於robots協議不正當競爭糾紛案二審中,北京市高階人民法院認為,網際網路領域中消費者福利的增加,依賴於資料在更大範圍和更深層次的共享利用,而非透過資料爬取對資料進行明顯替代性或同質化地利用。
因為資料問題引發的案件還在繼續。近日,新浪微博因限制其訪問用於分析輿論的資料,蟻坊軟體公司聲稱向長沙市中級人民法院起訴其涉嫌壟斷。這也是國內首例因網際網路平臺拒絕資料許可引發的反壟斷民事訴訟。此前(2018 年),新浪微博認為蟻坊公司採集、使用微博資料的行為涉嫌不正當競爭,在北京海淀法院提起訴訟。今年 3 月,北京知產法院二審判決蟻坊公司敗訴。
(五)正當的運營
抓取不能侵害其他主體的權益。如果爬蟲7X24小時自動持續對被爬取方進行訪問,每天達幾百萬次,甚至上千萬次,這會給伺服器帶來“難以承受”之重,導致受訪網站無法正常執行,則有必要對其進行限制。
2021年9月14日,杭州網際網路法院審理一起爬取微信公眾號資料中,證據顯示,斯氏(杭州)新媒體科技有限公司(以下簡稱斯氏公司)運營的“極致了”網站使用自動化指令碼不間斷爬蟲,繞過原告微信公眾平臺的反爬措施,,還透過多個代理IP操作,繞過封號、封IP等防護措施,日均訪問量達70餘萬次。
2019年公佈的《資料安全管理辦法(徵求意見稿)》第16條規定,網路運營者採取自動化手段訪問收集網站資料,不得妨礙網站正常執行;此類行為嚴重影響網站執行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。
這一管理辦法後被11月14日公佈的《網路資料安全管理條例(徵求意見稿)》取代。其中第十七條對企業運營網路爬蟲的規制做了更明確規定:資料處理者在採用自動化工具訪問、收集資料時,應當評估對網路服務的效能、功能帶來的影響,不得干擾網路服務的正常功能。自動化工具訪問、收集資料違反法律、行政法規或者行業自律公約、影響網路服務正常功能,或者侵犯他人智慧財產權等合法權益的,資料處理者應當停止訪問、收集資料行為並採取相應補救措施。
(六)安全的底線
依據《網路安全法》第四十一條取得被收集者同意即自動抓取個人資訊,技術使用者即涉嫌構成侵犯公民個人資訊罪、非法侵入計算機資訊系統罪或非法獲取計算機資訊系統資料罪等相關罪名。刑事案件中,往往沒有對資料的權屬進行定性,而是更傾向於從行為和結果進行定罪。
2021年2月,上海徐彙區檢察院通報,某網路公司在未經被害公司授權許可的情況下,被告人李某決策透過非法手段抓取對方直播資料並出售牟利被提起公訴。2021年6月,河南省商丘市睢陽區人民法院公佈的刑事判決書【(2021)豫1403刑初78號】顯示,逯某和黎某兩男子透過自己開發的爬蟲軟體,對淘寶實施了長達八個月的資料爬取,非法獲取近12億條使用者訊息。
在“車來了”APP爬取“酷米客”APP公交車行駛實時資料案不正當競爭判決之前,南山區人民法院在刑事判決【(2017)粵0305刑初153號】中認定,邵xx等五人的行為已構成非法獲取計算機資訊系統資料罪,穀米公司因被非法侵入計算機資訊系統所造成的直接經濟損失為24.43萬元。
在張xx等非法獲取計算機系統資料案【(2017)京 0108 刑初 2384 號】中 ,被告人張xx、宋x、侯xx作為被告單位上海晟品網路科技有限公司主管人員,採用技術手段破解被害單位的防抓取措施,使用偽造device_id繞過伺服器的身份校驗,使用偽造UA及IP繞過伺服器的訪問頻率限制,造成被害單位損失技術服務費2萬元,北京市海淀區人民法院以該行為侵入計算機系統的技術方式獲取伺服器儲存資料,構成“非法獲取計算機系統資料罪”定罪。
(七)全鏈條的風控
同樣還需要關注的是,資料資源一旦流通,原資料所有者就很難對其用途進行追蹤、控制。例如,在“劍橋資料門”事件中,臉書對劍橋分析公司開放了資料,而後來劍橋分析公司用這些資料所做的事情引發了立法者和監管機構的審查。這也對Facebook造成了重大影響,隨後Facebook出於多種原因而暫時封禁數萬個應用。
也正是基於此,《網路資料安全管理條例(徵求意見稿)》對於資料合作中的資料處理活動進行監督,關注全球化時代背景下資料全鏈條的安全。第十二條第一款第二項規定:(二)與資料接收方約定處理資料的目的、範圍、處理方式,資料安全保護措施等,透過合同等形式明確雙方的資料安全責任義務,並對資料接收方的資料處理活動進行監督。第二款規定:資料接收方應當履行約定的義務,不得超出約定的目的、範圍、處理方式處理個人資訊和重要資料。
由此可見,第三方資料接收方首先必須合法獲取公開資料,其次,如果超過約定的目的、範圍、處理方式處理個人資訊和重要資料,仍然構成違法。
資料相關案件不完全列表:
2016年,“車來了”APP爬取“酷米客”APP公交車行駛實時資料案
2017年,脈脈非法抓取使用新浪微博使用者資訊案
2017年,今日頭條未經授權移植新浪微博大V賬號內容資料案
2019年,刷寶APP爬取抖音APP短影片及使用者評論資料案
2020年,北京朝陽:員工透過“暗網”出售客戶資訊案
2021年,“極致了”網站爬取微信公眾號文章資料案
2021年,魔蠍資料科技有限公司侵犯公民個人資訊案
2021年,上海浦東:公司非法爬取個人資訊開展徵信業務出售牟利案
2021年,斯氏(杭州)新媒體科技有限公司爬取微信公眾號平臺數據案