爬蟲在網際網路時代並不稀奇,面對海量資料,人工獲取資訊的效率低、時效性差,為了提升體驗很多公司都會開發爬蟲系統。但是,爬蟲寫得好,牢飯吃得早。
來自 2018 年的公開案例:
某公司 2017 年轉型做網際網路科技公司,主營業務是“助貸”,需要經常訪問政府居住證網站,查詢房產地址、房屋編碼和學區房的使用情況。公司產品組經討論後建議用爬蟲自動查詢相關資料。
2017年12月,CTO 安排新入職的程式設計師負責這個專案,要求他研發一個自動定時抓取的爬蟲。
2018年1月,專案經理給程式設計師一個抓取資料的程式原始碼,程式設計師開始修改。
2018年3月,爬蟲上線,可以從公安局居住證系統查詢到房產地址、房屋編碼等對應的資料。
2018年4月27日10:43-12:00左右,居住證系統出現宕機現象,未定位到請求IP來源,懷疑是人為攻擊。
2018年5月2日10:00-12:00左右,系統再次遭遇攻擊,這次管理人員成功截取了IP地址並報案。
2018年5月17日晚上11點,CTO、程式設計師得知網警鎖定伺服器 IP,程式設計師懷疑是居住證系統加了驗證碼但爬蟲未更新,導致爬蟲被判斷為攻擊行為。
2018年8月,CTO、程式設計師被捕,後續 CTO 被判處有期徒刑三年,程式設計師被判處有期徒刑一年六個月。
我也曾在某金融公司開發過爬蟲,幫助使用者從銀行、基金公司、郵箱等多個渠道爬取信用卡、基金交易記錄,然後形成賬單和分析資料供使用者參考。近幾年看了不少因為開發爬蟲被判刑的案例,獨自慶幸及早抽身,已離開爬蟲團隊數年。
2019 年 9 月,江蘇淮安於某夥同王某合謀開發爬蟲網站,爬取個人借貸資訊、身份證照片資訊等達 84 萬餘次,分別被判處有期徒刑四年、有期徒刑一年六個月,並處罰金。
2021 年 5 月,上海某資訊科技公司員工劉某等 12 人因爬取各類網站、社保、公積金、手機App等網路上的個人資料資訊 308萬餘條用於開展“徵信業務”,其中 8 人被判處有期徒刑三年,緩刑三年至有期徒刑一年,緩刑一年不等,各並處罰金3萬元至1萬元不等。該團伙中的戴某等其餘4人還在審理中。
2021 年 6 月,河南商丘兩人透過開發爬蟲軟體爬取淘寶客戶數字 ID、手機號等資訊共計 11.8 億條用於開展淘寶推廣賺佣金,一審均被判處有期徒刑三年以上。
本文第一個案例中,CTO 辯解說爬取的是公開資訊且沒有個人資訊、沒有出售或交換、沒有透過資料牟利,而且爬蟲是公司管理層決定開發、由技術部程式設計師實施開發,是公司工作任務。程式設計師辯解說專案經理給的原始碼不知道是誰開發的,修改爬蟲程式是工作任務僅用於公司業務,本人並未牟利,而且開發完成後就沒有繼續修改了,攻擊行為猜測是沒有處理驗證碼導致的。但法院最終判決為 CTO 被判處有期徒刑三年,程式設計師被判處有期徒刑一年六個月,其他人員無責。
並不是所有的爬蟲都違法,被爬資訊完全公開,內容中不涉及個人資訊、版權內容及資料資產的,爬蟲頻率適當不會影響被爬網站正常響應的,一般來說,都是合法合規的爬蟲行為。同時也要注意,爬蟲合規也不代表業務合規,如果業務違規一樣會追究責任。
爬蟲一般都偽造 UA,可能會成為起訴證據,在今日頭條爬蟲案件當中,檢察院和法院,就以偽造UA作為定罪證據。部分情況下,爬蟲使用代理也可能會涉嫌非法繞過防護。爬到的資料也要定期清理,以免被抓時公安固定證據,發現還有別的案件來個併案處理、數罪併罰。
比較嚴重的情況,最高法、最高檢在《關於辦理危害計算機資訊系統安全刑事案件應用法律若干問題的解釋》中有明確解釋,簡單來說就是:
- 未經授權獲取對方資料,可能會涉嫌“非法獲取計算機資訊系統資料”,也規定了“後果特別嚴重”的認定;
- 造成對方系統不可用,可能涉嫌破壞計算機資訊系統罪,而且可能被認定“後果特別嚴重”;
最高法、最高檢的規定看起來更像是駭客犯罪,但是,由於專業背景和立場不同,公檢法對技術的理解與程式設計師未必一致,仍然有部分地區法院以此作為罪名判決。爬蟲出了問題,對方網站肯定是受害者,總要有個被告來負責,你說會是誰呢?
如果必須要做爬蟲,記得找法務同學正規審批,做好風險隔離。要是沒有法務參與,早點 run 吧!