統計是經濟社會管理的重要依據,也是現代(社會)科學研究的重要技術手段,在大資料出現以前更是如此。然而,任何技術都具有兩面性,具有雙刃劍作用,只有正確使用才能產生好的效果,否則,濫用或錯誤運用,其破壞性也是不容小覷的。
善於運用統計是科學理性的表現,是進步的標誌之一。最典型例子,大概20多年前,天氣預報往往會用肯定性的語言,如今天小雨,或陰天,或晴天,或小雨轉多雲等。但發現群眾意見很大,因為依據天氣預報來安排日程,往往出錯。於是後來的表述就更科學一些了,採用統計或機率的方法,如降水機率50%,或者溼度80%。
小資料時代,統計學在研究宏觀現象時非常有效,用於微觀現象則要慎重,但如果正確運用則具有意想不到的效果。比如,量子力學、統計力學在理解很多熱力學概念(例如熵、溫度、氣體狀態)的起源方面取得了巨大成功,尤其是在普朗克1911年提出光量子的統計原理後,與量子理論的結合進一步完善了統計力學的基礎。
大資料學科的出現,在一定程度上豐富了統計學的內容,提升了統計技術。大多數情況下,可以運用雲計算直接分析整體(全樣本)大資料,而不必要進行抽樣,以樣本推斷總體,這就改變了傳統科學研究的線性思維,而用直接面對複雜科學的系統思維,更多考慮要素之間的相關性,而不是因果關係。但這並不能否定統計思維的作用,因為大資料學科中包括了統計學中資料分析的基本方法,如迴歸分析、分類模型、整合模型、聚類模型等,描述的性質也是統計學語言,仍然需要統計思維來發現規律。
我們經常會在媒體上看到各種各樣違背常識或是與我們想象中不同的驚人結論,每當看到這樣的結論時,公眾都會產生疑惑,時間長了人們可能逐漸不再相信媒體報道的資料。越來越多不靠譜的結論讓人們很難再相信它們。
這不是統計思維的問題,而是使用統計技術的人出現了錯誤。對於公眾來說,瞭解統計技術,具備統計思維,更有利於識別和判斷資訊的有效性。否則,一旦統計結論和實際情況的偏差並且不能讓我們意識到,我們就會很輕易地相信了這些結論。所以,在學習使用統計思維時,透過思考如何避免常見的統計陷阱是非常有必要的。我們這樣做不僅可以避免相信錯誤結論,而且能夠讓我們對於統計思維的本質有更深層次的思考。
一些作者尤其是學生,喜歡用調查資料來論證,用定量方法進行分析,從研究的角度考慮,這是提高科學性增進結論可靠性的有效技術路線。但問題是很多作者只是停留在形式上,並不考慮抽樣框如何確定、技術是否合理,資料是否可靠,即使用了定量分析,也不能把結論與分析結合起來,有時都不知道為什麼要研究這個問題,於是,大量的研究成為無效勞動,出現很多偽命題偽研究,浪費時間和資源。
大資料時代的到來,對於公眾來說,提升統計思維顯得非常必要。但要避免統計陷阱。一是要思考資料的來源和方法。當看到結論時,我們要同時思考輔助結論推匯出來的源資料是如何進行採集、錄入、加工到輸出的,這中間是否存在影響結論客觀公正性的問題。二是統計方法是否合適。日常工作生活中,我們要結合研究目的、資料型別及特點,來選擇合適的方式。例如,平均值適合的情況是樣本分佈呈正態分佈或是橄欖球形狀的,在偏態分佈或是兩極分化嚴重的隨機現象中,更合適的方式是採用分位數。三是避免大資料忽悠。所有的分析工作最終都是為了得到一個結論,有了結論就會做出相應的決策,這些決策一般都會帶來較為重要的影響,所以發現結論錯誤是非常重要且非常有必要的。常見的結論謬誤是以偏概全,即將結論的影響因素只歸結到了少數幾種因素,對於某些重要因素並沒有考慮到。
來源 | 科普時報強國號