被譽為資訊界的傳奇人物、也曾獲得資訊科學領域中最高榮譽—圖靈獎(Turing Award)的美國資訊工程學家吉姆·格雷(Jim Gray),在其生前曾提出「科學典範」(Science Paradigm)的概念,他認為科學研究的演進,有以下四種典範[1],如圖1所示:
1.第一典範「科學實驗」:以記錄方式,呈現實驗結果,描述自然現象。
2.第二典範「理論推演」:發展理論,建立模型,歸納驗證。
3.第三典範「模擬模擬」:透過計算機,對複雜現象進行模擬。
4.第四典範「資料密集」:對資料進行探索(Data exploration),又稱eScience
大資料,就是屬於上述科學研究的第四典範(Paradigm)。
圖1 科學研究演進四典範 (圖形中的時間為2009年前的時間) 繪圖者:周晏汝
資料來源:修改自The Fourth Paradigm: Data-intensive Scientific Discovery (T. Hey, S. Tansley, and K. Tolle, 2009)
值得一提的是,第一典範其實是世界文明進步的開始,已存在約一千年,主要是人類以紀錄方式,描述自然現象、呈現實驗結果,而這也是人類知識得以累積的重要基礎;至於第二典範,則有一百年以上的歷史,大約是工業革命之後,人類大量投入基礎研究,科學研究為藉由發展理論、建立模型的歸納驗證方式。
第三典範「模擬模擬」與第四典範「資料密集」都是利用計算機來對資料進行處理。兩者之間的差異,在於第三典範「模擬模擬」會先釐清問題並確認假設,再利用資料進行分析與驗證。而第四典範「資料密集」,則是先有大資料,然後再透過分析,發現未知的理論。因此,第四典範的作法,不強調推論「因果」(cause and effect),而是強調發現「相關」(correlation)。這種思維則徹底顛覆了傳統的科學研究做法。
由於現有的營銷資料常被集中在各個企業或機構的「資料倉庫」內。這些資料可能有各種來源,各種不同格式,像是各種因為不同任務需要所蒐集而來的資料、統計報告和趨勢調查等。而資料探索(Data exploration)則是由資料科學家根據各方收集而來的資料,形成真實分析的一種資訊探索方式。
舉例來說,目前各式各樣混亂、毫無結構的人類活動痕跡,正由各種工具如抖音、微博、臉書、Instagram和Youtube記錄下來,而藉由探索性資料分析(Exploratory Data Analysis, EDA)這種視覺化和統計分析工具,找出其中的關連,正是大資料分析或營銷資料科學的基本精神所在。
此外,第四典範「資料密集」的研究概念,更強調以完整的資料來進行分析,只要資料是真實的,我們就能透過分析工具,瞭解資料背後的可能存在的各種行為,進而找出其行為模式。這個部分包涵兩個層次,一是資料蒐集時,不僅是「大」,而是「全」(意即真實且完整)。
其次,由於現行分析工具越來越強大,以前企業可能無法顧及末端的消費者(交易次數少、金額低),而只聚焦前端的顧客,現在拜大資料之賜,可以掌握「全部」的個別消費者的交易資料,企業甚至可以觀察到個別消費者的動態。
如果某一消費者的交易突然靜止好一段時間,企業就可以儘快推出一對一營銷,將此顧客設法保留在會員名單內,而非坐等令其流失。這也是從大資料(Big Data)到全資料(Whole Data)的基本概念。
作者:羅凱揚(臺灣科大兼任助理教授)、蘇宇暉(臺灣科大管研所博士生)、楊竣宇(廈門大學智慧財產權所博士生)
[1] The Fourth Paradigm: Data-intensive Scientific Discovery (T. Hey, S. Tansley, and K. Tolle, 2009)