大資料概念是由羅傑·穆加拉斯(Roger Mougalas)2005年提出的。但是,大資料的應用可追溯到7,000年前。
約翰·葛蘭特(John Graunt)是一位英國經濟學家,也是第一位從事人口統計學調查的研究者。葛蘭特與英國古典經濟學家威廉·配第一同研究人類統計與人口普查方法,以此為基礎發展現代人口統計學的架構,最為著名的成就是製作出第一張生命表,使計算人類某年之存活機率成為可能。他的著作《對死亡率表的自然與政治觀察》(Natural and Political Observations Made upon the Bills of Mortality)發表于格裡歷1663年或儒略曆1662年,分析查理二世時期倫敦地區死亡率的起伏,研究腺鼠疫的開始與擴散的系統性方法,併發出警告。由於他的工作,約翰·格蘭特被廣泛認為是統計學領域的先驅。
打孔卡跟蹤百萬人口,1937年美國國會透過《社會保障法》後,要求政府跟蹤數百萬美國人。政府與IBM簽訂了開發打孔卡讀取系統的合同,該系統被應用到這個龐大的資料專案中。IBM發明的80列、矩形孔卡片,成為事實上的標準。其工作原理如下:編號為0至9,總計10行;以及一塊區域,用於第11、第12行(注意,沒有編號為第10的行)。
每列的穿孔組合用於表示單個字元:
- 數字透過在行0至行9直接打1個孔來表示。
- 空格符的表示,不需要打孔。
- 字母用2個孔表示:一個孔在第11、第12、第0行;另一個孔在第1至第9行。字母表被依次分為由9個字母組成的區(zones),每個區的字母依次在第1至第9行打孔。每個區分別在第11、第12、第0行打孔。第3區第1個字元保留未使用。
- 一些特殊字元使用了額外的單孔表示,或者雙孔表示。
- 大多數特殊字元(如標點符號等)用3孔表示:第8行被穿孔;第0、第11、第12行有1個穿孔;第1到第7行有1個穿孔。第9行保留未使用。
總計表示了67個字元。
進入到數字計算機時代,上述穿孔卡片字元表示方式發展為6位元的字元編碼:用4位元表示第0行至第9行的哪一行被穿孔;用2位元表示第11、第12行的哪一行被穿孔。這可以表示所有的單孔或者雙孔的字元表示,這被稱作“二進位制編碼的十進位制交換碼”(Binary Coded Decimal Information Code,BCDIC, BCD碼)。
首臺巨人計算機誕生,巨人計算機(英語:Colossus computer)是英國密碼分析師在1943年至1945年間為幫助破譯洛侖茲密碼機而設計的一組計算機,使用真空管來進行邏輯代數和計數運算。巨人計算機因此被認為是[1]世上首臺可程式設計的電子數字計算機。
第一個資料中心,由美國政府於1965年建立的,目的是儲存數百萬份納稅申報表和指紋集。這是透過將每條記錄轉移到要系統儲存在中央位置的磁帶上來實現的。但是,由於擔心遭到破壞或收購,該專案未能持續。但是,這一計劃是電子大儲存的起點,這一點已被廣泛接受。
全球資訊網誕生,英國科學家蒂姆·伯納斯-李於1989年發明了全球資訊網。1990年12月25日,蒂姆·伯納斯-李成功利用網際網路實現了超文字傳輸協議客戶端與伺服器的第一次通訊。
超級計算機,2007年11月,IBM的Blue Gene/L,運算能力為478.2 TFlops,安裝了32768個處理器。它是PowerPC架構的修改版本,正式運作版本被推出到很多地點,包括羅蘭士利物摩亞國家實驗室(Lawrence Livermore National Laboratory)。截至2020年6月23日,目前全球最快的超級電腦是日本理化學研究所(Riken)與富士通(Fujitsu)共同研發的“富嶽”(Fugaku)。“富嶽”的運算能力是每秒415千兆次,和第二名的美國IBM超級電腦“高峰”(Summit)的148千兆次相差三倍。Fugaku採用了Arm架構為基礎的富士通48核心A64FX SoC,共有158,976個節點,尖峰效能可達到1 exaflops(1,000 petaflops)這也是全球500大超級電腦中首次由Arm架構系統奪下第一名,除了在Linpack中拿到好成績,Fukagu也在HPL-AI中獲得1.421 exaflops。
2005年,Roger Mougalas首次引入大資料一詞,同年(2005年),雅虎建立了現在的開源Hadoop,旨在為整個全球資訊網建立索引。如今,Hadoop已被數百萬企業使用,以處理大量資料。
隨著網際網路的發展,社交網路迅速增長,每天產生大量使用者訪問資料。企業和政府開始建立大資料專案。如,在2009年建立的有史以來最大的生物識別資料庫中,印度政府儲存了所有公民的指紋和虹膜掃描。
大資料已經存在很長時間了,大資料正處於強大的發展階段,隨著分散式計算的發展,在不久的將來,大資料將應用於生活的每個角落,造福人類發展。