資料科學(英語:data science)又稱數據科學,是一門利用數據(數據)學習知識的學科,其目標是透過從數據中提取出有價值的部分來生產數據產品[1],學科範圍涵蓋了:數據取得、數據處理、數據分析等過程,舉凡與數據有關的科學均屬數據科學。
此條目需要擴充。 (2013年7月15日) |
數據科學結合了諸多領域中的理論和技術,包括應用數學、統計、圖型識別、機器學習、數據視覺化、數據倉庫以及高效能計算。數據科學透過運用各種相關的數據來幫助非專業人士理解問題。 數據科學技術可以幫助我們如何正確的處理數據並協助我們在生物學、社會科學、人類學等領域進行研究調研。此外,數據科學也對商業競爭有極大的幫助[2]。
美國國家標準技術研究所於2015年發表七卷大數據參考框架(NIST Big Data Reference Architecture,NBDRA),於第一卷定義篇中將數據科學定為在理論科學、實驗科學和計算科學之後的第四科學科學[3][4]。
數據科學家是把統計學知識和電腦程式設計知識相結合,並將其用於深度分析數據來獲得數據見解的職業[5]。
歷史
1960年代,彼得·諾爾就首次提議要用「數據科學(data science、Datalogy)」來替代「電腦科學(computer science)」,後來在上世紀九十年代中期為國際分類社團聯盟所用。
1997年11月,吳建福 發表了題為「統計=數據科學?」的就任演講,[6] 因為他被任命為密歇根大學的 H. C.卡弗教授。[7] 在這次演講中,他將統計工作描述為數據收集、數據建模和分析以及決策制定的三部曲。 在他的結論中,他開創了「數據科學」(而非「電腦科學」)這個術語的現代用法,並提倡將統計學重新命名為數據科學,而統計學家則應重新命名為數據科學家。[6] 後來,他發表了題為「統計=數據科學?」的演講,作為他1998年的首個 P. C. 馬哈拉諾比斯紀念演講。[8] 這些講座是為了紀念印度科學家、統計學家和印度統計學院 創始人P. C. 馬哈拉諾比斯 。
2001年,William S. Cleveland 提議將其設立為一個新的學科,吸收「計算在數據方面取得的進展」作為統計學的延伸。《Data Science Journal》及《The Journal of Data Science》分別於2002年與2003年發行;2005年9月,美國國家科學基金會發表了《長存的數碼數據收集:使21世紀的研究與教育成為可能》,文中將數據科學家定義為「資訊與電腦科學家,資料庫與軟件工程師與程式設計師,跨學科專家,保管員以及專業註釋者,圖書館員,檔案館員和其他人員,這些人對數碼數據收集的成功管理至關重要。」[9] 2008年 Jeff Hamerbatcher 與 DJ Patil circa 分別在 Facebook、LinkedIn 領導全球第一支數據科學團隊,至此數據科學越來越被廣泛流行,並應用到公共衛生、市場、金融、社會等各個領域。
數據科學家
數據科學家這個職位的頭銜則是1997年吳建福的報告 "Statistics = Data Science?"中首次提及[來源請求]的,他認為數據科學家就是能夠從大型數據集中析取出數據,並進行統計推斷的統計學家。
2009 年 1 月,數碼化數據跨機構工作組發表了一份名為《駕馭科學與社會數碼化數據之力》的報告,Sadkowsky 從中了解到「數據科學家」這個詞,認為該詞是自己所從事工作的最好描述。
2012年,數據科學家被《哈佛商業評論》稱為《二十一世紀最性感的職業》[10]後,數據科學逐漸成為一個時髦術語(Buzzword)。
2017年,由資料科學活動而衍生的資料經濟,也開始被關注。與資訊經濟不同的是,資訊經濟是由編譯過的資料而產生經濟價值,而資料經濟的資料價值則源自於資料本身,它可以不斷的被編譯而產生多樣化的價值。
參考文獻
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.