開放資料

可供他人公開存取與使用的資料 来自维基百科,自由的百科全书

開放資料

開放資料指的是經過挑選和許可、可以被任何人自由使用、再利用和再分發的數據[1]。這類數據不受著作權專利權以及其他管理機制的限制,其開放性使得數據能夠被廣泛共享和應用。開放數據運動與開放源代碼內容開放以及開放獲取等其他「開放」運動有着共同的核心理念,即促進信息共享、協同合作和創新發展。

Thumb
Linking Open Data project in September 2007

定義

根據開放知識的定義,開放數據具有以下特性[1][2]

  • 可獲取性與可訪問性:數據應當可以完整獲取,並且獲取成本不高,理想情況下能夠通過網絡下載。數據需以易於修改和再利用的格式(如CSVTSVJSON等機器可讀格式)提供。
  • 再利用與再分發:數據應當在允許再利用和再分發的許可協議下發布,且該許可協議不得對使用主體或用途設置限制。例如,禁止商業用途或限定特定領域使用的協議均不符合開放數據的要求。
  • 普遍參與性:所有人都應有平等機會使用、再利用和再分發這些數據,不允許存在任何人為限制。

開放數據還強調互用性,即不同來源、不同格式的數據能夠相互整合和協同工作,從而支持建立更大規模和複雜度的信息系統[1]

概論

一般來說,Open Data 的應用主要為非文字的資料素材,像是地圖基因體聯結體化學分子、數學以及科學公式、醫學資料與應用,生命科學以及生物多樣性。開放這些資料時常常會因為這些資料本身具有的商業價值,或是經過彙整後可以成為有價值的產品,而引發出不同聲音的意見。資料的讀取,再次使用等,一般都由特定組織所監管,這些組織可能為私人或是公家機關。資料的讀取和再次使用的監管方法可能為,資料讀取的限制,透過版權與授權,專利的申請,或是付費要求等。Open Data 的倡議者們認為,這些限制都有違公眾的利益同時這些資料都應該能自由取得,沒有限制也不該索取費用。除此之外,資料的再次使用也不該需要其他的許可,雖然依照再次使用的不同性質(例如延伸性的創作)可以經由授權來控管。

一個典型關於為何我們需要資料開放的說法:

[3]

資料的創造者通常不會考量到資料應該標注的擁用者、授權方式以及再次使用的限制等資訊。舉例來說,對很多科學家來說, 他們不會把因為工作而公佈刊出的資料看成是屬於他們所有而設限,並把這些資料在期刊上的刊出視為將資料釋放到公眾領域的方法。但是,因為沒有確切的授權聲明讓人無法清楚知曉該資料集(data set)的狀態並可能對這些在開放的精神下釋出的資料在使用範圍上造成限制。因為這些不確定性也造成公眾或是私人組織與機構例如 IEEE有機會匯集這些資料,然後使用版權宣告來限制資料的使用授權或是進而販賣這些資料。

在 "Toward Open Data" (邁向資料開放)一書中,Connolly (2005, v.i.) 列出兩句引言:

  • I want my data back. - 我要拿回我的資料(Jon Bosak circa 1997)
  • I've long believed that customers of any application own the data they enter into it. 長久以來,我一直相信客戶擁有他們輸入於任何一個應用程式內的資料的完整所有權.[4](這句引言指的是關於 Veen 自己的心律資料)

歷史背景與發展

開放數據的理念已存在多年[5],但「開放數據」這一術語是在互聯網崛起後逐漸獲得廣泛關注的。自2009年以來,美國英國加拿大新西蘭等國家陸續推出公眾信息開放計劃,使得開放數據成為主流媒體討論的焦點[5]。與此同時,開放政府數據作為開放數據的重要組成部分,由於其數據種類繁多、量大且大部分受到法律規定必須公開,成為推動數據開放的重要力量。

科學界,開放數據的理念可追溯到20世紀中期的默頓規範傳統,旨在通過信息共享促進學術合作和技術創新;而在政府領域,各國政府陸續建立了數據目錄和在線平台,如美國的Data.gov、英國的Data.gov.uk、加拿大的Data.gc.ca等,推動政府信息透明化和社會監督。

開放科學數據

關於 科學資料的開放獲取 概念的制度化主要源自為了準備在 1957-1958 年間舉辦的 International Geophysical Year[6] 所建構的 World Data Center 系統。 The International Council of Scientific Unions (現在改名為 International Council for Science) 建立了數個 World Data Centers 以求盡可能降低資料減損的可能性,並盡可能擴大資料的獲取性,並在 1955 年提出新的建議,要求資料必須以「機器可讀取」的格式來儲存[7]

雖然開放-科學-資料運動的發起是在網際網路出現之前就已經展開,但是一個快速,遍佈更廣的網路系統的出現,徹底改變了開放科學資料的環境,因為將資料的刊出與取得的代價都不像前那般昂貴,也不用花那麼大的精力。

在 2004,所有 經濟合作與發展組織 (Organisation for Economic Co-operation and Development, OECD) 會員國的科技長官,這包含了世界上大多數「已開發」國家,簽署了一份共同聲明主要內容為,所有由公家機關出資收集的資料都必需要公開釋出。[8] 緊隨著對會員國內各資料產出機構發出的要求和激烈的爭辯,OECD 在 2007 發佈了 經濟合作暨發展組織公帑贊助研究資料之近用原則與基準 (OECD Principles and Guidelines for Access to Research Data from Public Funding)軟性約定 (soft-law)建議。[9]

開放政府數據

開放政府數據特指政府收集和管理的信息數據,通常受到法律規定必須公開。這類數據因其數量龐大、種類豐富以及數據質量較高而備受關注。開放政府數據的開放可以促進政府效能提升、降低運作成本,並為公眾、企業和研究者提供數據支持,從而推動社會經濟發展。[10]

有些國家及地區政府已經建立了網站,來發布他們收集的部分數據。

台灣再2010年由「青平台」開始推動「臺灣開放資料計畫[12]」,並註冊 opendata.tw / opendata.org.tw 兩個網址。2011年臺北市政府成立台灣第一個政府的開放資料平台[13]2015年4月,行政院宣布制定「政府資料開放諮詢小組設置要點」,廣邀民間公(協)會、社會團體代表、學者專家與各機關代表等參與,在政院層級由時任行政院副院長張善政擔任召集人,於同年6月1日召開首次會議,中央各二級機關也分別設置諮詢小組,推動開放資料工作。[14]

實施與挑戰

實施開放數據的過程通常是一個迭代過程,主要包括以下幾個環節[15]

  • 數據集選取:初期常從小規模、簡單的數據集開始,以便積累經驗。
  • 開放許可協議的應用:在法律上確保數據開放,使數據的使用、再利用和再分發不受不合理限制。
  • 數據的技術開放:保證數據能夠整批獲取,並以開放、機器可讀的格式發布。常見的技術手段包括在線下載、API、FTP服務器、BitTorrent等。
  • 數據的發現與傳播:利用數據目錄、第三方平台和社區參與,使數據易於被目標用戶找到和利用。

儘管開放數據帶來諸多優勢,但在實際操作過程中也面臨一些挑戰[15]

  • 數據質量與標準化:不同來源的數據格式不一、更新不及時以及缺乏標準化處理,可能影響數據整合和再利用效果。
  • 隱私與安全問題:確保開放數據不包含個人敏感信息和涉及國家安全的內容,是數據開放必須解決的問題。
  • 搭便車問題:由於數據收集和維護往往需耗費大量資源,如何平衡公共投入與數據免費開放之間的關係,始終是爭論的焦點。
  • 技術與成本:數據的開放不僅涉及技術實現,還需要長期投入維護費用,特別是通過API提供實時更新服務時,成本壓力較大。

與其他開放運動的關係

開放數據運動與開放源代碼、開放內容、開放獲取等運動具有相似的目標,即促進知識共享和公共利益最大化。開放數據強調的是數據本身的共享與再利用,而開放獲取則主要關注學術論文及科研成果的免費訪問。

推廣 Open Data 概念的組織

參見

參考文獻與連結

外部連結

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.