ImageNet項目是一個大型視覺數據庫,用於視覺目標識別軟件研究。該項目已手動注釋了1400多萬張圖像[1][2],以指出圖片中的對象,並在至少100萬張圖像中提供了邊框[3]。ImageNet包含2萬多個典型類別[2],例如「氣球」或「草莓」,每一類包含數百張圖像[4]。儘管實際圖像不歸ImageNet所有,但可以直接從ImageNet免費獲得標註的第三方圖像URL[5]。2010年以來,ImageNet項目每年舉辦一次軟件競賽,即ImageNet大規模視覺識別挑戰賽(ILSVRC)。挑戰賽使用1000個「整理」後的非重疊類[6],軟件程序比賽正確分類和檢測目標及場景。

歷史

AI研究員李飛飛從2006年開始研究ImageNet的想法。在大多數AI研究專注於模型和算法的時候,李飛飛則希望擴展和改進可用於訓練AI算法的數據[7]。2007年,李飛飛與普林斯頓大學教授克里斯蒂安·費爾鮑姆英語Christiane Fellbaum會面討論了該項目,他是WordNet的創建者之一。之後李繼續從WordNet的單詞數據庫開始構建ImageNet,並使用了其許多功能[8]。作為普林斯頓大學的助理教授,李飛飛組建了一個研究團隊,致力於ImageNet項目。他們使用Amazon Mechanical Turk來幫助分類圖像[8]。他們在2009年美國佛羅里達州舉行的計算機視覺與模式識別會議上首次以學術海報的形式展示了自己的數據庫[8][9][10]

ImageNet挑戰賽

Thumb
ImageNet上的錯誤率記錄(顯示每個團隊的最佳結果,每年最多顯示10個)

ILSVRC旨在延續2005年起舉辦的較小規模的PASCAL VOC挑戰賽,後者僅包含約2萬張圖像和20個對象類別[6]。為了使ImageNet「民主化」,李飛飛向PASCAL VOC團隊提出了一項合作,從2010年開始,研究團隊將在給定的數據集上評估他們的算法,並在幾項視覺識別任務上爭奪更高的準確率[8]。由此產生的年度競賽現在稱為ImageNet大規模視覺識別挑戰賽(ILSVRC)。ILSVRC使用僅1000個「整理後的」圖像類別——例如完整的ImageNet類別中,狗的類別共有120種,而在「整理後的」圖像類別中,包括了120個犬種中的90個[6]

2010年代,圖像處理取得了巨大進步。2011年,良好的ILSVRC分類錯誤率為25%。2012年,AlexNet深層卷積神經網絡達到了15.3%的錯誤率,比第二名低10.8個百分點[11]。在接下來的幾年中,錯誤率下降到百分之幾[12]。儘管2012年的突破是「結合了之前有過的組件」,但大幅量化的改進標誌着全行業人工智能熱潮的開始[4]。2015年,微軟的研究人員報告稱,他們的卷積神經網絡在ILSVRC任務中超過了人類水平,並贏得了當年的ImageNet挑戰賽[13][14]。但是,正如挑戰賽的組織者之一奧爾加·盧薩科夫斯基英語Olga Russakovsky在2015年指出的那樣,這些程序只需要識別出圖像屬於一千個類別中的哪一個即可,而人類可以識別更多類別,並且還可以判斷圖像的上下文[15]

到2014年,超過50家機構參加了ILSVRC[6]。2015年,百度科學家因使用不同的帳號提交,大大超過了每周兩次的提交限制,而被禁止參加比賽一年[16][17]。百度隨後表示已解僱相關團隊的負責人,並將建立一個科學顧問小組[18]

2017年,38個參賽團隊中有29個的錯誤率低於5%[19]。2017年,ImageNet表示將在2018年推出一個新的、難度更大的挑戰賽,其中涉及使用自然語言對三維對象進行分類。由於創建三維數據比標註現有二維圖像的成本更高,因此預計數據集會更小。這方面的進展應用範圍從機器人導航到增強現實[1]

數據集

ImageNet通過眾包進行注釋。圖像級注釋表明圖像中是否存在目標類別,例如「此圖像中有老虎」或「此圖像中沒有老虎」。對象級注釋為對象(的可見部分)周圍提供了一個邊界框。ImageNet使用寬泛的WordNet模式的變體對目標進行分類,並增加了120個犬種類別,以顯示細粒度分類[6]。2012年,ImageNet是全球最大的Mechanical Turk學術用戶,其雇用的普通工人每分鐘可以識別50張圖像[2]

ImageNet中的偏差

2019年對ImageNet和WordNet的多個層面(分類學,目標類別和標籤)的歷史進行的研究表明了用於各種圖像的大多數分類方法如何嵌入了偏見[20][21][22]。ImageNet正在努力解決各種來源的偏見[23]

參見

參考資料

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.