MNIST資料庫(源自「National Institute of Standards and Technology database」[1] )是一個通常用於訓練各種數碼圖像處理系統的大型資料庫[2][3]。該資料庫通過對來自NIST原始資料庫的樣本進行修改創建,涵蓋手寫數碼的圖像,共包含60,000張訓練圖像和10,000張測試圖像,尺寸為28×28像素。該資料庫廣泛運用於機器學習領域的訓練與測試當中[4][5]。MNIST在其發佈時使用支持向量機的錯誤率為0.8%,但一些研究後來通過使用深度學習技術顯著改進了這一成績。
歷史
MNIST資料庫通過「重混」(re-mixing)的來自NIST原始資料庫的樣本創建[6]。創建者認為,由於NIST的訓練數據來自美國人口普查局的員工,而測試數據取自美國高中學生,這樣的數據集不適合用來進行研究[7]。此外,NIST的黑白圖像被歸一化處理,以適應28×28像素的邊界框,並進行了抗鋸齒處理,從而引入了灰度級別[7]。
MNIST數據庫包含有60,000張訓練圖像與10,000張測試圖像[8]。訓練集的一半和測試集的一半來自NIST的訓練數據集,而訓練集的另一半和測試集的另一半則來自NIST的測試數據集[9]。資料庫的原始建立者保留了一些在其上測試的演算法方法的列表[7]。在他們的原始論文中,他們使用支持向量機獲得了0.8%的錯誤率[10]。然而,原始的MNIST資料庫含有至少4個錯誤標籤[11]。
擴充MNIST(EMNIST)是由NIST開發和發佈的一個更新的數據集,作為MNIST的(最終)繼任者[12][13]。MNIST僅包含手寫數碼的圖像,而EMNIST包括NIST特別資料庫19中的所有圖像,該資料庫包含大量的手寫大寫和小寫字母以及數碼的圖像[14][15]。
表現
一些研究通過使用類神經網絡在MNIST資料庫中取得了「接近人類的表現」[16]。原始資料庫官方網站上列出的最高錯誤率為12%,這是使用簡單線性分類器且沒有預處理時的成績[10][7]。
在2004年,研究人員使用一種名為「LIRA」的基於羅森布拉特感知器原理的三層神經分類器,在資料庫上實現了0.42%的最佳錯誤率[17]。
一些研究者使用隨機失真的MNIST資料庫對人工智能系統進行測試。這些系統通常是類神經網絡系統,所使用的失真方式可能是仿射失真或彈性失真[7]。在某些情況下,這些系統可以非常成功;其中一個系統在資料庫上實現了0.39%的錯誤率[18]。
2011年,研究人員報告使用類似的神經網絡系統,實現了0.27%的錯誤率,提升了之前的最佳成績[19]。2013年,一種基於DropConnect正則化神經網絡的方法聲稱實現了0.21%的錯誤率[20]。2016年,單個卷積神經網絡在MNIST上的最佳效能為0.25%的錯誤率[21]。截至2018年8月,使用MNIST訓練數據、沒有數據增強的單個卷積神經網絡的最佳效能為0.25%的錯誤率[21][22]。此外,烏克蘭赫梅爾尼茨基的平行計算中心(Parallel Computing Center)使用了僅5個卷積神經網絡的整合,在MNIST資料庫上表現為0.21%的錯誤率[23][24]。
參見
- 機器學習研究數據集列表
- Caltech 101
- LabelMe
- 光學字元辨識
參考來源
延伸閱讀
外部連結
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.