Loading AI tools
画像認識に用いられる手書き数字画像のデータベース。 ウィキペディアから
MNISTデータベース(英: MNIST database, Modified National Institute of Standards and Technology databaseの略)は、さまざまな画像処理システムの学習に広く使用される手書き数字画像の大規模なデータベース[1][2]。米国商務省配下の研究所が構築したこのデータベースは、機械学習分野での学習や評価に広く用いられている[3][4]。
MNISTデータベースは、もともとNISTが保有していたデータセットに含まれるサンプルを再構成することによって作成されたデータベースである[5]。元のデータセットでは、学習データセットが国勢調査局の従業員から取得したものであるのに対し、評価データセットは米国の高校生から取得したものであるため、MNISTデータベースの作成者は、そのままでは機械学習の実験には適さないと感じていた[6][注釈 1]。また、NISTのデータベースに含まれる画像は当初白黒であったが、28x28ピクセルの範囲に収まるようにサイズが正規化され、グレースケール画像になるようアンチエイリアス処理も行われた。
MNISTデータベースには、60,000枚の訓練用画像と10,000枚の評価用画像が含まれている[8]。訓練用画像の半分と評価用画像の半分をNISTの訓練データセットから取得し、残りの半分をNISTの評価データセットから取得した[9]。データベースの作成者は、データベースで評価した手法の一覧を公開している[6]。論文では、サポートベクターマシンを使用して誤検知率0.8%という実験結果を発表している[10]。また関連して、EMNISTと呼ばれるMNISTに類似した拡張データセットも2017年に公開されている。このデータセットには手書きの数字と文字が含まれており、240,000枚の訓練用画像と40,000枚の評価用画像が含まれる[11]。
MNISTデータベースには、NISTの2つのデータベース(Special Database 1とSpecial Database 3)の組み合わせからなる画像群が含まれている。2つのデータベースはそれぞれ、高校生と米国国勢調査局の従業員が手で書いた数字の画像で構成されている[6]。
2012年に発表された研究では、ニューラルネットワークを組み合わせるコミッティマシンを用いて、MNISTデータベースで「人間に近いパフォーマンス」を達成した。同じ論文で、他の認識タスクでも人間の2倍のパフォーマンスを達成している[12]。MNISTデータベースのWebサイトにアップされている一覧[6]によれば、最も悪い誤検知率は12%である。これは、データの前処理をすることなく単純な線形分類器を使用して分類した場合に記録されたものである[10]。
2004年には、ローゼンブラットのパーセプトロン原理に基づく3つのニューロン層を持つニューラル分類器であるLIRAと呼ばれる新しい分類器を用いて、MNISTデータベースにおいて0.42%という最良の誤検知率が達成された[13]。
研究者によっては、ランダムな歪み加工を施したデータを用いて人工知能を学習・評価したものもある。対象となるシステムは通常ニューラルネットワークであり、使用される歪み加工はアフィン変換または弾性変形のいずれかであることが多い[6]。この方法で学習されたモデルが高い精度を達成する場合もある。その中の事例の一つでは、MNISTデータベースを用いた評価で誤検知率0.39%を達成した[14]。
2011年には、従来の最良の結果を改善して誤検知率0.27%を達成したことが、同様のニューラルネットワークを用いた研究で報告された[15]。2013年には、DropConnect[注釈 2]と呼ばれる正則化手法を用いたニューラルネットワークで、誤検知率0.21%を達成したとする研究も現れた[16]。2016年時点で、単一の畳み込みニューラルネットワーク(CNN)を用いた実験に限ると、誤検知率0.25%が最も良い[17]。また2018年8月時点で、データ拡張を使用せずにMNISTで学習した単一の畳み込みニューラルネットワークの最高精度もまた、誤検知率0.25%である[18]。単一のCNNに限らなければ、Parallel Computing Center(ウクライナのフメリニツキー)が、5つのCNNを用いたアンサンブル学習により誤検知率0.21%を達成している[19][20]。2018年には、バージニア大学の研究者が、3種類のニューラルネットワーク(fully connected, recurrent, convolutional)を並列させたネットワークを用いて誤検知率0.18%を達成したと発表している[21]。なお、テストデータセット内の画像にはほとんど読み取れないような識別難度の高いものも含まれている[22]。
本データセットを用いて評価された機械学習手法とその誤検知率を、分類器の種類別に表している。
分類器の種別 | 分類器の説明
(784-100-10といった表記は、ニューラルネットワークにおける各層のノード数を表す。またPはプーリング層。) |
歪み加工 | 前処理 | 誤検知率(%) |
---|---|---|---|---|
線形分類器 | ペアワイズ線形分類器 | — | 自動傾き補正 | 7.6[10] |
ランダム化された木を使用したデジションストリーム[注釈 3] | 単一モデル(深さ400以上) | — | — | 2.7[24] |
K近傍法 | 非線形変換を伴うK-NN(P2DHMDM) | — | エッジずらし | 0.52[25] |
決定株のブースト | Haar特徴を用いた決定株のブースト | — | Haar特徴量 | 0.87[26] |
サポートベクターマシン(SVM) | 仮想SVM | — | 自動傾き補正 | 0.56[27] |
ディープニューラルネットワーク(DNN) | 2層 784-800-10 | — | — | 1.6[28] |
ディープニューラルネットワーク | 2層 784-800-10 | 弾性歪み | — | 0.7 |
ディープニューラルネットワーク | 6層 784-2500-2000-1500-1000-500-10 | 弾性歪み | — | 0.35[29] |
畳み込みニューラルネットワーク (CNN) | 6層 784-40-80-500-1000-2000-10 | — | 学習データの拡張 | 0.31[30] |
畳み込みニューラルネットワーク | 6層 784-50-100-500-1000-10-10 | — | 学習データの拡張 | 0.27[31] |
畳み込みニューラルネットワーク | 13層 64-128(5x)-256(3x)-512-2048-256-256-10 | — | — | 0.25[17] |
畳み込みニューラルネットワーク | 35個のCNNの組み合わせ、1-20-P-40-P-150-10 | 弾性歪み | 幅の正規化 | 0.23[12] |
畳み込みニューラルネットワーク | 5つのCNNの組み合わせ, 6層 784-50-100-500-1000-10-10 | — | 学習データの拡張 | 0.21[19][20] |
ランダムマルチモデルディープラーニング(RMDL) | 10個のニューラルネットワーク, 10個のリカレントニューラルネットワーク、10個の畳み込みニューラルネットワーク | — | — | 0.18[21] |
QMNISTはMNISTの厳密なスーパーセットとなる手書き文字画像データセットである[32]。
MNISTは1990年代にNISTデータセットから構築された。しかしその正確な構築手順は記録として残っておらず、またNISTデータセットに存在した他の手書き文字画像やラベル情報も失われている。失われた構築法を再現し元のNISTデータセットから更なるデータを追加することでMNISTの上位互換(スーパーセット)となることを意図し構築されたデータセットがQMNISTである[33]。
QMNISTはtrain/test合計で1074人計12万個の手書き文字画像から構成されており、1人当たり100~130個の画像が含まれている。
permuted MNIST (pMNIST) タスクはピクセル並び替えにより空間情報が失われたMNISTの分類タスクである[40]。MNISTは2次元の画像であり隣接ピクセル同士に文字ごとで異なる相関がある。ゆえにConvのような空間に関する帰納バイアスを利用して効率的に解くことができる。ある種のタスクではそのような空間情報によるバイアス無しでの性能評価が望ましい(例: 長系列予測)。pMNISTではピクセルの位置を完全にシャッフルしたうえで固定し、これを用いた分類タスクとする。これにより文字ごとの隣接ピクセル間相関差が消滅し、空間バイアスのないデータセットによるモデル評価が可能になる。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.