トップQs
タイムライン
チャット
視点

MNISTデータベース

画像認識に用いられる手書き数字画像のデータベース。 ウィキペディアから

MNISTデータベース
Remove ads

MNISTデータベース(英: MNIST database, Modified National Institute of Standards and Technology databaseの略)は、さまざまな画像処理システムの学習に広く使用される手書き数字画像の大規模なデータベース[1][2]。米国商務省配下の研究所が構築したこのデータベースは、機械学習分野での学習や評価に広く用いられている[3][4]

Thumb
MNISTテストデータセットのサンプル

概要

MNISTデータベースは、もともとNISTが保有していたデータセットに含まれるサンプルを再構成することによって作成されたデータベースである[5]。元のデータセットでは、学習データセットが国勢調査局の従業員から取得したものであるのに対し、評価データセットは米国の高校生から取得したものであるため、MNISTデータベースの作成者は、そのままでは機械学習の実験には適さないと感じていた[6][注釈 1]。また、NISTのデータベースに含まれる画像は当初白黒であったが、28x28ピクセルの範囲に収まるようにサイズが正規化され、グレースケール画像になるようアンチエイリアス処理も行われた。

MNISTデータベースには、60,000枚の訓練用画像と10,000枚の評価用画像が含まれている[8]。訓練用画像の半分と評価用画像の半分をNISTの訓練データセットから取得し、残りの半分をNISTの評価データセットから取得した[9]。データベースの作成者は、データベースで評価した手法の一覧を公開している[6]。論文では、サポートベクターマシンを使用して誤検知率0.8%という実験結果を発表している[10]。また関連して、EMNISTと呼ばれるMNISTに類似した拡張データセットも2017年に公開されている。このデータセットには手書きの数字と文字が含まれており、240,000枚の訓練用画像と40,000枚の評価用画像が含まれる[11]

Remove ads

データセット

MNISTデータベースには、NISTの2つのデータベース(Special Database 1とSpecial Database 3)の組み合わせからなる画像群が含まれている。2つのデータベースはそれぞれ、高校生と米国国勢調査局の従業員が手で書いた数字の画像で構成されている[6]

MNISTによる性能評価の歴史

2012年に発表された研究では、ニューラルネットワークを組み合わせるコミッティマシン英語版を用いて、MNISTデータベースで「人間に近いパフォーマンス」を達成した。同じ論文で、他の認識タスクでも人間の2倍のパフォーマンスを達成している[12]。MNISTデータベースのWebサイトにアップされている一覧[6]によれば、最も悪い誤検知率は12%である。これは、データの前処理をすることなく単純な線形分類器を使用して分類した場合に記録されたものである[10]

2004年には、ローゼンブラットのパーセプトロン原理に基づく3つのニューロン層を持つニューラル分類器であるLIRAと呼ばれる新しい分類器を用いて、MNISTデータベースにおいて0.42%という最良の誤検知率が達成された[13]

研究者によっては、ランダムな歪み加工を施したデータを用いて人工知能を学習・評価したものもある。対象となるシステムは通常ニューラルネットワークであり、使用される歪み加工はアフィン変換または弾性変形のいずれかであることが多い[6]。この方法で学習されたモデルが高い精度を達成する場合もある。その中の事例の一つでは、MNISTデータベースを用いた評価で誤検知率0.39%を達成した[14]

2011年には、従来の最良の結果を改善して誤検知率0.27%を達成したことが、同様のニューラルネットワークを用いた研究で報告された[15]。2013年には、DropConnect[注釈 2]と呼ばれる正則化手法を用いたニューラルネットワークで、誤検知率0.21%を達成したとする研究も現れた[16]。2016年時点で、単一の畳み込みニューラルネットワーク(CNN)を用いた実験に限ると、誤検知率0.25%が最も良い[17]。また2018年8月時点で、データ拡張英語版を使用せずにMNISTで学習した単一の畳み込みニューラルネットワークの最高精度もまた、誤検知率0.25%である[18]。単一のCNNに限らなければ、Parallel Computing Center(ウクライナフメリニツキー)が、5つのCNNを用いたアンサンブル学習により誤検知率0.21%を達成している[19][20]。2018年には、バージニア大学の研究者が、3種類のニューラルネットワーク(fully connected, recurrent, convolutional)を並列させたネットワークを用いて誤検知率0.18%を達成したと発表している[21]。なお、テストデータセット内の画像にはほとんど読み取れないような識別難度の高いものも含まれている[22]

分類器と性能の一覧

本データセットを用いて評価された機械学習手法とその誤検知率を、分類器の種類別に表している。

さらに見る 分類器の種別, 分類器の説明 (784-100-10といった表記は、ニューラルネットワークにおける各層のノード数を表す。またPはプーリング層。) ...
Remove ads

QMNIST

QMNISTはMNISTの厳密なスーパーセットとなる手書き文字画像データセットである[32]

MNISTは1990年代にNISTデータセットから構築された。しかしその正確な構築手順は記録として残っておらず、またNISTデータセットに存在した他の手書き文字画像やラベル情報も失われている。失われた構築法を再現し元のNISTデータセットから更なるデータを追加することでMNISTの上位互換(スーパーセット)となることを意図し構築されたデータセットがQMNISTである[33]

QMNISTはtrain/test合計で1074人計12万個の手書き文字画像から構成されており、1人当たり100~130個の画像が含まれている。

さらに見る QMNIST ...
Remove ads

pMNIST

permuted MNIST (pMNIST) タスクはピクセル並び替えにより空間情報が失われたMNISTの分類タスクである[40]。MNISTは2次元の画像であり隣接ピクセル同士に文字ごとで異なる相関がある。ゆえにConvのような空間に関する帰納バイアスを利用して効率的に解くことができる。ある種のタスクではそのような空間情報によるバイアス無しでの性能評価が望ましい(例: 長系列予測)。pMNISTではピクセルの位置を完全にシャッフルしたうえで固定し、これを用いた分類タスクとする。これにより文字ごとの隣接ピクセル間相関差が消滅し、空間バイアスのないデータセットによるモデル評価が可能になる。

関連項目

脚注

参考文献

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads