Remove ads
画像データセット ウィキペディアから
ImageNetは、物体認識ソフトウェアの研究において、ソフトウェアの最適化や性能の評価等に用いるために設計された、大規模な画像データセットである[1][2][3]。またこのデータセットを作成するプロジェクトのこと[4]。
ImageNetは、2009年にAI研究者のフェイフェイ・リーらが発表したデータセットで、1400万を超える[5][6]画像が含まれており、さらにそれぞれの画像に写っている物体の種別を示す情報が付与されている。この物体種別は、20,000以上のカテゴリに細分されている[7]。発表時点で既に存在していた他のデータセットと比較すると、ImageNetのカテゴリ数や画像数はともに約1000倍と桁違いに大きな規模であった[2]。従来に類を見ない大規模な画像データセットの登場は、2010年台初頭から始まった画像分野のディープラーニングの隆盛の一因になったと評価されている[8][9][2]。2024年時点ではさらに大きなデータセットも登場しているが、それでもなお、ディープラーニングにおけるモデルの学習や、性能評価に用いられ続けている。
また、2010年から2017年まで毎年、ImageNetプロジェクトはImageNetデータセットを題材とした、大規模[1]な画像認識技術コンテストであるILSVRC(the ImageNet Large Scale Visual Recognition Challenge)を開催していた。このコンテストは、ソフトウェアが物体や情景をどれだけ正しく分類、検出できるかを競うものである[10]。特に2012年のコンテストでディープラーニングを利用したAlexNetが優勝したことが、ディープラーニングという技術が注目される大きなきっかけになったとされている[7][11][1]。
ImageNetが発表される以前は、ほとんどの機械学習の研究が小規模のデータセットがあれば十分なアルゴリズムに依存していた[2]。特に人が手動で設計した特徴量を用いたり、タスクごとのドメイン知識や事前知識を活用したりするものも多かった[2]。また、ImageNetと同様に複数のカテゴリの画像を含むデータセットとしては、Caltech101やPascal VOC、TinyImages等のデータセットがあったが、Caltech101やPascal VOCはImageNetと比較すると数千から数万枚と小規模であり[2][12]、TinyImagesについてはそのラベルが正確であるか手動で確認されていないものだった[13]。
こうした状況の中、AI研究者のフェイフェイ・リーは、大部分のAI研究がモデルとアルゴリズム、特定のタスクに焦点を合わせていることに気づいた[14][15]。一方で彼女は、人間の子どもが実際に見たものをすぐに学んでいくのと同様の学習が、コンピュータにもできるのではないかと仮説を立てたのである[14][16]。そこで、モデルではなくデータに着目し、AIアルゴリズムの学習に利用できるデータセットを拡張、改善したいと考えた[14]。彼女は2006年にImageNetの実現に取り組み始めた[15]。WordNetの作成者の1人であるプリンストン大学のChristiane Fellbaum教授と面会した際に、WordNetの単語データベースを元に画像をカテゴライズするという考えの元となるヒントを得たのである[17][16]。リーはプリンストン大学の助教授として、2007年にImageNetプロジェクトに取り組むための研究者チームを編成した[18][14]。
2007年にプロジェクトチームを発足させたリー達は、研究助成金の申請が連邦政府に拒否される等、研究の意義が理解されないとともに、金銭的にも厳しい状況に置かれていた[18][2]。前例のない巨大なデータセット構築には様々な課題があった[19]が、WordNetを用いたカテゴライズやインターネットを利用した画像収集、クラウドソーシングを利用したカテゴライズ作業の実施等の工夫により、大規模データセットの構築を進めた[20]。 構築には約2年半を要し[18]、チームはフロリダで開催された2009年のConference on Computer Vision and Pattern Recognition(CVPR)で、初めてデータベースを対外向けにポスターで発表した[17][21][22]。
その後、プロジェクトへの注目があまり高まらなかったため、チームはヨーロッパで毎年開催されているVOCチャレンジという画像認識コンペティションに、ImageNetも採用するように提案した[18][14]。2010年からImageNetを用いたコンペティションであるImageNet Large Scale Visual Recognition Challenge(ILSVRC)が始まった[2][23]。このコンペティションは2017年まで毎年実施されており[23]、ImageNetのデータを分類、検出するタスクを通じて、ImageNetのデータを分類、検出する能力を競うものである[10]。ILSVRCは、2005年に設立されたPASCAL VOCチャレンジという、より小規模なコンテストの後を継ぐことを目的としたものである[24]。PASCAL VOCチャレンジには、約20,000枚の画像と20の分類クラスしか含まれていなかった[12]。ImageNetを開かれたものにするため、フェイフェイ・リーはPASCAL VOCチームに協同することを提案した。この取り組みは、研究チームが特定のデータセットでアルゴリズムを評価し、いくつかの視覚認識タスクでより高い精度を達成するために競争するというもので[17]、これがILSVRCのはじまりである。ILSVRCには、画像に写る物体のカテゴリを特定するクラス分類、画像に写る特定の1カテゴリの物体の位置を特定するローカライゼーション、画像に写る所定のカテゴリにあてはまる全ての物体の位置を特定する物体検出の3つの部門があった[25]。
2011年頃には、ILSVRCの分類タスクにおけるTop-5 エラー率は約25%だった[11]。その後2012年に、AlexNetと呼ばれる深層畳み込みニューラルネットを用いたモデルがTop-5 エラー率約16%を達成した[11]。さらにそこからの数年間で、Top-5エラー率は数パーセントまで低下した[26]。2012年のAlexNetのブレイクスルーは「それまでに存在していたものの組み合わせ」[注釈 1]であったが、AlexNetは大量のデータを学習することで劇的な性能改善を図っており、この大量データを学習できるようになる改善は、業界全体で人工知能ブームが始まるきっかけとなった[7]。これ以降も、2014年に2位の成績を挙げたその非常にシンプルな構成も有名なVGGや、2015年に優勝した、勾配消失問題と呼ばれる大規模なモデルを学習することを阻害する問題への対策を含むResNetなど、後の画像認識に影響を与えるアルゴリズムが登場するコンテストであった[27]。特に、ResNetはTop-5 エラー率約3.5%という好成績を叩き出し[28]、ResNetを提案したMicrosoftの研究者チームは、狭いILSVRCタスクにおいては、CNNの認識性能が人間の能力を超えたとも報告した[29][30][注釈 2]。
2014年までに、のべ80を超える団体がILSVRCに参加した[11]。 2015年には百度の研究者が、1週間のうちに2回までしかモデルを提出できないという制限を、複数のアカウントを用いることで破ったとして、1年間参加を禁じられた[32][33]。その後百度は、関与したチームリーダーを解雇し、エンジニアに助言する委員会を設置すると発表した[34]。
2017年には、参加した38チームのうち29チームが95%を超える精度を達成した[35]。こうしたことから、ImageNetももはやディープラーニング技術の進展を測るベンチマークとしては、データ量が少ないと指摘されることもある[36]。精度の向上が進み上昇の余地が小さくなってきたことを理由に、2017年を最後に終了することを発表し、同年7月の大会が最後となった[23]。
ImageNetのデータセットには、様々な文脈に応じて多くのバリエーションがある[37]。オリジナルの完全なデータセットは"ImageNet-21K"と呼ばれている[38]。このデータセットは 14,197,122枚の画像を含み、21,841クラス[注釈 3]に分類されている[38]。具体的には、「気球(balloon)」や「イチゴ(strawberry)」といった一般によく見られる様々な物体カテゴリが含まれており、それぞれのクラスは通常数百枚の画像で構成されている[7]。文献によってはクラス数を繰り上げて、"ImageNet-22k"と呼称するものもある[38]。また、最もよく使われるサブセットの一つは、 "ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012-2017 image classification and localization dataset" である[注釈 4][41]。このデータセットは、研究によっては "ImageNet-1K" や "ILSVRC2017"、"ImageNet 1K-ILSVRC"と呼ばれることもある[38][42]。このデータセットは、ILSVRC用にクラス数を1000クラスに調整したもので[43][2][注釈 5]、ImageNet-1Kは 1,281,167 枚の訓練画像と50,000枚の検証画像、100,000枚の評価画像を含んでいる[41][38]。この他にも、プライバシーに配慮し人物の顔が映った画像を個人が特定できないようにしたもの[42]や、非公式での展開として、ImageNetV2と呼ばれる10,000枚ずつの3種の画像を含む新たなデータセットで、元々のImageNetのデータセットと同じ方法で構築されたものなどがある[45]。
なお、ImageNetは画像のURLと画像それぞれに対するアノテーションのデータベースを提供しており、ImageNetから直接無料でダウンロードできるが、実際の画像自体はImageNetが所有しているわけではない[46]。学術研究や非営利目的でのみ利用可能であり、利用者は別途与えられたURLをもとに画像をダウンロードする必要がある[46]。また、コンペティションで用いられるデータセットについてはコンテスト開催時にデータが直接配布されており[47]、ImageNet-1Kについては2024年現在においても、Kaggle経由でダウンロードすることができる[48][49]。
ImageNetの構築作業は、データの収集とデータのクリーニングの2つのステップに分かれている[50]。
データの収集は、WordNetに基づくsynsetと呼ばれる単語が指す概念ごとに行われる[50][13]。WordNetに含まれる類義語での言い換えや他言語への変換も行いながら、検索エンジンを用いてインターネット上から画像を収集する[50]。synset毎に500~1000枚程度の画像を収集することが最終的な目的であるため、検索エンジンの精度も考慮し10000枚程度の画像を収集する[50]。
その後、信頼度の低いカテゴライズがなされたデータを取り除くため、クリーニングを実施する。クリーニング作業にかかる工数は膨大で、リーは当初自分の大学に所属する学生にアルバイトを依頼したが、その作業ペースでは完了までに10年単位の時間がかかることや学生は試験などにより作業が想定通りに進まないこともあると気づき、中止したこともある[51][14]。最終的に、データのクリーニングにはAmazonMechanicalTurkと呼ばれる、タスクを完了すると報酬が得られる、クラウドソーシングのプラットフォームが利用された[17][50][43]。このプラットフォームを通じて、世界の約49000人の作業者に分担して作業を速やかに完了させることができるようになった[52][注釈 6]。 このプラットフォームを通じて作業者に、synsetと対応する画像の組を提示し、1枚ごとにそのsynsetに対応するものが映っているかを選択させた[50]。そして、同じ作業を複数の作業者に割り当て、最終的には多数決的なやり方でその画像に対応するクラスを決めるようにした[53]。これは、作業者によって判断にブレが生じたり、たまたま偏った認識をしている可能性を排除するためである[54]。また、作業者が不正に報酬を得るためにランダムに回答することを防ぐため、予め答えがわかっている画像も作業対象に含め、それらに対する正答率が高い作業者の結果のみを採用するなどの工夫もなされている[14]。
2010年から開始したILSVRCにデータセットを作成・提供するにあたり、大きな問題点が2つあった。一つは、コンペティションの公平な評価をするために、これまでに公開されていない新たな評価用のデータセットを準備することであり、もう一つはコンペティションで性能を測るタスクに応じてデータセットを調整したり、追加のアノテーションをしたりが必要になることである[12]。 一つ目の問題点については、元々のImageNet-21Kを作った際の手順の一部を改めて用いることで解決した[13]。
二つ目の問題点については、ILSVRCにある3つのクラス分類部門、ローカライゼーション部門、物体検出部門の3つのタスク[25]ごとに、さらに細分できる。
分類とローカライゼーションの学習用データについては、既存のImageNet-21Kをベースにカテゴリの調整を行った約1000クラスのデータセットを作成しており[43]、これがImageNet-1Kと呼ばれるデータセットにあたる[55]。クラスを1000クラスに絞っているのは、タスクの目的に適したクラスのみを選定したいことや、アノテーションの難易度などが理由である[56]。また検出タスクについては、データセットの収集やアノテーションの難易度が高すぎるため、クラス数は200程度に絞りこみ、画像も新たに収集している[57]。分類やローカライゼーションと異なり、画像を新たに収集したのは、検出タスクでは多数の物体が写り込む中からそれぞれの物体を識別することが求められるため、より雑然とした多様な物体が写る画像が適しているためである[58]。
また、ローカライゼーションや検出タスクでは、もともとImageNetプロジェクトでは作成していなかった、物体のバウンディングボックス[注釈 7]を付与する必要がある[10]。この作業は、画像に写る物体のカテゴリを単に特定する分類タスク向けのアノテーションよりも難しいため、作業効率の低下や品質低下が問題となる[59]。 そこで、ローカライゼーションについては画像を1枚ずつ処理することとし、与えられたクラスの物体でまだバウンディングボックスが付与されていないものを一つだけ見つけバウンディングボックスを付与する役割と、新たに作成されたバウンディングボックスが正確かどうか品質を確認する役割と、画像内にまだバウンディングボックスが付与されていない物体が残っているかを判断する役割の3つに工程を分割した[60]。これによって、各作業者がより簡便に作業を完了できるように、またその品質を保証できるようにしている[61]。 検出タスクでも同様の手順を踏む[43]が、検出タスクは画像内に映る全てのクラスの物体を検出する必要があるという性質上、ローカライゼーションの手順を単に実施するだけでは、ローカライゼーションのクラス数倍の工数が必要になってしまう[62]。そこで、全てのクラスに対し一つ一つ画像に映っているかどうかを作業者に尋ねる代わりに、複数のクラスをまとめたより上位の概念、例えば「犬」や「猫」、「ウサギ」の代わりに「動物」が映っているかを聞くことで、効率的にアノテーションが必要なクラス数を絞るといった工夫を行っている[63]。これは、同じ画像内に映る物体のカテゴリ同士には相関がある点や、通常は非常に多くのクラスの物体が1画像に同時に写っていることはあまりない[注釈 8]という仮説を元にしている[64]。
2012年9月30日、 AlexNet[37]と呼ばれる畳み込みニューラルネットワーク(CNN)が、ILSVRC2012においてトップ5エラー[注釈 9]で16.4%を達成した[11]。これは、次点のものより約10%程度低い値で、顕著な好成績であった[11]。エコノミスト誌は、「ディープラーニングは突如として、AIコミュニティに留まらず、テクノロジー業界全体で注目を集めるようになった。」と評している[7][66][67]。2015年には、Microsoftが開発した100層を超える非常に層の深いCNNがAlexNetを上回り、ImageNet2015コンテストで優勝した[29]。こうした大幅な性能向上の理由として、深層学習モデルの構造が発達したことや深層学習モデルの学習で並列計算に用いられるGPUの性能向上が著しいことに加え、深層学習モデルを十分に学習できるImageNetのような大規模データセットが登場したことも挙げられている[8][9][2]。
ILSVRCは2017年に終了している[1]が、ImageNetのデータベースは現在でもモデルやアルゴリズムの性能を比較するためのベンチマークとして画像認識の分野でしばしば利用されている[68][69]。また、大規模モデルの事前学習に活用されている例もある[38]。
また、ImageNet自体が登場したことによる、深層学習研究への影響も大きい。画像分野ではAlexNetの成功以降、大量のデータを学習させることの重要性が認識されるようになっている[70]。例えば、ノイズの多いデータセットでも大量にあれば画像分類タスクに高い性能を示すという研究[71]や、ImageNetの貢献に触発され、ImageNetよりも大きなデータセットを作成し、データセットの大きさと性能の関係性を調査した研究[72]がなされるなど、より大容量のデータセットに対する研究がますます進んでいる[16]。 また、Medical ImageNetやActivityNetなど、画像分野の関連データセットにもImageNetを意識した命名がされていたり、他分野ではMusicNetと呼ばれるデータセットが登場したりなど、ImageNetが研究を行う上での標準として強く意識されている[16]。さらに、「自然言語処理にもImageNetの瞬間がやってきた!」[注釈 10]というタイトルのブログ記事が投稿されるなど、大規模なデータセットが成熟したことの象徴のように扱われている例もあると、(Denton et al. 2021, p. 6)は評している。
課題の一つは、WordNetに由来するクラス階層の妥当性である。ImageNetでは、例えば犬に対しては120の犬種のカテゴリで分けられる[74]など、細かく分類されているが、その欠点としてImageNetに対して本来最適なカテゴリ分けと粒度や階層が合わない可能性があることが挙げられる[38][注釈 11]。
また、2019年に行われたImageNetとWordNetに関する様々な観点(分類体系、物体クラス、ラベリング)からの研究により、ほとんどの画像分類アプローチにImageNetやWordNetのデータセットのバイアスが深く埋め込まれていることが示されている[75][76][77][78]。例えばGoogleの研究者は、2020年に、ImageNetのラベルを新たに付与し直しそのデータセットで複数の画像認識アルゴリズムの性能を評価したところ、性能を改善する効果がアルゴリズムの作成者が主張するものより小さくなったと指摘している[79]。同時にアルゴリズムの性能向上が、こうしたImageNetのラベルの誤りに対して過学習している可能性も指摘している[79]。また、1つの画像に複数の物体が写っているケースも多く、それがモデルの性能に影響を与えているという指摘もある[68]。ImageNetは、こうしたバイアスが生じた原因に対処するための取り組みを進めている[80]。
さらに、ImageNetの画像がデータ収集過程で顔にぼかしを入れていないというプライバシーの問題もある[81]。 他に、人物の顔画像に対するカテゴリに侮蔑的な表現を含むものがあったことを2019年に明らかにし、そうしたカテゴリを除去したデータセットを新たに公開するといったデータ作成上の課題も表出している[82][83]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.