Remove ads
プロンプトに応答してコンテンツを生成できるAI ウィキペディアから
生成的人工知能(せいせいてきじんこうちのう、英: generative artificial intelligence)または生成AI(せいせいエーアイ、英: GenAI)は、文字などの入力(プロンプト)に対してテキスト、画像、または他のメディアを応答として生成する人工知能システムの一種である[5][6]。ジェネレーティブAI、ジェネラティブAIともよばれる。
生成的人工知能モデルは、訓練データの規則性や構造を訓練において学習することで、訓練データに含まれない新しいデータを生成することができる[7][8]。
著名な生成AIシステムとして、OpenAIがGPT-3やGPT-4の大規模言語モデル[9]を使用して構築したチャットボットのChatGPT(および別形のBing Chat)や、GoogleがLaMDA基盤モデルに構築したチャットボットBardがある[10]。その他の生成AIモデルとして、Stable DiffusionやDALL-Eなどの人工知能アートシステムがあげられる[11]。
生成AIは、アート、執筆、ソフトウェア開発、ヘルスケア、金融、ゲーム、マーケティング、ファッションなど、幅広い業界で応用できる可能性があるとされている[12][13]。生成AIへの投資は2020年代初頭に急増し、Microsoft、Google、Baiduなどの大企業だけでなく、多数の中小企業も生成AIモデルを開発している[5][14][15]。しかし、生成AIを訓練する目的での著作物の野放図な利用や人をだましたり操作したりするフェイクニュースやディープフェイクの作成など、生成AIの悪用の可能性も懸念されており[16][17][18]、欧州連合における人工知能法など法規制の議論も進んでいる[19][20]。また、効果的加速主義などの技術思想との関係も指摘されている[21]。
機械学習の分野では、その誕生以来、データをモデル化し予測することを目的として、統計的モデルを使用してきた。2000年代後半、ディープラーニング(深層学習)の登場により、画像や動画処理、テキスト分析、音声認識などのタスクで進化と研究が進んできた。しかし、ほとんどのディープニューラルネットワークは識別的モデルとして、画像認識 (en:英語版) のような分類タスクを実行していた。
2014年、変分オートエンコーダや敵対的生成ネットワークなどの進歩により、画像のような複雑なデータの生成的モデルを学習し、生成することができる実用的なディープニューラルネットワークが登場した。
2017年、Transformerネットワークはより大規模な生成的モデルの実現を可能にし、2018年に最初の生成的事前学習トランスフォーマー(GPT)が開発された[22]。2019年、GPT-2がこれに続き、基盤モデルとして教師なし学習を多くの異なるタスクに汎化する能力を実証した[23]。
2024年、映像生成AIの実用化の成功は、イラスト生成AIの成功が人間の仕事の質を超えるのと同じようになると専門家は予想している[24]。
これ以降の応用面における進化については次節のモダリティを参照のこと。
生成AIシステムは、教師なしまたは自己教師ありの機械学習を、データセットに適用することにより構築される。生成AIシステムの能力は、訓練に使用するデータセットのモダリティや種類によって異なる。
生成AIは、ユニモーダルシステムとマルチモーダルシステムに大分でき、ユニモーダルは1種類の入力(例:テキスト)しか受け入れないのに対し、マルチモーダルは複数種類の入力(例:テキストと画像)を受け入れることができる[25]。たとえば、OpenAIのGPT-4はテキストと画像の両方の入力を受け入れる[25]。
より簡便にメディアの生成を行うことのできる生成的人工知能に対して政府や企業、個人[誰?]が懸念を表明している。その中で、抗議活動や訴訟、人工知能開発の一時停止の要求が行われている。また、各国政府は規制を検討するなどしている。
2023年5月に開催されたG7広島サミットでは広島AIプロセスが採択され、その中では安全、安心、信頼できるAIの実現に向けてAIライフサイクル全体の関係者それぞれが異なる責任を持つ目的でリスクの低減などの方針を定める「全てのAI関係者向けの広島プロセス国際指針」を整理した。[34]
アントニオ・グテーレス国連事務総長は2023年7月の国連安全保障理事会の会見において、AIは「世界の発展を加速」し、莫大な富を齎す可能性があると述べた。一方で、使い方によっては「想像を絶する規模での死と破壊、広範囲に及ぶトラウマ、深刻な心理的ダメージを引き起こす可能性がある」と述べた[35]。
2024年6月に開催された主要国首脳会議(G7)で、ローマ教皇フランシスコは人工知能が人類の未来に与える影響を考察するスピーチを行った。知識へのアクセス、科学研究の進歩、重労働からの開放などのメリットに言及する一方で、先進国と発展途上国の間、または社会階層間に重大な不正義をもたらす可能性を語った。生成AIについては「厳密には『生成的』ではない」「ビッグデータの中から情報を探し、要求に応じて、魅力的なスタイルで仕立てるものであり、新しい概念や分析を発展させるものではない」「時にはフェイクニュースを正当化しかねないという意味で、それは『生成的』というより、むしろ『強制的』である」として「もしわれわれが、人々から自分自身と自分の人生について決定する力を取り上げ、機械の選択に依存させるならば、人類に希望のない未来を負わせることになる」と述べた[36]。
AI開発の初期の頃より、どのような仕事がコンピュータによって実行可能であり、実行させるべきかであるかの議論がELIZAの開発者であるジョセフ・ワイゼンバウムらによって進められてきた[38]。
生成的人工知能によるイラストレータや俳優、声優、アナウンサーなどの失業が懸念されている[39][40][41]。2023年4月の時点で画像生成AIにより中国のイラストレーターの仕事の70%が失われていると報告されている[42][43]。2023年7月には生成AIの開発が2023年のハリウッド労働争議の一因となった。映画俳優組合の会長フラン・ドレッシャーは、2023年のSAG-AFTRAストライキ中に「人工知能はクリエイティブな職業に存続の脅威をもたらす」と宣言した[44]。 音声生成AIは、声優業界への潜在的な脅威とみなされている[45][46]。
これまでも古典的な画像処理技術などでフェイク情報は作成されてきたが、生成的人工知能によって画像や映像、音声、文章などの生成がより高精度に且つ容易になるため、詐欺や世論操作、プロパガンダ、名誉毀損等に悪用される可能性があるとされている。国内外において、政治家の顔を入れ替えたり、発言の捏造などの世論操作や、災害に関するデマゴーグ、ニュース番組になりすました広告やフェイクポルノ等の事例が起こっている。
悪用事例以外にも、ニュース記事の生成や日本赤十字社による関東大震災の体験記の生成[47]などの生成的人工知能の活用を目指した取り組みに関してもその情報の信頼性と信憑性、歴史的記録の捏造など様々な課題が指摘されている[48]。
音声でも有名人や公人の物議を醸す発言をしている音声を生成する例などがある[49][50][51][52][53][54]。
これに対して、ユーザーの身元確認を通じて潜在的な悪用の軽減に取り組むシステム整備を行うほかに[55]、技術的にディープフェイクへの対策のための研究が進められている[56]。
韓国、中国、台湾、インド、クウェート、ギリシャのニュース放送局は、生成的人工知能をナレーションに活用しニュースを伝えており、ニュースの信頼性に関する懸念が呈されている[39][40][41]。AIによるナレーションはISILによっても利用されている[57]。
2023年4月、ドイツのタブロイド紙Die Aktuelleは、スキー事故で脳挫傷を負って、2013年以来公の場に姿を見せていなかった元レーシングドライバーのミハエル・シューマッハとの偽のインタビューを生成的人工知能で作成して掲載した。この記事は表紙に「欺瞞的に本物」という一文を明記し、インタビューの最後に生成的人工知能によるものであることが明記されたものだったが、論争を巻き起こした後、編集長は解雇された[58]。
2023年、Googleは報道機関に対し、「時事問題の詳細」などの入力データに基づいて「ニュース記事を作成する」とされるツールを売り込んだと報じられた。この売り込みを受け報道機関側は、このツールを「正確で手の込んだニュースを作成するための努力を軽視している」と評した[59]。
生成的人工知能の出現以前からディープフェイクは既にフィッシング詐欺を含むさまざまな種類のサイバー犯罪に悪用されている[60]。生成的人工知能によるテキスト生成AIはECサイト上で高評価の偽レビューを量産するために大規模に行うことなど可能にした[61]。ほかにもWormGPTやFraudGPTなどサイバー犯罪を目的とした大規模言語モデルが作成された例もある[62]。
グーグルでクリック詐欺の対策に従事していたシュマン・ゴーセマジュムダーは、当初メディアを騒がせたディープフェイク動画はすぐに一般的となり、その結果より危険なものになるだろうと予測している[63]。2023年の研究では脱獄や逆心理学などを使った攻撃でChatGPTに掛けられた保護を回避して有害情報を抽出する脆弱性を確認した。同研究ではChatGPTのソーシャルエンジニアリングやフィッシング詐欺への悪用の潜在的リスクを指摘しており、一方で、生成的人工知能を活用することでサイバーセキュリティを改善できる可能性を指摘している[64]。
生成的人工知能によって生成されたコンテンツにはもっともらしく聞こえる嘘や偽情報がランダムに出現する。この現象はハルシネーション(hallucination、幻覚)と呼ばれ[65][66]、研究者はChatGPTに用いる大規模言語モデル(LLM)などでは最大27%の確率でハルシネーション (幻覚)を起こし[67]、46%に事実関係の誤りが存在すると推定している[68]。
大規模言語モデルはもっともらしい文章を生成できるものの、処理対象の言語の意味を理解してはいないという意味では確率的オウムという言葉が用いられる[69][70]。この用語は2021年にティムニット・ゲブル、マーガレット・ミッチェル (科学者)らによって発表された論文「On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 」(日本語: 確率的オウムの危険性について: 言語モデルは大きすぎるか?)において、広く知られるようになった[71][72]。
2023年にはアメリカ合衆国ニューヨーク州の弁護士が審理中の民事訴訟の資料作成にChatGPTを利用した結果、存在しない判例の「引用」を6件行い、罰金を課せられるという事例も発生している[73][74]。
ハルシネーションを軽減するための研究が行われているが[75]、ハルシネーションは避けられないものであり、大規模言語モデルの本質的な限界である可能性が指摘されている[76]。また、大規模言語モデルは問題を軽減するように設計されたものであっても、かえってハルシネーションを増幅させることがあることが指摘されている[77]。
生成的人工知能が医療教育現場で推奨されることもある現在[78]、生成的人工知能によるこうしたハルシネーション(作り話)を見抜く批判的思考が一層求められている[79]。
生成的人工知能が訓練データに含まれる文化的偏見を反映し、増幅する可能性が懸念されている。例えば、医師、エンジニア、教師などが男性であり、秘書や料理人、看護師などが女性とする[80]、「CEOの写真」から白人男性の画像を不釣り合いに多く生成される場合などが挙げられている[81]。入力プロンプトの変更[82]や訓練データの再重み付けなど、バイアスを軽減する手法が研究されている[83]。
最先端のAIモデルの訓練には膨大な計算能力が必要であり、十分な資金力を持っている大手テクノロジー企業に依存することが多い。GoogleやMicrosoftのようなビッグテックが所有する計算資源への依存や寡占が懸念される[84]。
生成的人工知能の地球環境面への悪影響が指摘されている。特に、データセンターの運営に際する冷却水への淡水の使用[85][86]、電力消費[87][88][89]、それに際する温室効果ガスの排出[90][87][91]などが懸念されている。例えば、ChatGPTによる検索には、Google検索の10倍の電力が必要と指摘されており[92]、生成的人工知能に依存するアプリケーションの普及、あるいはモデルの訓練の増加による地球環境への負担が懸念されている[88][86]。
提案されている対策として、モデル開発やデータ収集の前に潜在的な環境コストを考慮すること[90]、データセンターのエネルギー効率を高めること[87][91][85][86][88][89]、より効率的な機械学習モデルを構築すること[87][85][86]、モデルの再訓練回数を最小限に抑えること[91]、これらのモデルの環境影響を監査するための政府主導の枠組みを開発すること[85][91]、これらのモデルの透明性を担保する法規制を講じること[91]、エネルギーと水の浪費を規制すること[85]、研究者にAIモデルの温室効果ガス排出量に関するデータを公開するよう奨励すること[91][88]、機械学習と環境科学の両方に通じる専門家の数を増やすことなどが提案されている[91]。
スロップ(英:slop)と呼ばれる用語は人工知能によって粗製濫造されるスパムに似たコンテンツに対して使用される。ニューヨークタイムズによれば、スロップとは「ソーシャルメディア、アート、書籍、検索結果に表示される粗悪な、または望ましくないAIコンテンツ」である[94]。
生成AIによって新たに生じる問題として指摘されているのは、ソーシャルメディア上の低品質な生成AIコンテンツに対するモデレーション[95]、金銭を得る目的で低品質なコンテンツを投稿する悪質なユーザーの増加[95][96]、政治的な偽情報[96]、スパム的に投稿される科学論文[97]、インターネット上で高品質あるいは求めるコンテンツを見つけるための時間と労力の増加[98]、検索エンジン上の生成コンテンツの増加[99]などがあり、ジャーナリズムの存続自体への懸念も表明されている[100]。
Amazon Web Services AI Labsの研究者らが発表した論文によると、ウェブページのスナップショットであるCommon Crawlの60億以上の文章のサンプルのうち、57%以上の文章が機械翻訳されていた。これらの自動翻訳の多くは、特に3つ以上の言語に翻訳された文章については、品質が低いとみなされた。リソースの少ない言語(例:ウォロフ語、コサ語)の多くは、リソースの多い言語(例:英語、フランス語)よりも多くの言語に翻訳されていた[101][102]。
AI技術の発展により、複数の領域でAIに生成されたコンテンツ増加した。ユニヴァーシティ・カレッジ・ロンドンの調査では、2023年には6万件以上の学術論文(全出版物の1%以上)がLLMの支援を受けて執筆される可能性が高いと推定されている[103]。スタンフォード大学の人間中心AI研究所によると、現在、新たに出版された情報科学分野の論文の約17.5%と査読文の16.9%に、LLMによって生成されたコンテンツが組み込まれているとしている[104]。
視覚的なコンテンツも同様の傾向を示している。 ストック写真検索サービスEverypixelの統計によれば、2022年にDALL-Eが一般公開されて以来、毎日平均3400万枚の画像が作成されたと推定されている。2023年8月時点で、150億枚以上の画像がテキストプロンプトを使用して生成されており、そのうち80%はStable Diffusionに基づくモデルによって作成されていると推定されている[105]。
生成AIモデルの訓練データにAI生成コンテンツが含まれる場合、そのモデルに欠陥が生じる可能性がある[106]。生成AIモデルを別の生成AIモデルの出力のみでトレーニングすると、品質の低いモデルが生成されるため、訓練を繰り返す毎に徐々に品質が低下し、最終的には「モデル崩壊」につながる[107]。これに関しては手書き文字のパターン認識と人間の顔写真を使ったテストが実施されている[108]。
一方、生成AIによって合成されたデータは、現実のデータの代替としてよく使用される。このようなデータは、ユーザーのプライバシーを保護しながら、数学モデルの検証や機械学習モデルの訓練に利用できる[109]。構造化データの場合も同様である[110]。このアプローチはテキスト生成に限定されず、画像生成やコンピュータービジョンモデルの訓練に使用されている[111]。
アメリカではOpenAI、Alphabet、Metaを含む企業が2023年7月にホワイトハウスとの間でAI生成物に電子透かしを入れる自主協定を締結した[112]。 2023年10月、大統領令14110により国防生産法が適用され、すべての米国企業に対し、大規模AIモデルを訓練する際に連邦政府に報告することが義務付けられた[113]。
欧州連合の人工知能法には生成AIシステムの訓練に使用される著作権保護の対象となるデータを開示すること、およびAI生成物にラベル付けを義務付ける要件が含まれた[114][115]。
中国では、政府のサイバースペース管理局が導入した生成AIサービス管理のための暫定措置により、生成AIが規制対象となっている。これには、生成された画像やビデオに透かしを入れるための要件、訓練データとラベルの品質に関する規制、個人データの収集に関する制限、生成AIが「社会主義の中核的価値観を遵守」しなければならないというガイドラインが含まれている[116][117]。
生成的人工知能を含む機械学習一般に関して、訓練する際に使用するデータセットに含まれる著作物に関して、著作権法の解釈が議論されている[121]。
著作物を機械学習の訓練目的で利用することについては国や地域によって著作物の利用についての法規制は異なっており、各国の法理において機械学習での著作物の利用が認められる範囲に関して広範な論争が為されている。欧州ではDSM指令によって学術目的以外ではオプトアウトにより著作物の利用が制限される[122][123]。アメリカでは著作物の利用がフェアユースによって広範に規定されている[123]。日本においては学習段階で行われる著作物の複製に関して著作権法30条の4で複製権の権利制限をしている[124]。また、ベルヌ条約におけるスリーステップテスト等の国際条約との関係も議論されている[125]。
ChatGPTやMidjourneyなどの生成AIモデルは、著作権で保護された著作物を含む大規模な公開データセットをベースに訓練されている。AI開発者側は、フェアユース法理を根拠に訓練の合法性を主張しているが、著作権者側は権利侵害を主張している[121]。AI開発者側は、変容的な利用であり、著作物の複製を一般に公開するものではないと主張している[121]。しかし、著作権者側からはMidjourneyなどの画像生成AIは、著作権で保護された画像の一部とほぼ同じ出力が得られるとしており[128]、生成AIモデルは、元の訓練データと競合すると指摘している[129]。
生成AIの訓練に使用される著名なデータセットの1つとして、LAION-5Bが挙げられる。これはインターネットからスクレイピングして収集した画像と説明文のペアからなる巨大なデータセットを公開したものであり、Stable DiffusionやMidjourneyやNovelAIなど有名なtext-to-imageモデルの基盤データとして用いられている。このデータセットはAI開発者に重宝される一方で、著作権保護の対象となっている画像が含まれており、基本的に権利者の同意なく収集されていることや児童ポルノなどの違法なコンテンツが含まれていることなどから、広く問題視されている[130][131][132][133][134]。
訓練に用いるデータセットに著作物が使われる事例に対して、出版社やクリエイターを中心として懸念が広がっており、米国ではニューヨークタイムズのマイクロソフト、OpenAIへの訴訟、ユニバーサル・ミュージックのAnthropicへの訴訟など著作者や著作権管理団体によるAIの開発、提供事業者への訴訟が提起されている[135][136]。
ワシントンポストは、ニュース記事を要約するLlama3を基盤とするチャットボットであるMetaAIが、直接の出典なしに記事から文章をコピーし、オンラインニュースメディアのトラフィックを減少させる可能性があると指摘した[137]。
フランスの競争委員会(日本における公正取引委員会)は報道記事の使用料に関してメディアとの交渉を十分に行わなかったため21年に制裁金をGoogleに課したが、その際にGoogleが約束した報酬算出の情報開示などが不十分であったとして2億5000万ユーロ(約410億円)の制裁金を課した。またこの際に、同社のチャットボットAI「Gemini」の開発に際して「メディアや競争委員会に知らせず報道機関や出版社のコンテンツを利用していた」と批判した[138]。
日本の著作権法30条4では、『思想又は感情の享受を目的としない場合』かつ『著作権者の利益を不当に害することとならない場合』には原則として著作権者の許諾なく著作物の利用を行うことが可能である[139]。
日本政府の見解として文化庁は、生成AIの開発学習段階における情報解析は「享受」を目的としない行為としている。一方で、ファインチューニング等によって学習データ(データ群)に対して意図的に「作風などを越えた創作的表現の共通したもの」を生成することを目的とする場合は「享受」の目的が併存すると考えられるとしている。著作権者の利益を不当に害するかどうかは「著作権者の著作物の利用市場と衝突するか」・「将来における著作物の潜在的販路を阻害するか」という観点から「技術の進展」・「著作物の利用態様の変化」等の諸般の事情を総合的に考慮して検討することが必要であるとしている。有償提供されているデータベース著作物(著作権法12条の2創作性の認められる選択方法や体系化がなされているデータベース)を有償で利用することなく情報解析で利用する行為は明確に抵触しえるとしている[139]。
また文化庁は、生成AIを用いたAI生成物の生成・利用の段階に関しては通常の著作物と同様に、既存著作物との依拠性、類似性によって著作権の侵害の有無を判断するとしている[139]。
AIによって生成された生成物を著作物として認めるかどうかについて、人間の介在の有無や人間の関与の度合いによってどのように線引きをするのか、そもそも著作物として認めるべきなのか議論がなされている。
アメリカ合衆国著作権局は、人間の介入なしに人工知能によって作成された作品は、人間の著作者がいないため著作権を保護できないとの評定を下した[141]。米国著作権局は、この方針を改訂する必要があるかどうかを判断するために、意見の収集を進めている[142]。
一般的に人間による創作的寄与のないAI生成物を著作権法で保護することはできない。生成AIの進歩によって、一見すると人間が創作したのかAIが生成したのかを容易に判断できないコンテンツが増えることで、本来著作権が付与されないAI生成物を人間が創作したものであると明示的、あるいは黙示的に偽る問題が起こりうる。この僭称著作物問題(僭称コンテンツ問題)によって、AI利用者による知的財産権の不正な独占、僭称が発覚した場合のライセンス契約やコンテンツビジネスの崩壊などのリスクが指摘されている。AI利用者による僭称行為の対策として、現行法でも債務不履行責任や不法行為責任等の民法上の責任及び詐欺罪の成立可能性が指摘されている他、著作権法121条の改正による刑事罰化も検討されている[143][144][145]。
AI生成物が著作物か該当するかどうかは著作権法第2条「思想又は感情を創作的に表現したもの」かつ「自然人若しくは法人の作製したもの」に当たるかどうかで判断される。文化庁はこれに関して、AIが自律的に生成したものでなく、人が思想又は感情を創作的に表現するための「道具」としてAIを使用した場合には著作物に該当し、AI利用者が著作者となると考えられるとしており、これらの判断は個々のAI生成物について、個別具体的な事情に応じて判断されるとしている[90]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.