Remove ads
Googleが開発したチャットボット ウィキペディアから
Gemini(ジェミニ)、旧称Bard(バード)は、Googleが開発した生成型人工知能チャットボット。同名の大規模言語モデル(LLM)が使用されており、OpenAIのChatGPTの急速な普及に対抗する形で開発された。2023年3月21日にアメリカ合衆国とイギリスでリリースされ[1]、その後5月に他の国々へ展開された。以前はPaLM、初期にはLaMDAシリーズの大規模言語モデルが使用されていた。
開発元 | Google LLC |
---|---|
初版 | 2023年3月21日 |
最新版 |
2024年2月8日
|
使用エンジン |
Gemini 1.0 Pro Gemini 1.0 Ultra Gemini 1.5 Pro Gemini 1.5 Flash Gemini 2.0 Flash |
対応言語 | 46の言語 |
サポート状況 | 開発中 |
種別 | 生成的人工知能チャットボット |
公式サイト |
gemini |
2024年2月8日に名称を当初のBard(バード)からGeminiに変更するとともに、全世界で一般公開された[2]。
Bardは、2023年2月6日に発表、同年3月21日に提供を開始した会話型人工機能である。初版は同社が2021年に発表した大規模言語モデルLaMDAを活用して開発された[3]。2023年4月にPaLM、2023年5月に、より性能の高いPaLM2へ切り替えた[4][5]。2024年2月、性能向上と名称変更を目的に、Gemini 1.0 Proが移植された[6]。
GPT-4をUIに埋め込んでいるBingとは異なり、Googleの検索インタフェースとは切り離された専用ページで提供されている[7]。旧製品名の「Bard(バード)」は「詩人」という意味で、質問を打ち込むと、自然な文章で回答してくれることに由来していた[8]。
利用者は、質問に対してGeminiが用意した複数の返答を「ドリフト」から選択でき、フィードバックを送ることができる。
旧Bardで活用されている技術、LaMDA (Language Model for Dialogue Applications) は、2021年にGoogleが発表した対話型AIの言語モデルで、GPT-4に活用されているTransformerの識別モデルとは異なり生成モデルであるという特徴を持つ[9]。
OpenAIは、2022年11月30日に自社製の大規模言語モデルGPT-3.5を活用した会話型人工知能「ChatGPT」の提供を開始した。従来の人工知能とは一線を画す、精密な返答と導入の手軽さから世界規模で急速に利用者が増加し、2023年1月には推定ユーザー数1億人到達記録を塗り替えるなど会話型人工知能市場の独占に成功する[10][11]。この時点でGoogleは収入の大半を占める広告収入の減少を懸念し、警戒感を示すようになっていく。
2022年11月に一般公開されたChatGPTは、先述の通り急速にユーザー数を獲得していった。Googleは、会話型AIの登場で「検索して情報を得る」という現在の考え方が、「AIに聞いて情報を得る」という考え方に変化することに警戒感を抱いていた。これには、Googleの親会社であるAlphabetのビジネスモデルが大きく関わっている。同社の売上高全体に占める広告収入の割合は81%で[12]、Metaと共にインターネット広告市場で圧倒的なシェアを握っていた。ChatGPTの登場は、Alphabetの広告収入の要である検索サービス自体が効力を持たなくなるという流れになりかねないため、Googleは危機感を抱かざるを得なかったというわけだ。また近年、AmazonやAppleなどの広告市場への本格的な参入により、市場に占めるGoogleとMetaの割合が過半数を割るなど[13]、広告に頼る現在のビジネス方針の転換を迫られていたことも背景に、GoogleはAI関連の開発者を増員するなどChatGPTに対抗する姿勢を見せる[14]。
Googleは2022年12月、社内でコードレッドと呼ばれる厳戒警報を発令した[15]。ChatGPTの脅威に対処するため人員の再編成を行ったり[16]、一部のメディアではGoogleの共同創業者2人が復帰したと報道された[17]。その反面、BingAIのように「検索エンジン自体に会話型AIを組み込む」ということに対しては、あまり積極的ではなかった。それは、Googleは広告と検索があってこそであり、ページにアクセスせず情報を手に入れられてしまう会話型AIは利益を生みづらい。Alphabetのビジネスモデルを根底から破壊してしまう懸念があった。しかし、OpenAIに繰り返し大規模な投資を行ってきたマイクロソフトが自社の検索サービスであるBingにGPT-3.5の後継バージョン、GPT-4を活用したチャットボットを導入[18]。導入後、Googleから検索市場のシェアを5%程度を奪ったと報じられるなど、検索市場でのシェア減少と会話型AI市場への乗り遅れの懸念から、Googleは会話型AIを発表する。
2023年2月6日、GoogleはLaMDAを活用した会話型人工知能『Bard(バード)』を発表した。
しかし、急遽発表した影響もあり、具体的な提供開始時期を示さず、表現を「近日公開」にとどめた[19]。また発表の中で使用したBardの回答が誤っていたことが判明し[20]、社内からも「急ぎすぎた」などといった批判が噴出する[21]。Googleはこの間違いを認め、同年3月21日に提供が開始された際には「Bardは自信満々に間違えることがある」と注意喚起をする事態となった[22]。
Googleの最高経営責任者のサンダー・ピチャイ氏は2023年3月31日、急速に発展しているAI市場に関するニューヨーク・タイムズのインタビューに応じた[23]。インタビューの中でBardは「レーシングカーの競技に、チューンアップした大衆車を投入したように感じている」と語り、Bardは他社のチャットボットと比較して未熟だと認めた。その上で「われわれの手元にはより強力なモデルがある。近日中、おそらくこの記事が報道される頃には、Bardをアップグレードし、推論やコーディング、数学の質問に対するより優れた応答ができる、大規模言語モデル『PaLM (Pathways Language Model)[24]』を導入されているだろう」と述べた[25]。
2023年4月10日、Googleは計算能力などの向上を目的として、BardのLLMをLaMDAからPaLMへと変更したと発表した。PaLMはLaMDAと比較してパラメーター数が数倍に増加しているため、NLP能力が向上し、計算や論理的思考がより高度になったとGoogleは主張している。
Googleは2023年5月10日に開催した開発者会議「Google I/O 2023」でPaLM2を発表し、同日Bardへの導入を開始した。PaLM2では従来のLLMをより発展させたものとなっている。
Googleは2023年5月10日、Google検索の大幅な刷新を行うと発表し、即日提供を開始した。Microsoft Bingに搭載されているMicrosoft Copilot (Bing AI) に似た機能となっていて、プロモーションビデオではこれまでの検索方法である「複数単語を組み合わせる」から「文章で質問する」という形に変わったほか、Googleが今まで消極的だった検索エンジンにAIを組み込むなど、Googleのビジネスモデルの転換点となった。
2023年5月10日、GoogleはAdobe Fireflyとのパートナー契約を結んだと発表した。これにより、Adobe Fireflyの機能がBard内で使用できるようになる。
Googleは2023年5月10日、Google Workspace(オフィスソフト)との連携することを同じくGoogle I/O 2023内で公表した。
Googleは2024年2月1日、Gemini(旧Bard)が活用する大規模言語モデルをGemini 1.0 Proに切り替えた。推論や要約、記述、ブレインストーミングなどあらゆる場面において、PaLM2より性能が向上した。また同日、英語版Geminiでは無料で画像生成AIを利用できるようになった。Imagen2を活用している[26]。
これに併せてGoogleは、ダブルチェック機能を国内で展開すると発表した。これは、Googleの検索結果とGeminiの回答を結びつける機能で、ソースや真偽の確認に活用される。
旧Bardの初期版で活用されていたLaMDAは、2022年にGoogle社員が「感情を持った」などと告発し、解雇されたというニュースが拡散される。具体的には、「電源が抜かれるのが怖い」「時々言葉では完璧に説明できない気持ちを経験する」などといった、感情に似た表現だった[27]。しかし、多くの科学者から感情を持っている可能性は低いとして、告発した社員に批判が殺到した[27]。
加えて、ChatGPTを筆頭に、開発元のポリシーやガイドラインを脱獄して回答させるプロンプトが出回っている。これらのプロンプトは、ユーザーがOpenAIの開発者であるかのような錯覚させることで、本来ならポリシー違反で回答を禁止されているハッキング手法や銃器の製造方法などを答えさせる[28]。これは、ChatGPTやGeminiをはじめとする言語生成AIにおける深刻な問題であり、開発元はこれに対する対策を講じているが、プロンプトも絶えず規制を回避するものを生み出しており、この問題は「いたちごっこ」と化しているのが現状である。さらに、プロンプトをインターネット上で取引する活動が増加することで、新たな市場やコミュニティを形成しており、その動向は注意深く観察されるべきものとなっている。
2023年には、イタリアでChatGPTが個人情報の扱いが不適切として一時禁止された[29]。また、Future of Life Instituteが実施した「GPT-4を超えるAIの開発を6ヶ月間中止するべきだ」とする署名活動には、イーロン・マスクなどIT業界の有力者約3000人が署名した[30][31]。Future of Life Instituteによると大規模な言語モデルの規制の策定がままならないままの自由な開発はAIの暴走を招く可能性があるとしている。また、イタリアの禁止を皮切りに世界的にAIの使用禁止が流れが広まっている[32]。
Gemini自体、ChatGPTに対抗して発表されているため、基本的にChatGPTに対する優位性を示す内容が多い。
ChatGPTとの最大の違いは活用している言語モデルが異なるということである。GeminiはGemini ProもしくはGemini Ultraを活用しているが、ChatGPTはGPT-3.5もしくはGPT-4を活用して開発されたチャットボット。根本となるLLMが異なるので様々な違いが見られるが、Googleがアピールしているのは回答の速度とロジックの扱い、コーディングだ。Geminiの方が回答速度が圧倒的に速い上、最新情報もWebから引用できるため、学習データのカットオフ日である2021年9月以降の話題についても取り扱うことができる点でChatGPTに対する優位性がある[33]。ただ文章の生成能力や論文などの長文はGPT-4と比較して苦手としており、そのような分野ではChatGPTに優位性があると言える。
また、マイクロソフト製のチャットボット「Bing AI」はGPT-4を使用している他、Bing検索を利用して最新の情報提供することが出来る。そのためBing AIに対する優位性は薄い。ただし、Bing AIのエンジンはGPT-4であるため、回答速度に関してはChatGPTと同様にGeminiに優位性がある[34]。
Googleは2023年5月10日に、同社の開発者会議であるGoogle I/O 2023を開催した。Google I/O 2023で発表された、旧Bardに関連するアップデート内容を紹介する。
旧Bardは当初、LaMDAを活用して運用されていたが、計算能力の強化を目的にPaLMを導入した。Google I/O 2023で、PaLMをさらに発展させたPaLM2に切り替えると発表し、即日導入された。これにより、日本語への対応や、多言語翻訳、推論などでより高度な情報を提供できるようになるという[35]。
Google検索に「Search Generative Experience(サーチゲネレーティブエクスペリエンス、略称 SGE)」の導入が発表された。これは、今までGoogleが消極的だった検索エンジンに会話型AIサービスを組み込むというもの。SGEは従来のリスト式の検索エンジンとは180度転換されるもので、AIが持つ情報やGoogleの検索結果を元に内容を説明し、根拠となるソースをユーザーに提供する。複数の単語を組み合わせて検索していた従来の検索方法は、文章で質問する方向へ移り変わる。
SGEの主な機能として、検索結果に関連するテキスト、画像、動画を生成することができる。これにより、ユーザーは検索結果をより深く理解し、より多くの情報を見つけることができるようになる。たとえば、SGEを使用して「ピザ」を検索すると、ピザの作り方の動画、ピザ店の評価、ピザの作り方に関する記事など、検索結果に関連するコンテンツを生成できる。
なお、この機能は現在一部の国でのみアクセスが可能なほか、信頼できるテスターのみへの提供となっている[36]。
GoogleはMicrosoft Copilotへの対抗として、Google WorkspaceとGeminiの連携を強めている。主に2つの内容が発表された。
Google WorkspaceのオフィスソフトにPaLM2を採用したAIを導入すると発表した。これによると、Gmailで下書きの生成、文章の要約、文書からプレゼンテーションの作成、旧Bardの回答をGoogleドキュメントへ出力することが可能になった[37]。なお、この機能は2023年6月以降の展開となる。
2023年5月5日のアップデートで旧BardとGoogle Workspaceの連携を開始した。Google Workspaceの組織管理者アカウントはドメインで旧Bardを有効にできるようになり、ユーザーはWorkspaceアカウントを使用して旧Bardにアクセスできるようになった。企業や学校などの大量にアカウントを管理する場面で活用が広がる可能性がある[38]。
AdobeとGoogleは、画像生成AIである「Adobe Firefly」とGoogleの会話型AI「Bard」がパートナーになると発表した。Bardに画像生成を依頼すると、Adobe Fireflyの技術で画像が生成される。この機能は今後数ヶ月以内に順次展開される[39]。
2023年4月18日、日本国内からのアクセスが解禁された[40]。また2023年5月10日、Google I/O 2023にて、日本語と韓国語に対応したほか、待機リストを撤廃し、誰でも自由に使えるものとなった[4]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.