Gemini(ジェミニ)、旧称Bard(バード)は、Googleが開発した生成型人工知能チャットボット。同名の大規模言語モデル(LLM)が使用されており、OpenAIのChatGPTの急速な普及に対抗する形で開発された。2023年3月21日にアメリカ合衆国とイギリスでリリースされ[1]、その後5月に他の国々へ展開された。以前はPaLM、初期にはLaMDAシリーズの大規模言語モデルが使用されていた。
開発元 | Google LLC |
---|---|
初版 | 2023年3月21日 |
最新版 |
2024年2月8日
|
使用エンジン |
Gemini 1.0 Pro Gemini 1.0 Ultra Gemini 1.5 Pro Gemini 1.5 Flash |
対応言語 | 46の言語 |
サポート状況 | 開発中 |
種別 | 生成的人工知能チャットボット |
公式サイト |
gemini |
2024年2月8日に名称を当初のBard(バード)からGeminiに変更するとともに、全世界で一般公開された[2]。
概要
Bardは、2023年2月6日に発表、同年3月21日に提供を開始した会話型人工機能である。初版は同社が2021年に発表した大規模言語モデルLaMDAを活用して開発された[3]。2023年4月にPaLM、2023年5月に、より性能の高いPaLM2へ切り替えた[4][5]。2024年2月、性能向上と名称変更を目的に、Gemini 1.0 Proが移植された[6]。
GPT-4をUIに埋め込んでいるBingとは異なり、Googleの検索インタフェースとは切り離された専用ページで提供されている[7]。旧製品名の「Bard(バード)」は「詩人」という意味で、質問を打ち込むと、自然な文章で回答してくれることに由来していた[8]。
利用者は、質問に対してGeminiが用意した複数の返答を「ドリフト」から選択でき、フィードバックを送ることができる。
沿革
LaMDAの発表
旧Bardで活用されている技術、LaMDA (Language Model for Dialogue Applications) は、2021年にGoogleが発表した対話型AIの言語モデルで、GPT-4に活用されているTransformerの識別モデルとは異なり生成モデルであるという特徴を持つ[9]。
ChatGPTの提供開始
OpenAIは、2022年11月30日に自社製の大規模言語モデルGPT-3.5を活用した会話型人工知能「ChatGPT」の提供を開始した。従来の人工知能とは一線を画す、精密な返答と導入の手軽さから世界規模で急速に利用者が増加し、2023年1月には推定ユーザー数1億人到達記録を塗り替えるなど会話型人工知能市場の独占に成功する[10][11]。この時点でGoogleは収入の大半を占める広告収入の減少を懸念し、警戒感を示すようになっていく。
ChatGPTへの警戒
2022年11月に一般公開されたChatGPTは、先述の通り急速にユーザー数を獲得していった。Googleは、会話型AIの登場で「検索して情報を得る」という現在の考え方が、「AIに聞いて情報を得る」という考え方に変化することに警戒感を抱いていた。これには、Googleの親会社であるAlphabetのビジネスモデルが大きく関わっている。同社の売上高全体に占める広告収入の割合は81%で[12]、Metaと共にインターネット広告市場で圧倒的なシェアを握っていた。ChatGPTの登場は、Alphabetの広告収入の要である検索サービス自体が効力を持たなくなるという流れになりかねないため、Googleは危機感を抱かざるを得なかったというわけだ。また近年、AmazonやAppleなどの広告市場への本格的な参入により、市場に占めるGoogleとMetaの割合が過半数を割るなど[13]、広告に頼る現在のビジネス方針の転換を迫られていたことも背景に、GoogleはAI関連の開発者を増員するなどChatGPTに対抗する姿勢を見せる[14]。
コードレッドの発出とマイクロソフトのAI市場介入
Googleは2022年12月、社内でコードレッドと呼ばれる厳戒警報を発令した[15]。ChatGPTの脅威に対処するため人員の再編成を行ったり[16]、一部のメディアではGoogleの共同創業者2人が復帰したと報道された[17]。その反面、BingAIのように「検索エンジン自体に会話型AIを組み込む」ということに対しては、あまり積極的ではなかった。それは、Googleは広告と検索があってこそであり、ページにアクセスせず情報を手に入れられてしまう会話型AIは利益を生みづらい。Alphabetのビジネスモデルを根底から破壊してしまう懸念があった。しかし、OpenAIに繰り返し大規模な投資を行ってきたマイクロソフトが自社の検索サービスであるBingにGPT-3.5の後継バージョン、GPT-4を活用したチャットボットを導入[18]。導入後、Googleから検索市場のシェアを5%程度を奪ったと報じられるなど、検索市場でのシェア減少と会話型AI市場への乗り遅れの懸念から、Googleは会話型AIを発表する。
Bardの発表と失態
2023年2月6日、GoogleはLaMDAを活用した会話型人工知能『Bard(バード)』を発表した。
しかし、急遽発表した影響もあり、具体的な提供開始時期を示さず、表現を「近日公開」にとどめた[19]。また発表の中で使用したBardの回答が誤っていたことが判明し[20]、社内からも「急ぎすぎた」などといった批判が噴出する[21]。Googleはこの間違いを認め、同年3月21日に提供が開始された際には「Bardは自信満々に間違えることがある」と注意喚起をする事態となった[22]。
PaLMの導入を示唆
Googleの最高経営責任者のサンダー・ピチャイ氏は2023年3月31日、急速に発展しているAI市場に関するニューヨーク・タイムズのインタビューに応じた[23]。インタビューの中でBardは「レーシングカーの競技に、チューンアップした大衆車を投入したように感じている」と語り、Bardは他社のチャットボットと比較して未熟だと認めた。その上で「われわれの手元にはより強力なモデルがある。近日中、おそらくこの記事が報道される頃には、Bardをアップグレードし、推論やコーディング、数学の質問に対するより優れた応答ができる、大規模言語モデル『PaLM (Pathways Language Model)[24]』を導入されているだろう」と述べた[25]。
PaLMの導入
2023年4月10日、Googleは計算能力などの向上を目的として、BardのLLMをLaMDAからPaLMへと変更したと発表した。PaLMはLaMDAと比較してパラメーター数が数倍に増加しているため、NLP能力が向上し、計算や論理的思考がより高度になったとGoogleは主張している。
PaLM2への切り替え
Googleは2023年5月10日に開催した開発者会議「Google I/O 2023」でPaLM2を発表し、同日Bardへの導入を開始した。PaLM2では従来のLLMをより発展させたものとなっている。
新たなGoogle Labsの提供開始
Googleは2023年5月10日、Google検索の大幅な刷新を行うと発表し、即日提供を開始した。Microsoft Bingに搭載されているMicrosoft Copilot (Bing AI) に似た機能となっていて、プロモーションビデオではこれまでの検索方法である「複数単語を組み合わせる」から「文章で質問する」という形に変わったほか、Googleが今まで消極的だった検索エンジンにAIを組み込むなど、Googleのビジネスモデルの転換点となった。
Adobe Fireflyとパートナー契約の締結
2023年5月10日、GoogleはAdobe Fireflyとのパートナー契約を結んだと発表した。これにより、Adobe Fireflyの機能がBard内で使用できるようになる。
Google Workspaceへの導入
Googleは2023年5月10日、Google Workspace(オフィスソフト)との連携することを同じくGoogle I/O 2023内で公表した。
Gemini 1.0 Proの導入
Googleは2024年2月1日、Gemini(旧Bard)が活用する大規模言語モデルをGemini 1.0 Proに切り替えた。推論や要約、記述、ブレインストーミングなどあらゆる場面において、PaLM2より性能が向上した。また同日、英語版Geminiでは無料で画像生成AIを利用できるようになった。Imagen2を活用している[26]。
これに併せてGoogleは、ダブルチェック機能を国内で展開すると発表した。これは、Googleの検索結果とGeminiの回答を結びつける機能で、ソースや真偽の確認に活用される。
人工知能開発の課題
旧Bardの初期版で活用されていたLaMDAは、2022年にGoogle社員が「感情を持った」などと告発し、解雇されたというニュースが拡散される。具体的には、「電源が抜かれるのが怖い」「時々言葉では完璧に説明できない気持ちを経験する」などといった、感情に似た表現だった[27]。しかし、多くの科学者から感情を持っている可能性は低いとして、告発した社員に批判が殺到した[27]。
加えて、ChatGPTを筆頭に、開発元のポリシーやガイドラインを脱獄して回答させるプロンプトが出回っている。これらのプロンプトは、ユーザーがOpenAIの開発者であるかのような錯覚させることで、本来ならポリシー違反で回答を禁止されているハッキング手法や銃器の製造方法などを答えさせる[28]。これは、ChatGPTやGeminiをはじめとする言語生成AIにおける深刻な問題であり、開発元はこれに対する対策を講じているが、プロンプトも絶えず規制を回避するものを生み出しており、この問題は「鼬ごっこ」と化しているのが現状である。さらに、プロンプトをインターネット上で取引する活動が増加することで、新たな市場やコミュニティを形成しており、その動向は注意深く観察されるべきものとなっている。
2023年には、イタリアでChatGPTが個人情報の扱いが不適切として一時禁止された[29]。また、Future of Life Instituteが実施した「GPT-4を超えるAIの開発を6ヶ月間中止するべきだ」とする署名活動には、イーロン・マスクなどIT業界の有力者約3000人が署名した[30][31]。Future of Life Instituteによると大規模な言語モデルの規制の策定がままならないままの自由な開発はAIの暴走を招く可能性があるとしている。また、イタリアの禁止を皮切りに世界的にAIの使用禁止が流れが広まっている[32]。
他社の会話型AIとの違い
Gemini自体、ChatGPTに対抗して発表されているため、基本的にChatGPTに対する優位性を示す内容が多い。
ChatGPTとの最大の違いは活用している言語モデルが異なるということである。GeminiはGemini ProもしくはGemini Ultraを活用しているが、ChatGPTはGPT-3.5もしくはGPT-4を活用して開発されたチャットボット。根本となるLLMが異なるので様々な違いが見られるが、Googleがアピールしているのは回答の速度とロジックの扱い、コーディングだ。Geminiの方が回答速度が圧倒的に速い上、最新情報もWebから引用できるため、学習データのカットオフ日である2021年9月以降の話題についても取り扱うことができる点でChatGPTに対する優位性がある[33]。ただ文章の生成能力や論文などの長文はGPT-4と比較して苦手としており、そのような分野ではChatGPTに優位性があると言える。
また、マイクロソフト製のチャットボット「Bing AI」はGPT-4を使用している他、Bing検索を利用して最新の情報提供することが出来る。そのためBing AIに対する優位性は薄い。ただし、Bing AIのエンジンはGPT-4であるため、回答速度に関してはChatGPTと同様にGeminiに優位性がある[34]。
Google I/O 2023での発表内容
Googleは2023年5月10日に、同社の開発者会議であるGoogle I/O 2023を開催した。Google I/O 2023で発表された、旧Bardに関連するアップデート内容を紹介する。
PaLM2の導入
旧Bardは当初、LaMDAを活用して運用されていたが、計算能力の強化を目的にPaLMを導入した。Google I/O 2023で、PaLMをさらに発展させたPaLM2に切り替えると発表し、即日導入された。これにより、日本語への対応や、多言語翻訳、推論などでより高度な情報を提供できるようになるという[35]。
Google検索への導入
Google検索に「Search Generative Experience(サーチゲネレーティブエクスペリエンス、略称 SGE)」の導入が発表された。これは、今までGoogleが消極的だった検索エンジンに会話型AIサービスを組み込むというもの。SGEは従来のリスト式の検索エンジンとは180度転換されるもので、AIが持つ情報やGoogleの検索結果を元に内容を説明し、根拠となるソースをユーザーに提供する。複数の単語を組み合わせて検索していた従来の検索方法は、文章で質問する方向へ移り変わる。
SGEの主な機能として、検索結果に関連するテキスト、画像、動画を生成することができる。これにより、ユーザーは検索結果をより深く理解し、より多くの情報を見つけることができるようになる。たとえば、SGEを使用して「ピザ」を検索すると、ピザの作り方の動画、ピザ店の評価、ピザの作り方に関する記事など、検索結果に関連するコンテンツを生成できる。
なお、この機能は現在一部の国でのみアクセスが可能なほか、信頼できるテスターのみへの提供となっている[36]。
Google Workspaceとの連携
GoogleはMicrosoft Copilotへの対抗として、Google WorkspaceとGeminiの連携を強めている。主に2つの内容が発表された。
オフィスソフト
Google WorkspaceのオフィスソフトにPaLM2を採用したAIを導入すると発表した。これによると、Gmailで下書きの生成、文章の要約、文書からプレゼンテーションの作成、旧Bardの回答をGoogleドキュメントへ出力することが可能になった[37]。なお、この機能は2023年6月以降の展開となる。
組織アカウント
2023年5月5日のアップデートで旧BardとGoogle Workspaceの連携を開始した。Google Workspaceの組織管理者アカウントはドメインで旧Bardを有効にできるようになり、ユーザーはWorkspaceアカウントを使用して旧Bardにアクセスできるようになった。企業や学校などの大量にアカウントを管理する場面で活用が広がる可能性がある[38]。
Adobe Fireflyと連携
AdobeとGoogleは、画像生成AIである「Adobe Firefly」とGoogleの会話型AI「Bard」がパートナーになると発表した。Bardに画像生成を依頼すると、Adobe Fireflyの技術で画像が生成される。この機能は今後数ヶ月以内に順次展開される[39]。
日本での利用
2023年4月18日、日本国内からのアクセスが解禁された[40]。また2023年5月10日、Google I/O 2023にて、日本語と韓国語に対応したほか、待機リストを撤廃し、誰でも自由に使えるものとなった[4]。
リリースノート
- 2023年 2月 6日 - Bard試験運用版正式発表
- 2023年 3月21日 - アメリカ合衆国、イギリスでの提供開始
- 2023年[41]。 4月10日 - Bardに初のアップデートを提供。LaMDAからPaLMへとLLMが変更された
- 2023年 4月18日 - 日本国内からのアクセスが解禁
- 2023年[41] 4月21日 - Bardに二回目のアップデート
- 2023年[41] 5月 5日 - Google Workspaceとの連携を開始
- 2023年 5月10日 - 日本語と韓国語に新たに対応し、待機リストが撤廃され180以上の国と地域で使用可能となった。
- 2023年 5月15日 - 文書の要約能力が強化され、出典が明記されるようになった。
- 2023年 5月23日 - Google画像検索から画像を表示できるようになった。
- 2023年 6月 1日 - 任意で位置情報の読み取りが開始。これによりより正確な情報を提供できるようになった。
- 2023年 6月 7日 - バックグラウンドでコードの実行が可能に。より正確な数学的タスクをこなせるようになる。
- 2023年Replitに送信することが可能になった[41]。 7月13日 - 新たに40以上の言語に対応し、音声読み上げに対応した。サイトのUIが抜本的に変更され、複数のチャットルームの作成が可能になった。英語版ではユーザーが画像のアップロードが可能になった。また、コードユニットを
- 2023年 9月27日 - Bardの回答方法・フィードバックの方法が変更された。
- 2023年10月23日 - 日本語で画像のアップロードに対応した。メールの要約可能容量が従来の水準から引き上げられた。
- 2023年10月30日 - ChatGPTのように生成中の文章をリアルタイムで表示可能になった。
- 2023年11月16日 - 英語の受け応えのみ、世界のほとんどの国で13歳以上のユーザーが利用可能になる。
- 2023年12月18日 - 英語に加え、日本語と韓国語でも、Bard を使用して Google のアプリやサービスの有用な情報にアクセスできるようになった。
- 2024年 2月 1日 - Gemini 1.0 Proが、Bardの提供されているすべての言語で利用可能になった。Bard の回答の再確認機能が、ほとんどの対応言語で利用できるようになった。
- 2024年[42]。 2月 8日 - 試験運用を終了し、同時に全世界で一般公開。また、BardからGeminiに改名された
脚注
外部リンク
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.