「Gemini（ジェミナイ）」とは？GoogleAI技術の特徴や使い方

投稿日：2023-12-22最終更新日：2024-06-27

57 Views

7 Likes

#「Gemini（ジェミナイ）」とは？GoogleAI技術の特徴や使い方
近年、OpenAIのChatGPTを始めとしてAI技術が目まぐるしく発展していくなか、Googleが新しいAI「Gemini（ジェミナイ）」を発表しました。新しい人工知能モデルのなかでも強力なスペックを誇り、テキストベース以外にも画像や動画を理解できるとされています。

この記事では、そんなGoogleAIのGeminiとはなにか、特徴や種類、使い方を解説します。安全性が気になる方へ向けてGoogleのポリシーについても取り上げ、ご紹介します。

Gemini（ジェミナイ）とは
Gemini（ジェミナイ）の特徴
ChatGPTとの違い
Gemini（ジェミナイ）には3つのタイプが存在
Ultra
Pro
Nano
Gemini（ジェミナイ）の使い方
Bard
API
APIキーを取得する手順
Pixel 8 Pro
Gemini（ジェミナイ）の安全性とGoogleのポリシー
まとめ

Gemini（ジェミナイ）とは

「Gemini（ジェミナイ）」とは、Googleが新しく開発した人工知能モデルです。LaMDAおよびPaLM2の後継モデルであり、画像や音声、動画などテキスト以外のデータタイプも組み合わせて識別できるマルチモーダル生成AIとして注目を集めています。

従来の生成AIに比べて、より柔軟で幅広い活用が可能であることが「Gemini」の魅力です。ここでは、特徴やChatGPTとの違いについて解説します。

Gemini（ジェミナイ）の特徴

Gemini（ジェミナイ）のもっとも大きな特徴に、マルチモーダル性があげられます。マルチモーダルとは、複数の手段や形式を組み合わせることです。画像や音声、動画などを組み合わせてマルチに識別できるため、従来のAIでは対応できなかったタスク処理も実現できると期待されています。

そのため、Geminiは物事や情報をより詳しく深掘りできる特徴があります。一般的な生成AIでは理解しづらい文章の組み合わせや、視覚情報に基づいたデータも汲み取れるのが大きな特徴です。

さらに、コーディング能力に期待が集まっているのもGeminiが持つ特徴のひとつ。GeminiはPythonを始めJavaやC++など様々なプログラミング言語とコードを理解できるため、幅広いコーディング作業を効率化できます。

Pythonのコーディングスキルを図るHumanEvalなど、プログラムベンチマークでは、Geminiが優れたスコアを達成したと評判です。

ChatGPTとの違い

OpenAIの「ChatGPT」と、Googleの「Gemini（ジェミナイ）」にはいくつかの違いがあります。たとえば、ChatGPTは主にテキストの理解と生成に長けており、会話型AIとして知られています。一方でGeminiは画像や動画、音声を含めて処理できるマルチモーダル型AIで、高度な理解力を誇っています。

また、2023年12月6日に公開された学術ベンチマークの結果では、32項目のうち30項目でGPT-4を上回ったとして注目を集めているのもポイントです。
出典元：Googleブログ：Introducing Gemini: our largest and most capable AI model

Googleの発表ではできる限りハルシネーションの問題も抑えたとされており、「専門家を超えるAI」として注目を集めています。

Gemini（ジェミナイ）には3つのタイプが存在

一口にGemini（ジェミナイ）と言っても、提供されているシステムには3つのタイプが存在します。それぞれのサイズによって性能や使用できる媒体が異なるため、事前にチェックしておきましょう。

ここでは、Geminiのタイプについて解説します。

Ultra

もっともサイズの大きいAIです。Gemini Ultraは2024年公開予定とされており、現在はまだ利用できません。Googleによると、物理学や医学、法律など自然科学や人文科学を組み合わせたテストでは、90.0%の成績で専門家を上回る成果を発揮した初のAIとされています。

Pro

すでにGoogleのAI「Bard」にて公開されているAIです。現在は英語版に限られていますが、順次提供範囲が拡大される予定です。MMLUや小学生の算数レベルでは、GPT3.5よりも上回ったパフォーマンスを発揮するとされています。

出典元：Googleブログ「Gemini で Bard がさらに便利に」

Nano

Googleが提供しているスマートフォン「Pixel 8 Pro」に搭載されるAIです。自動文字起こしなどを実現する「レコーダー」の要約能力を高めるなど、すでに搭載されている機能をさらに高性能にできるとされています。

Gemini（ジェミナイ）の使い方

ChatGPTとは異なった学習形態でベンチマークでも優れた成績を誇るGemini（ジェミナイ）は、誰でも気軽に活用できます。もっとも高性能なUltraはまだ利用できないものの、高性能な機能の片鱗を味わうことが可能です。

ここでは、Gemini（ジェミナイ）の使い方として代表的な手段を紹介します。

Bard

もっともお手軽にGeminiを使う方法として、「Bard（Google公式）」を利用する方法が挙げられます。英語版のBardにはGemini Proが組み込まれており、高性能AIの機能をテストできます。

ただし、Gemini Proは現在英語版でのみしかGeminiの機能が開放されていないため、英語版Bardへアクセスしなければなりません。英語版Bardへアクセスするには、利用しているGoogleアカウントの管理から、優先言語を英語に設定しておく必要があります。

API

GeminiのAPIを利用することも手段のひとつです。現在公開されているのはGemini Proで、APIを通して同モデルにアクセスできます。APIはGoogle AI for Developers]から獲得できます。

APIキーを取得する手順

1.「Get API key in Google AI Studio」をクリック
手順、Get

2.「Terms of Service（利用規約）」を確認し、一番上のチェックボックスを選択する
3.「Continue」をクリック
手順、利用規約を確認し、一番上のチェックボックスを選択する

※ 利用規約(和訳) 2023年12月時点

Google AI Studio および Generative Language API の利用には、Google API 利用規約および Generative AI API 追加利用規約が適用されます。

知っておくべきこと

本番用途で API を使用することはできますが、Google はレート制限を実施する場合があります。
APIに機密情報や個人情報を送信しないでください。品質、安全性、および Google 製品の向上のため、人間のレビュアーが API の入出力を読み取り、注釈を付け、処理することがあります。Google では、このプロセスの一環として、レビュアーが閲覧したり注釈を付けたりする前に、このデータをお客様の Google アカウントまたは API キーから切り離すなど、お客様のプライバシーを保護するための措置を講じています。
ジェネレーティブ AI モデルは実験的な技術であり、Google の見解を代表しない不正確または不適切な情報を提供することがあります。
医療、法律、金融、その他の専門的なアドバイスとして回答を信頼しないでください。

Generative AI API 追加利用規約および Google API 利用規約に同意し、Google プライバシーポリシーを読んだことを認めます。

Google AI に関する最新情報、キャンペーン、役立つヒント、ニュースなどのメール配信を希望します。

Google AI の改善に役立つ調査研究への招待を希望します。

4.「Get API key」をクリックして取得画面に遷移
手順、Get

5.「Create API key in new project」を選択
手順、Create

6.「Copy」をクリックして、生成されたAPIキーをコピー
手順、Copyをクリック

GeminiのAPIは現在無料で利用可能ですが、レート制限は60クエリ/分となっています。ただし、同APIのプライバシーポリシーでは、無料版で活用されたデータは学習に利用するとされています。そのため、個人情報を含むやり取りは無料版で行わないのがベストです。

将来的に一般公開される際は「1000文字あたり0.00025ドル」「画像一枚あたり0.0025ドル」が必要になるためご注意ください。

Pixel 8 Pro

Pixel 8 ProにはGemini Nanoが搭載されており、レコーダーなどの録音アプリで内容を要約してもらえる機能などが利用できます。また、スマート返信機能など、AIを通して利便性をアップさせる仕組みが搭載されているのも魅力です。

Gemini（ジェミナイ）の安全性とGoogleのポリシー

Geminiは開発段階から潜在的リスクを検討し、安全性を確保するためにさまざまな取組が行われています。製品全体にわたる安全ポリシーを設け、AI原則に基づいてマルチモーダル機能や保護的な仕組みを搭載するとされています。

潜在的リスクの検討では、最高クラスの敵対的テスト技術をもとに、サイバー攻撃や自律性を踏まえて重大な問題を特定。また、モデルの学習・出力が安全に基づくポリシーに従っているか、Real Toxicity Prompts（Web上から取得された異なる有害性のある100,000ものプロンプト）で細かくベンチマークを実施しているのもポイントです。

また、内部評価だけではつい盲点になってしまう課題も特定するため、外部の専門家やパートナーなど異なるグループ間でGeminiのストレステストも実施しているなど、安全ポリシーに基づいたさまざまな取り組みが行われています。

出典元：Googleブログ「最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに」

まとめ

GoogleのAI「Gemini（ジェミナイ）」は、32項目のうち30項目でChatGPT4.0を上回ったとされています。テキストベースのChatGPTに比べて、Geminiは画像や音声、動画を含むマルチモーダルな機能性が魅力です。

そんなGeminiの最高クラスはまだ提供が始まっていないものの、「Pro」はAPIや英語版Bardを通していつでも利用することができます。生成AIの目まぐるしい発展が気になる方は、この機会にお試ししてみてはいかがでしょうか。

ChatGPT活用相談室では、ChatGPTの社内導入から運用まで、トータルでサポートいたします。

ChatGPTを導入したいが、セキュリティの懸念がある
自社の業務に合わせてカスタマイズしたいが、社内にできる人材も時間もない
社内ルールやガイドラインの策定など、運用方針の確立に困っている

など、ChatGPTに関する課題やお悩みがあればお気軽にご相談ください。
初回のご相談は無料で承っております。下記バナーよりお申し込みください。