
Google が Gemini Embedding 2 を一般提供にした、という話。2026 年 4 月 30 日付の Developers Blog で、その中身が整理されています。
ここがポイントで、Gemini API としては「テキスト・画像・動画・音声・ドキュメントを同じベクトル空間に押し込んだ初のモデル」になっている。100 言語以上に対応。要するに RAG(検索拡張生成)の構成が、これで一段ぶん雑になる。
公式が出している入力上限がそのまま使い勝手の答えになる。
テキストは 8,192 トークン、画像は 6 枚、動画は 120 秒、音声は 180 秒、PDF は 6 ページまで、ひとつのコールに混ぜて投げられる。しかも interleaved、つまり「テキスト → 画像 → テキスト」を 1 リクエストで束ねて、ひとつの意味ベクトルとして返す。コードのサンプルでも、"An image of a dog" という文字列と画像バイト列を contents に並べて 1 ベクトルを取り出している。
これまでのマルチモーダル RAG は、テキスト用とビジョン用で別のモデルを並走させて、結果をくっつける構成が多かった。結局のところ、そのつなぎ目をモデル側に押し込んだ、というのが今回の変更点。
Patrick Löber が書いている使いどころとして「タスクプレフィックス」が紹介されている。
<br>
task: question answering | query: {content}<br>
task: fact checking | query: {content}<br>
task: code retrieval | query: {content}<br>
task: search result | query: {content}<br>
クエリ側にこれをつけて、文書側には title: ... | text: ... をつける。インデックス時と検索時の両方で同じ前置きを使うと、短いクエリと長い文書のあいだのギャップが詰まる、という話。
ここまでは「タダのコツ」ではある。けれど、ベンチマーク上のリトリーバル精度が変わるなら、開発者として無視できる話じゃない。
公開済みの導入企業として、ふたつ出ている。
ひとつは法務 AI の Harvey。法務特化のベンチマーク上で、これまで使っていた埋め込みと比べて Recall@20 が 3% 向上した、と紹介されている。法律事務所向けの引用と回答の精度に直結する、という主張。
もうひとつは Supermemory。エージェント向けの「メモリ用ベクトル DB」を作っている会社で、Recall@1 が 40% 向上、と書かれている。短文の質問に対して「ど真ん中のメモを 1 件目で当てる」割合がそれだけ動いた、という意味。
正直、Recall@20 で 3% は法務系では大きい。Recall@1 で 40% はかなり粗削りな世界からの改善で、ベースライン依存ではあるけれど、メモリ用途の精度ボトルネックを 1 段階分こじ開けた数字だと思う。
単発の埋め込みが欲しい局面のために、Batch API で個別ベクトルを返す経路も用意されている。Agent Platform 側はまだ対応中、という状況。価格・無料枠の具体的な数字は今回の記事には載っておらず、料金表は別ページに分かれている。
それから、これは embedding モデルなので、生成は別途 Gemini 2.x 系を呼ぶ構成になる。「Gemini Embedding 2 だけで答えが返る」わけではない、という当然の前提は押さえておいた方がいい。
日本での効きどころは、社内文書とマニュアルとサポートメールが「テキスト・画像・PDF が混ざった束」になっている職場だと思う。
中堅・大企業の業務マニュアルは、テキスト・スクリーンショット・PDF の表が混在しているのが普通。これまでだと、OCR してテキスト化してから埋め込みを取って、画像は別経路、というパイプを引いていた。Gemini Embedding 2 なら、その PDF をそのままページ単位で投げて 1 ベクトル化できる。社内 RAG の実装コストが、配管 1 段ぶん減る。
学校・自治体側は、教材 PDF と動画教材を同じ検索空間に入れられる、という意味で効く。動画 120 秒区切りなので、長尺の授業動画はチャンク戦略が必要だけれど、「該当シーン直行」の体験は現実的なところまで来ている。
RAG パイプの設計図が、これで「Gemini Embedding 2 → ベクトル DB → Gemini」という 1 行に書ける時代。第 2 フェーズはどこか?
情報元
– Google Developers Blog — Building with Gemini Embedding 2: Agentic multimodal RAG and beyond(2026-04-30)
– Gemini API Docs — gemini-embedding-2 モデルカード(英語)
– Gemini API Docs — Embeddings task types(英語)