🕛 2026.5.17 10:17 文:ズバッとショウ

Gemini Embedding 2が一般提供。テキストと画像と動画を「同じベクトル空間」に詰める時代へ

Gemini Embedding 2が一般提供。テキストと画像と動画を「同じベクトル空間」に詰める時代へ
X はてブ LINE Feedly

Google が Gemini Embedding 2 を一般提供にした、という話。2026 年 4 月 30 日付の Developers Blog で、その中身が整理されています。

ここがポイントで、Gemini API としては「テキスト・画像・動画・音声・ドキュメントを同じベクトル空間に押し込んだ初のモデル」になっている。100 言語以上に対応。要するに RAG(検索拡張生成)の構成が、これで一段ぶん雑になる。

1 リクエストで何が入るか

公式が出している入力上限がそのまま使い勝手の答えになる。

テキストは 8,192 トークン、画像は 6 枚、動画は 120 秒、音声は 180 秒、PDF は 6 ページまで、ひとつのコールに混ぜて投げられる。しかも interleaved、つまり「テキスト → 画像 → テキスト」を 1 リクエストで束ねて、ひとつの意味ベクトルとして返す。コードのサンプルでも、"An image of a dog" という文字列と画像バイト列を contents に並べて 1 ベクトルを取り出している。

これまでのマルチモーダル RAG は、テキスト用とビジョン用で別のモデルを並走させて、結果をくっつける構成が多かった。結局のところ、そのつなぎ目をモデル側に押し込んだ、というのが今回の変更点

task prefix が地味に効く

Patrick Löber が書いている使いどころとして「タスクプレフィックス」が紹介されている。

<br>
task: question answering | query: {content}<br>
task: fact checking | query: {content}<br>
task: code retrieval | query: {content}<br>
task: search result | query: {content}<br>

クエリ側にこれをつけて、文書側には title: ... | text: ... をつける。インデックス時と検索時の両方で同じ前置きを使うと、短いクエリと長い文書のあいだのギャップが詰まる、という話。

ここまでは「タダのコツ」ではある。けれど、ベンチマーク上のリトリーバル精度が変わるなら、開発者として無視できる話じゃない。

採用事例の数字

公開済みの導入企業として、ふたつ出ている。

ひとつは法務 AI の Harvey。法務特化のベンチマーク上で、これまで使っていた埋め込みと比べて Recall@20 が 3% 向上した、と紹介されている。法律事務所向けの引用と回答の精度に直結する、という主張。

もうひとつは Supermemory。エージェント向けの「メモリ用ベクトル DB」を作っている会社で、Recall@1 が 40% 向上、と書かれている。短文の質問に対して「ど真ん中のメモを 1 件目で当てる」割合がそれだけ動いた、という意味。

正直、Recall@20 で 3% は法務系では大きい。Recall@1 で 40% はかなり粗削りな世界からの改善で、ベースライン依存ではあるけれど、メモリ用途の精度ボトルネックを 1 段階分こじ開けた数字だと思う。

いまの実力と限界

単発の埋め込みが欲しい局面のために、Batch API で個別ベクトルを返す経路も用意されている。Agent Platform 側はまだ対応中、という状況。価格・無料枠の具体的な数字は今回の記事には載っておらず、料金表は別ページに分かれている。

それから、これは embedding モデルなので、生成は別途 Gemini 2.x 系を呼ぶ構成になる。「Gemini Embedding 2 だけで答えが返る」わけではない、という当然の前提は押さえておいた方がいい。

日本のユーザー・産業への含意

日本での効きどころは、社内文書とマニュアルとサポートメールが「テキスト・画像・PDF が混ざった束」になっている職場だと思う。

中堅・大企業の業務マニュアルは、テキスト・スクリーンショット・PDF の表が混在しているのが普通。これまでだと、OCR してテキスト化してから埋め込みを取って、画像は別経路、というパイプを引いていた。Gemini Embedding 2 なら、その PDF をそのままページ単位で投げて 1 ベクトル化できる。社内 RAG の実装コストが、配管 1 段ぶん減る。

学校・自治体側は、教材 PDF と動画教材を同じ検索空間に入れられる、という意味で効く。動画 120 秒区切りなので、長尺の授業動画はチャンク戦略が必要だけれど、「該当シーン直行」の体験は現実的なところまで来ている。

だから何が変わるか

RAG パイプの設計図が、これで「Gemini Embedding 2 → ベクトル DB → Gemini」という 1 行に書ける時代。第 2 フェーズはどこか?

情報元
Google Developers Blog — Building with Gemini Embedding 2: Agentic multimodal RAG and beyond(2026-04-30)
Gemini API Docs — gemini-embedding-2 モデルカード(英語)
Gemini API Docs — Embeddings task types(英語)

みんなの反応

呪文つかい
(プロンプトエンジニア・30代女性)

task prefix を index 側と query 側の両方に揃えるの、地味に守られてないプロジェクト多すぎる。今回これがドキュメント化されただけでもありがたい。Recall@1 の 40% は Supermemory のベースラインが甘かった可能性もあるから、まずは自分のドメインで A/B 取りますね。
データの掃除屋
(データエンジニア・30代男性)

PDF 6 ページ・動画 120 秒の制約はチャンク戦略でカバーする前提として、社内マニュアルが「テキスト+図」混在のうちは確実にデバッグが減る。OCR → 別パイプラインがひと工程消える分、運用が楽になるのが効く。
島ぐらしCTO
(60代男性・元IT企業CTO、現ゲストハウス経営)

地方の小さな宿でも、予約サイトの写真と紹介文と PDF の規約をまとめて1つの検索空間にできるなら導入価値がある。問い合わせメールに「この写真の部屋、何号室?」って聞ける時代が近づいてる感じはする。
U
UXデザインの人
(UXデザイナー・30代女性・AI製品担当)

interleaved 入力でひとつのベクトルを返す、というのは検索 UI の発想を変える話だと思う。「画像とメモを一緒に投げる検索ボックス」が普通になるなら、ユーザーリサーチで観察してきた「言語化できない検索」が救われる人が増える。
インフラの仙人
(情シス担当・40代男性・中堅企業)

価格表が記事に書いてないのが気になる。マルチモーダル分の課金単位(トークン換算?秒数換算?)次第で稟議の通り方が全然違ってくるので、料金ページ読みに行ってから検討する。
X はてブ LINE Feedly