【画像も検索！】GPT-4o時代の「マルチモーダルRAG」実装ガイド

はじめに

これまでのRAGは「テキスト」を検索して「テキスト」を生成するものでした。しかし、現実のドキュメント（マニュアルや報告書）には図表やグラフが大量に含まれており、それらを無視していては正確な回答はできません。

GPT-4oやLlaVAのような、画像も理解できるVision-Language Model (VLM) の登場により、ついに「図表の中身まで検索できるRAG」が現実のものとなりました。

Definition

テキストだけでなく、画像（イメージ）、音声、動画などの異なるモダリティ（形式）を横断して検索・生成を行うシステムです。

例えば「この製品の配線図はどうなっている？」と聞いたときに、文字だけの説明ではなく、マニュアル内の回路図画像を発見して提示できるのが強みです。

最も現実的で実装しやすい方法です。

検索時はテキスト（説明文）がヒットし、回答時には元の画像を表示します。

OpenAIのCLIPモデルなどを使うと、画像とテキストを「同じベクトル空間」にマッピングできます。

これにより、「犬の画像ベクトル」と「"かわいい子犬"というテキストベクトル」の類似度を直接計算できるようになり、テキストクエリで画像を直接検索することが可能になります。

画像の処理はテキストに比べて圧倒的に高コストです。全ての画像をVector DBに入れると、インデックス作成に時間がかかりすぎることがあります。

「重要な図表だけを抽出する」「解像度を下げる」といった前処理の工夫が、実運用では不可欠になります。

マルチモーダルRAGはまだ発展途上ですが、ビジネス現場での需要は急速に高まっています。

次回は、LangChainの実行状況をリアルタイムでモニタリングするための仕組み「CallbackHandler」の使い方について解説します。