Telegram-канал data_easy - EasyData: Unsorted - каталог телеграмм

EasyData

15 March 2026 18:01

Привет, друзья!
Сегодня разберём громкую новинку уходящей недели - Gemini Embedding 2. Это первая омнимодальная модель от Google: она умеет мапить текст, изображения, видео, аудио и документы в единое векторное пространство.

👍 Технические детали:
- Длина вектора 3072, модель может принимать сразу несколько типов данных (но может и один).
- Есть ограничения по входу для каждой модальности:

• текст - до 8192 входных токенов
• изображения - до 6 файлов PNG или JPEG в одном запросе
• видео - до 120 секунд в формате MP4 или MOV
• аудио - принимается без транскрибации (обычно лимит ~80 сек, но здесь явно не пишут)
• документы - PDF до 6 страниц

- Доступ сейчас через Gemini API / Vertex (Public Preview) - а значит нужно учитывать квоты, биллинг, приватность данных и потенциальные задержки API.
- Благодаря MRL (Matryoshka Representation Learning) размерность эмбеддингов можно уменьшать без повторного вычисления.
- Отлично подходит для семантического поиска и мультимодального RAG.

👍 Но не спешите выбрасывать multi-vector архитектуры в окно!
Объединённый эмбеддинг удобен для общей семантики, но в реальных системах один объект всё равно часто представляют несколькими векторами - это помогает лучше решать разноплановые задачи и экономит время/место для простых задач (кстати, хранилища вроде Milvus тоже рекомендуют гибридные схемы).

Так что, Gemini Embedding 2 - важный шаг вперёд: единое пространство эмбеддингов для разных типов данных упрощает кросс-модальный поиск и RAG + позволяет быстрее собрать MVP.
Но в проде всё равно часто используют гибридные схемы - с доп. векторами, фильтрацией по атрибутам, а также ищут решения, которые можно запускать локально.

👍 Полезные ссылки:
• Официальный анонс
• Документация, Vertex и спецификации
• Ещё раз статейка от milvus

#полезный_ии@data_easy