🔍 Perplexity Search — инструмент для построения поискового движка, вдохновленного Perplexity AI!
🌟 Этот проект использует LLM и интеграцию с Google Search для обработки пользовательских запросов. После анализа запроса инструмент формирует поисковый запрос, извлекает контекст из релевантных веб-страниц и с помощью LLM создает ответ. Это позволяет получить консолидированную и информативную информацию из различных источников, обеспечивая автоматическую генерацию текста на основе найденных данных.
🌟 Проект предназначен для разработчиков, изучающих интеграцию языковых моделей в поисковые приложения. Реализация минималистична и предоставляет базовый функционал, что делает её полезной для понимания архитектуры подобных систем. Репозиторий может быть использован как стартовая точка для создания кастомизированных поисковых решений.
🔐 Лицензия: MIT
🖥 Github
@machinelearning_ru
👩💻 pydantic-ai — это проект, который интегрирует возможности Pydantic (популярной библиотеки для валидации данных и работы с моделями данных в Python) с искусственным интеллектом!
🌟 Он предоставляет инструменты для создания и использования моделей данных, которые взаимодействуют с искусственным интеллектом.
🌟 С помощью этого проекта можно более эффективно обрабатывать и валидировать данные, которые поступают из моделей ИИ, а также использовать возможности Pydantic для работы с типами данных и обеспечением их правильности в контексте AI-приложений.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
🚨 Хакеры атаковали Ultralytics YOLO и установили криптомайнеры через PyPI
🐍 Пострадали версии YOLO 8.3.41 и 8.3.42.
📂 Вредоносная библиотека размещает майнер XMRig в папке /tmp/ultralytics_runner и подключается к серверу по адресу connect.consrensys[.]com: 8080.
Гленн Йохер, основатель и генеральный директор Ultralytics, заявил, что заражённые версии были заменены чистой версией 8.3.43. По его словам, атака произошла через два пулл-запроса от пользователя из Гонконга.
🛡 На данный момент неизвестно, ограничились ли хакеры лишь установкой майнера или смогли получить доступ к пользовательским данным. Пользователям, установившим скомпрометированные версии, настоятельно рекомендуется провести глубокое сканирование системы.
✔️ OpenAI представила Sora: новую модель для создания видеороликов по текстовому описанию.
Компания OpenAI на онлайн-стриме анонсировала запуск Sora – инструмента для создания видео по текстовому запросу. Sora доступна подписчикам ChatGPT Plus и Pro, с ограничениями по региону (недоступна на территории ЕС и Великобритании), количеству генераций и качеству видео. Plus-пользователи смогут создавать до 5 видео в месяц длиной до 5 секунд в разрешении до 720p.
Pro-подписка позволяет сгенерировать до 500 коротких видео длиной до 20 секунд в разрешении до 1080p. Sora предлагает различные инструменты для редактирования и управления процессом создания видео: Storyboard для покадровой режиссуры и функции для добавления начала, концовки и объединения нескольких видео.
openai.com
@machinelearning_ru
📖 Эта статья представляет SC-MCTS*: новый алгоритм Монте-Карло Tree Search (MCTS) для больших языковых моделей (LLM), который значительно улучшает точность и скорость рассуждений!
🌟 Авторы отмечают, что предыдущие работы по применению MCTS в LLM часто упускали из виду его главный недостаток — медленную скорость по сравнению с Chain of Thought (CoT). Кроме того, ранее MCTS использовался как инструмент для различных задач LLM без глубокого количественного анализа или исследований его компонентов с точки зрения интерпретируемости рассуждений. Наконец, модель вознаграждения, являющаяся ключевым компонентом MCTS, редко подвергалась глубокому изучению или улучшению.
💡 В ответ на эти вызовы авторы провели обширные исследования и количественный анализ компонентов MCTS, выявив их влияние на производительность рассуждений LLM. На основе этих исследований они разработали интерпретируемую модель вознаграждения, основанную на принципе контрастивного декодирования, и достигли среднего улучшения скорости на 51,9% на узел с использованием спекулятивного декодирования. Дополнительно были улучшены стратегии выбора узлов UCT и обратного распространения, что привело к значительному повышению производительности. Используя SC-MCTS* с моделью Llama-3.1-70B, они превзошли o1-mini в среднем на 17,4% на наборе данных Blocksworld для многошаговых рассуждений.
🔗 Ссылка: *клик*
@machinelearning_ru
🌟 Fish Speech V1.5: модель преобразования текста в речь и клонирования голоса.
Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").
Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.
▶️Языковая структура обучающего корпуса версии 1.5:
🟢Английский (en) >300 тыс. часов
🟢Китайский (zh) >300 тыс. часов
🟢Японский (ja) >100 тыс. часов
🟢Немецкий (de) ~20 тыс. часов
🟢Французский (fr) ~20 тыс. часов
🟢Испанский (es) ~20 тыс. часов
🟢Корейский (ko) ~20 тыс. часов
🟢Арабский (ar) ~20 тыс. часов
🟠Русский (ru) ~20 тыс. часов
🟢Голландский (nl) <10 тыс. часов
🟢Итальянский (it) <10 тыс. часов
🟢Польский (pl) <10 тыс. часов
🟢Португальский (pt) <10 тыс. часов
Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.
Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.
⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.
📌Лицензирование: CC-BY-NC-SA-4.0 License.
🟡Модель
🟡Demo
🟡Документация
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #TTS #FIshSpeech
👩💻 pypyr — это инструмент для автоматизации задач и выполнения пайплайнов, который сочетает команды, скрипты на разных языках программирования и приложения в единый процесс! Pypyr позволяет определять пайплайны в формате YAML, что делает его удобным для управления сложными задачами.
💡 Инструмент предоставляет интерфейс командной строки (CLI) и API для выполнения пайплайнов. Он может быть расширен за счёт плагинов, таких как поддержка AWS или Slack. Это делает pypyr подходящим для самых разных сценариев автоматизации, включая управление ресурсами, отправку уведомлений и интеграцию с внешними сервисами. Для использования достаточно установить библиотеку через pip и задать конфигурацию пайплайнов!
🔐 Лицензия: Apache-2.0
🖥 Github
@machinelearning_ru
🔍 Podcastfy — инструмент с открытым исходным кодом для генерации подкастов с использованием возможностей ИИ!
🌟 Он позволяет автоматически создавать диалоги на основе текстов, добавлять персонализированные элементы, а также настраивать стиль беседы, структуру диалогов и даже текстовые параметры для подкаста.
🌟 Программа поддерживает интеграцию с текстовыми и голосовыми сервисами, такими как ElevenLabs, OpenAI и Edge TTS, для преобразования текста в речь и создания аудиофайлов. Включены настройки для работы с голосами, стилем речи и другими параметрами. Это делает инструмент полезным для разработчиков, желающих автоматизировать производство подкастов или эксперименты с генеративным контентом.
🔐 Лицензия: Apache-2.0
🖥 Github
@machinelearning_ru
🔥 headshots-starter — шаблон для настройки веб-приложения, которое позволяет пользователям создавать профессиональные портретные фотографии с использованием искусственного интеллекта!
🌟 Оно работает на базе Astria AI, используя модели генеративного ИИ, и включает интеграцию с такими сервисами, как Vercel и Supabase, для развертывания и управления процессами.
🌟 Проект нацелен на генерацию изображений по загруженным фотографиям пользователей, а также имеет функционал настройки вебхуков для обработки событий, связанных с обучением модели и генерацией результатов.
🔐 Лицензия: MIT
🖥 Github
@machinelearning_ru
⚽Universal Soccer Understanding⚽
👉Универсальное понимание футбольных видео : SoccerReplay-1988 - крупнейший мультимодальный датасетов.
✅Статья https://arxiv.org/pdf/2412.01820
✅Проект https://jyrao.github.io/UniSoccer/
✅Репо https://github.com/jyrao/UniSoccer
@machinelearning_ru
💡 Интересный тред том, как компании на самом деле внедряют LLM в продакшен (более 300 технических примеров, включая локальные
https://www.reddit.com/r/LocalLLaMA/comments/1h4u7au/a_nobs_database_of_how_companies_actually_deploy/
@machinelearning_ru
📖 Руководство: Как установить NVIDIA CUDA Toolkit в Ubuntu!
💡 Набор инструментов NVIDIA Compute Unified Device Architecture (CUDA) — это программная платформа, которая позволяет разработчикам использовать вычислительную мощность обработки NVIDIA и приложений с ускорением на GPU.
🌟 Используя CUDA Toolkit, вы можете улучшить производительность, масштабируемость и эффективность в ряде приложений. К ним относятся вычисления, глубокое обучение, компьютерное зрение, игры и многое другое.
🔗 Ссылка: *клик*
@machinelearning_ru
🖥 01-preview достигла точности более 95% на тестах безопасности CompTIA!
🌟 Очень тесная кластеризация показателей среди ведущих моделей (95,72% против 92,40 %) предполагает снижение доходности после определенных размеров моделей.
@machinelearning_ru
🔍 veRL — это гибкая, эффективная и промышленная среда обучения с подкреплением (RL), разработанная для больших языковых моделей (LLM)!
💡 Обучение с подкреплением — это тип машинного обучения, в котором агент обучается принимать решения, взаимодействуя с окружающей средой, чтобы максимизировать награду. Агент выбирает действия, исходя из текущего состояния среды, и получает обратную связь в виде награды или штрафа. Основной задачей является улучшение стратегии (политики), чтобы в будущем принимать более эффективные решения. Это используется в таких областях, как игры (например, AlphaGo), робототехника, автономные системы и оптимизация процессов.
🔐 Лицензия: Apache-2.0
🖥 Github
@machinelearning_ru
🔥 nano-graphrag — библиотека для работы с Retrieval-Augmented Generation (RAG), упрощающая интеграцию графовых баз данных, таких как Neo4j, для поиска и обработки контекстных данных!
🌟 Она используется для построения эффективных систем поиска и извлечения информации с помощью графов, что актуально в задачах, связанных с естественным языком и большими языковыми моделями.
🌟 Библиотека позволяет загружать данные в графовые базы, выполнять разбиение текста на фрагменты, а также поддерживает модули для обработки запросов и работы с графами. Она интегрируется с Neo4j, используя их Graph Data Science (GDS) плагины для вычислений, что делает её подходящей для анализа сложных сетевых структур.
🔐 Лицензия: MIT
🖥 Github
@machinelearning_ru
🔥 Курс Математика Машинного обучения: Что такое тензоры.
📌 Видео
📌Colab с кодом
@machinelearning_ru
🔥 Omegance — ИИ-инструмент, который может контролировать уровни детализации в синтезе на основе диффузии, используя всего один параметр!
🔐 Лицензия: S-Lab 1.0
🔗 Страница проекта: *клик*
🖥 Github
@machinelearning_ru
🌟 TGI v3: Новая архитектура ускоренного инференса LLMs.
TGI v3 — новая версия архитектуры для обработки естественного языка, разработанная Hugging Face. TGI v3 демонстрирует значительный прирост производительности, особенно при работе с длинными запросами.
Улучшения v3:
🟢оптимизированные ядра;
🟢эффективная структура кэширования префиксов;
🟢улучшенное управление вычислительными ресурсами. Flashinfer
и flashdecoding
— новые ядра быстрой обработки текста. Оптимизированная структура кэширования позволяет быстро находить совпадения даже для очень длинных запросов.
TGI v3 оценивалась в реалистичных сценариях на коротких и длинные запросах. Результаты тестов показали, что TGI v3 обрабатывает в 3 раза больше токенов, чем vLLM, а скорость обработки увеличилась в 13 раз для запросов длиной 200K+ токенов.
Хотя результаты работы TGI v3 впечатляют, следует учитывать некоторые ограничения:
⚠️ Если в среде не хватает места в kv-кэше, это может привести к конфликту. Чтобы избежать этого эффекта, следует установить ограничение --max-total-tokens.
⚠️ В сценариях, где несколько реплик находятся за одним эндпоинтом рекомендуется использовать балансировку нагрузки на зависимые сеансы, чтобы заставить каждого пользователя отправлять свои запросы на одну и ту же реплику.
🔜 Полная статья с описанием TGI v3 доступна на HF.
🖥 GIthub
@ai_machinelearning_big_data
#AI #ML #LLM #HuggingFace #TGI
💡 AQLM․rs — сервис для запуска ИИ на пользовательских девайсах, позволяющий сэкономить на вычислительных мощностях. Опенсорс-проект разработал исследователь из научного отдела Яндекса.
С помощью сервиса можно запустить большую языковую модель с 8 млрд параметров на обычном компьютере или смартфоне через интерфейс любого браузера. Скорость ответов нейросети будет зависеть от производительности устройства.
🔗 Ссылка: *клик*
@machinelearning_ru
🔥 Эта статья посвящена тонкой настройке больших языковых моделей (LLM)!
🌟 Здесь рассмотрены ключевые этапы настройки, от подготовки данных до развертывания модели, описаны подходы (например, LoRA и DPO) и обсуждаются проблемы, включая оптимизацию производительности, управление данными и использование мультимодальных моделей. Автор подчеркивает перспективы применения LLM и предлагает рекомендации для исследователей и практиков.
📖 Читать: *клик*
@machinelearning_ru
⚡️ Новый искусственный интеллект DeepMind для игр Делает Невозможное!
Google DeepMind совершила значительный прорыв, представив Genie 2 – модель, которая способна создавать бесконечное множество интерактивных 3D-миров.
Genie 2 представляет собой мировую модель с автогрессивной латентной диффузией, обученную на большом объеме видеоданных. Модель умеет строить играбельные миры всего лишь на основе одного изображения, а также реагировать на действия пользователя с помощью клавиатуры и мыши.
Основные возможности системы включают:
🔹Создание последовательных миров продолжительностью до одной минуты
🔹Запоминание и точное воспроизведение частей мира, которые временно выходят за пределы видимости
🔹Моделирование сложных физических процессов, таких как гравитация, дым, вода и освещение
🔹Анимация персонажей и их взаимодействия с окружающей средой
🔹Генерация NPC с продвинутыми поведенческими моделями
🔹Поддержка различных перспектив, начиная от вида от первого лица и заканчивая изометрическим видом
Особо стоит отметить возможность быстрого прототипирования. Дизайнерам теперь легко преобразовывать концептуальные рисунки в полноценные интерактивные среды, что значительно ускоряет процесс создания игр. Кроме того, Genie 2 способна работать с реальными фотографиями, воссоздавая мелкие детали вроде колеблющейся травы или текущей воды.
Мы собрали для вас целую коллекцию примеров – это просто невероятно!
Несмотря на то, что технология пока находится на начальной стадии развития, мы уверены, что через несколько лет она произведет настоящую революцию в индустрии компьютерных игр.
🎯 Источник
🎯Статья
@machinelearning_ru
🌟 PydanticAI: фреймворк для создания AI-агентов на основе Pydantic.
PydanticAI - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.
Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.
PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.
Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire, с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.
▶️ В документации к проекту доступны примеры применения PydanticAI в сценариях:
🟢Построение Pydantic-модели на основе текстового ввода;
🟢Погодный агент;
🟢Агент поддержки клиентов банка;
🟢Генерация SQL-запросов на основе пользовательского ввода;
🟢RAG-поиск по массиву markdown-документам;
🟢Вывод результатов работы агента в терминале;
🟢Пример проверки потокового структурированного ответа на примере информации о видах китов;
🟢Простой чат-приложение.
⚠️ PydanticAI находится на ранней стадии бета-тестирования.
▶️Установка и простой пример "Hello Word" с Gemini-1.5-flash:
# Install via PyPI
pip install pydantic-ai
# Set Gemini API key
export GEMINI_API_KEY=your-api-key
# Run example
from pydantic_ai import Agent
agent = Agent(
'gemini-1.5-flash',
system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""
🌤 Революционный инструмент в области прогнозирования погоды от Google!
Команда Google DeepMind презентовала GenCast – новую модель искусственного интеллекта, способную с высокой точностью предсказывать погоду на целых 15 дней вперёд! 🎯
GenCast – ансамблевая диффузионная модель для прогнозирования погоды и рисков экстремальных погодных условий, обеспечивающая более быстрые и точные прогнозы на срок до 15 дней. GenCast была обученная на 40-летнем архиве исторических метеорологических данных ERA5 от ECMWF.
Модель, работающая на Google Cloud TPU v5, превосходит лидирующую систему прогнозирования ECMWF ENS по точности прогнозов на 97,2% в 1320 различных комбинациях тестируемых параметров. GenCast демонстрирует способность прогнозировать экстремальные погодные явления: периоды сильной жары и холода, сильные ветры и траектории тропических циклонов. Google DeepMind планирует выпустить код, веса и прогнозы модели в открытый доступ, чтобы поддержать метеорологическое сообщество.
Почему это так важно?
- В условиях изменения климата погода становится всё менее предсказуемой.
- Точные прогнозы помогают спасти жизни и сохранить имущество.
- Это способствует эффективному планированию использования возобновляемых источников энергии.
Что может GenCast?
- Генерирует более 50 различных сценариев развития погоды и объединяет их в единый вероятностный прогноз.
- Обеспечивает разрешение до 0.25° для всего земного шара.
- Превышает точность лучших существующих систем прогнозирования в 97.2% случаев!
Как быстро он работает?
- Всего за 8 минут создаёт 15-дневный прогноз при помощи Google Cloud TPU v5. Для традиционных систем это занимает часы работы на суперкомпьютерах!
Особенно точен в прогнозах экстремальной погоды:
- Тайфунов и ураганов
- Аномально высоких и низких температур
- Сильнейших ветров
Открытый доступ:
Google DeepMind предоставляет исходный код модели и её весовые коэффициенты всем желающим, чтобы способствовать развитию метеорологии.
▪ Статья: https://deepmind.google/discover/blog/gencast-predicts-weather-and-the-risks-of-extreme-conditions-with-sota-accuracy/
▪ Github: https://github.com/google-deepmind/graphcast
@machinelearning_ru
🔦 IC-Light V2-Разные варианты
Модели IC-Light версии 2 для тех, кому нужны более яркие варианты освещения и модификации.
Демо: https://huggingface.co/spaces/lllyasviel/iclight-v2-vary
@machinelearning_ru
✔️ Эксперта Стэнфорда по дезинформации обвиняют в использовании ИИ для фальсификации заявления в суде.
В ноябре Джефф Хэнкок, основатель Лаборатории социальных сетей Стэнфорда и эксперт по технологиям и дезинформации, представил заявление по делу в суде Миннесоты, оспаривающему закон штата 2023 года, криминализирующий использование дипфейков для влияния на выборы. В 12-страничном документе профессора в защиту закона содержалось 15 ссылок, 2 из которых не удалось найти: «Дипфейки и иллюзия подлинности: когнитивные процессы, лежащие в основе восприятия дезинформации» и «Влияние дипфейковых видео на политические взгляды и поведение» – ни по указанному цифровому идентификатору объекта, ни в архивах указанных журналов. Адвокат истцов назвал ссылки "галлюцинацией искусственного интеллекта" и потребовал исключить заявление Хэнкока из материалов дела.
stanforddaily.com
✔️ World Labs анонсировал ИИ, способный генерировать интерактивные 3D-сцены по одной фотографии.
Стартап World Labs, основанный профессором в области ИИ Фэй-Фэй Ли, представил свою первую разработку: систему ИИ, которая может создавать интерактивные 3D-сцены на основе одной фотографии. В отличие от многих других систем, преобразующих фото в 3D, сцены World Labs интерактивны и модифицируемы и позволяют «войти в любое изображение и исследовать его в 3D».
Система визуализирует сцены в режиме реального времени и поддерживает управление камерой и настройку глубины резкости. Она также позволяет применять к сценам интерактивные эффекты и анимацию, например, изменять цвет объектов и динамически освещать фон. World Labs планирует выпустить свой первый продукт в 2025 году и ориентируется на разработчиков видеоигр и киностудии.
techcrunch.com
✔️ The Browser Company анонсировала Dia - браузер с ИИ.
Компания The Browser Company, разработчик браузера Arc, представила Dia - новый веб-браузер, основанный на искусственном интеллекте. Dia будет запущен в начале 2025 года и предложит пользователям ИИ-функции: "напиши следующую строку", "дай мне идею" и "резюмируй вкладку".
Dia понимает контекст всего окна браузера, может копировать ссылки из открытых вкладок и вставлять их в электронное письмо по команде пользователя. В промо-видеоролике разработчики показали, как Dia находит документ по описанию и отправляет его по электронной почте. Разработчики уверяют, что Arc продолжит свое существование, несмотря на запуск нового продукта.
theverge.com
✔️ Гибридная модель рекомендаций для интернет-пользователей на основе DL.
Гибридная модель рекомендаций HRS-IU-DL сочетает в себе методы коллаборативной фильтрации, контентной фильтрации и нейроколлаборативной фильтрации. Модель использует RNN для выявления последовательных паттернов в поведении пользователей и TF-IDF для анализа атрибутов товаров.
HRS-IU-DL справляется с проблемами традиционных рекомендательных систем - разреженность данных и холодный старт, предоставляя точные и релевантные рекомендации. Для обучения и тестирования модели использовался датасет Movielens 100k. Результаты тестов показали, что HRS-IU-DL превосходит базовые модели по метрикам RMSE, MAE, точности и полноте.
nature.com
✔️ Hugging Face опубликовал руководство для разработчиков по соблюдению Закона ЕС об ИИ.
Закон ЕС об ИИ, вступивший в силу 2 декабря 2024 года, классифицирует системы ИИ по уровням риска: неприемлемый, высокий, ограниченный и минимальный.
В большинстве случаев разработчикам систем ИИ ограниченного риска (например, чат-ботов) потребуется обеспечить прозрачность взаимодействия с пользователем и маркировать контент, созданный ИИ. Разработчикам моделей ИИ общего назначения (GPAI) необходимо предоставить подробное описание данных, использованных для обучения модели, и соблюдать законы ЕС об авторском праве, включая механизмы отказа от использования защищенных авторским правом материалов.
Hugging Face предлагает инструменты, помогающие подготовиться к соблюдению требований: Model Cards, Dataset Cards, Gradio watermarking и поддержку механизмов отказа.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
🔍 Qwen-Agent — инструмент для построения retrieval-augmented generation (RAG) систем и работы с большими языковыми моделями (LLM)!
🌟 Он разработан для выполнения сложных задач, таких как извлечение релевантной информации из больших объемов текста, многозадачное рассуждение и пошаговая дедукция.
🌟 Qwen-Agent применяется в системах, где важно объединить модель с механизмами поиска, чтобы обрабатывать длинные контексты и решать задачи, требующие комбинированного анализа данных. Среди особенностей: обработка запросов с использованием методов BM25, векторного поиска, и распределение задач на несколько уровней агентов, каждый из которых специализируется на своих задачах. Это делает Qwen-Agent полезным для обработки длинных текстов, таких как документы, требующих понимания контекста и взаимосвязей между частями текста.
🖥 Github
@machinelearning_ru
🌟 SmolVLM: набор компактных VLM от HuggingFace - Base, Synthetic и Instruct.
SmolVLM - серия компактных VLM с 2 млрд. параметров, отличающихся высокой эффективностью использования памяти и могут быть развернуты на локальных устройствах с ограниченными ресурсами.
Архитектура SmolVLM основана на Idefics3, с несколькими отличиями:
🟢В качестве языковой основы используется SmolLM2 1.7B вместо Llama 3.1 8B;
🟢Визуальная информация сжимается в 9 раз с помощью стратегии pixel shuffle, по сравнению с 4-кратным сжатием в Idefics3;
🟢Используются патчи размером 384x384 пикселей, а не 364x364;
🟢Визуальная основа модели изменена на shape-optimized SigLIP с патчами 384x384 пикселей и внутренними патчами 14x14;
🟢Контекстное окно SmolLM2 было расширено до 16 тыс. токенов для поддержки работы с несколькими изображениями.
Модель кодирует каждый патч изображения 384x384 в 81 токен, что позволяет ей обрабатывать тестовые запросы и изображения с использованием всего 1.2 тыс. токенов, в то время как Qwen2-VL использует 16 тыс. токенов. Это преимущество приводит к значительно более высокой скорости предварительной обработки (в 3,3-4,5 раза) и генерации (в 7,5-16 раз) по сравнению с Qwen2-VL.
Для самостоятельной тонкой настройки SmolVLM можно использовать transformers и TRL. Разработчиками представлен блокнот для файнтюна на VQAv2 с использованием LoRA, QLoRA или полной тонкой настройки. SmolVLM интегрирован с TRL для DPO через CLI.
⚠️ При batch sizes=4 и 8-битной загрузке QLoRA файнтюн потребляет около ~16 GB VRAM
📌Лицензирование: Apache 2.0
🟡Статья на HF
🟡Набор моделей
🟡Demo
@ai_machinelearning_big_data
#AI #ML #SmallVLM #Huggingface
📖 Человек и LLM: как построить метрики для оценки моделей
💡 Оценка качества ответов языковой модели требует сложного комплексного подхода и является такой же сложной задачей, как и разработка LLM. Авторы статьи объясняют ограничения академических бенчмарков, включая проблему протечек данных и ограниченность их проверки, а также рассказывают про систему AI-тренеров в Яндексе — специально отобранных экспертов для глубокой оценки ответов модели.
🌟 Как оказалось, универсального решения для оценки LLM нет, необходимо постоянно комбинировать различные методы и регулярно проверять, насколько модель действительно полезна в реальных сценариях использования. В статье подробнее раскрывается, как это делают в Яндексе.
📖 Читать: *клик*
@machinelearning_ru
🔥 Arch — это интеллектуальный распределенный прокси-сервер уровня 7 , предназначенный для защиты, наблюдения и персонализации ваших ИИ агентов!
🌟 Созданный с использованием специально разработанных LLM, Arch решает критически важные, но недифференцированные задачи, связанные с обработкой и запросами, включая обнаружение и отклонение попыток взлома, интеллектуальный вызов «бэкэнда» API для выполнения запроса пользователя, представленного в запросе, маршрутизацию к вышестоящим LLM и предложение аварийного восстановления между ними, а также централизованное управление наблюдаемостью запросов и взаимодействиями LLM.
🔐 Лицензия: Apache-2.0
🖥 Github
@machinelearning_ru