ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

27349

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

🌟 LayerSkip: метод ускорения инференса в LLM.

LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста.

Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях.

В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе.

Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit).

Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки.

LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности.

Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей:

🟢Llama2 - 7B и 13B;
🟢Codellama-7B или 34В;
🟢Llama3-8B:
🟢Llama3.2-1B.

⚠️ Для локального запуска будет нужен Huggingface API KEY.

▶️Локальный запуск:

# Clone repo
git clone git@github.com:facebookresearch/LayerSkip.git
cd LayerSkip

# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip

# Install requirements
$ pip install -r requirements.txt

#Inference with self speculative
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
--sample True \
--max_steps 512 \
--generation_strategy self_speculative \
--exit_layer 8 \
--num_speculations 6


▶️Ключи запуска:

--model: имя модели на HuggingFace;
--sample: включение/выключение семплирования (по умолчанию: True);
--max_steps: максимальное количество генерируемых токенов;
--generation_strategy: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative');
--exit_layer: номер слоя для раннего выхода;
--num_speculations: количество спекулятивных токенов;


🟡Коллекция моделей на HF
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MetaAI #LayerSkip

Читать полностью…

Machinelearning

🔴 Как защитить данные, где бы они ни находились?

29 октября в 11:00
Positive Technologies проведет вебинар, посвященный защите данных.

Эксперты расскажут, с какими проблемами сегодня сталкиваются компании в этой сфере и рассмотрят возможные пути решения.

На вебинаре спикеры:
➡️ представят PT Data Securityновый продукт, который защищает данные независимо от их типа и места хранения;
➡️ покажут демо основных сценариев его использования;
➡️ расскажут важное о продуктовой фиче — автоматической классификации данных;
➡️ подскажут, как повлиять на развитие продукта.

Хотите первыми увидеть PT Data Security — новый продукт Positive Technologies для защиты данных?
Тогда скорее регистрируйтесь.

Читать полностью…

Machinelearning

🌟 ColPali: комбайн для построения многовекторных эмбедингов из документов с помощью VLM.

ColPali - это набор моделей, фреймворк и коллекция преднастроенных методов тонкой настройки для обработки документов разной модальности с учетом текстового и визуального содержания. ColPali позиционирует себя как замену сложных и хрупких конвейеров OCR.

▶️ Модель ColPali - файнтюн PaliGemma-3B с улучшенной архитектурой и уникальной стратегии обучения, которая генерирует многовекторные преставления текста и изображений в ColBERT-стиле.

▶️ Фреймворк ColPali - набор кода для инференса и обучения моделей ColPali. Поддерживаются версии 1.1, 1.2 и модель Сolqwen2-v0.1 (ретривер на базе Qwen2-VL-2B-Instruct, построенный по аналогии с ColPali).

▶️ColPali Cookbooks - репозиторий с набором блокнотов для изучения, файнтюна и адаптации ColPali к RAG-системам в задачах:

🟢Создание собственных карт сходства для интерпретации выборки ColPali;

🟢Генерации карт сходства для интерпретации ColQwen2;

🟢Файнтюн ColPali с помощью LoRA и опционального квантования 4-bit/8-bit.


Для локального запуска ColPali Cookbooks понадобится поддержка Jupyter Notebook в IDE или их можно попробовать в Google Collab.


📌Лицензирование кода : MIT License.

📌Лицензирование моделей: MIT License.


🟡Набор моделей
🟡Arxiv
🟡Demo
🖥GitHub ColPali
🖥Github ColPali Cookbooks


@ai_machinelearning_big_data

#AI #ML #VLM #Vidore #Colpali #Cookbooks

Читать полностью…

Machinelearning

📎 ML: Медицинский дайджест за 14 - 20 октября 2024 г.


▶️Модели машинного обучения и бенчмарки

🔘OLAPH: Повышение достоверности ответов на медицинские вопросы.
Метод, который фокусируется на повышении достоверности ответов в формате лонгрида, используя итеративный процесс обучения с SFT и DPO.

🔘LLMD: LLM для интерпретации медицинских карт пациентов.
Модель, разработанная для анализа истории болезни пациента на основе его медицинских карт.

🔘LifeGPT: агностическая генеративная модель клеточных автоматов.
Первая модель, способная предсказывать переходы состояний в двумерной системе Cellular Automata.

🔘MedCare: Раздельное согласование в обучении медицинских LLM.
Модель для решения проблемы снижения производительности LLM при адаптации к специализированным медицинским задачам.

🔘Y-Mol: LLM для разработки лекарственных средств.
Инструктивная модель, основанная на LLaMA2 для решения задач разработки лекарственных средств.

🔘WorldMedQA-V: многоязычный мультимодальный корпус данных для оценки медицинских моделей.
Мультимодальный датасет на разных языках для оценки моделей разной модальности в задачах здравоохранения.


▶️Фреймворки и методологии

🔘MedINST: набор медицинских инструкций для обучения LLM.
Многозадачный мета-набор данных медицинских инструкций из 133 задач.

🔘MCQG-SRefine: автоматическая генерация медицинских вопросов.
Система для автоматической генерации высококачественных вопросов множественного выбора в стиле экзамена USMLE.

🔘AgentClinic: повышение диагностической точности LLM в симулированной медицинской среде.
Система, которая дает возможность агенту-врачу, основанному на LLM, итеративно совершенствовать свои рассуждения и действия после постановки неверного диагноза.

🔘MeNTi: использование инструментов в LLM для решения медицинских задач.
Архитектура агента для LLM, разработанная специально для решения задач, связанных с медицинскими расчетами.


▶️Медицинские LLM-приложения

🔘AGENTiGraph: Интерактивная чатбот-платформа под управлением LLM.
Платформа, которая объединяет LLM с графами знаний для решения задач в специфических медицинских областях.

🔘MMed-RAG: Мультимодальная медицинская RAG-система.
Система повышения фактической точности, разработанная для борьбы с галлюцинациями, возникающими в медицинских VLM.

🔘Medical Graph RAG: Безопасная медицинская LLM c поиском по графу знаний.
Метод использования LLM в медицине, основанный на RAG, дополненной поиском по графу знаний.

🔘MedAide: Многоагентная система для комплексных медицинских задач.
Платформа для решения сложных медицинских задач, основанная на LLM и мульти-агентной архитектуре, где каждый агент специализируется на определенном аспекте здравоохранения.

🔘Генерация синтетических клинических испытаний на LLMs.
Методика использования LLM для создания синтетических клинических испытаний.


▶️Исследования и обзоры

*️⃣UniStruct: новая архитектура для представления структурированных медицинских данных.
Метод адаптации техник субсловной токенизации для представления групп медицинских кодов как единые токены.

*️⃣Адаптация медицинских LLM для 50 языков: подход с использованием MoE по языковым семьям.
Исследовании проблемы адаптации медицинских LLM к локальным языкам, чтобы улучшить доступ к медицинским услугам.

*️⃣ Можно ли добиться успеха в обучении медицинской VLM на чисто синтетических данных?
В статье изучается возможность использования исключительно синтетических данных для обучения моделей MedVLM. Спойлер - да, можно


🔜 Читать полный дайджест


@ai_machinelearning_big_data

Читать полностью…

Machinelearning

✔️ Google запускает NotebookLM Business для корпоративных задач.

Google запускает платную версию NotebookLM, ориентированную на бизнес. Доступ к NotebookLM Business будет через пилотную программу раннего доступа.

Участники пилотной программы NotebookLM Business получат более высокие лимиты использования и новые функции: кастомизация и совместное использование записных книжек.

В NotebookLM Business также запланирована функция Audio Overview, которая позволяет пользователям создавать озвученное учебное пособие. Google объявит о всеобщей доступности и ценах на NotebookLM Business позднее в этом году.
venturebeat.com

✔️ Anthropic выпустила обновление Claude: новые функции и приложение для iPad.

Новые функции — возможность поиска по прошлым чатам и добавления контекста в проекты с помощью пользовательских инструкций.

Например, можно попросить Claude AI создать список дел для детей, а затем указать, что у 7-летнего ребенка СДВГ, чтобы ИИ скорректировал ответ с учетом этой информации.

Обновленный интерфейс мобильных приложений и дополнительная поддержка проектов упрощают переключение между устройствами, сохраняя при этом непрерывность рабочих процессов. Теперь и на нативном приложении для iPad.
tomsguide.com

✔️ Google реструктуризирует команду руководителей продуктов и два подразделения разработки ИИ.

Google назначил Прабакара Рагхавана, главу подразделения поиска и рекламы, на должность СTO. Ник Фокс, опытный руководитель Google, возглавит подразделение поиска и рекламы.

Команды, работающие над Google Assistant и чат-ботом Gemini, будут переведены в другие бизнес-подразделения. Команды, сосредоточенные на "устройствах и домашнем опыте", перейдут в подразделение Platforms & Devices, отвечающее за разработку устройств для умного дома и смартфонов Pixel.

Команда, ответственная за чат-бота Gemini, станет частью исследовательской лаборатории ИИ Google DeepMind под руководством Демиса Хассабиса, лауреата Нобелевской премии по химии за разработку системы прогнозирования структуры белка AlphaFold2.
siliconangle.com

✔️ Microsoft разрабатывает ИИ-инструменты для анализа рабочих процессов.

Microsoft подала заявки на два патента, описывающие ИИ-системы, способные анализировать деятельность пользователей и предлагать рекомендации по совместной работе.

Первая система отслеживает документы, с которыми взаимодействует пользователь, а также вклад каждого автора, создавая ранжированный "рекорд авторства". Эти данные анализируются с помощью машинного обучения для формирования рекомендаций по совместным проектам.

Вторая система использует нейронную сеть для обработки естественного языка, чтобы лучше понимать взаимосвязь между фразами в разных документах. Эта технология позволит ИИ выполнять анализ и отвечать на запросы, основываясь на более глубоком понимании контекста.
thedailyupside.com

✔️ Samsung разрабатывает GDDR7 для центров обработки данных и ИИ.

Samsung анонсировала разработку 24-гигабайтного чипа динамической памяти GDDR7 (DRAM) со скоростью 40 Гбит/с и выше.

Новая память предназначена для использования в центрах обработки данных и приложениях искусственного интеллекта, и в ближайшее время не будет доступна для потребительских ПК.

Samsung утверждает, что новый чип GDDR7 потребляет на 30% меньше энергии по сравнению с предыдущим поколением GDDR6. Это достигается за счет использования технологий управления тактовой частотой и двойного напряжения питания (VDD). Компания планирует начать производство 24-гигабайтной DRAM в начале 2025 года.
uk.pcmag.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🌟 Arch-Function: коллекция моделей для вызова функций.

Модели Arch-Function понимают сложные сигнатуры функций, идентифицируют необходимые параметры и генерируют точные вызовы функций на основе промптов.

Семейство основано на Qwen 2.5, его модели оптимизированы для низкой задержки инференса и высокой пропускной способности. Они отлично подходят для работы в режиме реального времени в производственной среде.

▶️Функциональные возможности моделей:

🟢Single Function Calling. Вызов одной функции для каждого запроса;

🟢Parallel Function Calling. Вызов одной и той же функции несколько раз, но с разным набором параметров;

🟢Multiple Function Calling. Вызов различных функций для каждого запроса;

🟢Parallel & Multiple. Выполнение параллельного и множественного вызова функций.

▶️Семейство Arch-Function:

🟢Arch-Function-7B;
🟢Arch-Function-3B;
🟢Arch-Function-1.5B.

В репозитории на HF доступны квантованные версии всех моделей в формате GGUF:

🟠Arch-Function-7B в 4-bit разрядности;
🟠Arch-Function-3B в разрядностях от 2-bit до 6-bit;
🟠Arch-Function-1.5B в разрядностях от 2-bit до 6-bit.

Модели семейства прошли оценку на Berkeley Function-Calling Leaderboard (BFCL).
Результаты показывают, что Arch-Function-7B и Arch-Function-3B демонстрируют производительность, сопоставимую с GPT-4-turbo-2024-04-09 и xLAM-8x22b-r.

Arch-Function можно запустить с помощью библиотеки Transformers или в промпт-шлюзе Arch.

⚠️ Для достижения наилучших результатов рекомендуется использовать конфигурацию промптов, указанных в примерах одиночного или многошагового вызова функций.


📌Лицензирование : Katanemo license.


🟡Коллекция моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Katanemo #Arch-Function

Читать полностью…

Machinelearning

✔️ Релиз PyTorch 2.5.

Выпуск PyTorch® 2.5 представляет новый бэкэнд CuDNN для SDPA, обеспечивающий ускорение до 75% на GPU NVIDIA H100 и новее. Оно активировано по умолчанию.
Сокращено время холодного запуска torch.compile благодаря региональной компиляции, которая позволяет собирать nn.Module без перекомпиляции.

Бэкэнд TorchInductor CPP получил поддержку FP16, обертку CPP, режим AOT-Inductor и режим максимальной автонастройки.
В режиме максимальной автонастройки для GEMM-операций используется шаблон C++ в качестве альтернативы ATen с библиотеками oneDNN и MKL.

Поддержка Intel GPU расширена и теперь включает Intel® Data Center GPU Max Series и Intel® Client GPU.
Релиз включает 4095 коммитов от 504 участников.
pytorch.org

✔️ Anthropic обновила политику ответственного масштабирования ИИ, чтобы обеспечить безопасность по мере его развития.

Обновленная политика включает Стандарты уровня безопасности ИИ - набор мер безопасности, строгость которых возрастает по мере роста возможностей модели. Пороговые значения возможностей - это конкретные способности ИИ, достижение которых требует усиленных мер безопасности.

В новой версии определены два ключевых порога: автономные исследования в области ИИ и разработка оружия массового поражения. Для эффективного внедрения политики Anthropic разработала оценку возможностей, оценку мер безопасности, процессы документирования и принятия решений и меры для внутреннего управления и получения внешних заключений.
anthropic.com

✔️ Perplexity запускает поиск по внутренней базе знаний и рабочие пространства.

Perplexity запускает поиск по внутренней базе знаний и рабочие пространства.

Perplexity представляет две новые функции: поиск по внутренней базе знаний, который позволяет пользователям Pro и Enterprise Pro искать как в Интернет-контенте, так и в своих собственных внутренних базах знаний, и Perplexity Spaces - хабы для совместной работы на базе ИИ, которые можно настраивать под конкретные задачи.

Perplexity Spaces позволяют приглашать коллег, подключать внутренние файлы и настраивать ИИ-помощника. Функция поиска по внутренней базе знаний уже доступна клиентам Enterprise Pro.
perplexity.ai

✔️ OpenAI выпустила бета-версию приложение ChatGPT для Windows.

OpenAI представила предварительную версию приложения ChatGPT для Windows, предназначенного для пользователей ChatGPT Plus, Team, Enterprise и Edu.

Это ранняя версия "полноценного приложения", которое выйдет позже в этом году. Пользователи могут загружать файлы и фотографии, резюмировать документы и создавать изображения с помощью DALL-E 3. Есть ограничения: отсутствие поддержки голоса, включая расширенный голосовой режим, и некоторые интеграции с GPT Store.

Приложение предоставляет доступ ко всем моделям OpenAI, включая o1-preview.
techcrunch.com

✔️ Boston Dynamics и Toyota Research Institute объявили о партнерстве для исследований в робототехнике.

Boston Dynamics и Toyota Research Institute (TRI) объединят усилия, чтобы ускорить разработку роботов-гуманоидов общего назначения. Исследовательское партнерство будет использовать большие поведенческие модели TRI и робота Atlas от Boston Dynamics.

TRI - мировой лидер в быстром развитии больших поведенческих моделей (LBM) для робототехники. Партнерство, базирующееся в Бостоне, будет совместно возглавляться Скоттом Кейндерсмой, старшим директором по исследованиям в области робототехники в Boston Dynamics, и Рассом Тедрейком, вице-президентом по исследованиям в области робототехники в TRI.
pressroom.toyota.com

✔️ AMD сделает GPU NVIDIA "Эпичными".

AMD и NVIDIA, два главных производителя чипов, объединили свои усилия в сфере ИИ. Несмотря на конкуренцию, они пришли к совместному заключению, что их технологии дополняют друг друга. Процессоры AMD EPYC отлично работают в паре с NVIDIA GPU, увеличивая производительность при работе с большими моделями машинного обучения.

В результате сотрудничества, процессоры AMD EPYC будут интегрированы в системы NVIDIA HGX и MGX, чтобы оптимизировать производительность ИИ и ЦОДов.
analyticsindiamag.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

❓Узнайте как построить модель финансового рынка, создать и обучить торгового агента с использованием специализированного фреймворка на открытом уроке в Otus

Моделировать финансовый рынок непростая задача, а когда мы хотим обучить торгового агента для эффективной работы, она становится непосильной для одного человека

На открытом уроке «Построение торгового агента на базе алгоритмов обучения с подкреплением» рассмотрим свободно распространяемые фреймворки для моделирования финансового рынка

✅ Сосредоточимся на финансовой стратегии, а детали реализации алгоритма фреймворк возьмет на себя 

Регистрация на урок 👇
https://otus.pw/mGOD/?erid=LjN8JxFYg

#реклама
О рекламодателе

Читать полностью…

Machinelearning

💡 Turbo Alignment: библиотека для обучения LLM под задачи бизнеса

Помимо своей большой языковой модели T-lite, Т-Банк открыл доступ к библиотеке Turbo Alignment, которая позволяет даже небольшим командам без значительных ресурсов и глубокой экспертизы в LLM создавать LLM-based продукты.

✔️ В библиотеке доступны:

▶️No-code-запуск экспериментов, скрипты для обучения большого количества алгоритмов, модуль для быстрого тестирования моделей и инструменты для мониторинга метрик во время обучения.

▶️Инструменты для исследований и разработки. Turbo Alignment предоставляет все необходимые средства для добавления новых методов обучения и их сравнения с уже существующими решениями на конкретных задачах. Библиотека создана при участии лаборатории T-Bank AI Research и также дает доступ к последним исследованиям в области AI Alignment.

▶️Поддержка сложных процессов обучения. Turbo Alignment оптимизирован для распределенного обучения на нескольких видеокартах и серверах (Multi-GPU и Multi-Node).

🖥 GitHub

@ai_machinelearning_big_data

#LLM #news #ai

Читать полностью…

Machinelearning

⚡Разбираем специфику области NLP и задачи, которые можно решать с помощью NLP-методов на открытом уроке в OTUS!

🔥23 октября в 18.00 мск. приглашаем на бесплатный вебинар "Современные применения Natural Language Processing", на котором разберем:

- основные направления области Natural Language Processing;
- что делает эту область одной из самых востребованных в Data Science сегодня;
- какие задачи сегодня решают с помощью методов NLP и что стоит за успехами в этой области.

👉Регистрация. Вступительный тест https://otus.pw/LMu7/?erid=LjN8KcbZn

Спикер: Мария Тихонова, Senior Data Scientist, преподаватель ВШЭ, Otus Certified Educator

Вебинар приурочен к старту курса Natural Language Processing (NLP). На курсе изучаются современные подходы и модели, которые на данный момент являются стандартом в области. 

#реклама
О рекламодателе

Читать полностью…

Machinelearning

⚡️ Mistral AI представила новые модели 3B и 8B.

Mistral AI, отмечая годовщину выпуска Mistral 7B, представила две новые модели: Ministral 3B и Ministral 8B.

Семейство этих моделей получило название «Ministraux», они отличаются высокой производительностью в области знаний, рассуждений, вызова функций и эффективности среди аналогичных моделей категории менее 10 млрд. параметров.

Обе модели Ministraux поддерживают контекстную длину до 128 тыс. токенов (32 тыс. токенов на vLLM), а Ministral 8B использует специальную схему чередующегося скользящего окна внимания для более быстрого и эффективного инференса.

Модели предназначены для использования в различных сценариях, от робототехники до автономных интеллектуальных помощников без подключения к интернету.

Обе модели в ближайшее время будут доступны в сервисе La Plateforme и в облачных сервисах партнеров MistalAI. Цены: 0.1$/M (input and output) для Ministral 8B и 0.04$ /M (input and output) для Ministral 3B.

▶️ Ministral 3B доступна для некоммерческого использования по запросу через форму.

▶️ Ministral 8B-Instruct опубликована в отрытом доступе:

🟢Architecture: Transformer
🟢Parameters: 8B
🟢Layers: 36
🟢Heads: 32
🟢Dim: 4096
🟢Hidden Dim: 12288
🟢Vocab Size: 131K
🟢Context Length: 128K
🟢Tokenizer: V3-Tekken
🟢Language: multilingual

Локальный запуск рекомендуется выполнять в среде vLLM, воспользоваться docker или библиотекой Mistral Inference.

⚠️ vLLM имеет ограничение на размер контекста 32k, поскольку поддержка interleaved attention kernels for paged attention в нем пока еще не реализована.

⚠️ Для локального запуска Ministral 8B-Instruct понадобится 24 Gb VRAM


📌Лицензирование : MRL-0.1


🟡Страница проекта
🟡Модель
🟡Demo Ministral 8B-Instruct


@ai_machinelearning_big_data

#AI #ML #LLM #Ministraux #MistralAI

Читать полностью…

Machinelearning

🌟 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA.

NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:

▶️ Llama-3.1-Nemotron-70B-Instruct

Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.

Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.

🟠Llama-3.1-Nemotron-70B-Instruct-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).

▶️ Llama-3.1-Nemotron-70B-Reward

Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.

Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.

Nemotron-70B-Reward занимает первое место в RewardBench.

🟠Llama-3.1-Nemotron-70B-Reward-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb).

Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.

HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.

⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.

⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM.


📌Лицензирование моделей: Llama 3.1 Community License.

📌Лицензирование датасета : CC-BY-4.0


🟡Коллекция моделей на HF
🟡Arxiv
🟡Датасет
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron #NVIDIA

Читать полностью…

Machinelearning

🌟 Возвращение RNN: LSTM и GRU — все, что нам было нужно?

Архитектура Transformer доминирует в моделировании последовательностей уже несколько лет, демонстрируя отличные результаты в задачах NLP, машинного перевода и генерации текста. Главный недостаток Transformer — они долго считают длинные последовательности. А если вычислительных ресурсов мало, то реализация занимает либо много времени, либо требует их увеличения.

Авторы исследования предлагают вернуться к RNN, ведь они быстрее считают и параллельно учитывают контекст. Чтобы отвязаться от обратного распространения ошибки (BPTT), которая требует линейного времени обучения, применяется алгоритм параллельного сканирования за счет устранения зависимости от срытых состояний из гейтов LSTM и GRU.

В предлагаемом методе представлены "уменьшенные" LTSM и GRU - minLSTM и minGRU. Они не только обучаются параллельно, но и используют значительно меньше параметров, чем их старшие аналоги.

Минимализм версий достигается следующим образом:

🟢Устранение зависимостей скрытых состояний из гейтов.
В minLSTM и minGRU input, forget и update gate зависят только от входных данных, а не от предыдущих скрытых состояний.

🟢Отказ от ограничения диапазона candidate hidden state.
В традиционных LSTM и GRU функция гиперболического тангенса используется для ограничения диапазона значений скрытых состояний. В minLSTM и minGRU это ограничение снимается.

🟢Неизменность масштаба выходных данных во времени (только для minLSTM).
Для minLSTM выполняется нормализация forget и input гейтов, чтобы гарантировать, что масштаб состояния ячейки не зависит от времени.

Результаты экспериментов:

🟠Время выполнения: minLSTM и minGRU скорость обучения по сравнению с LSTM и GRU, больше в 1361 раз для последовательности длиной 4096;

🟠Задача выборочного копирования: minLSTM и minGRU успешно справились, в отличие от S4, H3 и Hyena;

🟠Обучение с подкреплением на датасете D4RL: minLSTM и minGRU обошли Decision S4 и показали производительность, сопоставимую с Decision Transformer, Aaren и Mamba;

🟠Языковое моделирование: minLSTM, minGRU, Mamba и Transformer показывают одинаковые результаты, но Transformer требует значительно большего количества шагов обучения.

Прикладная реализация численно-устойчивой в логарифмическом пространстве версии метода minGRU на Pytorch представлена в репозитории на Github.

▶️ Локальная установка и запуск minGRU в последовательном и параллельном режиме :

# Install miniGRU-pytorch
pip install minGRU-pytorch

# Usage
import torch
from minGRU_pytorch import minGRU

min_gru = minGRU(512)
x = torch.randn(2, 1024, 512)
out = min_gru(x)
assert x.shape == out.shape

# Sanity check
import torch
from minGRU_pytorch import minGRU

min_gru = minGRU(dim = 512, expansion_factor = 1.5)
x = torch.randn(1, 2048, 512)

# parallel

parallel_out = min_gru(x)[:, -1:]

# sequential

prev_hidden = None
for token in x.unbind(dim = 1):
sequential_out, prev_hidden = min_gru(token[:, None, :], prev_hidden, return_next_prev_hidden = True)
assert torch.allclose(parallel_out, sequential_out, atol = 1e-4)


📌Лицензирование : MIT License.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #RNN #miniGRU

Читать полностью…

Machinelearning

✔️ Google переключается на атомную энергию для питания своих дата-центров с ИИ.

Google подписал соглашение с Kairos Power об использовании небольших ядерных реакторов для обеспечения энергией своих дата-центров, работающих на базе искусственного интеллекта.

Первые реакторы планируется запустить в течение этого десятилетия, а к 2035 году их количество будет увеличено. Google и Kairos Power не раскрывают финансовые детали сделки и места строительства новых электростанций.

Технологические компании все чаще обращаются к атомной энергии для обеспечения электропитанием огромных дата-центров, на которых основана работа ИИ. В прошлом месяце Microsoft заключила соглашение о возобновлении работы на ядерной электростанции Три-Майл-Айленд в США.
bbc.com

✔️ США рассматривают возможность ограничения экспорта чипов для ИИ от Nvidia и AMD в страны Персидского залива.

Цель - ограничить доступ к американским технологиям в интересах национальной безопасности США. Ограничения будут основаны на новой системе лицензирования экспорта чипов для центров обработки данных, которая была представлена в прошлом месяце.

Власти США обеспокоены растущим спросом на ЦОДы, работающие на основе ИИ, в странах Персидского залива, и их финансовыми возможностями. Новые правила могут потребовать от компаний сокращения связей с Китаем и странами залива в обмен на доступ к американским технологиям.
Nvidia пока не прокомментировала ситуацию.
finance.yahoo.com

✔️ Вице-президент Microsoft по ИИ переходит в OpenAI для работы над AGI.

Себастьян Бубек проработал в Microsoft десять лет, занимаясь разработкой малых языковых моделей. Несмотря на то, что Microsoft и OpenAI являются конкурентами в некоторых областях, Microsoft высоко оценила вклад Бубека и надеется на продолжение сотрудничества.

В OpenAI Бубек будет работать над достижением AGI. Эксперты отрасли полагают, что опыт Бубека поможет OpenAI в исследованиях и разработке языковых моделей, которые, несмотря на меньший, чем у AGI, масштаб, могут играть значительную роль в достижении этой цели.
bloomberg.com

✔️ Cognite выпускает отчет о сравнительном анализе языковых моделей для промышленных агентов.

Cognite, лидер в области ИИ для промышленности, представила отчет "Cognite Atlas AI™ LLM & SLM Benchmark Report for Industrial Agents" на мероприятии IMPACT 2024.

Это первый в своем роде отчет, который должен решить проблему несоответствия общих наборов данных для сравнительного анализа LLM и SLM в специфике промышленных задач. В отчете основное внимание уделено поиску на естественном языке в качестве ключевого инструмента извлечения данных для промышленных агентов ИИ.

Отчет будет доступен для бесплатной загрузки 28 октября 2024 года на официальном сайте Cognite.
businesswire.com

✔️ TSMC строит завод по производству чипов в Европе.

Министр науки и технологий Тайваня Ву Чэн-вэнь сообщил Bloomberg TV, что TSMC уже начала строительство своего первого завода по производству полупроводников в Дрездене и планирует строительство следующих заводов для различных секторов рынка.

Строительство завода в Дрездене началось в августе 2024 года, общая сумма инвестиций превысит 10 млрд евро, при этом проект получил 5 млрд евро государственных субсидий. Завод создается в партнерстве с Bosch, Infineon и NXP для удовлетворения потребностей европейской автомобильной и промышленной отрасли в полупроводниках.
euronews.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

Как стать высокооплачиваемым специалистов в ML?

Изучать тренды в Data Science с экспертами топовых компаний на продвинутом курсе «Machine Learning. Professional» от OTUS 

Приглашаем на открытый урок, где рассмотрим современную модель TSMixter от Google которая умеет автоматически раскладывать временной ряд на сложные компоненты и строить прогноз на их основе.

Изучение и практика: научимся загружать и работать с моделью

Сравним ее с более сложными трансформенными моделями, такими как NBEATS, NHITS, iTransformers, PatchTST и TimesNet.

👇 Регистрация на урок: 
https://otus.pw/h9fI/?erid=LjN8KKusy

#реклама
О рекламодателе

Читать полностью…

Machinelearning

🌟 LongAlign: Улучшение согласованности text-2-image генерации в длинных промптах на диффузионных моделях.

LongAlign - метод тонкой настройки диффузионных text-2-image моделей, который улучшает понимание длинных промптов. Вместо того, чтобы подавать весь длинный текст в CLIP, LongAlign разбивает его на сегменты (например, предложения) и кодирует каждый сегмент по отдельности. Это позволяет использовать CLIP, несмотря на его ограничения.

После кодирования отдельных сегментов LongAlign объединяет полученные эмбединги в единый вектор. Для этого используется конкатенация с удалением повторяющихся специальных токенов ( <sot>, <eot>, <pad>) и добавлением нового токена <pad*>.

Чтобы достичь точности согласования, в LongAlign используется 3 техники:

🟢классификация предпочтений на основе текстовой зависимости, оценивается не только следованию промпту, но и визуальные аспекты (фотореализм, эстетика);

🟢перевзвешивание градиентов, уменьшает влияние текстово-независимого компонента и улучшает согласованность между текстом и изображением;

🟢сегментной модели предпочтений, детально согласовывает отдельные части текста с изображением.

По проведенным оценкам, LongAlign значительно превосходит базовые модели Stable Diffusion, PixArt-α и Kandinsky v2.2 по показателям FID и Denscore. Отдельно выполненная оценка в GPT-4o подтвердила преимущества LongAlign в согласовании text-2-image.

▶️ Подготовка к файнтюну с помощью LongAlign:

🟠Тестовый датасет на 2 млн. пар фомата "длинный промпт-изображение"
🟠Stable Diffusion v1.5 (загрузится автоматически)
🟠T5-адаптер (положить в ./model/LaVi-Bridge)
🟠Denscore (загрузится автоматически)
🟠longSD (положить в ./model/longSD)

▶️ Установка и запуск на примере трейна Stable Diffusion и LCM-версии Stable Diffusion

# Prepare environment
pip install -r requirements.txt

# Train original Stable Diffusion
# support long-text inputs
bash run_unet.sh align ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward test

# Train LCM-version Stable Diffusion
# support LCM sampling
bash run_unet.sh lcm ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward_lcm test


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🖥Github


#AI #ML #Diffusion #Text2Image #LongAlign

Читать полностью…

Machinelearning

✔️ Microsoft запустит автономных AI-агентов.

Microsoft готовится к выпуску в ноябре автономных агентов ИИ, которые должны стать «софтом для мира, управляемого ИИ». Эти агенты будут отличаться от чат-ботов тем, что требуют минимального вмешательства человека.

Компания позиционирует их как инструменты, способные автоматизировать рутинные задачи, например, отвечать на запросы клиентов, находить потенциальных покупателей и управлять запасами.

Microsoft использует для своих агентов как собственные модели ИИ, так и модели OpenAI. Создавать собственных агентов можно будет в Copilot Studio.

С началом доступа будут представлены 10 готовых к использованию агентов для решения различных бизнес-задач.
reuters.com

✔️ PROM-микросхема повысит эффективность обучения моделей ИИ.

Xilinx XCF04SVOG20C, микросхема PROM обеспечит эффективное решение для хранения конфигураций FPGA, позволяя им быстро загружать и выполнять различные конфигурации моделей во время обучения ИИ, тем самым повышая общую вычислительную производительность и эффективность.

XCF04SVOG20C, емкостью 4 Мбит, может хранить данные конфигурации, необходимые для сложных моделей ИИ. Эта емкость даст возможность FPGA гибко обрабатывать потребности в обучении различных моделей ИИ.

Сотрудничество между FPGA и PROM не ограничивается крупномасштабными задачами обучения в ЦОДах и может применяться к периферийным вычислениям ИИ.

Небольшой размер и высокая температурная устойчивость XCF04SVOG20C (диапазон рабочих температур от -40°C до 85°C) делают его идеальным для использования в ограниченных пространствах и изменчивых средах.
electropages.com

✔️ Midjourney на следующей неделе планирует добавить новые инструменты обработки изображений.

Обновление добавит две новые функции: редактирование загруженного изображения и возможность изменения текстуры объектов на изображениях. Пользователи смогут изменять цвета и детали объектов на основе текстовых описаний, сохраняя при этом исходную форму.

Компания проводит опрос своего сообщества в Discord, чтобы определить, кто должен получить ранний доступ. Для предотвращения злоупотреблений компания планирует увеличить количество модераторов-людей и внедрить модераторов на основе ИИ.
gagadget.com

✔️ ComfyUI выпустит первую версию своего приложения.

ComfyUI V1 анонсирован в закрытой бета-версии с новым пользовательским интерфейсом, реестром пользовательских нод (CNR) и автономной версией для настольных компьютеров для Windows, MacOS и Linux.

Версия для настольных ПК включает в себя функции безопасности, автоматические обновления, облегченную установку и рекомендуемую среду Python. Она поставляется с менеджером ComfyUI, который позволяет устанавливать ноды из реестра ComfyUI.

Среди других особенностей - вкладки для рабочих процессов, настраиваемые сочетания клавиш, автоматический импорт из существующих установок ComfyUI, просмотрщик журналов.

ComfyUI анонсировала новый пользовательский интерфейс с верхней строкой меню, библиотекой моделей, браузером рабочих процессов и функцией автоматической загрузки моделей, которая позволяет использовать URL-адрес/идентификатор модели в рабочих процессах.
blog.comfy.org


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

Что такое эксперименты в ML и чем они отличаются от «фичей» в обычной разработке?

🔹Расскажем на открытом уроке «MLFlow и переобучение ML-моделей» почему важно переобучать (retrain) свои модели, чтобы держать их «в тонусе».

Разберем какую роль инструменты, такие как MLFlow, играют в процессах регулярного переобучения

Практика: Изучим как выбирать лучшие варианты для отправки в Prod / Staging среду и всегда знать, что у вас «на проде»

Урок приурочен курсу «MLOps» от Otus.

👉 Регистрация и подробности:
https://otus.pw/N5yE/?erid=LjN8KD84d

#реклама
О рекламодателе

Читать полностью…

Machinelearning

🌟 Zamba2-Instruct: две гибридные SLM на 2.7 и 1.2 млрд. параметров.

Zamba2-Instruct - семейство инструктивных моделей на архитектуре Mamba2+Transformers для NLP-задач.

В семействе 2 модели:

🟢Zamba2-1.2B-instruct;
🟠Zamba2-2.7B-instruct.

Высокая производительность семейства по сравнению с релевантными Transformers-only моделями достигается за счет конкатенации эмбедингов модели с входными данными для блока внимания и использование LoRA projection matrices к общему MLP-слою.

Модели файнтюнились (SFT+DPO) на instruct-ориентированных наборах данных (ultrachat_200k, Infinity-Instruct, ultrafeedback_binarized, orca_dpo_pairs и OpenHermesPreferences).

Тесты Zamba2-Instruct продемонстрировали внушительную скорость генерации текста и эффективное использование памяти, обходя MT-bench более крупные по количеству параметров модели/ (Zamba2-Instruct-2.7B превзошла Mistral-7B-Instruct-v0.1, а Zamba2-Instruct-1.2B - Gemma2-2B-Instruct)

⚠️ Для запуска на СPU укажите use_mamba_kernels=False при загрузке модели с помощью AutoModelForCausalLM.from_pretrained.


▶️Локальная установка и инференс Zamba2-2.7B-Instruct:

# Clone repo
git clone https://github.com/Zyphra/transformers_zamba2.git
cd transformers_zamba2

# Install the repository & accelerate:
pip install -e .
pip install accelerate

# Inference:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B-instruct")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-2.7B-instruct", device_map="cuda", torch_dtype=torch.bfloat16)

user_turn_1 = "user_prompt1."
assistant_turn_1 = "assistant_prompt."
user_turn_2 = "user_prompt2."
sample = [{'role': 'user', 'content': user_turn_1}, {'role': 'assistant', 'content': assistant_turn_1}, {'role': 'user', 'content': user_turn_2}]
chat_sample = tokenizer.apply_chat_template(sample, tokenize=False)

input_ids = tokenizer(chat_sample, return_tensors='pt', add_special_tokens=False).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=150, return_dict_in_generate=False, output_scores=False, use_cache=True, num_beams=1, do_sample=False)
print((tokenizer.decode(outputs[0])))



📌Лицензирование : Apache 2.0 License.


🟡Набор моделей на HF
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #SLM #Zamba2 #Instruct

Читать полностью…

Machinelearning

🌟 Janus: унифицированная MMLM от DeepSeek

Janus - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера.

Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации.

Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096.

▶️ Архитектура Janus состоит из 3 компонентов:

🟢Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP;

🟢Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора;

🟢Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики.

Процесс обучения Janus проходил в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT.

▶️ Оценка производительности Janus выполнялась на бенчмарках:

🟠Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet.

🟠Генерация: MSCOCO-30K, MJHQ-30K, GenEval

Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера.

На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13.
На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL

Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding и Text-to-Image Generation приведены в репозитории проекта.

Способ запуска в GradioUI в коммитах. По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab.


📌Лицензирование кода : MIT License.

📌Лицензирование модели: DeepSeek Model License.


🟡Модель
🟡Arxiv
🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #GenAI #Janus #DeepSeek

Читать полностью…

Machinelearning

Приглашаем вас посетить Очный семинар про эффективность ML моделей в бизнесе

Поговорим о том, как машинное обучение позволяет трансформировать бизнес Присоединяйтесь, чтобы услышать реальные кейсы и узнать о стратегиях внедрения ML для повышения эффективности и роста прибыли

▫️ 23 октября (среда), 17:00 МСК
▫️ Место встречи: г. Москва, точный адрес отправим после заполнения формы регистрации
Тема:
Эффективность ML-моделей для бизнеса

Приглашенные эксперты:

▫️Александр Ефимов (GlowByte) Эволюция целей и задач для ML команд
▫️ Виктор Кантор (МТС, ML Inside), ML Inside: топ-4 способа монетизации ML в B2C компании
▫️Роман Мизюрин (Альфа Банк), Опыт оценки финансовых эффектов для задач машинного обучения

Модератор дискуссии:
▫️ Глеб Шуклин, директор Ассоциации больших данных

Организаторы:
Ассоциация Больших Данных, GlowByte

Участие бесплатное, но необходима регистрация. Ждём вас!

Erid: 2Vtzqv44pFm
Рекламодатель: Ассоциация больших данных

Читать полностью…

Machinelearning

🌟 Mini-Omni2: MMLM с возможностью обработки изображений, речи и текста.

Mini-Omni2 одна из первых MMLM с открытым исходным кодом, которая наиболее близко воспроизводит функциональность GPT-4o.

Mini-Omni2 может понимать визуальные, аудио и текстовые модальности на входе и генерировать речевые ответы, интерактивно взаимодействуя с пользователями.

Модель основана на архитектуре Qwen2 и использует предварительно обученные кодировщики CLIP и Whisper для обработки визуальных и аудио данных.

Mini-Omni2 отличается от других моделей тем, что не требует отдельных моделей ASR или TTS. В Mini-Omni2 применяется алгоритм Text-Instruct Delay Parallel Decoding, который позволяет генерировать текстовые и аудио токены параллельно, используя синтез речи из текста для вывода аудио в режиме реального времени.

▶️ Архитектура Mini-Omni2:

🟢Визуальный кодировщик: ViT-B/32 из модели CLIP, он преобразует входные изображения в последовательность длиной до 50 токенов, которая подается в однослойный LlamaMLP.

🟢Аудио кодировщик: используется модель Whisper-small, с ее помощью извлекается семантика из входного аудио.

🟢Языковая модель: Qwen2-0.5B с расширенным словарем за счет добавления дополнительных 7 LM-голов.


⚠️ Mini-Omni2 обучена только на английском языке. Однако, поскольку в качестве аудиокодера используется whisper, модель может понимать и другие языки, которые поддерживает whisper, но инференс будет только на английском.

▶️ Локальная установка и запуск в Streamlit Ui:

# Create conda env
conda create -n omni python=3.10
conda activate omni

# Clone repo & install requirements
git clone https://github.com/gpt-omni/mini-omni2.git
cd mini-omni2
pip install -r requirements.txt

# Start server first
sudo apt-get install ffmpeg
conda activate omni
cd mini-omni2
python3 server.py --ip '0.0.0.0' --port 60808

# Run streamlit UI
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py


📌Лицензирование : MIT License.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MLLM #MiniOmni2

Читать полностью…

Machinelearning

Начался этап Квалификации на международный чемпионат по программированию Yandex Cup 2024

В этом году разработчики погрузятся в задачи, посвященные древним цивилизациям и попробуют решить их с точки зрения IT. На картинках — примеры таких ситуаций: разработать систему регулировки в средневековой Венеции, помочь роботам пройти лабиринт Майя или разработать систему оцифровки для бюллетеней из Древнего Рима.

Всего шесть направлений: фронтенд, бэкенд, мобильная разработка, ML, аналитика и алгоритмы. Участвовать могут как опытные разработчики, так и начинающие — со всего мира. Также в этом году ввели отдельный зачет для юниоров 14-18 лет из России.

Успейте зарегистрироваться на сайте и пройти первый этап до 20 октября! Самых лучших ждет финал в Ташкенте, где они смогут сразиться за звание абсолютного чемпиона каждого направления.

Читать полностью…

Machinelearning

🌟 SegVLAD: метод визуального распознавания мест.

SegVLAD - метод для решения задач визуального распознавания мест (VPR) в условиях значительных изменений ракурса. SegVLAD использует сегментацию изображений, разделяя их на значимые объекты ("вещи"). Вместо того, чтобы кодировать все изображение целиком, как это делают традиционные методы VPR, SegVLAD кодирует и ищет соответствия на уровне отдельных сегментов.

Основа архитектуры SegVLAD - набор перекрывающихся подграфов сегментов SuperSegments. Подграфы создаются путем расширения окрестности каждого сегмента, учитывая информацию о соседних сегментах, полученную с помощью триангуляции Делоне.

Для каждого SuperSegment вычисляется дескриптор с использованием метода VLAD (Vector of Locally Aggregated Descriptors).

VLAD агрегирует локальные дескрипторы пикселей, полученные с помощью предварительно обученного DINOv2, который способен извлекать высокоуровневые признаки, инвариантные к различным условиям съемки.

SegVLAD обучался на наборах данных, включающих как уличные, так и внутренние среды: Pitts30k, AmsterTime, Mapillary Street Level Sequences (MSLS), SF-XL, Revisted Oxford5K, Revisited Paris6k, Baidu Mall, 17Places, InsideOut и VPAir.

Тесты SegVLAD показали, что метод превосходит современные VPR, особенно на датасетах с большими изменениями точки обзора. SegVLAD является универсальным и может быть использован с различными методами сегментации изображений и кодировщиками признаков.

Проект программной реализации метода SegVLAD - Revisit Anything.

▶️Локальный запуск с набором данных 17 places из датасета AnyLock (~ 32GB) и моделями SAM+DINO:

⚠️ Перед запуском подготовьте данные датасета согласно структуре и укажите путь к данным в place_rec_global_config.py/

# Шаг1 - выбор метода (DINO/SAM):
python place_rec_SAM_DINO.py --dataset <> --method DINO/SAM

# Шаг2 - генерация VLAD cluster center (опционально):
python vlad_c_centers_pt_gen.py --dataset <>

# Шаг 3 - извлечение PCA:
place_rec_global_any_dataset_pca_extraction.py --dataset <> --experiment <> --vocab-vlad <domain/map>

# Шаг 4 - запуск SegVLAD:
place_rec_main.py --dataset <> --experiment <> --vocab-vlad <domain/map> --save_results <True/False>


📌Лицензирование : BSD-3-Clause license.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #SAM #DINO #VPR #SegVLAD

Читать полностью…

Machinelearning

✔️ Alibaba Group утверждает, что ее новый инструмент перевода на основе ИИ превосходит Google и ChatGPT.

Alibaba выпустила обновленную версию инструмента перевода на базе ИИ, который, по ее словам, превосходит продукты Google, DeepL и ChatGPT. Продукт поддерживает 15 языков, включая русский, и основан на собственной LLM Qwen.

Новый инструмент использует контекстуальные подсказки, культурные и отраслевые термины, что, по мнению Alibaba, поможет увеличить продажи их клиентов, которые используют их он-лайн маркетплейсы.

Alibaba планирует активно продвигать инструмент в Европе, Америке и на развивающихся рынках.
cnbc.com

✔️ Робот-художник Ai-Da войдет в историю: портрет Алана Тьюринга будет продан на аукционе.

Ai-Da станет первым роботом-гуманоидом, чья работа будет выставлена на аукцион крупного аукционного дома Sotheby's. Созданная командой под руководством Эйдена Меллера, Ai-Da представляет собой ультрареалистичного робота-женщину, использующего ИИ для рисования, живописи и скульптуры.

Картина Алана Тьюринга, как ожидается, будет продана за £100 000 - £150 000 на октябрьских торгах цифрового искусства Sotheby’s. Портрет под названием «AI God» имеет высоту 2,3 метра и был создан Ai-Da с использованием алгоритмов ИИ.

Предстоящие торги Sotheby’s пройдут с 31 октября по 7 ноября и будут посвящены пересечению искусства и технологий, представляя спектр цифровых форм искусства, отражающих различные движения в современном цифровом художественном ландшафте.
mirror.co.uk

✔️ Силовые министерства США увеличивают инвестиции в ИИ.

Министерство обороны США увеличило расходы на проекты в области ИИ на 20% по сравнению с 2021 и 2022 годами. С момента запуска ChatGPT, ведомство заключило контракты на сумму 670 млн. долларов с 323 компаниями для разработки алгоритмов и инструментов ИИ.

Министерство внутренней безопасности США также увеличило расходы на ИИ, выделив 22 миллиона долларов 20 компаниям в 2022 и 2023 годах.

Среди подрядчиков - крупные компании (Palantir), так и молодые стартапы (Scale AI). В общей сложности, у Пентагона 83 активных контракта на разработку ИИ, превышающих 1 млрд. долларов.
fortune.com

✔️ Lenovo представила портфолио гибридных решений на базе ИИ на международной конференции Tech World.

Lenovo представила Hybrid AI Advantage – новую платформу, объединяющую возможности частных и публичных облачных сервисов с решениями для индивидуальных пользователей и предприятий. В нее вошли:

Lenovo AI Library – библиотека готовых шаблонов ИИ для различных отраслей и бизнес-функций.

Lenovo AI Now – локальный ИИ-агент, превращающий ПК в персональных помощника.

Lenovo Learning Zone – платформа для персонализированного обучения.

В дополнение к этому Lenovo анонсировала новое поколение систем жидкостного охлаждения Neptune для серверов, обеспечивающих до 40% экономии энергии в ЦОД.
news.lenovo.com

✔️ Xscape создает многоцветные лазеры для соединения чипов в ЦОДах.

Стартап Xscape Photonics привлек $44 млн в рамках раунда финансирования серии A на разработку программируемых лазеров на основе кремниевой фотоники для ЦОДов.

Лазеры Xscape используют различные цвета света для передачи нескольких потоков данных по одному каналу без помех, повышая пропускную способность соединений между графическими процессорами, ИИ-чипами и памятью.

В отличие от традиционных металлических соединений, кремниевая фотоника потребляет меньше энергии, выделяет меньше тепла и обеспечивает более высокую пропускную способность.

Xscape уже сотрудничает с 10 клиентами и получила инвестиции от Cisco и Nvidia. Компания планирует использовать полученные средства для расширения своей команды и увеличения производства лазеров.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

⚡️ Ollama получила поддержку запуска моделей GGUF с Huggingface.

Ollama, приложение, основанное на llama.cpp, для локального взаимодействия с LLM получила возможность запускать одной командой любую GGUF модель, размещенную на Huggingface без создания нового Modelfile.

На сегодняшний день на HF около 45 тысяч моделей в формате GGUF, и теперь можно запустить любую из них одной командой ollama run. Также доступна настройка параметров запуска: выбор типа квантования и системного промпта.

▶️Быстрый запуск:

ollama run hf.co/{username}/{repository}


▶️Запуск с выбором типа квантования:

ollama run hf.co/{username}/{repository}:{quantization}


По умолчанию шаблон чата будет выбран автоматически из списка часто используемых шаблонов.

Он создается на основе встроенных метаданных tokenizer.chat_template, хранящихся в файле GGUF. Если в GGUF нет встроенного шаблона или необходимо настроить свой шаблон чата, нужно создать новый файл с именем template.

Шаблон должен быть шаблоном Go, а не шаблоном Jinja. Например:

{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
{{ end }}<|assistant|>
{{ .Response }}<|end|>


📌 Список всех доступных параметров доступен в документации репозитория Ollama.

⚠️ В качестве доменного имени в команде запуска можно использовать доменные имена как hf.co, так и huggingface.co.


🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Ollama #Huggingface

Читать полностью…

Machinelearning

Одно поколение считало на счетах. Дальше появились калькуляторы. Затем главным врагом самостоятельно выполненных домашек стал решебник «ГДЗ»🌝
На сегодняшний день помощник всех учащихся – это ИИ.

Кто бы мог подумать, что из состояния «интернет – это что-то страшное и недоступное» мы пришли к истории, когда на рабочую почту падает приглашение на вебинар «Как оценивать компетенции, чтобы соискатели «не списывали» у ChatGPT”?🧬

К чему это всё:
Мы запускаем первый в России масштабный ОПРОС о генеративных нейросетях

Чтобы участие было приятнее (помимо мысли, что вы делаете большой вклад в развитие оных), мы разыгрываем вот такие плюшки:

🍩годовой доступ к Telegram Premium
🍩месяц премиум-подписки на ChatGPT
🍩подписку на два месяца в Альпина Digital

Опрос займет всего 5 минут, и принесет пользу миру ИИ 👾

Скорей участвуй!

Мы свяжемся с победителями до 31.10🎃

Читать полностью…

Machinelearning

Яндекс запустил Тренировки: го прокачиваться в алгоритмах и ML

Новый сезонов Тренировок поможет подтянуть знания алгоритмов, ML и навык прохождения интервью в IT. Занятия бесплатные и проходят в формате онлайн-интенсивов: с лекциями и ежедневными разборами домашних заданий.

Лучших учеников ждет пробное техническое собеседование в Яндекс и промокод 3000 ₽ на Яндекс Маркет.

Участники, которые хорошо себя проявят, получат возможность пройти ускоренный отбор на стажировку или сразу в штат компании. Подать заявку на Тренировки можно здесь.

Читать полностью…

Machinelearning

🌟 Branch-Train-MiX: метод получения MoE-модели

Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.

После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.


🟡 Страница проекта
🟡 Разбор метода


@ai_machinelearning_big_data

#MoE #LLM

Читать полностью…

Machinelearning

🌟 CogView-3Plus-3B: модель генерации Text-to-Image.

CogView-3-Plus - генеративная модель на архитектуре DiT из недавно представленного на ECCV'24 семейства CogView3.

CogView-3-Plus использует диффузионный шедулер Zero-SNR и VAE с latent dimension 16. По сравнению с MMDiT, она эффективней в обучении и инференсе при сохранении основных возможностей модели.

Технические параметры:

🟢Архитектура: DiT;

🟢Количество параметров: 3 млрд.;

🟢Разрешение: от 512 до 2048, кратное 32;

🟢Разрядности: FP32, BF16 (рекомендуется);

🟢VRAM: 20Gb (1024x1024), 30Gb (2048x2048);

🟢СPU Offload: есть, при его использовании, VRAM для всех поддерживаемых разрешений - 11Gb;

🟢Язык промпта: English;

🟢Max. длина промпта: 244 токена.

Инференс модели возможен в СLI (diffusers, SAT) и в WebUI на Gradio.

⚠️ В файле запуска Gradio используется функция улучшения промпта через ChatGPT (строки 37-112), для ее использования понадобится OpenAI API KEY.

⚠️ Модели серии CogView3 обучаются на длинных аннотациях изображений, поэтому рекомендуется использовать LLM-образные промпты для генерации, это значительно улучшит качество инференса.


📌Лицензирование : Apache 2.0 License.


🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #T2I #CogView3

Читать полностью…
Subscribe to a channel