🌟 Aya Expanse: семейство мультиязычных моделей на 32 и 8 млрд. параметров от CohereForAI.
Семейство Aya Expanse - это исследовательский релиз моделей с развитыми мультиязычными возможностями.
Aya Expanse - результат объединения семейства моделей Command с итогами годичных исследований Cohere For AI в области арбитража данных, обучения многоязычным предпочтениям, безопасности и техник мерджа моделей.
Модели обучены для инференса на 23 языках: арабский, китайский (упрощенный и традиционный), чешский, голландский, английский, французский, немецкий, греческий, иврит, хинди, индонезийский, итальянский, японский, корейский, персидский, польский, португальский, румынский, русский, испанский, турецкий, украинский и вьетнамский.
Aya Expanse - авторегрессионые языковые модели на оптимизированной архитектуре трансформеров и контекстом в 128 тыс. токенов у 32b и 8 тыс. токенов у 8В:
🟢Aya Expanse 32B
🟢Aya Expanse 8B
Квантованные версии в размерностях от 2-bit до 16-bit в формате GGUF:
🟠Aya Expanse 32B-GGUF
🟠Aya Expanse 8B-GGUF
Блокноты на Google Collab от сообщества Cohere For AI:
🟢Инференс ассистента по составлению текстов на разных языках;
🟢Инференс для создания кулинарных рецептов с голосовыми возможностями;
🟢Инференс мультиязычной системы QA для неполных представленных спортивных правил по роллер-дерби ;
🟠Код для SFT-файнтюна Aya Expanse 8B для обучения бенгальскому языку.
▶️Пример инференса Aya Expanse 8B на Transformers :
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereForAI/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Format the message with the chat template
messages = [{"role": "user", "content": " %prompt% "}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>%prompt%<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
🌟 Pangea: открытая мультиязычная МLLM для 39 языков и инструктивный датасет .
PANGEA - это модель с 7.94 млрд. параметров на архитектуре LLaVA-Next и с Qwen2-7B-Instruct в качестве LLM-основы, которая была обученная на инструктивном датасете PANGEAINS.
PANGEA предназначена для "преодоления" культурных и языковых барьеров в задачах визуального понимания в задачах мультимодального чата, создания аннотаций к изображениям, понимания контекста культурных особенностей, обработке многоязычных VQA и рассуждений на разные темы.
Инструктивный датасет PANGEAINS состоит из 6 млн. мультимодальных инструкций на 39 языках. Перевод инструкций с английского языка на другие выполнялся с помощью Gemini 1.5 Pro.
Оценка PANGEA проводилась с использованием набора тестов PANGEABENCH(14 наборов данных на 47 языках) .
PANGEA продемонстрировала значительные улучшения в кросс-лингвистическом и кросс-культурном понимании.
Репозиторий PANGEA на Github содержит подробные инструкции и скрипты по установке, тонкой настройке, оценке результатов обучения и примеры разметки данных для файнтюна.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Arxiv
🟡Датасет
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #Pangea
✔️ Дания запускает суперкомпьютер с суверенным ИИ для решения научных задач.
Дания представила свой суперкомпьютер Gefion, созданный в партнерстве с NVIDIA и оснащенный 1528 GPU NVIDIA H100 Tensor Core.
Gefion управляется Датским центром инноваций в области искусственного интеллекта (DCAI) и будет использоваться для исследований в области квантовых вычислений, чистой энергии, биотехнологий и других областях, важных для датского общества и всего мира.
Gefion, первый в Дании суперкомпьютер с ИИ, основан на NVIDIA DGX SuperPOD и использует сетевые технологии NVIDIA Quantum-2 InfiniBand.
blogs.nvidia.com
✔️ Canva запускает свой генератор изображений Dream Lab.
Dream Lab, часть пакета инструментов Canva Magic Studio, использует базовую модель Phoenix от Leonardo.Ai.
Новый инструмент позволяет создавать изображения в более чем 15 стилях на основе текстовых запросов. Пользователи могут генерировать изображения с несколькими объектами, фотореалистичные портреты, а также использовать существующие изображения в качестве образцов стиля.
Dream Lab дополняет существующий генератор изображений Canva, основанный на Stable Diffusion.
gadgets360.com
✔️ Cohere представляет Embed 3, MMLM для поиска, объединяющую текст и изображения.
Cohere анонсировала Embed 3, новую MMLM, которая объединяет эмбединги текста и изображений в единое латентное пространство, что позволит предприятиям извлекать информацию из огромных массивов данных разной модальности.
Embed 3 поддерживает более 100 языков. Модель доступна на платформе Cohere, Amazon SageMaker, а также через отдел продаж Cohere для частного развертывания в любой облачной среде или локально.
cohere.com
✔️ Google DeepMind разработала систему водяных знаков SynthID для идентификации текста, созданного ИИ.
Google DeepMind представила SynthID-Text, систему водяных знаков для маркировки текста, сгенерированного ИИ, которая позволяет определить его происхождение без ущерба для качества и скорости генерации текста.
Система работает путем незаметного для человека изменения некоторых слов в выводе чат-бота, создавая "статистическую подпись", которую может обнаружить детектор SynthID. SynthID-Text уже интегрирована в чат-бот Google Gemini и доступна разработчикам и компаниям в открытом доступе.
Система не является панацеей: значительное редактирование текста или его перефразирование другим чат-ботом может скрыть водяной знак.
deepmind.google
✔️ Arm отзывает лицензию у Qualcomm.
Arm Holdings plc, разрабатывающая архитектуру процессоров Arm, отзывает лицензию у Qualcomm. Qualcomm получила 60-дневное уведомление об отзыве, что дает компаниям два месяца на достижение соглашения. В противном случае Qualcomm будет вынуждена прекратить производство и продажу своих чипов Arm.
Qualcomm считает действия Arm необоснованными и антиконкурентными, утверждая, что обладает широкими правами на использование архитектуры. Судебное заседание состоится в декабре.
bloomberg.com
@ai_machinelearning_big_data
#news #ai #ml
🚀 Главные анонсы технологической конференции Cloud․ru
На конференции GoCloud Tech провайдер представил значительные обновления своей облачной платформы Cloud․ru Evolution!
За последние шесть месяцев количество доступных на платформе сервисов для разработчиков выросло в 1,5 раза:
🌐 Запущена новая зона доступности для отказоустойчивых приложений
🐘 Управляемые базы данных PostgreSQL для развертывания кластеров
📦 Container Apps для запуска контейнеров на основе Docker
💻 Аренда выделенных серверов через личный кабинет: Evolution Bare Metal
🖥️ GPU-виртуальные машины в режиме Preview для высокопроизводительных задач
📊 Новый Managed Trino и Managed Metastore для работы с большими объемами данных
Cloud․ru продолжают развивать платформу для ваших pet-проектов и бизнес-задач.
➡️ Протестить новые сервисы.
🔥 Видео от университета Стэнфорда о создании больших языковых моделей!
💡 Это видео — краткий обзор создания модели, подобной ChatGPT, охватывающий как предварительное обучение модели, так и последующее обучение (SFT/RLHF).
В видео рассматриваются общие практики сбора данных, алгоритмы и методы оценки модели.
🕞 Продолжительность: 1:44:30
🔗 Ссылка: *клик*
@data_analysis_ml
🌟 Яндекс представил YandexGPT 4
🟢 Две версии модели — YandexGPT 4 Pro и YandexGPT 4 Lite — стали доступны через API в Yandex Cloud. Первым сервисом с новым семейством моделей станет Алиса с опцией «Про».
🟢 Специалисты Яндекса рассказали на Хабре про функции модели и их разработку. Например, YandexGPT 4 Pro в 70% случаев отвечает лучше своей прошлой версии.
🟢 Также команда в 4 раза, до 32 тысяч, увеличила количество токенов, которое YandexGPT 4 Pro может обрабатывать в промте. Это позволило модели лучше работать с длинными сложными запросами и анализировать большие объемы данных.
🟡 Хабр
@ai_machinelearning_big_data
#AI #ML #LLM
Поговорим про деньги в IT?
Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы.
Пройти опрос можно здесь
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.
Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.
▶️ Ключевые особенности версии 1.3.0:
🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.
🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.
🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.
🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.
⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.
▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.
📌Лицензирование: MIT License.
🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #OpenSora #Text2Video #Image2Video
✔️ Anthropic выпускает обновленные модели Claude 3.5 Sonnet и Claude 3.5 Haiku и представляет функцию "использование компьютера".
Обновленная Claude 3.5 Sonnet улучшена по сравнению с предыдущей версией, особенно в области программирования. Модель превосходит все публично доступные LLM по показателям SWE-bench Verified, с значением в 49.0%.
Claude 3.5 Sonnet показала улучшения в агентных задачах на TAU-bench, достигнув 69.2% в задачах розничной торговле и 46.0% в области авиаперевозок. Обновление уже доступно для всех пользователей через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud.
Claude 3.5 Haiku по производительности на многих тестах соответствует Claude 3 Opus, при той же стоимости и аналогичной скорости, что и у предыдущего поколения Haiku. Claude 3.5 Haiku будет выпущена позже в этом месяце.
Claude 3.5 Sonnet - первая модель ИИ, предлагающая использование компьютера в публичной бета-версии. Эта функция позволяет разработчикам давать Claude инструкции по использованию компьютеров так же, как это делают люди: смотреть на экран, перемещать курсор, нажимать кнопки и вводить текст.
anthropic.com
✔️ Wall Street Journal и New York Post подали в суд на Perplexity.
News Corp. подал в суд на Perplexity, обвиняя в копировании защищенного авторским правом новостного контента. Издатели утверждают, что Perplexity использует их контент для генерации ответов на запросы пользователей, перехватывая трафик, который в противном случае шел бы на сайты издателей.
Издатели требуют от суда обязать Perplexity прекратить использование и копирование их контента без разрешения, уничтожить любые базы данных, содержащие их материалы, и присудить им компенсацию в размере до 150 000 долларов за каждый случай нарушения авторских прав.
wsj.com
✔️ Bambu Lab запускает новый генератор 3D-моделей на основе ИИ.
Bambu Lab, производитель 3D-принтеров, выпустила PrintMon Maker, новый генератор 3D-моделей на базе ИИ. Инструмент доступен через MakerWorld и позволяет пользователям создавать 3D-печатные модели, используя текстовые или графические промпты.
Платформа генеративного ИИ создает модели, оптимизированные для многоцветной 3D-печати. Созданные проекты можно импортировать непосредственно в ПО для 3D-печати и изготавливать на 3D-принтерах Bambu Lab без дополнительных настроек.
3dprintingindustry.com
✔️ Mitsubishi Electric представила промышленный робот RV-12CRL с увеличенным радиусом действия.
Вертикально-шарнирный робот RV-12CRL имеет радиус действия 1504 мм и грузоподъемность 12 кг, что делает его идеальным для обслуживания станков, упаковки и задач "pick-and-place".
Встроенные функции обеспечивают повышенную безопасность, упрощенное внедрение и общее сокращение времени простоя. RV-12CRL оснащен внутренними кабелями и воздушными шлангами для инструментов на конце манипулятора и 30-контактную сигнальную кабельную систему.
Использование серводвигателей MELSERVO-J5 с бесконтактными энкодерами исключает необходимость в батареях, что снижает затраты на эксплуатацию.
roboticstomorrow.com
✔️ Google DeepMind и MIT создали модель для генерации изображений "Fluid", превосходящую диффузионные модели.
Fluid — авторегрессионная модель text-to-image c возможностью масштабирования до 10.5 млрд. параметров.
Опубликованное исследование показывает, что этот класс моделей может иметь потенциал масштабирования, аналогичный большим языковым моделям. Ключевыми факторами Fluid являются использование непрерывных, а не дискретных токенов, и случайный, а не фиксированный порядок генерации, улучшающий понимание глобальной структуры изображения.
Fluid превосходит как диффузионные модели (Stable Diffusion 3), так и предыдущие авторегрессионные модели (Parti от Google). Базовая Fluid с 369 млн. параметров достигает того же показателя FID, что и Parti с 20 млрд параметров.
Веса и код Fluid пока не анонсированы.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.
Ближайшее мероприятие:
• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.
Зарегистрироваться
🌟 LayerSkip: метод ускорения инференса в LLM.
LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста.
Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях.
В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе.
Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit).
Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки.
LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности.
Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей:
🟢Llama2 - 7B и 13B;
🟢Codellama-7B или 34В;
🟢Llama3-8B:
🟢Llama3.2-1B.
⚠️ Для локального запуска будет нужен Huggingface API KEY.
▶️Локальный запуск:
# Clone repo
git clone git@github.com:facebookresearch/LayerSkip.git
cd LayerSkip
# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip
# Install requirements
$ pip install -r requirements.txt
#Inference with self speculative
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
--sample True \
--max_steps 512 \
--generation_strategy self_speculative \
--exit_layer 8 \
--num_speculations 6
--model
: имя модели на HuggingFace;--sample
: включение/выключение семплирования (по умолчанию: True);--max_steps
: максимальное количество генерируемых токенов;--generation_strategy
: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative');--exit_layer
: номер слоя для раннего выхода;--num_speculations
: количество спекулятивных токенов;🔴 Как защитить данные, где бы они ни находились?
29 октября в 11:00 Positive Technologies проведет вебинар, посвященный защите данных.
Эксперты расскажут, с какими проблемами сегодня сталкиваются компании в этой сфере и рассмотрят возможные пути решения.
На вебинаре спикеры:
➡️ представят PT Data Security — новый продукт, который защищает данные независимо от их типа и места хранения;
➡️ покажут демо основных сценариев его использования;
➡️ расскажут важное о продуктовой фиче — автоматической классификации данных;
➡️ подскажут, как повлиять на развитие продукта.
Хотите первыми увидеть PT Data Security — новый продукт Positive Technologies для защиты данных?
Тогда скорее регистрируйтесь.
🌟 ColPali: комбайн для построения многовекторных эмбедингов из документов с помощью VLM.
ColPali - это набор моделей, фреймворк и коллекция преднастроенных методов тонкой настройки для обработки документов разной модальности с учетом текстового и визуального содержания. ColPali позиционирует себя как замену сложных и хрупких конвейеров OCR.
▶️ Модель ColPali - файнтюн PaliGemma-3B с улучшенной архитектурой и уникальной стратегии обучения, которая генерирует многовекторные преставления текста и изображений в ColBERT-стиле.
▶️ Фреймворк ColPali - набор кода для инференса и обучения моделей ColPali. Поддерживаются версии 1.1, 1.2 и модель Сolqwen2-v0.1 (ретривер на базе Qwen2-VL-2B-Instruct, построенный по аналогии с ColPali).
▶️ColPali Cookbooks - репозиторий с набором блокнотов для изучения, файнтюна и адаптации ColPali к RAG-системам в задачах:
🟢Создание собственных карт сходства для интерпретации выборки ColPali;
🟢Генерации карт сходства для интерпретации ColQwen2;
🟢Файнтюн ColPali с помощью LoRA и опционального квантования 4-bit/8-bit.
Для локального запуска ColPali Cookbooks понадобится поддержка Jupyter Notebook в IDE или их можно попробовать в Google Collab.
📌Лицензирование кода : MIT License.
📌Лицензирование моделей: MIT License.
🟡Набор моделей
🟡Arxiv
🟡Demo
🖥GitHub ColPali
🖥Github ColPali Cookbooks
@ai_machinelearning_big_data
#AI #ML #VLM #Vidore #Colpali #Cookbooks
📎 ML: Медицинский дайджест за 14 - 20 октября 2024 г.
▶️Модели машинного обучения и бенчмарки
🔘OLAPH: Повышение достоверности ответов на медицинские вопросы.
Метод, который фокусируется на повышении достоверности ответов в формате лонгрида, используя итеративный процесс обучения с SFT и DPO.
🔘LLMD: LLM для интерпретации медицинских карт пациентов.
Модель, разработанная для анализа истории болезни пациента на основе его медицинских карт.
🔘LifeGPT: агностическая генеративная модель клеточных автоматов.
Первая модель, способная предсказывать переходы состояний в двумерной системе Cellular Automata.
🔘MedCare: Раздельное согласование в обучении медицинских LLM.
Модель для решения проблемы снижения производительности LLM при адаптации к специализированным медицинским задачам.
🔘Y-Mol: LLM для разработки лекарственных средств.
Инструктивная модель, основанная на LLaMA2 для решения задач разработки лекарственных средств.
🔘WorldMedQA-V: многоязычный мультимодальный корпус данных для оценки медицинских моделей.
Мультимодальный датасет на разных языках для оценки моделей разной модальности в задачах здравоохранения.
▶️Фреймворки и методологии
🔘MedINST: набор медицинских инструкций для обучения LLM.
Многозадачный мета-набор данных медицинских инструкций из 133 задач.
🔘MCQG-SRefine: автоматическая генерация медицинских вопросов.
Система для автоматической генерации высококачественных вопросов множественного выбора в стиле экзамена USMLE.
🔘AgentClinic: повышение диагностической точности LLM в симулированной медицинской среде.
Система, которая дает возможность агенту-врачу, основанному на LLM, итеративно совершенствовать свои рассуждения и действия после постановки неверного диагноза.
🔘MeNTi: использование инструментов в LLM для решения медицинских задач.
Архитектура агента для LLM, разработанная специально для решения задач, связанных с медицинскими расчетами.
▶️Медицинские LLM-приложения
🔘AGENTiGraph: Интерактивная чатбот-платформа под управлением LLM.
Платформа, которая объединяет LLM с графами знаний для решения задач в специфических медицинских областях.
🔘MMed-RAG: Мультимодальная медицинская RAG-система.
Система повышения фактической точности, разработанная для борьбы с галлюцинациями, возникающими в медицинских VLM.
🔘Medical Graph RAG: Безопасная медицинская LLM c поиском по графу знаний.
Метод использования LLM в медицине, основанный на RAG, дополненной поиском по графу знаний.
🔘MedAide: Многоагентная система для комплексных медицинских задач.
Платформа для решения сложных медицинских задач, основанная на LLM и мульти-агентной архитектуре, где каждый агент специализируется на определенном аспекте здравоохранения.
🔘Генерация синтетических клинических испытаний на LLMs.
Методика использования LLM для создания синтетических клинических испытаний.
▶️Исследования и обзоры
*️⃣UniStruct: новая архитектура для представления структурированных медицинских данных.
Метод адаптации техник субсловной токенизации для представления групп медицинских кодов как единые токены.
*️⃣Адаптация медицинских LLM для 50 языков: подход с использованием MoE по языковым семьям.
Исследовании проблемы адаптации медицинских LLM к локальным языкам, чтобы улучшить доступ к медицинским услугам.
*️⃣ Можно ли добиться успеха в обучении медицинской VLM на чисто синтетических данных?
В статье изучается возможность использования исключительно синтетических данных для обучения моделей MedVLM. Спойлер - да, можно
🔜 Читать полный дайджест
@ai_machinelearning_big_data
✔️ Google запускает NotebookLM Business для корпоративных задач.
Google запускает платную версию NotebookLM, ориентированную на бизнес. Доступ к NotebookLM Business будет через пилотную программу раннего доступа.
Участники пилотной программы NotebookLM Business получат более высокие лимиты использования и новые функции: кастомизация и совместное использование записных книжек.
В NotebookLM Business также запланирована функция Audio Overview, которая позволяет пользователям создавать озвученное учебное пособие. Google объявит о всеобщей доступности и ценах на NotebookLM Business позднее в этом году.
venturebeat.com
✔️ Anthropic выпустила обновление Claude: новые функции и приложение для iPad.
Новые функции — возможность поиска по прошлым чатам и добавления контекста в проекты с помощью пользовательских инструкций.
Например, можно попросить Claude AI создать список дел для детей, а затем указать, что у 7-летнего ребенка СДВГ, чтобы ИИ скорректировал ответ с учетом этой информации.
Обновленный интерфейс мобильных приложений и дополнительная поддержка проектов упрощают переключение между устройствами, сохраняя при этом непрерывность рабочих процессов. Теперь и на нативном приложении для iPad.
tomsguide.com
✔️ Google реструктуризирует команду руководителей продуктов и два подразделения разработки ИИ.
Google назначил Прабакара Рагхавана, главу подразделения поиска и рекламы, на должность СTO. Ник Фокс, опытный руководитель Google, возглавит подразделение поиска и рекламы.
Команды, работающие над Google Assistant и чат-ботом Gemini, будут переведены в другие бизнес-подразделения. Команды, сосредоточенные на "устройствах и домашнем опыте", перейдут в подразделение Platforms & Devices, отвечающее за разработку устройств для умного дома и смартфонов Pixel.
Команда, ответственная за чат-бота Gemini, станет частью исследовательской лаборатории ИИ Google DeepMind под руководством Демиса Хассабиса, лауреата Нобелевской премии по химии за разработку системы прогнозирования структуры белка AlphaFold2.
siliconangle.com
✔️ Microsoft разрабатывает ИИ-инструменты для анализа рабочих процессов.
Microsoft подала заявки на два патента, описывающие ИИ-системы, способные анализировать деятельность пользователей и предлагать рекомендации по совместной работе.
Первая система отслеживает документы, с которыми взаимодействует пользователь, а также вклад каждого автора, создавая ранжированный "рекорд авторства". Эти данные анализируются с помощью машинного обучения для формирования рекомендаций по совместным проектам.
Вторая система использует нейронную сеть для обработки естественного языка, чтобы лучше понимать взаимосвязь между фразами в разных документах. Эта технология позволит ИИ выполнять анализ и отвечать на запросы, основываясь на более глубоком понимании контекста.
thedailyupside.com
✔️ Samsung разрабатывает GDDR7 для центров обработки данных и ИИ.
Samsung анонсировала разработку 24-гигабайтного чипа динамической памяти GDDR7 (DRAM) со скоростью 40 Гбит/с и выше.
Новая память предназначена для использования в центрах обработки данных и приложениях искусственного интеллекта, и в ближайшее время не будет доступна для потребительских ПК.
Samsung утверждает, что новый чип GDDR7 потребляет на 30% меньше энергии по сравнению с предыдущим поколением GDDR6. Это достигается за счет использования технологий управления тактовой частотой и двойного напряжения питания (VDD). Компания планирует начать производство 24-гигабайтной DRAM в начале 2025 года.
uk.pcmag.com
@ai_machinelearning_big_data
#news #ai #ml
Как обучить и интегрировать ML-модель — расскажут спикеры конференции I’ML
— MLOps-конференция от JUG Ru Group — организаторов Joker, JPoint, Heisenbug, HolyJS и других крупных конференций.
— 8 ноября онлайн
— 10 докладов и онлайн-дискуссии
Как измерить полезность модели? Какую развернуть инфраструктуру? Нужно ли строить свою ML-платформу? Найдем ответы на эти вопросы вместе.
Сравним стеки AMD и Nvidia, поговорим о RecSys и мультимодальности, процессах и политиках ML-разработки. Также будут доклады про обеспечение качества и безопасности моделей.
Выступления будут транслироваться в 4K, записи останутся участникам навсегда, а после докладов вы сможете задать вопросы спикерам.
Полная программа — на сайте конференции.
Билет на I’ML 2024 Autumn можно купить за счет компании — читайте в статье на VC, почему это выгодно не только вам, но и вашему работодателю.
При покупке билета за свой счет («Для частных лиц») используйте промокод для скидки 15% — MACHINELEARNING
Реклама. ООО «Джуг Ру Груп». ИНН 7801341446
Что можно создать с помощью Python? Сервис знакомств, чат-бота с ИИ, систему по поиску данных — почти всё что угодно. Именно за универсальность и простоту разработки компании и профессионалы любят Python.
Как освоить этот язык программирования, рассказывают на расширенном курсе Нетологии «Python-разработчик». На нём вы:
- Освоите все инструменты и технологии, необходимые для работы.
- Научитесь разрабатывать веб-приложения и API, работать с базами данных, настраивать сервера и тестировать код.
- Добавите в портфолио 22 проекта, поработаете над реальными кейсами и примете участие в хакатоне.
Получите скидку по промокоду PRINT(45)
После курса вы сможете стать крепким backend-разработчиком и попасть на стажировку в «Самолёт». А если вдруг решите сменить направление, Python станет надёжной базой для аналитики и машинного обучения. Постройте карьеру в IT
Реклама. ООО "Нетология". Erid 2VSb5xSXLSC
🌟 SHORTCUT MODELS: метод обучение диффузионных моделей генерации в 1 шаг.
Shortcut models - метод обучения диффузионных моделей, который позволяет генерировать изображения высокого качества за один или несколько шагов.
В основе shortcut models - идея обучать сеть с учетом не только текущего уровня шума, но и желаемого размера шага. Это позволяет модели "перепрыгивать" через этапы генерации.
Ключевым преимуществом данного подхода является его простота: shortcut models обучаются за один этап, используя одну сеть, в отличие от других методов ускорения выборки, которые полагаются на сложные схемы обучения с несколькими фазами, сетями или точной настройкой шедулера.
В процессе обучения shortcut models используются два типа целей loss function:
🟢flow-matching при малом размере шага (d ≈ 0), аналогично стандартным диффузионным моделям.
🟢self-consistency при больших размерах шага (d > 0), где цель формируется путем конкатенации последовательности из двух шагов размером d/2.
Совместная оптимизация этих целей дает возможность модели научиться создавать изображения, сохраняя согласованность при любом размере шага, включая генерацию за один шаг.
Метод применим к flow-matching и transformer-based типам моделей и RNN/LSTM-сетям.
Эксперименты, проведенные с DiT на наборах данных CelebA-HQ и ImageNet-256, подтверждают эффективность метода.
Shortcut models превосходят методы "end-to-end" обучения одношаговых генеративных моделей и конкурируют с двухэтапными методами дистилляции.
Практическая реализация shortcut models написана на JAX. Для локального запуска следует установить зависимости conda из файлов environment.yml и requirements.txt репозитория.
⚠️ Код поддерживает --model.sharding fsdp
для полностью сегментированного параллелизма данных, если обучение проводится на multi-GPU или TPU.
⚠️ Чекпоинты и FID для тестовых датасетов CelebA и Imagenet доступны на Google-диске.
▶️ Пример запуска обучения на DiT-B с датасетом CelebA :
python train.py --model.hidden_size 768 --model.patch_size 2 --model.depth 12 --model.num_heads 12 --model.mlp_ratio 4
--dataset_name celebahq256 --fid_stats data/celeba256_fidstats_ours.npz --model.cfg_scale 0 --model.class_dropout_prob 1 --model.num_classes 1 --batch_size 64 --max_steps 410_000 --model.train_type shortcut
Улучшенная версия BPR
В рекомендациях, как известно, бейзлайн побить обычно сложно, и часто старые добрые модели работают гораздо лучше новых, если уделить достаточно внимания деталям.
Так вышло и в этом случае. BPR (Bayesian Personalized Ranking) была изобретена еще в 2012 году, и за 12 лет расплодилось куча ее реализаций: в каждой библиотеке своя, у кого-то работают похуже, у кого-то получше. А у ресерчеров из T-Bank AI Research получилось создать новый золотой стандарт – SOTA версию алгоритма.
Ребята пересмотрели и доработали все компоненты BPR, и, учитывая влияние каждого из параметров, пересобрали эффективную реализацию. Для этого, кстати, понадобилось более 200 000 GPU-часов и 15 000 экспериментов 😱
В итоге в некоторых случаях она превзошла другие модели почти на 50% по точности (в частности, популярную реализацию из RecBole). Это не все: модель обошла даже хайповую Mult-VAE от Netflix и оказалась точнее на 10%!
Работу, кстати, уже презентовали на ACM RecSys в Италии. Подробное описание модели и результаты экспериментов доступны в статье Revisiting BPR: A Replicability Study of a Common Recommender System Baseline.
Исходный код и дополнительные материалы можно найти на GitHub.
📌 Гайд по распределенному обучению.
Репозиторий Github облачного хостинг-провайдера Lambda Labs c исчерпывающим руководством по лучшим практикам распределенного обучения, диагностике часто возникающих ошибок, эффективном использовании доступных ресурсов и приемам логгирования в stdout/stderr и wandb.
Вопросы, на которые отвечает это руководство:
🟢Как обновить скрипт обучения/файнтюна на одном GPU для работы на нескольких GPU или нескольких нодах?
🟢Как диагностировать зависания/ошибки, возникающие во время обучения?
🟢Моя модель слишком велика для одного GPU - как мне обучить/настроить ее на кластере?
🟢Как запланировать и запустить обучение на кластере?
🟢Как масштабировать гиперпараметры при увеличении числа воркеров?
Руководство состоит из последовательных глав, каждая из которых содержит readme
и скрипт train_llm.py
.
В readme
содержатся описания глав, а каждый из обучающих скриптов нацелен на обучение каузальной языковой модели.
▶️ Структура:
🟠Один GPU;
🟠Несколько GPU на одной ноде;
🟠Несколько GPU на нескольких нодах;
🟠Запуск заданий;
🟠Шардинг между GPU (deepspeed);
🟠Шардинг между GPU (FSDP);
🟠Обучение 405B модели;
🟠Диагностика ошибок;
🟠Дополнительные темы (детерминизм, эффективность batch-size и LR, Gradient accumulation и др.).
▶️Локальное использование репозитория:
# Clone repo
git clone https://github.com/LambdaLabsML/distributed-training-guide.git
# Create venv
cd distributed-training-guide
python3 -m venv venv
source venv/bin/activate
python -m pip install -U pip
pip install -U setuptools wheel
pip install -r requirements.txt
⚡️ FatLlama-1.7T
Зачем кому-то создавать FatLlama-1.7T? Серьезно, в чем смысл?
Однажды вы просыпаетесь и думаете: "Знаете, что нам нужно? Такая огромная модель, чтобы даже облака занервничали". Это все равно что решить построить ракету только для того, чтобы сгонять в супермаркет.
Конечно, это впечатляет, но кто будет ее запускать? Скорее всего, не вы, если только ваш ПК не является нелегальным ядерным реактором.
И что же она умеет? Может быть, предсказывать ваши электронные письма еще до того, как вы подумаете их написать, или просто станет очень хорошо находить в сети видео с котами, кто ж знает...
Вопрос в том, создаем ли мы эти гигантские модели, потому что можем или потому что нам есть что показать Вселенной?
FatLlama-1.7T - это не столько ИИ, сколько "подержите мое пиво, я собираюсь запустить эту штуку".
И вот она, FatLlama-1.7T, которая займет ВСЕ место на вашем жестком диске. Забудьте о сохранении семейных фотографий или драгоценном архиве книг, которые вы никогда не прочитаете. Вам же не так уж и нужны были эти жалкие 3 ТБ свободного места, правда? Зато теперь у вас есть цифровой гигант.
Квантованные версии? Да не вопрос, удачи с запуском, держитесь там.
Даже если каким-то чудом вам удастся запустить FatLlama-1.7T, не спешите расслабляться, ведь вы знаете, что будет дальше, верно? FatLlama 3T.
К тому времени, когда вы выработаете максимум энергии и превратите свой дом в центр обработки данных, чтобы запустить свежую FatLlama 3T, я перейду к FatLlama 5.8T, для которой, вероятно, потребуется маленькая галактика в качестве источника энергии.
Вызов принят? 😁
🟡Модель
🟡Набор GGUF
@ai_machinelearning_big_data
#AI #ML #LLM
✔️ Планы Microsoft в области ИИ: доклад Сатьи Наделлы на саммите по ИИ в Лондоне.
Стратегия Microsoft в области ИИ включает Copilot, пользовательский интерфейс, который поддерживает новые рабочие процессы и совместную работу, и Copilot Studio, который позволяет создавать ИИ-агентов с помощью инструментов low-code/no-code.
Конфиденциальность данных и безопасность ИИ занимают центральное место в видении Microsoft, направленном на создание надежного ИИ, при этом компания разрабатывает возможности для обеспечения доверия к ИИ и развития безопасной экосистемы.
geeky-gadgets.com
✔️ Gemini: голосовой помощник от Google сможет звонить и отправлять сообщения с заблокированного телефона.
Новая функция расширит возможности Gemini Live, который уже сейчас может отвечать на вопросы с заблокированного телефона.
Для активации функции пользователю нужно будет включить соответствующую настройку в меню Gemini на Android.
Просмотр ответов с личной информацией будет доступен только после разблокировки устройства..
techradar.com
✔️ Китайский стартап в области ИИ утверждает, что превзошел GPT-4o.
01AI, основанный специалистом по информатике Кай-Фу Ли, запустил новую модель Yi-Lightning, которая, как утверждается, превосходит GPT-4o-2024-05-13 от OpenAI и Claude 3.5 Sonnet от Anthropic в рейтинге LMSYS.
Несмотря на успех Yi-Lightning, 01AI переориентируется на корпоративные решения для китайских компаний из-за трудностей с монетизацией потребительских продуктов. 01AI по-прежнему будет поддерживать свои глобальные приложения - PopAI, Monoland и приложение для поиска на основе ИИ BeaGo.
Китайские технологические компании получают поддержку от правительства в продолжающейся битве за лидерство в области ИИ с США. Китайское правительство сделало ИИ национальным приоритетом, стремясь стать мировым лидером в этой области к 2030 году.
analyticsindiamag.com
✔️ Asana анонсирует AI Studio: no-code конструктор для разработки и развертывания ИИ-агентов рабочих процессов.
В отличие от других инструментов ИИ, которые просто синтезируют информацию и генерируют контент, ИИ-агенты Asana работают как участник команды. Они берут на себя рутинную работу, координируют проекты и организуют работу по критическим рабочим процессам - от приема до планирования, выполнения и отчетности.
Рабочие процессs на основе ИИ основаны на Asana Work Graph, который фиксирует критический контекст и исторические связи между всей работой внутри организации - кто, какую работу выполняет, к какому сроку, как и почему.
Ранний доступ был запущен 22 октября для уровней Enterprise и Enterprise+, а вскоре появятся годовые подписки для Advanced.
aithority.com
✔️ Keras Hub: универсальная библиотека для предобученных моделей.
Keras Hub – это новая унифицированная библиотека для предобученных моделей, которая объединяет архитектуры NLP и CV, предоставляя разработчикам доступ к набору моделей в рамках единой платформы Keras.
Keras Hub упрощает поиск, использование и публикацию моделей, а также поддерживает функции LoRA, квантования и многоузловое обучение для работы с большими наборами данных.
Для начала работы с Keras Hub достаточно установить библиотеку с помощью команды pip install --upgrade keras-hub
. Keras Hub предоставляет доступ к моделям: Gemma, PaliGemma и Stable Diffusion 3.
Также доступны новые функции для разработчиков KerasCV: встроенная предварительная обработка и функции потерь, доступные через keras.losses.<loss_function>
.
developers.googleblog.com
@ai_machinelearning_big_data
#news #ai #ml
📌Исчерпывающий гайд по методам тонкой настройки больших языковых моделей.
Подробное руководство от Ирландского центра искусственного интеллекта CeADAR по практическому применению и оптимизации процесса тонкой настройки LLM.
В руководстве представлен анализ подходов обучения: контролируемые, неконтролируемые и инструктивные подходы. Гайд подробно рассматривает подготовку наборов данных, выбор подходящей модели, настройку параметров и оценку производительности.
Это руководство подходит как для начинающих, так и для опытных специалистов, которые хотят эффективно настраивать и использовать LLM для решения различных задач в области обработки естественного языка.
Несмотря на техническую сложность темы, авторы сделали материал доступным для широкой аудитории, используя понятный язык и наглядные примеры.
▶️Содержание:
🟢Введение
🟢Семиэтапный конвейер тонкой настройки LLM
🟢Этап 1: Подготовка данных
🟢Этап 2: Инициализация модели
🟢Этап 3: Настройка обучения
🟢Этап 4: Выбор методов тонкой настройки и соответствующих конфигураций модели
🟢Этап 5: Оценка и валидация
🟢Этап 6: Развертывание
🟢Этап 6: Мониторинг и обслуживание
🟢Платформы и фреймворки для тонкой настройки LLM
🟢Мультимодальные LLM и их тонкая настройка
🟢Частые проблемы, этика и ответственность
🟡Arxiv
@ai_machinelearning_big_data
#AI #ML #LLM #Guide #Finetune
🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска.
MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.
Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.
Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.
В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.
Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :
🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении;
🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу;
🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос;
🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization).
▶️ Локальное выполнение бенчмарка возможно 3 способами:
🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей;
🟠путем запуска скриптов оценки MMSearch;
🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут.
⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.
Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.
🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #MMLM #Benchmark
⚡️ Stable Diffusion 3.5 Large.
Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров.
В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:
🟢OpenCLIP-ViT/G;
🟢CLIP-ViT/L;
🟢T5-xxl.
OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.
Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.
Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.
⚠️ Инференс квантованной NF4-версии на ограниченных VRAM
⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.
▶️Локальный запуск инференса на Diffusers:
# install Diffusers
pip install -U diffusers
# Inference
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")
🌟 LongAlign: Улучшение согласованности text-2-image генерации в длинных промптах на диффузионных моделях.
LongAlign - метод тонкой настройки диффузионных text-2-image моделей, который улучшает понимание длинных промптов. Вместо того, чтобы подавать весь длинный текст в CLIP, LongAlign разбивает его на сегменты (например, предложения) и кодирует каждый сегмент по отдельности. Это позволяет использовать CLIP, несмотря на его ограничения.
После кодирования отдельных сегментов LongAlign объединяет полученные эмбединги в единый вектор. Для этого используется конкатенация с удалением повторяющихся специальных токенов ( <sot>
, <eot>
, <pad>
) и добавлением нового токена <pad*>
.
Чтобы достичь точности согласования, в LongAlign используется 3 техники:
🟢классификация предпочтений на основе текстовой зависимости, оценивается не только следованию промпту, но и визуальные аспекты (фотореализм, эстетика);
🟢перевзвешивание градиентов, уменьшает влияние текстово-независимого компонента и улучшает согласованность между текстом и изображением;
🟢сегментной модели предпочтений, детально согласовывает отдельные части текста с изображением.
По проведенным оценкам, LongAlign значительно превосходит базовые модели Stable Diffusion, PixArt-α и Kandinsky v2.2 по показателям FID и Denscore. Отдельно выполненная оценка в GPT-4o подтвердила преимущества LongAlign в согласовании text-2-image.
▶️ Подготовка к файнтюну с помощью LongAlign:
🟠Тестовый датасет на 2 млн. пар фомата "длинный промпт-изображение"
🟠Stable Diffusion v1.5 (загрузится автоматически)
🟠T5-адаптер (положить в ./model/LaVi-Bridge
)
🟠Denscore (загрузится автоматически)
🟠longSD (положить в ./model/longSD
)
▶️ Установка и запуск на примере трейна Stable Diffusion и LCM-версии Stable Diffusion
# Prepare environment
pip install -r requirements.txt
# Train original Stable Diffusion
# support long-text inputs
bash run_unet.sh align ct5f
# preference optimization for long-text alignment
bash run_unet.sh reward test
# Train LCM-version Stable Diffusion
# support LCM sampling
bash run_unet.sh lcm ct5f
# preference optimization for long-text alignment
bash run_unet.sh reward_lcm test
✔️ Microsoft запустит автономных AI-агентов.
Microsoft готовится к выпуску в ноябре автономных агентов ИИ, которые должны стать «софтом для мира, управляемого ИИ». Эти агенты будут отличаться от чат-ботов тем, что требуют минимального вмешательства человека.
Компания позиционирует их как инструменты, способные автоматизировать рутинные задачи, например, отвечать на запросы клиентов, находить потенциальных покупателей и управлять запасами.
Microsoft использует для своих агентов как собственные модели ИИ, так и модели OpenAI. Создавать собственных агентов можно будет в Copilot Studio.
С началом доступа будут представлены 10 готовых к использованию агентов для решения различных бизнес-задач.
reuters.com
✔️ PROM-микросхема повысит эффективность обучения моделей ИИ.
Xilinx XCF04SVOG20C, микросхема PROM обеспечит эффективное решение для хранения конфигураций FPGA, позволяя им быстро загружать и выполнять различные конфигурации моделей во время обучения ИИ, тем самым повышая общую вычислительную производительность и эффективность.
XCF04SVOG20C, емкостью 4 Мбит, может хранить данные конфигурации, необходимые для сложных моделей ИИ. Эта емкость даст возможность FPGA гибко обрабатывать потребности в обучении различных моделей ИИ.
Сотрудничество между FPGA и PROM не ограничивается крупномасштабными задачами обучения в ЦОДах и может применяться к периферийным вычислениям ИИ.
Небольшой размер и высокая температурная устойчивость XCF04SVOG20C (диапазон рабочих температур от -40°C до 85°C) делают его идеальным для использования в ограниченных пространствах и изменчивых средах.
electropages.com
✔️ Midjourney на следующей неделе планирует добавить новые инструменты обработки изображений.
Обновление добавит две новые функции: редактирование загруженного изображения и возможность изменения текстуры объектов на изображениях. Пользователи смогут изменять цвета и детали объектов на основе текстовых описаний, сохраняя при этом исходную форму.
Компания проводит опрос своего сообщества в Discord, чтобы определить, кто должен получить ранний доступ. Для предотвращения злоупотреблений компания планирует увеличить количество модераторов-людей и внедрить модераторов на основе ИИ.
gagadget.com
✔️ ComfyUI выпустит первую версию своего приложения.
ComfyUI V1 анонсирован в закрытой бета-версии с новым пользовательским интерфейсом, реестром пользовательских нод (CNR) и автономной версией для настольных компьютеров для Windows, MacOS и Linux.
Версия для настольных ПК включает в себя функции безопасности, автоматические обновления, облегченную установку и рекомендуемую среду Python. Она поставляется с менеджером ComfyUI, который позволяет устанавливать ноды из реестра ComfyUI.
Среди других особенностей - вкладки для рабочих процессов, настраиваемые сочетания клавиш, автоматический импорт из существующих установок ComfyUI, просмотрщик журналов.
ComfyUI анонсировала новый пользовательский интерфейс с верхней строкой меню, библиотекой моделей, браузером рабочих процессов и функцией автоматической загрузки моделей, которая позволяет использовать URL-адрес/идентификатор модели в рабочих процессах.
blog.comfy.org
@ai_machinelearning_big_data
#news #ai #ml
Что такое эксперименты в ML и чем они отличаются от «фичей» в обычной разработке?
🔹Расскажем на открытом уроке «MLFlow и переобучение ML-моделей» почему важно переобучать (retrain) свои модели, чтобы держать их «в тонусе».
Разберем какую роль инструменты, такие как MLFlow, играют в процессах регулярного переобучения
✅ Практика: Изучим как выбирать лучшие варианты для отправки в Prod / Staging среду и всегда знать, что у вас «на проде»
Урок приурочен курсу «MLOps» от Otus.
👉 Регистрация и подробности:
https://otus.pw/N5yE/?erid=LjN8KD84d
#реклама
О рекламодателе
🌟 Zamba2-Instruct: две гибридные SLM на 2.7 и 1.2 млрд. параметров.
Zamba2-Instruct - семейство инструктивных моделей на архитектуре Mamba2+Transformers для NLP-задач.
В семействе 2 модели:
🟢Zamba2-1.2B-instruct;
🟠Zamba2-2.7B-instruct.
Высокая производительность семейства по сравнению с релевантными Transformers-only моделями достигается за счет конкатенации эмбедингов модели с входными данными для блока внимания и использование LoRA projection matrices к общему MLP-слою.
Модели файнтюнились (SFT+DPO) на instruct-ориентированных наборах данных (ultrachat_200k, Infinity-Instruct, ultrafeedback_binarized, orca_dpo_pairs и OpenHermesPreferences).
Тесты Zamba2-Instruct продемонстрировали внушительную скорость генерации текста и эффективное использование памяти, обходя MT-bench более крупные по количеству параметров модели/ (Zamba2-Instruct-2.7B превзошла Mistral-7B-Instruct-v0.1, а Zamba2-Instruct-1.2B - Gemma2-2B-Instruct)
⚠️ Для запуска на СPU укажите use_mamba_kernels=False
при загрузке модели с помощью AutoModelForCausalLM.from_pretrained
.
▶️Локальная установка и инференс Zamba2-2.7B-Instruct:
# Clone repo
git clone https://github.com/Zyphra/transformers_zamba2.git
cd transformers_zamba2
# Install the repository & accelerate:
pip install -e .
pip install accelerate
# Inference:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B-instruct")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-2.7B-instruct", device_map="cuda", torch_dtype=torch.bfloat16)
user_turn_1 = "user_prompt1."
assistant_turn_1 = "assistant_prompt."
user_turn_2 = "user_prompt2."
sample = [{'role': 'user', 'content': user_turn_1}, {'role': 'assistant', 'content': assistant_turn_1}, {'role': 'user', 'content': user_turn_2}]
chat_sample = tokenizer.apply_chat_template(sample, tokenize=False)
input_ids = tokenizer(chat_sample, return_tensors='pt', add_special_tokens=False).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=150, return_dict_in_generate=False, output_scores=False, use_cache=True, num_beams=1, do_sample=False)
print((tokenizer.decode(outputs[0])))
🌟 Janus: унифицированная MMLM от DeepSeek
Janus - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера.
Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации.
Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096.
▶️ Архитектура Janus состоит из 3 компонентов:
🟢Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP;
🟢Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора;
🟢Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики.
Процесс обучения Janus проходил в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT.
▶️ Оценка производительности Janus выполнялась на бенчмарках:
🟠Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet.
🟠Генерация: MSCOCO-30K, MJHQ-30K, GenEval
Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера.
На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13.
На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL
Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding и Text-to-Image Generation приведены в репозитории проекта.
Способ запуска в GradioUI в коммитах. По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab.
📌Лицензирование кода : MIT License.
📌Лицензирование модели: DeepSeek Model License.
🟡Модель
🟡Arxiv
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI #ML #MMLM #GenAI #Janus #DeepSeek