🌟 Command-r и Command-r-plus: Обновление 08-2024 мультиязычных LLM.
Command-r (35B) и Command-r-plus(104B) редакции 08-2024 - это мультиязычные (23 языка, включая русский) модели с контекстным окном 128К и навыками в генерации текста, переписывании и объяснении программного кода и, особенно, для использования в RAG-конфигурациях.
Разработчиками было уделено отдельное внимание обучению генерации ответов по фрагментам документов с цитированием источника, точному обобщению документов и возможности применения в качестве последнего узла RAG-системы.
Command-r-08-2024 : повышена производительность при многоязычной генерации с расширенным поиском (RAG), лучше справляется с математикой, кодом и рассуждениями.
Она конкурирует по показателям с предыдущей версией Command R+ и показывает на 50 % большую пропускную способность и на 20 % меньшую задержку по сравнению с предыдущей версией Command-r
Сommand-r-plus-08-2024 обеспечивает примерно на 50 % большую пропускную способность и на 25 % меньшую задержку по сравнению с предыдущей версией Command-p-plus на идентичной аппаратной платформе.
✔️ Отличия от предыдущей версии и особенности обновления:
🟢улучшение процесса принятия решений о том, какой инструмент использовать в том или ином контексте, а также о том, стоит ли использовать тот или иной инструмент;
🟢улучшенная инструкция, следующая в преамбуле;
🟢улучшен многоязычный поиск RAG на языке пользователя;
🟢улучшенный анализ структурированных данных для манипулирования;
🟢повышена устойчивость к несемантическим изменениям подсказки, таким как пробелы или новые строки;
🟢модели будут отказываться от вопросов, на которые невозможно ответить;
🟢моделям подняли уровень качества цитирования, добавили возможность отключать цитирование для RAG;
🟢в Command-r перенастроен контроль длины рассуждений и форматирования;
🟢новая функция "Режимы безопасности" - строгий и контекстный, оба режима доступны к ручному управлению пользователю (переключение или отключение). Этот режим не отключает встроенную в модель базовую цензуру, он работает как дополнительный цензор. Более подробно про новый режим безопасности можно почитать в документации.
Обе модели доступны для скачивания на Huggingface, онлайн через API в Cohere’s hosted API и в Amazon Sagemaker.
▶️Стоимость API:
🟠Command-r-08-20240 : $0.15/1M Input Tokens | $0.60/1M Output Tokens.
🟠Command-r-plus-08-2024 : $2.50/1M Input Tokens | $10.00/1M Output Tokens.
📌Лицензирование : CC-BY-NC-SA-4.0 License + соблюдение C4AI's Acceptable Use Policy.
🟡Demo
🟡Документация
🟡Модель Command R
🟡Модель Command R+
@ai_machinelearning_big_data
#AI #CommandR #Cohere #LLM
🌟 Автоматическое проектирование агентов LLM
Развитие базовых языковых и иснтруктивных моделей , таких как GPT и Claude, дал возможность создания агентов общего назначения, способных к гибкому рассуждению и планированию. Но разработка этих агентов часто требует ручной настройки и значительных усилий со стороны инженеров и ресерчеров.
Для упрощения процесса проектирования агентов появилось новое направление исследований — автоматизированное проектирование агентных систем (Automated Design of Agentic Systems, ADAS).
Главное назначение методологии ADAS - автоматизация создания новых агентных блоков и их объединение в сложные системы.
Используя возможности LLM и гибкость языков программирования, ADAS обещает более эффективный и действенный подход к созданию комплексных агентных систем.
Поисковый алгоритм с помощью мета-агента является ярким примером ADAS в действии. Он использует мета-агента, который по сути является LLM, для итеративного проектирования новых агентов на основе постоянно растущего архива результатов предыдущих поисков.
ADAS позволяет исследовать обширное пространство кода, теоретически позволяя обнаружить любую возможную агентную систему. Мета-агент должен исследовать интересные проекты: новые промпты, использование инструментов, потоки управления и их комбинации.
Благодаря обширным экспериментам в областях программирования, науки и математики, алгоритм демонстрирует способность изобретать агентов с новыми проектами, которые превосходят современных агентов, разработанных вручную.
Один из реализованных проектов ADAS в практической среде - использование алгоритма Meta Agent Search в связке с GPT:
# Create Conda venv:
conda create -n adas python=3.11
# Activate venv:
conda activate adas
#Install Dependencies:
pip install -r requirements.txt
# Set OpenAI API Key:
export OPENAI_API_KEY="YOUR KEY HERE"
# Navigate to _arc folder:
cd _arc
# Run Meta Agent Search
python search.py
🌟 SkillMimic: Обучение человекоподобного объекта навыкам по их демонстрации на примере баскетбола.
SkillMimic - метод моделирования симуляции поведения 3D-объекта или физического человекоподобного робота для изучения различных баскетбольных навыков на примерах демонстрации этих навыков людьми.
Основная техника метода заключается в обучении движениям человека используя данные Human-Object Interaction (HOI). Обучаемый объект взаимодействует с окружающей средой на основе прогнозов действий, определяемых политикой и руководствуясь единым вознаграждением за имитацию HOI.
Функция вознаграждения состоит из двух компонентов:
🟢Contact Graph Reward, система оценки контакта объекта с предметом (мячом). вычисляется как экспонента от суммы взвешенных ошибок между смоделированным и эталонным (HOI) графом контактов.
🟢Kinematic rewards,, совокупность оценок за имитацию движений объекта (позиции, повороты, скорости), рассчитываемые методом среднеквадратичной ошибки и отрицательной экспоненциальной нормализации между эталоном (HOI) и движением объекта.
В результате обеспечивается точная имитация движений с мячом с предотвращением локальных оптимумов.
Приобретенные навыки могут быть повторно использованы, объединены и комбинированы целевым объектом для выполнения сложных задач с помощью высокоуровневого контроллера.
SkillMimic позволяет отказаться от традиционного трудоемкого планирования вознаграждений и вместо этого использовать данные HOI для определения и изучения навыков.
Программная интерпретация SkillMimic позволяет обучаться различным баскетбольным навыкам: бросок, подбор, бросок с разворота.
После приобретения этих навыков их можно комбинировать для выполнения сложных задач: непрерывный набор очков, дриблинг в сторону корзины, тайминг дриблинга и броска, поиск отскока и повторение всего процесса.
⚠️ Предобученные модели находятся в репозитории в директории /data/models/
▶️Установка с использованием среды Issac Gym:
# Create venv
conda create -n skillmimic python=3.8
conda activate skillmimic
pip install -r requirements.txt
# Install the Issac Gym
tar -xzvf /{your_source_dir}/IsaacGym_Preview_4_Package.tar.gz -C /{your_target_dir}/
cd /{your_target_dir}/isaacgym/python/
pip install -e .
python skillmimic/run.py --test --task SkillMimicBallPlay --num_envs 16 \
--cfg_env skillmimic/data/cfg/skillmimic.yaml \
--motion_file skillmimic/data/motions/BallPlay-M/layup \
--checkpoint skillmimic/data/models/mixedskills/nn/skillmimic_llc.pth
# Transform the images into a video
python skillmimic/utils/make_video.py --image_path skillmimic/data/images/test_images --fps 60
🌟 OmniRe: 3DGS-метод реконструкции и симуляции городской среды.
OmniRe - метод для целостной реконструкции городских среды с движущимися объектами по существующим видеозаписям.
Метод использует нейронный граф сцены и гауссовы представления для моделирования различных динамических объектов - транспортные средства, пешеходов и велосипедистов.
OmniRe реконструирует и оптимизирует всю композицию сцены за один этап: гауссовские атрибуты, положения объектов, позы людей и веса сети деформаций.
Способность целостного моделирования динамических объектов позволяет применять OmniRe в проектах управления транспортными средствами, моделирования дорожного движения и симуляции поведения человека в условиях городской среды.
Ограничения и недостатки:
🟠метод не моделирует световые эффекты при различных условиях освещения;
🟠OmniRe еще не умеет генерировать отсутствующие или исправлять некорректные ракурсы, когда камера значительно отклоняется от траекторий съемки.
Прикладное применения метода реализовано в виде фреймворка Drive Studio. Помимо имплементации метода OmniRe, он имеет ряд полезных функций:
🟢гибкое обучение с использованием нескольких камер;
🟢использование ядра растеризации gsplat с расширенными функциями абсолютных градиентов, сглаживания и т.д;
🟢уточнение ракурса камеры;
🟢уточнение границ для Bounding Box объектов в режиме GT;
🟢афинное преобразование экспозиции съемки для выравнивания освещенности.
Фреймворк поддерживает методы OmniRe, Deformable-GS, PVG, Street Gaussians с использованием набора данных Waymo, NuScenes, NuPlan, ArgoVerse, PandaSet, KITTI.
Планы по развитию Drive Studio:
🟢разработка средство просмотра в режиме реального времени;
🟢инструменты для редактирования и симуляции сцен;
🟢поддержка 2DGS, Surfels и других представлений.
⚠️ Важно! Перед началом обучения внимательно ознакомьтесь с инструкциями по подготовке наборов данных.
▶️Установка:
# Clone repository with submodules
git clone --recursive https://github.com/ziyc/drivestudio.git
cd drivestudio
# Create venv and install requirements
conda create -n drivestudio python=3.9 -y
conda activate drivestudio
pip install -r requirements.txt
pip install git+https://github.com/facebookresearch/pytorch3d.git
pip install git+https://github.com/NVlabs/nvdiffrast
# Set up for SMPL Gaussians
cd third_party/smplx/
pip install -e .
cd ../..
⚡️ Новостной МЛ дайджест
✔️ Google предлагает подписчикам Gemini Advanced новые функции: Gems и Imagen 3.
Gems дает возможность пользователям файнтюнить Gemini для конкретных задач, предлагая готовые сценарии: образование, программирование, поиск идей, помощник по карьере и ассистент писателя. Imagen 3 - это новейшая модель генерации изображений, разработанная Google DeepMind.
9to5google.com
✔️ Суд признал Google монополией, окажет ли это влияние на рынок ИИ.
Федеральный судья Амит Мехта признал Google монополией, постановив, что компания незаконно использовала свою рыночную власть для вреда конкурентам в области поисковых систем. Это решение является первым поражением крупной интернет-платформы в антимонопольном деле за более чем 20 лет и может иметь серьезные последствия для бизнес-практик компаний Silicon Valley.
Юристы считают, что это решение может сделать судей более восприимчивыми к антимонопольным действиям в других делах против крупных технологических компаний, особенно в отношении растущей индустрии ИИ. Сегодня рынок ИИ доминируется многими из тех же компаний, которые являются ответчиками по антимонопольным обвинениям в суде, и эти компании используют те же тактики для укрепления своей власти на рынке ИИ.
time.com
✔️ Microsoft разрабатывает новые подходы к ИИ, по примеру работы человеческого мозга.
Microsoft объявила о нескольких новых проектах, направленных на разработку более эффективных и устойчивых технологий искусственного интеллекта.
Один из проектов - разработка нейронной сети CircuitNet, которая имитирует работу мозга в обработке информации. CircuitNet использует комбинацию плотно связанных локальных узлов и меньшего количества соединений между отдаленными регионами, вследствие чего сигналы обрабатываются более эффективно.
Другой проект - улучшение точности предсказательных моделей для будущих событий. В нем используются спайковые нейронные сети (Spiking neural networks), которые активируют нейроны только при достижении определенного порога.
Третий проект - улучшение способности ИИ обрабатывать языковые данные и прогнозировать закономерности. Исследователи разработали новый подход, который комбинирует две техники: центральные генераторы паттернов (Central pattern generators) и позиционное кодирование (Positional encoding). В результате, SNN лучше обрабатывает временные данные и точнее прогнозирует будущие события.
microsoft.com
✔️ Релиз Vectorlite v0.2.0: быстрый векторный поиск в процессе работы на любом языке с поддержкой SQL.
Компания Vectorlite объявила о выпуске новой версии своей библиотеки поиска векторов - v0.2.0. В этой версии разработчики решили проблемы, связанные с ограничениями hnswlib, которая использовалась в предыдущих версиях Vectorlite.
Одной из проблем hnswlib была реализация расстояния между векторами, которая была медленной на платформах ARM и не использовала более быстрые инструкции на платформах x64 с поддержкой AVX2. Кроме того, SIMD-инструкции определялись на этапе компиляции, что могло вызвать проблемы на системах, не поддерживающих AVX2.
В новой версии Vectorlite разработчики представили свою собственную портативную реализацию расстояния между векторами с использованием библиотеки Google Highway. Это позволило улучшить производительность Vectorlite в 1,5-3 раза на машинах с поддержкой AVX2 и векторами размером 256 и более. На платформах ARM Vectorlite теперь также поддерживает SIMD-ускорение.
Еще в новой версии Vectorlite нормализация векторов теперь гарантированно ускорена с помощью SIMD, что делает ее в 4-10 раз быстрее, чем скалярная реализация. .
1yefuwang1.github.io
@ai_machinelearning_big_data
#news #ai #ml
🌟LongVILA: Масштабирование VLM с длинным контекстом для обработки длинных видео.
LongVILA, полнофункциональное решение на основе LLaVA, разработанное NVLabs, для длинноконтекстных VLM, включающее программный набор, претрейн-моделей и разработку набора данных для обучения.
Программная реализация основывается на Multi-Modal Sequence Parallelism (MM-SP).
Это распределенный фреймворк для обучения и вывода, который предназначен для визуальных языковых моделей (VLM) с длинным контекстом. Он решает сложную задачу обработки огромных объемов данных и вычислений, необходимых для обучения и развертывания VLM на длинных видео.
Ядром MM-SP является двухэтапная стратегия шардинга и механизм 2D-внимания.
На первом этапе изображения равномерно распределяются по устройствам, обеспечивая сбалансированное кодирование изображений.
Второй этап включает в себя шардинг токенов уровня глобального зрения и текстовых входных данных с добавлением фиктивных токенов для совместимости с кольцевым вниманием.
Механизм 2D-внимания повышает эффективность в MM-SP, объединяя кольцевой стиль и стиль Улисса (Ulysses) последовательного параллелизма, используя внутриузловое общение All-2-All и межузловое общение P2P.
MM-SP распределяет вычислительную нагрузку по нескольким устройствам позволяя проводить обучение и вывод на чрезвычайно длинных последовательностях. Кроме того гибридная стратегия параллелизма минимизирует накладные расходы на связь еще больше улучшая пропускную способность обучения и сокращая время вывода.
Полный стек решения LongVILA расширяет число возможных кадров VILA в 128 раз (с 8 до 1024 кадров) и улучшает оценку аннотирования длинных видео с 2,00 до 3,26 (в 1,6 раза), демонстрируя 99,5% точности в 1400-кадровом видео (длина контекста 274k).
Претрейн модели основаны на Llama-3-8B и предназначены для рассуждений с использованием нескольких изображений и имеют навык визуальной цепочки мышления.
Опубликованы 3 модели:
🟢Llama-3-LongVILA-8B-128Frames;
🟢Llama-3-LongVILA-8B-256Frames;
🟢Llama-3-LongVILA-8B-512Frames.
Эти модели были обучены на 53 миллионах пар "изображение-текст" и могут быть развернуты на конечных устройствах от Jetson Orin для FP16 версий до потребительских ноутбуков в квантованной 4-bit размерности через TinyChat.
📌Лицензирование кода : Apache 2.0 license.
📌Лицензирование моделей: CC-BY-NC-SA-4.0 license.
🟡Arxiv
🟡Набор моделей
🖥Github [ Stars: 1.2K | Issues: 33 | Forks: 92]
@ai_machinelearning_big_data
#AI #NVLab #VLM #ML
🌟Zamba2-mini: компактная и производительная модель с гибридной архитектурой.
Zamba2-mini - гибридная модель c 1.2B параметров, построенная из блоков state-space Mamba (SSM) и transformer.
Модель создана на общей архитектуре Zamba, но отличается от большей модели 2.7B тремя особенностями:
🟢добавлены rotary position embeddings;
🟢чередующиеся трансформерные блоки заменены одним общим;
🟢вместо LoRA на блоке MLP добавлены проекторы LoRA в блоки внимания.
Zamba2-mini использует токенизатор Mistral v0.1 и была предварительно обучена на 3 триллионах токенов текстовых данных и коде различных языков программирования, полученных из открытых веб-наборов данных, к которым был добавлен собственный корпу данных Zyda.
Впоследствии, на втором этапе Zamba2-mini была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Zamba2-mini показала в тестах результаты, сопоставимые с моделями с параметрами <2B и может конкурировать с некоторыми LLM большего размера.
Благодаря уникальной гибридной архитектуре SSM Zamba2-mini демонстрирует низкие задержки логического вывода и быструю генерацию при значительно меньшем потреблении VRAM, чем другие модели такой же плотности параметров на основе трансформеров.
Такие характеристики делает ее идеальной универсальной моделью для приложений на устройствах.
⚠️ Примечание: Zamba2-mini еще не полностью совместима со всеми фреймворками и инструментами HuggingFace.
Реализацию Zamba2-1.2B для Pytorch можно найти здесь.
▶️Локальная установка и инференс:
# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git
#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate
#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)
input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
⚡️ CogVideoX: Модель CogVideoX-5B теперь в открытом доступе
Tsinghua University (THUDM) выложили в открытый доступ более крупную модель генерации Text-to-Video серии CogVideoX - CogVideoX-5B, которая ранее была доступна только по API.
Помимо публикации большей модели, значительно оптимизирована производительность вычислений обеих моделей: CogVideoX-2B и CogVideoX-5B, изменена лицензия у младшей 2B модели на Apache 2.0 License и усовершенствован код в репозитории на Github
Теперь вы можете запускать CogVideoX-2B на более ранних GPU, например GTX 1080TI и CogVideoX-5B на современных GPU, таких как RTX 3060.
📌Лицензирование кода : Apache 2.0 License.
📌Лицензирование модели CogVideoX-2B: Apache 2.0 License.
📌Лицензирование модели CogVideoX-5B: CogVideoX License (бесплатно для академических целей, регистрация и получение базовой лицензии - для коммерческой эксплуатации до 1млн. в мес. активных посещений. Свыше 1 млн. в мес. - получение дополнительной лицензии).
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥Github [ Stars: 5.9K | Issues: 19 | Forks: 543]
@ai_machinelearning_big_data
#AI #Text2Video #Cogvideo #ML
⚡️ Новостной дайджест
✔️ Anthropic опубликовала system prompts для Claude всех версий.
Anthropic опубликовала системные подсказки для своих моделей Claude 3.5 Opus, Sonnet и Haiku, стремясь к большей прозрачности в области ИИ.
Это системные промпты, которые определяют основные качества моделей и их поведение. Они указывают, что Claude не может открывать ссылки или идентифицировать людей на изображениях. Например, модель должна вести себя так, как будто она "полностью слепа к лицам".
Также указаны характеристики, которые модели должны демонстрировать, такие как интеллектуальное любопытство и беспристрастность при обсуждении спорных тем.
techcrunch.com
✔️ Китайские компании обходят экспортные ограничения США на чипы искусственного интеллекта, используя сервисы Amazon AWS.
За последние два года правительство США ужесточило правила, запрещающие продажу высокопроизводительных ИИ-чипов Nvidia и AMD, в Китай, чтобы ограничить технологические достижения китайских военных.
Доступ к этим чипам через облачные сервисы не нарушает американские законы, поскольку они касаются только прямого экспорта физических товаров. По данным Reuters, по меньшей мере 11 китайских организаций искали доступ к ограниченным технологиям через облачные сервисы, среди которых четыре явно указали на Amazon Web Services (AWS).
Например, Шэньчжэньский университет потратил 200,000 юаней (около $28,000) через посредника для доступа к серверам AWS с чипами Nvidia A100 и H100, запрещенными для прямого экспорта в Китай.
В ответ на это в Конгрессе был предложен законопроект, который даст Министерству торговли США полномочия регулировать удаленный доступ к американским технологиям.
cio.com
✔️ Salesforce готовит к релизу модель Tex-2-Video.
Salesforce опубликовала технический отчет о xGen-VideoSyn-1, модели T2V, которая генерирует реалистичные сцены из текстовых описаний.
Модель использует видео-вариационный автоэнкодер (VidVAE) для сжатия видеоданных и снижения вычислительные требования, и диффузионный трансформер (DiT) для улучшения временной согласованности и обобщения.
Репозиторий Selesforce на Github, указанный в отчете ограничен для доступа с определенных IP-адресов, что говорит о последних подготовках к релизу.
arxiv.org
✔️ На Huggingface Spaces появился генератор синтетических текстовых датасетов на любую тематику.
Генератор работает на базе phi-3-mini, генерирует 99 строк за одну итерацию в формате таблицы в большинстве случаев, формата Title, Text, Label.
У генератора есть поиск по ключевому слову для темы для дальнейшего выбора предустановленных шаблонов.
Он не самый точный, но быстрый и производительный.
huggingface.co
✔️Модель для поиска новых лекарств и биоактивных комбинаций.
ActFound - модель искусственного интеллекта, которая предназначена для проектирования биоактивности соединений была разработана совместными усилиями ученых из Китая и США. Модель сочетает метаобучение и парное обучение, чтобы преодолеть ограничения в нехватке данных и несовместимые измерения при поиске новых химических соединений.
ActFound была обучена на ~35 000 проб из популярной химической базы данных и 1,6 млн экспериментально измеренных биоактивностей.
По завершении обучения, ActFound был протестирован на 6 реальных наборах данных о биологической активности и превзошел 9 конкурирующих моделей для прогнозирования в своей области.
scmp.com
✔️ IBM представила новый чип Spyre для IBM Z для масштабирования корпоративных ИИ-нагрузок будущего.
Spyre включает 32 ядра ускорителей и 25.6 миллиарда транзисторов, производясь по 5-нм технологии. Чипы могут быть установлены на PCIe-карты, которые можно объединять для увеличения вычислительных мощностей.
Архитектура чипа оптимизирована для выполнения матричных операций, что энергоэффективней по сравнению с традиционными процессорами.
IBM планирует дальнейшую разработку Spyre с учетом возможности обучения моделей ИИ на своих мейнфреймах.
research.ibm.com
✔️ Google представляет GameNGen, первый игровой движок, полностью основанный на нейронных сетях.
@ai_machinelearning_big_data
#news #ai #ml
⚡️ Vikhr-Gemma-2B-instruct: Инструктивная русскоязычная версия Gemma2.
Vikhr models - команда энтузиастов, занимающихся созданием и развитием русифицированных моделей искусственного интеллекта выпустила инструктивную модель Vikhr-Gemma-2B-instruct, построенную на базе Gemma2-2B, которая была дообучена на русскоязычном корпусе данных GrandMaster-PRO-MAX.
Датасет GrandMaster-PRO-MAX - собственный русскоязычный датасет проекта Vikhr models в формате вопрос-ответ, собранных из различных источников.
Характерной особенностью датасета является, то, что модели обученные на этом наборе данных будут иметь способность к Chain-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов датасета.
Авторы опубликовали квантованные GGUF-версии модели в разрядности от 1-bit (832 MB) до 32-bit (10.5 GB).
Наиболее низкие показатели Perplexity, полученные в тестах на датасетах Veles и Wikitext-2 у GGUF-версий FP32, FP16, BF16, Q8_0 и Q5_K.
▶️Пример запуска модели на Transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
# Загрузка модели и токенизатора
model_name = "Vikhrmodels/Vikhr-Gemma-2B-instruct"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# Подготовка входного текста
input_text = "Напиши стихотворение о весне в России."
# Токенизация и генерация текста
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids, max_length=200, num_return_sequences=1, no_repeat_ngram_size=2)
# Декодирование и вывод результата
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
⚡️ Liger Kernel: Эффективные ядра Triton для обучения LLM
Liger (Linkedin GPU Efficient Runtime) Kernel — набор оптимизированных ядер Triton, применение которых в задачах обучения LLM на нескольких GPU повышает производительность на 20 % и снижает потребление VRAM на 60%. Это дает возможность использовать более длинные контексты, более крупные размеры пакетов и увеличенные словари в обучении.
Liger предоставляет простой API для операций с оптимизированными ядрами и совместим с Hugging Face: RMSNorm, RoPE, SwiGLU, CrossEntropy, FusedLinearCrossEntropy
Liger работает с Flash Attention, PyTorch FSDP и Microsoft DeepSpeed без необходимости дополнительной настройки.
Зависимости:
🟢PyTorch: 2.1.2 или выше.
🟢Triton: 2.3.0 или выше
🟢Transformers: 4.40.1 или выше.
Liger Kernel доступен в pip. Выберите стабильную версию для продакшена или nightly c последними новыми функциями и исправлениями:
# Stable version
pip install liger-kernel
# Nightly version
pip install liger-kernel-nightly
# Import modules
import transformers
from liger_kernel.transformers import apply_liger_kernel_to_llama
# Load Hugging Face model:
model = transformers.AutoModelForCausalLM.from_pretrained("<some llama model>")
# Apply Liger Kernel patches:
apply_liger_kernel_to_llama(model)
# Import the Liger Kernel module:
from liger_kernel.transformers import LigerFusedLinearCrossEntropyLoss
#Create your model:
import torch.nn as nn
import torch
model = nn.Linear(128, 256).cuda()
loss_fn = LigerFusedLinearCrossEntropyLoss()
#Use the model:
input = torch.randn(4, 128, requires_grad=True, device="cuda")
target = torch.randint(256, (4, ), device="cuda")
loss = loss_fn(model.weight, input, target)
loss.backward()
🚀 Новостной дайджест.
✔️ Появилось определение, что такое ИИ с открытым исходным кодом.
Open Source Initiative (OSI) представила определение, разработанное группой из 70 экспертов, включая ученых и представителей крупных технологических компаний. Согласно этому определению, открытый ИИ может использоваться без разрешения авторов, его компоненты подлежат инспекции создателями, а система может модифицироваться и не иметь ограничения на передачу от от одного лица другому.
OSI планирует создать механизм контроля, который будет выявлять модели, не соответствующие новому определению и публиковать список соответствующих моделей, среди которых ожидаются Pythia от Eleuther, OLMo от Ai2 и модели от коллектива LLM360.
technologyreview.com
✔️ Google запустила бесплатную "Галерею промптов" в AI Studio.
Функциональное бновление AI Studio, анонсированное Логаном Килпатриком, предлагает предустановленные промпты, которые демонстрируют возможности моделей семейства Gemini.
В "Prompt Gallery" уже доступны: генератор рецептов на основе схемы JSON, математический репетитор для квадратных уравнений, генератор рабочих листов для начальных классов, а также инструменты для тестирования кода на Python и анализа временной сложности функций.
venturebeat.com
✔️ Ресечеры борются с галлюцинациями ИИ в математике.
Исследователи из Беркли работают над проблемой "галлюцинаций" ИИ в математике, когда модели, такие как ChatGPT, генерируют неверные или вымышленные ответы. В экспериментах они обнаружили, что ChatGPT ошибался в решении алгебраических задач в одной трети случаев, но после применения метода "самосогласованности" (self-consistency) точность возросла до 70%. В статистике ошибки снизились с 29% до 13%, что все еще слишком много.
В другом исследовании 274 участника, использовавшие решения ChatGPT в качестве подсказок, показали прирост в 17% на тестах, в то время как группа с подсказками от людей улучшилась лишь на 12%. Исследование привело к прогнозам о возможности создания эффективных репетиторов на основе ИИ, однако необходимо больше данных о реальном использовании таких систем учащимися
hechingerreport.org
✔️ Путь к эффективным вычислениям в эпоху ИИ: охлаждение теплой водой.
Lenovo представила 6-е поколение технологии жидкостного охлаждения Neptune™, которая позволяет запускать серверные стойки мощностью более 100 кВт без необходимости в специализированном кондиционировании. Эта система обеспечивает до 40% снижение потребления энергии и 3,5-кратное улучшение термальной эффективности по сравнению с традиционными воздушными системами охлаждения. Технология использует теплую воду для охлаждения компонентов, уменьшая потребность в мощных вентиляторах.
csrwire.com
✔️ SyncWaveX: сервис автоматического липсинка для видео.
SyncWaveX автоматически синхронизирует движения губ и лица с аудио, позволяя создавать реалистичные видео с минимальными усилиями. Технология прямого синтеза аудио в видео позволяет генерировать контент, основываясь на аудиопотоке, без необходимости в 3D-моделировании.
SyncWaveX использует интеллектуальные технологии синтеза голоса и распознавания речи, которые позволяют генерировать новые треки, имитирующие оригинальный голос. Пользователи сервиса могут создавать неограниченное количество видео из одного шаблона. В ходе предзапуска уже было создано более 10,000 видео, попробовать можно тут
globenewswire.com
@ai_machinelearning_big_data
#news #ai #ml
Яндекс разработал нейросеть, которая помогает врачам своевременно обнаружить признаки spina bifida — редкую патологию развития при беременности.
Идея применять ИИ для диагностики spina bifida возникла в ходе обсуждений между специалистами НМИЦ АГП им. В. И. Кулакова и основательницей фонда «Спина бифида» Инной Инюшкиной. Так появился проект, к которому присоединились специалисты Yandex Cloud и студенты ШАДа.
Spina bifida — расщепление позвоночника и грыжа спинного мозга у плода. Самая тяжёлая форма — миеломенингоцеле — часто вызывает инвалидность. От 68 до 80% людей с миеломенингоцеле нуждаются в установке шунта для лечения гидроцефалии.
Патологию легко пропустить на первом скрининге из-за размеров плода и сложности оценки позвоночника и спинного мозга. Если недуг выявляют на втором скрининге, то завершить обследование для предоперационной подготовки чаще всего не удается. Нейросеть позволяет своевременно обнаружить патологию на ранних сроках беременности, подсвечивая зоны интереса на УЗИ-снимках. Это позволяет даже менее опытным врачам вовремя принимать меры для лечения.
Разработка полностью открыта и доступна в OpenSource. Это значит, что любой разработчик или специалист может присоединиться к проекту, внести свой вклад и помочь улучшить модель. В будущем нейросеть сможет диагностировать другие патологии, включая редкие заболевания.
При создании проекта специалисты обучили не одну, а сразу несколько моделей:
- YOLOv10 для поиска зоны интереса и категоризации её плоскости;
- по две модели DenseNet121 для определения корректности изображения и поиска патологии отдельно для аксиальной и сагиттальной плоскости.
Весь процесс, включая аугментацию данных, обучение модели, инференс и интерпретацию результатов через GradCAM был реализован с помощью библиотеки MONAI, что значительно ускорило эксперименты и разработку прототипа.
В результате модели по качеству распознавания превзошли остальные специализированные решения. Они эффективно выделяли ключевые зоны и проводили классификацию.
Что такое API модели и какие существуют инструменты для его создания?
🔹Разберёмся на практическом открытом уроке «Развертывания моделей машинного обучения - создание API». Рассмотрим как перейти от модели в Jupyter notebook к модели, подготовленной для внедрения
✅ Практика: Реализуем API нашей модели с использованием фреймворка FastAPI и запустим ее в виде web-сервиса.
Урок приурочен продвинотому курсу «Machine Learning. Advanced» от Otus.
👉 Регистрация и подробности:
https://otus.pw/A4sN/?erid=LjN8K4Tis
⚡️ Sapiens: Семейство ViT-моделей для визуальных задач c изображениями человека.
Meta Reality Labs выпустила семейство моделей Sapiens, предназначенных для операций с изображениями или видео людей:
🟢вычисления 2D-позы (17, 133 и 308 ключевых точек);
🟢сегментации частей тела (28 категорий);
🟢оценки карты глубины;
🟢извлечения нормалей поверхности.
Модели могут работать с разрешением 1K (1024х1024) и легко адаптируются под специфические задачи путем тонкой настройки моделей. Семейство было обучено на предварительно отобранном корпусе данных в 300 млн изображений, из которого были удалены изображения с водяными знаками, художественной стилизацией, снимки плохого качества и содержащие размытие в движении.
Опубликованные модели разделяются по назначению : sapiens_lite_host - предназначены для инференса, а sapiens_host - длясамостоятельного обучения на ваших данных. Для обеих вариантов наборов выпущены градации плотности:
🟢Sapiens 0.3B
🟢Sapiens 0.6B
🟢Sapiens 1B
🟢Sapiens 2B
Разработчики рекомендуют lite-установку для инференса, она оптимизирована для быстрого запуска с минимальными зависимостями и возможностью запуска на нескольких GPU.
▶️Установка и запуск на примере Depth Estimation:
# Clone repository
git clone git@github.com:facebookresearch/sapiens.git
export SAPIENS_ROOT=/path/to/sapiens
# Set up a venv:
conda create -n sapiens_lite python=3.10
conda activate sapiens_lite
# Install dependencies
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install opencv-python tqdm json-tricks
# Navigate to your script directory
cd $SAPIENS_LITE_ROOT/scripts/demo/[torchscript,bfloat16,float16]
# Uncomment your model config line first
./depth.sh
🌟 NV-Embed-v2: Универсальная embedding-модель от Nvidia.
NVIDIA опубликовала в своем репозитории NV-Embed-v2, универсальную embedding-модель, которая занимает первое место в бенчмарке Massive Text Embedding Benchmark (MTEB benchmark, по состоянию на 30 августа 2024 года) с 56 задачами, включающими поиск, повторное ранжирование, классификацию, кластеризацию и задачи семантического сходства текстов.
Embedding модели позволяют преобразовать текстовые данные в плотные векторные представления, которые используются для задач NLP.
На практике embedding модели используются для векторизации исходного текста, например корпоративной информации, которой нет в основной LLM, и использования его для построения RAG-систем
torch=2.2.0, transformers=4.42.4, flash-attn=2.2.0, sentence-transformers=2.7.0
;import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
# Each query needs to be accompanied by an corresponding instruction describing the task
task_name_to_instruct = {"example": "Given a question, retrieve passages that answer the question",}
query_prefix = "Instruct: "+task_name_to_instruct["example"]+"\nQuery: "
queries = [
'are judo throws allowed in wrestling?',
'how to become a radiology technician?'
]
# No instruction needed for retrieval passages
passage_prefix = ""
passages = [
"** LLM Answer about judo **",
"** LLM Answer about radiology **"
]
# load model with tokenizer
model = AutoModel.from_pretrained('nvidia/NV-Embed-v2', trust_remote_code=True)
# get the embeddings
max_length = 4096
query_embeddings = model.encode(queries, instruction=query_prefix, max_length=max_length)
passage_embeddings = model.encode(passages, instruction=passage_prefix, max_length=max_length)
# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)
# get the embeddings with DataLoader
scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())
Новостной дайджест
✔️ Atlassian приобретает компанию Rewatch для интеграции с Loom
Компания Atlassian объявила о приобретении компании Rewatch, разработчика AI-инструментов для записи и анализа встреч. Rewatch будет интегрирован с платформой Loom, которую Atlassian приобрела в прошлом году за 975 миллионов долларов. Интеграция позволит автоматически создавать заметки и задачи на основе записей встреч и сделать их доступными для поиска в рамках бизнес-контекста.
В будущем, Loom сможет присоединяться к встречам в Zoom, Google Meet и Microsoft Teams, создавать полные транскрипты, заметки и задачи, которые можно автоматически связать с страницами Confluence, задачами Jira и тикетами службы поддержки.
techcrunch.com
✔️ OpenAI и Anthropic поделятся своими моделями с правительством США.
Компании OpenAI и Anthropic подписали соглашения с правительством США о сотрудничестве в области исследований, тестирования и оценки их моделей ИИ. Соглашения, заключенные с Институтом безопасности искусственного интеллекта США, предусматривают доступ института к новым моделям ИИ компаний до и после их публичного выпуска.
reuters.com
✔️ Magic представила новую модель со 100M контекстным окном и бенчмарк HashHop.
Компания Magic представила новую модель, способную обучаться на контексте длиной до 100 миллионов токенов. Эта модель, названная LTM (Long-Term Memory), позволяет обучаться на большом объеме данных и хранить информацию в долгосрочной памяти.
По словам разработчиков, модель имеет большой потенциал для применения в разработке ПО. Например, она может быть использована для синтеза кода, если модель имеет доступ ко всем массивам проекта, документации и библиотекам в контексте, включая те, которые не доступны в публичном интернете.
Также Magic представила новую методику оценки контекстных окон, HashHop. Этот бенчмарк оценивает способность модели хранить и извлекать информацию из контекста без использования явных семантических подсказок.
magic.dev
✔️ Stable Diffusion v1.5 был удален с Huggingface и Github.
Runway без предупреждения пользователей удалила содержимое своего репозитория с Huggingface и репозиторий, содержащий SD 1.5 c Github. Никаких публичных заывлений от компании на сегодняшний день не поступало.
Ранее компания Runway была участником исследований Stable Diffusion и занимала значимую позицию в соответствующих разработках. Однако публикация открытого кода Stable Diffusion 1.5 на Hugging Face вызвала споры из-за проблем с авторскими правами, что, по мнению представителей сообщества и привело к "тихому" удалению.
aibase.com
✔️ Jina AI представила "Late Chunking" - простой подход к внедрению коротких чанков за счет использования возможностей эмбеддинг-моделей с длинным контекстом.
Представленный метод позволяет создавать более эффективные и контекстно-зависимые векторные представления текста, тем самым улучшить результаты поиска и извлечения информации. "Late Chunking" сначала применяет слой трансформера ко всему тексту, а затем разделяет его на чанки и применяет эмбеддинг к каждому фрагменту, что позволяет сохранить контекстную информацию и улучшить результаты поиска.
Эксперименты на наборе данных BEIR, показали, что "Late Chunking" улучшает результаты поиска и извлечения информации по сравнению с традиционным подходом. Особенно заметное улучшение наблюдается при работе с длинными документами.
jina.ai
@ai_machinelearning_big_data
#news #ai #ml
🔥 Яндекс опубликовал программу конференции Practical ML Conf
Мероприятие, где компания ежегодно анонсирует свои крупные запуски, пройдет в этом году 14 сентября. В программе анонсированы выступления спикеров:
✔️ Ирина Барская, руководитель службы аналитики и исследований — «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
✔️ Екатерина Глазкова, тимлид команды алайнмента VLM службы компьютерного зрения — «Адаптация VLM под продуктовые требования — как сервис Нейро делали мультимодальным».
✔️ Виктор Плошихин, руководитель ML-лаборатории в Yandex Platform Engineering — «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
✔️ Степан Комков, старший разработчик службы синтеза речи — «Синтез выразительной речи для аудиокниг, прошлое, настоящее и будущее — как GPT и диффузионные модели произвели революции в синтезе речи и как мы это используем».
✔️ Савва Степурин, старший разработчик команды рекомендаций — «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».
Мероприятие пройдет в Москве в пространстве «Суперметалл». Для участия нужно зарегистрироваться на сайте и получить приглашение. Доклады можно также послушать онлайн, трансляция будет доступна на сайте конференции.
Подробности и регистрация
@ai_machinelearning_big_data
#news #ai #ml
⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud.
Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:
🟢Распознавание изображений с различным разрешением и соотношением сторон;
🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога;
🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления;
🟢Мультиязычность внутри входных данных, например на изображениях или видео.
🟢Улучшенное распознавание объектов и предметов;
🟢Расширенные возможности в области математики и понимания программного кода.
Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:
🟠Qwen2-VL-72B;
🟢Qwen2-VL-7B-Instruct;
🟢Qwen2-VL-2B-Instruct,
и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.
Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:
🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека.
🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию.
⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.
Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.
▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥Github [ Stars: 59 | Issues: 3 | Forks: 2]
@ai_machinelearning_big_data
#AI #Qwen #ML #GPTQ #VLM #AWQ
🌟 Eagle-X5: Обновление семейства MMLM от NVIDIA Research Projects.
Eagle - это семейство MLLM высокого разрешения, построенное на LLaVA. В обновленном до версии X5 наборе представлено 3 модели:
🟢Eagle-X5-7B
🟢Eagle-X5-13B
🟠Eagle-X5-13B-Chat
Архитектура Eagle-X5:
🟠LLM: Eagle-X5 использует Vicuna-v1.5-7B и Vicuna-v1.5-13B для создания текстовых ответов и рассуждений о визуальном вводе;
🟠Vision Encoders: в моделях Eagle-X5 пять энкодеров, предварительно натренированы на различных задачах и разрешениях - CLIP, ConvNeXt, Pix2Struct, EVA-02 и SAM (Segment Anything);
🟠Fusion Module: визуальные признаки, полученные от каждого энкодера, объединяются с помощью поканальной конкатенации;
🟠Projection Layer: используется для проецирования обработанных визуальных признаков в пространство встраивания LLM.
Обучение модели Eagle-X5 проходит в три этапа:
🟢каждый vision encoder индивидуально настраивается с замороженной LLM методом next-token-prediction supervision. Этот этап приводит визуальные представления в соответствие с языковым пространством и устраняет искажения;
🟢проекционный слой тренируется парами изображение-текст для дальнейшего выравнивания визуального и языкового пространства;
🟢SFT-этап, на котором вся модель точно настраивается на основе мультимодальных наборов данных: пары изображение-текст, VQA и мультимодальных диалоговых наборах.
Eagle показывает высокие результаты в мультимодальных бенчмарках LLM, особенно в задачах, чувствительных к разрешению - OCR и понимание документов.
Установка и запуск с GradioUI:
# Clone repository
git clone https://github.com/NVlabs/EAGLE.git
cd Eagle
# Create venv and install requirements
conda create -n eagle python=3.10 -y
conda activate eagle
pip install --upgrade pip # enable PEP 660 support
pip install requirements
# Run Gradio
python gradio_demo.py --model-path ${MODEL_CKPT} --conv-mode vicuna_v1
⚡️ Новостной дайджест.
✔️ NVIDIA запускает NIM Agent Blueprints для предприятий, чтобы помочь им создать свой корпоративный ИИ.
Компания NVIDIA объявила о выпуске каталога готовых ИИ-решений под названием NVIDIA NIM Agent Blueprints, который позволит разработчикам создавать и развертывать генеративные ИИ-приложения для различных отраслей.
NIM Agent Blueprints представляет собой набор предварительно обученных, настраиваемых рабочих процессов, которые могут быть использованы для создания приложений для обслуживание клиентов, автоматизации рабочих процессов и извлечение данных из PDF-файлов.
NVIDIA также объявила о сотрудничестве с Accenture, Cisco, Dell Technologies, Deloitte, Hewlett Packard Enterprise, Lenovo, SoftServe и World Wide Technology, которые будут использовать NIM Agent Blueprints для создания и развертывания генеративных ИИ-приложений для своих клиентов.
nvidianews.nvidia.com
✔️ Claude.ai сделала доступной функцию Artifacts для всех пользователей.
Компания Claude.ai объявила о доступности функции Artifacts для всех пользователей, включая владельцев бесплатных, профессиональных и командных планов. Теперь пользователи могут создавать и просматривать Artifacts в мобильных приложениях для iOS и Android.
anthropic.com
✔️ Cerebras Inference: самый быстрый инференс для языковых моделей.
Компания Cerebras Systems представила сервис для инференса LLM, который показывает рекордную производительность и скорость. Движок, работающий на базе третьего поколения процессора Wafer Scale Engine, способен обрабатывать до 1800 токенов в секунду для модели Llama3.1 8B и до 450 токенов в секунду для модели Llama3.1 70B. Это в 20 раз быстрее, чем решения на базе графических процессоров NVIDIA.
Онлайн-сервис Cerebras предлагает лучшую цену в отрасли - 10 центов за миллион токенов для модели Llama 3.1 8B и 60 центов за миллион токенов для модели Llama 3 70B. Разработчикам уже доступен API для работы с сервисом.
В планах компании - поддержка моделей Llama3 405B и Mistral Large 2 в ближайшие недели.
cerebras.ai
✔️ Закрыта студия дополненной реальности MetaSpark.
Компания объявила о закрытии платформы MetaSpark для сторонних дополнений и контента с 14 января 2025 года. Это означает, что AR решения, созданные сторонними разработчиками, включая бренды и сообщество AR-создателей, больше не будут доступны.
Однако, AR инструменты, принадлежащие Meta, продолжат быть доступны пользователям во всех приложениях компании.
Это решение является частью дорожной карты по приоритезации продуктов, которые лучше всего будут отвечать будущим потребностям потребителей и бизнес-клиентов.
spark.meta.com
@ai_machinelearning_big_data
#news #ai #ml
Как увеличить производительность DBaaS в 10 раз?
Selectel запустил базы данных на выделенном облачном сервере — уникальный продукт, аналогов которому нет в России. Вы можете получите готовый к работе кластер облачных баз данных с изолированной на физическом уровне инфраструктурой. Новое решение позволит хранить и обрабатывать базы данных размером до 7 ТБ с производительностью до 1,5 млн IOPS.
Преимущества DBaaS на выделенном облачном сервере:
- Максимальная производительность. Увеличили производительность дисковой подсистемы DBaaS — до 1,5 млн IOPS, пропускную способность — до 7 000 МБ/с.
- Экономическая выгода. В зависимости от конфигурации стоимость нового решения до 47% ниже стандартного DBaaS-сервиса.
- Быстрый запуск. Не нужно самостоятельно подбирать железо, оптимизировать настройки и разворачивать CУБД.
- Безопасность. Изоляция базы данных на уровне физического сервера. Услуга соответствует закону 152-ФЗ (УЗ-1), приказу ФСТЭК № 21, PCI DSS, ISO 27001, 27017, 27018.
Разверните базу данных на выделенном облачном сервере: https://slc.tl/o74tm
Реклама АО «Селектел». ИНН: 7810962785 Erid: 2VtzqwjvKoT
В OTUS стартует курс «Искусственный интеллект (AI) в медицине», на котором студенты смогут обучиться создавать качественные мультимодальные медицинские датасеты, осуществлять техническую поддержку разметки данных, уметь анализировать и ориентироваться в зоопарке современных подходов к машинному обучению.
2 сентября в 20:00 по мск. приглашаем на открытый вебинар курса «Как ИИ меняет диагностику заболеваний: примеры и перспективы», на котором рассмотрим как ИИ используется для анализа медицинских изображений, распознавания симптомов заболеваний и предсказания исходов лечения.
Для участия пройдите регистрацию https://otus.pw/NZ1w/
При поступлении в группу обучения после вебинара вы получите специальную цену на курс, а так же разные способы оплаты и рассрочка платежа.
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KXw2V
🌟 OCRonos-Vintage: специализированная модель для коррекции OCR.
OCRonos-Vintage — это небольшая модель со 124 миллионами параметров и небольшим контекстным окном в 1024 токена, которая была предварительно обучена с нуля на 18 миллиардах токенов датасета материалов архивов культурного наследия для задачи коррекции OCR. Несмотря на свой небольшой размер, она обеспечивает качество коррекции, сопоставимое с большими моделями, такими как GPT-4, при этом эффективна для работы на CPU.
Модель обучалась в течение 2 эпох с использованием фреймворка обучения llm.c на наборе данных из Library of Congress, Internet Archive и Hathi Trust. Обучение проводилось на 4 графических процессорах H100 и заняло два с половиной часа. OCRonos-Vintage использует токенизатор GPT-2.
OCRonos-Vintage можно загрузить и использовать для инференса так же, как модель GPT-2. Она принимает OCR-текст в качестве входных данных и генерирует исправленный текст. Входные данные и данные инференса разделяются специальными тегами: "### Text ###" и "### Correction ###".
Модель также можно использовать для генерации стилизованного исторического текста, если дать подсказку, начинающуюся с ### Text ###. Это позволяет имитировать исторические стили письма и содержание.
▶️Квантованная 5-bit GGUF версия модели размером всего 127 МБ для локального запуска на llama.cpp
📌Лицензирование : Apache 2.0 License
🟡Модель
🟡Google Collab (инференс)
🟡Demo
@ai_machinelearning_big_data
#AI #SLM #ML #OCR
VK и ИТМО провели опрос более 300 ML-специалистов и выяснили важнейшие особенности сферы
Часть результатов не была опубликована: например, рейтинги компаний и размер ЗП, однако в карточках вы найдете много интересного о перспективах в отрасли и возможностях для личного роста
Вот что ждет в Т-Банке ML-разработчиков, кроме ДМС, крутых офисов и других плюшек:
Актуальный стек. Здесь следят за трендами и быстро внедряют новое.
Общение на «ты». Так проще.
Прозрачная система роста. Вы всегда будете знать, какие навыки нужно подтянуть и как получить повышение.
Вы окажетесь среди профессионалов, у которых можно многому научиться. А если захотите — можете стать ментором для младших коллег.
Больше о вакансиях ML-разработчиков — здесь.
Erid:2Vtzqv88JHB
🌟 Lite Oute 2 Mamba2Attn: базовая и инструктивная SLM на архитектуре Mamba2.
OuteAI выпустила второе поколение легких моделей на 250М параметров каждая :
🟢 Lite Oute 2 Mamba2Attn 250M Base
🟢 Lite Oute 2 Mamba2Attn 250M-Instruct
В модели интегрирован механизм Mamba2Attn - усовершенствованный метод внимания, который повышает способность модели фокусироваться на важных частях входных данных. Этот механизм особенно полезен для задач NLP, требующих понимания сложных закономерностей или взаимосвязей в данных.
Интегрировав Mamba2Attn, разработчикам удалось сохранить релевантную для своего класса малых моделей производительность, уменьшив при этом ее размер и вычислительные требования.
Базовая модель была обучена на 30 миллиардах токенов из корпуса данных, структура которого - 50% датасета dclm-baseline-1.0 b 50% fineweb-edu. Инструктивная версия прошла дообучение с SFT и DPO.
Обе модели имеют 4 слоя внимания из общего количества 32, такая конфигурация позволяет минимизировать потери при проверке, что подтверждено исследованием о соотношении слоев самовнимания к MLP.
▶️ Рекомендованные параметры для Instruct - модели:
🟢Temperature: 0.1 - 0.4
🟢Repetition Penalty: 1.10 - 1.12
▶️Ограничения:
🟠Непоследовательная точность. Примите во внимание, что обе модели - малого размера, инференс в некорорых задачах может быть неполным или неточным;
🟠Отсутствие глубины контекста. В некоторых задачах, модели могут не соответствовать ожиданиям глубины запоминания контекста;
🟠Баланс лаконичности. Модель иногда испытывает трудности с балансом между краткостью и детализацией, давая либо слишком краткие ответы, либо излишне повторяя заданную информацию.
📌Лицензирование : Apache 2.0 License
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Сообщество в Discord
@ai_machinelearning_big_data
#AI #SLM #Mamba2 #ML #Oute
🌟 Hibou: Семейство ViT-моделей для патологии.
Hibou - это новое семейство фундаментальных ViT-моделей, специально разработанных для работы с цифровыми изображениями патологий тканей.
Hibou использует возможности самоконтролируемого обучения (self-supervised learning) - метода, при котором модель учится на огромном количестве немаркированных данных. Это особенно ценно для патологии, где аннотированные наборы данных часто скудны и дороги в создании.
Обучаясь на большом собственном наборе данных из более чем 1 миллиона изображений препаратов с различными типами тканей и методами окрашивания, модели Hibou научились извлекать надежные и обобщаемые признаки.
Представлено три модели: Hibou-B, Hibou-L и CellVit-Hibou-L:
🟢Hibou-B и Hibou-L различаются по размеру и сложности, они основаны на ViT-B/14 и ViT-L/14 архитектурах соответственно.
Они созданы на фреймворке DINOv2 на специальном наборе аугментированных данных, адаптированных для лучшего обобщения (случайные вращения, перевороты, дрожание цвета и технику вариативного окрашивания тканей RandStainNA)
🟠CellVit-Hibou-L - дополнительно обученная на фреймфорке CellViT Hibou-L с использованием корпуса данных PanNuke для сегментации и классификации клеток тканей. Модель может применятся для идентификации отдельных ядер клеток и анализа ядерной морфологии.
Семейство Hibou достиглj SOTA-результатов в задачах классификации на фрагментарном уровне, продемонстрировав способность точно классифицировать различные типы тканей и выявлять тонкие аномалии.
▶️ Использование моделей Hibou-B и Hibou-L возможно с HuggingFace Transformers или прямым инференсом модуля hibou.
▶️Для использование гибридной модели CellVit-Hibou-L следуйте последовательности из этого ipynb.
📌Лицензирование кода : Apache 2.0 License.
📌Лицензирование моделей: Apache 2.0 License и CC-BY-NC-SA-4.0 License (CellVit-Hibou-L) .
🟡Arxiv
🟡Набор моделей
🖥Github [ Stars: 39 | Issues: 0 | Forks: 4]
@ai_machinelearning_big_data
#AI #HIBOU #ViT #ML #Histopathology
🌟 Aurora: Набор фундаментальных моделей ML от Microsoft Research for Science для прогнозирования атмосферных явлений.
Архитектура базовой Aurora построена на 3D Swin Transformer. Модель обучалась более миллиона часов на корпусе данных о погоде и климате: прогнозах, параметрическом анализе и данных моделирования климата.
Длительное и обширное обучение позволило изучить модели общее представление динамики атмосферы, адаптироваться к широкому спектру задач прогнозирования: задачам с ограниченными входными данными, гетерогенными переменными и экстремальными событиями.
Aurora прошла двухэтапный процесс тонкой настройки. Предварительно настроенные веса сначала настраивались на короткое время прогнозирования (до 15 дней), а затем Aurora была интегрирована с LoRA комбинированных математических моделей длительного прогнозирования.
В наборе представлены три специализированных версии: одна для прогнозирования атмосферных явлений со средним разрешением, одна для прогнозирования с высоким разрешением и одна модель для прогнозирования загрязнения воздуха:
🟢Aurora 0.1 - большая модель для прогнозов IFS HRES T0 c разрешением 0.1°;
🟢Aurora 0.25 Pretrained - версия, обученная на обобщенном спектре параметров для использования в случае, если для целевого набора данных нету, например, для прогнозов на данных ERA5 с точностью 0.25°;
🟢Aurora 0.25 Fine-Tuned - версия Aurora 0.25 Pretrained , дополнительно обученная на данных IFS HRES T0. Рекомендуется для прогнозирования на основе данных IFS HRES с разрешением 0.25°;
🟢Aurora 0.25 Pretrained Small - уменьшенная версия Aurora 0.25 для процедур отладки. Не рекомендуется использовать для иных целей, кроме дебага;
🟠Aurora air pollution forecasting - модель прогноза загрязнения воздуха, еще не опубликована, ее разработка активно ведется.
Модели семейства Aurora совместимы с данными прогнозных моделей ERA5 и HRES Европейского центра среднесрочных прогнозов погоды (ECMWF).
▶️Установка и пример запуска c малой моделью и рандомными данными:
# Install with pip
pip install microsoft-aurora
#create a new venv & install the reqs:
virtualenv venv -p python3.10
source venv/bin/activate
make install
# Run the pretrained small model on random data:
from datetime import datetime
import torch
from aurora import AuroraSmall, Batch, Metadata
model = AuroraSmall()
model.load_checkpoint("microsoft/aurora", "aurora-0.25-small-pretrained.ckpt")
batch = Batch(
surf_vars={k: torch.randn(1, 2, 17, 32) for k in ("2t", "10u", "10v", "msl")},
static_vars={k: torch.randn(17, 32) for k in ("lsm", "z", "slt")},
atmos_vars={k: torch.randn(1, 2, 4, 17, 32) for k in ("z", "u", "v", "t", "q")},
metadata=Metadata(
lat=torch.linspace(90, -90, 17),
lon=torch.linspace(0, 360, 32 + 1)[:-1],
time=(datetime(2020, 6, 1, 12, 0),),
atmos_levels=(100, 250, 500, 850),
),
)
prediction = model.forward(batch)
print(prediction.surf_vars["2t"])
🔥 Weekly Tutorials Digest
🔘Туториал: очистка и предварительная обработка текстовых данных в Pandas для задач NLP.
В туториале приведены практические примеры операций по удалению пропущенных значений, нормализации текста, удалению шумов, токенизации, удаления стоп-слов, техники стемминга и лемматизации, преобразования текста в числовые представления с использованием TF-IDF векторизации.
🔘Статья в блоге: Марковские цепи лучше в задачах генерации юмора, чем LLM
Статья обсуждает уникальное чувство юмора, генерируемое Марковскими цепями по сравнению с крупными LLM, такими как ChatGPT.
Автор утверждает, что Марковские цепи, хотя и примитивны, могут создавать неожиданные и забавные фразы благодаря своей простоте. В отличие от них, LLM более предсказуемы и в меньшей степени подходят для создания юмора.
🔘Статья: Семь основных правил причинно-следственного инференса.
Автор подробно и лаконично рассматривает семь ключевых правил, которые помогают понять, как причинно-следственные механизмы в реальности отражаются в данных.
В статье описаны фундаментальные структуры причинных графов и продемонстрированы примеры кода на R для иллюстрации каждого правила.
🔘Практический кейс: Классификация большого набора PDF-документов.
Подробное описание процесса классификации огромного набора PDF-документов с помощью LLM - эмбеддингов и XGBoost.
Автор проводит несколько экспериментов по созданию и обучению эмбеддингов и делает акцент на сложности обработки 8,4 миллиона PDF-файлов.
@ai_machinelearning_big_data
#Tutorials #ml