ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

27349

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

Пофиксил баг — устроил перерыв с бесплатными печеньками, зарелизил новую программу — выпил чай на офисной кухне 😅

Если хочешь получать реальные бонусы и признание коллег — приходи в Сбер. Обещаем, у тебя будут только масштабные и интересные таски, а ещё ты станешь частью сообщества амбициозных и классных IT-специалистов.

Прокачивай скилы за счёт банка, получай премии и пользуйся ДМС с первого дня работы. Но и печеньки у нас тоже есть! 😉

Звучит заманчиво? Присоединяйся!

Читать полностью…

Machinelearning

⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o,

Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ.

Заявлено, что модель будет сильно лучше писать код и понимать физику и математику.

Тот самый секретны проект, над которым так долго работала компания.

Доступ обещают дать уже сегодня.

@ai_machinelearning_big_data

#openai #chatgpt

Читать полностью…

Machinelearning

Создавая будущее: магистратура по прикладному ИИ

Спрос на ИИ-специалистов взлетел на 80% всего за год. А IT-гиганты, банки и телеком охотятся за талантами. 

Станьте таким специалистом с онлайн-магистратурой «Прикладной искусственный интеллект» от УрФУ и Нетологии. Это программа, где вы не просто учитесь, а решаете реальные задачи от Авито и Альфа-Банка.

За 2 года вы научитесь:

– Использовать Python и его библиотеки.
– Строить конвейеры обработки данных.
– Автоматизировать ML-пайплайн и др.

Подать документы можно до 19 сентября. Узнайте подробности по ссылке: https://netolo.gy/dskw

Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5yS95f6

Читать полностью…

Machinelearning

🔥 Готовый алгоритм по обучению нейросети для получения клиентов из телеграма

Таким бесплатно делится команда OneSpot. Если не знали, это ребята, которые подключают Telegram Ads с маркировкой и аналитикой от 250 €.

Гайд они писали вместе с клиентом, маркетологом, которому нейросеть помогла улучшить показатели в Telegram Ads:

— сократить время написание объявлений
— увеличить % объявлений, которые сразу проходят модерацию
— снизить CPL до 1 € в некоторых проектах
— снизить плановые значения CPC

Получить гайд можно бесплатно, пройдя регистрацию в OneSpot →

В гайде — конкретные шаги по обучению нейросети, примеры промтов, лайфхаки и рекомендации автора.

Ссылку на PDF найдете прямо в stories в личном кабинете. Успевайте, stories — формат исчезающий 😉

Регистрация в OneSpot →

Реклама. ООО "101". ИНН 7706798634.

Читать полностью…

Machinelearning

🌟 LLaMA-Omni: Речевое управление LLM

LLaMA-Omni - модель, построенная на основе Llama-3.1-8B-Instruct, которая поддерживает голосовое взаимодействие с низкой задержкой ответа и высоким качеством синтеза аудио, одновременно генерируя текстовые и речевые ответы на основе голосовых инструкций.

LLaMA-Omni не требует транскрипции речи, напрямую передавая адаптированное речевое представление в LLM. LLM генерирует текстовый ответ, и, параллельно декодер речи генерирует соответствующие дискретные речевые единицы, используя скрытые состояния инференса LLM. Применение этой конструктивной особенности значительно сокращает задержку ответа до в 226 мс на chunk-size размерности 10.

Для установки и локального запуска понадобятся GPU => 20GB и набор :

🟢Модель Llama-3.1-8B-Omni
🟢Модель Whisper-large-v3;
🟠HiFi-GAN вокодер;
🟠Тулкит Fairseq;
🟠Flash-attention.

⚠️ Примечания:

🟠Gradio плохо воспроизводит потоковое аудио, поэтому автовоспроизведение в нем отключено;

🟠Чтобы запустить СLI-инференс локально, организуйте файлы речевых инструкций в соответствии с форматом в omni_speech/infer/examples, а затем обратитесь скрипту omni_speech/infer/run.sh.

▶️Установка :

# Clone repository 
git clone https://github.com/ictnlp/LLaMA-Omni
cd LLaMA-Omni

# Install packages
conda create -n llama-omni python=3.10
conda activate llama-omni
pip install pip==24.0
pip install -e .

# Install fairseq
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install -e . --no-build-isolation

# Install flash-attention
pip install flash-attn --no-build-isolation


▶️ Выполните команды, описанные в разделах Quick Start и Gradio Demo. Интерфейс будет доступен в вашем браузере по адресу http://localhost:8000/


📌Лицензирование : Apache 2.0 License.


🟡Модель
🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Llama #SpeechToSpeech

Читать полностью…

Machinelearning

Серия хакатонов в рамках ИТ-конференции «Импульс Т1» стартует в Ижевске!

Соревнование пройдёт с 20 по 23 сентября в гибридном формате. Призовой фонд – 600 000 рублей!

К участию приглашаются команды начинающих специалистов и опытных айтишников в составе от 3 до 5 человек. Обращаем ваше внимание, что 22 и 23 сентября будет необходимо очное присутствие как минимум троих членов команды!

Хакатон Т1 — это 48 часов решения реальных продуктовых задач от одного из ведущих ИТ-холдингов страны! В каждом из двух треков будут определены по 3 команды победителей, которые разделят между собой призовой фонд.

Треки хакатона:
«SDK приоритезатор: плагин обратной связи по продукту»
Создать SDK, который позволит пользователям голосовать за новые функции приложения и/или сайта. Результаты голосования будут передаваться продуктовой команде для улучшения продукта на основе пользовательских предпочтений.

«АгроНавигатор: оптимальные полеты БПЛА»
Разработайте систему, которая рассчитывает полетные задания для БПЛА с учетом всех летных характеристик и нормальных погодных условий.

Призы:
1 место: 140 000 рублей
2 место: 90 000 рублей
3 место: 70 000 рублей
Награждается топ-3 команды в каждом из двух треков.

Расписание:
➡️ 20-21 сентября — онлайн-этап (открытие задач, два чекпоинта)
➡️ 22-23 сентября — офлайн-этап в г. Ижевск (один чекпоинт, защита проектов)

Участники очного этапа хакатона смогут не только побороться за карьерные перспективы и призы, но и
— стать частью масштабной ИТ-конференции «Импульс Т1», где эксперты холдинга расскажут о главных трендах индустрии, поговорят об инженерии, науке и технологиях, а также поделятся своим практическим опытом;
— получить работу мечты, пройдя собеседование прямо на площадке ИТ-конференции: подать заявку на участие в One Week Offer от Т1 может каждый участник хакатона при регистрации!

➡️ Успейте зарегистрироваться до 16 сентября, чтобы не пропустить приглашение на хакатон: https://cnrlink.com/hackt1izhevskmlbigdata

Реклама. ООО "Т1". ИНН: 7720484492. erid: LjN8JxFzy

Читать полностью…

Machinelearning

Разбираешься в AI? Покажи, на что способен – прими участие в международном соревновании AI Journey Contest. Призовой фонд – более 8 миллионов рублей!

Задачи, как всегда, масштабные и амбициозные. Участникам предстоит работать с SOTA-технологиями, выбрав одну или несколько из предложенных задач:

✔️ Emotional FusionBrain 4.0 — создать мультимодальную модель, которая умеет круто понимать видео, отвечает на сложные вопросы и «чувствует» человеческие эмоции.

✔️ Multiagent AI — разработать мультиагентную RL-систему, где агенты будут объединяться в различные схемы кооперации при решении задач. Эта задача суперполезна для научных исследований.

✔️ Embodied AI — сделать робота-помощника, который будет решать сложные задачи взаимодействия с окружающей средой и человеком, общаясь на естественном языке.

✔️ E-com AI Assistant — используя LLM GigaChat, создать AI-ассистента, который сможет рекомендовать пользователям релевантные товары для покупки на маркетплейсе Мегамаркет.

Кстати, в решении задач тебе может помочь нейросетевая модель GigaChat и другие AI-разработки Сбера!

Следующий шаг в развитии AI – за тобой! Переходи по ссылке, регистрируйся и успей решить задачи до 28 октября! Соревнование проводится при поддержке Института AIRI.

Читать полностью…

Machinelearning

MТС Web Services (MWS) представила новое направление — ИИ-облако, которое упростит внедрение искусственного интеллекта в компании.

Используя GPU-инфраструктуру, компании смогут запускать ИИ-проекты без необходимости закупки оборудования, что сократит расходы и ускорит запуск. Среди сервисов: ML-платформа, автоматизирующая обучение моделей, и готовые решения, такие как Cotype (генерация текстов и анализ данных), Audiogram (синтез речи) и WordPulse (речевая аналитика).

MWS предоставляет персонализированные решения для бизнеса.

Audiogram - платформа синтеза и распознавания речи на основе нейронных сетей с возможностью управления интонацией, ударениями и другими параметрами и сервис речевой аналитики WordPulse. Данные сервисы позволят компаниям оперативно обрабатывать звонки и чаты с клиентами, тем самым повышая качество обслуживания и автоматизируя работу кол-центров.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 VEnhancer: Генеративное улучшение синтезированного видео.

VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.

VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.

Несколько дней назад VEnhancer получил обновление:

🟢Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями);
🟢Быстрая выборка с 15 шагами без потери качества (путем установки --solver_mode 'fast' в команде скрипта);
🟢Использование временного VAE для уменьшения мерцания.

Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.

⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.

Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.

▶️Установка:

# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer

# Create environment
conda create -n venhancer python=3.10
conda activate venhancer

# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt


▶️Установка пакета ffmpeg:

sudo apt-get update && apt-get install ffmpeg libsm6 libxext6  -y


▶️Инференс с помощью CLI:

bash run_VEnhancer.sh


▶️Инференс с помощью GradioUI:

python gradio_app.py



🟡Страница проекта
🟡Arxiv
🟡Модель
🟡Demo Video
🖥Github [ Stars: 224 | Issues: 8 | Forks: 13]


@ai_machinelearning_big_data

#AI #Text2Video #VEnchancer #ML

Читать полностью…

Machinelearning

Новостной дайджест

✔️ 3.7 миллиона фальшивых звезд GitHub.

Сервис Socket обнаружили 3.7 миллиона фальшивых звезд GitHub, что указывает на тенденцию роста угроз, связанных с мошенничеством, финансовыми махинациями и вредоносным ПО. Эти кампании быстро активизировались за последние шесть месяцев.

Фальшивые звезды используются для обмана пользователей, чтобы распространять вредоносное ПО и для привлечения инвестиций венчурных фондов в подставные компании с плохими показателями.

Алгоритм Socket выявил 3 746 538 подозрительных звезд за последние пять лет (с июля 2019 года по июль 2024 года) и 10 155 репозиториев, которые, по-видимому, проводили кампании по накрутке.
socket.dev

✔️ LLM не могут объяснить свои рассуждения.

В статье автор приводит интерактивную демонстрацию для проверки способности LLM распознавать и объяснять числовые последовательности, генерируемые случайными программами.
Несмотря на то, что модели в некоторых случаях определяют правильную последовательность, их объяснения бывают неверными. Этот эксперимент подтверждает существующие ограничения в рассуждающих способностях LLM, несмотря на их показатели в популярных бенчмарках.
jonathanychan.com

✔️ YouTube создает инструменты для обнаружения дипфейков лиц и голосов.

Компания представила две новые технологии: первая позволяет автоматически обнаруживать ИИ-контент, который имитирует голоса исполнителей, а вторая - обнаруживать и управлять контентом, созданным с помощью ИИ, на котором присутствуют лица людей.

Новые функции основаны на многолетнем опыте YouTube в разработке технологических подходов к решению проблем с правами в больших масштабах.

YouTube дополнительно ведет разработку новых способов предоставления авторам выбора в отношении того, как третьи стороны могут использовать их контент на платформе.
blog.youtube

✔️ Поиск нового поколения и RAG с Vertex AI.

В блоге Google Cloud опубликована статья о том, как Vertex AI можно использовать для создания поисковых приложений следующего поколения.
Статья состоит из трех частей: новые шаблоны в поиске, развитие поиска в будущем и RAG с помощью Vertex AI.
cloud.google.com

✔️ Повышение эффективности отладки C++ с помощью breakpoint expressions, генерируемых искусственным интеллектом.

В статье Devblogs Microsoft представлена новая функция в Visual Studio 2022, использующая искусственный интеллект для генерации выражений для условных точек останова и точек трассировки в коде C++. Эта функция, работающая на базе GitHub Copilot поможет разработчикам сэкономить время и силы, позволив ИИ предлагать подходящие условия или создавать собственные. В статье приводится пошаговое руководство по включению и использованию этой функции в Visual Studio 2022.
devblogs.microsoft.com


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

📚 Бесплатная электронная книга: The Fourier Transform, 2024.

Погружение в преобразование Фурье.

Приятный стиль изложения книги и множество наглядных диаграмм.

Внутри практика в виде задач, написанных на Python и MATLAB.

▪Book

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Как стать аналитиком в 2024 году?

📍10 сентября в 19:00 мск
на бесплатном вебинаре студент онлайн-школы Simulative поделится собственным опытом.

Мы проведем встречу с нашим выпускником, аналитиком данных в интернет-аптеке «Ригла» и обсудим:

— чем занимаются аналитики данных.
— какие навыки нужны для старта и как выдержать конкуренцию на рынке начинающих специалистов.
— как пройти путь с нуля и стать аналитиком
— инсайты, возможные ошибки и мотивация.

А еще мы подготовили бонусы для каждого участника вебинара.

Переходите в бота и регистрируйтесь.

erid:2VtzqvXph4K

Читать полностью…

Machinelearning

🤔Как стать гуру в сфере применения ML  в веб-разработке, облачных технологиях или построении распределенных систем?

Выберите комбинацию из трех курсов и и подключайтесь к изучению, используя подписку от OTUS. Для этой цели идеально подойдут: Python + Golang + Machine Learning 

Такой формат позволяет сэкономить и, при этом, использовать  все преимущества образовательной платформы.

Давайте сравним:

✅При покупке 3 курсов  отдельно стоимость составит 304000 руб.

При покупке этих же 3 курсов по подписке OTUS, стоимость составит всего 160000 руб.

Подписка действует 6 месяцев. За полгода вы успеете полностью пройти 3 курса и начать новые.

👉Отправьте заявку и получите консультацию менеджера https://otus.pw/ZQVh/?erid=LjN8KP9h2

Читать полностью…

Machinelearning

🌟 Mini-Omni : Мультимодальная речевая модель.

Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.

Функциональные возможности модели:

🟢speech-to-speech в реальном времени. Не требуются дополнительные модели ASR или TTS;

🟢генерация текста и аудио одновременно;

🟢потоковое воспроизведение аудио;

🟢пакетное преобразование "speech-to-text" и "speech-to-speech".

Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.

Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.

Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.

В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.

▶️Установка:

# Create & activate venv
conda create -n omni python=3.10
conda activate omni

# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni

# Install required packages
pip install -r requirements.txt

# start server
python3 server.py --ip '0.0.0.0' --port 60808


Запуск с Streamlit UI:
# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py


Запуск с Gradio UI:
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py



📌Лицензирование : MIT License.


🟡Arxiv
🟡Demo
🟡Модель
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #Speech2Speech #MiniOmni

Читать полностью…

Machinelearning

Новостной дайджест

✔️ Groq запустила LLaVA v1.5 7B, мультимодальную модель, которая работает в 4 раза быстрее, чем GPT-4o от OpenAI.

LLaVA v1.5 7B может отвечать на вопросы по изображениям, генерировать подписи и вступать в диалог с использованием текста, голоса и картинок.
Это первый опыт Groq с мультимодальными моделями, и более высокая скорость инференса в задачах с изображениями, аудио и текста может привести к созданию более совершенных ассистентов ИИ.
Groq предлагает эту модель бесплатно в режиме "Preview Mode" для разработчиков.
groq.com

✔️ Deep Seek-V2.5: open-source модель, сочетающая функции чата и понимание кода.

DeepSeek выпустила DeepSeek-V2.5, мердж своих моделей DeepSeek-V2-Chat и DeepSeek-Coder-V2.
DeepSeek-V2.5 унаследовала способности от оригинальных моделей к общению и работе с кодом и улучшила производительность в задачах написания текстов и следования инструкциям за счет более точного следования предпочтениям человека.

Модель показала высокие результаты в нескольких бенчмарках, особенно в тестах на китайском и английском языках.

в DeepSeek-V2.5 были сделаны улучшения в области безопасности и генерации кода: уменьшено влияние политик безопасности на обычные вопросы и на 5,1 % улучшен результат в заданиях на завершение кода.
Модель доступна онлайн и на HuggingFace.
platform.deepseek.com

✔️ vLLM v0.6.0: 2,7-кратное повышение пропускной способности и 5-кратное сокращение задержки.

vLLM выпустила новую версию v0.6.0, которая значительно быстрее и эффективней по сравнению с предыдущей версией.
Это достигнуто благодаря серии оптимизаций: разделение API-сервера и движка инференса, пакетная планировка нескольких потоков вывода одновременно и асинхронная обработка инференса.
blog.vllm.ai

✔️ Релиз фреймворка SGLang v0.3: 7-кратное ускорение DeepSeek MLA, 1,5-кратное ускорение torch.compile, поддержка LLaVA-OneVision.

SGLang - это фреймворк для LLM и VLM. Он делает взаимодействие с моделями быстрым и контролируемым за счет совместной разработки бэкэндной среды и фронтэнда.

В версии SGLang v0.3 получил поддержку оптимизаций для MLA: поглощение весов, групповые ядра декодирования, FP8 batched MatMul и FP8 KV cache quantization.

Вторым важным обновлением является интеграция torch.compile для линейных/нормальных/активационных слоев и объединение его FlashInfer attention и sampling kernels.
Torch.compile включен для размеров пакетов от 1 до 32 и поддерживает непрерывную пакетную обработку, а так же RadixAttention для кэширования префиксов.
lmsys.org

✔️ Chatbot Arena, на которую опирается AI-сообщество, не самый лучший бенчмарк.

Бенчмарк, созданный LMSYS, стал популярным инструментом для сравнения производительности различных моделей ИИ, но его методология вызывает вопросы о репрезентативности и объективности результатов.

Основная проблема Chatbot Arena заключается в том, что он полагается на субъективные оценки пользователей, которые могут предпочитать определенный стиль ответов или не замечать галлюцинации модели.

LMSYS пытается смягчить эти предубеждения, используя автоматизированные системы оценки, такие как MT-Bench and Arena-Hard-Auto, которые используют модели OpenAI GPT-4 и GPT-4 Turbo для ранжирования качества ответов. Однако, эффективность этих систем в полной мере не доказана.

Растущие коммерческие связи LMSYS и спонсорство от венчурных фирм, инвестирующих в некоторые из тестируемых моделей, также вызывают вопросы о беспристрастности платформы.
techcrunch.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🖥 На своем YouTube канале OpenAI залили несколько видео, демонстрирующих работу O1.

Можно посмотреть как ChatGPT проходит путь от быстрых интуитивных рассуждений до глубоких и осознанных выводов.

Посмотрите эти примеры:
- O1 смог создать полноценную игру всего за одну минуту, следуя каждому шагу инструкции.
- Модель демонстрирует свои способности в математике.
- O1 разгадал загадку о возрасте принцессы, демонстрируя логику своих рассуждений.
- O1 и в генетеке хорош
- O1 решил задачу по квантовой физике, подробно объясняя свои решения.
- O1 посчитал количества букв R в слове "strawberry".
- O1 написал Змейку на HTML прямо в чате, позволяя добавлять новые функции.
- O1 обучился переводу корейских иероглифов, предвещая скорое исчезновение языковых барьеров.

@ai_machinelearning_big_data

#openai #chatgpt #video

Читать полностью…

Machinelearning

🌟 rStar: Концепция взаимно рассуждающих языковых моделей.

rStar - метод, который помогает улучшить способности языковых моделей рассуждать и решать задачи. При этом не нужно переобучать модель или использовать более мощные модели. rStar делит процесс рассуждения на два этапа – самообучение с генерацией и проверка (дискриминация) полученной генерации.

На первом этапе модель использует алгоритм поиска по дереву Монте-Карло (MCTS). MCTS помогает модели построить разные варианты решения задачи, как будто она рассуждает, как человек. На втором этапе другая модель проверяет каждый вариант решения, который построила первая модель. Если обе модели согласны с каким-то вариантом решения, значит, он считается правильным.

Для того, чтобы в этом состязательном процессе генерации и дискриминации модели не ушли в бесконечный цикл, в rStar применяется способ достижения консенсуса, который называется «взаимная согласованность», а чтобы расширить траектории рассуждения, rStar использует набор дополнительных действий, которые имитируют мышление человека: разбивка на подзадачи, переформулировка задачи, прямое или последовательное решение и т.д

Эксперименты на пяти SLM показали, что rStar может успешно справляться с задачами рассуждения: GSM8K, GSM-Hard, MATH, SVAMP и StrategyQA.

Результаты тестов показали, что rStar повышает точность решения GSM8K с 12,51 % до 63,91 % для LLaMA2-7B, с 36,46 % до 81,88 % для Mistral-7B, с 74,53 % до 91,13 % для LLaMA3-8B-Instruct.

Программная реализация метода выполняется на условном датасете (MATH, GSM8K, GSM8KHARD, STG, SVAMP, MULTIARITH) запуском ролей генерации и дискриминации двух моделей.


📌Лицензирование : MIT License.


🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #rSar

Читать полностью…

Machinelearning

🌟 Nyuntam: Многофункциональный Toolkit для LLM и VLM.

Nyuntam - это набор инструментов для оптимизации, адаптации и ускорения моделей разной модальности в различных сферах применения. Nyuntam умеет обрезать (pruning), квантовать, дистиллировать, выполнять тонкую настройку под конкретные задачи с использованием методов (Q)LoRA, (Q)SSF и др.

Набор состоит из нескольких подмодулей, каждый из которых нацелен на решение конкретных задач:

🟢Text Generation: сжатие текстовых LLM;
🟢Vision: сжатие и оптимизация VLM;
🟢Adapt: модуль для тонкой настройки и трансферного обучения LLM и VLM с использованием PEFT и параллелизма GPU.

Каждый подмодуль в Nyuntam требует YAML-файл, который определяет все необходимые гиперпараметры и конфигурации для запуска задачи.
Примеры и шаблоны этих YAML-файлов можно найти в каждом подмодуле репозитория. Для более подробных сведений о параметрах и вариантах использования обратитесь к подробной документации проекта.

Практические примеры задач с детальными туториалами:

🟢Максимизация математической производительности для экстремального сжатия: 2-bit Llama3-8b;

🟢4-bit квантование Llama3.1-8b с акселерацией для задач текстовой генерации;

🟢2-х кратное уменьшение размера Llama3.1 70B методом Fluctuation-based Adaptive Structured Pruning;

🟢Ускорение TensorRT LLM до 2,5 раз: эффективное 4-8-4 квантование Llama3.1-8b;

🟢Ускорение 4-битной квантованной модели Llama;

🟠Обрезка YOLOX с помощью MMRazor;

🟠8-bit CPU квантование ResNet50 с помощью NNCF на датасете CIFAR-10;

🟠Сегментация с помощью SegNeXt набора данных городских пейзажей с помощью SSF;

🟢Файнтюн RTMDet на наборе данных face-det с помощью LoRA и DDP;

🟢Файнтюн T5 large с помощью QLoRA на наборе данных XSUM;

🟢Файнтюн Llama3-8b с помощью QDoRA и FSDP.

▶️Установка и запуск:

# Clone the Repository
git clone --recursive https://github.com/nyunAI/nyuntam.git
cd nyuntam

# Create & activate venv
python3 -m venv {ENVIRONMENT_NAME}
source {ENVIRONMENT_NAME}/bin/activate

# Install packages
# for text_generation
pip install -r text_generation/requirements.txt
# for vision
pip install -r vision/requirements.txt
# for nyuntam_adapt
pip install -r nyuntam_adapt/requirements.txt

# run an experiment
python main.py --yaml_path {path/to/recipe.yaml}



🟡Документация
🖥Github [ Stars: 32 | Issues: 1 | Forks: 1]


@ai_machinelearning_big_data

#AI #NynAI #MLTool #LLM #VLM

Читать полностью…

Machinelearning

Новостной дайджест

✔️ Salesforce представила Industries AI: 100+ готовых возможностей искусственного интеллекта для решения задач в 15 отраслях бизнеса.

Salesforce Industries AI использует ИИ для автоматизации задач, специфичных для каждой отрасли: финансы, медицина, автотранспорт, энергетика, логистика т.д. Клиенты могут воспользоваться готовыми шаблонами и использовать ИИ с помощью моделей данных, релевантных для конкретной отрасли, а также собственных данных и метаданных - например, медицинских карт, баз данных доноров или телематических систем - для получения релевантных и контекстных результатов и выводов.

Помимо новых функций, Salesforce акцентирует доступность Industries AI, которая встроена в каждую из 15 отраслевых облачных платформ Salesforce. Большинство функций станут общедоступны к октябрю 2024 года и февралю 2025 года, при этом Salesforce планирует добавлять новые возможности в рамках трех ежегодных релизов.
salesforce.com

✔️ NotebookLM: экспериментальная RAG-функция Google, которая делает подкаст из любого документа, текста или URL.

Google NotebookLM позволяет загружать до 100 документов объемом до 200 000 слов каждый и генерировать на их основе : краткое содержание, FAQ, инструкцию по изучению темы и т. д.
С недавним обновлением, сервис получил усовершенствование: теперь Google NotebookLM может генерировать подкасты (с мужским и женским ведущим) из ваших файлов, текста или URL. Генерация ролевого подкаста доступна только для английского языка, качество генерации речи очень высокое.

Попробовать: зайдите на notebooklm.google.com, загрузите любой документ, текст или укажите URL материала. Затем нажмите Notebook Guide справа от поля ввода и выберите Generate в разделе Audio Overview.
techcrunch.com

✔️ Anthropic добавила "Workspaces" в консоли API для команд.

Рабочие пространства — это уникальные среды, позволяющие организовать ресурсы, упростить управление доступом и настроить индивидуальные лимиты расходов и скорости на более детальном уровне.

С помощью рабочих пространств пользователи могут устанавливать ограничения расходов на уровне рабочего пространства, группировать связанные ресурсы, управлять ограничениями скорости, оптимизировать управление доступом и отслеживать использование API.
anthropic.com

✔️ Adobe анонсировала генерацию видео в своих продуктах в этом году.

Adobe анонсировала набор инструментов для создания видео с использованием искусственного интеллекта, которые будут доступны как в Premiere Pro, так и на отдельном веб-сайте. 
Firefly Video, так называется модель, предлагает три основных функции: Generative Extend, Text to Video и Image to Video. Generative Extend добавляет к существующему видео два секунды, а Text to Video и Image to Video создают видео продолжительностью пять секунд на основе текстовых или изображений подсказок. 

Adobe не назвала точную дату запуска, но указала, что функции, основанные на модели Firefly Video, станут доступны до конца 2024 года.
techcrunch.com

✔️ Stanford Research: AI-ресечеры превосходят человеческих экспертов в генерировании новых идей.

Исследование, проведенное Стэнфордским университетом, сравнило способность больших языковых моделей и экспертов-людей генерировать инновационные научные идеи.

Идеи, генерируемые LLM, были признаны более новыми, чем идеи, предложенные экспертами-людьми. Этот вывод был сделан на основе масштабного эксперимента с участием более 100 специалистов по NLP.

Эксперты не только генерировали собственные идеи, но и оценивали как идеи, созданные ИИ, так и идеи, предложенные людьми, не зная их авторства. Результаты показали, что идеи, сгенерированные ИИ, получили более высокие оценки за новизну (p < 0,05) по сравнению с идеями, написанными людьми.

Важно отметить, что исследователи также обнаружили, что идеи ИИ были оценены как менее осуществимые, чем идеи, предложенные людьми. Это говорит о том, что, хотя ИИ может генерировать новые идеи, они могут быть не так легко реализуемы на практике.
arxiv.org


@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

⚡️ Arcee-Llama-3.1-SuperNova 70B и 8B: Дистиллированные версии Llama 405B.

Arcee представила Arcee-SuperNova-70B и Arcee-SuperNova-Lite (8B), разработанные для альтернативной замены крупным проприетарным моделям, ориентированные на следование инструкциям и согласованию с человеческими предпочтениями.

Создание Arcee-SuperNova включало в себя несколько этапов, начиная с дистилляции Llama-3.1-405B-Instruct в Llama-3.1-70B-Instruct. Для этого был создан датасет из 500 млн. токенов, включающий примеры кода и математических задач и извлеченные logits модели Llama-3.1-405B.

Обучение Llama-3.1-70B-Instruct проводилось в течение пяти дней на 32 GPU H100 с использованием FSDP (Fully Sharded Data Parallel) для обеспечения возможности распределенного обучения.

Параллельно с этим была обучена отдельная версия Llama-3.1-70B с использованием Spectrum, настроенного на на 35% слоев с наивысшим соотношением SNR при длине последовательности 8192. Эта модель была обучена на наборе данных, созданном с помощью конвейера EvolKit - фреймворка повышения сложности инструкций при файнтюне LLM.

Финальная версия Arcee-SuperNova была создана путем слияния чекпойнтов из EvolKit и DPO, которые затем были объединены с дистиллированной Llama-3.1-70B-Instruct.

Проведенные тесты готовой модели в бенчмарке IF-Eval, показали, что Arcee-SuperNova превосходит не только Llama-3.1-70B-Instruct, но и проприетарные модели от OpenAI и Anthropic, а также Llama-405B-Instruct.

🟠Arcee-SuperNova-70B доступна только через API-сервис Arcee, а попробовать ее можно в playground web-интерфейса бесплатно;

🟢Arcee-SuperNova-Lite (8B), созданная по тому же принципу, что и 70B, доступна на Huggingface;

🟢Неофициальные GGUF версии Arcee-SuperNova-Lite (8B) от bartowski разрядностью от 2-bit (2.95Gb) до 16-bit (16 Gb) для использования с llama.cpp и LM Studio.


📌Лицензирование : Llama3


🟡Страница проекта
🟡Набор GGUF
🟡Модель Arcee-SuperNova-Lite
🟡Demo 70B


@ai_machinelearning_big_data

#AI #ML #LLM #Llama #Supernova

Читать полностью…

Machinelearning

🌟 SCIAGENTS : Автоматизация научных изысканий с помощью мультиагентных графовых рассуждений.

SciAgents - фреймворк, который самостоятельно генерирует и уточняет исследовательские гипотезы, разъясняя лежащие в их основе механизмы, принципы проектирования и неожиданные свойства объекта исследования.

Благодаря модульности этого функционала, SciAgents позволяет делать существенные открытия, критиковать и совершенствовать предположения, получать актуальные данные о проводимых исследованиях и выявлять их сильные и слабые стороны.

SciAgents умеет находить скрытые связи между сферами исследования, которые ранее считались несвязанными, достигая масштабов, точности и исследовательской мощи, превосходящих традиционные методы исследований, основанные на участии человека.

Практическая реализация для тестирования SciAgents представлена двумя ipynb для генерации новых исследовательских идей, соответствующих неавтоматизированному и автоматизированному мультиагентным методам.

Для запуска SciAgents понадобятся:

🟢GraphReasoning;
🟢wkhtmltopdf ;
🟠OpenAI API-key;
🟠Semantic Scholar API.

▶️ Установка:

# Graph Reasoning installation 
pip install git+https://github.com/lamm-mit/GraphReasoning

# wkhtmltopdf installation
sudo apt-get install wkhtmltopdf

# Graph file
from huggingface_hub import hf_hub_download
graph_name='large_graph_simple_giant.graphml'
filename = f"{graph_name}"
file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename, local_dir='./graph_giant_component')

# Embeddings
from huggingface_hub import hf_hub_download
embedding_name='embeddings_simple_giant_ge-large-en-v1.5.pkl'
filename = f"{embedding_name}"
file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename, local_dir='./graph_giant_component')

# Clone SciAgents
git clone https://github.com/lamm-mit/SciAgentsDiscovery.git

# Insatll reqs
cd SciAgentsDiscovery
pip install -e .



🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #Alents #Research #SciAgentsDiscovery

Читать полностью…

Machinelearning

⚡️Новостной дайджест

✔️ Roblox создает инструмент для генерации 3D-миров с помощью текстовых запросов.

Roblox анонсировала инструмент на основе ИИ с открытым исходным кодом, который позволит разработчикам создавать 3D-среды и объекты, используя текстовые запросы.
Инструмент основан на фундаментальной 3D-модели Roblox и использует подход, аналогичный большим языковым моделям.

Система "токенизирует" 3D-блоки, рассматривая каждый блок как числовую единицу и предсказывает наиболее вероятный следующий структурный 3D-элемент в последовательности. В совокупности этот метод может создавать целые объекты или декорации.
arstechnica.com

✔️ Chai-1: мультимодальная модель для предсказания структур молекул.

Chai Discovery, после поддерживающей инвестиции от OpenAI, выпустила Chai-1, новую MMLM для предсказания структуры молекул. Chai-1 позволяет выполнять унифицированное предсказание структуры белков, малых молекул, ДНК, РНК, ковалентных модификаций и т.д. Модель доступна бесплатно через веб-интерфейс Chai Discovery.

Chai-1 достигает 77% в бенчмарке PoseBusters (у AlphaFold3 - 76%), а также Cα LDDT 0,849 на наборе предсказаний структуры белкового мономера CASP15 (против 0,801 у ESM3-98B).
chaidiscovery.com

✔️ Mamba + Llama: дистилляция и ускорение гибридных моделей.

Together Ai разработали метод создания гибридных LLM, сочетающих в себе преимущества архитектур Transformer и Mamba.

Суть метода заключается в дистилляции Transformer моделей в гибридные линейные RNN, объединяя лучшее из обоих миров.

Процесс дистилляции: инициализация параметров Mamba для имитации линеаризованной версии внимания Transformer --> тонкая настройка Mamba слоев с замороженными MLP слоями Transformer --> спекулятивное декодирования, которое позволяет генерировать несколько токенов за один шаг, проверяя их с помощью более точной, но более медленной модели верификатора.

Результаты впечатляют - гибридные модели-дистилляты Mamba демонстрируют производительность, сравнимую с лучшими моделями Transformer, при этом значительно превосходя их по скорости инференса.
together.ai

✔️ Microsoft достигла новой вехи в области квантовых вычислений.

Microsoft продемонстрировала логические операции с использованием самого большого количества кубитов с коррекцией ошибок.

Логические кубиты распределяют один бит квантовой информации по набору битов, что делает любую ошибку менее катастрофической. Обнаружение ошибки состоит из добавления дополнительных битов к логическому кубиту таким образом, чтобы их значение зависело от тех, которые хранят данные. Что ценно, эти вспомогательные кубиты - измеряемы, а значит есть возможность определить, возникла ли какая-либо проблема, и, возможно, получить информацию о том, как ее исправить.

В своей новой работе Microsoft использовала оборудование от Quantinuum, в котором используются кубиты на основе ионов, захваченных в электрических полях. Эти кубиты имеют одни из лучших показателей частоты ошибок, и Microsoft наглядно показала, что это позволяет обнаруживать и исправлять ошибки в течение нескольких раундов коррекции ошибок.
arstechnica.com

✔️ AdEMAMix: Оптимизатор с использованием двойного экспоненциального скользящего среднего для повышения эффективности градиента и повышения эффективности обучения крупномасштабных моделей.

Apple совместно с EPFL опубликовали технический отчет о новом оптимизаторе - AdEMAMix. Это расширение традиционного оптимизатора Adam за счет использования смеси двух EMA, одного быстро меняющегося и одного медленно меняющегося.

Такая механика процесса обучения позволяет оптимизатору балансировать между необходимостью реагировать на последние обновления и сохранять ценные старые градиенты, которые часто отбрасываются существующими оптимизаторами.

Техника использования двух EMA, уникальная для AdEMAMix, позволяет более эффективно обучать крупномасштабные модели, сокращая общее количество токенов, необходимых для обучения, и достигая при этом сопоставимых или лучших результатов.
fusionchat.ai

✔️ Mistral AI выложили веса новой мультимодальной pixtral-12b

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

✔️ Книга+практика : Understanding Deep Learning

Книга “Understanding Deep Learning” посвящена идеям и принципам, лежащим в основе глубокого обучения. Подача материала построена таким образом, чтобы читатель мог понять материал настолько эффективно, насколько это возможно. Для читателей, желающих углубиться в изучение, в каждой главе приведены соответствующие задачи, записные книжки по Python и подробные справочные материалы.

В первой части книги представлены модели глубокого обучения и обсуждается, как их обучать, измерять их производительность и улучшать эту производительность.

В следующей части рассматриваются архитектуры, которые специализируются на изображениях, тексте и графических данных. Для свободного понимания этих двух глав требуется понимать принципы линейной алгебры, матанализа и теории вероятностей.

Последующие части книги посвящены генеративным моделям и методике обучения с подкреплением. Эти главы требуют больших знаний в области теории вероятностей и математического анализа.

В последней главе обсуждается этика искусственного интеллекта и призыв к практикующим инженерам задуматься о моральных последствиях своей работы.

Автор книги: Simon J. D. Prince - почетный профессор информатики в Университете Bath (Великобритания) , со-автор более 80 опубликованных исследований в области ML.
Научный сотрудник, специализирующийся на искусственном интеллекте и глубоком обучении, он руководил группами ресерча в Anthropics Technologies Ltd, Borealis AI и других компаниях.

Дополнительно, на отдельном сайте книги, читателям доступны:

🟢ответы на наиболее частые вопросы студентов;
🟢ipynb - ноутбуки для практических занятий по материалам книги;
🟢интерактивные иллюстрации по темам;
🟢презентации по каждой главе для преподавателей, которые захотят построить свое обучение на содержимом книги;
🟢большой список статей по 12 направлениям для продолжения обучения после прочтения книги: AI Theory, Transformers & LLMs, Unsupervised learning, Natural language processing, Computer vision и др.

▶️Дата последней актуализации книги : 28 августа 2024 года.


📌Стоимость: бесплатно


🟡Сайт книги
🖥Github


@ai_machinelearning_big_data

#AI #ML #Book

Читать полностью…

Machinelearning

Офер в AI VK и Дзен для ML- и Backend-разработчиков

С 16 по 20 сентября пройдет Late Night Offer для ML- и Backend-разработчиков — шанс попасть в команду VK за вечер.

Как получить офер — сначала пообщайтесь с рекрутерами, выберите команду и слот для индивидуального интервью. После чего познакомьтесь с тимлидами и пройдите технические собеседования. В конце останется пройти финальное собеседование и получить заветный офер. Встречи будут проходить по вечерам, с 18:00 до 22:00. Офер можно получить в тот же вечер, если вы с командой друг другу подойдете.

А дальше — вместе развивать технологии искусственного интеллекта для ключевых продуктов компании, строить единую платформу для рекомендаций и поиска контента в сервисах VK.

Откликнуться

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Разбираешься в AI? Покажи, на что способен – прими участие в международном соревновании AI Journey Contest. Призовой фонд – более 8 миллионов рублей!

Задачи, как всегда, масштабные и амбициозные. Участникам предстоит работать с SOTA-технологиями, выбрав одну или несколько из предложенных задач:

✔️ Emotional FusionBrain 4.0 — создать мультимодальную модель, которая умеет круто понимать видео, отвечает на сложные вопросы и «чувствует» человеческие эмоции.

✔️ Multiagent AI — разработать мультиагентную RL-систему, где агенты будут объединяться в различные схемы кооперации при решении задач. Эта задача суперполезна для научных исследований.

✔️ Embodied AI — сделать робота-помощника, который будет решать сложные задачи взаимодействия с окружающей средой и человеком, общаясь на естественном языке.

✔️ E-com AI Assistant — используя LLM GigaChat, создать AI-ассистента, который сможет рекомендовать пользователям релевантные товары для покупки на маркетплейсе Мегамаркет.

Кстати, в решении задач тебе может помочь нейросетевая модель GigaChat и другие AI-разработки Сбера!

Следующий шаг в развитии AI – за тобой! Переходи по ссылке, регистрируйся и успей решить задачи до 28 октября! Соревнование проводится при поддержке Института AIRI.

Читать полностью…

Machinelearning

🌟 NanoFlow: Высокопроизводительный cервисный фреймворк для LLM.

NanoFlow - это универсальный фреймворк для LLM, ориентированный на повышение пропускной способности. Он комбинирует в себе набор техник: параллелизм внутри устройства, асинхронное планирование CPU и выгрузка KV-кеша готовых запросов на SSD.

В результате NanoFlow имеет пропускную способность выше, чем другие фреймворки - vLLM, Deepspeed-FastGen и TensorRT-LLM.

Архитектура NanoFlow основана на методе, который позволяет одновременно выполнять операции вычисления, памяти и сети. Параллелизм операций возможен из-за применения логики "микропакетов" для планирования операций и выделения ресурсов.

NanoFlow использует асинхронный поток управления, который запускает следующую итерацию без ожидания окончания предыдущей, тем самым ощутимо повышается утилизация ресурсов и снижается задержка в пайплайне модели.

Для оценки производительности NanoFlow были проведены эксперименты на различных моделях LLM: Llama2-70B, Qwen2-72B, DeepSeek-67B, Mixtral-8x7B и LLaMA3-8B на узле на узле DGX 8xA100 80 ГБ.
Результаты показали, что NanoFlow демонстрирует 1,91-кратное увеличение пропускной способности по сравнению с TensorRT-LLM.

▶️Установка:

# Clone repo & crate venv
git clone https://github.com/efeslab/Nanoflow.git
cd Nanoflow
chmod +x ./installAnaconda.sh
./installAnaconda.sh

# Install dependencies
yes | ./setup.sh

# Download model
./modelDownload.sh

# Serving datasets
./serve.sh


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🖥Github [ Stars: 282 | Issues: 5 | Forks: 8]


@ai_machinelearning_big_data

#AI #Framework #MLTool #NanoFlow #LLM

Читать полностью…

Machinelearning

🌟 OLMoE: Открытые языковые модели на основе Mixture-of-Experts.

OLMoE (Open Mixture-of-Experts Language Models) - это метод создания языковых моделей, использующий разреженно активированные смеси экспертов (Mixture-of-Experts, MoE). Следуя этому методу была создана и опубликована базовая модель и 2 ее вариации:

🟢OLMoE-1B-7B;

🟠OLMoE-1B-7B-SFT - промежуточная версия базовой модели, прошедшая этап SFT-посттрейна, но без Instruct-дообучения;

🟢OLMoE-1B-7B-Instruct

Модель предварительно обучалась на 5,1 трлн. токенов с 7 млрд. общих параметров, из которых только 1,3 млрд. активируются для каждого входного токена.
Такая конфигурация дает аналогичную стоимость инференса, как при использовании моделей с 1 млрд. параметров (напр. TinyLlama 1B), но требует больше VRAM для хранения 7 млрд общих параметров.

В создании OLMoE-1B-7B была использована архитектура decoder-only трансформера, в которой feedforward network была заменена на Mixture-of-Experts модуль, состоящий из набора меньших feedforward network, собранных в массивы k-экспертов. Ими управляет маршрутизатор (его роль выполняет обученный линейный слой), определяющий, какие из k-экспертов будут активированы для каждого входящего токена. Инференсы k-экспертов умножаются на вероятности маршрутизатора и потом суммируются, образуя общий инференс MoE-модуля.

Претрейн модели выполнялся на очищенных от дубликатов датасетах DCLM и Dolma 1.7 (Github, Wikipedia, наборы научных статей). На следующем этапе инструктивного дообучения были добавлены данные по программированию и математике, чтобы сбалансировать эти области знаний для повышения точности MoE.

Проведенные после обучения эксперименты показывают, что OLMoE-модели обучаются примерно в 2 раза быстрее, чем обычные LLM с эквивалентными активными параметрами.

▶️Пример инференса базовой модели на Transformers:

# NOTE! Install the `transformers` & `torch` libraries first
from transformers import OlmoeForCausalLM, AutoTokenizer
import torch

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# Load different ckpts via passing e.g. `revision=step10000-tokens41B`
# also check allenai/OLMoE-1B-7B-0924-SFT & allenai/OLMoE-1B-7B-0924-Instruct
model = OlmoeForCausalLM.from_pretrained("allenai/OLMoE-1B-7B-0924").to(DEVICE)
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMoE-1B-7B-0924")
inputs = tokenizer("Bitcoin is", return_tensors="pt")
inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
out = model.generate(**inputs, max_length=64)
print(tokenizer.decode(out[0]))
# > # Bitcoin is a digital currency that is created and held electronically.
#No one controls it. Bitcoins aren’t printed, like dollars or euros – they’re produced by people and businesses running computers all around the world, using software that solves mathematical


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Dataset
🟡Набор моделей
🖥Github

@ai_machinelearning_big_data

#AI #ML #LLM #MoE

Читать полностью…

Machinelearning

👩‍⚕️ Большой Медицинский дайджест самых интересных проектов.

🟩 CancerLLM: LLM для онкологии.

CancerLLM - это языковая модель с 7 млрд. параметров для задач, связанных с онкологическими заболеваниями. Она была обучена на 2,67 млн. клинических записей и 515,5 тыс. отчетах о патологиях по 17 типам рака. Согласно проведенным тестам в процессе исследования, CancerLLM превосходит существующие модели на 7,61 % по показателю F1 (точность классификации).

🔸Arxiv

🟩 MedUnA: метод создания VLM для обработки медицинских снимков.

Medical Unsupervised Adaptation (MedUnA) состоит из двух этапов.

На первом этапе описания, сгенерированные LLM, соответствующие меткам классов, передаются через текстовый энкодер BioBERT. Результирующие текстовые эмбеддинги выравниваются по меткам классов с помощью упрощенного адаптера.

На втором этапе обученный адаптер интегрируется с визуальным энкодером MedCLIP, используя entropy-based loss и prompt tuning для эффективного выравнивания визуальных эмбеддингов.

🔸Arxiv


🟩 DARES: Базовая модель для роботизированной эндоскопической хирургии.

Метод, код и базовая модель для для выполнения самоконтролируемой монокулярной оценки глубины в задачах эндоскопической роботизированной хирургии.

🔸Arxiv🔸Github 🔸Model


🟩 Med-MoE: Mixture-of-Experts для медицинских VLM.

Med-MoE (Mixture-of-Experts) - легкий фреймворк для решения дискриминативных и генеративных мультимодальных медицинских задач.

Med-MoE работает в три этапа: cогласование медицинских изображений с лексемами LLMs, выбор экспертов для настройки инструкций с помощью обучаемого маршрутизатора и настройка выбранных экспертов в требуемой области.

🔸Arxiv 🔸Github


🟩 CanvOI: Визуальная модель для онкологии.

CanvOI - VL модель для цифровой патологии, основанная на ViT-g/10, оптимизированная для онкологических гистопатологических изображений. Благодаря использованию плиток размера 380 x 380 пикселей и патчей размера 10², CanvOI эффективна в задачах обучения по нескольким экземплярам (Multiple Instance Learning).

🔸Arxiv


🟩 UniUSNet: прогнозирование заболеваний на основе УЗИ.

UniUSNet - метод, код и претрейн-модель для задач классификации и сегментации ультразвуковых изображений, способный работать с различными типами УЗИ, анатомическими позициями и форматами входных данных. Обучена на более чем 9,7 тыс. аннотаций по 7 анатомическим позициям.

🔸Arxiv 🔸Github 🔸Model

Бенчмарки и наборы данных для оценки


🟥 TrialBench: Датасет клинических испытаний.

23 набора мультимодальных данных, предварительно структурированных для использования в задачах файнтюна моделей, оценки и прогнозирования ключевых результатов по показателям: продолжительность испытаний, отсев пациентов, уровень смертности и одобрение испытаний.

🔸Arxiv 🔸Github 🔸Dataset


🟥 LLM для бенчмарка по MedQA.

Исследование использования LLM для автоматизации оценки медицинских систем вопросов и ответов, традиционно требующих ручной оценки экспертов. Траектория изысканий сосредоточена на том, могут ли LLM имитировать человеческую оценку, анализируя ответы на вопросы, полученные из данных о пациентах.

Спойлер — могут, с абсолютной погрешностью 0,62 по шкале от 0 до 3.

🔸Arxiv


🟥 MedFuzz: Исследование надежности медицинских LLM.

MedFuzz от Microsoft Research - это состязательный метод проверки устойчивости LLM в эталонных тестах MedQA путем модификации вопросов таким образом, чтобы использовать нереалистичные предположения.

MedFuzz показывает, как LLM могут ошибаться таким образом, чтобы не обмануть медицинских экспертов, выявляя пробелы в их обобщении для реальных клинических условий.

🔸Arxiv


🟥MedS-Bench + Medicines: Оценка работы LLM в клинических задачах и датасет для обучения.

MedS-Bench - бенчмарк и датасет для оценки эффективности моделей в решении 11 клинических задач из 3 областей: обобщение отчетов, диагностика и рекомендации по лечению.

MedS-Ins - набор данных для настройки инструкций с 5 миллионами экземпляров для 122 задач.

🔸Arxiv 🔸Leaderboard 🔸Github 🔸Dataset MedS-Ins

🔥Полный дайджест

@ai_machinelearning_big_data

#news #ai #ml #medtech

Читать полностью…

Machinelearning

🌟 LLaVaOLMBitNet1B: первая тернарная мультимодальная LLM от IntelLabs.

LLaVaOLMoBitnet1B - мультимодальная модель, способная принимать в качестве входных данных изображение + текст (запрос) и отдавать согласованные текстовые ответы на выходе.

Архитектура модели состоит из 3-х частей:

🟢CLIP ViT-L/14 на 100М параметров, состоящий из 24 слоев с размером скрытого слоя 1024;
🟢MLP, состоящий из 2-х линейных слоев с размером скрытого слоя 2048 с активацией GELU;
🟢Тернарная LLM (OLMoBitNet1B) с 1.1 миллиардом параметров, состоящая из 16 слоев, в которых все линейные слои заменены на слои BitLinear158.

Модель была обучена в 2 фазы. Первая - предварительное обучение для выравнивания функций и вторая фаза - тонкой настройки инструкций.

Фаза предварительного обучения состояла из 1 эпохи на отфильтрованном наборе данных 595 тыс. концептуальных текстовых аннотаций, с обновлением весов только проекционного слоя.
Для второй фазы точной настройки инструкций использовалась 1 эпоха с набором данных LLaVa-Instruct-150K с обновлением и весов слоя проекции и весов LLM.

⚠️ Примечание: Модель в репозитории IntelLabs на Huggingface находится в режиме акцепта доступа. После отправки запроса пройдет какое-то время, прежде чем владелец репозитория одобрит запрос.

▶️Локальная установка и запуск:

# Clone repositry
git clone https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

# Move to folder & intall requirements
cd LlavaOLMoBitnet1B
pip install -r requirements.txt

# Run inference
python llava_olmo.py


▶️Чтобы задать свой промпт и указать путь до целевого изображения, измените параметры в файле llava_olmo.py:

text = "Be concise. Describe what is in the image"

url = "https://URL_TO_IMAGE.jpg"


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Модель


@ai_machinelearning_big_data

#AI #Intel #ML #LlavaBitNet

Читать полностью…

Machinelearning

🌟 OpenVLA: Open-Source Vision-Language-Action модели.

OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами.

OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.

Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).

Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.

OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).

Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции по самостоятельному дообучению на вашем наборе демонстраций.

Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:

🟢openvla-7b-prismatic - адаптация для использования с Prismatic VLMs project codebase;

🟢openvla-7b-finetuned-libero-spatial - - файнтюн с помощью LoRA на датасете LIBERO-Spatial бенчмарка LIBERO;

🟢openvla-7b-finetuned-libero-object - файнтюн с помощью LoRA на датасете LIBERO-Object;

🟢openvla/openvla-7b-finetuned-libero-10 - файнтюн с помощью LoRA на датасете LIBERO-10 (Long).

▶️Установка :

# Create venv 
conda create -n openvla python=3.10 -y
conda activate openvla

# Install PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y

# Clone and install the openvla repo
git clone https://github.com/openvla/openvla.git
cd openvla
pip install -e .

# for training only
# Install Flash Attention 2
pip install packaging ninja
ninja --version; echo $? # --> should return code "0"
pip install "flash-attn==2.5.5" --no-build-isolation


📌Лицензирование : MIT License.



🟡Страница проекта
🟡Arxiv
🟡Набор моделей
🖥Github


@ai_machinelearning_big_data

#AI #ML #OpetVLA #Robotics

Читать полностью…
Subscribe to a channel