🔈 Otter.ai — это платформа для автоматического создания заметок на основе голосовых записей с помощью ИИ, предназначенная для повышения продуктивности и удобства ведения встреч. Этот сервис предоставляет пользователям возможность записывать разговоры, получать текстовые расшифровки. Otter.ai активно используется бизнесом, образовательными учреждениями, журналистами и другими профессионалами для ведения встреч, интервью, лекций и любых других важных разговоров, обеспечивая легкое управление и анализ данных.
💡 Основные функции:
🌟 Синхронизация аудио, текста и изображений: Инструмент интегрирует не только текст, но и другие мультимедийные элементы, обеспечивая комплексное представление о беседе
🌟 Поддержка онлайн- и офлайн-режимов: Приложение можно использовать как в реальном времени на встречах (например, Zoom, Google Meet), так и для постфактум анализа записей
🔗 Ссылка: *клик*
@machinelearning_ru
🌟 CogVideoX Factory: оптимизация файнтюна моделей генерации видео семейства CogVideoX.
CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.
Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".
Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:
🟢CPUOffloadOptimizer - перемещает обучаемые параметры и градиенты модели в CPU, освобождая память GPU для других операций;
🟢DeepSpeed Zero2 - распределяет параметры модели по нескольким GPU, что позволяет обучать большие модели, которые иначе не поместились бы в память одного GPU;
🟢LoRA - метод тонкой настройки, который изменяет только небольшое подмножество параметров модели, сохраняя при этом основную часть весов неизменной.
CogVideoX Factory предлагает сценарии обучения:
🟠LoRA для "text-to-video": cкрипт train_text_to_video_lora.sh
;
🟠LoRA для "IMG-to-video": cкрипт train_image_to_video_lora.sh
;
🟠SFT всей модели для "text-to-video": скрипт train_text_to_video_sft.sh
.
⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт prepare_dataset.py
играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.
CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.
📌Лицензирование : Apache 2.0 License.
🖥Github
@ai_machinelearning_big_data
#AI #ML #LoRA #T2V #IMG2V #Finetune
🖥 openai-gradio — Python-библиотека, упрощающая создание интерфейсов для работы с моделями OpenAI (например, GPT-4) с использованием Gradio. Она предоставляет готовые компоненты для быстрой интеграции и настройки взаимодействия с моделями. Библиотека позволяет легко разрабатывать интерфейсы, которые могут обрабатывать текст, изображения и другие типы данных, упрощая тестирование и демонстрацию возможностей ИИ
▪️Github
@machinelearning_ru
🖥 Autoevals — это фреймворк с открытым исходным кодом, предназначенный для автоматической оценки моделей и других компонентов систем машинного обучения. Он поддерживает развертывание различных тестов для моделей и систем, измеряет их эффективность и производительность, а также предоставляет интерфейсы для интеграции с другими инструментами анализа
▪️Github
@machinelearning_ru
🖥 o1-engineer — это консольный инструмент, созданный для помощи разработчикам в управлении и взаимодействии с проектами. Он использует API OpenAI для таких функций, как генерация кода, редактирование файлов и планирование проекта, упрощая рабочие процессы
🔐 Лицензия: не указана
▪️Github
@machinelearning_ru
🤖 Объясняемая AI: применение LIME для интерпретации моделей
LIME (Local Interpretable Model-agnostic Explanations) позволяет пользователям интерпретировать и понимать выводы машинного обучения. 📉
Используется для объяснения результатов любых моделей и улучшает доверие к предсказаниям.
🔗 Узнайте больше: LIME Documentation
💭 Делайте свои модели более понятными и объясняемыми!
@machinelearning_ru
🖥 Aibase — огромная коллекция нейросетей для любых задач! 🔥
🌟 Здесь на множество категорий разобраны сотни, если не тысячи различных нейросеток — для создания текста, кода, фото, видео, аудио и другого контента!
🔗 Посмотреть можно здесь: *клик*
@machinelearning_ru
💡 AMD выпустила модель размером 135M, натренированную на 690 млрд токенов
Модель слабая, единственная ее фича - тренировка на амд.
https://huggingface.co/amd/AMD-Llama-135m
@machinelearning_ru
⚡️ Редактирование выражений лица в режиме реального времени
Grog преобразовывает изображение Cog в Gradio, используя серверную часть ComfyUI - магия открытого исходного кода 🤝
▶️Модель: https://huggingface.co/spaces/fffiloni/expression-editor
@machinelearning_ru
🖥 Довольно интересная статья, в которой авторы сравнивают по различным критериям 59 малых языковых моделей с открытым исходным кодом. Анализируют такие возможности, как рассуждение, возможность к обучению, математика и кодинг, а также затраты на запуск, задержку ответов и многое другое.
🔗 Ссылка: *клик*
@machinelearning_ru
🖥 CUDA Programming Course – High-Performance Computing with GPUs
Свежий Бесплатный курс от freeCodeCamp по программированию CUDA.
Этот 12 -ти часовой бесплатный курс научит вас программировать с помощью Nvidia CUDA и использовать графические процессоры для высокопроизводительных вычислений и Deep learning.
Содержание:
🔜 (0:00:00) Вступление
🔜 (0:16:52) Глава 1 (Экосистема глубокого обучения)
🔜 (0:37:43) Глава 2 (Настройка CUDA)
🔜 (0:47:03) Глава 3 (Обзор C/C++)
🔜(1:35:47) Глава 4 (Введение в графические процессоры)
🔜 (1:51:40) Глава 5 (Написание ваших первых ядер)
🔜 (3:55:26) Глава 6 (CUDA API)
🔜 (5:35:22) Глава 7 (Быстрое умножение матриц)
🔜 (8:22:36) Глава 8 (Triton)
🔜 (9:04:43) Глава 9 (Расширения PyTorch)
🔜 (9:18:10) Глава 10 (Многослойный персептрон MNIST)
🔜 (11:41:13) Глава 11 (Что изучать дальше?)
🔜 (11:54:38) Заключение
▪Video: https://www.youtube.com/watch?v=86FAWCzIe_4
▪Code: https://github.com/Infatoshi/cuda-course
▪Github https://github.com/Infatoshi/mnist-cuda
#cuda #deeplearning #cpp #c #bigdata #courses #бесплатныйкурс
@machinelearning_ru
📌 Mini-Omni: Языковые модели, которые могут слышать и говорить, одновременно думая в онлайн режиме
https://huggingface.co/spaces/gradio/omni-mini
@machinelearning_ru
Группа «Интер РАО» запустила ТурбоХакатон по обработке данных в сфере электроэнергетики. Участвуйте в соревновании с 10 октября по 26 ноября и получите шанс разделить призовой фонд в 500 000 рублей.
Регистрация уже открыта
Приглашаем на хакатон специалистов в области Data Science и Machine Learning от 18 лет. Участвовать можно индивидуально или в команде до 5 человек.
На соревновании вас ждет:
🔸 Решение задач, основанных на реальных датасетах Группы «Интер РАО».
🔸 Менторство от ведущих экспертов отрасли, готовых поделиться своими знаниями.
🔸 Возможность получить предложение о работе в Группе «Интер РАО».
🔸 Авторы лучших проектов смогут запустить свои решения на суперкомпьютере Питерского политехнического университета Петра Великого.
Задачи ТурбоХакатона:
1️⃣ Цифровой ассистент – система «вопрос\ответ» для быстрого поиска ответов во внутренней документации компании через вопросы, заданные в свободной форме
2️⃣ Система рекомендации технологических параметров для оптимизации режимов работы ТЭС
3️⃣ Анализ аномалий в платежах за тепловую энергию
4️⃣ Оптимизация маршрутов обхода многоквартирных домов для проверки состояния приборов учета и контроля достоверности показаний
5️⃣ Оптимизация процесса планирования закупки топлива на электростанциях на основе прогнозирования цены электричества и объемов его выработки
Расписание мероприятия:
🔹 08.10 – старт ТурбоХакатона и открытие задач;
🔹 10.10-04.11 – работа над задачей;
🔹 08.11-12.11 – отбор лучших решений для участия в финальном питчинге;
🔹 19.11 – итоговая питч-сессия и презентация решений для жюри ТурбоХакатона;
🔹 26.11 – объявление результатов и награждение победителей.
Успейте подать заявку до 4 октября
⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем.
Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.
Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.
Фреймворк построен на двух основных абстракциях: агентах (Agent
) и передачах управления (handoffs
):
Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).
Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result
.
▶️В репозитории собраны функциональные примеры Swarm:
🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные;
🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег;
🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail);
🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа);
🟢support_bot - клиентский бот центра поддержки с несколькими инструментами;
🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы;
⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.
⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.
▶️ Локальная установка и запуск:
# Install from PIP
pip install git+https://github.com/openai/swarm.git
# Usage
from swarm import Swarm, Agent
client = Swarm()
def transfer_to_agent_b():
return agent_b
agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)
agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)
response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)
print(response.messages[-1]["content"])
🔥 Опубликован язык программирования Julia 1.11
Опубликован релиз языка программирования Julia 1.11, сочетающего такие качества как высокая производительность, поддержка динамической типизации и встроенные средства для параллельного программирования. Синтаксис Julia близок к MATLAB с заимствованием некоторых элементов из Ruby и Lisp. Метод манипуляции строками напоминает Perl. Код проекта распространяется под лицензией MIT.
Ключевые особенности языка:
- Высокая производительность: одной из ключевых целей проекта является достижение производительности близкой к программам на языке Си. Компилятор Julia основан на наработках проекта LLVM и генерирует эффективный нативный машинный код для многих целевых платформ;
- Поддержка различных парадигм программирования, включая элементы объектно-ориентированного и функционального программирования. Стандартная библиотека предоставляет в том числе функции для асинхронного ввода/вывода, управления процессами, ведения логов, профилирования и управления пакетами;
- Динамическая типизация: язык не требует явного определения типов для переменных по аналогии со скриптовыми языками программирования. Поддерживается интерактивный режим работы;
- Опциональная возможность явного указания типов;
- Синтаксис, превосходно подходящий для численных вычислений, научных расчётов, систем машинного обучения и визуализации данных. Поддержка многих числовых типов данных и средств для распараллеливания вычислений.
- Возможность прямого вызова функций из библиотек на языке Си без дополнительных прослоек.
https://julialang.org/blog/2024/10/julia-1.11-highlights/
@machinelearning_ru
💥Начните изучать Machine Learning и Data Science бесплатно — в Skillbox
Получите доступ к 5 модулям курса, познакомьтесь с основами Excel и Python, оцените качество уроков и решите, стоит ли продолжать обучение.
👉Попробуйте Machine Learning в Skillbox бесплатно прямо сейчас и получите дополнительную скидку. Пригодится, если захотите продолжить обучение на полном курсе и максимально сэкономить.
Кстати, на полном курсе вас ждут:
Практика на реальных данных от компаний и экспертов
3 сильных проекта
в портфолио
Помощь в трудоустройстве
Спикеры из Сбера, VK и других топовых компаний
Обратная связь и разбор заданий с наставником
Столько всего полезного — в одном курсе! Самое время попробовать его — бесплатно: https://epic.st/sp-jb?erid=2VtzqvXnKhU
Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880
🖥 Fireducks: Ускорь Pandas в 20 раз, изменив всего одну строчку кода!
https://www.youtube.com/watch?v=3mcs_MDiLwY
@machinelearning_ru
🖥 Интересное и простое визуальное объяснение о том, как работают LLM
🔗 Ссылка: *клик*
@machinelearning_ru
🌟 ASR и диаризация речи от RevAI.
RevAI, лидер в области профессиональной транскрипции английской речи выпустила в открытый доступ фреймdорк Reverb и набор моделей для построения конвейера speech-to-text.
Reverb включает в себя: модель ASR на базе WeNet и 2 версии модели диаризации речи. Весь паплайн Reverb можно запускать как на CPU, так и на GPU.
Reverb ASR обучалась на 200 000 часов английской речи, профессионально транскрибированной людьми — это самый большой корпус транскрибированной человеком речи, когда-либо использовавшийся для обучения модели с открытым исходным кодом.
Она позволяет контролировать уровень дословности выходного транскрипта для создания чистого, удобочитаемого текста и справляется с обработкой аудио, требующего транскрипции каждого произнесенного слова, включая запинания и перефразирования.
Reverb ASR использует совместную архитектуру CTC/attention и поддерживает несколько режимов декодирования. Указать один или несколько режимов можно в recognize_wav.py
. Для каждого режима будут созданы отдельные выходные каталоги. Варианты декодирования:
🟢attention;
🟢ctc_greedy_search;
🟢ctc_prefix_beam_search;
🟢attention_rescoring;
🟢joint_decoding.
В оценке Reverb ASR использовались три корпуса длинных аудиозаписей: Rev16 (подкасты), Earnings21 и Earnings22 (телефонные разговоры).
Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм, особенно в Earnings22, где в основном речь носителей английского языка не как родного.
Для традиционного бенчмаркинга использовался GigaSpeech, Reverb ASR запускался в дословном режиме на скриптах оценки Hugging Face Open ASR Leaderboard. По их результатам Reverb ASR значительно превосходит конкурентов в тестовых наборах ASR для длинных форм.
Reverb diarization v1 использует архитектуру pyannote 3.0 и имеет 2 слоя LSTM со скрытым размером 256, всего около 2,2 млн параметров, а Reverb diarization v2 использует WavLM вместо функций SincNet в базовой модели pyannote 3.0.
Обе модели диаризации прошли донастройку на 26 000 часах данных с экспертной разметкой.
▶️Локальное использование предусматривает несколько вариантов: установка с anaconda, использование Docker-образа и масштабное развертывание.
⚠️ Для локальной установки понадобится Huggingface API KEY
🟡Набор моделей
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ASR #Diarization #REVAI
В каких продуктах, проектах и процессах используют ML разные компании
В новом сезоне подкаста «Деньги любят техно» ведущие зовут в гости топ-специалистов, отвечающих в компаниях за данные и машинное обучение, и спрашивают:
● Какие перед ними стоят задачи
● Как они «дружат» с бизнесом
● Какие метрики измерения эффективности моделей наиболее важны
● Как собираются команды и из кого они состоят
Первым о специфике своих задач рассказал старший директор по данным и аналитике «Авито»Андрей Рыбинцев. С ним беседуют: начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев и технологический обозреватель Марина Эфендиева.
Новый эпизод доступен не только в аудио, но и в видео-версии
OpenAI’s New ChatGPT In 3 Minutes! + NotebookML and AlphaChip
https://www.youtube.com/watch?v=Mmi8Eb_81Wc&pp=wgIGCgQQAhgB
@machinelearning_ru
🌟 Пространственно-временное прогнозирование с помощью Байесовских нейронных полей.
Байесовские нейронные поля (Bayes NF) - метод масштабируемого пространственно-временного прогнозирования, объединяющий архитектуру глубокой нейронной сети моделирования функций с иерархическим Байесовским моделированием для точной оценки неопределенности в сложных пространственно-временных полях.
Bayes NF строятся на основе Байесовской нейронной сети, отображающей многомерные пространственно-временные координаты в действительное поле.
Для получения высокой априорной вероятности для данных как с низко-, так и с высокочастотными вариациями, к исходным данным о времени и положении, подающимся в сеть, добавляются признаки Фурье, а чтобы учитывать априорные неопределенности, параметры сети получают априорное распределение.
Апостериорный вывод осуществляется с помощью стохастических ансамблей оценки максимального апостериори (MAP) или вариационно обученных суррогатов.
Метод Bayes NF относительно прост, он может обрабатывать пропущенные данные и обучаться по полному распределению вероятностей для произвольных пространственно-временных индексов.
Bayes NF универсален и применим к различным наборам данных без необходимости разработки новой модели для каждого случая или применения специфических для набора данных аппроксимаций вывода.
⚠️ Для локального запуска BayesNF на средних и больших объемах данных требуется GPU.
▶️ Практические туториалы с возможностью запуска на Google Coolab:
🟢анализ на основе пространственно-временного набора данных из 20 временных рядов еженедельных случаев заболевания ветряной оспой в Венгрии в период с 2005 по 2015 гг. Блокнот;
🟢анализ данных из об уровне загрязнения воздуха, измеряемом датчиками по всему Лондону каждый час. Блокнот.
▶️Локальная установка:
# Install bayesnf from PIP into venv:
$ python -m venv pyenv
$ source pyenv/bin/activate
$ python -m pip install -U bayesnf
# Install dependencies for Python 3.10
$ python -m pip install -r requirements.Python3.10.14.txt
🖥 Qocker — это удобное приложение с графическим интерфейсом для управления контейнерами Docker
🔍 Функции:
🌟 Обзор контейнеров: просматривайте все свои контейнеры Docker в древовидной структуре.
🌟 Быстрый доступ к терминалу: откройте терминал для любого контейнера двойным щелчком мыши.
🌟 Управление контейнерами: запуск, остановка и удаление контейнеров непосредственно из графического интерфейса.
🌟 Обновления в режиме реального времени: статусы контейнеров обновляются в режиме реального времени.
🌟 Кроссплатформенность: работает на Windows, macOS и Linux.
💡 Установка:
🌟 Клонируйте этот репозиторий:
git clone https://github.com/xlmnxp/qocker.git
cd qocker
pip install -r requirements.txt
python3 main.py
🌟 vGPU NVIDIA на базе драйвера Nouveau для Linux.
NVIDIA представила набор патчей для ядра Linux с технологией vGPU для использования виртуальных графических процессоров в системах виртуализации. vGPU разделяет ресурсы физического графического процессора NVIDIA, привязывая каждый виртуальный GPU к виртуальной функции PCI Express.
Драйвер vGPU работает с видеокартами NVIDIA на архитектуре Ada Lovelace, создавая от одного до нескольких виртуальных GPU в зависимости от модели карты. В хост-системе создание и сопряжение виртуальных GPU с гостевыми системами выполняются изменённым драйвером Nouveau. В гостевых системах используются штатные драйверы NVIDIA, как для обычного графического процессора.
Каждый vGPU получает часть памяти из фреймбуфера физического GPU, различаясь типами, назначением, размером видеопамяти, количеством дисплеев и максимальным разрешением экрана.
Реализация технологии vGPU включает базовый драйвер nvkm на основе Nouveau и менеджер vgpu_mgr, реализованный как модуль VFIO. Менеджер создает и удаляет виртуальные GPU, выбирает тип, управляет ресурсами и предоставляет API для управления. Он взаимодействует с базовым драйвером GPU для загрузки прошивки GSP, управления ресурсами, обработки исключений, конфигурации и системных событий.
Также в Mesa Vulkan-драйвер добавлен gfxstream (Graphics Streaming Kit) для доступа к API Vulkan из гостевых систем Linux, Android и Fuchsia. Драйвер, разработанный Google, перенаправляет обращения к графическим API при виртуализации API Vulkan. Он используется в эмуляторе Android, виртуальном устройстве Cuttlefish, сервисе Google Play Games и операционной системе Fuchsia. Gfxstream включен в QEMU и crosvm и поддерживается совместно с устройствами virtio-gpu и goldish.
🟡Страница релиза
🟡Документация
🟡Host Kernel
🟡Guest driver package
@ai_machinelearning_big_data
#AI #ML #vGPU #Linux #NVIDIA
⚡️ Команда Яндекса рассказала, как генерировать GPT-нейросетями миллиарды объявлений на малом количестве GPU
От генерации шаблонами с ранжированием по длине до использования тяжелых BERT. Руководитель группы автоматической генерации рекламы рассказала о соединении тяжёлых процессингов и GPU‑вычислений и решении сопутствующих сложностей.
🔗 Ссылка
@machinelearning_ru
🌟 Параллельные стратегии с Jax: обучающий туториал.
Обучение LLM требует огромных вычислительных ресурсов. Поскольку размеры моделей исчисляются миллиардами параметров, специализированные методы распараллеливания необходимы для того, чтобы сделать обучение выполнимым.
В статье "Исследование параллельных стратегий с Jax" подробно рассматривается реализация некоторых стратегий масштабирования в Jax - фреймворке Python, предназначенном для высокопроизводительных численных вычислений с поддержкой ускорителей GPU и TPU.
Стратегии, описанные в туториале с примерами кода и иллюстрациями:
🟢Data Parallelism - распределение данных между несколькими устройствами, которые одновременно обучают модель;
🟢Tensor Parallelism - распределение весов модели между устройствами, позволяет каждому устройству обрабатывать свою часть тензора параллельно;
🟢Pipeline Parallelism разделяет модель на этапы, которые выполняются последовательно на разных устройствах;
🟢Mixture-of-Experts использует множество специализированных экспертов для обработки различных частей входных данных, что позволяет масштабировать модель до огромных размеров.
▶️ Автор статьи - Александр Самарин, Lead ML Engineer в Huawei c 5-ти летнем опытом в глубоком обучении.
@ai_machinelearning_big_data
#AI #ML #LLM #JAX #Tutorial
⚡️Converting a From-Scratch GPT Architecture to Llama 2
Хотите посмотреть сравнение GPT и Llama под капотом?
Здесь пошаговый учебник-гайд с кодом, где разобраны ключевые различия:
Github
@machinelearning_ru
🎶 OpenMusic
Приложение, воспроизводящее музыку 🎧 🎹
▪github: https://github.com/ivcylc/qa-mdt
▪демо: https://huggingface.co/spaces/jadechoghari/OpenMusic
▪модель: https://huggingface.co/jadechoghari/openmusic
@machinelearning_ru