Sora: Инновационный фреймворк для генерации звука на основе текстовых описаний
Представляем Sora, новаторский фреймворк для генерации звуковых файлов на основе текстовых описаний. Sora использует передовые алгоритмы машинного обучения для преобразования текстовых запросов в реалистичные звуки и аудиофрагменты.
Основные особенности Sora:
Интерпретация текстовых описаний: Sora анализирует текстовые описания и преобразует их в звуковые файлы, что открывает новые возможности для создания аудиоконтента.
Высокое качество звука: Фреймворк обеспечивает высокое качество и реалистичность генерируемых звуков, что делает его идеальным для использования в различных приложениях, от игр до медиапроектов.
Гибкость и настройка: Sora позволяет настраивать параметры генерации звука для достижения нужного результата, предоставляя полный контроль над процессом.
Пример использования Sora:
from sora import SoundGenerator
# Создание экземпляра генератора звука
generator = SoundGenerator()
# Генерация звука на основе текстового описания
sound = generator.generate("шум дождя на фоне городских улиц")
# Сохранение сгенерированного звука
sound.save("rainy_city.mp3")
OpenAI’s New AI: Being Smart Is Overrated!
https://www.youtube.com/watch?v=qt-B2cg0pCM
@machinelearning_ru
Осталось меньше месяца до окончания приёма научных статей по искусственному интеллекту и машинному обучению для публикации в журнале конференции AI Journey. Приз за самую выдающуюся работу — 1 миллион рублей.
Лучшие статьи будут опубликованы в специальном выпуске журнала «Доклады Российской академии наук. Математика, информатика, процессы управления», а также в его англоязычной версии Doklady Mathematics. Научное издание является частью международной конференции AI Journey и доступно на мировых электронных библиотечных платформах.
Подавать заявки можно до 20 августа. Тексты должны быть оформлены в соответствии с Правилами отбора, написаны на русском или английском языках и содержать оригинальные, ранее не опубликованные данные. Выбирать победителя будет специальная экспертная комиссия.
Пользуйтесь последней возможностью: принимайте участие в конкурсе на лучшую статью. Ознакомьтесь с Правилами и отправьте свою работу по ссылке.
🔍 YandexART освоил реставрацию архивных видеоматериалов
Модель научили избегать генерацию несуществующих деталей и сохранять историческую достоверность. Это было достигнуто благодаря поэтапному обучению на материалах низкого качества.
Нейросеть способна добавлять фактуру и недостающие детали на размытые и нечеткие кадры, восстанавливая такие элементы, как кирпичная кладка на стенах, узоры на одежде и детали автомобилей. Кроме того, технология позволяет увеличивать разрешение и резкость изображения.
Технология может найти применение в работе с историческими видеоархивами, открывая новые возможности для исследователей, архивистов и специалистов по обработке видео.
@machinelearning_ru
Lite-Oute-1: семейство компактных base и instruct моделей
Oute AI представила в открытом доступе модели на 300М, 150M и 65М параметров в base и instruct вариантах и в GGUF-формате. Список релиза:
🟠Lite-Oute-1-300M Base
🟠Lite-Oute-1-300M-Instruct
🟠Lite-Oute-1-300M Base GGUF
🟠Lite-Oute-1-300M-Instruct GGUF
🟠Lite-Mistral-150M-v2-Instruct
🟠Lite-Mistral-150M-v2-Instruct GGUF
🟠Lite-Oute-1-65M Base
🟠Lite-Oute-1-65M-Instruct
🟠Lite-Oute-1-65M Base GGUF
🟠Lite-Oute-1-65M-Instruct GGUF
Lite-Oute-1-300M: "старшая" модель семейства на архитектуре Mistral с 300М параметров и контекстом в 4096 токенов. Эта модель специально разработана в качестве отправной точки для тонкой настройки при выполнении различных задач. Она обеспечивает баланс между компактными размерами и возможностями.
Некоторые оценки 0-shot: MMLU - 24.87, Winogrande- 53.35, OpenBookQA - 30.80
Lite-Oute-1-300M Base GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K (176 MB), всего 15 вариаций.
Lite-Oute-1-300M-Instruct: instruct-версия 300М Base с теми же параметрами. Модель использует шаблон ChatML.
Некоторые оценки 0-shot: MMLU - 24.00, Winogrande- 53.75, OpenBookQA - 32.20
Lite-Oute-1-300M-Instruct GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K(176 MB), всего 15 вариаций.
Модель использует шаблон ChatML
Lite-Mistral-150M-v2-Instruct: модель на основе архитектуры Mistral, включающая около 157М параметров. Основной целью создания этой модели была разработка компактной и эффективной модели, способной работать на широком спектре устройств, сохраняя при этом разумный уровень функциональности и согласованности для своего небольшого размера. Модель была обучена на ~ 8 миллиардах токенов.
Некоторые оценки 0-shot: MMLU - 25.28, Winogrande- 51.78, OpenBookQA - 28.40
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.
Lite-Mistral-150M-v2-Instruct GGUF: диапазон квантования от FP16 (314 МВ) до Q2_K (68.5 MB), всего 15 вариаций.
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.
Lite-Oute-1-65M Base: экспериментальная ультракомпактная базовая модель, построенная на архитектуре LLaMA и содержащая около 65М параметров.
Эта модель предназначена в качестве отправной точки для тонкой настройки под узкоспециальные задачи. Из-за своего чрезвычайно малого размера эта модель имеет базовые возможности генерации текста, но испытывает трудности с инструкциями или поддержанием связности тем.
Некоторые оценки 0-shot: MMLU - 23.05, Winogrande- 51.70, OpenBookQA - 27.60
Lite-Oute-1-65M Base GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K (31.5 MB), всего 15 вариаций.
Lite-Oute-1-65M-Instruct: instruct-версия 65М Base с теми же параметрами.
Некоторые оценки 0-shot: MMLU - 23.45, Winogrande- 50.04, OpenBookQA - 28.60.
Модель использует шаблон ChatML.
Lite-Oute-1-65M-Instruct GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K(31.5 MB), всего 15 вариаций.
Модель использует шаблон ChatML
🟡Страница проекта
🟡Все модели на HF
@ai_machinelearning_big_data
#AI #TinyLM #ML #OuteAI #GGUF
🌟 Shape of Motion: Построение динамических 3D-сцен по видео.
Shape of Motion представляет динамическую сцену как набор 3D-гауссианов, перемещающихся и вращающихся во времени.
Движение каждого элемента сцены параметризуется как линейная комбинация компактного набора базисных движений SE(3), что дает возможность разделить сцену на группы, движущиеся как жесткие тела.
Преодоление неоднозначности реконструкции достигается с помощью низкоразмерных структур 3D-движения через базисы SE(3) и комплексный набор априорных данных, на основе монокулярных карты глубины и долгосрочных 2D-треков.
Процесс финального построения 3D-сцены основан на комбинации статических и динамических гауссианов, с учетом прогноза реконструкции для цвета, глубины и масок и синтезированной согласованности этих соответствий во времени.
На тренировочном наборе данных (Iphone dataset, набор видео размером ~ 300GB) были построены более 40 тысяч динамических и более 100 тысяч статических гауссианов, 20 базисов SE(3).
Время обучения на 1хGPU A100 с использованием оптимизатора Adam разрешением 960x720 составило чуть более 2-х часов при скорости рендеринга 40 кадров в секунду.
По результатам тестов в процессе обучения, Shape of Motion показал хорошие результаты по качеству и консистентности построения сцен.
Однако, метод все еще требует оптимизации для каждой конкретной сцены и не может обрабатывать значительные изменения ракурса камеры. Также установлена критическая зависимость от точных параметров камеры и пользовательского ввода для создания маски движущихся объектов.
▶️Локальный запуск Shape of Motion:
# Install via conda
conda create -n som python=3.10
conda activate som
# pip install
pip install -r requirements.txt
pip install git+https://github.com/nerfstudio-project/gsplat.git
python run_training.py --work-dir <OUTPUT_DIR> --data:<DATA> --data.seq-name <DATASEQ_NAME>
☕️ Espresso на GitHub — это крутая штука для любителей работать со звуком! Это система распознавания речи, созданная на базе PyTorch и Fairseq.
Requirements перед установкой:
✔️PyTorch version >= 1.10.0
✔️Python version >= 3.8
✔️Для тренировки новых моделей нужна видеокарта NVIDIA GPU и NCCL
Эта система использует глубокое обучение, чтобы точно распознавать и преобразовывать речь в текст. Ты можешь использовать Espresso для разных аудиопроектов, например, для создания инструментов автоматической транскрипции. Интересно, как технологии могут облегчить жизнь, не правда ли?
📌GitHub
#ml #machinelearning #ai #robots
@machinelearning_ru
🖥 Deep Java Library — это высокоуровневая open-source библиотека Java для ML и Deep Learning
DJL — это удобная библиотека машинного обучения для языка Java, особенностью которой является зоопарк моделей (Model Zoo), позволяющий получить готовую модель по описываемым параметрам из списка доступных моделей. Также имеется возможность создать свою модель, сохранить на диск и загрузить для дальнейшего использования.
🖥 GitHub
🟡 Доки
🟡 Примеры использования
🟡 Обзор DJL
@machinelearning_ru
⚡️ Новая разработка Яндекса и IST Austria для качественного сжатия нейросетей
Команда Yandex Research разработала новые методы сжатия больших языковых моделей. С их помощью размер модели можно уменьшить до 8 раз, при этом сохранив качество ответов на 95%. Эти алгоритмы помогут стартапам по всему миру сократить ресурсы для работы больших языковых моделей и позволят запускать их на устройствах с небольшой вычислительной мощностью.
habr: https://habr.com/ru/companies/yandex/articles/830410/
@machinelearning_ru
🌟 ai-renamer
Это великолепно. Кто-то разработал интерфейс командной строки, который использует Lms (Ollama) для переименования ваших файлов по их содержимому.
🎓 Github
@machinelearning_ru
🌟 EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров.
EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.
Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.
Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.
🖥 Локальный запуск возможен в ComfyUI или отдельный UI-интерфейс.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).
⚠️ В процессе установки скачиваются дополнительные модели:
🟢sd-vae-ft-mse;
🟢sd-image-variations-diffusers;
🟢audio_processor(whisper).
⚖️ Лицензирование: Apache-2.0
🖥 GitHub [ Stars: 492 | Issues: 6 | Forks: 50 ]
🟡Страница проекта
🟡Модели на HF
🟡Arxiv
@ai_machinelearning_big_data
#Image2Animate #LipSync #ML #Diffusers #EchoMimic
🖥 Roadmap по pytorch от Meta на 2024:
https://dev-discuss.pytorch.org/t/meta-pytorch-team-2024-h2-roadmaps/2226
@machinelearning_ru
🖥 Code 2 Prompt
Мощный инструмент командной строки, который генерирует качественные промпты и предназначен для упрощения взаимодействия между разработчиками и LLM для генерации и анализа кода, документирования и выполнения задач по улучшению существующего кода.
Ключевые особенности:
- Поддержка нескольких языков программирования
- Интеграция с .gitignore
- Настраиваемое форматирование вывода с помощью шаблонов Jinja2
- Автоматический обход каталогов
Code2Prompt упрощает создание информативных комментариев по коду, что делает его ценным инструментом для разработчиков, желающих улучшить документацию и совместную работу по своим проектам.
▪ Github
@machinelearning_ru
Представляем новый бесплатный курс LLMs: теория и практика.
Перейти к курсу
@machinelearning_ru
[Трансформер] на пальцах (буквально) ✍️📺
5-минутный видеоурок
Короткое видео, чтобы объяснить устройство "Трансформеров".
За 5 минут демонстрируется основная математика Трансформеров, с помощью ручки и бумаги!
@machinelearning_ru
🚨Tora: Ориентированный на траекторию диффузионный преобразователь для генерации видео
В этой статье представлен Tora, первый ориентированный на траекторию DiT-фреймворк, который одновременно объединяет текстовые, визуальные и траекторийные условия для генерации видео
🌟𝐏𝐫𝐨𝐣: http://ali-videoai.github.io/tora_video/
🚀𝐀𝐛𝐬: http://arxiv.org/abs/2407.21705
@machinelearning_ru
🧠 Подробный гайд, о том, как использовать SAM 2 для сегментации видео
https://blog.roboflow.com/sam-2-video-segmentation/
@machinelearning_ru
Wow, World-Class AI For Free, For Everyone!
https://www.youtube.com/watch?v=gBXBRffpAew
@machinelearning_ru
⚡️ Zamba2-2.7B: небольшая гибридная языковая модель на Mamba.
Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.
Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.
⚠️ Внимание:
🟠модель не имеет встроенной модерации и не подвергалась дополнительному цензурированию;
🟠модель не была дообучена для выполнения инструкций или выполнений функций чата, поэтому не стоит ожидать хороших результатов от нее в этих задачах;
🟠не рекомендуется использовать модель без поддержки Mamba, поскольку это приведет к значительному увеличению задержки и использования памяти.
Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.
▶️Локальный запуск :
# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e
# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d
# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))
🔥 Проект "ML System Design: 450 Примеров для Изучения" представляет собой обширную базу, содержащую описания систем машинного обучения более чем от 100 компаний, включая таких гигантов, как Netflix и Slack.
ы можете исследовать базу данных, применяя фильтры по отраслям или направлениям машинного обучения, чтобы найти нужные примеры.
▪️Проверка качества сгенерированного ИИ материала;
▪️Netflix: классификация контента;
▪️Google: исправление грамматических ошибок
▪️ Полная база
@machinelearning_ru
💻Skytable — современная масштабируемая NoSQL БД с BlueQL, разработанная для обеспечения производительности, масштабируемости и гибкости
Skytable — это in-memory key-value БД, основанная на широких столбцах, с поддержкой дополнительных моделей данных, которая использует собственный механизм хранения (структурированные записи с оптимизированными транзакциями) и позволяет выполнять запросы с помощью собственного языка запросов BlueQL — надмножества SQL.
🖥 GitHub
🟡 Доки
@machinelearning_ru
🦎Armadillo - библиотека ML на С++
Armadillo — это библиотека линейной алгебры на C++, разработанная НИЦТА и независимыми участниками, применяемая для научных вычислений в машинном обучении и других областях, таких как биоинформатика и компьютерное зрение. Библиотека оптимизирует вычисления благодаря многопоточности OpenMP и предоставляет интерфейс, похожий на MATLAB. Подходит для быстрой реализации научных исследований в продуктивные среды.
#machinelearning #DataScience #python #AI #DeepLearning #cplusplus #mlalgorithms #DataVisualization #jobs
📎 Описание либы
@machinelearning_ru
📢✨ Новые модели LLaMA от Meta уже здесь! ✨📢
Ученые обучили большую модель с параметрами значительно превышающими 8/70B, а затем провели дистилляцию, создавая компактные и эффективные модели. Этот инновационный подход обещает опенсорс на уровне GPT-4!
📈 В сравнении версий 3.1 и 3.0, благодаря дистилляции 405B в меньшие модели, бенчмарки заметно улучшились.
🦙 Теперь понятно, почему OpenAI недавно представила GPT-4 Mini – конкуренция усиливается! Скоро у нас будут суперумные модели, которые быстро работают на любом железе.
Будущее ИИ становится еще ярче! 🚀
#ml #machinelearning #ai #robots
📌Релиз моделей
@machinelearning_ru
New AI: This Is A Gaming Revolution!
https://www.youtube.com/watch?v=2zGhxnoKBWc
@machinelearning_ru
🤗 Все что нужно знать о работе с Hugging Face за 10 минут!
В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!
https://www.youtube.com/watch?v=4B_foZbWh2c
@machinelearning_ru
Мы ищем талантливых наставников в образовательный центр «Алабуга Политех» для нового поколения IT-специалистов.
Что вы получите:
🔹Возможность оказаться среди лучших
🔹Шанс задать вектор развития новому IT-поколению
🔹Высокую заработную плату
🔹Карьеру в компании мирового уровня
🔹Реализацию амбиций в наставничестве
🔽Узнать подробности🔽
Программа «Я НАСТАВНИК» проходит с 25.07.24 по 28.07.24 в г. Елабуга
Подать заявку:
📞Телефон: +7 (950) 826-27-80
✈Telegram @AizilyaHR.
📍Питание и проживание в дни программы предоставляется.
Создавайте будущее уже сегодня!
🔥 Fine-tuning Llama-3 to get 90% of GPT-4’s performance at a fraction of the cost
Новая усовершенствованная модель small 8B, которая превзошла базовую модель почти на 20%, превзошла топовую модель OSS LLama-3-70B и достигла точности GPT-4o более чем на 90%.
▪Project
▪ Github
@machinelearning_ru
🌟 UltraPixel — новый подход для получения изображений сверхвысокого разрешения
Группа исследователей из Гонконгского университета науки и технологий (HKUST) совместно с Huawei Noah’s Ark Lab разработали принципиальной новую методику создание изображений в сверхвысоком разрешении (до 6000 px).
Новая архитектура основана на совокупности диффузионных патчей, принципов технологии ScaleCrafter для управления расширением сверточных блоков, ResAdapter для точной настройки базовой модели T2I и адаптация энтропии внимания на уровне внимания сети шумоподавления.
В качестве исходной генеративной модели используется StableCascade
На сегодняшний день, исследователи дорабатывают механизм сохранения детализации для достижения максимального фотореалистичного результата. В ближайшее время планируется публикация кода и необходимых сопутствующих моделей для инференса и самостоятельной тренировки.
О требуемых вычислительных ресурсах для запуска пайплайна не сообщается.
🟡 Страничка UltraPixel
🟡 Arxiv
@machinelearning_ru
#Text2Image #UltraHiRes #Diffusion #Ai
🔥 Nvidia только что опубликовала репозиторий с SotA энкодером для vision задач
https://github.com/NVlabs/MambaVision
@machinelearning_ru
⚡️ GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.
GraphRAG использует графы знаний для улучшения ответов на запросы. Во время запроса система обращается к графу знаний и использует резюме сообществ и связи между сущностями для формирования контекста, который помогает LLM дать более точный ответ, чем традиционные методы, основанные на поиске по векторным сходствам.
Архитектура GraphRAG состоит из ключевых компонентов:
Indexer : разделяет корпус данных на мелкие текстовые блоки (TextUnits), извлекает из них сущности, связи и ключевые утверждения.
Clustering : группирует данные в иерархическую структуру с использованием метода Лейдена, создавая граф знаний.
Community Summarization : генерирует обобщенные описания для каждой группы данных, что помогает в понимании контекста и смыслового связывания всей информации.
Knowledge Graph : структура, объединяющая сущности и их связи, созданная на основе данных.
GraphRAG значительно улучшает работу моделей языка с частными данными, позволяя им более точно и полно отвечать на сложные вопросы, требующие синтеза информации из разных источников.
⚠️ Рекомендации и предупреждения:
- Эффективность индексации зависит от правильной идентификации понятий
- Индексация может быть дорогостоящей, рекомендуется создание тестового набора данных
- Система предназначена для опытных пользователей в предметной области
- Необходим анализ ответов человеком для получения достоверной информации
- Методология наиболее эффективна на текстовых данных с общей темой и множеством сущностей
📄 Документация:
🟢локальный запуск
🟢конфигурирование
🟢эмулятор Azurite
🖥Github
🖥Github для запуска на API Azure
🟡Страница проекта
🟡Arxiv
@ai_machinelearning_big_data
#LLM #GraphRAG #ML #RAG #NLP #Deeplearning