🌟 Open Interpreter — полное управление компьютером при помощи запросов на естественном языке
pip install open-interpreter
interpreter
🔥Хотите перейти в ML и построить успешную карьеру?
В OTUS стартует курс "Machine Learning. Professional", обучение на котором позволит последовательно освоить современные инструменты анализа данных и на профессиональном уровне создавать модели машинного обучения.
⚡25 июня в 20.00 мск приглашаем на открытое практическое занятие "Карьерные переходы в ML или старт в новой профессии", где мы разберем:
- стратегии перехода;
- правильное оформление резюме;
- прохождение интервью;
- реальные кейсы из опыта эксперта.
Условие участия - вступительное тестирование
👉Пройти тест и записаться на мероприятие https://otus.pw/Cnfe/?erid=LjN8K8nhJ
При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа.
🔥 Meta анонсировали четыре новые открытые модели искусственного интеллекта!
🦎 Meta Chameleon
Языковые модели 7B и 34B, поддерживающие смешанный ввод и вывод только текста.
https://arxiv.org/abs/2405.09818
🪙 Meta Multi-Token Prediction
Предварительно обученные языковые модели для написания кода.
🎼 Мета-JASCO
Модели преобразования текста в музыку, способные принимать различные входные данные.
https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/
🗣️ Meta AudioSeal
Модель добавления меток на аудио, которая, является первой моделью, разработанной специально для распознавания речи, генерируемой искусственным интеллектом, и доступной по коммерческой лицензии.
https://github.com/facebookresearch/audioseal
📝 Additional RAI artifacts
Исследования, данные и код для работы с географическими данными и данными культурных предпочтений в системах искусственного интеллекта.
https://github.com/facebookresearch/DIG-In
Подробности и доступ ко всему, что будет опубликовано на FAIR сегодня ➡️ https://ai.meta.com/blog/meta-fair-research-new-releases/
@ai_machinelearning_big_data
🎙️StreamSpeech: Мощная модель синхронного перевода речи.
StreamSpeech - это бесшовная модель “Все в одном” для автономного и синхронного распознавания речи, перевода речи и синтеза речи.
💡 StreamSpeech достигает производительности SOTA как при работе офлайн, так и при синхронном переводе речи в речь.
▪page: https://ictnlp.github.io/StreamSpeech-site/
▪paper: https://arxiv.org/abs/2406.03049
▪code: https://github.com/ictnlp/streamspeech
@ai_machinelearning_big_data
⚡️ Runway AI только что анонсировали Gen-3 Alpha, которая генерирует видео из текста и изображений и будет доступна в ближайшие дни.
Что нас ждет
— Супер высокая детализация;
— Плавные переходы по кадрам;
— Длительность роликов до 10 секунд;
— Продвинутые инструменты контроля над видео;
— Нейронная сеть будет преобразовывать текст в видео, изображение в видео и текст в изображение;
— Возможность обучения на собственных стилях
На видео сравнение недавно-3 Alpha не и открытой Luma. Разница видна невооруженным взгялдом
Для этих генераций были использованы одни и те же промпты.
@ai_machinelearning_big_data
🌟 Mamba — семейство SSM-моделей
Селективные модели пространства состояний (SSM), такие как Mamba, не имеют некоторых недостатков трансформеров, таких как квадратичная вычислительная сложность при увеличении длины последовательности и большие требования к памяти. Более того, недавние исследования показали, что SSM могут соответствовать или превосходить возможности трансформеров, что делает их интересной альтернативой.
Однако до сих пор проводились лишь небольшие эксперименты по сравнению SSM с трансформерами.
Это исследование призвано исправить ситуацию, здесь проводится прямое сравнение 8B моделей Mamba, Mamba-2 и трансформера, обученных на одних и тех же наборах данных объемом до 3.5Т лексем. Также эти модели сравниваются с гибридной моделью (Mamba-2-Hybrid), состоящей из 43% слоев Mamba-2, 7% слоев Attention и 50% слоев MLP.
🤗 Mamba-2 и другие модели на Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
⚡️ VideoLLaMA 2 — набор open-source Video-LLM, предназначенных для генерации видео
git clone https://github.com/DAMO-NLP-SG/VideoLLaMA2
cd VideoLLaMA2
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
⚡️ Nemotron 4 340B!
Nvidia только что выпустила LLM размером 340B , модель близкую к производительности OpenAI GPT-4 🤯 NVIDIA не претендует на право собственности на какие-либо сгенерированные выходные данные. 💚
🧮 340 миллиардов параметров в контекстном окне 4k
🔢 Обучена на 9 триллионах токенов
🌎 Поддерживает более чем 50 языков и более чем 40 языков программирования
🧠 Трубует 16x H100 в bf16 и ~8x H100 в int4
🤗 Модель доступна на huggingface
▪Модель: https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911
▪Технический отчет: https://research.nvidia.com/publication/2024-06_nemotron-4-340b
@ai_machinelearning_big_data
6–9 июля проводим Weekend Offer Analytics
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 2 лет на Python или C++, готовых работать в офисном или гибридном режиме на территории России или Республики Беларусь.
Подавайте заявку до 3 июля — и всего за 3 дня пройдите все технические собеседования. После сможете пообщаться с девятью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
Реклама. ООО "Яндекс". ИНН 7736207543
🌟 dstack — open-source cистема оркестрации контейнеров для запуска AI-систем в любом облаке или ЦОДе
— pip install "dstack[all]" -U
dstack поддерживает AWS, GCP, Azure, OCI, Lambda, TensorDock, Vast.ai, RunPod и CUDO.
Также можно без проблем использовать dstack для запуска AI-систем на локальных серверах.
🖥 GitHub
🟡 Доки
@ai_machinelearning_big_data
⭐️ Новый генератор видео Dream Machine от Luma AI.
В отличие от Sora или KLING, он доступен для тестов.
Попробовать можно здесь: https://lumalabs.ai/dream-machine
🔧 Проявите свои навыки ML-инженера на EKF AI Challenge. Решите задачу по автоматизации формирования коммерческого предложения и разделите призовой фонд в 500 000 рублей! Старт – 5 июля.
Приглашаем экспертов в области Data Science, ML-специалистов и разработчиков на онлайн-соревнование. EKF AI Challenge – первый инженерный хакатон на Codenrock, где мощь ИИ помогает в разработке решений для электротехнической отрасли.
Не упустите шанс проявить себя – регистрация открыта до 3 июля
Задача участников – разработать решение, которое сможет автоматически создавать коммерческое предложения на основе электрических схем. Сервис должен уметь распознавать на чертежах проводники, переключатели, защитные устройства, датчики и другие элементы из предоставленной номенклатурной базы и собирать их в смету проекта. Организаторы предоставляют размеченный датасет.
💼 Бренд EKF – это:
🔹 Ведущий производитель электрооборудования для ввода, распределения и учета электричества, автоматизации технологических процессов
🔹 Более 19 000 артикулов в номенклатуре
🔹 Собственные программы для интернета вещей – умный дом EKF Connect Home и IIoT EKF Connect Industry для промышленности
🔹 Международный бренд – продукция продается в 20 странах
Лучшие решения хакатона будут внедрены в реальный бизнес EKF. Система автоматического расчета сметы проекта поможет делать клиентам наиболее выгодное и оптимальное предложение.
🗓 Ключевые даты:
🔸 5 июля – открытие хакатона, старт работы над задачей
🔸 9-15 июля – серия чекпоинтов с экспертами
🔸 16 июля – окончание загрузки решений
🔸 18 июля – оглашение имен финалистов
🔸 19 июля – онлайн-питчинг проектов и определение победителей
➡️ Не пропустите уникальный хакатон на стыке инженерных технологий и машинного обучения EKF AI Challenge – регистрируйтесь сейчас
🌟 Follow-Your-Emoji — метод, позволяющий тонко контролировать движения головы и лица
Причём этот метод позволяет управлять движениями произвольных лиц, в том числе нарисованных в разных стилях, а также скульптур и т.д.
Даже движения морды животных можно так анимировать
Метод основан на недавнем исследовании Yue Ma, Hongyu Liu, Hongfa Wang и их команды из Гонконгского университета, код опубликуют в ближайшем будущем
🟡 Страничка Follow-Your-Emoji с примерами
🖥 GitHub (скоро тут будет код)
@ai_machinelearning_big_data
🔈 Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language
Исследователи Массачусетского технологического университета CSAIL и Google разработали алгоритм DenseAV, который предсказывает то, что он видит, исходя из того, что он слышит.
Он совершенно не контролируется и не использует текст во время обучения.
Алгоритм может соотносить объекты с видео со звуками, которые они издают.
Возможности DenseAV в области локализации основаны на новом методе dense contrastive loss, который наделяет его мощной способность запоминать и локализовывать слова и звуки по сравнению с широко распространенными методами.
DenseAV значительно превосходит известные методы семантической сегментации по речи и звуку.
▪Paper: https://arxiv.org/abs/2406.05629
▪Website: https://mhamilton.net/denseav
▪Code: https://github.com/mhamilton723/DenseAV
▪Video: https://youtu.be/wrsxsKG-4eE
@ai_machinelearning_big_data
🌟 DeepXDE — библиотека Python для ML и PINN
— pip install deepxde
В DeepXDE реализовано множество алгоритмов и поддерживается множество функций:
— DeepXDE позволяет писать код очень лаконично, практически как математическую формулировку
— очень простая работа с геометрическими объектами; примитивами являются — треугольник, прямоугольник, многоугольник, эллипс, звезда, куб, сфера, гиперкуб и гиперсфера; поддерживается работа с облаком точек
— можно учитывать 5 типов граничных условий: Дирихле, Неймана, Робина, периодические и общие, которые могут быть заданы на произвольной области или на множестве точек
В целом, отличная библиотека для PINN и подобных приложений
🖥 GitHub
🟡 Доки
@ai_machinelearning_big_data
⚡️ Florence-2 — open-source VLM от Microsoft
Microsoft выкатили Florence-2 — модель, принимающую изображения на вход, способную решать многие задачи CV (распознавание, сегментирование, OCR).
Есть 2 основные версии — base и large (200M и 800M параметров), при этом обе версии модели отлично себя показывают в сравнении с моделями, которые тяжелее в 100 раз.
🤗 Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
⚡️ MeshAnything: генерация качественной полигональной сетки с помощью авторегрессионных трансформеров
MeshAnything строит полигональную сетку так же, как это делал бы человек.
При этом MeshAnything генерирует полигональные сетки, обходясь минимумом необходимых граней, что значительно облегчает хранение, рендеринг и моделирование полученных 3D-объектов.
MeshAnything можно интегрировать в различные конвейеры создания 3D-объектов.
🖥 GitHub
🤗 Hugging Face
🟡 Страничка MeshAnything
@ai_machinelearning_big_data
🔥 Астрологи объявлили неделю моделей генерации видео!
После ажиотажа вокруг моделей Kling, Luma и Runway, вышла новая версия Open-Sora с открытым исходным кодом.
На huggingface опубликована Open-Sora 1.2 от компании Hpcoretech.
Основные моменты:
Новая модель 1.1B, обучена на 20M видео и генерирует видео продолжительностью до 14 секунд с разрешением 720p.
▪Diffusion Model: https://huggingface.co/hpcai-tech/OpenSora-STDiT-v3
▪VAE model: https://huggingface.co/hpcai-tech/OpenSora-VAE-v1.2
▪Technical report: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
▪Demo: https://huggingface.co/spaces/hpcai-tech/open-sora
@ai_machinelearning_big_data
⚡️ DeepSeek-Coder-V2: Первая модель с открытым исходным кодом, превосходящая GPT4-Turbo в кодинге и математике
> > Превосходит GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral в задачах написания кода и решении математических задач.
> Поддерживает 338 языков программирования, длина контекста 128 КБ.
> Полностью открытый исходный код двух размеров: 230B и 16 B
В таблице Arena-Hard-Auto DeepSeek-Coder-V2
превосходит Yi-large, Claude3-Opus, GL M4 и Qwen2-72B.
#DeepSeekCoder
▪HF: https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
▪Github: https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
▪Попробовать: https://chat.deepseek.com/sign_in?from=coder
@ai_machinelearning_big_data
🌟 OpenVLA 7B — OpenVLA — VLA-модель с 7B параметрами
OpenVLA 7B (vision-language-action) — это open-source модель, обученная на 970K эпизодах манипулирования роботами из набора данных Open X-Embodiment. Модель принимает на вход текстовый промпт и изображения с камеры и генерирует действия робота.
OpenVLA 7B из коробки поддерживает управление несколькими роботами и может быть быстро адаптирована к новым областям робототехники с помощью тонкой настройки.
🖥 GitHub
🟡 Модели на Hugging Face
🟡 Страничка OpenVLA
@ai_machinelearning_big_data
🌟 Hallo: новый подход в анимации портретных изображений на основе аудио
Hallo объединяет генеративные диффузионные модели, денойзер на основе UNet, методы временного согласования отдельных движений и опорную нейросеть, а также даёт возможность контролировать выражение и движения лица.
🖥 GitHub
🟡 Предобученные модели на Hugging Face
🟡 Arxiv
@ai_machinelearning_big_data
🌟 MusicGPT — приложение для локального запуска моделей, генерирующих музыку
— brew install gabotechs/taps/musicgpt
MusicGPT позволяет запускать новейшие модели для генерации музыки локально на любой платформе, без установки тяжелых зависимостей, таких как ML-фреймворки.
В данный момент MusicGPT поддерживает только MusicGen от Meta, но в планах — ещё больше различных моделей генерации музыки.
Быстрый старт с помощью Docker:docker run -it --gpus all -p 8642:8642 -v ~/.musicgpt:/root/.local/share/musicgpt gabotechs/musicgpt --gpu --ui-expose
или, используя cargo:cargo install musicgpt
🖥 GitHub
@ai_machinelearning_big_data
⚡️ Semantic Kernel — open-source SDK, который позволяет интегрировать LLM от OpenAI, с Hugging Face и другие, с обычными языками программирования типо C#, Python и Java
— pip install semantic-kernel
Таким образом при помощи Semantic Kernel можно создавать LLM-агентов, которые не просто отвечают на вопросы, а могут взаимодействовать с написанным кодом
🖥 GitHub
🟡 Доки
@ai_machinelearning_big_data
⚡️ WebLLM — высокопроизводительный браузерный движок для инференса LLM
— npm install @mlc-ai/web-llm
WebLLM позволяет осуществлять вывод LLM непосредственно в браузере с ускорением WebGPU.
WebLLM имеет полную совместимость с API OpenAI: поддерживаются потоковая передача, JSON-режим и многое другое.
Также WebLLM поддерживает целый ряд моделей, включая Llama 3, Phi 3, Gemma, Mistral, Qwen и многие другие
🖥 GitHub
🟡 Доки
🟡 Чат с WebLLM
@ai_machinelearning_big_data
🌟 PowerInfer-2 — быстрый вывод LLM на смартфоне
Встречайте PowerInfer-2 — высокооптимизированный фреймворк для вывода от LLM, разработанный специально для смартфонов. PowerInfer-2 поддерживает модели до 47B Mixtral MoE, достигая скорости 11,68 токенов в секунду, что в 22 раза быстрее, чем у других современных фреймворков.
При использовании 7B моделей PowerInfer-2 тоже сохраняет высокую скорость
🤗 Hugging Face
🖥 GitHub
@ai_machinelearning_big_data
🌟 Mozilla выпустила сервис для ИИ-генерации веб-сайтов Solo 1.0
11 июня 2024 года компания Mozilla представила первый мажорный выпуск бесплатного сервиса для ИИ-генерации веб-сайтов под названием Solo.
Платформа для создания сайтов Solo 1.0 использует механизмы машинного обучения для автоматической генерации типовых элементов интерфейса. Проект позиционируется как инструмент, позволяющий пользователю быстро создать стильный и современный персональный или корпоративный сайт, не имея навыков веб-разработки.
Процесс создания сайта на базе решения Solo сводится к определению его тематики, выбору стиля шрифтов и цветовой гаммы, указанию типовых секций, таких как сведения о компании, расписание, отзывы клиентов, примеры работ и контактная информация.
После определения пользователем пожеланий ИИ-система Solo генерирует вариант веб-сайта, а затем предлагает в визуальном режиме адаптировать компоновку на свой вкус и добавить содержимое в шаблоны секций.
Стиль и базовое заполнение генерируется при помощи AI, а подходящие выбранной тематике изображения автоматически подбираются в каталоге Unsplash. Поддерживаются такие дополнительные возможности как вывод баннера согласия с использованием Cookie и SEO-оптимизация.
Публикация созданных сайтов в рамках сервиса бесплатна, а монетизация обеспечивается за счёт платной привязки к собственному домену (никто не мешает пользователю вручную перенести созданный сайт на свой хостинг). В будущем Mozilla планирует расширить спектр доступных стилей и режимов редактирования, а также добавить поддержку генерации изображений Favicon.
🟡 Solo
@ai_machinelearning_big_data
⚡️ Встречайте Stable Diffusion 3!
Самая лучшая бесплатная модель text-to-image.
Модель с 2 миллиардами параметров работает даже на ноутбуках,
Качество генерации —высочайшее, понимание промтов - на высочайшем уровне, генерирует даже картинки с текстом и все без ошибок!
▪Анонс
▪Hugging Face.
▪ComfyUI
@ai_machinelearning_big_data
Сбер проведет открытую технологическую конференцию GigaConf 2024.
27 июня в «Дизайн заводе» соберутся ведущие инженеры и разработчики из Сбера, Билайна, Positive Technologies, Т-Банка, МТС и других компаний.
Вместе они погрузят вас в темы:
— машинное обучение и искусственный интеллект;
— инструменты разработчика;
— DevOps;
— инженерия данных;
— безопасность приложений;
— системный анализ
— инновации и стратегии.
Зарегистрироваться и узнать подробности можно на сайте конференции.
Участие бесплатное!
⚡️ Собственную разработку Яндекса YaFSDP выложили в опенсорс
С её помощью можно ускорить обучение больших языковых моделей с открытым исходным кодом до 25%, в зависимости от архитектуры и параметров нейросети.
YaFSDP лучше оптимизирует ресурсы графических процессоров на всех этапах обучения: pre-training (предварительное обучение), supervised fine-tuning (обучение с учителем), alignment (выравнивание модели). Благодаря этому библиотека стала использовать ровно столько памяти GPU, сколько нужно для обучения, а коммуникацию между графическими процессорами теперь ничто не замедляет.
▪️GitHub: https://github.com/yandex/YaFSDP
▪️Habr: https://habr.com/ru/companies/yandex/articles/817509/
@ai_machinelearning_big_data
📆 20 июня поговорим, как AI меняет мир бизнеса.
➡️ Регистрация ⬅️
🖥 Искусственный интеллект трансформирует бизнес-реальность прямо сейчас.
➡️Помогает компаниям принимать обоснованные стратегические решения
➡️Выводит процессы на новый уровень эффективности
На вебинаре представители DIRECTUM и MWS расскажут, как уже сегодня крупный и средний бизнес использует ИИ для снижения затрат, улучшения клиентского опыта и создания конкурентных преимуществ на рынке.
Обсудим:
🔴Экосистему решений Directum. Возможности Directum RX Intelligence для ускорения бизнес-процессов и исключения человеческих ошибок
🔴Кейсы применения Directum RX Intelligence
для делопроизводства, бухгалтерии, договорного отдела, проектных команд, юристов, менеджеров
🔴 Преимущества размещения Directum RX Intelligence в облаке MWS. Вы узнаете, как мы помогаем бизнесу стать эффективнее и обеспечиваем защиту данных.
Приходите! Ответим на ваши вопросы ✉️
Реклама. Информация о рекламодателе