Как сэкономить до 44% на профессиональных GPU? 💰
Профессиональные GPU стоят дорого и покупать их не всегда выгодно. Например, если вам нужно протестировать сервис или выполнить краткосрочную задачу.
Оптимальное решение — арендовать видеокарту в облаке. Тем более сейчас в Selectel вы можете сделать это с большой выгодой. Скидка на аренду GPU NVIDIA A100 (40 ГБ) — 29%, а на NVIDIA A30 (24 ГБ) доходит до 44%.
Кроме скидки, при аренде GPU в облаке Selectel вы получаете:
🔹Отсутствие переплат и тарификацию только за используемые ресурсы
🔹Экономию на инфраструктуре благодаря прерываемым облачным серверам и возможности заморозки ресурсов
🔹Широкий выбор готовых конфигураций серверов под любые задачи и возможность индивидуальной настройки
Арендуйте GPU со скидкой до 44% в облаке Selectel: https://slc.tl/k7249
Реклама, АО «Селектел», ИНН: 7810962785, ERID: 2VtzqwNnQBh
🔥 codecompanion.nvim — это плагин для Neovim, предназначенный для интеграции с LLM!
🌟 Он предоставляет возможности взаимодействия с LLM прямо из редактора, позволяя выполнять различные задачи, такие как автодополнение кода, рефакторинг, генерация документации и многое другое.
🔍 Ключевые возможности плагина:
🌟 Использование интерфейса чата для взаимодействия с языковой моделью.
🌟 Выполнение задач через специальные инструменты (Tools), которые могут работать либо как команды, исполняющиеся в фоновом режиме, либо как функции, запускаемые прямо в процессе Neovim.
🌟 Настраиваемые подсказки и сценарии, упрощающие разработку, тестирование и управление кодом.
🔐 Лицензия: MIT
🖥 Github
@machinelearning_ru
📝 PDF-Extract-Kit — библиотека для извлечения данных из PDF-файлов с поддержкой сложных документов с помощью моделей компьютерного зрения!
🔍 Основные особенности:
🌟 Точное извлечение текста и таблиц из структурированных и неструктурированных PDF, включая многостраничные таблицы и иерархические блоки!
🌟 OCR-интеграция, позволяющая обрабатывать PDF-документы с отсканированными изображениями!
🌟 Гибкий API на Python, что делает его удобным для анализа и интеграции в приложения!
🔐 Лицензия: AGPL-3.0
🖥 Github
@machinelearning_ru
👩💻 nilearn — это библиотека на Python, ориентированная на нейровизуализацию и анализ данных с использованием машинного обучения!
🌟 Nilearn предоставляет инструменты для работы с данными функциональной и структурной МРТ, а также упрощает загрузку, визуализацию и анализ нейровизуальных данных. Основные функции библиотеки включают предобработку данных, извлечение временных рядов и обучение моделям машинного обучения для нейронаучных исследований.
🖥 Github
@machinelearning_ru
🌟 RLtools: самая быстрая библиотека глубокого обучения с подкреплением для задач непрерывного управления.
RLtools - библиотека глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL) с высокой скоростью работы для разработки и исследования алгоритмов DL.
RLtools написана на C++ и позволяет проводить обучение и вывод моделей DRL на РС, мобильных устройствах и embedded-системах. В экспериментальном тестировании, библиотека обучила алгоритм RL непосредственно на микроконтроллере.
Библиотека поддерживает алгоритмы DRL: TD3, PPO, Multi-Agent PPO и SAC и предлагает набор примеров, демонстрирующих использование этих алгоритмов для решения задач управления на примерах управления маятником, гоночным автомобилем и роботом-муравьем MuJoCo.
Код реализации алгоритмов:
🟢TD3 - Pendulum, Racing Car, MuJoCo Ant-v4, Acrobot;
🟢PPO - Pendulum, Racing Car, MuJoCo Ant-v4 (CPU), MuJoCo Ant-v4 (CUDA);
🟢Multi-Agent PPO - Bottleneck;
🟢SAC - Pendulum (CPU), Pendulum (CUDA), Acrobot.
Благодаря оптимизации и использования аппаратного ускорения RLtools в 76 раз быстрее других библиотек. Например, на MacBook Pro с M1 RLtools может обучить модель SAC (управление маятником) за 4 секунды.
Библиотеку можно использовать на Linux, macOS, Windows, iOS, Teensy, Crazyflie, ESP32 и PX4.
RLtools предоставляет Python API, с которым можно использовать библиотеку из Python-кода. API RLtools совместим с библиотекой симуляции сред Gym.
Проекты, использующие RLtools:
🟠Научиться летать за секунды (Youtube, IEEE Spectrum);
🟠Идентификация системы на основе данных для квадрокоптеров с задержкой двигателя (Youtube, Project Page).
▶️Запуск на примере обучения политике с помощью PPO:
# Clone and checkout
git clone https://github.com/rl-tools/example
cd example
git submodule update --init external/rl_tools
# Build and run
mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
cmake --build .
./my_pendulum
Alibaba только что выпустила Marco-o1
Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.
Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.
MCTS позволяет исследовать множество путей рассуждения, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.
Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.
▪HF: https://huggingface.co/AIDC-AI/Marco-o1
▪Github: https://github.com/AIDC-AI/Marco-o1
▪Paper: https://arxiv.org/abs/2411.14405
▪Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data
@machinelearning_ru
Нашел для вас ламповый митап в двух частях от команды AI VK: пройдут 14 и 21 ноября. В эти дни будут обсуждаться свежие статьи с RecSys 2024, 18-й Международной конференции ACM Recommender Systems.
Много интересных докладов и спикеров, активное общение и отличная возможность для нетворкинга!
Темы митапа охватывают самые актуальные направления ML: от семантических эмбеддингов до больших рекомендательных нейронных сетей и классических моделей. Разбор статей проведут специалисты из VK и других ведущих компаний.
Кстати, свои работы также представят участники русскоязычного RecSys-сообщества, чьи статьи были отобраны для этой конференции.
Реальная рекомендация, чтобы расширить свой кругозор и завести новые полезные знакомства! Регистрация уже открыта — присоединяйтесь!
Ссылки для регистрации и программа: 14 ноября здесь и 21 ноября здесь.
@machinelearning_ru
🤖Вы слышали о ChatGPT, но не знаете, как он работает? А как языковые модели меняют мир, в котором мы живём?
Если вы хотите разобраться в этом и узнать, как применять эти технологии в своих проектах, не пропустите наш бесплатный открытый урок 20 ноября в 18:00 мск!
⚡️На вебинаре:
-погрузимся в историю развития языковых моделей от базовых концепций до современных LLM (Large Language Models), таких как ChatGPT.
-Вы узнаете, какие методы и технологии стоят за этими интеллектуальными системами и как их можно использовать для решения задач Natural Language Processing (NLP).
Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.
👉Регистрация: https://vk.cc/cE9yax?erid=LjN8KBN1p
Встречаемся в преддверии старта курса «Natural Language Processing (NLP)». Все участники вебинара получат специальную цену на обучение!
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
✉️ inbox-zero — приложение для управления электронной почтой, предназначенное для быстрого прочтения и фильтрации писем с помощью AI!
🌟 Функционал включает автоматическое удаление рассылок, блокировку холодных писем, отслеживание статистики активности, обнаружение новых спам-отправителей и крупных писем. Реализовано на базе Next.js, Tailwind CSS и Prisma, с поддержкой Google OAuth, AI от OpenAI и аналитики через Tinybird.
🔐 Лицензия: AGPL-3.0
🖥 Github
🔗 Демо-видео: *клик*
@machinelearning_ru
🔥 Экспресс курс NotebookLM!
💡 В сегодняшнюю стремительно развивающуюся цифровую эпоху способность быстро и эффективно получать доступ к информации и анализировать ее становится важнее, чем когда-либо. Появляется Notebook LM, мощный помощник по исследованиям на базе Gemini 1.5 Pro от Google. Если вы глубоко погружены в исследования ИИ или просто хотите оптимизировать свой рабочий процесс, Notebook LM является крайне полезным инструментом!
🕞 Продолжительность: 1:13:02
🔗 Ссылка: *клик*
@machinelearning_ru
🔥 MoGe от Microsoft — модель для точного восстановления 3D-геометрии из одиночных изображений!
💡 MoGe использует ViT-энкодер и сверточный декодер для получения геометрических карт, масок и карт глубины, которые подходят для изображений различных форматов. Инструмент полезен для 3D-визуализации и моделирования. Он поддерживает как локальное, так и веб-использование, предоставляя как предобученные модели, так и исходный код для дальнейших экспериментов и доработок.
🔐 Лицензия: MIT
🖥 Github
@machinelearning_ru
🌟 D-FINE: метод регрессии bounding box в детекторах объектов на основе DETR.
D-FINE - детектор объектов в режиме реального времени, который предлагает улучшение регрессии bounding box в моделях DETR . D-FINE обладает высокой точностью локализации, определяя регрессию рамок как процесс итеративного уточнения распределений вероятностей.
D-FINE состоит из двух компонентов:
🟠Мелкозернистое уточнение распределения (Fine-grained Distribution Refinement, FDR).
FDR преобразует процесс регрессии из предсказания фиксированных координат в итеративное уточнение распределений вероятностей. Эта техника дает более детальное промежуточное представление, что повышает точность локализации.
🟠Глобальная оптимальная локализованная самодистилляция (Global Optimal Localization Self-Distillation, GO-LSD).
GO-LSD - двунаправленная стратегия оптимизации, которая передает знания о локализации из уточненных распределений в более ранние слои модели через самодистилляцию.
Старшие версии D-FINE-L и D-FINE-X достигают 54,0% и 55,8% AP на наборе данных COCO соответственно, работая со скоростью 124 и 78 FPS на GPU NVIDIA T4.
При предварительном обучении на Objects365 D-FINE-L и D-FINE-X показывают 57,1% и 59,3% AP, что выше всех существующих детекторов реального времени.
Разработчики D-FINE предлагают несколько предобученных моделей на датасетах Objects365 и COCO под разные задачи и мощности. Все модели поддерживают инференс на изображениях и видео с использованием ONNX Runtime, TensorRT и PyTorch:
🟢D-FINE-S: Самая компактная и быстрая модель (3.49 мс на T4 GPU);
🟢D-FINE-M: Модель среднего размера, баланс между точностью и скоростью (5.62 мс на T4 GPU);
🟢D-FINE-L: Модель высокой точности (8.07 мс на T4 GPU);
🟢D-FINE-X: Самая крупная и точная модель (12.89 мс на T4 GPU).
D-FINE предоставляет инструменты для обучения, бенчмаркинга, визуализации с помощью FiftyOne и инструкции по организации наборов данных.
▶️Локальный инференс на примере ONNX:
# Create env via conda
conda create -n dfine python=3.11.9
conda activate dfine
# Install requirements for inference
pip install -r tools/inference/requirements.txt
# Install ONNX
pip install onnx onnxsim
# Choose a model
export model=l # s, m, x
# Inference
python tools/inference/onnx_inf.py --onnx model.onnx --input image.jpg # video.mp4
📖 Эта статья излагает методы улучшения Retrieval Augmented Generation (RAG) в промышленных приложениях с использованием мультимодальных данных
🌟 Исследования показывают, что добавление изображений вместе с текстом может улучшить точность RAG в специфичных для индустрии задачах. Статья также рассматривает два подхода обработки изображений и их интеграцию с крупными языковыми моделями, такими как GPT-4 Vision и LLaVA, выявляя сложности и преимущества мультимодального подхода в сравнении с текстовым
📖 Читать: *клик*
@machinelearning_ru
✔️ GitHub представил Spark: создание веб-приложений с помощью естественного языка.
Spark, продукт лаборатории GitHub Next, позволяет создавать прототипы приложений с помощью чат-подобного интерфейса. В основе Spark лежат репозиторий GitHub, GitHub Actions и база данных Microsoft Azure CosmosDB.
Spark может использовать любые веб-API, а пользователи могут выбирать между моделями Anthropic’s Claude Sonnet и OpenAI’s GPT. Также заявлена функция шэринга Spark-проектов с настраиваемыми правами доступа.
Открыта запись в waitlist. Подать заявку можно по ссылке.
githubnext.com
@machinelearning_ru
👩💻 DocETL — это инструмент на Python для создания и выполнения конвейеров обработки данных, особенно подходящий для сложных задач обработки документов. Он применяет подходы с минимальным кодом и YAML для упрощенного управления потоками данных, обеспечивая модульность и возможность повторных попыток обработки данных при сбоях
🔐 Лицензия: MIT
🖥 Github
@machinelearning_ru
⚡️ Эндрю Нг, основатель DeepLearningAI и Coursera только что выпустил новый пакет Python с открытым исходным кодом.
Быстрая смена моделей через простой строковый идентификатор. Гибкая и простая в использовании и библиотека.
Одна строка для переключения между любыми LLM:
OpenAI ➝ "openai:gpt-4o"
Claude ➝ "антропный:claude-3-5-sonnet"
Лама ➝ "оллама:ллама3"pip install aisuite
GitHub: https://github.com/andrewyng/aisuite
✅Material Anything✅
Новая модель диффузии , которая может генерировать фотореалистичные PBR-материалы для любых 3D-сеток (сгенерированный или реальных).
▪Проект: https://xhuangcv.github.io/MaterialAnything/
▪Обсуждение: https://huggingface.co/papers/2411.15138
@machinelearning_ru
Как запускать AI-проекты до 3 раз быстрее?
Используйте готовую inference-платформу от Selectel. Она превращает вашу обученную ML-модель в публичный сервис без разработки. Настройка платформы и инфраструктуры — полностью на стороне Selectel.
С inference-платформой вы сможете обновлять версию работающей модели, не прекращая при этом обработку пользовательских запросов. А ресурсы масштабируются автоматически при увеличении нагрузки, так что бесперебойная работа обеспечена даже при росте количества запросов к ML-модели.
Протестировать inference-платформу Selectel и оценить производительность можно бесплатно. Оставляйте заявку на двухнедельный тест: https://slc.tl/7n2wg
Реклама, АО «Селектел», ИНН: 7810962785, ERID: 2VtzquspxTh
⚡️ StableV2V - это новая опенсорс модель с открытым исходным кодом, которая может для редактирования генерации видео
Вы можете использовать текстовые проптмы или изображения для редактирования видеоклипов.
И да, код и модель уже доступны.
▪ Проект: https://alonzoleeeooo.github.io/StableV2V
▪Код: https://github.com/AlonzoLeeeooo/StableV2V
▪Модель: https://huggingface.co/AlonzoLeeeooo/StableV2V
❄️ Blender 4.3 Is Here - How Is All This Free?!
https://www.youtube.com/watch?v=SuaJxa3chE0
@machinelearning_ru
📝 Эта статья исследует использование "цепочек рассуждений" (Chain-of-Thought, CoT) для улучшения логических способностей языковых моделей. CoT помогает моделям разбивать сложные задачи на простые шаги, что позволяет лучше выявлять ошибки на каждом этапе рассуждения и корректировать их, вместо того чтобы переходить сразу к финальному ответу
🌟 Авторы предлагают обучать модели с демонстрацией как корректных, так и ошибочных решений, что способствует более глубокому пониманию логики рассуждений и улучшает устойчивость модели к ошибкам
📖 Читать: *клик*
@machinelearning_ru
📝 Эта статья представляет метод для различения типов "галлюцинаций" (неверных ответов) в больших языковых моделях (LLM): либо это незнание ответа, либо ошибка при наличии знания.
🌟 Авторы предлагают подход для выявления случаев, когда модель ошибается, несмотря на наличие информации, и вводят способ для создания специализированных наборов данных, что улучшает выявление галлюцинаций. Это помогает лучше понять и смягчить ошибки LLM, минимизируя риски ложных данных.
📖 Читать: *клик*
@machinelearning_ru
📝 Amphion — это фреймворк для многозадачного восприятия и генерации текстов на основе языка. Его основная цель — поддерживать как модульные задачи (например, классификация или генерация) для отдельных модальностей, так и мультизадачные сценарии
🌟 Фреймворк объединяет несколько библиотек OpenMMLab, таких как MMDetection и MMDetection3D, и оптимизирован для работы с мультизадачными моделями, такими как MMWizard
🔐 Лицензия: MIT
🖥 Github
@machinelearning_ru
🌟 Cosmos Tokenizer: эффективная токенизация изображений и видео от NVIDIA.
Cosmos Tokenizer - набор токенизаторов для изображений и видео с высокой степенью сжатия при сохранении качества реконструкции, представленный на конференции Conference for Robot Learning 2024, которая проходит до 9 ноября в Мюнхене.
Cosmos Tokenizer предлагает непрерывную (C) и дискретную (D) токенизацию для изображений (I) и видео (V), что формирует 4 типа токенизаторов: CI, DI, CV и DV.
Cosmos Tokenizer имеет внушительные показатели сжатия: 8x или 16x для пространственного сжатия изображений и 4x или 8x для временного сжатия видео, при этом работает до 12 раз быстрее, чем другие современные токенизаторы, сохраняя при этом высокое качество изображения.
Такая эффективность обусловлена легкой временно-причинной архитектурой, использующей причинную временную свертку и слои внимания. Этот дизайн архитектуры гарантирует, что обработка каждого кадра зависит только от текущих и прошлых кадров, сохраняя временную согласованность видео.
Для оценки Cosmos Tokenizer использовались стандартные наборы данных и новый набор данных TokenBench, созданный NVIDIA. Cosmos Tokenizer сравнивался с современными токенизаторами с использованием метрик PSNR, SSIM, rFID и rFVD.
Результаты тестирования показали превосходство Cosmos Tokenizer над существующими методами как по качеству реконструкции, так и по скорости работы.
▶️ В репозитории на Github опубликован код для установки, сборки docker Cosmos Tokenizer, примеры запуска для в непрерывном латенте, кодирования в дискретные токены, запуск токенизаторов на примерах изображений и видео из тестового набора и запуск с Pytorch.
📌Лицензирование: NVIDIA Open Model License
🟡Страница проекта
🟡Набор на HF
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #NVIDIA #Tokenizer #Cosmos
🔥 Docling — это инструмент для конвертации и анализа документов, разработанный для подготовки документов к использованию в генеративных ИИ-приложениях.
💡 Docling поддерживает различные форматы (PDF, DOCX, PPTX, HTML и другие), может извлекать метаданные, читать структуры страниц и таблиц, а также интегрироваться с LlamaIndex и LangChain. В репозитории также реализована поддержка OCR для обработки отсканированных документов, что делает его мощным инструментом для работы с документами в различных ИИ-сценариях.
🖥 Github
🔗 Сайт проекта
@vistehno
🖥 Whispo — это инструмент для диктовки с поддержкой ИИ, который преобразует речь в текст с помощью Whisper от OpenAI или Groq
🌟 Пользователь должен удерживать клавишу Ctrl для записи, а затем расшифровка автоматически вставляется в другое используемое им приложение, поддерживающее текстовый ввод. Проект использует фреймворки Electron и Vite для создания кроссплатформенного приложения, а также Tailwind CSS для оформления интерфейса
🔐 Лицензия: AGPL-3.0
🖥 Github
@machinelearning_ru
Медицина, промышленность, образование — это только некоторые из областей, где могут быть полезны исследования в области машинного обучения. Яндекс в шестой раз отметил авторов самых перспективных исследований премией Yandex ML Prize. Рассказываем о самых интересных открытиях.
Иван Бутаков (МФТИ, Сколтех) разработал новый метод, который позволил лучше понять процессы обучения нейросетей. Что это даёт? Теперь можно “регулировать” память искусственного интеллекта и настраивать его “запоминание” или “забывание” информации.
Артем Лыков (Сколтех) и его команда первые в мире представили универсальную когнитивную систему, адаптируемую для различных типов роботов. В числе его разработок — робособака, способная понимать голосовые команды, взаимодействовать с окружающими предметами и воспринимать визуальную информацию. Всё это может стать основной для создания «роя умных роботов».
Елена Тутубалина (КФУ, AIRI) ведет работы в области анализа естественного языка, биомедицинских и химических данных. Ее исследования могут ускорить создание лекарств — от идеи до клинических испытаний.
Помимо самой премии, лауреаты также получат доступ к Яндекс 360 и грант на на использование Yandex Cloud. Эти ресурсы помогут им проводить объёмные вычисления и анализировать данные.
@machinelearning_ru
🔥 agent.exe — бесплатное приложение с открытым исходным кодом для Mac/Windows/Linux, позволяющее использовать Claude 3.5 Sonnet для управления компьютером!
🔐 Лицензия: MIT
🖥 Github
@machinelearning_ru
Вышла новость про увеличение призового фонда чемпионата Yandex Cup с 12,5 до 16 млн рублей. Все 3,5 млн разделятся между финалистами в направлении машинного обучения — их число выросло с 6 до 22 человек. Такой апгрейд — это часть поддержки компании для развития технологий машинного обучения и предоставления новых возможностей для роста специалистов.
/channel/machinelearning_ru