ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

27345

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

https://github.com/THU-KEG/Agentic-Reward-ModelingAgentic Reward Modeling –свежий проект от THU-KEG, цель которого переосмыслить подход к обучению агентных систем.

Этот инструмент направлен на разработку методов вознаграждения, где агент не просто выполняет команды, а учится понимать свои действия в контексте более сложных задач и долгосрочных целей.

Основные особенности:

- Вместо стандартных методов RL, где вознаграждения зачастую зависят от заранее заданных критериев, здесь акцент сделан на выработку более сложных стратегий, адаптирующихся под изменяющуюся среду и цели.
- Инструмент помогает моделировать вознаграждения таким образом, чтобы агент мог самостоятельно корректировать свои действия, учиться на ошибках и, в итоге, демонстрировать более «человеческое» принятие решений.
- Разработчики могут использовать данный подход в многоагентных системах и комплексных задачах, где важна динамическая оценка эффективности действий.

Этот инструмент интересен не только своим теоретическим потенциалом, но и практическими применениями в области создания более автономных и интеллектуальных систем. Agentic Reward Modeling открывает новые возможности для исследования агентов, способных обучаться в реальном времени, что делает его перспективным для дальнейших исследований и интеграций в реальные приложения.

Paper: https://arxiv.org/abs/2502.19328
▪Code:
https://github.com/THU-KEG/Agentic-Reward-Modeling

@ai_machinelearning_big_data

#ai #ml #opnesource #agents #aiagents

Читать полностью…

Machinelearning

✔️ Deepseek DualPipe: алгоритм параллелизма для обучения LLM.

Deepseek в рамках марафона "5 дней opensource-проектов" опубликовал проект DualPipe. Это алгоритм двунаправленного конвейерного параллелизма для повышения эффективности обучения больших языковых моделей. DualPipe совмещает вычисления и передачу данных в процессе обучения за счет одновременного выполнения прямого и обратного проходов, тем самым нивелирует периоды простоя или неэффективного использования вычислительных ресурсов.

С помощью этого алгоритма обучались Deepseek V3 и R1 и теперь он в доступен под лицензией MIT. Подробности и примеры использования - в репозитории deepseek-ai/DualPipe на GitHub.
Deepseek в X (Twitter)

✔️ Ideogram 2a: релиз новой text-to-image модели.

Ideogram выпустила новую модель - Ideogram 2a, которая. по заверению создателей, обещает стать самой быстрой и экономичной разработкой компании, позволяя создавать высококачественную графику с текстом и фотореалистичные изображения всего за несколько секунд.

Стоимость Ideogram 2a на 50% ниже, чем у ее предшественника, Ideogram 2.0. Модель доступна как в веб-сервисе Ideogram, так и через API.
Ideogram в X (Twitter)

✔️ Claude получила интеграцию с Github и обновление tool use.

Алекс Альберт, руководитель отдела по связям с клиентами Antropic, в X сообщил, что интеграция GitHub с Claude теперь открыта для всех пользователей.

Помимо этого, новейшая модель 3.7 Sonnet сегодня получила более эффективную реализацию использования инструментов - теперь она использует в среднем на 14% меньше токенов и показывает заметное улучшение производительности. Обновление имеет заголовок token-efficient-tools-2025-02-19.
Alex Albert в X (Twitter)

✔️ Mercury Coder - первая коммерческая диффузионная LLM-модель.

Inception Labs представила Mercury Coder, diffusion large language models (dLLM), которая обещает перевернуть представление о скорости и эффективности. dLLM, по словам разработчиков, до 10 раз быстрее и дешевле существующих LLM.

Утверждается, что Mercury Coder способна обрабатывать более 1000 токенов в секунду на NVIDIA H100s. В отличие от традиционных LLM, dLLM не ограничены последовательным созданием текста, что позволяет им лучше рассуждать и структурировать ответы.

В бенчмарках на Copilot Arena Mercury Coder Mini занял 2 место, превзойдя GPT-4o Mini и Gemini-1.5-Flash. Inception Labs предлагает доступ к инференсу через API и on-premise развертывания, заявлена поддержка файнтюнинга. Попробовать можно бесплатно в плейграунде.
inceptionlabs.ai

✔️ Cloudflare на защите ИИ: релиз Guardrails в AI Gateway.

Cloudflare представила Guardrails в AI Gateway – решение, созданное, чтобы сделать использование ИИ более безопасным и предсказуемым. Инструмент выступает в роли "модератора", контролирующего взаимодействие пользователей с онлайн ИИ моделями OpenAI, Anthropic и DeepSeek.

Guardrails анализирует запросы пользователей и ответы моделей на предмет нежелательного контента, используя Llama Guard. Система может блокировать или помечать опасные запросы и ответы, обеспечивая соответствие нормативным требованиям и защиту от репутационных рисков.
blog.cloudflare.com

✔️ В плагине Material Theme для VS Code обнаружен вредоносный код.

Пользователи сообщества VS Code провели анализ и обнаружили, что Material Theme содержит вредоносный код, это подтвердили и эксперты по безопасности Microsoft, которые определили, что плагин содержит бэкдоры.

В настоящее время VS Code удалил плагин из маркета и попросил всех его пользователей немедленно деинсталлировать Material Theme из соображений безопасности. Разработчик плагина был заблокирован. Сообщений о возможном сборе данных и последствиях злонамеренного вторжения пока не поступало.
news.ycombinator.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

⚡️релиз GPT-4.5

Главное:
- Универсальная модель: подходит как для креативных, так и для повседневных задач.
- Нейронка может грубить: если попросить, chatgp сможет быть очень грубым ( привет Grok)
- Значительное улучшение в общении: Сэм Альтман отметил, что это первая модель, с которой он чувствует себя так, словно общается с очень внимательным человеком.
- Масштабный прогресс: в три раза точнее обрабатывает факты и почти в три раза реже допускает ошибки по сравнению с GPT-4.
- Чувствует контекст — лучше понимает тон, скрытые намёки и эмоции.

1млн
токенов обойдутся в … 150$.

Новинку уже потихонечку раскатывают на пользователей с PRO-подпиской. Тестим тут.

https://cdn.openai.com/gpt-4-5-system-card.pdf

Читать полностью…

Machinelearning

Yandex B2B Tech запустил SourceCraft - российский аналог GitLab для разработки программных продуктов

Платформа объединяет среду для совместной разработки, интеллектуальную навигацию по коду и встроенный AI-ассистент. Он помогает быстрее находить нужные фрагменты, исправлять ошибки и дополнять код, поддерживая более 30 языков программирования, включая Python, Java, C++ и Go.

Предусмотрена интеграция с облаком. Проект можно развернуть по нажатию кнопки, а в будущем появится возможность работать с on-premise версией, что особенно важно для компаний с высокими требованиями к безопасности. Вскоре в SourceCraft будут доступны инструменты защиты данных, сканирования секретов и поиска уязвимостей в цепочках поставок.

Система автоматизации CI/CD позволяет гибко настраивать процессы сборки и релизов. Это актуально для компаний, которые работают в условиях постоянного обновления продуктов.

Благодаря накопленному опыту Яндекса, платформа масштабируема и способна выдерживать очень большие репозитории.

🔗 Платформа SourceCraft уже тестируется и доступна по заявке.

Читать полностью…

Machinelearning

✔️ OpenAI открыла доступ к Advanced Voice для всех.

С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах.

Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита.
OpenAI в X

✔️ Microsoft Copilot voice и deepthink теперь бесплатны и не имеют ограничений.

Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце.
microsoft.com

✔️ Hume AI открыла доступ к Octave: ТTS-модель, которая умеет говорить с эмоциями.

Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.

Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.

В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai

✔️DeepSeek снижает цены на использование своих AI-моделей в непиковые часы.

DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно.
reuters.com

✔️ SSD Samsung Pro-серии Gen 5 PCIe поступят в продажу в марте.

Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США).

Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0.
news.samsung.com

✔️ Свежий релиз Microsoft Phi‑4 mini instruct — это компактная, оптимизированная модель на 3.8 млрд параметров, оптимизированная для вычислительно ограниченных сред
Hf

@ai_machinelearning_big_data

#news #ai #ml #microsoft #openai #DeepSeek

Читать полностью…

Machinelearning

🌟 olmOCR: инструмент для обработки PDF-документов.

olmOCR — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах.

olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач.

Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема.

Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы.

В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.

▶️Релиз olmOCR:

🟢Модель olmOCR-7B-0225-preview - дообученная Qwen2-VL-7B-Instruct на датасете olmOCR-mix-0225;

🟢Датасет olmOCR-mix-0225 - более 250 тыс. страниц цифровых книг и документов из публичного доступа, распознанные с помощью gpt-4o-2024-08-06 и специальной стратегия промптов, которая сохраняет все цифровое содержимое каждой страницы.

🟢Набор кода для инференса и обучения.


▶️Рекомендованная среда для инференса:

🟠NVIDIA GPU (RTX 4090 и выше)
🟠30 GB свободного пространства на SSD \ HDD
🟠установленный пакет poppler-utils
🟠sglang с flashinfer для GPU-инференса

▶️Локальная установка и запуск:

# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

# Set up a conda env
conda create -n olmocr python=3.11
conda activate olmocr

git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf

# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Demo
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #OCR #Olmocr

Читать полностью…

Machinelearning

⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном решении для ИИ-агентов.

Чем полезен инструмент:

- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.

Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).

Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.


Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.

Минусы:

- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.

Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.

В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.

pip install torchvision Pillow open_clip_torch

https://huggingface.co/microsoft/Magma-8B

#microsoft #magma #multimodal

Читать полностью…

Machinelearning

🔥🔥🔥 ML-инженер в 2025 году: навыки, тренды, спрос

26 февраля в 18:00 (мск) основатель karpov. courses Анатолий Карпов и сооснователь AI Talent Hub Дмитрий Ботов расскажут:

— как изменилась ML-индустрия за год и что будет в тренде в 2025-м;
— как ML трансформирует бизнес, в частности FinTech и ритейл;
— какие навыки нужны ML-инженерам для продвижения в карьере;
— чем примечательна программа от karpov. courses и ИТМО.

Регистрация по ссылке.

#ai #ml #machinelearning #news

Реклама. Университет ИТМО ИНН:7813045547 erid:2VtzqvPWg6a

Читать полностью…

Machinelearning

erid: 2W5zFJt6CkY

Практический вебинар для ML-специалистов по автоматической обработке текстов📝

Приходите на прямой эфир 27 февраля в 18:00, где:
— обсудим, что представляют из себя методы векторных представлений слов и как их применяют для решения задач NLP
— подробно изучим алгоритмы FastText & W2V
— на практике с минимальными ресурсами решим задачу классификации текстов

Урок приурочен к старту онлайн-курса «Machine Learning. Professional» в OTUS и будет полезен IT-специалистам, которые хотят освоить продвинутые методы ML.

➡️ Участвовать в вебинаре бесплатно: https://otus.pw/9CAV/

#реклама
О рекламодателе

Читать полностью…

Machinelearning

✔️ 3 день недели Опенсорса от DeepSeek

⭐️ DeepGEMM — это не просто очередная библиотека для матричных умножений, а настоящий «мастер-класс» по оптимизации FP8 GEMM для новейших GPU.

Проект написан на CUDA и рассчитан исключительно на использование тензорных ядер архитектуры NVIDIA Hopper, что уже само по себе делает его очень современным 🖥

В основе DeepGEMM лежит идея максимально эффективного выполнения операций умножения матриц с использованием 8-битной точности.

Для решения проблемы накопления в FP8 (которое может давать неточные результаты) разработчики внедрили двухуровневое накопление, которое использует возможности CUDA-ядра для повышения точности без потери производительности.

Что действительно радует – это минимализм кода.

✔ Ядро библиотеки представлено всего в одном ключевом модуле, состоящем примерно из 300 строк, что позволяет легко разобраться в его работе и даже внести собственные улучшения.

При этом все ядра компилируются «на лету» с помощью легковесного JIT-компилятора, так что нет долгого этапа сборки при установке.

DeepGEMM поддерживает разные режимы работы: обычные GEMM для плотных моделей, а также группированные операции для моделей типа Mix-of-Experts, где требуется обрабатывать данные в нескольких форматах – как в «континуальном», так и в «masked» виде. Это особенно актуально для современных решений в области глубокого обучения.

Оптимизации, заложенные в DeepGEMM, включают использование новых функций Hopper, таких как Tensor Memory Accelerator (TMA) для асинхронной передачи данных, а также тонкую настройку блоковых размеров и оптимизацию инструкций FFMA для лучшего перекрытия вычислений и загрузки данных. Результаты говорят сами за себя: производительность этой библиотеки на ряде тестовых примеров сравнима или даже превосходит решения, построенные на базе CUTLASS.

DeepGEMM – это лаконичный и эффективный инструмент, который может послужить отличной базой для исследований и практических разработок в области ускорения вычислений для глубокого обучения.

Github


#ai #deepseek #opensource #DeepEP #OpenSourceWeek:

Читать полностью…

Machinelearning

🔥Google сделали Gemini Code Assist бесплатным.

🌐 Поддержка всех языков программирования в открытом доступе
💡 Окно контекста 128K токенов

https://blog.google/technology/developers/gemini-code-assist-free/

https://codeassist.google/products/individual

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Кластеризация временных рядов: хаос или скрытые паттерны?

Финансовые данные, сенсоры, котировки акций — данные приходят потоком, но как выявить закономерности и сгруппировать их правильно? Стандартные методы не работают, а временные ряды ведут себя слишком нестабильно.

Разбираем на открытом вебинаре «Кластеризация временных рядов» 5 марта в 20:00 (мск):

- Изучим метрику DTW (Dynamic Time Warping)
- Разберём методы понижения размерности
- Найдём связи в котировках акций на реальных данных

Всем участникам — скидка на большое обучение «Machine Learning. Professional».

➡️ Регистрируйтесь, чтобы не пропустить: https://otus.pw/RsKX/?erid=2W5zFJSjgN4

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Machinelearning

✔️ Неделя Опенсорса от DeepSeek продолжается!

Только что китайцы представили DeepEP — это библиотека, разработанная для оптимизации работы моделей с архитектурой Mixture-of-Experts (MoE) и параллелизмом экспертов (EP).

Ее основная задача — обеспечить высокую пропускную способность и низкую задержку при обмене данными между GPU, что критически важно для эффективного обучения и инференса крупных моделей.

Что внутри
Высокая производительность:
- Библиотека предоставляет оптимизированные all-to-all GPU ядра для операций распределения (dispatch) и объединения (combine) данных, что улучшает скорость и эффективность коммуникации между экспертами в модели.

- DeepEP поддерживает операции с пониженной точностью, включая формат FP8, что способствует снижению требований к памяти и увеличению скорости вычислений без значительной потери точности.

- Оптимизация под различные домены: В соответствии с алгоритмом группового ограниченного гейтинга, предложенным в работе DeepSeek-V3, библиотека предлагает набор ядер, оптимизированных для асимметричной передачи данных между различными доменами, такими как NVLink и RDMA. Это обеспечивает высокую пропускную способность при обучении и инференсе.

- Низкая задержка для инференса: Для задач, чувствительных к задержкам, DeepEP включает набор ядер с чистой RDMA, минимизируя задержки и обеспечивая быструю обработку данных во время инференса.

- Работает как с NVLink, так и с RDMA, что позволяет организовать высокопроизводительную связь между GPU как в рамках одного сервера, так и между разными серверами.

Принцип работы:

DeepEP интегрируется в существующие рабочие процессы обучения и инференса моделей с архитектурой MoE, предоставляя эффективные механизмы для обмена данными между GPU. Используя оптимизированные коммуникационные ядра, библиотека обеспечивает быструю и надежную передачу данных, что особенно важно при работе с крупными моделями и распределенными системами. Поддержка операций с пониженной точностью и оптимизация под различные домены позволяют гибко настраивать систему под конкретные требования и аппаратные возможности.

Использование DeepEP способствует повышению эффективности и производительности моделей MoE, облегчая их масштабирование и ускоряя процессы обучения и инференса.

Github

@ai_machinelearning_big_data


#ai #deepseek #opensource #DeepEP

Читать полностью…

Machinelearning

⚡️ EasyR1 – эффективный и масштабируемый фреймворк для обучения с подкреплением (RL) с поддержкой мультимодальных данных.

Чем интересен EasyR1?
EasyR1 сочетает в себе алгоритм GRPO, продемонстрированный в DeepSeek R1, и расширение системы veRL для поддержки vision-language моделей, таких как Qwen2.5-VL.

Уже после 30 шагов обучения фреймворк показал прирост производительности на 5% в экспериментах на тестовом наборе Geometry3k.

Это делает его привлекательным инструментом для исследователей и разработчиков, работающих с задачами, где объединяются визуальные и текстовые данные.

Фреймворк спроектирован так, чтобы быть масштабируемым и легко интегрироваться с различными алгоритмами RL, что открывает широкие возможности для дальнейших исследований.

Ожидайте будущих обновлений – в них планируется интеграция дополнительных алгоритмов RL и новых архитектур VLM.

Github

@ai_machinelearning_big_data


#EasyR1 #opensource #GRPO #VLM

Читать полностью…

Machinelearning

✔️ Подтвержден выпуск Claude 3.7 Sonnet

AWS Badrock готовятся разместить новую версию Sonnet 3.7, которая, скорее всего, будет анонсирована сегодня во время мероприятия Amazon.

* Модель в настоящее время скрыта и не отображается в пользовательском интерфейсе

Инсайдеры раскопали, что модель достигает SOTA в кодинге, агентных способностях, сложном рассуждении и генерации контента.

Благодаря высокой производительности и контролю над скоростью работы, Claude 3.7 Sonnet заточена для реализации AI-агентов и комплексных AI-решений.

Источник: https://archive.is/BkvLb

@data_analysis_ml - подпистаться

Читать полностью…

Machinelearning

Можете представить, как запрограммировать робота так, чтобы он безопасно передвигался по огромному складу?

В складской логистике роботы работают бок о бок с людьми, поэтому их маршруты, правила передвижения и поведения должны быть продуманы до мелочей.

Роботы Яндекс Роботикс, например, ориентируются в пространстве с помощью двух систем. В одних складах помогают QR-коды на полу: проехал, считал и подкорректировал маршрут. В других — лидар. Он собирает и передает данные для построения топологии склада, чтобы роботы могли ориентироваться среди людей и техники.

Как это всё реализовано и какой путь прошла команда, чтобы наладить такую сложную систему? Какие ещё технологии лежат в её основе? Об этом (и многом другом) пишет Ваня Калинов — руководитель команды, создающей складских роботов.

Читать полностью…

Machinelearning

✔️ 5 день недели опенсорса: и новый релиз от DeepSeek

DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей.

▶️ Это решение показывает впечатляющие результаты:

• 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере
• 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере
• 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле

Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1).

Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей.

В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации.

3FS → github.com/deepseek-ai/3FS
Smallpond → github.com/deepseek-ai/smallpond

#OpenSourceWee #DeepSeek #Smallpond #3FS #opensource

Читать полностью…

Machinelearning

🌟 Llama3-SWE-RL: Методика обучения LLM для задач разработки ПО с использованием RL.

SWE-RL – техника обучения LLM для задач разработки программного обеспечения с применением обучения с подкреплением на данных открытых репозиториев Github.

Llama3-SWE-RL наделяет навыкам ризонинга, улучшая результаты на задачах вне общего домена кодинга: функциональное программирование, использование библиотек, планирование кода, математические операции и NLP. В отличие от SFT, SWE-RL позволяет модели улучшать свои общие способности рассуждения.

Пайплайн методики состоит из последовательности этапов:

🟢Первый этап - сбор, модерация и агрегирование pull requests из публичных репозиториев Github, разметка и преобразование этого массива в датасет (описание проблемы-контекст кода - "oracle patch")

Oracle patch - это эталонный вариант исправления кода, используемый для обучения и оценки языковых моделей в задачах, связанных с автоматическим решением проблем в программном обеспечении


🟢Второй этап: обучение LLM навыкам генерации кода на основе задачи и контекста, расчет поощрения для RL (тут используют similarity score между инференсом модели и "oracle patch" с использованием difflib.SequenceMatcher. Неверные ответы получают отрицательный reward)

🟢Третий этап: корректировка и оптимизация политики обучения с помощью GPRO.

Тестовая модель Llama3-SWE-RL-70B, обученная на основе Llama-3.3-70B-Instruct с использованием SWE-RL, показала 41.0% solve rate на SWE-bench Verified, это лучший показатель среди моделей среднего размера (<100B) и сопоставимо с результатом GPT-4o.

Прикладная реализация SWE-RL доступна в репозитории проекта, где разработчиками представлены шаблоны промптов и реализация функции вознаграждения на основе сходства последовательностей.

▶️ Локальная установка с примером использования в проекте:

# Install SWE-RL
git clone https://github.com/facebookresearch/swe-rl && cd swe-rl
pip install -e ".[dev]"
pytest

# example on how you can use the reward function in your own project:
import swerl

file = """
def sort_list(lst):
return sorted(lst)
""".strip()

oracle_file = """
def sort_list(lst: list[int]) -> list[int]:
return sorted(lst)
""".strip()

context = {"example.py": file}
oracle = {"example.py": oracle_file}

output = """
<think>
...thoughts by LLM
</think>
<solution>
```python
### example.py
<<<<<<< SEARCH
def sort_list(lst):
=======
def sort_list(lst: list[int]) -> list[int]:
>>>>>>> REPLACE
</solution>
""".strip()

reward, metadata = swerl.core.reward.calculate_search_replace_reward(context, oracle, output)
assert reward == 1.0
print(metadata)


📌Лицензирование: CC-NC-4.0 License.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #SWERL

Читать полностью…

Machinelearning

✔️ ElevenLabs представили новую функцию для преобразования аудио в текст, которая действительно впечатляет!

ElevenLabs представила Scribe — своё первое решение для преобразования речи в текст, которое уже завоевало звание лидера по точности в этой области. В независимых тестах Scribe достигла Word Error Rate всего 7.7%, что значительно лучше результатов Whisper v2 и v3 (~10%).

Scribe поддерживает 99 языков, включая русский.

Основные преимущества:
- Отличное различение голосов разных спикеров
- Возможность экспорта результатов в самые популярные форматы, включая SRT для субтитров на YouTube
- Бесплатное использование доступно до 9 апреля

💰 Ценообразование: Scribe относится к премиум-классу и стоит 6,67 долл. за 1 тыс. минут аудио, что значительно ниже, чем у Hyperscaler, но выше, чем у Whisper.

Бенчмарки: https://artificialanalysis.ai/speech-to-text
Потестить можно здесь: https://elevenlabs.io/speech-to-text

@ai_machinelearning_big_data


#ElevenLabs #tts

Читать полностью…

Machinelearning

Какие методы машинного обучения применяются для дизайна белков?

Расскажем на открытом уроке, посвященному курсу «Искусственный интеллект в медицине»

Узнаете, как современные алгоритмы помогают моделировать, предсказывать и оптимизировать структуру и функции белков.

Разберете основные подходы, включая языковые модели для белковых последовательностей и методы генеративного дизайна.

Практика: Знакомство с современными инструментами и библиотеками, используемыми в белковой инженерии

👉 Регистрация и подробности: 
https://otus.pw/aX6dI/?erid=2W5zFJSx7Fv

#реклама
О рекламодателе

Читать полностью…

Machinelearning

📌Открытый вебинар «MLFlow — полный контроль над ML-экспериментами»

📚Вы узнаете:
1️⃣  Что такое MLFlow и какие компоненты он содержит;
2️⃣  Как отслеживать и управлять экспериментами с помощью MLFlow;
3️⃣  Как интегрировать MLFlow в ваш ML-пайплайн и ускорить вывод моделей в продакшн;
4️⃣  Возможности MLFlow: трекинг экспериментов, управление моделями и воспроизводимость;
5️⃣  Как эффективно работать с артефактами и версиями моделей.

🎁  Проведем живую демонстрацию, где шаг за шагом внедрим MLFlow в ML-проект!

Спикер: Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд.

📅  Дата: 27 февраля в 20:00 (мск) 
🆓  Бесплатно. Вебинар в рамках курса «MLOps»

👉  Регистрация открыта: https://otus.pw/YwNm/?erid=2W5zFJ62YM6

#реклама
О рекламодателе

Читать полностью…

Machinelearning

📌 Llama3 from scratch: расширенная версия

Проект "Deepdive Llama3 from scratch" - расширенный форк гайд-репозитория по созданию LLama-3 c нуля шаг за шагом.

Исходный проект был переработан, проактуализирован, улучшен и оптимизирован для того, чтобы помочь всем желающим понять и освоить принцип реализации и детальный процесс ризонинга модели Llama3.

▶️Изменения и улучшения в этом форке:

🟢Последовательность изложения материала была изменена, скорректирована структура чтобы сделать процесс обучения более прозрачным, помогая понимать код шаг за шагом;

🟢Добавлено большое количество подробных аннотаций к коду;

🟢Изменения размеров матрицы на каждом этапе вычислений полностью аннотированы;

🟢Добавлены подробные пояснения к принципам, чтобы в полной мере можно было освоить концепцию дизайна модели.

🟢Добавлена дополнительная глава, посвященная KV-сache, в которой подробно описаны основные концепции, принципы работы и процесс применения механизма внимания.


📌Лицензирование: MIT License.


🔜 Репозиторий на Github


@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Github

Читать полностью…

Machinelearning

✔️ OpenAI запускает deep research.

OpenAI полностью откроет улучшенную и обновленную функцию deep research для пользователей ChatGPT Plus, Team, Edu и Enterprise. Вместе с анонсом опубликована карта deep research системы, в которой подробно рассказывается о том, как OpenAI проводили глубокие исследования, оценивали их возможности и риски, а также повышали уровень безопасности.

Новая версия поддерживает обработку изображений и улучшает возможности понимания и цитирования загруженных файлов. Пользователи Plus, Team, Enterprise и Edu могут использовать 10 deep research запросов в месяц, а на тарифе Pro месячная квота составит 120 запросов.
OpenAI в X

✔️ Nvidia подтверждает наличие производственных дефектов у RTX 5080.

Nvidia подтвердила, что RTX 5080 имеют недостаточное количество блоков рендеринга на некоторых чипах из-за производственных дефектов, что приводит к усредненному падению производительности примерно на 4%. Ранее компания только заявляла, что проблема наблюдается только с RTX 5090, 5090D и 5070 Ti.

Бен Беллиондо, директор по глобальным коммуникациям Nvidia GeForce, сообщил, что у ранних моделей RTX 5080 был «редкий» дефект (затронувший менее 0,5%), но на производительность с ИИ и вычисления он не повлиял. Он пояснил, что RTX 5070 не были затронуты, и признал, что компания не обнаружила дефект до выпуска, но производственная проблема была решена.
theverge.com

✔️ Apple планирует построить завод по производству серверов для ИИ.

Apple планирует построить завод по производству микросхем в Хьюстоне (Техас) для производства серверов с искусственным интеллектом, оснащенных высокопроизводительными чипами M5. Завод будет построен в сотрудничестве с Foxconn и, как ожидается, будет введен в эксплуатацию в 2026 году. Его площадь составит 23 тыс. кв.м.
macrumors.com

✔️ DeepSeek спешит выпустить новую модель R2.

DeepSeek ускорит выпуск своей новой модели R2, которая, как ожидается, превзойдет многих западных конкурентов. Этот шаг может усилить конкуренцию на мировом рынке ИИ и заставить американские компании пересмотреть свои стратегии.

DeepSeek планировала выпустить R2 в мае, но теперь стремится сделать это как можно скорее. Компания утверждает, что новая модель будет лучше в программировании и сможет рассуждать на разных языках, а не только на английском.
reuters.com

✔️ Cisco и NVIDIA объединяют усилия для ускорения внедрения ИИ в корпоративном секторе.

Cisco и NVIDIA объявили о расширении партнерства, направленного на упрощение создания сетей для ЦОДов, готовых к работе с ИИ. В рамках сотрудничества компании планируют разработать единую архитектуру, которая объединит технологии Cisco Silicon One и NVIDIA SuperNICs в платформе NVIDIA Spectrum-X. Это сделает Cisco единственным партнером, чьи решения будут интегрированы в Spectrum-X.

Новая инициатива позволит клиентам стандартизировать использование технологий Cisco и NVIDIA в своих центрах обработки данных тем самым упростит управление сетями как для предприятий, так и для облачных провайдеров.

Ожидается, что первые обновления, включающие совместимость с Spectrum-X, появятся в середине 2025 года. Это позволит клиентам воспользоваться преимуществами технологий адаптивной маршрутизация, телеметрии и низкой задержки пакетов в сетях.
newsroom.cisco.com

✔️Copilot теперь доступен бесплатно и без ограничений — Microsoft предоставила полный доступ к голосовым функциям Voice и режиму размышлений Think Deeper. В основе сервиса лежат модели o1 от OpenAI.

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🌟 Платформу для работы с открытым кодом GitVerse интегрировали в RuStore

Благодаря специальному расширению цикл разработки и доставка обновлений существенно ускоряются: теперь разработчики могут напрямую публиковать созданные на GitVerse мобильные приложения.

Теперь достаточно встроить автоматизированный этап в CI/CD-конвейер и отправить приложение на модерацию через консоль RuStore или API. Кроме того, для запуска сборки теперь нужен всего один клик. Новые функции не требуют локальных настроек и значительно уменьшают вероятность ошибок.

В GitVerse можно организовать разработку любых проектов: платформа позволяет писать и проверять код, автоматизировать CI/CD-процессы, управлять задачами и вести документацию. При этом с рутинными задачами по написанию и проверке кода может помочь ИИ-ассистент платформы GigaCode.

@ai_machinelearning_big_data

#RuStore #GitVerse

Читать полностью…

Machinelearning

🔥 Модель Wan2.1-T2V-14B от команды Wan-AI – новый топовый опенсорс инструмент генерации видео, который объединяет в себе несколько интересных особенностей.

⚡️ Мощная архитектура yf 14 млрд параметров

Модель способна детально прорабатывать сцены и динамику, генерируя высококачественные видео, где каждая деталь выглядит реалистично.

Модель поддерживает:

- Text-to-Video: генерация видео по текстовым запросам.
Image-to-Video: преобразование статических изображений в анимированные видеоролики.
- Видео-редактирование: внесение изменений в уже существующие видео.
- Text-to-Image: создание изображений на основе текста.
- Video-to-Audio: синтез аудио, соответствующих содержанию видео.
Такая универсальность делает модель полезной для широкого спектра приложений.

Использование видео VAE (вариационного автоэнкодера)
В основе модели лежит мощный видео VAE, который эффективно кодирует и декодирует видеоконтент. Это позволяет:

- Обрабатывать видео высокого разрешения (до 1080p).
- Сохранять временную динамику и последовательность кадров.
- Обеспечивать плавное и согласованное воспроизведение движения.
- Оптимизация для потребительских видеокарт

Несмотря на свои масштабы, модель оптимизирована для работы на современных GPU.

Например, версия T2V-1.3B требует всего 8,19 ГБпамяти и способна генерировать 5-секундное видео с разрешением 480p примерно за 4 минуты на RTX 4090 без применения дополнительных оптимизаций.

Как работает:

Ввод данных: Пользователь может задать текстовое описание, предоставить изображение или даже видео, в зависимости от задачи.
Кодирование: Виде VAE преобразует входные данные в компактное представление, сохраняя при этом критически важную информацию о сцене и динамике.
Генерация: На основе этого представления и с использованием огромного количества параметров модель генерирует новый видеоряд, который соответствует заданному описанию или образцу.
Декодирование: Затем VAE декодирует это представление обратно в полноценное видео, где соблюдаются все временные и визуальные детали.

Таким образом, Wan2.1-T2V-14B выделяется своей способностью не только создавать качественные видео по текстовому описанию, но и решать множество сопутствующих задач (от редактирования до генерации аудио), оставаясь при этом оптимизированной для работы на доступном оборудовании.

Это делает её одной из самых перспективных разработок в области генеративного видео на сегодняшний день.

🟡 Github: https://github.com/Wan-Video/Wan2.1/
🟡HF: https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
🟡Model Scope: https://modelscope.cn/organization/Wan-AI

@ai_machinelearning_big_data

#TexttoVideo #ai #ml #video #wanai

Читать полностью…

Machinelearning

⚡️ YandexGPT 5: модель нового поколения от Яндекса и возвращение компании к публикации LLM-моделей в опенсорс впервые с 2022 года.

Яндекс анонсировал новое поколение больших языковых моделей — YandexGPT 5, включающее Pro и Lite версии.

▶️ YandexGPT 5 Lite

YandexGPT 5 Lite 8B уже доступна на Hugging Face. Модель обучалась в два этапа: претрейн на массиве русско- и англоязычных текстов объёмом 15T токенов и этап Powerup на высококачественных данных объёмом 320B токенов. Она опубликована без финального этапа обучения, этических фильтров и алайнмента, что делает её удобной для исследований и дообучения под специфические задачи разработчиков.

Модель имеет контекстное окно 32k токенов, а в своей категории достигает паритета с мировыми SOTA по ключевым бенчмаркам для pretrain-моделей.

▶️ YandexGPT 5 Pro

В разработке Pro-версии применены значительные улучшения: переработанный датасет с более сложными и разнообразными примерами, усложнённые тренировочные задания, внедрение DPO и PPO с собственной модификацией LogDPO против «разучивания», оптимизация через YaFSDP (-25% вычислительных ресурсов), гибридное обучение с использованием базовых настроек Qwen.

По тестам YandexGPT 5 Pro:

🟢 Достигает уровня GPT-4o в международных тестах и их русскоязычных адаптациях

🟢 Превосходит Qwen-2.5-32b-Instruct в работе с фактами и форматированием, немного уступая в вычислениях

⚠️Pro-версия уже внедрена в чат с Алисой и доступна через API в Yandex Cloud, где может использоваться как в базовой версии, так и с подключением к Поиску.

🟡 Статья

@ai_machinelearning_big_data

#AI #ML

Читать полностью…

Machinelearning

✔️ Deepseek FlashMLA: ядро ​​декодирования MLA, оптимизированное для GPU Hopper.

В первый день анонсированного на прошлой неделе мероприятия "5 дней опенсорс-проектов" Deepseek опубликовала проект FlashMLA. Это ядро оптимизировано для последовательностей переменной длины, поддерживает BF16 и использует страничный KV (с размером блока 64). Вся эта совокупность позволяет значительно повышать эффективность вычислений.

На H800 FlashMLA показал пропускную способности памяти до 3000 ГБ/с и вычислительную производительность в 580 терафлопс. FlashMLA ускорит процесс рассуждений ИИ и обеспечит более эффективные решения в сфере обработки естественного языка.
Deepseek в X (Twitter)

✔️ Alibaba объявила об инвестициях в размере 53 млрд долларов в создание облачной и аппаратной инфраструктуры ИИ.

Alibaba Group планирует инвестировать более 380 миллиардов юаней (около 53 миллиардов долларов США) в развитие облачной инфраструктуры и технологий ИИ в течение следующих 3 лет. Объем этой инвестиция превышает все предыдущие вложения Alibaba в облачные технологии и ИИ за последнее десятилетие и является крупнейшей инвестицией частной китайской компании в эту сферу. Решение об инвестировании было принято на фоне бурного роста индустрии ИИ в Китае и после совещания с участием высших китайских руководителей, посвященного частным предприятиям.
english.news.cn

✔️ Google опубликовала тарифы на Veo 2: 50 центов за секунду.

Согласно информации на странице проекта, каждая секунда сгенерированного видео обойдётся пользователям в 50 центов. Это означает, что минута видео будет стоить $30, а час — $1800. Для сравнения, инженер Google DeepMind Джон Бэррон привёл пример с бюджетом фильма «Мстители: Финал», где стоимость одной секунды составила около $32 000.

Veo 2 пока не способен генерировать длинные видеоролики, модель ориентирована на продолжительность генерации до двух минут. Тем не менее, такие цены вызывают вопросы о доступности технологии для широкого круга пользователей.
techcrunch.com

✔️ MongoDB приобретает компанию Voyage AI для борьбы с галлюцинациями.

MongoDB приобрела компанию Voyage AI за 220 млн. долларов, чтобы помочь своим клиентам создавать более качественные приложения на основе ИИ. Сделка направлена на обеспечение высокоточной и релевантной выдачи информации, тесно интегрированной с операционными данными.

Технология Voyage AI позволяет извлекать смысл из специализированных текстов и неструктурированных данных: юридических и финансовых документов, изображений и корпоративных баз знаний. Объединение этих технологий с инфраструктурой MongoDB позволит создать максимально надежное решение для разработчиков ИИ.
bloomberg.com

✔️ Perplexity анонсировала собственный AI-браузер Comet.

Perplexity AI готовится к запуску собственного веб-браузера под названием Comet. Компания заявила, что Comet "переосмыслит" сам подход к веб-серфингу, подобно тому, как Perplexity изменила представление о поиске информации. Этот анонс может стать прямым вызовом Google, доминирующим в сфере браузеров. Дата релиза пока неизвестна, но доступна запись в лист ожидания по ссылке.
zdnet.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

А вот и релиз!

Antrhopic выпустили свою свою ризонинг можель — Claude 3.7 Sonnet. Она сама перепроверяет свои ответы для пользователя.

Новая версия превосходит 3.5 Sonnet и OpenAI o1 на SWE-bench.

Цена api осталось прежней.

Попробовать можно бесплатно тут.

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

📌Открытый вебинар: «Алгоритмы SARSA и Q-learning — база для изучения Reinforcement Learning»

📚Вы узнаете:
+ Как работают SARSA и Q-learning и чем они отличаются
+ Как применить SARSA и Q-learning на практике с Python и OpenAI Gym
+ Где используют RL: робототехника, финансы, игры

Спикер: Игорь Стурейко — кандидат физико-математических наук МГУ, опытный разработчик, руководитель и преподаватель. 

📅Дата: 26 февраля в 20:00 (мск)
🆓Бесплатно. В рамках курса «Reinforcement Learning»

👉Регистрация открыта: https://otus.pw/fcB0/?erid=2W5zFGRTvf2

#реклама
О рекламодателе

Читать полностью…

Machinelearning

🌟 scGPT-spatial: модель для анализа данных о пространственной организации клеток в тканях.

scGPT-spatial - расширенная версия модели scGPT в помощь ученым-биологам для анализа пространственной транскриптомики. Основная цель scGPT-spatial — интегрировать информацию о пространственной локализации клеток и их транскриптомных профилях с знаниями scGPT для расширения понимания организации тканей и взаимодействия клеток в микроокружении.

scGPT-spatial обучалась с с учётом пространственных координат на наборе данных SpatialHuman30M (30 миллионов клеток и спотов из 4 протоколов секвенирования: Visium, Visium HD, MERFISH и Xenium) и использует архитектуру MoE.

В тестах scGPT-spatial показала отличные результаты в задачах кластеризации клеточных типов, деконволюции спотов и импутации генной экспрессии. В экспериментах на интеграцию данных из нескольких слайдов и модальностей модель обошла методы PCA и Seurat v4, достигнув показателя AvgBIO 0.86.

В задаче деконволюции клеточных типов scGPT-spatial превзошла Tangram и Cell2location, со средним Macro F1 в 0.58, а медианный коэффициент корреляции Пирсона в импутации генной экспрессии составил значение 0.6.

Веса модели опубликованы в открытом доступе, а в репозитории проекта на Github - подробная инструкция по настройке окружения для scGPT и ipynb демо-ноутбук инференса.


📌Лицензирование

🟢Код : MIT License.
🟠Модель: CC-BY-4.0 License.


🟡Модель
🟡Техотчет
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #MedML #ScGPT

Читать полностью…
Subscribe to a channel