ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

27345

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.

По качеству она конкурирует с flux/lumina.

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

Ввод на китайском, и на английском.

Лицензия
: Apache 2.0

Model: https://huggingface.co/THUDM/CogView4-6B
Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
Github: https://github.com/THUDM/CogView4
Paper: https://arxiv.org/abs/2403.05121

@ai_machinelearning_big_data


#AI #CogView4 #OpenSource #TextToImage

Читать полностью…

Machinelearning

🔥 Самые интересные ИИ Релизы из Китая за февраль 2025

MLLM:
Ovis2 - мультимодальная LLM, выпущенная командой Alibaba AIDC.

Аудио:
Step Audio TTS от StepFun ai качественная модель синтеза речи.
InspireMusic от Alibaba – модель для генерации музыки.
Baichuan Audio от BaichuanAI – Audio LLM

Видео:
Wan2.1 от Alibaba – мощный опенсорсный генератор видео,
URL:
Stepvideo-T2V модель Text-to-Video
SkyReels-V1 еще один Text-to-Video.
С фокусом на человека в кадре
LLaDA-8B – диффузионная 8B модель обученная полностью с нуля и конкурирующую с LLaMA3 8B по производительности.

MoE:
Moonlight-16B - мощная модель с архитектурой MoE для сложных задач.

Reasoning:
TinyR1-32B - перспективная модель рассуждений на 32B

• Целая неделя опенсорса от DeepSeek.

Датасет:
Chinese DeepSeek R1-Distill data -110k – масштабный датаяет обучения и на китайском.

•ByteScale представили новую стратегию параллелизма, и рассказ про эффективное масштабирование обучения LLM с длиной контекста 2048 КБ на более чем 12 000 графических процессоров

@ai_machinelearning_big_data


#ai #releases #opensource #digest

Читать полностью…

Machinelearning

🌟 MASt3R-SLAM: детализированный SLAM с априорными данными 3D-реконструкции в реальном времени.

MASi3R-SLAM - проект, который умеет строить детальные 3D-карты окружающей среды и отслеживать движение камеры в реальном времени без предварительной калибровки. Система работает даже с изменяющимися во аремени параметрами, например, при зумировании или оптических искажениях.

Основа MASi3R-SLAM - алгоритм, использующий модели DUSi3R и MASi3R для восстановления геометрии сцены по 2 изображениям. DUSi3R анализирует пары изображений, предсказывая детальные карты 3D-точек в общей системе координат, а MASi3R дополнительно генерирует дескрипторы для каждого пикселя, повышая точность сопоставления даже при большом смещении кадров.

Полученные данные от моделей обрабатывает уникальный алгоритм, который анализирует «карты точек», прогнозируемые нейросетью, и находит соответствия между кадрами за 2 миллисекунды, что в 40 раз быстрее аналогов.

В тестировании на наборах TUM RGB-D и EuRoC, показали: MASi3R-SLAM превосходит DROID-SLAM и другие системы по точности траектории (средняя ошибка — 3 см) и детальности 3D-моделей.

На сегодняшний день основное ограничение MASi3R-SLAM — скорость декодера из-за его вычислительной нагрузки: полный цикл обработки одного ключевого кадра занимает в среднем 26–27 миллисекунд, что примерно 64% общего времени работы паплайна.

Например, при разрешении 512 пикселей по длинной стороне декодер MASi3R тратит до 2 секунд на глобальный поиск соответствий, тогда как алгоритм сопоставления сокращает это время до 2 мс. На выходе создается «бутылочное горлышко», которое ограничивает частоту кадров до 15 FPS.

⚠️ Перед установкой необходимо загрузить модели и установить версию Pytorch, соответствующую установленной версии CUDA.


▶️Локальная установка и примеры запуска для live-режима и видео:

# Create Conda env 
conda create -n mast3r-slam python=3.11
conda activate mast3r-slam

# Clone Repo
git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive
cd MASt3R-SLAM/

# Install dependencies
pip install -e thirdparty/mast3r
pip install -e thirdparty/in3d
pip install --no-build-isolation -e .

# Launch Live demo with camera
python main.py --dataset realsense --config config/base.yaml

# Or running on a MP4 video
python main.py --dataset <path/to/video>.mp4 --config config/base.yaml
python main.py --dataset <path/to/folder> --config config/base.yaml


📌Лицензирование: CC-BY-NC-SA-4.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #CV #3D #SLAM #Robotics

Читать полностью…

Machinelearning

🌟 MatAnyone: модель для выделения по маске людей на видео.

MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.

MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.

При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.

Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.

В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:

🟠На VideoMatte и YouTubeMatte, MatAnyOne - лучшие результаты по MAD (средняя абсолютная разница) и dtSSD (расстояние преобразования формы);

🟢В бенчмарке с реальными видео MatAnyOne достиг MAD 0.18, MSE 0.11 и dtSSD 0.95, что значительно лучше, чем у RVM10 (MAD 1.21, MSE 0.77, dtSSD 1.43) и MaGGIe12 (MAD 1.94, MSE 1.53, dtSSD 1.63.


⚠️ Согласно обсуждению в issues репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.

▶️Локальная установка и запуск web-demo на Gradio:

# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone

# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone

pip install -e .

# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt

# Launch the demo
python app.py


📌Лицензирование: S-Lab License 1.0.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VideoMatte #MatAnyone

Читать полностью…

Machinelearning

https://github.com/THU-KEG/Agentic-Reward-ModelingAgentic Reward Modeling –свежий проект от THU-KEG, цель которого переосмыслить подход к обучению агентных систем.

Этот инструмент направлен на разработку методов вознаграждения, где агент не просто выполняет команды, а учится понимать свои действия в контексте более сложных задач и долгосрочных целей.

Основные особенности:

- Вместо стандартных методов RL, где вознаграждения зачастую зависят от заранее заданных критериев, здесь акцент сделан на выработку более сложных стратегий, адаптирующихся под изменяющуюся среду и цели.
- Инструмент помогает моделировать вознаграждения таким образом, чтобы агент мог самостоятельно корректировать свои действия, учиться на ошибках и, в итоге, демонстрировать более «человеческое» принятие решений.
- Разработчики могут использовать данный подход в многоагентных системах и комплексных задачах, где важна динамическая оценка эффективности действий.

Этот инструмент интересен не только своим теоретическим потенциалом, но и практическими применениями в области создания более автономных и интеллектуальных систем. Agentic Reward Modeling открывает новые возможности для исследования агентов, способных обучаться в реальном времени, что делает его перспективным для дальнейших исследований и интеграций в реальные приложения.

Paper: https://arxiv.org/abs/2502.19328
▪Code:
https://github.com/THU-KEG/Agentic-Reward-Modeling

@ai_machinelearning_big_data

#ai #ml #opnesource #agents #aiagents

Читать полностью…

Machinelearning

✔️ Deepseek DualPipe: алгоритм параллелизма для обучения LLM.

Deepseek в рамках марафона "5 дней opensource-проектов" опубликовал проект DualPipe. Это алгоритм двунаправленного конвейерного параллелизма для повышения эффективности обучения больших языковых моделей. DualPipe совмещает вычисления и передачу данных в процессе обучения за счет одновременного выполнения прямого и обратного проходов, тем самым нивелирует периоды простоя или неэффективного использования вычислительных ресурсов.

С помощью этого алгоритма обучались Deepseek V3 и R1 и теперь он в доступен под лицензией MIT. Подробности и примеры использования - в репозитории deepseek-ai/DualPipe на GitHub.
Deepseek в X (Twitter)

✔️ Ideogram 2a: релиз новой text-to-image модели.

Ideogram выпустила новую модель - Ideogram 2a, которая. по заверению создателей, обещает стать самой быстрой и экономичной разработкой компании, позволяя создавать высококачественную графику с текстом и фотореалистичные изображения всего за несколько секунд.

Стоимость Ideogram 2a на 50% ниже, чем у ее предшественника, Ideogram 2.0. Модель доступна как в веб-сервисе Ideogram, так и через API.
Ideogram в X (Twitter)

✔️ Claude получила интеграцию с Github и обновление tool use.

Алекс Альберт, руководитель отдела по связям с клиентами Antropic, в X сообщил, что интеграция GitHub с Claude теперь открыта для всех пользователей.

Помимо этого, новейшая модель 3.7 Sonnet сегодня получила более эффективную реализацию использования инструментов - теперь она использует в среднем на 14% меньше токенов и показывает заметное улучшение производительности. Обновление имеет заголовок token-efficient-tools-2025-02-19.
Alex Albert в X (Twitter)

✔️ Mercury Coder - первая коммерческая диффузионная LLM-модель.

Inception Labs представила Mercury Coder, diffusion large language models (dLLM), которая обещает перевернуть представление о скорости и эффективности. dLLM, по словам разработчиков, до 10 раз быстрее и дешевле существующих LLM.

Утверждается, что Mercury Coder способна обрабатывать более 1000 токенов в секунду на NVIDIA H100s. В отличие от традиционных LLM, dLLM не ограничены последовательным созданием текста, что позволяет им лучше рассуждать и структурировать ответы.

В бенчмарках на Copilot Arena Mercury Coder Mini занял 2 место, превзойдя GPT-4o Mini и Gemini-1.5-Flash. Inception Labs предлагает доступ к инференсу через API и on-premise развертывания, заявлена поддержка файнтюнинга. Попробовать можно бесплатно в плейграунде.
inceptionlabs.ai

✔️ Cloudflare на защите ИИ: релиз Guardrails в AI Gateway.

Cloudflare представила Guardrails в AI Gateway – решение, созданное, чтобы сделать использование ИИ более безопасным и предсказуемым. Инструмент выступает в роли "модератора", контролирующего взаимодействие пользователей с онлайн ИИ моделями OpenAI, Anthropic и DeepSeek.

Guardrails анализирует запросы пользователей и ответы моделей на предмет нежелательного контента, используя Llama Guard. Система может блокировать или помечать опасные запросы и ответы, обеспечивая соответствие нормативным требованиям и защиту от репутационных рисков.
blog.cloudflare.com

✔️ В плагине Material Theme для VS Code обнаружен вредоносный код.

Пользователи сообщества VS Code провели анализ и обнаружили, что Material Theme содержит вредоносный код, это подтвердили и эксперты по безопасности Microsoft, которые определили, что плагин содержит бэкдоры.

В настоящее время VS Code удалил плагин из маркета и попросил всех его пользователей немедленно деинсталлировать Material Theme из соображений безопасности. Разработчик плагина был заблокирован. Сообщений о возможном сборе данных и последствиях злонамеренного вторжения пока не поступало.
news.ycombinator.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

⚡️релиз GPT-4.5

Главное:
- Универсальная модель: подходит как для креативных, так и для повседневных задач.
- Нейронка может грубить: если попросить, chatgp сможет быть очень грубым ( привет Grok)
- Значительное улучшение в общении: Сэм Альтман отметил, что это первая модель, с которой он чувствует себя так, словно общается с очень внимательным человеком.
- Масштабный прогресс: в три раза точнее обрабатывает факты и почти в три раза реже допускает ошибки по сравнению с GPT-4.
- Чувствует контекст — лучше понимает тон, скрытые намёки и эмоции.

1млн
токенов обойдутся в … 150$.

Новинку уже потихонечку раскатывают на пользователей с PRO-подпиской. Тестим тут.

https://cdn.openai.com/gpt-4-5-system-card.pdf

Читать полностью…

Machinelearning

Yandex B2B Tech запустил SourceCraft - российский аналог GitLab для разработки программных продуктов

Платформа объединяет среду для совместной разработки, интеллектуальную навигацию по коду и встроенный AI-ассистент. Он помогает быстрее находить нужные фрагменты, исправлять ошибки и дополнять код, поддерживая более 30 языков программирования, включая Python, Java, C++ и Go.

Предусмотрена интеграция с облаком. Проект можно развернуть по нажатию кнопки, а в будущем появится возможность работать с on-premise версией, что особенно важно для компаний с высокими требованиями к безопасности. Вскоре в SourceCraft будут доступны инструменты защиты данных, сканирования секретов и поиска уязвимостей в цепочках поставок.

Система автоматизации CI/CD позволяет гибко настраивать процессы сборки и релизов. Это актуально для компаний, которые работают в условиях постоянного обновления продуктов.

Благодаря накопленному опыту Яндекса, платформа масштабируема и способна выдерживать очень большие репозитории.

🔗 Платформа SourceCraft уже тестируется и доступна по заявке.

Читать полностью…

Machinelearning

✔️ OpenAI открыла доступ к Advanced Voice для всех.

С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах.

Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита.
OpenAI в X

✔️ Microsoft Copilot voice и deepthink теперь бесплатны и не имеют ограничений.

Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце.
microsoft.com

✔️ Hume AI открыла доступ к Octave: ТTS-модель, которая умеет говорить с эмоциями.

Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.

Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.

В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai

✔️DeepSeek снижает цены на использование своих AI-моделей в непиковые часы.

DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно.
reuters.com

✔️ SSD Samsung Pro-серии Gen 5 PCIe поступят в продажу в марте.

Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США).

Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0.
news.samsung.com

✔️ Свежий релиз Microsoft Phi‑4 mini instruct — это компактная, оптимизированная модель на 3.8 млрд параметров, оптимизированная для вычислительно ограниченных сред
Hf

@ai_machinelearning_big_data

#news #ai #ml #microsoft #openai #DeepSeek

Читать полностью…

Machinelearning

🌟 olmOCR: инструмент для обработки PDF-документов.

olmOCR — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах.

olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач.

Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема.

Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы.

В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.

▶️Релиз olmOCR:

🟢Модель olmOCR-7B-0225-preview - дообученная Qwen2-VL-7B-Instruct на датасете olmOCR-mix-0225;

🟢Датасет olmOCR-mix-0225 - более 250 тыс. страниц цифровых книг и документов из публичного доступа, распознанные с помощью gpt-4o-2024-08-06 и специальной стратегия промптов, которая сохраняет все цифровое содержимое каждой страницы.

🟢Набор кода для инференса и обучения.


▶️Рекомендованная среда для инференса:

🟠NVIDIA GPU (RTX 4090 и выше)
🟠30 GB свободного пространства на SSD \ HDD
🟠установленный пакет poppler-utils
🟠sglang с flashinfer для GPU-инференса

▶️Локальная установка и запуск:

# Install dependencies
sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

# Set up a conda env
conda create -n olmocr python=3.11
conda activate olmocr

git clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

# Convert a Single PDF
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/test.pdf

# Convert Multiple PDFs
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Demo
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #OCR #Olmocr

Читать полностью…

Machinelearning

⚡️ Magma-8B – это экспериментальная модель от Microsoft, которая объединяет обработку текста и изображений в одном решении для ИИ-агентов.

Чем полезен инструмент:

- Мультимодальность: Возможность работать с изображениями, видео и текстом позволяет строить комплексные системы – от навигации по пользовательским интерфейсам до управления робототехникой.
Агентские возможности: Модель не просто описывает содержимое картинки, а умеет генерировать план действий, что особенно ценно для интерактивных приложений.
- ИспользованиеSet-of-Mark и Trace-of-Mark, помогает связать визуальные элементы с текстовыми командами, обеспечивая более точное понимание и планирование.

Magma-8B специально разработан для сценариев работы с агентами – акцент не только на генерации текста, но и на взаимодействии с реальными объектами (например, интерфейсами).

Модель обучалась на разнообразных источниках, включая неразмеченные видео, в результате этого удалось добиться понимания динамики и пространственных отношений в видео.


Современные технические решения и масштабируемость, что позволяет адаптировать модель под разные задачи.

Минусы:

- На данном этапе модель ориентирована на исследовательские проекты, поэтому может требовать доработки перед использованием в боевых условиях.
- Ограничения по языкам: основной фокус сделан на английском, что может усложнить работу с другими языками.

Возможны нестабильные результаты - в некоторых сценариях, особенно если задача выходит за рамки обучающих данных, что требует осторожности при внедрении в реальные приложения.

В целом, Magma-8B – это интересный экспериментальный инструмент, который может стать отправной точкой для создания новых, более «умных» агентных систем, объединяющих восприятие и действие в одном флаконе.

pip install torchvision Pillow open_clip_torch

https://huggingface.co/microsoft/Magma-8B

#microsoft #magma #multimodal

Читать полностью…

Machinelearning

🔥🔥🔥 ML-инженер в 2025 году: навыки, тренды, спрос

26 февраля в 18:00 (мск) основатель karpov. courses Анатолий Карпов и сооснователь AI Talent Hub Дмитрий Ботов расскажут:

— как изменилась ML-индустрия за год и что будет в тренде в 2025-м;
— как ML трансформирует бизнес, в частности FinTech и ритейл;
— какие навыки нужны ML-инженерам для продвижения в карьере;
— чем примечательна программа от karpov. courses и ИТМО.

Регистрация по ссылке.

#ai #ml #machinelearning #news

Реклама. Университет ИТМО ИНН:7813045547 erid:2VtzqvPWg6a

Читать полностью…

Machinelearning

erid: 2W5zFJt6CkY

Практический вебинар для ML-специалистов по автоматической обработке текстов📝

Приходите на прямой эфир 27 февраля в 18:00, где:
— обсудим, что представляют из себя методы векторных представлений слов и как их применяют для решения задач NLP
— подробно изучим алгоритмы FastText & W2V
— на практике с минимальными ресурсами решим задачу классификации текстов

Урок приурочен к старту онлайн-курса «Machine Learning. Professional» в OTUS и будет полезен IT-специалистам, которые хотят освоить продвинутые методы ML.

➡️ Участвовать в вебинаре бесплатно: https://otus.pw/9CAV/

#реклама
О рекламодателе

Читать полностью…

Machinelearning

✔️ 3 день недели Опенсорса от DeepSeek

⭐️ DeepGEMM — это не просто очередная библиотека для матричных умножений, а настоящий «мастер-класс» по оптимизации FP8 GEMM для новейших GPU.

Проект написан на CUDA и рассчитан исключительно на использование тензорных ядер архитектуры NVIDIA Hopper, что уже само по себе делает его очень современным 🖥

В основе DeepGEMM лежит идея максимально эффективного выполнения операций умножения матриц с использованием 8-битной точности.

Для решения проблемы накопления в FP8 (которое может давать неточные результаты) разработчики внедрили двухуровневое накопление, которое использует возможности CUDA-ядра для повышения точности без потери производительности.

Что действительно радует – это минимализм кода.

✔ Ядро библиотеки представлено всего в одном ключевом модуле, состоящем примерно из 300 строк, что позволяет легко разобраться в его работе и даже внести собственные улучшения.

При этом все ядра компилируются «на лету» с помощью легковесного JIT-компилятора, так что нет долгого этапа сборки при установке.

DeepGEMM поддерживает разные режимы работы: обычные GEMM для плотных моделей, а также группированные операции для моделей типа Mix-of-Experts, где требуется обрабатывать данные в нескольких форматах – как в «континуальном», так и в «masked» виде. Это особенно актуально для современных решений в области глубокого обучения.

Оптимизации, заложенные в DeepGEMM, включают использование новых функций Hopper, таких как Tensor Memory Accelerator (TMA) для асинхронной передачи данных, а также тонкую настройку блоковых размеров и оптимизацию инструкций FFMA для лучшего перекрытия вычислений и загрузки данных. Результаты говорят сами за себя: производительность этой библиотеки на ряде тестовых примеров сравнима или даже превосходит решения, построенные на базе CUTLASS.

DeepGEMM – это лаконичный и эффективный инструмент, который может послужить отличной базой для исследований и практических разработок в области ускорения вычислений для глубокого обучения.

Github


#ai #deepseek #opensource #DeepEP #OpenSourceWeek:

Читать полностью…

Machinelearning

🔥Google сделали Gemini Code Assist бесплатным.

🌐 Поддержка всех языков программирования в открытом доступе
💡 Окно контекста 128K токенов

https://blog.google/technology/developers/gemini-code-assist-free/

https://codeassist.google/products/individual

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

✔️ Создатель C++ бьет тревогу из-за "серьезных атак" на язык программирования.

Бьярне Страуструп, создатель C++, обратился к сообществу с призывом защитить язык, который в последние годы подвергается критике со стороны кибербезопасности и технических экспертов из-за проблем с ручным управлением памяти. C и C++ полагаются на него, что приводит к ошибкам выхода за пределы чтения и записи, которые, в свою очередь становятся источником для уязвимостей и составляют большинство проблем в крупных проектах.

Страуструп признает, что C++ нуждается в срочных мерах для улучшения безопасности, особенно в свете рекомендаций правительственных агентств, которые рекомендуют отказаться от использования "небезопасных" языков к 2026 году. Он предлагает использовать фреймворк "Profiles", который может помочь в решении этих проблем, но скептики считают, что это решение не будет готово вовремя.
theregister.com

✔️ ByteDance выпустила первую в Китае ИИ-IDE Trae

ByteDance официально выпустила «Trae», интегрированную среду разработки ИИ (AI IDE). Trae работает с моделью Doubao 1.5 Pro и может переключаться на полноценные версии DeepSeek R1 и V3.

Trae поддерживает автодополнение кода, понимание кода, исправление ошибок и генерацию кода на основе естественного языка. В ней есть новый режим Builder, который позволяет разработчикам быстро генерировать и оптимизировать код с текстовых помощью описаний.

Внутренняя версия Trae оптимизирована для сценариев разработки в Китае и предлагает версии для Mac и Windows, версия для Linux и возможность подключения в API провайдеров языковых моделей будут выпущены позже.
trae.com.cn

✔️ Microsoft представила Dragon Copilot: ИИ для врачей.

Dragon Copilot - инструмент с голосовыми возможностями на базе ИИ, его цель - облегчить бремя административных задач для медицинских работников. Он объединяет в себе возможности Dragon Medical One и DAX Copilot, позволяя врачам оперативно получать доступ к медицинской информации и автоматически формировать различные документы, выписки и направления.

По словам представителей Microsoft, Dragon Copilot должен вернуть врачам возможность сосредоточиться на пациентах, а не на рутинной бумажной работе, что, как ожидается, приведет к улучшению качества медицинской помощи. Доступ к Dragon Copilot будет осуществляться через мобильное приложение, браузер или десктопное приложение, с интеграцией в различные виды электронных медсистем.
news.microsoft.com

✔️ Google SpeciesNet : модель ИИ для идентификации видов животных.

Google опубликовала SpeciesNet, опенсорс-модель для идентификации биологических видов на основе анализа фотоснимков, полученных с автоматических камер слежения.
Исследователи в различных регионах мира используют подобные устройства для изучения популяций диких животных, но обработка получаемых данных представляет собой трудоемкий процесс из-за их объема. SpeciesNet, обученная на массиве из 65 млн. изображений, оптимизирует процедуру анализа.

Система способна классифицировать изображения по 2 тыс. категорий - как отдельные виды животных, так и более широкие таксономические группы.
techcrunch.com

✔️ Sinumerik Machine Tool Robot от Siemens: новая эра в промышленной робототехнике.

Siemens AG объявила о выпуске революционного продукта в области промышленной робототехники – Sinumerik Machine Tool Robot (MTR). Он обеспечивает увеличение точности траектории на 200–300 % по сравнению с традиционными промышленными роботами, а повышение производительности достигает 20–40 % благодаря инновационным концепциям управления.

В основе MTR лежит интеллектуальная система управления Sinumerik One - цифровая система ЧПУ нового поколения от Siemens. Она наделяет промышленных роботов характеристиками станков, делая их идеальными для высокоточных операций даже при обработке сверхтвердых материалов.

Технология будет представлена на выставках JEC, EMO (на стендах Danobat и Siemens) и Automatica (на стенде Siemens).
press.siemens.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🚀 6 День недели опенсорса: DeepSeek-V3/R1 Inference System!

DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность.

DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %.

При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн.

Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке.

Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с

Разительный контраст с американскими конкурентами, работающими в убыток.

Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры.

🌟 В DeepSeek-V3/R1 используется Cross-node Expert Parallelism (EP) — метод, при котором модель делится между GPU-узлами, а каждая видеокарта обрабатывает лишь небольшую часть модели. Эксперты распределяются между узлами кластера, что снижает нагрузку на память GPU, увеличивает размер батча и позволяет равномерно загружать видеокарты, избегая простоев. Это ускоряет вычисления и минимизирует задержки.

🌟 Для обработки данных DeepSeek-V3/R1 использует двухфазную стратегию инференса.

1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных.

2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа.

– ~73.7k токенов/с для prefilling
– ~14.8k токенов/с для декодинга на одном узле H800

Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с


🔗 Подробнее: *клик*

@ai_machinelearning_big_data


#AI #DeepLearning #DeepSeek #ml #opensource

Читать полностью…

Machinelearning

✔️ Microsoft выпустила приложение Copilot для Mac.

Microsoft представила нативное приложение Copilot для macOS, функционально схожее с версией для Windows. Приложение дает доступ к веб-интерфейсу Microsoft AI Assistant, позволяя загружать изображения и генерировать текст.

Copilot для macOS получил темную тему оформления и сочетание клавиш (Command + Space) для оперативной активации AI-ассистента, аналогично комбинации Alt + Space в Windows. На данный момент Copilot доступен для пользователей в США, Великобритании и Канаде. Обновление также затронет версию для iPad, в которой появилась функция разделения экрана.

Пользователи iPhone и iPad теперь могут входить в Copilot с Apple ID и загружать текст или PDF для получения ответов на вопросы по документу или суммаризации. Функция автоматического обобщения документов в скором времени станет доступна и в версии для macOS.
theverge.com

✔️ AMD представила видеокарты серии Radeon RX 9070.

AMD официально выпустила видеокарты Radeon RX 9070 и 9070 XT со стартовой ценой 549 долларов США. Они должны поступить в продажу 6 марта и будут напрямую конкурировать с серией RTX 50 от Nvidia.

RX 9070 использует архитектуру RDNA 4 и поддерживает технологию сверхвысокого разрешения FSR 4 нового поколения. Обе модели имеют 16 ГБ видеопамяти, интерфейс PCIe 5.0, обновленный медиа-движок и технологию генерации кадров AFMF 2.1, которая уменьшает артефакты изображения. На презентации также анонсировали RX 9060 начального уровня во втором квартале 2025 года.
amd.com

✔️ Apple разрабатывает технологию для определения возраста пользователей соцсетей.

Apple планирует внедрить новую технологию, которая позволит соцсетям определять, пытаются ли несовершеннолетние пользователи младше 16 лет получить доступ к их приложениям на устройствах iPhone и iPad.

Новая функция для определения возрастного диапазона будет доступна разработчикам приложений. С согласия родителей она сможет знать, относится ли пользователь к категории младше 18, 16 или 13 лет. На основе этой информации приложения смогут ограничивать доступ к определенному контенту или полностью блокировать использование приложений.
theguardian.com

✔️ OpenAI открыла доступ к Sora в Европе и Великобритании.

С 28 февраля пользователи в Великобритании и Европе могут воспользоваться Sora, системой генерации видео от OpenAI, которая ранее была доступна только в США и других странах. Sora включена без дополнительной платы для подписчиков ChatGPT Pro и Plus, но с некоторыми ограничениями на использование.

Для пользователей ChatGPT Plus доступно до 50 видео в месяц с разрешением 720p и длиной до 5 секунд. Подписчики Pro получают неограниченную медленную генерацию, 500 быстрых генераций и возможность создавать видео 1080p длиной до 20 секунд.

В рамках запуска Sora для ЕС OpenAI планирует запустить каналы Sora в Discord для обсуждений и проводить еженедельные "Sora Office Hours".
OpenAI в X (Twitter)

✔️ Google выпустила сверхсложный бенчмарк BIG-Bench Extra Hard.

BIG-Bench Extra Hard (BBEH), продукт Google DeepMind, предназначенный для оценки высокоуровневых способностей LLM к рассуждениям. BBEH значительно повышает сложность за счет замены задач в BIG-Bench Hard.

Результаты тестов на этом бенчмарке показывают, что производительность топовых моделей далека от идеала: средняя точность общих моделей составляет всего 9,8 %, и даже специализированная ризонинг- модель o3-mini (high) достигает только 44,8 %. Исследования показали, что модели рассуждений приносят значительную пользу при решении формальных задач, но имеют ограниченные преимущества при работе со сложными сценариями реального мира, включающими здравый смысл, юмор и т. д.
arxiv.org

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🔥 Как я ускорил обработку данных с помощью ИИ!

💡 Недавно потребовалось быстро обработать большой массив текстовых данных — тысячи клиентских отзывов, из которых требовалось извлекать ключевые темы и анализировать настроение. Обычные методы занимали слишком много времени, а готовые решения не подходили под специфику данных. Без нейросети не обойтись, хотелось найти способ запустить её без долгой настройки и сложного погружения в инфраструктуру.

Попробовал сделать это в Foundation Models в Yandex Cloud. Новая фича в сервисе позволяет запускать готовые модели, включая LLaMa, Qwen, DeepSeek и другие, без необходимости настраивать серверы. Я выбрал одну из нейросетей, загрузил данные — и уже через пару минут получил первые результаты. Для финальной доработки там же использовал метод LoRA, чтобы адаптировать нейросеть под мою задачу.

В результате модель начала не просто сортировать отзывы по тональности, но и выделять нужные детали в строгом формате, такие как упоминания конкретных товаров и частых проблем. Дообучение заняло не больше 10 минут.

Сам факт, что теперь можно запустить нейросеть и быстро адаптировать её под нужды бизнеса, серьёзно меняет подход к обработке данных.

🔗 Попробовать Foundation Models можно тут, а дообучение с LoRA здесь

Читать полностью…

Machinelearning

Можете представить, как запрограммировать робота так, чтобы он безопасно передвигался по огромному складу?

В складской логистике роботы работают бок о бок с людьми, поэтому их маршруты, правила передвижения и поведения должны быть продуманы до мелочей.

Роботы Яндекс Роботикс, например, ориентируются в пространстве с помощью двух систем. В одних складах помогают QR-коды на полу: проехал, считал и подкорректировал маршрут. В других — лидар. Он собирает и передает данные для построения топологии склада, чтобы роботы могли ориентироваться среди людей и техники.

Как это всё реализовано и какой путь прошла команда, чтобы наладить такую сложную систему? Какие ещё технологии лежат в её основе? Об этом (и многом другом) пишет Ваня Калинов — руководитель команды, создающей складских роботов.

Читать полностью…

Machinelearning

✔️ 5 день недели опенсорса: и новый релиз от DeepSeek

DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей.

▶️ Это решение показывает впечатляющие результаты:

• 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере
• 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере
• 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле

Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1).

Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей.

В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации.

3FS → github.com/deepseek-ai/3FS
Smallpond → github.com/deepseek-ai/smallpond

#OpenSourceWee #DeepSeek #Smallpond #3FS #opensource

Читать полностью…

Machinelearning

🌟 Llama3-SWE-RL: Методика обучения LLM для задач разработки ПО с использованием RL.

SWE-RL – техника обучения LLM для задач разработки программного обеспечения с применением обучения с подкреплением на данных открытых репозиториев Github.

Llama3-SWE-RL наделяет навыкам ризонинга, улучшая результаты на задачах вне общего домена кодинга: функциональное программирование, использование библиотек, планирование кода, математические операции и NLP. В отличие от SFT, SWE-RL позволяет модели улучшать свои общие способности рассуждения.

Пайплайн методики состоит из последовательности этапов:

🟢Первый этап - сбор, модерация и агрегирование pull requests из публичных репозиториев Github, разметка и преобразование этого массива в датасет (описание проблемы-контекст кода - "oracle patch")

Oracle patch - это эталонный вариант исправления кода, используемый для обучения и оценки языковых моделей в задачах, связанных с автоматическим решением проблем в программном обеспечении


🟢Второй этап: обучение LLM навыкам генерации кода на основе задачи и контекста, расчет поощрения для RL (тут используют similarity score между инференсом модели и "oracle patch" с использованием difflib.SequenceMatcher. Неверные ответы получают отрицательный reward)

🟢Третий этап: корректировка и оптимизация политики обучения с помощью GPRO.

Тестовая модель Llama3-SWE-RL-70B, обученная на основе Llama-3.3-70B-Instruct с использованием SWE-RL, показала 41.0% solve rate на SWE-bench Verified, это лучший показатель среди моделей среднего размера (<100B) и сопоставимо с результатом GPT-4o.

Прикладная реализация SWE-RL доступна в репозитории проекта, где разработчиками представлены шаблоны промптов и реализация функции вознаграждения на основе сходства последовательностей.

▶️ Локальная установка с примером использования в проекте:

# Install SWE-RL
git clone https://github.com/facebookresearch/swe-rl && cd swe-rl
pip install -e ".[dev]"
pytest

# example on how you can use the reward function in your own project:
import swerl

file = """
def sort_list(lst):
return sorted(lst)
""".strip()

oracle_file = """
def sort_list(lst: list[int]) -> list[int]:
return sorted(lst)
""".strip()

context = {"example.py": file}
oracle = {"example.py": oracle_file}

output = """
<think>
...thoughts by LLM
</think>
<solution>
```python
### example.py
<<<<<<< SEARCH
def sort_list(lst):
=======
def sort_list(lst: list[int]) -> list[int]:
>>>>>>> REPLACE
</solution>
""".strip()

reward, metadata = swerl.core.reward.calculate_search_replace_reward(context, oracle, output)
assert reward == 1.0
print(metadata)


📌Лицензирование: CC-NC-4.0 License.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #RL #SWERL

Читать полностью…

Machinelearning

✔️ ElevenLabs представили новую функцию для преобразования аудио в текст, которая действительно впечатляет!

ElevenLabs представила Scribe — своё первое решение для преобразования речи в текст, которое уже завоевало звание лидера по точности в этой области. В независимых тестах Scribe достигла Word Error Rate всего 7.7%, что значительно лучше результатов Whisper v2 и v3 (~10%).

Scribe поддерживает 99 языков, включая русский.

Основные преимущества:
- Отличное различение голосов разных спикеров
- Возможность экспорта результатов в самые популярные форматы, включая SRT для субтитров на YouTube
- Бесплатное использование доступно до 9 апреля

💰 Ценообразование: Scribe относится к премиум-классу и стоит 6,67 долл. за 1 тыс. минут аудио, что значительно ниже, чем у Hyperscaler, но выше, чем у Whisper.

Бенчмарки: https://artificialanalysis.ai/speech-to-text
Потестить можно здесь: https://elevenlabs.io/speech-to-text

@ai_machinelearning_big_data


#ElevenLabs #tts

Читать полностью…

Machinelearning

Какие методы машинного обучения применяются для дизайна белков?

Расскажем на открытом уроке, посвященному курсу «Искусственный интеллект в медицине»

Узнаете, как современные алгоритмы помогают моделировать, предсказывать и оптимизировать структуру и функции белков.

Разберете основные подходы, включая языковые модели для белковых последовательностей и методы генеративного дизайна.

Практика: Знакомство с современными инструментами и библиотеками, используемыми в белковой инженерии

👉 Регистрация и подробности: 
https://otus.pw/aX6dI/?erid=2W5zFJSx7Fv

#реклама
О рекламодателе

Читать полностью…

Machinelearning

📌Открытый вебинар «MLFlow — полный контроль над ML-экспериментами»

📚Вы узнаете:
1️⃣  Что такое MLFlow и какие компоненты он содержит;
2️⃣  Как отслеживать и управлять экспериментами с помощью MLFlow;
3️⃣  Как интегрировать MLFlow в ваш ML-пайплайн и ускорить вывод моделей в продакшн;
4️⃣  Возможности MLFlow: трекинг экспериментов, управление моделями и воспроизводимость;
5️⃣  Как эффективно работать с артефактами и версиями моделей.

🎁  Проведем живую демонстрацию, где шаг за шагом внедрим MLFlow в ML-проект!

Спикер: Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд.

📅  Дата: 27 февраля в 20:00 (мск) 
🆓  Бесплатно. Вебинар в рамках курса «MLOps»

👉  Регистрация открыта: https://otus.pw/YwNm/?erid=2W5zFJ62YM6

#реклама
О рекламодателе

Читать полностью…

Machinelearning

📌 Llama3 from scratch: расширенная версия

Проект "Deepdive Llama3 from scratch" - расширенный форк гайд-репозитория по созданию LLama-3 c нуля шаг за шагом.

Исходный проект был переработан, проактуализирован, улучшен и оптимизирован для того, чтобы помочь всем желающим понять и освоить принцип реализации и детальный процесс ризонинга модели Llama3.

▶️Изменения и улучшения в этом форке:

🟢Последовательность изложения материала была изменена, скорректирована структура чтобы сделать процесс обучения более прозрачным, помогая понимать код шаг за шагом;

🟢Добавлено большое количество подробных аннотаций к коду;

🟢Изменения размеров матрицы на каждом этапе вычислений полностью аннотированы;

🟢Добавлены подробные пояснения к принципам, чтобы в полной мере можно было освоить концепцию дизайна модели.

🟢Добавлена дополнительная глава, посвященная KV-сache, в которой подробно описаны основные концепции, принципы работы и процесс применения механизма внимания.


📌Лицензирование: MIT License.


🔜 Репозиторий на Github


@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Github

Читать полностью…

Machinelearning

✔️ OpenAI запускает deep research.

OpenAI полностью откроет улучшенную и обновленную функцию deep research для пользователей ChatGPT Plus, Team, Edu и Enterprise. Вместе с анонсом опубликована карта deep research системы, в которой подробно рассказывается о том, как OpenAI проводили глубокие исследования, оценивали их возможности и риски, а также повышали уровень безопасности.

Новая версия поддерживает обработку изображений и улучшает возможности понимания и цитирования загруженных файлов. Пользователи Plus, Team, Enterprise и Edu могут использовать 10 deep research запросов в месяц, а на тарифе Pro месячная квота составит 120 запросов.
OpenAI в X

✔️ Nvidia подтверждает наличие производственных дефектов у RTX 5080.

Nvidia подтвердила, что RTX 5080 имеют недостаточное количество блоков рендеринга на некоторых чипах из-за производственных дефектов, что приводит к усредненному падению производительности примерно на 4%. Ранее компания только заявляла, что проблема наблюдается только с RTX 5090, 5090D и 5070 Ti.

Бен Беллиондо, директор по глобальным коммуникациям Nvidia GeForce, сообщил, что у ранних моделей RTX 5080 был «редкий» дефект (затронувший менее 0,5%), но на производительность с ИИ и вычисления он не повлиял. Он пояснил, что RTX 5070 не были затронуты, и признал, что компания не обнаружила дефект до выпуска, но производственная проблема была решена.
theverge.com

✔️ Apple планирует построить завод по производству серверов для ИИ.

Apple планирует построить завод по производству микросхем в Хьюстоне (Техас) для производства серверов с искусственным интеллектом, оснащенных высокопроизводительными чипами M5. Завод будет построен в сотрудничестве с Foxconn и, как ожидается, будет введен в эксплуатацию в 2026 году. Его площадь составит 23 тыс. кв.м.
macrumors.com

✔️ DeepSeek спешит выпустить новую модель R2.

DeepSeek ускорит выпуск своей новой модели R2, которая, как ожидается, превзойдет многих западных конкурентов. Этот шаг может усилить конкуренцию на мировом рынке ИИ и заставить американские компании пересмотреть свои стратегии.

DeepSeek планировала выпустить R2 в мае, но теперь стремится сделать это как можно скорее. Компания утверждает, что новая модель будет лучше в программировании и сможет рассуждать на разных языках, а не только на английском.
reuters.com

✔️ Cisco и NVIDIA объединяют усилия для ускорения внедрения ИИ в корпоративном секторе.

Cisco и NVIDIA объявили о расширении партнерства, направленного на упрощение создания сетей для ЦОДов, готовых к работе с ИИ. В рамках сотрудничества компании планируют разработать единую архитектуру, которая объединит технологии Cisco Silicon One и NVIDIA SuperNICs в платформе NVIDIA Spectrum-X. Это сделает Cisco единственным партнером, чьи решения будут интегрированы в Spectrum-X.

Новая инициатива позволит клиентам стандартизировать использование технологий Cisco и NVIDIA в своих центрах обработки данных тем самым упростит управление сетями как для предприятий, так и для облачных провайдеров.

Ожидается, что первые обновления, включающие совместимость с Spectrum-X, появятся в середине 2025 года. Это позволит клиентам воспользоваться преимуществами технологий адаптивной маршрутизация, телеметрии и низкой задержки пакетов в сетях.
newsroom.cisco.com

✔️Copilot теперь доступен бесплатно и без ограничений — Microsoft предоставила полный доступ к голосовым функциям Voice и режиму размышлений Think Deeper. В основе сервиса лежат модели o1 от OpenAI.

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Machinelearning

🌟 Платформу для работы с открытым кодом GitVerse интегрировали в RuStore

Благодаря специальному расширению цикл разработки и доставка обновлений существенно ускоряются: теперь разработчики могут напрямую публиковать созданные на GitVerse мобильные приложения.

Теперь достаточно встроить автоматизированный этап в CI/CD-конвейер и отправить приложение на модерацию через консоль RuStore или API. Кроме того, для запуска сборки теперь нужен всего один клик. Новые функции не требуют локальных настроек и значительно уменьшают вероятность ошибок.

В GitVerse можно организовать разработку любых проектов: платформа позволяет писать и проверять код, автоматизировать CI/CD-процессы, управлять задачами и вести документацию. При этом с рутинными задачами по написанию и проверке кода может помочь ИИ-ассистент платформы GigaCode.

@ai_machinelearning_big_data

#RuStore #GitVerse

Читать полностью…

Machinelearning

🔥 Модель Wan2.1-T2V-14B от команды Wan-AI – новый топовый опенсорс инструмент генерации видео, который объединяет в себе несколько интересных особенностей.

⚡️ Мощная архитектура yf 14 млрд параметров

Модель способна детально прорабатывать сцены и динамику, генерируя высококачественные видео, где каждая деталь выглядит реалистично.

Модель поддерживает:

- Text-to-Video: генерация видео по текстовым запросам.
Image-to-Video: преобразование статических изображений в анимированные видеоролики.
- Видео-редактирование: внесение изменений в уже существующие видео.
- Text-to-Image: создание изображений на основе текста.
- Video-to-Audio: синтез аудио, соответствующих содержанию видео.
Такая универсальность делает модель полезной для широкого спектра приложений.

Использование видео VAE (вариационного автоэнкодера)
В основе модели лежит мощный видео VAE, который эффективно кодирует и декодирует видеоконтент. Это позволяет:

- Обрабатывать видео высокого разрешения (до 1080p).
- Сохранять временную динамику и последовательность кадров.
- Обеспечивать плавное и согласованное воспроизведение движения.
- Оптимизация для потребительских видеокарт

Несмотря на свои масштабы, модель оптимизирована для работы на современных GPU.

Например, версия T2V-1.3B требует всего 8,19 ГБпамяти и способна генерировать 5-секундное видео с разрешением 480p примерно за 4 минуты на RTX 4090 без применения дополнительных оптимизаций.

Как работает:

Ввод данных: Пользователь может задать текстовое описание, предоставить изображение или даже видео, в зависимости от задачи.
Кодирование: Виде VAE преобразует входные данные в компактное представление, сохраняя при этом критически важную информацию о сцене и динамике.
Генерация: На основе этого представления и с использованием огромного количества параметров модель генерирует новый видеоряд, который соответствует заданному описанию или образцу.
Декодирование: Затем VAE декодирует это представление обратно в полноценное видео, где соблюдаются все временные и визуальные детали.

Таким образом, Wan2.1-T2V-14B выделяется своей способностью не только создавать качественные видео по текстовому описанию, но и решать множество сопутствующих задач (от редактирования до генерации аудио), оставаясь при этом оптимизированной для работы на доступном оборудовании.

Это делает её одной из самых перспективных разработок в области генеративного видео на сегодняшний день.

🟡 Github: https://github.com/Wan-Video/Wan2.1/
🟡HF: https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
🟡Model Scope: https://modelscope.cn/organization/Wan-AI

@ai_machinelearning_big_data

#TexttoVideo #ai #ml #video #wanai

Читать полностью…

Machinelearning

⚡️ YandexGPT 5: модель нового поколения от Яндекса и возвращение компании к публикации LLM-моделей в опенсорс впервые с 2022 года.

Яндекс анонсировал новое поколение больших языковых моделей — YandexGPT 5, включающее Pro и Lite версии.

▶️ YandexGPT 5 Lite

YandexGPT 5 Lite 8B уже доступна на Hugging Face. Модель обучалась в два этапа: претрейн на массиве русско- и англоязычных текстов объёмом 15T токенов и этап Powerup на высококачественных данных объёмом 320B токенов. Она опубликована без финального этапа обучения, этических фильтров и алайнмента, что делает её удобной для исследований и дообучения под специфические задачи разработчиков.

Модель имеет контекстное окно 32k токенов, а в своей категории достигает паритета с мировыми SOTA по ключевым бенчмаркам для pretrain-моделей.

▶️ YandexGPT 5 Pro

В разработке Pro-версии применены значительные улучшения: переработанный датасет с более сложными и разнообразными примерами, усложнённые тренировочные задания, внедрение DPO и PPO с собственной модификацией LogDPO против «разучивания», оптимизация через YaFSDP (-25% вычислительных ресурсов), гибридное обучение с использованием базовых настроек Qwen.

По тестам YandexGPT 5 Pro:

🟢 Достигает уровня GPT-4o в международных тестах и их русскоязычных адаптациях

🟢 Превосходит Qwen-2.5-32b-Instruct в работе с фактами и форматированием, немного уступая в вычислениях

⚠️Pro-версия уже внедрена в чат с Алисой и доступна через API в Yandex Cloud, где может использоваться как в базовой версии, так и с подключением к Поиску.

🟡 Статья

@ai_machinelearning_big_data

#AI #ML

Читать полностью…
Subscribe to a channel