Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml
✅ Подборка полезных ИИ- каналов для обучения
🎓 1) Andrej Karpathy
Глубокие, но доступные лекции по глубокому обучению, языковым моделям и введению в нейронные сети.
Ссылка: https://www.youtube.com/c/AndrejKarpathy
📊 2) 3Blue1Brown
Потрясающие визуализации, которые делают абстрактные математические концепции понятными и интуитивными.
Ссылка: https://www.youtube.com/c/3blue1brown
🎙️ 3) Lex Fridman
Глубокие беседы с лидерами индустрии ИИ, позволяющие получить широкий взгляд на современные тенденции.
Ссылка: https://www.youtube.com/c/LexFridman
🤖 4) Machine Learning Street Talk
Технические погружения и обсуждения с ведущими исследователями в области ИИ и машинного обучения.
Ссылка: https://www.youtube.com/c/MachineLearningStreetTalk
💼 5) Uproger
Множество полных кусрсов, уроков с уклоном на практику
uproger" rel="nofollow">https://www.youtube.com/@uproger
🍉 6) Serrano Academy (Luis Serrano)
Ясный и доступный контент о машинном обучении, глубоких нейронных сетях и последних достижениях в ИИ.
Ссылка: https://www.youtube.com/c/LuisSerrano
💻 7) Jeremy Howard
Практические курсы по глубокому обучению и обучающие видео по созданию AI-приложений, основанные на опыте Fast.ai.
Ссылка: https://www.youtube.com/c/Fastai
🛠️ 8) Hamel Husain
Практические уроки по работе с языковыми моделями (LLMs), RAG, тонкой настройке моделей и оценке ИИ.
Ссылка: https://www.youtube.com/c/HamelHusain
🚀 9) Jason Liu
Экспертные лекции по RAG и советы по фрилансу в области ИИ для специалистов по машинному обучению.
Ссылка: https://www.youtube.com/c/JasonLiu
⚙️ 10) Dave Ebbelaar
Практические руководства по созданию ИИ-систем и применению технологий в реальных проектах.
Ссылка: https://www.youtube.com/c/DaveEbbelaar
📚 11) StatQuest with Joshua Starmer PhD
Доступные и понятные объяснения основ машинного обучения и статистики для начинающих.
Ссылка: https://www.youtube.com/c/statquest
Эти каналы предлагают разнообразный и качественный контент для всех, кто хочет углубиться в изучение искусственного интеллекта. Независимо от вашего уровня подготовки, здесь каждый найдёт что-то полезное для себя!
@data_analysis_ml
🎁 РАЗЫГРЫВАЕМ MacBook Air!
Авторский канал о ИИ и машинном обучении Machine Learning, а также канал о будущем и технологиях Droider, объединились для крутого конкурса!
На кону – 13-дюймовый MacBook Air на чипе M3!
Условия участия максимально простые:
🔸Подписаться на телеграм-канал Machine Learning
🔸Подписаться на телеграм-канал Droider
🔸Нажать кнопку "Участвовать" ниже.
ВСЁ! Вы участник!
Итоги подведём 29 марта. Доставка приза осуществляется только на территории РФ.
Всем удачи!
🏜 GamingAgent – это простое решение для развертывания локальных игровых агентов (CUA – Computer Use Agents).
В репозитории представлены примеры агентов для:
- Super Mario Bros (1985) – классическая платформенная игра;
- Sokoban – головоломка с перемещением коробок;
- 2048 – логическая игра-головоломка;
- Tetris – культовая аркадная игра;
- Candy Crush – популярная головоломка с элементами стратегии и другие.
В каждом примере описаны этапы установки, настройки, запуска игры и агента, а также приведены рекомендации по оптимизации и настройке параметров, таких как политика агентов или количество рабочих потоков.
GamingAgent предоставляет подробную документацию по установке и настройке. С помощью простых команд можно легко развернуть агентов и тестить их.
Поддерживает API от ведущих И:
- OpenAI: gpt-4o, gpt-4o-mini, o1, o3-mini;
- Anthropic: claude-3-5, claude-3-7 и другие;
- Gemini: gemini-1.5, gemini-2.0 и варианты с режимом "thinking";
- Deepseek: chat и reasoner.
Такой широкий выбор позволяет разработчикам тестировать различные модели и выбирать наиболее подходящую под конкретную задачу.
Можно применять разные стратегии игровых агентов, используя встроенные режимы: «long», «short», «alternate»
или можно реализовывать собственные алгоритмы.
Это интересно для тех, кто работает в области планирования и принятия решений в реальном времени.
GamingAgent позволяет запускать агентов локально.
Алекс Альберт, руководитель отдела по связям с клиентами Antropic лайкнул это проект, Claude-3.7 отлично показывает себя в игре в Марио.
Установка: git clone https://github.com/lmgame-org/GamingAgent.git
cd GamingAgent
▪ Github
@ai_machinelearning_big_data
#python #aiagents #gaminga
✔️ Nvidia соберет тысячи специалистов на конференции по AI-технологиям GTC 2025.
Nvidia анонсировала проведение ежегодной конференции GTC, которая пройдет в Сан-Хосе с 17 по 21 марта. Ожидается 25 тысяч участников очно и 300 тысяч онлайн. На конференции выступит главы Nvidia Дженсен Хуанг, его доклад будет посвящен AI и технологиям ускоренных вычислений.
В рамках GTC запланировано более 1000 сессий с участием 2000 спикеров и около 400 экспозиций, демонстрирующих применение AI в здравоохранении, робототехнике и автономном транспорте. Участники смогут посетить более 80 практических семинаров и впервые бесплатно сдать сертификационные экзамены.
На GTC в этом году впервые состоится Quantum Day, посвященный квантовым вычислениям.
nvidia.com
✔️ OpenAI планирует тарифы стоимостью до 20 тысяч долларов в месяц за специализированные ИИ-агенты.
OpenAI намерена представить ряд дорогостоящих "агентских" продуктов, ориентированных на задачи сортировки и ранжирования лидов и разработку программного обеспечения. Так, стоимость "агента для высококвалифицированных специалистов" может составить 2 тыс. долларов в месяц, а "агента-разработчика" – 10 тыс. долларов.
Наиболее дорогостоящий вариант, по слухам, будет нацелен на поддержку исследований на уровне PhD. Хотя сроки запуска и круг потенциальных пользователей пока не определены, известно об инвестициях SoftBank в размере 3 миллиардов долларов в эти продукты OpenAI на текущий год.
theinformation.com
✔️ Microsoft переработала приложение Copilot для Windows 11.
Microsoft полностью переосмыслили Copilot, сделав его нативным и интегрированным непосредственно в операционную систему. Теперь Copilot использует Windows-технологии XAML и WinUI. Тестировщики обновленного Copilot отмечают повышенную производительность: приложение работает практически без задержек и требует значительно меньше памяти – в среднем от 50 до 100 МБ RAM.
Предполагается, что благодаря глубокой интеграции с Windows 11, Copilot будет лучше понимать систему и предоставлять более персонализированные ответы. Новая версия Copilot под индексом 1.25023.101.0 уже доступна участникам Windows Insider.
pcworld.com
✔️ Директор по продуктам Anthropic: "в ближайшие 3 года программисты будут отвечать только за проверку сгенерированного кода".
Майк Кригер, директор по продуктам Anthropic, прогнозирует, что работа инженеров-программистов существенно изменится в ближайшие 3 года. Уже сейчас разработчики тратят больше времени на проверку кода, сгенерированного ИИ, чем на его написание самостоятельно. Он считает, что по мере того, как ИИ будет все шире использоваться в программировании, разработчики начнут решать абстрактные задачи - разработка концепций, проектирование взаимодействия с пользователем и эффективное делегирование задач моделям.
Несмотря на автоматизацию отдельных процессов, Кригер не ожидает полного исчезновения профессии программиста, но подчеркивает, что для сохранения актуальности потребуется мультидисциплинарный подход, где знание того, что строить, становится столь же важным, как и знание как это реализовать.
businessinsider.com
✔️ VLM-run Hub – платформа для централизованного управления, развертывания и мониторинга VLM-пайплайнов. Она служит в качестве «хаба», куда можно интегрировать различные модели, алгоритмы и компоненты, необходимые для создания и эксплуатации систем, объединяющих обработку изображений и текста. Благодаря интуитивно понятному интерфейсу и расширяемой архитектуре, инструмент упрощает сложные процессы и позволяет быстро адаптировать решения под специфические задачи.
Github
@ai_machinelearning_big_data
#news #ai #ml
🗼Многоязычный LLM с поддержкой 25 языков, выпущенный командой Alibaba DAMO
✨ 9B/83B
✨ Поддерживает 25 языков: Английский, китайский, хинди, испанский, арабский, французский, бенгальский, португальский, русский, урду, индонезийский, немецкий, японский, суахили, филиппинский, тамильский, вьетнамский, турецкий, итальянский, яванский, корейский, хауса, персидский, тайский и бирманский.
▪Модель: https://huggingface.co/collections/Tower-Babel/babel-67c172157372d4d6c4b4c6d5
▪Paper: https://huggingface.co/papers/2503.00865
@data_analysis_ml
🚀🚀🚀 HunyuanVideo I2V - новая версия одной из лучших опенсорс моделей преобразования изображения в видео!
Код обучения I2V здесь! 🛩️🛩️🛩️🛩️🛩️🛩️
Китайский зверь с 13B-параметрами.
Единственная модель, которая может сравниться с Runway Gen-3 и Wan 2.1.
Генерации выглядит хорошо!
▪Github: https://github.com/Tencent/HunyuanVideo-I2V
▪HF: https://huggingface.co/tencent/HunyuanVideo-I2V
@ai_machinelearning_big_data
#Imagetovideo #diffusionmodels #videogeneration #imagetovideo #generation
IT_ONE Cup. ML Challenge от IT_ONE и Sk FinTech Hub — создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам. Участвуй онлайн с 12 по 29 апреля и поборись за 1 500 000 рублей.
Регистрация открыта до 11 апреля
Твоя формула победы:
✅ Умеешь работать с готовыми моделями машинного обучения и адаптировать их под специфические задачи.
✅ Знаешь, как реализовать сложные системы на базе LLM и генеративных моделей.
✅ Готов создавать комплексные решения для автоматизации процессов.
Также приглашаем Backend и Frontend-разработчиков, системных и бизнес-аналитиков, UI/UX-дизайнеров. Участвуй онлайн соло или командой до 5 человек.
Задачи IT_ONE Cup. ML Challenge:
🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.
4 апреля приходи на митап с экспертами соревнования — задай вопросы и узнай больше о задачах.
Создай AI-ассистента, который облегчит выполнение рабочих задач — регистрируйся на IT_ONE Cup. ML Challenge
🍏 Apple представила чип M3 Ultra – самый быстрый процессор, когда-либо созданный для Mac.
Новый M3 Ultra дебютировал в Mac Studio и сочетает в себе 32-ядерный CPU (из которых 24 – высокопроизводительные, а 8 – энергоэффективные) с 80-ядерным GPU и поддержкой до 512 ГБ🔥
Этого хватит для 4-битного Deep Seek R1 и еще останется место.
По заявлениям Apple, этот чип работает в 1,5 раза быстрее, чем M2 Ultra, и на 1,8 раза быстрее, чем M1 Ultra.
Цены на M4 Max начинаются в США с $2000 до уплаты налогов. За эти деньги вы получите 36 ГБ объединённой памяти и SSD на 512 ГБ.
А вот M3 Ultra начинается с $4000. Внутри 96 ГБ объединённой памяти и SSD на 1 ТБ.
С M4 удалось добиться таких результатов:
► обработка изображений в Adobe Photoshop в 1,6 раза быстрее в сравнении с Mac Studio с M1 Max и до 2,9 раз быстрее по сравнению с 27-дюймовым iMac с Core i9
► до 2,1 раза выше производительность сборки при компиляции кода в Xcode по сравнению с Mac Studio с M1 Max и до 3,1 раза быстрее по сравнению с 27-дюймовым iMac с Core i9
► производительность ProRes в Compressor до 1,2 раза выше по сравнению с Mac Studio с M1 Max и до 2,8 раз быстрее по сравнению с 27-дюймовым iMac с Core i9
► производительность обработки видео в Topaz Video AI до 1,6 раз выше по сравнению с Mac Studio с M1 Max и до 5 раз быстрее по сравнению с 27-дюймовым iMac с Core i9
С M3 Ultra удалось добиться таких результатов:
► до 16,9 раз быстрее генерация токенов с использованием LLM с сотнями миллиардов параметров в LM Studio по сравнению с Mac Studio с M1 Ultra
► рендеринг сцены до 2,6 раза быстрее в Maxon Redshift по сравнению с Mac Studio с M1 Ultra и до 6,4 раза быстрее по сравнению с 16-ядерным Mac Pro на базе Intel с Radeon Pro W5700X
► до 1,4 раза выше производительность рендеринга видео 8K в Final Cut Pro по сравнению с Mac Studio с M1 Ultra и до 4 раз выше по сравнению с 16-ядерным Mac Pro на базе Intel с Radeon Pro W5700X
@ai_machinelearning_big_data
#apple #Mac #M3Ultra #M4Max
🔥 Cohere только что выпустили Aya Vision
Aya Vision 8B и 32B, превосходят конкурентов, включая Llama 3.2 на 90B Vision и Gemini Flash 1.5 8B🚀
> Модель 8B: достигает SOTA в своем классе
> 32B Модель: Превосходит модели в 2 раза большье по размеру,
> Поддерживает 23 языка
> Aya Vision 32B превосходит модели большего размера (например, Llama-3.2 90B Vision, Molmo 72B) с показателями 50%-64% на бенчмарке AyaVisionBench и 52%-72% на mWildVision
> 8B достигает лучших показателей, решая 79%-81% задач, обходя топовые модели своего класса (например, Qwen2.5-VL 7B, Gemini Flash 1.5 8B)
Динамическое изменение размера и токенизацияя: изображения с высоким разрешением делится на тайлы, а Pixel Shuffle сжимает количество токенов в 4 раза, что снижает вычислительные затраты.
▪Weights: https://huggingface.co/collections/CohereForAI/c4ai-aya-vision-67c4ccd395ca064308ee1484
▪Post: https://huggingface.co/blog/aya-vision
@ai_machinelearning_big_data
✔️ Создатель C++ бьет тревогу из-за "серьезных атак" на язык программирования.
Бьярне Страуструп, создатель C++, обратился к сообществу с призывом защитить язык, который в последние годы подвергается критике со стороны кибербезопасности и технических экспертов из-за проблем с ручным управлением памяти. C и C++ полагаются на него, что приводит к ошибкам выхода за пределы чтения и записи, которые, в свою очередь становятся источником для уязвимостей и составляют большинство проблем в крупных проектах.
Страуструп признает, что C++ нуждается в срочных мерах для улучшения безопасности, особенно в свете рекомендаций правительственных агентств, которые рекомендуют отказаться от использования "небезопасных" языков к 2026 году. Он предлагает использовать фреймворк "Profiles", который может помочь в решении этих проблем, но скептики считают, что это решение не будет готово вовремя.
theregister.com
✔️ ByteDance выпустила первую в Китае ИИ-IDE Trae
ByteDance официально выпустила «Trae», интегрированную среду разработки ИИ (AI IDE). Trae работает с моделью Doubao 1.5 Pro и может переключаться на полноценные версии DeepSeek R1 и V3.
Trae поддерживает автодополнение кода, понимание кода, исправление ошибок и генерацию кода на основе естественного языка. В ней есть новый режим Builder, который позволяет разработчикам быстро генерировать и оптимизировать код с текстовых помощью описаний.
Внутренняя версия Trae оптимизирована для сценариев разработки в Китае и предлагает версии для Mac и Windows, версия для Linux и возможность подключения в API провайдеров языковых моделей будут выпущены позже.
trae.com.cn
✔️ Microsoft представила Dragon Copilot: ИИ для врачей.
Dragon Copilot - инструмент с голосовыми возможностями на базе ИИ, его цель - облегчить бремя административных задач для медицинских работников. Он объединяет в себе возможности Dragon Medical One и DAX Copilot, позволяя врачам оперативно получать доступ к медицинской информации и автоматически формировать различные документы, выписки и направления.
По словам представителей Microsoft, Dragon Copilot должен вернуть врачам возможность сосредоточиться на пациентах, а не на рутинной бумажной работе, что, как ожидается, приведет к улучшению качества медицинской помощи. Доступ к Dragon Copilot будет осуществляться через мобильное приложение, браузер или десктопное приложение, с интеграцией в различные виды электронных медсистем.
news.microsoft.com
✔️ Google SpeciesNet : модель ИИ для идентификации видов животных.
Google опубликовала SpeciesNet, опенсорс-модель для идентификации биологических видов на основе анализа фотоснимков, полученных с автоматических камер слежения.
Исследователи в различных регионах мира используют подобные устройства для изучения популяций диких животных, но обработка получаемых данных представляет собой трудоемкий процесс из-за их объема. SpeciesNet, обученная на массиве из 65 млн. изображений, оптимизирует процедуру анализа.
Система способна классифицировать изображения по 2 тыс. категорий - как отдельные виды животных, так и более широкие таксономические группы.
techcrunch.com
✔️ Sinumerik Machine Tool Robot от Siemens: новая эра в промышленной робототехнике.
Siemens AG объявила о выпуске революционного продукта в области промышленной робототехники – Sinumerik Machine Tool Robot (MTR). Он обеспечивает увеличение точности траектории на 200–300 % по сравнению с традиционными промышленными роботами, а повышение производительности достигает 20–40 % благодаря инновационным концепциям управления.
В основе MTR лежит интеллектуальная система управления Sinumerik One - цифровая система ЧПУ нового поколения от Siemens. Она наделяет промышленных роботов характеристиками станков, делая их идеальными для высокоточных операций даже при обработке сверхтвердых материалов.
Технология будет представлена на выставках JEC, EMO (на стендах Danobat и Siemens) и Automatica (на стенде Siemens).
press.siemens.com
@ai_machinelearning_big_data
#news #ai #ml
🚀 6 День недели опенсорса: DeepSeek-V3/R1 Inference System!
DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность.
DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %.
При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн.
Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке.
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
Разительный контраст с американскими конкурентами, работающими в убыток.
Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры.
🌟 В DeepSeek-V3/R1 используется Cross-node Expert Parallelism (EP) — метод, при котором модель делится между GPU-узлами, а каждая видеокарта обрабатывает лишь небольшую часть модели. Эксперты распределяются между узлами кластера, что снижает нагрузку на память GPU, увеличивает размер батча и позволяет равномерно загружать видеокарты, избегая простоев. Это ускоряет вычисления и минимизирует задержки.
🌟 Для обработки данных DeepSeek-V3/R1 использует двухфазную стратегию инференса.
1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных.
2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа.
– ~73.7k токенов/с для prefilling
– ~14.8k токенов/с для декодинга на одном узле H800
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
🔗 Подробнее: *клик*
@ai_machinelearning_big_data
#AI #DeepLearning #DeepSeek #ml #opensource
✔️ Microsoft выпустила приложение Copilot для Mac.
Microsoft представила нативное приложение Copilot для macOS, функционально схожее с версией для Windows. Приложение дает доступ к веб-интерфейсу Microsoft AI Assistant, позволяя загружать изображения и генерировать текст.
Copilot для macOS получил темную тему оформления и сочетание клавиш (Command + Space) для оперативной активации AI-ассистента, аналогично комбинации Alt + Space в Windows. На данный момент Copilot доступен для пользователей в США, Великобритании и Канаде. Обновление также затронет версию для iPad, в которой появилась функция разделения экрана.
Пользователи iPhone и iPad теперь могут входить в Copilot с Apple ID и загружать текст или PDF для получения ответов на вопросы по документу или суммаризации. Функция автоматического обобщения документов в скором времени станет доступна и в версии для macOS.
theverge.com
✔️ AMD представила видеокарты серии Radeon RX 9070.
AMD официально выпустила видеокарты Radeon RX 9070 и 9070 XT со стартовой ценой 549 долларов США. Они должны поступить в продажу 6 марта и будут напрямую конкурировать с серией RTX 50 от Nvidia.
RX 9070 использует архитектуру RDNA 4 и поддерживает технологию сверхвысокого разрешения FSR 4 нового поколения. Обе модели имеют 16 ГБ видеопамяти, интерфейс PCIe 5.0, обновленный медиа-движок и технологию генерации кадров AFMF 2.1, которая уменьшает артефакты изображения. На презентации также анонсировали RX 9060 начального уровня во втором квартале 2025 года.
amd.com
✔️ Apple разрабатывает технологию для определения возраста пользователей соцсетей.
Apple планирует внедрить новую технологию, которая позволит соцсетям определять, пытаются ли несовершеннолетние пользователи младше 16 лет получить доступ к их приложениям на устройствах iPhone и iPad.
Новая функция для определения возрастного диапазона будет доступна разработчикам приложений. С согласия родителей она сможет знать, относится ли пользователь к категории младше 18, 16 или 13 лет. На основе этой информации приложения смогут ограничивать доступ к определенному контенту или полностью блокировать использование приложений.
theguardian.com
✔️ OpenAI открыла доступ к Sora в Европе и Великобритании.
С 28 февраля пользователи в Великобритании и Европе могут воспользоваться Sora, системой генерации видео от OpenAI, которая ранее была доступна только в США и других странах. Sora включена без дополнительной платы для подписчиков ChatGPT Pro и Plus, но с некоторыми ограничениями на использование.
Для пользователей ChatGPT Plus доступно до 50 видео в месяц с разрешением 720p и длиной до 5 секунд. Подписчики Pro получают неограниченную медленную генерацию, 500 быстрых генераций и возможность создавать видео 1080p длиной до 20 секунд.
В рамках запуска Sora для ЕС OpenAI планирует запустить каналы Sora в Discord для обсуждений и проводить еженедельные "Sora Office Hours".
OpenAI в X (Twitter)
✔️ Google выпустила сверхсложный бенчмарк BIG-Bench Extra Hard.
BIG-Bench Extra Hard (BBEH), продукт Google DeepMind, предназначенный для оценки высокоуровневых способностей LLM к рассуждениям. BBEH значительно повышает сложность за счет замены задач в BIG-Bench Hard.
Результаты тестов на этом бенчмарке показывают, что производительность топовых моделей далека от идеала: средняя точность общих моделей составляет всего 9,8 %, и даже специализированная ризонинг- модель o3-mini (high) достигает только 44,8 %. Исследования показали, что модели рассуждений приносят значительную пользу при решении формальных задач, но имеют ограниченные преимущества при работе со сложными сценариями реального мира, включающими здравый смысл, юмор и т. д.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
🔥 Как я ускорил обработку данных с помощью ИИ!
💡 Недавно потребовалось быстро обработать большой массив текстовых данных — тысячи клиентских отзывов, из которых требовалось извлекать ключевые темы и анализировать настроение. Обычные методы занимали слишком много времени, а готовые решения не подходили под специфику данных. Без нейросети не обойтись, хотелось найти способ запустить её без долгой настройки и сложного погружения в инфраструктуру.
Попробовал сделать это в Foundation Models в Yandex Cloud. Новая фича в сервисе позволяет запускать готовые модели, включая LLaMa, Qwen, DeepSeek и другие, без необходимости настраивать серверы. Я выбрал одну из нейросетей, загрузил данные — и уже через пару минут получил первые результаты. Для финальной доработки там же использовал метод LoRA, чтобы адаптировать нейросеть под мою задачу.
В результате модель начала не просто сортировать отзывы по тональности, но и выделять нужные детали в строгом формате, такие как упоминания конкретных товаров и частых проблем. Дообучение заняло не больше 10 минут.
Сам факт, что теперь можно запустить нейросеть и быстро адаптировать её под нужды бизнеса, серьёзно меняет подход к обработке данных.
🔗 Попробовать Foundation Models можно тут, а дообучение с LoRA здесь
Можете представить, как запрограммировать робота так, чтобы он безопасно передвигался по огромному складу?
В складской логистике роботы работают бок о бок с людьми, поэтому их маршруты, правила передвижения и поведения должны быть продуманы до мелочей.
Роботы Яндекс Роботикс, например, ориентируются в пространстве с помощью двух систем. В одних складах помогают QR-коды на полу: проехал, считал и подкорректировал маршрут. В других — лидар. Он собирает и передает данные для построения топологии склада, чтобы роботы могли ориентироваться среди людей и техники.
Как это всё реализовано и какой путь прошла команда, чтобы наладить такую сложную систему? Какие ещё технологии лежат в её основе? Об этом (и многом другом) пишет Ваня Калинов — руководитель команды, создающей складских роботов.
✔️ 5 день недели опенсорса: и новый релиз от DeepSeek
DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей.
▶️ Это решение показывает впечатляющие результаты:
• 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере
• 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере
• 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле
Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1).
Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей.
В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации.
▪3FS → github.com/deepseek-ai/3FS
▪Smallpond → github.com/deepseek-ai/smallpond
#OpenSourceWee #DeepSeek #Smallpond #3FS #opensource
🌟 AMD Instella: открытая языковая модель, обученная на ROCm и оборудовании AMD.
Instella - полностью опенсорсная модель с 3 млрд. параметров, обученная с нуля на GPU AMD Instinct MI300X. Instella не только превосходит существующие LLM сопоставимого размера, но и показывает конкурентоспособную производительность по сравнению с Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B.
Разработка Instella основана на опыте AMD с OLMo, на которой была доказана возможность обучения LLM на стеке AMD. В процессе создания Instella прошлые наработки были масштабированы для создания модели с 3 млрд. параметров. Она обучалась на 128 GPU MI300X с использованием 4,15 трлн. токенов. В процессе применялись методы FlashAttention-2, Torch Compile и FSDP с гибридным шардированием.
Процесс обучения Instella состоял из 4-х этапов, постепенно наращивая возможности модели от базового понимания естественного языка до следования инструкциям и соответствия предпочтениям человека.
Первый этап претрейна задействовал 4 трлн. токенов из набора данных OLMoE-mix-0924 (код, академические тексты, математика и общие знания). Второй этап - 57 млрд. токенов из датасетов Dolmino-Mix-1124 и SmolLM-Corpus (python-edu).
На третьем этапе проводилась SFT модели с использованием 8,9 млрд. токенов текстовых пар "инструкция-ответ". Наконец, для приведения модели в соответствие с предпочтениями человека был выполнен четвертый этап - DPO модели Instella-3B-SFT с использованием 0,76 млрд токенов.
Instella получила 36 слоев, каждый из которых имеет 32 attention heads и поддерживает длину последовательности до 4096 токенов.
Финальный вариант Instella-3B превосходит существующие открытые модели в среднем на 8,08%.
▶️ Состав релиза:
🟢Instella-3B-Stage1 - претрейн-чекпоинт после первого этапа обучения;
🟢Instella-3B - чекпоинт после второго этапа;
🟢Instella-3B-SFT - версия модели после SFT;
🟢Instella-3B-Instruct - финальная версия после DPO;
🟠Instella-GSM8K-synthetic - датасет, использованный на 2 этапе обучения;
🟠Код для трейна и инференса
📌 Лицензирование: ReasearchRAIL License.
🟡Статья
🟡Коллекция на HF
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #RoCM #AMD #Instella
✔️ Стартап Manus представил универсального ИИ-агента, выглядит очень впечатляюще. Он объединяет возможности OpenAI Operator и глубокую аналитику, но работает ещё эффективнее. Этот агент не только умеет управлять компьютером, но и собирает информацию для проведения серьёзных научных исследований.
— В этом видео Manus одновременно регистрирует и активно управляет 50 аккаунтами в Твиттере.
— Агент провел всесторонний анализ акций Tesla и предложила свой прогноз на будущее.
— Manus вычислил оптимальную орбиту для космического корабля, направляющегося к Марсу, с учётом текущего расположения планет.
Подать заявку на доступ можно здесь. А здесь вы найдете сравнение ManusAI и OpenAI DeepResearch.
Manus
✔️ Очень годный сборник учебных материалов, обучающих созданию нейросетей и обучению нейросетей её с нуля.
• Всё работает в облаке.
• 20 детально проработанных глав: от архитектуры нейросетей и NLP до основ глубокого обучения.
• Теория подкреплена практическими задачами
• Большое количество понятных примеров
Colab
✔️ Nomic Embed v2 — это новая SOTA для создания текстовых эмбеддингов, использующая архитектуру Mixture-of-Experts (MoE). Поддерживает около 100 языков и была обучена на более чем 1,6 миллиарда пар данных. Модель полностью открыта.
HF
✔️ Smart-turn — это открытая модель для определения смены речевых реплик (turn detection) в системах голосового взаимодействия. Она предназначена для более точного определения момента, когда голосовой агент должен начать свою реакцию на речь пользователя. Очень полезный инструмент для разработчиков голосовых агентов, стремящихся улучшить естественность и эффективность взаимодействия с пользователями.
Github
@ai_machinelearning_big_data
#news #ai #ml #aiagents
✔️ Google Research разрабатывает систему AMIE для долгосрочного медицинского сопровождения пациентов.
Разработанная Google в августе 2024 года ИИ-система AMIE теперь способна не только диагностировать, но и длительное время "вести" пациента. Инженеры Research-подразделения усовершенствовали AMIE, внедрив возможности, позволяющие ей учитывать динамику развития заболевания, реакцию на лечение и безопасно назначать лекарства, опираясь на клинические рекомендации.
В ходе эксперимента AMIE продемонстрировала результаты, не уступающие, а порой и превосходящие решения практикующих врачей в вопросах лечения и назначений. Система использует двухкомпонентную архитектуру, где один агент общается с пациентом, а другой анализирует данные и разрабатывает планы лечения на основе клинических руководств.
research.google
✔️ Проект Google Astra переходит к команде Gemini AI.
Разработку ИИ-агента Astra теперь ведет команда приложения Gemini, это означает переход от исследовательской стадии к коммерческому продукту. Инсайдеры осторожно намекают на релиз уже в марте этого года. Перенос проекта в целевое подразделение должен ускорить выпуск продукта, который был анонсирован в мае 2024 года.
Ожидается, что интеграция Astra даст возможность подписчикам Gemini Advanced на Android использовать видео и демонстрацию экрана для контекстных бесед. Часть исследовательской группы Astra останется в прежней структуре.
9to5google.com
✔️ DuckDuckGo представил новые ИИ-функции.
Поисковик DuckDuckGo представил новые функции на базе ИИ, которые являются приватными, полезными и необязательными. Теперь пользователи могут бесплатно и анонимно пользоваться популярными чат-ботами по адресу Duck.ai. Среди доступных моделей – GPT-4o mini, Llama 3.3 и Claude 3 Haiku. Для удобства реализована функция «Recent Chats», которая сохраняет историю чатов локально на устройстве.
Кроме того, DuckDuckGo внедряет ИИ в поисковую выдачу, предлагая бесплатные ИИ-ответы на английском языке без необходимости регистрироваться. Пользователи могут настроить, как часто такие ответы будут появляться в результатах поиска, или отключить их вообще. Специальная кнопка «Assist» позволяет запросить ИИ-ответ, при этом запросы отправляются анонимно, что гарантирует защиту личной информации.
spreadprivacy.com
✔️ Tavus выводит ИИ-видеокоммуникацию на новый уровень.
Tavus представила усовершенствованный интерфейс Conversational Video Interface (CVI), который помогает сделать взаимодействие между людьми и ИИ более человечным. CVI позволяет создавать AI-агентов, способных видеть, слушать, понимать и общаться в реальном времени.
В основе системы лежат три модели: Phoenix-3 – обеспечивает реалистичную анимацию лица, включая детали мимики, Raven-0 – анализирует визуальный контекст, намерения и эмоции, Sparrow-0 – управляет очередностью реплик для создания естественного диалога.
CVI может использоваться в различных сферах – от медицинской помощи до клиентского сервиса. Разработчики могут легко интегрировать CVI в свои приложения с помощью API.
tavus.io
✔️ Llama 4 будет поддерживать голосовые функции.
Гигант социальных сетей активно наращивает усилия в сфере голосового ИИ. Согласно Financial Times, компания Марка Цукерберга планирует внедрить улучшенные голосовые функции в Llama 4. Разработчики убеждены, что будущее AI-агентов будет именно за разговорным взаимодействием, а не за текстовым.
Компания на протяжении последних 2 лет делает значительные инвестиции в ИИ, а Марк Цукерберг объявил о планах потратить до 65 млрд. долларов в 2025 году на укрепление AI-направлений. Создатели Lllama стремятся расширить возможности ИИ за пределы социальных сетей и рассматривают возможность пробного запуска премиум-подписок на своего AI-ассистента для выполнения агентских функций. Главный продуктовый директор, Крис Кокс, охарактеризовал грядущую Llama 4 как "омни-модель", которая генерирует речь вместо трансляции голоса в текст.
pymnts.com
@ai_machinelearning_big_data
#news #ai #ml
⚡️ Mistral OCR – это новый высокоточный и мультимодальный API, предназначенный для всестороннего анализа документов.
Он работает с изображениями и PDF, возвращая результат в виде упорядоченного, структурированного вывода, где текст и визуальные элементы перемежаются в соответствии с исходной структурой документа.
Согласно внутренним тестам, Mistral OCR достигает 94.89% точности, опережая Google Document AI (83.42%) и Azure OCR (89.52%).
Система способна обрабатывать 2000 страниц в минуту (в том числе на русском языке) на одном вычислительном узле, предлагая функцию "doc-as-prompt" для использования документов в качестве инструкций. Полученные данные могут быть структурированы в формат JSON. Mistral OCR доступен в Le Chat и через API на la Plateforme.
mistral.ai
Вот колаб, в котором всё, что вам нужно для запуска:
— Вставить API в строку api_key
(его можно получить бесплатно); — Загрузить файл в левую папку и заменить pdf_file = Path
на имя вашего документа.
На выходы вы получите текст, изображения и таблицы — а таблицы всегда были для меня особенно сложными.
https://mistral.ai/fr/news/mistral-ocr
@ai_machinelearning_big_data
#mistral #ocr
🌟В Москве завершилась уникальная международная олимпиада по промышленной разработке PROD от Центрального университета, Т-Банка и НИУ ВШЭ
Участниками PROD стали более 4 000 школьников со всего мира, в том числе из Великобритании, Германии и Китая. Это единственная в мире олимпиада такого масштаба, где задания —- это реальные задачи бизнеса по автоматизации процессов и разработке приложений, которые помогают компаниям повышать эффективность и сокращать затраты.
В финале 235 школьников соревновались в разработке полноценных ИТ-продуктов таких, как платформа для проведения соревнований по анализу данных, сервис для обмена книгами, а также проект по созданию программ лояльности для партнеров Т-Банка.
Победителями стали 17 школьников из России и Беларуси. Они получили грант в размере 100% на обучение в Центральном университет, скидку до 90% на совместный бакалавриат Факультета компьютерных наук НИУ ВШЭ и Центрального университета и возможность пройти упрощенный отбор на стажировку в Т-Банк.
🟡Страница проекта
@ai_machinelearning_big_data
#AI #ML #Pytorch
📌 PyTorch: новые инструменты для для экономии памяти при обучении моделей.
PyTorch представил усовершенствованные методы Activation Checkpointing (AC), цель которых - снижение потребления памяти при обучении.
Традиционный подход в eager mode
сохраняет промежуточные активации для обратного прохода, что зачастую приводит к значительному расходу ресурсов. AC позволяет не сохранять эти тензоры, а вычислять их заново при необходимости, тем самым жертвуя вычислительным временем ради экономии памяти.
Новая техника – Selective Activation Checkpoint (SAC). В отличие от обычного AC, который затрагивает всю выбранную область, SAC дает гранулярный контроль над тем, какие операции следует пересчитывать, а какие – сохранять. Это достигается за счет использования policy_fn
, определяющей, нужно ли сохранять результаты конкретной операции. SAC будет полезен для избегания перевычисления ресурсоемких операций, например, матричных умножений.
Для torch.compile
стала доступна Memory Budget API. Эта функция автоматически применяет SAC с оптимальной политикой, исходя из заданного пользователем бюджета памяти (от 0 до 1). Бюджет 0 соответствует обычному AC, а 1 – поведению torch.compile
по умолчанию.
🔜 Читать подробную статью в блоге Pytorch
@ai_machinelearning_big_data
#AI #ML #Pytorch
✔️ Qwen выпустила QwQ-32B.
QwQ-32B - модель с 32.5В параметров, контекстной длиной до 131К токенов, была обучена с RL и показала в тестах высокую производительность в математических рассуждениях, программировании и общих задачах, сопоставимую с DeepSeek-R1.
Модель распространяется под Apache 2.0 и уже доступна на Hugging Face. Она поддерживает вызовы инструментов и адаптивные рассуждения на основе обратной связи от окружающей среды. Попробовать QwQ-32B можно в этом демо-спейсе.
qwenlm.github.io
✔️ Huggingface анонсировал "Hybrid inference" для GenAI.
Huggingface представил экспериментальную функцию "Hybrid inference", ее цель - упростить и ускорить выполнение локальных задач генерации за счет использования эндпоинтов HF. Разработка предлагает доступ к мощным моделям без необходимости в локальном дорогостоящем оборудовании. Как утверждается, качество генерации остается на высочайшем уровне без компромиссов в производительности.
Использование "Hybrid inference" бесплатное и полностью совместимо с Diffusers. На данный момент доступна функция VAE Decode для SD и SDXL. В ближайшем будущем ожидается появление VAE Encode и Text Encoders. Интеграция уже реализована в SD.Next и ComfyUI-HFRemoteVae.
huggingface.co
✔️ Пионеры машинного обучения Барто и Саттон удостоены премии Тьюринга.
Эндрю Барто и Ричард Саттон стали лауреатами престижной премии Тьюринга 2024 года. Их фундаментальные разработки в области обучения с подкреплением, заложенные еще в 80-х годах, лежат в основе современных технологий в ИИ.
В сочетании с глубоким обучением, их методы привели к таким достижениям, как победа AlphaGo над чемпионом мира и обучение больших языковых моделей. Работа Барто и Саттона, по мнению экспертов, является прямым ответом на вызов Алана Тьюринга о создании обучаемых машин, а совместный учебник 1998 года стал настоящей библией для исследователей.
amturing.acm.org
✔️ Google запускает "AI Mode" в поиске.
Google представила экспериментальный режим "AI Mode" для своего поисковика, основанный на модифицированной версии модели Gemini 2.0. Новая функция, подобно ChatGPT и Perplexity, способна обрабатывать сложные запросы, объединяя результаты нескольких поисков в один связный ответ.
Доступ к новинке предоставляется по платной подписке Google One AI Premium в рамках программы Labs. Наряду с этим, Google улучшает существующие "AI Overviews", которые теперь смогут лучше справляться с программированием и математикой.
blog.google
✔️ CoreWeave покупает Weights & Biases.
AI Hyperscale CoreWeave объявил о стратегическом приобретении Weights & Biases. Покупка должна стать частью стратегии о создании комплексной платформы для разработки и внедрения ИИ-приложений.
Компания Weights & Biases, основанная в 2017 году, является лидером в сфере MLOps и LLMOps, ее решения востребованы OpenAI и NVIDIA. Ожидается, что сделка будет завершена в первой половине 2025 года.
prnewswire.com
✔️ Grok-3 может быть не готов к корпоративному использованию: независимый анализ.
По словам Рэнделла Ханта, технического директора Caylent, реальность Grok-3 сильно отличается от его маркетинга. Grok-3 чрезвычайно легко поддается манипулированию через джейлбрейк, демонстрирует неожиданную саркастичность, медлительность и частые ошибки в ответах.
Даже простые тесты на логику, вроде игры в крестики-нолики, оказались ей не под силу. Эти проблемы делают Grok-3 практически бесполезным для бизнес-задач. Хотя скорость работы модели, по некоторым данным, и увеличилась с момента первого релиза, ее легкая "взламываемость" вызывает серьезные опасения у потенциальных корпоративных пользователей. Хант также критикует чрезмерную зависимость индустрии от статичных бенчмарков, которые не всегда отражают реальную применимость AI-моделей.
forbes.com
@ai_machinelearning_big_data
#news #ai #ml
✔️ OpenAI запускает программу NextGenAI.
OpenAI запускает NextGenAI — совместную программу с 15 НИИ, направленную на ускорение научных прорывов и трансформацию образования с использованием ИИ. OpenAI планирует выделить на финансирование исследований 50 млн. долларов.
Программа объединяет институты в США и за рубежом. Среди партнеров Калифорнийский технологический институт, Гарвардский университет и Массачусетский технологический институт, а также Бостонская детская больница и Бостонская публичная библиотека.
Цель NextGenAI — укрепить связи между академическими кругами и реальным сектором, гарантируя, что преимущества ИИ будут распространены на научные лаборатории и социально значимые проекты.
openai.com
✔️ Китай планирует запустить новую политику по продвижению архитектуры RISC-V.
Китай разрабатывает новую политику по расширению применения архитектуры микросхем с открытым исходным кодом RISC-V в попытке снизить свою зависимость от западных технологий микросхем.
В настоящее время многие учреждения разрабатывают чипы на базе RISC-V, а компании, например, Qualcomm уже создали специальные подразделения для популяризации этой архитектуры. Ожидается, что политика будет представлена в этом месяце, а RISC-V станет альтернативой архитектурам x86 и ARM.
reuters.com
✔️ Stability AI и Arm: генеративный звук теперь на смартфонах и без интернета.
Stability AI в сотрудничестве с Arm представила возможность генерации высококачественных звуковых эффектов и аудиосэмплов прямо на мобильных устройствах, без необходимости подключения к интернету. Это стало возможным благодаря использованию библиотек Arm KleidiAI и технологии Stable Audio Open от Stability AI.
Так время генерации аудио на ARM-устройствах сократилось в 30 раз, с 240 до 8 секунд на процессорах Armv9. Увидеть демонстрацию работы Stable Audio Open можно будет на выставке MWC в Барселоне 3 марта 2025 года.
stability.ai
✔️ Operator от Opera: AI-агенты в браузере.
Opera анонсировала браузер Operator, который сам выполняет задачи пользователя в интернете. Он содержит встроенный ИИ-агент, способный покупать товары, искать информацию и выполнять другие действия по запросу пользователя. Operator также способен управлять подписками и онлайн-аккаунтами - он найдет все активные подписки и предложит отменить ненужные. Operator может автоматически оплачивать счета и загружать банковские выписки.
В отличие от обычных браузеров, Operator анализирует DOM Tree и структуру страницы, чтобы быстро и эффективно выполнять задачи. Пользователь может видеть весь процесс и контролировать его.
Operator скоро станет доступен в рамках программы Opera Feature Drop.
blogs.opera.com
✔️ Amazon готовится выпустить конкурента GPT-o
Amazon разрабатывает новую модель ризонинга - Nova, которая должна составить конкуренцию OpenAI и Anthropic. Релиз Nova запланирован в июне этого года и будет отличаться высокой производительностью и экономической эффективностью.
Amazon ставит перед собой цель войти в топ-5 лучших ИИ-моделей по результатам внешних оценок, с фокусом в задачах, связанных с разработкой программного обеспечения и математическим мышлением. Разработкой занимается команда AGI под руководством Rohit Prasad.
businessinsider.com
@ai_machinelearning_big_data
#news #ai #ml
✅ CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM.
По качеству она конкурирует с flux/lumina.
Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.
CogView4 поддерживает очень длинный контекст.
Генерирует изображения от 512 до 2048 пикселей.
Ввод на китайском, и на английском.
Лицензия: Apache 2.0
▪Model: https://huggingface.co/THUDM/CogView4-6B
▪Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
▪Github: https://github.com/THUDM/CogView4
▪Paper: https://arxiv.org/abs/2403.05121
@ai_machinelearning_big_data
#AI #CogView4 #OpenSource #TextToImage
🔥 Самые интересные ИИ Релизы из Китая за февраль 2025
MLLM:
• Ovis2 - мультимодальная LLM, выпущенная командой Alibaba AIDC.
Аудио:
• Step Audio TTS от StepFun ai качественная модель синтеза речи.
• InspireMusic от Alibaba – модель для генерации музыки.
• Baichuan Audio от BaichuanAI – Audio LLM
Видео:
• Wan2.1 от Alibaba – мощный опенсорсный генератор видео,
URL:
• Stepvideo-T2V модель Text-to-Video
• SkyReels-V1 еще один Text-to-Video.
С фокусом на человека в кадре
• LLaDA-8B – диффузионная 8B модель обученная полностью с нуля и конкурирующую с LLaMA3 8B по производительности.
MoE:
• Moonlight-16B - мощная модель с архитектурой MoE для сложных задач.
Reasoning:
• TinyR1-32B - перспективная модель рассуждений на 32B
• Целая неделя опенсорса от DeepSeek.
Датасет:
• Chinese DeepSeek R1-Distill data -110k – масштабный датаяет обучения и на китайском.
•ByteScale представили новую стратегию параллелизма, и рассказ про эффективное масштабирование обучения LLM с длиной контекста 2048 КБ на более чем 12 000 графических процессоров
@ai_machinelearning_big_data
#ai #releases #opensource #digest
🌟 MASt3R-SLAM: детализированный SLAM с априорными данными 3D-реконструкции в реальном времени.
MASi3R-SLAM - проект, который умеет строить детальные 3D-карты окружающей среды и отслеживать движение камеры в реальном времени без предварительной калибровки. Система работает даже с изменяющимися во аремени параметрами, например, при зумировании или оптических искажениях.
Основа MASi3R-SLAM - алгоритм, использующий модели DUSi3R и MASi3R для восстановления геометрии сцены по 2 изображениям. DUSi3R анализирует пары изображений, предсказывая детальные карты 3D-точек в общей системе координат, а MASi3R дополнительно генерирует дескрипторы для каждого пикселя, повышая точность сопоставления даже при большом смещении кадров.
Полученные данные от моделей обрабатывает уникальный алгоритм, который анализирует «карты точек», прогнозируемые нейросетью, и находит соответствия между кадрами за 2 миллисекунды, что в 40 раз быстрее аналогов.
В тестировании на наборах TUM RGB-D и EuRoC, показали: MASi3R-SLAM превосходит DROID-SLAM и другие системы по точности траектории (средняя ошибка — 3 см) и детальности 3D-моделей.
На сегодняшний день основное ограничение MASi3R-SLAM — скорость декодера из-за его вычислительной нагрузки: полный цикл обработки одного ключевого кадра занимает в среднем 26–27 миллисекунд, что примерно 64% общего времени работы паплайна.
Например, при разрешении 512 пикселей по длинной стороне декодер MASi3R тратит до 2 секунд на глобальный поиск соответствий, тогда как алгоритм сопоставления сокращает это время до 2 мс. На выходе создается «бутылочное горлышко», которое ограничивает частоту кадров до 15 FPS.
⚠️ Перед установкой необходимо загрузить модели и установить версию Pytorch, соответствующую установленной версии CUDA.
▶️Локальная установка и примеры запуска для live-режима и видео:
# Create Conda env
conda create -n mast3r-slam python=3.11
conda activate mast3r-slam
# Clone Repo
git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive
cd MASt3R-SLAM/
# Install dependencies
pip install -e thirdparty/mast3r
pip install -e thirdparty/in3d
pip install --no-build-isolation -e .
# Launch Live demo with camera
python main.py --dataset realsense --config config/base.yaml
# Or running on a MP4 video
python main.py --dataset <path/to/video>.mp4 --config config/base.yaml
python main.py --dataset <path/to/folder> --config config/base.yaml
🌟 MatAnyone: модель для выделения по маске людей на видео.
MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.
MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.
При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.
Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.
В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:
🟠На VideoMatte и YouTubeMatte, MatAnyOne - лучшие результаты по MAD (средняя абсолютная разница) и dtSSD (расстояние преобразования формы);
🟢В бенчмарке с реальными видео MatAnyOne достиг MAD 0.18, MSE 0.11 и dtSSD 0.95, что значительно лучше, чем у RVM10 (MAD 1.21, MSE 0.77, dtSSD 1.43) и MaGGIe12 (MAD 1.94, MSE 1.53, dtSSD 1.63.
⚠️ Согласно обсуждению в issues
репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.
▶️Локальная установка и запуск web-demo на Gradio:
# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone
# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone
pip install -e .
# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt
# Launch the demo
python app.py
https://github.com/THU-KEG/Agentic-Reward-ModelingAgentic Reward Modeling –свежий проект от THU-KEG, цель которого переосмыслить подход к обучению агентных систем.
Этот инструмент направлен на разработку методов вознаграждения, где агент не просто выполняет команды, а учится понимать свои действия в контексте более сложных задач и долгосрочных целей.
Основные особенности:
- Вместо стандартных методов RL, где вознаграждения зачастую зависят от заранее заданных критериев, здесь акцент сделан на выработку более сложных стратегий, адаптирующихся под изменяющуюся среду и цели.
- Инструмент помогает моделировать вознаграждения таким образом, чтобы агент мог самостоятельно корректировать свои действия, учиться на ошибках и, в итоге, демонстрировать более «человеческое» принятие решений.
- Разработчики могут использовать данный подход в многоагентных системах и комплексных задачах, где важна динамическая оценка эффективности действий.
Этот инструмент интересен не только своим теоретическим потенциалом, но и практическими применениями в области создания более автономных и интеллектуальных систем. Agentic Reward Modeling открывает новые возможности для исследования агентов, способных обучаться в реальном времени, что делает его перспективным для дальнейших исследований и интеграций в реальные приложения.
▪Paper: https://arxiv.org/abs/2502.19328
▪Code: https://github.com/THU-KEG/Agentic-Reward-Modeling
@ai_machinelearning_big_data
#ai #ml #opnesource #agents #aiagents
✔️ Deepseek DualPipe: алгоритм параллелизма для обучения LLM.
Deepseek в рамках марафона "5 дней opensource-проектов" опубликовал проект DualPipe. Это алгоритм двунаправленного конвейерного параллелизма для повышения эффективности обучения больших языковых моделей. DualPipe совмещает вычисления и передачу данных в процессе обучения за счет одновременного выполнения прямого и обратного проходов, тем самым нивелирует периоды простоя или неэффективного использования вычислительных ресурсов.
С помощью этого алгоритма обучались Deepseek V3 и R1 и теперь он в доступен под лицензией MIT. Подробности и примеры использования - в репозитории deepseek-ai/DualPipe на GitHub.
Deepseek в X (Twitter)
✔️ Ideogram 2a: релиз новой text-to-image модели.
Ideogram выпустила новую модель - Ideogram 2a, которая. по заверению создателей, обещает стать самой быстрой и экономичной разработкой компании, позволяя создавать высококачественную графику с текстом и фотореалистичные изображения всего за несколько секунд.
Стоимость Ideogram 2a на 50% ниже, чем у ее предшественника, Ideogram 2.0. Модель доступна как в веб-сервисе Ideogram, так и через API.
Ideogram в X (Twitter)
✔️ Claude получила интеграцию с Github и обновление tool use.
Алекс Альберт, руководитель отдела по связям с клиентами Antropic, в X сообщил, что интеграция GitHub с Claude теперь открыта для всех пользователей.
Помимо этого, новейшая модель 3.7 Sonnet сегодня получила более эффективную реализацию использования инструментов - теперь она использует в среднем на 14% меньше токенов и показывает заметное улучшение производительности. Обновление имеет заголовок token-efficient-tools-2025-02-19.
Alex Albert в X (Twitter)
✔️ Mercury Coder - первая коммерческая диффузионная LLM-модель.
Inception Labs представила Mercury Coder, diffusion large language models (dLLM), которая обещает перевернуть представление о скорости и эффективности. dLLM, по словам разработчиков, до 10 раз быстрее и дешевле существующих LLM.
Утверждается, что Mercury Coder способна обрабатывать более 1000 токенов в секунду на NVIDIA H100s. В отличие от традиционных LLM, dLLM не ограничены последовательным созданием текста, что позволяет им лучше рассуждать и структурировать ответы.
В бенчмарках на Copilot Arena Mercury Coder Mini занял 2 место, превзойдя GPT-4o Mini и Gemini-1.5-Flash. Inception Labs предлагает доступ к инференсу через API и on-premise развертывания, заявлена поддержка файнтюнинга. Попробовать можно бесплатно в плейграунде.
inceptionlabs.ai
✔️ Cloudflare на защите ИИ: релиз Guardrails в AI Gateway.
Cloudflare представила Guardrails в AI Gateway – решение, созданное, чтобы сделать использование ИИ более безопасным и предсказуемым. Инструмент выступает в роли "модератора", контролирующего взаимодействие пользователей с онлайн ИИ моделями OpenAI, Anthropic и DeepSeek.
Guardrails анализирует запросы пользователей и ответы моделей на предмет нежелательного контента, используя Llama Guard. Система может блокировать или помечать опасные запросы и ответы, обеспечивая соответствие нормативным требованиям и защиту от репутационных рисков.
blog.cloudflare.com
✔️ В плагине Material Theme для VS Code обнаружен вредоносный код.
Пользователи сообщества VS Code провели анализ и обнаружили, что Material Theme содержит вредоносный код, это подтвердили и эксперты по безопасности Microsoft, которые определили, что плагин содержит бэкдоры.
В настоящее время VS Code удалил плагин из маркета и попросил всех его пользователей немедленно деинсталлировать Material Theme из соображений безопасности. Разработчик плагина был заблокирован. Сообщений о возможном сборе данных и последствиях злонамеренного вторжения пока не поступало.
news.ycombinator.com
@ai_machinelearning_big_data
#news #ai #ml
⚡️релиз GPT-4.5
Главное:
- Универсальная модель: подходит как для креативных, так и для повседневных задач.
- Нейронка может грубить: если попросить, chatgp сможет быть очень грубым ( привет Grok)
- Значительное улучшение в общении: Сэм Альтман отметил, что это первая модель, с которой он чувствует себя так, словно общается с очень внимательным человеком.
- Масштабный прогресс: в три раза точнее обрабатывает факты и почти в три раза реже допускает ошибки по сравнению с GPT-4.
- Чувствует контекст — лучше понимает тон, скрытые намёки и эмоции.
1млн токенов обойдутся в … 150$.
Новинку уже потихонечку раскатывают на пользователей с PRO-подпиской. Тестим тут.
https://cdn.openai.com/gpt-4-5-system-card.pdf