48228
Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
Релиз Transformers v5 ! 🔥
Hugging Face выпустили Transformers v5 - обновление, которое стало логичным итогом бурного роста всего стека за последние годы.
Цифры впечатляют:
- 20k → 3 млн+ установок в день
- 40 → 400+ поддерживаемых архитектур
- ~1k → 750k+ чекпоинтов
- 1.2 млрд+ общих установок
Что нового в v5:
- полностью PyTorch-ориентированная архитектура
- модульные определения моделей
- подход quantization-first
- OpenAI-совместимый Transformers Serve (включая Responses API)
Transformers становится ключевым фундаментом открытого AI/ML-стека - для обучения, дообучения и моделей.
Новый этап экосистемы официально начался.
https://huggingface.co/blog/transformers-v5
🦾 KNN — интерпретируемый метод для задачи классификации и регрессии
Хорошая модель не всегда должна быть сложной. Иногда самый надёжный инструмент — это старый добрый k ближайших соседей (KNN). Метод, который доказывает: простота в машинном обучении не мешает эффективности. На открытом уроке разберём логику алгоритма: как он «находит соседей», принимает решения и почему остаётся одним из самых понятных и интерпретируемых подходов в ML.
Урок подойдёт тем, кто делает первые шаги в Data Science, хочет перейти в ML из смежных направлений или разобраться в базовых методах обучения без «магии нейросетей». KNN — отличная точка входа, чтобы понять принципы машинного обучения на интуитивном уровне.
8 декабря, 18:00 МСК. Открытый урок проходит в преддверии старта курса «Machine Learning. Professional». Регистрация открыта: https://otus.pw/h0a7O/?erid=2W5zFGNKei4
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🐋 DeepSeek выкатили не «ещё одну модель», а полноценную топ-систему уровня IMO/IOI/ICPC - при этом обучение и генерация стоят в десятки раз дешевле, чем у GPT-5 и Gemini 3 Pro.
Главное:
• DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде
• Новая флагманская модель совмещает рассуждения + агентность
• Архитектура MoE из семейства V3.1 Terminus, контекст 128k
• Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста
Что делает DSA
Обычное внимание - O(T²), что больно при 128k токенов.
DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов.
Как работает:
1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена
2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним
Как обучали
Начали с чекпоинта V3.1 (128k) и сделали 2-ступенчатое дообучение:
• Stage 1 - плотное внимание, замороженная модель, обучается только DSA
• Stage 2 - постепенный переход на DSA по всей модели
Итог: длинный контекст стал реально дешёвым, а качество выше, чем у предыдущих версий и конкурентов.
Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
llama.cpp (PR #16095) теперь поддерживает Qwen3-Next - новую гибридную архитектуру от Qwen.
Теперь Qwen3-Next можно запускать локально с эффективным CPU/GPU-инференсом. 🚀
https://github.com/ggml-org/llama.cpp/pull/16095
📚 У OpenAI снова юридические проблемы, и ситуация становится заметно серьезнее.
Суд обязал компанию передать внутренние переписки о том, зачем и почему были удалены два огромных датасета пиратских книг.
Если в этих сообщениях окажется, что сотрудники понимали незаконность данных и пытались quietly erase их, авторам будет проще доказать умышленное нарушение авторских прав. А это значит гораздо более высокие штрафы за каждую книгу.
Что известно сейчас:
- Авторы утверждают, что модели OpenAI обучались на больших наборах пиратских книг.
- Истцы уже получили Slack-переписки сотрудников по датасетам books1 и books2.
- Судья потребовала раскрыть документы, объясняющие мотивы удаления этих датасетов.
- Внутренние юристы OpenAI будут допрошены.
- Если окажется, что компания меняла объяснение причин удаления, это усиливает позицию истцов.
Почему это поворотный момент:
Суд указал, что OpenAI сначала объясняла удаление тем, что данные не использовались, а позже пыталась закрыть переписки под юрпривилегией. Такое изменение позиции суд расценил как отказ от привилегии. Поэтому теперь Slack-каналы project clear и excise libgen могут быть раскрыты.
Этот кейс создаёт значимый сигнал для всей AI-индустрии:
то, как компании обсуждают скрапинг, теневые библиотеки и чистку данных внутри Slack или других рабочих инструментов, может напрямую влиять на то, попадут ли они под обычные штрафы или под огромную финансовую ответственность.
hollywoodreporter.com/business/business-news/openai-loses-key-discovery-battle-why-deleted-library-of-pirated-books-1236436363/
🤖 Multi-Agent Evolve теперь полностью open-source 🚀
С его кодовой базой ты можешь взять любой LLM-чекпойнт и позволить ему саморазвиваться без внешнего надзора.
Это экспериментальная система, в которой агенты эволюционируют, создавая и оценивая собственные улучшения.
💻 Код:
https://github.com/ulab-uiuc/Multi-agent-evolve
🤗 Модели (Checkpoints):
https://huggingface.co/collections/ulab-ai/multi-agent-evolve
#AI #LLM #MultiAgent #OpenSource #EvolutionaryAI
🤖 Мир меняется быстрее, чем мы успеваем осознавать.
Китай начинает развёртывание гуманоидных роботов на границе с Вьетнамом.
Они будут помогать с навигацией путешественников, инспекциями, патрулированием, логистикой - и параллельно использоваться на промышленных объектах: металлургия, сталь, медь, алюминий.
Особое внимание на Walker S2.
Это первый гуманоид, который умеет автономно менять собственную батарею, фактически работая почти 24/7.
У него 52 степени свободы, ловкие руки, высокая грузоподъёмность, стереозрение и система UBTech BrainNet 2.0 / Co-Agent AI для автономного планирования задач.
UBTech уже получила заказы на 1.1 млрд юаней и планирует поставить 500 роботов в этом году, увеличить производство в 10 раз в следующем и выйти на 10 000 единиц в год к 2027.
Гуманоидные роботы - больше не прототипы.
Это новая часть инфраструктуры, которую начинают внедрять прямо сейчас.
https://interestingengineering.com/innovation/ubtech-secures-us37-million-deal
⚡️ VK открыл VK-LSVD — один из крупнейших датасетов для рекомендательных систем. Сейчас на его базе идет топовое соревнование по ML VK RecSys Challenge
🎯 Для чего подходит датасет
- Быстрый старт в рекомендательных алгоритмах
- Тест бэйзлайнов и гибридов «контент + поведение»
- Можно использовать для воспроизводимых тестов различных моделей
🔗 Подробнее + код: https://habr.com/ru/companies/vk/articles/970350/
В самом VK RecSys Challenge можно участвовать соло или командой до 4 человек, а подать заявку — до 15 декабря. Призовой фонд — 2 500 000 рублей.
@data_analysis_ml
⚡️ Математический roadmap для ML специалистов: от линала до теорвера
Это подробный гайд по математическому фундаменту, необходимому для понимания работы алгоритмов «под капотом». Материал полезен тем, кто хочет углубиться в теорию дальше вызова .fit() в scikit-learn.
Ключевые поинты:
* Структура: Roadmap базируется на трех дисциплинах:
1. Linear Algebra: Язык описания данных и моделей (векторы, матрицы, тензоры).
2. Calculus: Инструментарий для обучения и оптимизации (производные, градиенты).
3. Probability Theory: Фреймворк для оценки неопределенности.
Подход: Автор делает упор на интуицию, а не на заучивание формул.
Гайд связывает абстрактную математику с конкретными ML-задачами - от понимания того, как работает Backpropagation и SGD, до причин взрыва градиентов и выбора функции потерь.
🔗 Читать полную версию: https://thepalindrome.org/p/the-roadmap-of-mathematics-for-machine-learning
🔗 Мат база на русском: https://stepik.org/course/226596/info
@data_analysis_ml
🔥 Главное из нового интервью Ильи Суцквера (25 ноября 2025, Dwarkesh Podcast)
Самые интересные цитаты:
1. Масштабирование кончилось
> «Current scaling approaches will go some distance and then peter out»
2. Суперинтеллект уже на горизонте
> «Superintelligence in 5 to 20 years. You know what’s crazy? That all of this is real»
3. Главная проблема генерализация
> «A teenager learns to drive in 10 hours. Our best models still can’t after billions of examples»
4. RL стал самым дорогим и самым бесполезным этапом
> «Reinforcement learning already takes more compute than pre-training and gives almost nothing in return»
5. Дальше только исследования
> «We are squarely in the age of research, but this time with powerful computers»
6. У ИИ пока нет настоящих «эмоций»
> «Value functions are basically emotions. Without them alignment will stay fragile»
7. Цитата, которую уже растащили все сми
> «The gap between benchmark scores and real-world performance is getting embarrassing»
8. Про свою компанию SSI
> «We have no products, no distractions. Just safe superintelligence»
Главный вопрос он ставит так:
Какой супер-интеллект мы создадим -
«15-летнего гениального подростка, который жадно учится или «что-то уже полностью готовое и законченное. »
⏬ Привет, это Yandex for Analytics
Предлагаем размяться и проверить свои навыки. Ответы есть, но подглядывать во время решения — неспортивно ⬇️
🔵 Задача 1. Вспоминаем теорию вероятностей
🔵 Задача 2. Теорема Байеса
🔵 Задача 3. Базовая база теории игр
🔵 Задача 4. Тренируем SQL
🔵 Задача 5. Честная математическая статистика
🔵 Задача 6. Что-то на бизнесовом
💠 Скоро вернёмся с новыми задачами. А пока делитесь своими решениями в комментариях!
Подписывайтесь:
💬 @Yandex4Analytics
Запустите интеллектуальную базу знаний в облаке с AI
Корпоративная база знаний с AI — это централизованная система в облаке для хранения, управления и поиска информации, дополненная искусственным интеллектом. Встроенные в базу AI-ассистенты автоматически упорядочивают документы, отвечают на вопросы сотрудников и помогают быстро работать с большими объемами данных 😎
Сценарии использования:
❇️Создание и ведение продуктовой базы знаний
❇️Управление проектной документацией
❇️Хранение и быстрый поиск кадровых документов
❇️Ведение личных заметок сотрудниками
Обычно модель хорошо работает только на том датасете, на котором её обучили. Стоит поменять источник данных, качество падает.
В этой статье показывают простой приём: можно заставить нейросеть учиться так, чтобы она не могла определить, с какого датасета пришёл пример. В итоге она начинает выделять более общие, универсальные признаки, которые работают в любых условиях.
Метод очень лёгкий - добавляется к любой нейросети за несколько строк кода. Но результат стабильный: модель лучше справляется с новыми данными, которых раньше не видела.
Работа приятно выделяется: понятная идея, чёткое объяснение, реальные результаты, а не очередные «+2% на случайной метрике».
Почитать: chapterpal.com/s/386d57f4/domain-adversarial-training-of-neural-networks
PDF: arxiv.org/pdf/1505.07818
Хочешь перейти из BA в продакты?
Многие BA хотят стать продактами, но сталкиваются с проблемой: продуктовый контекст слишком широкий, и нет ощущения цельной картины.
Интенсив «Product Manager 2.0: менеджер продукта в эпоху ИИ» поможет закрыть разрыв между ролями быстрее и качественнее, чем год самостоятельных попыток.
Что ты получишь:
— понимание роли и компетенций Product Manager в эпоху ИИ, а не по курсам пятилетней давности
— чёткое разграничение: что делает AI, а что остаётся на плечах продакта
— работу с AI Operating Model: как меняются продукт и процессы, когда AI действительно встроен в операционку
— full-stack видение product development: Discovery, Delivery, стратегия, экономика
— практику гипотез, исследований, экспериментов и AI-прототипирования
— метрики, юнит-экономику, P&L, roadmap
Это — короткий мост между BA и PM, который помогает перестать быть “почти продактом” и стать им по факту.
3 дня, два опытных продакта в качестве преподавателей и международный сертификат ICP-PDM.
👉 Ссылка на программу
Реклама. ООО "СКРАМТРЕК". ИНН 9709056610. erid: 2W5zFHZ91pU
Gemini 3.0 Pro устанавливает рекорд в новом физическом бенчмарке - 9.1%
CritPt - новый исследовательский физический бенчмарк уровня аспирантуры, созданный более чем 60 учёными. Он проверяет ИИ на действительно новые, сложные задачи сразу в 11 разделах физики - и ни одна модель пока не преодолела порог в 9%.
Даже топовые системы вроде Gemini 3.0 Pro Preview набирают лишь 9.1%, подчёркивая, насколько далеко современные модели остаются от настоящих пост-град рассуждений в передовой физике.
https://x.com/ArtificialAnlys/status/1991913465968222555
🚀 Bytedance представила новую модель для кода - Doubao Seed Code
Новая версия умеет не только писать и понимать код, но и принимать изображения на вход, что открывает возможности для визуального анализа задач программирования.
Что известно:
- Поддержка image input
- Опубликованы бенчмарки и цены
- По результатам тестов, модель опережает Sonnet 4.5 на SWE-Bench-Verified и Multi-SWE,
но немного уступает на Terminal Bench
🧠 Doubao Seed Code — часть линейки моделей Bytedance, нацеленной на интеграцию LLM в рабочие процессы разработчиков и систем с edge-инференсом.
Подробнее и тестировать можно здесь:
🔗 https://exp.volcengine.com/ark?model=doubao-seed-code-preview-251028
⚔️ Преимущество OpenAI в ИИ уже не выглядит таким недосягаемым.
Google с Gemini 3 и Anthropic с Claude стремительно сокращают разрыв по качеству моделей, а сама OpenAI несёт огромные риски из-за вычислительных затрат и монетизации.
Что пишет FT:
- Google продвинула Gemini 3 выше GPT-5 на ряде бенчмарков.
Модель обучалась на собственных TPU, а не внешних GPU, и глубоко встроена в поиск и Android.
Благодаря этому приложение Gemini выросло до 650 млн пользователей в месяц.
- Anthropic делает ставку на надёжных корпоративных ассистентов и уже получила оценку выше $300 млрд.
Это превратило её в серьёзную альтернативу OpenAI для бизнеса.
- У OpenAI всё ещё гигантская база — 800+ млн еженедельных пользователей ChatGPT.
Но компания одновременно выпускает множество продуктов и подписала обязательства на около $1.4 трлн вычислительных мощностей на ближайшие 8 лет.
Сумма огромна по сравнению с текущей выручкой, поэтому OpenAI вынуждена активнее опираться на подписки, корпоративные сделки и модели монетизации уровня Sora, в нишах, где доминируют крупные рекламные платформы.
Общая картина такова:
- OpenAI - самая сильная потребительская марка, но с самыми тяжёлыми вычислительными обязательствами.
- Google - мощная инфраструктура и глубокая интеграция в экосистемы.
- Anthropic - доверие и деньги от enterprise-клиентов, стабильный рост и сверхвысокая оценка.
Гонка стала ближе и напряжённее: ранний рывок OpenAI больше не гарантирует лидерства.
Источник: Financial Times
ft.com/content/8881062d-ff4f-4454-8e9d-d992e8e2c4e3
Бизнесу данные нужны как воздух
На их основе компании принимают важные стратегические решения. Поэтому спрос на аналитиков растёт в самых разных сферах: от банковской до медицинской.
На курсе «Аналитика данных с МФТИ» готовят специалистов универсальной квалификации. За 10 месяцев вы научитесь использовать Python для анализа данных, применять методы ИИ в своих задачах и работать с базами данных.
С универсальными знаниями вы сможете строить карьеру в одном из трёх направлений аналитики:
☑️ Аналитика данных.
☑️ Data Science.
☑️ Инженерия данных.
После обучения получите дипломы о профессиональной переподготовке от МФТИ и Нетологии. Центр развития карьеры поможет с трудоустройством, резюме и портфолио.
Записывайтесь на курс и становитесь универсальным специалистом в аналитике → https://netolo.gy/eurg
Реклама. ООО “Нетология” ОГРН 1207700135884 Erid:2VSb5yCracR
🧮 Интересная и подробная статья о том, почему TPU становятся ключевым фактором в удешевлении инференса.
- TPUs дают примерно в 4 раза лучшую стоимость за производительность по сравнению с Nvidia GPU в задачах инференса
- Инференс за время жизни модели стоит в 15 раз дороже, чем её обучение
- К 2030 году инференс будет потреблять около 75 процентов всего AI compute (рынок на 255 млрд долларов)
Основная мысль проста: инференс полностью доминирует итоговую стоимость эксплуатации модели. Обучение модели уровня GPT-4 стоит примерно 150 миллионов долларов, но поддержание инференса - около 2.3 миллиарда долларов в год.
Nvidia H100 отлично подходит для гибкого обучения, но их универсальная архитектура добавляет лишнюю логику управления и движение данных, что увеличивает энергопотребление при простых forward-pass операциях — поэтому длительный инференс обходится дорого.
Google TPU - специализированные чипы для tensor math, построенные на систолических массивах и агрессивной инженерии энергопотребления. В итоге они потребляют примерно на 60-65 процентов меньше энергии и дают около четырёхкратного выигрыша по стоимости инференса трансформеров по сравнению с H100.
Практика это подтверждает:
Midjourney снизил затраты на инференс примерно на 65 процентов после перехода на TPU.
Anthropic закупает до миллиона TPU.
Meta, Salesforce, Cohere и многие другие также переводят всё больше трафика на TPU-поды, поскольку инференс стремительно растёт и к 2030 году станет около 75 процентов всех вычислений в AI.
ainewshub.org/post/ai-inference-costs-tpu-vs-gpu-2025
🖥 NVIDIA тихо выкатили -Orchestrator-8B
На бенчмарке Humanity's Last Exam (HLE) маленькая 8-модель обходит GPT-5:
37.1% против 35.1%, при этом работает примерно в 2.5 раза эффективнее.
Что вообще происходит?
Orchestrator-8B - это не просто ещё одна модель. Это “роутер” над стеком инструментов.
Она решает, отвечать ли самой или вызвать поиск, код-модель, API или другой LLM.
Вместо парадигмы «один огромный LLM делает всё» —
маленький мозг, который умно и экономно распределяет задачи между инструментами.
Чтобы этому научить, NVIDIA сделали ToolScale — гигантский синтетический датасет с многошаговыми задачами, где агент:
- видит доступные инструменты, их цену и задержку
- выбирает последовательность вызовов
- получает трассу идеального решения
- оптимизируется под качество, скорость и деньги
По сути, каждый пример — это инструкция:
“вот запрос, вот инструменты, вот их цены, вот как решить задачу оптимально”.
Алгоритм Group Relative Policy Optimization обучает политика так, чтобы она балансировала:
- точность
- скорость
- стоимость
- предпочтения пользователя
На HLE, FRAMES и tau-squared Bench оркестратор (Qwen3-8B внутри) обходит:
- tool-augmented GPT-5
- Claude Opus 4.1
- Qwen3-235B-A22B
И делает меньше дорогих вызовов, лучше адаптируется к новым инструментам и ценам — и всё это в открытом доступе для ресёрча под лицензией NVIDIA.
Вывод: маленький интеллектуальный оркестратор поверх набора инструментов может выдавать фронтирный уровень агентных возможностей — но с точным контролем вычислений и бюджета.
ToolScale учит не “зови самый большой LLM”, а думай, сколько это будет стоить, и выбирай оптимальный путь.
Это именно тот сдвиг, который мы ждали в эру “AGI из инструментов”, а не из гигантских монолитных моделей.
huggingface.co/datasets/nvidia/ToolScale
@data_analysis_ml
Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆
В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.
Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
Новая научная работа от Apple -⚡️ серьёзный шаг к следующему поколению видеогенерации.
Команда представила STARFlow V
полностью каузальную видеомодель, которая по качеству конкурирует с диффузионными системами
и обучена как единая сквозная архитектура.
Основная идея
STARFlow V — первый нормализующий поток, который:
- показывает конкурентное качество длинных видео
- работает одинаково с текстом, изображениями и видео
Чем отличается от диффузии
Ранние видеогенераторы использовали многошаговую диффузию.
STARFlow V вместо этого применяет:
- один обратимый маппинг между шумом и видео
- без сотен итераций очистки
- без пошагового шума
Как устроена модель
Каждый кадр сжимается в скрытый компактный код.
Дальше работают два ключевых компонента:
- Глобальный блок
- отвечает за временную последовательность
- работает авторегресивно
- каждый латент зависит только от предыдущих
- уменьшает накопление ошибок на длинных роликах
- Локальные блоки
- отвечают за детализацию внутри кадра
- усиливают качество визуальных элементов
Трюки обучения
Модель обучают с дополнительными техниками:
- добавляется малый искусственный шум для устойчивости
- применяется каузальный денойзер flow score matching
- он убирает шум, заглядывая только на один кадр вперёд
- используются параллельные Jacobi блоковые обновления для ускорения
Результаты
STARFlow V демонстрирует:
- качество почти уровня диффузии
- более стабильные длинные видеоролики
- единую архитектуру для всех задач
- полностью каузальную генерацию
arxiv.org/abs/2511.20462
NeurIPS 2025: краткий разбор ключевых наград
Оргкомитет опубликовал победителей. Общий тренд — работы про масштабирование моделей, устойчивость обучения и фундаментальные теоретические результаты.
🏆 Special Awards
- Test of Time (2015): Faster R-CNN
- Ввели RPN, отказавшись от Selective Search.
- Сделали детекцию полностью end-to-end и задали стандарт индустрии на десятилетие.
- Sejnowski–Hinton Prize (2016): Feedback Alignment
- Показали, что backprop работает даже при случайных фиксированных обратных весах.
- Это решает «weight transport problem» и делает алгоритм ближе к биологически правдоподобным.
🌟 Best Papers (Main Track)
- Architecture: Gated Softmax Attention
- Решает нестабильность больших трансформеров и проблему attention sinks.
- Добавляет простое sigmoid-gating для отдельных heads.
- Даёт стабильность почти без оверхеда; уже используется в Qwen3-Next.
- RL: Scaling to 1024 Layers
- Self-Supervised RL сделал возможным обучение сети глубиной 1024 слоя.
- На задачах локомоции — до 50× улучшения относительно стандартных моделей.
- Theory: Diffusion Dynamics
- Выделены две фазы обучения диффузионных моделей: быстрая generalization и медленная memorization.
- Формализована implicit regularization, объясняющая поведение моделей.
- LLM: Artificial Hivemind
- Анализ того, как разные LLM начинают давать похожие ответы.
- Новый датасет Infinity-Chat для изучения этого эффекта и потери разнообразия.
- Theory: Online Learning Gap
- Доказан квадратичный разрыв в sample complexity между transductive и обычным online-обучением.
- Закрытие старой теоретической задачи.
🔗 Полный список: https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/
💸 Акции ведущих производителей просели на фоне резкого усиления интереса к TPU от Google.
- NVDA упала примерно на 6 процентов
- AMD упала примерно на 8 процентов
- ORCL снизилась примерно на 5 процентов
- CRWV просела примерно на 8 процентов
Спрос на AI никуда не исчез.
Anthropic а теперь и Компания Цукерберга начинают переносить серьезные рабочие нагрузки на TPU от Google.
Рынок заново оценивает расстановку сил в индустрии.
TPU Google воспринимаются как реальная альтернатива GPU.
@data_analysis_ml
✔️ Upwork* опубликовал исследование с громким выводом:
самые мощные LLM-агенты часто не справляются даже с простыми рабочими задачами, если действуют полностью самостоятельно.
Но стоит подключить эксперта-человека - и успешность выполнения растёт до +70%.
🔍 Что выяснили
- Upwork провёл 300 реальных оплачиваемых проектов (до $500) в областях: написание текстов, дата-сайенс, веб-разработка, инженерия, продажи, перевод.
- Задачи были специально упрощены, чтобы дать агентам шанс.
- Даже так - агенты, работающие в одиночку, часто проваливались.
- Но когда опытный фрилансер давал короткий отзыв (в среднем 20 минут), качество резко росло с каждой итерацией.
📊 Конкретные цифры
- Claude Sonnet 4 (данные): 64% → 93%
- Gemini 2.5 Pro (маркетинг/продажи): 17% → 31%
- GPT-5 (инжиниринг): 30% → 50%
Эффект особенно заметен в задачах, требующих вкуса, контекста и оценочных решений: письмо, маркетинг, перевод.
Там один цикл обратной связи повышает результат на до +17 пунктов.
Бенчмарки мало отражают реальную работу.
В исследовании использовали строгий pass/fail на финальном результате, плюс внешнюю независимую проверку.
Паттерн очевиден:
- детерминированные задачи (код, преобразование данных) — агенты справляются лучше
- творческие и «открытые» задачи — агенты ошибаются чаще
💰 Экономика
Связка «агент + эксперт» дешевле и быстрее, чем «человек в одиночку».
AI-расходы на Upwork выросли на 53% YoY в Q3-25.
Еще Upwork строит Uma оркестратора, который направляет задачи между людьми и моделями, проверяет результаты и замыкает улучшение по циклу.
*Upwork - это крупная международная онлайн-биржа фриланса
Полный отчёт: upwork.com/static/webflow/assets/webflow-human-agent-productivity-index/upbench_paper.pdf
🧠 Depth Anything 3: Восстановление визуального пространства из любых видов
Depth Anything 3 (DA3) — это модель, предсказывающая пространственно согласованную геометрию из произвольных визуальных входов. Она использует простой трансформер и уникальное представление глубины, что позволяет достигать высоких результатов в оценке глубины и позы.
🚀Основные моменты:
- 💎 Модель DA3 превосходит предыдущие версии в оценке глубины.
- 🌊 Поддержка монокулярной и многовидовой оценки глубины.
- 🎯 Оценка позы с высокой точностью.
- 🔧 Удобный интерфейс и возможность экспорта в разные форматы.
- 📐 Специальные модели для метрической оценки глубины.
📌 GitHub: https://github.com/ByteDance-Seed/Depth-Anything-3
#python
⚡️ OpenAI, Anthropic и Google только что получили доступ к петабайтам закрытых экспериментальных данных. Эти данные десятилетиями копили 17 Национальных лабораторий США.
И речь уже не про «улучшение чатботов». Новая государственная программа США — Genesis Mission - официально строит автономных научных агентов.
Они называют это «закрытым научным контуром» (Closed-Loop discovery), и это меняет саму физику изобретений. Не человек использует инструменты — система работает полностью автономно.
Схема, описанная в дорожной карте DOE, выглядит как научная фантастика:
• AI проектирует: смотрит на массивы данных и формирует гипотезу вроде «если смешать эти сплавы при 4000°C - получится сверхпроводник».
• Он отправляет инструкции в роботизированную лабораторию (которую строит DOE), чтобы физически смешать материалы.
• Робот мгновенно возвращает результаты. Если эксперимент провален - AI корректирует формулу.
• Такой цикл прогоняется тысячами итераций, без пауз, 24/7.
Genesis Mission - это попытка впервые в истории построить систему, где наука создаёт саму себя. Без человека в центре.
💡 Синтетические картинки, которые обучают лучше реальных
Исследователи из MIT показали неожиданную вещь:
крошечный синтетический датасет может обучать linear probes на огромных vision-моделях лучше, чем настоящие изображения.
Они создали метод Linear Gradient Matching (LGM), который делает следующее:
1) Берут замороженную модель-основу (DINO, CLIP и т.д.)
2) Смотрят, какие градиенты она выдаёт на реальных изображениях
3) Генерируют синтетические картинки так, чтобы градиенты совпадали
4) Обучают линейный классификатор - и он работает лучше, чем при обучении на исходных данных
Почему это полезно:
— работает между моделями (генерировано под DINO → отлично работает в CLIP)
— особенно сильна на тонких классификациях, где важны микродетали
— помогает увидеть, на что реально смотрит модель: спурьёзные корреляции, похожие кластеры, структуру embedding-пространства
Это меняет представление о данных.
Раньше: «Нужно собрать миллионы картинок».
Теперь: «Нужно правильно сгенерировать десятки».
arxiv.org/abs/2511.16674
⚡️ Сэм Альтман: ИИ меняет ценность профессий
По словам Сэма Альтмана, ИИ резко меняет то, сколько стоят разные профессии.
Если твоя работа - за компьютером (кодинг, дизайн, написание текстов), ИИ уже умеет делать большую часть таких задач быстро и дёшево. Это снижает ценность цифровых профессий.
Почему так?
Потому что проще всего автоматизировать работу, основанную на знаниях и мышлении. А вот профессии, где нужно быть физически на месте и работать руками сантехники, электрики, хирурги, логистика, доставка- защищены намного лучше. ИИ пока слаб в физическом мире.
Получается интересный переворот:
Работы, считавшиеся «престижными» из-за высокого интеллектуального порога, становятся менее особенными - ИИ делает их слишком быстро.
А профессии, связанные с реальным миром и ручными навыками, наоборот, растут в ценности.
ИИ меняет отношение к цифровому труду:
Не так важно, насколько ты хорош в компьютерных задачах - ИИ легко копирует такую работу. Важнее то, что ты можешь *создать*, *починить*, *построить* или *сделать* своими руками.
И это затрагивает не только рынок труда.
Когда ИИ берёт на себя интеллектуальные задачи, которые раньше давали людям чувство вызова и значимости, многие начинают искать удовлетворение в реальной, физической работе.
В том, где результат - не в файле, а в реальном мире.
🌟 RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena.
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
🟡Технические детали.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile.
Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
🟡Стабильность.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
🟡Статья
🖥Github
@ai_machinelearning_big_data
#AI #ML #RL #Miles #LMSYS