78469
Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
OpenAI сделали подписку Plus на ChatGPT бесплатной для всех американских и канадских студентов просто потому что у них скоро экзамены
С этого дня и до конца мая студентам будет предоставлен полноценный доступ ко всем фичам Plus (вообще тариф стоит 20$). Все что нужно – подать заявку и подтвердить место учебы. И все, можно два месяца бесплатно "готовиться к экзаменам".
То чувство, когда тебе в университете выдавали максимум пропуск в библиотеку 🚬
OpenAI поделились статистикой о том, сколько картинок сгенерировала их модель за неделю после запуска
🟦 Функцией воспользовались 130 миллионов человек. Это почти как население России.
🟦 Всего было сгенерировано более 700 миллионов картинок (вдумайтесь в это число)
Рост юзеров OpenAI за эту неделю был феноменальным. Альтман писал, что на пике было + миллион пользователей за час. Когда ChatGPT запускался два года назад, это был показатель за 5 дней. К слову, сейчас самый быстрорастущий спрос на ChatGPT – в Индии.
Gemini 2.5 Pro порвала очередной бенчмарк
Появились результаты модели на USAMO 2025 (это главная американская математическая олимпиада) – она выбила невероятные 24.4%. До Gemini модели набирали максимум 4.76% (это результат R1). o1-pro заскорила всего 2.83.
Основной интерес здесь в том, что на данный момент это самый свежий мат.бенчмарк, он вышел всего две недели назад. А значит нет никакого лика данных, и результаты максимально чистые.
matharena.ai/
OpenAI релизнули агентский бенчмарк PaperBench
Он оценивает способности агентов искать и безошибочно воспроизводить содержание свежих статей (важный навык для таких популярных штук, как Deep Researcher, например).
Для оценки взяли 20 докладов ICML 2024, вместе с авторами разбили каждую на подзадачи, и в целом получилось 8316 тасок на воспроизведение кода, понимание научной новизны, методологии и пр.
Казалось бы, задачи для современных агентов не очень сложные. Но, неожиданно, лучший результат – всего 21,0%, и выбил его агент на основе Claude 3.5 Sonnet (New). Скор o1-high тем временем – 13.2, а o3-mini-high – 2.6. Люди все еще справляются лучше 🚬
cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
Яндекс открывает новый сезон Тренировок по ML
Смотрите лекции, решайте задачи, поднимайтесь в рейтинге. В третьем сезоне Тренировки по ML сосредоточатся на теме Computer Vision. Вас ждут 4 темы с контестами по 10 задач. Вы изучите не только классические методы компьютерного зрения, но и генеративные модели, локальные дескрипторы изображений, детекцию, сегментацию, контрастное предобучение и многое другое.
Лучшие участники получат сертификат о прохождении Тренировок (нужно решить 20 из 40 задач), возможность пройти пробное техническое собеседование в Яндекс, проходку на топовый гик-фест о старте карьеры в IT Young Con и не только.
Участники, которые хорошо себя проявят, получат возможность пройти ускоренный отбор на стажировку или сразу в штат компании.
Подать заявку на Тренировки можно здесь.
OpenAI официально запустили свою OpenAI Academy для всех
Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.
В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.
Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.
Стоит заглянуть, в общем: academy.openai.com
OpenAI тоже решили пошутить на 1 апреля и добавили в ChatGPT новый голос «Monday»
Звучит он буквально как утро без кофе: разбито, саркастично и немного пассивно-агрессивно.
Чтобы поболтать с понедельником, нужно обновить приложение. Доступно платным юзерам при выборе в сайд-баре, а бесплатным на боковой панели в разделе Explore GPTs.
Осторожно, можно случайно заработать депрессию ☠️
🍀 ML-щики за экологию: студенты ШАДа вместе с Yandex B2B Tech разработали модель, которую будут применять для организации очистки берегов водоемов
Она принимает на вход обычные аэрофотоснимки, а отдает карту с координатами расположения мусора, его составом (например, пластик, древесина, резина и тд) и весом. Точность классификации – выше 80%.
Модель уже протестировали в Южно-Камчатском заказнике. Там технология помогла ускорить уборку в 4 раза за счет быстрого и точного планирования. Сейчас сетку также применяют в Арктике, а затем планируют использовать и в других национальных парках.
А еще весь код выложили в опенсорс: вот репозиторий 🌿
Amazon показали собственного веб-агента Nova Act
На внутренних бенчмарках компании (?) по показателям управления текстом и визуальными элементами сайтов он обходит Sonnet 3.7 и Computer Use OpenAI. Особенно они подчеркивают свой фокус на надежности использования.
Самим агентом воспользоваться пока нельзя, но Amazon открывают ричерч-превью в виде библиотеки Nova Act SDK, и вот это интересно. Либа дает возможность бить процессы на атомарные команды и именно таким образом выстраивать работу агента.
При этом к каждому этапу можно дописать "заметки" (типа "при входе на сайт не принимай куки"), прикрутить дополнительные APIшки, вставить тесты, распараллеливание и др.
Примеры | Документация | Блогпост
⚡️ MTS AI выпустила новую версию корпоративной LLM – Cotype Pro 2
Новая модель вошла в пятерку лучших русскоязычных LLM в бенчмарке MERA. Она адаптирована под более чем 100 бизнес-сценариев по таким направлениям, как взаимодействие с клиентами, поддержка HR-функции, аналитика данных, маркетинг, финансовая отчетность и проверка документации. При этом модель может быть развернута в закрытом контуре компании без внешних API.
Ключевые апгрейды:
+40% к скорости;
+50% к точности при обработке длинных текстов до 128K токенов.
Также Cotype Pro 2 продемонстрировала улучшенные результаты в решении основных задач: генерация идей (+13%), креативное письмо (+4%), суммаризация (+6%), чаты (+9%), извлечение информации (+5%). Точность в задачах классификации остается на высоком уровне - 87%.
Перед релизом модель прошла трехмесячное тестирование в реальных условиях: в банковской сфере она использовалась для категоризации клиентских обращений в службу поддержки, а в сервисе продажи билетов MTS Live — для генерации описаний мероприятий.
"Cotype Pro 2 можно считать первым шагом MTS AI к корпоративному агентскому ИИ. Эта модель станет основой для линейки ИИ-помощников и ИИ-агентов для госсектора, банков, промышленности, ритейла, телекома, медицины и IT", – сообщают разработчики.Читать полностью…
⚡️ Сэм Альтман купил DeepSeek
Сегодня ночью основатель OpenAI Сэм Альтман официально объявил о покупке стартапа DeepSeek и написал в своем Твиттере следующее:
«Мы очень ценим вклад DeepSeek в развитие open-source и обещаем сохранить традиции открытости. Поэтому теперь все их модели доступны в ChatGPT по нашей новой подписке Pro++ за 1500$ в месяц»
Многообещающе: к 2028 Авито планируют сделать из своей платформы монолитного интеллектуального ассистента и заработать на этом 21 миллиард рублей
За три года компания вложит в ИИ-технологии 12 миллиардов и планирует получить с этого более 21 миллиарда выручки. При этом часть денег также пойдет на образовательные программы в коллабе с вузами.
Интересно, что изначально Авито расчитывали на окупаемость 5 лет, но внезапно в 2024 у них уже появился реальный экономический эффект от внедрения первых ИИ-функций – 670 млн рублей. Теперь на 2025 запланирована реализация еще 20 новых сценариев использования.
В том числе в компании уже показали собственное семейство генеративных моделей – текстовую A-Vibe и мультимодальную А-Vision. Они обучены на базе Qwen2.5 7В с использованием более 10 терабайт данных. А еще инженеры прикрутили собственный токенизатор – и это помогло ускорить инференс в 2 раза.
Модельки помогут писать продающие тексты-описания, отвечать на вопросы о товаре, суммаризировать отзывы и многое другое. Потенциал домена действительно огромный.
P.S. Если хотите понять, как именно ИИ работает и приносит деньги в e-comm, почитайте нашу авторскую статью про ML в Авито: там много интересных тех. подробностей про LLM, рекомендашки и монетизацию.
🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей!
Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области!
Что тебя ждет:
☑️Денежный призовой фонд
☑️Автоматизированная оценка решений
☑️2 практические задачи:
1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию.
2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию.
Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день.
Регистрация уже открыта! Подробности и анкета по ссылкам выше.
Яндекс выложил в опенсорс Instruct-версию YandexGPT 5 Lite и упростил лицензию
До этого (с февраля) была доступна только Pretrain-модель, то есть та, которую не тюнили выполнять задачи, а только предобучили на большом корпусе данных. Instruct-модели дополнительно к этому обучают следовать инструкциям и элайнят, поэтому они умеют выполнять конкретные задачи по промпту. На HF выкладывали инстракт- и квантизованные версии, которые алайнили в сообществе.
Свежие веса вот здесь.Размер 8B, контекст 32к, есть GGUF и совместимость с llama.cpp, так что можно запросто погонять локально. По сравнению с предыдущей моделькой особенно большой скачок в кодинге и математике.
На бенчмарках бьет Qwen2.5-7B-Instruct и уже находится примерно на уровне с GPT-4o Mini в решении стандартных задач Яндекса. На русском языке и разметке текстов показывает себя даже лучше, а в Side by Side выигрывает в 62% случаев.
А еще обновилась лицензия, и теперь обе версии открытой модели можно можно использовать в коммерческих целях, если объём выходных токенов не превышает 10 млн в месяц.
Model Context Protocol – незаменимый инструмент для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.
В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
1. Архитектуру Model Context Protocol.
2. Основные возможности стандарта.
3. Примеры реализации: от простых к сложным.
Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupdatasecrets
А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.
MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
1. Динамические контекстные подсказки для системного аналитика.
2. AI-генератор дизайн-макетов по описанию требований.
3. Система визуализации BPMN-диаграмм.
MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.
Регистрация открыта до 11 апреля включительно: https://cnrlink.com/itonecupmldatasecretsmcp
В Meta показали собственную вариацию механизма внимания: Multi-Token Attention
В стандартном multi-head attention внимание вычисляется посредством сравнения запросов (Q) и ключей (K) для каждого токена с каждым. Но если нужная информация распределена между несколькими токенами, такой подход приводит к тому, что модель может не суметь правильно её обнаружить.
А Multi-Token Attention – это атеншн со свертками: исследователи добавляют в классический подход key-query convolution и head mixing convolution.
В измерении ключей и запросов свертки помогают учитывать не один токен, а окно из нескольких рядом стоящих. Аналогично на уровне голов – после применения софтмакса головы не сразу домножаются на значения (V), а сначала миксуются в свертки и как бы обмениваются информацией. Схемы – на 1 и 2 картинках.
Работает ли это? Да, на валидационных срезах снижается и перплексия, и количество ошибок модели. Особенно это видно на задачах, где нужно аккуратно работать с контекстом, типа BabiLong (рис 4) и Needle-in-the-Haystack (рис 5).
Вычислительно напряжно, конечно, но все-таки идея интересная
arxiv.org/pdf/2504.00927
Anthropic запускает версию Claude для учебы
Это будет специальный Learning mode внутри проектов, который отличается вот чем:
1. Вместо прямых ответов на вопросы и решения задач он будет, как учитель, давать подсказки и направлять на путь решения.
2. Обучен задавать вопросы, нацеленные на улучшение понимания учеником темы, и подстраиваться под его ответы.
3. Улучшенная генерация конспектов, роадмэпов, схем и всего, что может пригодиться в учебе.
Но сильно не радуемся: пока эта программа только для университетов. Для начала ее внедрят в Северо-Восточный университет, Лондонскую школу экономики и колледж Шамплейн.
Там абсолютно все преподаватели, студенты и сотрудники получат бесплатный доступ к Claude и Learning Mode. Плюс программы API грантов для студентов, конечно.
Также доступно, если вы подписчик Pro и адрес вашей почты заканчивается на .edu. Может и на простой народ когда-нибудь раскатят
Из Meta уходит руководитель отдела AI research
Джоэль Пино работала в компании 8 лет, из которых 2 года возглавляла FAIR вместе с Лекуном. Пино принимала участие в таких проектах, как PyTorch, FAISS, Roberta, Dino, Llama, SAM, Codegen, Audiobox и др.
Причина не уточняется, и немедленной замены у компании нет. Сама Джоэль пишет: "Сегодня, когда гонка за ИИ ускоряется и Meta готовится к следующей главе, пришло время освободить место для других".
Напоминаем, что в этом году Meta планирует потратить на ИИ 65 миллиардов долларов.
Вышла статья, в которой доказали, что GPT 4.5 прошла тест Тьюринга
Сразу оговорка: может показаться, что языковые модели уже давно прошли Тьюринга и вообще этот тест устарел. Но на самом деле это первая работа, в которой показаны такие устойчивые результаты LM в классическом культовом трёхстороннем варианте теста, а не его суррогатах.
Что подразумевает трехсторонний вариант теста? Это значит, что в каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем голосует. На картинке 3, кстати, показано, как именно чаще всего люди пытались выяснить правду.
Так вот, ученые из Сан-Диего протестировали GPT-4.5, LLaMa-3.1-405B, GPT-4o и старенькую классическую ELIZA. Им давали промпт "веди себя, как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг".
Win Rate GPT-4.5 составил (внимание) 73%. Это значит, что в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.
У ламы результат тоже ничего – 56%, но это все-такие ближе к случайной догадке. ELIZA выбила 23%, а GPT-4o и того меньше – 21%.
И как теперь админам ботов в комментариях ловить?
Заехал новый бенчмарк ArithmeticBench по математике
Точнее даже не по математике, а, как понятно из названия, по арифметике. Создатели – Epoch AI – пишут, что работали над ним с экспертами математиками, и в числе задач операции над 50-значными, 100-значными и даже 150-значными числами. Человеку на такое потребовались бы часы или даже дни.
Текущие скоры топовых моделей:
🟦 Gemini 2.5 – 8% на умножении
🟦 GPT-4.5 – 5% на сложении, но с делением все плохо
🟦 Claude 3.7 Sonnet – абсолютно мимо 🔤
x.com/EpochAIResearch/status/1907199415678578804
Как LLM выучивают факты: новое исследование от Google DeepMind
LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен. Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию. Так как именно происходит этот процесс "сжатия" датасетов в знания?
В DeepMind написали об этом целую работу. Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний.
Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:
➖ Сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще. Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов.
➖ Потом, внезапно, наступает долгий этап плато. Производительность стабилизируется, то есть кажется, что модель все еще не видит связей. Но на самом деле в этом время атеншн аллоцируется, и формируются особые схемы внимания (attention circuits), с помощью которых LMка выделяет ключевые элементы текста и начинает ассоциировать их между собой. Кстати, на этом же этапе начинают возникать галлюцинации.
➖ Ну и, наконец, фаза приобретения знаний. Тут происходит так называемый грокинг. Лосс очень быстро падает, и модель уже не опирается только на общую статистику, а способна воспроизводить точные факты.
И, кстати, это интересно не просто теоретически. Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты.
arxiv.org/pdf/2503.21676
Figure AI снова показали, как их роботы трудятся на заводе BMW
Уточняем: это не тестовая среда внутри завода, а реальное производство. Интересно, что гуманоиды работают на BMW уже несколько месяцев, но раньше только таскали железки. А теперь вот уже какое-то подобие взаимодействия со станком.
Работяги 🧑🏭
Еще одна приятная новость от OpenAI: обновленная нативная генерация изображений наконец-то доступна всем бесплатным пользователям
Несмотря на то, что несколько дней к ряду сервера стартапа буквально умирали, фичу все-таки докатили на фри юзеров, как и обещали.
Возможно, так в компании "отпраздновали" закрытие нового раунда инвестиций. Они привлекли рекордные 40 миллиардов долларов при оценке в $300 миллиардов. Теперь OpenAI официально делит второе место в списке единорогов мира с ByteDance (300 млрд). Дороже них остался только SpaceX (350 млрд).
А еще, на секундочку, это крупнейший раунд финансирования за всю историю частных тех.компаний. Однако пока OpenAI получит только 10 миллиардов. Остальное должно поступить к концу года, но только при условии, что к тому моменту стартап все-таки станет коммерческой организацией.
Ладно, друзья, теперь серьезно: OpenAI (о чудо!) планирует выпустить опенсорсную модель
Последним опенсорсным релизом компании была GPT-2, это было 5 лет назад. И вот сейчас Альтман объявил, что стартап вновь выпустит что-то открытое.
Что конкретно это будет – неизвестно, но напоминаем, что чуть больше месяца назад Сэм проводил в X опрос о том, какой опенсорс хотели бы видеть пользователи. Варианты были такие: локальная модель, которую можно запустить на утюге, или модель уровня o3-mini, которая запускается на GPU. С небольшим отрывом тогда победила вторая.
Возвращаясь к новости: сейчас разаботчики могут подать заявку на фидбэк сессии, то есть прийти, попробовать раннюю версию и оставить обратную связь.
🍯 Hugging Face совместно с Unsloth AI выпустили гайд по тому, как быстро научить любую модельку ризонить
Недавно Hugging Face добавили в свой NLP курс раздел "Build Reasoning Models". Внутри – подробнейшие наглядные объяснения, как работает обучение с подкреплением, ризонинг, GRPO и почему все это так бустит модельки.
А сегодня туда докатили еще и колаб-ноутбуки с практическими туториалами. Это буквально пошаговая end-to-end инструкция по тому, как завезти GRPO для любой модельки и заставить ее думать.
Вот ссылка на тетрадку с примером на gemma-3-1b, а вот теория к ней. Есть еще вариант с SmolLM-135M-Instruct. Для первого знакомства – идеально.
Gemini 2.5 Pro набрала 118 баллов IQ
Это достаточно большой отрыв от предыдущих результатов: для сравнения, o1-pro набирает 110, Claude 3.7 – 107, o3-mini – 104, GPT-4.5 и o1 – 97. Средний результат человека – 100.
Вопросов из датасета нет в интернете (по крайней мере, так говорит создатель). Все тесты проводит единственный человек – журналист Максим Лотт. Кстати, он также занимается тем, что трекает политические предубеждения моделек. Выходит довольно интересно (картинка 3).
trackingai.org
Кажется, Llama-4 появилась на LMSYS Arena
На арене появились три новые модели под кодовыми названиями Spider, Cybele и Themis. Все они утверждают, что созданы компанией Meta AI и принадлежат к семейству Llama.
Ждем? 🔵
Там OpenAI тонет под тяжестью Ghibli генераций
Вчера Альтман написал, что команда почти не спит, чтобы серверы выдерживали натиск спроса, и напрямую попросил аудиторию остыть.
Можно подумать, что это был маркетинговый ход чтобы, наоборот, еще больше подогреть интерес. Но нет: сегодня новым пользователям временно ограничили возможность генерировать картиночки в SORA.
А еще Сэм заявил, что «AGI, возможно, появится быстрее, если вы перестанете грузить наши GPU генерациями» 🫠
Видимо деплоя на фри юзеров не видать еще долго