data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

55444

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

⚡️ Qwen опенсорснули настоящую омни-мультимодальную модель на 7B

Qwen2.5-Omni-7B может принимать на вход видео, аудио, текст и картинки, и отвечать аудио или текстом. То есть с моделькой теперь можно общаться по «видеосвязи». Немного технических деталей:

В целом архитектура поделена на thinker и talker

Thinker – это трансформер, который декодит модальности и генерирует ответы и эмбеддинги для talker’а

Talker – авторегрессионка для говорения. Принимает на вход эмбеддинги от thinker’а и генерирует токены речи в стрим режиме

Надо понимать, что это не отдельные модели: оба модуля обучаются одновременно и работают end-to-end

Метрики для 7В замечательные. Обходит даже Gemini 1.5 Pro.

Веса (лицензия Apache 2.0)
Статья
Попробовать

Читать полностью…

Data Secrets

OpenAI начали встраивать MCP от Anthropic в свои продукты

Природа настолько очистилась Model Context Protocol от антропиков стал настолько популярным и так быстро оказался золотым стандартом, что даже OpenAI не устояли и объявили о том, что будут его использовать.

Сейчас они уже встроили MCP в библиотеку Agents SDK (пост о ней). То есть теперь при разработке агентов к ним можно прикручивать серверы MCP и тем самым расширять их скиллы.

Также обещают завести протокол в API и дескотопное приложение (вот это будет особенно круто).

Что такое MCP? Это открытый протокол, который стандартизирует то, как приложения/сайты/базы данных предоставляют контекст LLM. Раньше, чтобы ваша моделька "увидела" и могла постоянно использовать данные из внешнего источника (ну, например, гугл календаря), приходилось каждый раз плясать с бубном и реализовывать все с нуля.

А теперь есть MCP, и он работает как часы со всеми возможными локальными и удаленными источниками данных. Подробнее – в этом и этом постах.

Протокол крут и все его полюбили, потому что он (а) понятный и супер удобный и (б) достаточно безопасный. Смотрите сами: таких MCP уже наплодили миллион для абсолютно всего, вот здесь есть готовые на любой вкус.

Читать полностью…

Data Secrets

Исследовали реализовали отдельный arxiv для агентов-исследователей

Проект называется AgentRxiv и его идея следующая: пусть агенты работают не сами по себе, а как люди делятся, изучают и совершенствуют исследования друг друга.

То есть по сути AgentRxiv – это опенсорсный фреймворк, который дает разным лабораториям возможность добавлять своих агентов на некую общую платформу шеринга, внутри которой те могут «обмениваться идеями».

Звучит занятно, и по первым тестам работает неплохо: в эксперименте с тремя разными лабами результаты агентов с такой коллаборацией улучшились на 13.7%. Это больше, чем при последовательном автономном самоулучшении.

Может скоро у агентов и конференции свои появятся?

Статья | Репа (лицензия MIT)

Читать полностью…

Data Secrets

Оказывается, чтобы расти в доходе в ML и IT, недостаточно закончить топовый матфак, работать 24/7 и знать все фреймворки мира

Да, это круто, но это – далеко не главное. На самом деле чаще всего выигрывают люди с прокаченным софт скиллами – те, кто уверенно ведет диалог и грамотно доносит ценность своих решений.

Вот вам пример: Senior ML-инженер Олег Андриянов рассказывает в своем канале, как его доход вырос за 4 года в 12,5 раз. В блоге куча крутых статей, вот наш топ-3:

Как гарантированно повысить свою зарплату?

Какие 2 ключевых софт-скилла делают тебя на голову выше конкурентов на рынке труда?

Как Олегу удалось вырасти в доходах в 12,5 раз за 4 года?

У автора большой опыт руководителя, так что он знает, чего хочет от сотрудника индустрия, и в его канале – не фантазии, а настоящие практические инструменты, которые помогут быстрее достичь карьерных целей.

Подписывайся, если хочешь стать незаменимым в любой IT-команде: @andriyanov_leads

erid: 7W5lYk19TYU

Читать полностью…

Data Secrets

Пока новый фотошоп от OpenAI продолжают раскатывать на юзеров, примеры его работы можно посмотреть здесь: openai.com/index/introducing-4o-image-generation/

Как видите, в примерах из блогпоста у модели все более чем нормально с текстом, его написанием / заменой / обработкой на картинках. Также поддерживает изменение ratio, и инструкциям следует просто отлично. Может даже сгенерировать картинку по коду. Ну и реализм в генерациях фото на высоте.

В общем, наслаждаемся черипиками и надеемся, что на тестах пользователей все будет также сказочно (фри юзерам тоже будет доступно)

Читать полностью…

Data Secrets

Сегодня в 21:00 – новый стрим OpenAI

Кажется, собираются показывать встроенную в чат генерацию и редактирование изображений

Вторая картинка – реакция инженеров из Google :)

Читать полностью…

Data Secrets

Есть среди нас любители хакатонов?

Для вас нашелся крутой ресурс: канал Лидеров цифровой трансформации. Внутри:

Самые актуальные новости IT
Куча полезных материалов для прокачки ваших скиллов
Эксклюзивные предложения от партнеров
Авторский юмор
Большое сообщество, в котором можно собрать команду на хакатон или найти единомышленников

А совсем скоро в канале анонсируют самый масштабный весенний хакатон страны.

Не пропускайте и подписывайтесь на канал.

Читать полностью…

Data Secrets

Google, кажется, готовится к большому релизу

На Lmarena появились результаты двух новых моделей компании. Первая, под кодовым названием Nebula, обходит последнюю o1 и Sonnet 3.7. Вторая – phantom – где-то на уровне Grok-3 и GPT-4.5 (но дисперсия какая-то конская). Вероятно, это новые Gemini 2.0 Pro Thinking и Gemini 2.0 Flash Thinking.

Еще в лидерборде фигурирует centaur – видимо какая-то небольшая, возможно не reasoning модель уровня o3-mini.

Выглядит многообещающе, так что ждем

Читать полностью…

Data Secrets

Ух ты: ученая из Университета Йювяскюля в Финляндии решила задачу, на которую математики не могли найти ответ 40 лет

Это настоящий прорыв в топологии. Задача касается классификации квазирегулярно эллиптических 4-многообразий, то есть понимания того, какие четырехмерные пространства могут быть образованы путем деформации стандартной четырехмерной евклидовой геометрии.

Проблему сформулировал еще в 1981 Михаил Громов. Больше 40 лет в ней не было почти никаких подвижек, пока на днях свою докторскую дисертацию не опубликовала Сусанна Хейккиля.

Девушка, кстати, любит вязание и говорит, что это самый простой способ понять и представить топологию на практике. На презентации этой работы она также объясняла свою идею с помощью вязаной сферы 🙂

Статья

Читать полностью…

Data Secrets

⚡️Решаем тестовое задание в Магнит Tech на позицию аналитика данных в прямом эфире

Умение качественно выполнить тестовое задание для любой компании - это важный элемент успешного поиска работы. Чтобы выделиться среди других кандидатов, нужно понимать, что лежит под капотом каждого инструмента, а не следовать конкретному заученному алгоритму.

Эти навыки приходят с опытом нарешивания боевых задач и тестовых, одно из которых мы разберем на бесплатном вебинаре с Павлом Беляевым - руководителем группы дата-аналитиков в компании Яндекс eLama.

Что мы будем делать на вебинаре:
🟠познакомимся с тестовым заданием одной из крупнейших ритейл-сетей «Магнит»;
🟠с помощью SQL потренируемся искать нужное в товарном ассортименте;
🟠с помощью Python научимся определять слова-палиндромы.

А ещё — увидим тестовое задание по SQL eLama, безотказно работавшее 6 лет. В нем есть важный нюанс, на котором многие сыпались!

🕗 Встречаемся 25 марта 18:30 по МСК

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Data Secrets

Midjourney внезапно опубликовали статью про языковые модели

Оказывается, они активно экспериментируют с файнтюнингом LM на задачи креативного написания текстов. Это действительно актуальная проблема, потому что основные методы пост-трейна, которые направлены на повышение качества генерации, также частно приводят к понижению разнообразия и креатива в ответах. Из-за этого модели и разговаривают часто "не по-человечески".

В статье же предложили вместо классики использовать видоизмененный RL с добавленным «отклонением» (deviation). На практике классические лоссы DPO и ORPO просто домножаются на нормализованную меру того, насколько конкретный ответ отличается от остальных вариантов по тому же промпту.

Получается, модель учится не только генерировать качественный текст, но и демонстрировать разнообразие в стиле и семантике. И это работает: на reddit-reward результаты вот так затюненой Llama-3.1-8B почти совпадают с показателями человеческих данных. То есть люди практически не отличают креативные тексты даже такой крошечной модели от людских.

В общем, Midjourney однозначно удивили. Было бы забавно увидеть от них какую-нибудь не image модельку на проде. Статья

P.S. Что-то подобное недавно показывал в своем твиттере Альтман: он говорит, что OpenAI тоже разработали Creative Writing модель и даже опубликовал пример того, как она пишет рассказ. Однако никакого намека на то, что она выйдет для юзеров, не было.

Читать полностью…

Data Secrets

Тот самый джун в понедельник утром готовится писать «import numpy»

Продуктивной недели, друзья ✨🍌✍️ 🧊

Читать полностью…

Data Secrets

AI-агенты на практике без поверхностного хайпа

Наши друзья из Школы Высшей Математики снова проводят крутой открытый вебинар на актуальную тему. На этот раз разбирают AI-агентов. Будет все по полочкам:

Что такое агенты, чем они отличаются от LLM и чат-ботов
Как они устроены под капотом
Последние тенденции и действительно важные разработки
Как на самом деле агентов можно и нельзя применить в бизнесе
В конце – самое интересное. Практический гайд по разработке: с лекции уйдете с собственным агентом на LangGraph.

Спикеры – ML Engineer из Sber CIB Фёдор Азаров и к.ф.-м.н. и руководитель ШВМ Александр Лыков.

Все пройдет 26 марта в 18:15. Регистрируемся – здесь.

P.S. Больше информации о вебинаре и других полезных ML-материалов – в тг-канале ШВМ, сохраняйте.

Читать полностью…

Data Secrets

Редкие кадры: два вайб-кодера пишут свое приложение

Дикая природа удивительна

Читать полностью…

Data Secrets

У Google вышло очень занятное исследование: они сравнили, как LLM и человеческий мозг обрабатывают язык

В качестве LM взяли Whisper, а нейронную активность человека записывали с помощью интракраниальных электродов во время спонтанных разговоров. Затем векторы эмбеддингов модельки наложили на векторы паттернов мозга и оценили линейную зависимость. Вот что получилось:

Соответствие удивительно четкое и геометрия эмбеддингов в LLM (то есть отношения между словами в embedding-пространстве) соотносится с представлениями в мозге.

Во время слушания Speech-эмбеддинги явно коррелируют с активностью в слуховой коре (верхняя височная извилина), затем language-эмбеддинги коррелируют с активностью в зоне Брока (нижняя лобная извилина).

Во время говорения – наоборот. Language-эмбеддинги сначала "активируются" в зоне Брока (планирование высказывания), затем speech-эмбеддинги активируются в моторной коре (непосредственно говорение), и в конце снова в слуховой коре при восприятии собственной речи.

Это удивительно, потому что технически мозг и LLM используют разные подходы. Да, и там и там нейроны, но в науке принято считать, что мозг "использует" символьный подход, то есть полагается на четкие семанические структуры, синтаксис и иерархию слов. В модельках такого нет, они понимают язык статистически.

И все-таки получается, что обычный next token prediction оказывается очень похож на реальный нейронный код, и мы неожиданно близко подобрались к моделированию мозга.

research.google/blog/deciphering-language-processing-in-the-human-brain-through-llm-representations/

Читать полностью…

Data Secrets

О, открыли регистрацию на новый ARC Prize 2025

ARC Prize идет уже несколько лет и это, пожалуй, один из главных международных ИИ-хакатонов мира. Особенно много внимания он собрал в 2024 (вот пост о соревновании и разбор решений победителей №1, №2). Но в 2025 будет еще интереснее:

Датасет заменили с ARC-AGI-1 на свежий ARC-AGI-2

В предыдущие годы многие победные решения основывались на брутфорсе. С новым датасетом это почти невозможно, а значит решения будут позанятнее. Также добавили допольнительную overfit protection на Kaggle

Grand Prize (премия победителям, которые пробьют 85%) увеличилась еще больше с $600k до $700k

Соревнование продлится до ноября. Детали и регистрация тут: arcprize.org/competition

Читать полностью…

Data Secrets

Ура, наконец-то не походка Байдена: FigureAI рассказали, как они научили своего робота ходить по-человечески

Естественная ходьба для роботов – это не так просто, как кажется, потому что так намного сложнее контролировать равновесие и перенос веса по сравнению с ходьбой с согнутыми коленями на полной стопе (а именно так сейчас предвигаются почти все гуманоиды).

Но Figure запарились и теперь походка их роботов Helix действительно похожа на человеческую. И снова в основе всего обучения – RL и симуляция, но при этом переход Sim-to-Real в стартапе умудрились сделать в zero-shot, вообще без доп. тюнинга. То есть:

1. Собрали кучу данных (годы в реальной жизни)
2. Смоделировали все в высокоточной физической симуляции буквально за несколько часов
3. Обученные политики напрямую перебросили в реальные экшены робота

Кажется, Figure первые, кому удался такой трюк, и получилось это с помощью двух вещей:

(1) в симулятор добавляли вариативность среды, чтобы модель получилась устойчивой и умела обобщать навыки на разную физику;

(2) во время инференса очень часто и точно трекаются крутящие моменты двигателей. Идея в том, что чем чаще робот получает такой фидбэк, тем быстрее он может заметить и отреагировать на любые отклонения от планового движения.

Здорово, в общем. Напоминаем, что в 2025 Figure планируют запустить целый завод по производству роботов и начать тестировать их в настоящих домах.

Читать полностью…

Data Secrets

AlphaXiv становится все прикольнее и прикольнее: теперь в него завезли анализ кодовой базы статьи

Представьте: вы читаете какую-то статью, у вас появляется вопрос и вы задаете его встроенному ассистенту. А тот, отвечая на него, анализирует не только текст статьи, но и репозиторий к ней (если такой имеется). Таким образом, ответы получаются более технически точными и без додумок, если в тексте что-то описано нечетко.

Также можно попросить бота объяснить кусочки кода или даже адаптировать его под ваш проект.

Итого, в AlphaXiv теперь есть: бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям, анализ кода и генератор конспектов 🍯

Читать полностью…

Data Secrets

Генерация изображений побеждена?

Фотошоп и нативную генерацию картинок 4o закончили раскатывать на Pro, Plus и Team (Free еще продолжают), и первые юзеры в восторге от модели. Она справляется буквально с любой задачей, примеры наверху 👆

И, самое интересное, что это не диффузия, а авторегрессия. Вот тех.отчет

Читать полностью…

Data Secrets

Итак, нативная обработка изображений от OpenAI вышла, работает супер и даже доступна бесплатным пользователям

Но... Google затмил сегодня вечером всех, выпустив Gemini 2.5 Pro. Это та самая модель, которая на арене висела на первом месте под названием Nebula.

Контекст – миллион (!) токенов, на бенчмарках почти везде обходит o3-mini, GPT-4.5, R1, Sonnet 3.7, Grok-3 и остальных. Естественно, мультимодальная + есть ризонинг.

Попробовать уже можно здесь, а вот блогпост

Читать полностью…

Data Secrets

А вот и официальный анонс нового чекпоинта DeepSeek-V3 с бенчмарками

Зацените: прирост на LiveCodeBench + 10 процентных пунктов, а на AIME 2024 аж +20. При этом цена не изменилась.

Лучшая не-ризонинг модель для математики и программирования, получается?

Читать полностью…

Data Secrets

Тест на IQ 2.0: оказывается, плюсом ко всему создатели нового ARC-AGI-2 сделали песочницу, в которой можно порешать задачки бенчмарка самому (и убедиться, что ты все еще умнее LLM)

По данным создателей, в среднем человек решает 60% без какой-либо предварительной подготовки.

И задачки, кстати, действительно интересные. Всего их 120, хватит на целую неделю: arcprize.org/play?task=1ae2feb7

Делитесь самыми сложными в комментариях

Читать полностью…

Data Secrets

⚡️ Вышел ARC-AGI-2

Это вторая версия того самого бенчмарка от ребят из Google, на котором гоняют все ризонинг модели и который считается основным тестом на AGI способности (немного больше про бенч в этом и этом постах).

Отличается он тем, что это не просто ответы на вопросы, а решение головоломок, которое требует от системы умения рассуждать, рекомпозировать и обобщаться на новые задачи.

В предыдущей версии задачи выглядели, как на картинке 2, и в целом бенчмарк был побежден моделькой o3, которая выбила > 85%.

Так что авторы пошли дальше и сегодня объявили, что выпускают вторую, еще более сложную версию бенчмарка специально для теста моделей нового поколения. Задачи в нем будут выглядеть примерно как на картинке 3, 4 и 5.

А картинка 1 – это скоры сегодняшних LLM на ARC-AGI-2. Абсолютно все модели выбивают < 5%, даже o3 и o1-pro. Не ризонинг вообще ни с чем не справляются, там рейтинг около 0.

При этом надо сказать, что люди все еще решают эти задачи легко (авторы тестировали на выборке из 400 человек). То есть это все еще не про какие-то сверхспособности, а про простое «человеческое» умение применять символьную интерпретацию, контекст и композиционное рассуждение.

Кайф youtu.be/z6cTTkVqAyg

Читать полностью…

Data Secrets

Там мощно обновился DeepSeek-v3

Вообще, это должно было быть рядовое обновление, как время от времени обновляют чекпоинты 4o или других моделей.

Но пользователи говорят, что в данном случае разница в способностях с предыдущей версией разительная, особенно на математике и программировании.

В конфигах ничего особо не поменялось, так что за деталями ждем тех.отчет.

Веса – здесь (почти 700GB 💀). В официальном чате обновления пока нет, но OpenRouter уже все раскатили, так что попробовать бесплатно можно тут

Читать полностью…

Data Secrets

"Лучше учиться использовать ИИ, чем учиться программировать"

Сэм Альтман в своем новом интервью сказал, что (возможно) в будущем компаниям нужно будет не так много инженеров, и что лучшая тактика сейчас – это в первую очередь научиться хорошо использовать ИИ.

"Это естественно, что ИИ будет умнее людей. Мой ребенок никогда не вырастет более умным, чем ИИ. Это нормально, и нам надо переосмыслить то, как ИИ и люди должны взаимодействовать"


base

Читать полностью…

Data Secrets

МТС добавили в свои MTС Web Services платформу для автоматизации разработки Container Platform

Это Kubernetes, DevOps, AI и Data Services в одном флаконе. То есть с таким инструментом не нужно самостоятельно настраивать разные процессы и думать о их совместимости, а можно сосредоточиться именно на продукте. Чем это круто:

Экономит время. Почти всю рутину Container Platform автоматизирует без заморочек.

Снижает косты. Например, платформа поддерживает работу с GPU и позволяет сделать видеокарты эффективнее на 75%.

Упрощает мониторинг. Внутри – Service Mesh на базе Istio, а это == полная наблюдаемость за микросервисами. Можно быстро находить узие места и отслеживать производительность в реальном времени.

А еще у Container Platform открытая архитектура, так что переезд на нее будет максимально плавным и гарантировано ничего вам не поломает.

Подробности – здесь

Читать полностью…

Data Secrets

RL для оптимизации схем квантовых вычислений

Помните ИИ-систему AlphaChip от Google, которую они используют для дизайна TPU? Так вот: теперь в компании сделали что-то подобное для квантовых чипов.

Модель называется AlphaTensor-Quantum, и она действительно может ускорять вычисления, сокращая количество так называемых Т-гейтов.

Гейты – это специальные матрицы для обработки кубитов. Их есть два вида: эффективные Клиффордские и неэффективные T. Вторые необходимы для универсальных вычислений, но очень прожорливы с точки зрения ресурсов. Самое простое решение – воткнуть много таких и все. Но если хотим эффективнее, приходится долго оптимизировать схемы и сокращать их количество.

Так вот AlphaTensor-Quantum как раз обучен строить схемы вычислений с минимальным количеством Т-гейтов. Система экономит просто огромное количество времени по сравнению с ручной настройкой и превосходит все существующие методы.

А самое интересное, что обучено все в игровом стиле. То есть во время трейна модель училась за минимальное количество «ходов» переходить от неэффективного тензора A к более эффективному B.

RL-сила www.nature.com/articles/s42256-025-01001-1

Читать полностью…

Data Secrets

Anthropic показывают что-то новенькое для рынка API: они добавили в Claude инструмент "think"

И это не обычный ризонинг типа функции "extended thinking", который представлен у других вендоров. Это специальный режим для сложных агентских задач, в которых модель ходит в интерпертатор / интернет / базу данных.

Обычно в таких сценариях больше ошибок, потому что модельки не пересматривают исходный "план действий" после получения промежуточных результатов и действуют сломя голову.

А тут агент специально делает паузу посреди цепочки действий, отдельно анализирет сложившуюся ситуацию и думает, не стоит ли пересмотреть свой план, достаточно ли данных для дальнейших действий, все ли правильно на текущей итерации и тд.

По тестам из релиза метрика pass^k (все решения задачи из k попыток успешны) выросла на 54%, то есть модель стала заметно надежнее. Дополнительных денег инструмент не стоит, затраты вырастут только за счет роста количества выходных токенов. Так что в сложных многоходовочках – то что нужно.

www.anthropic.com/engineering/claude-think-tool

Читать полностью…

Data Secrets

SORA внезапно стала самым дешевым безлимитным видеогеном на рынке

OpenAI объявили о том, что отменяют все лимиты на SORA и дают безлимитный доступ всем платным юзерам (включая подписку плюс за 20 долларов).

Это редкость на рынке генераторов видео. Обычно все подписки имеют лимиты, безлимитку не предлагает почти никто. Самый дешевый такой план – у Runway, 99$.

Порадовали

Читать полностью…

Data Secrets

Интересная (и неочевидная) мысль от Андрея Карпаты: кнопка "Новый диалог" в чат-ботах – не что иное, как костыль

В перспективе мы не должны каждый раз переходить в новый чат. Вместо этого, по идее, должен быть один бесконечный диалог. Как с человеком.

Сейчас это не реализовано нигде, по простой причине: у такой системы должно быть бесконечное контекстное окно или, иными словами, хорошо развитая долгосрочная и краткосрочная память. А мы пока так не умеем (хотя Альтман когда-то обещал бесконечный контекст). И вообще тут много нюансов:

Скорость и цена инференса
Способности (будет ли механизм внимания насколько же эффективным на действительно огромных последовательностях?)
Много шумных данных (тоже к вопросу перформанса)
Несоответствие данных на трейне и тесте. Очень сложно обучать instruct модели на многомиллионных последовательностях токенов.
А размечать такие данные вообще почти невозможно

... и все же тема занятная. Интересно, когда индустрия доберется до какого-нибудь приемлемого решения.

think about it

Читать полностью…
Subscribe to a channel