data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

55444

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

❤️ – говорю спасибо, верю в карму
👍 – не говорю спасибо, я бессмертный берегу лимиты

Читать полностью…

Data Secrets

Была найдена крутая возможность для тех, кто хочет развиваться в ИИ и ML: совместная магистратура от VK и МФТИ «Искусственный интеллект и социальные медиа».

С первого семестра — практика в VK AI и обучение на реальных кейсах у экспертов компании. Программа готовит ИИ-исследователей, ML- и NLP-инженеров, дата-аналитиков, а также разработчиков ПО, рекомендательных систем и поисковых технологий.

Плюс — до поступления можно протестить направление. Сейчас открыт набор на программу для абитуриентов от VK Education. Выпускники получат рекомендательные письма, которые помогут при поступлении в магистратуру.

Заявки на программу подготовки принимаются до 27 апреля. Посмотреть подробнее здесь.

Читать полностью…

Data Secrets

В DeepMind обучили полноценную компьютерную модель... мухи 🪰

Исследователи нарисовали модель тела мухи и с нуля обучили его ходить, летать и вообще вести себя, как настоящее насекомое. Весь процесс происходит в физическом симуляторе MuJoCo. Это тоже разработка DeepMind (вот репа).

MuJoCo создавали для более крупных роботов, конечно, но в целом среда универсальная, поэтому нужно было просто добавить туда несколько новых функций. Например, завихрение воздуха вокруг крыльев, которое позволяет летать, или силу адгезионного сцепления, которое позволяет ползать под любым углом.

Обучали end-to-end методами обучения с подкреплением на видео настоящих мух. Результаты получаются довольно реалистичные: модель действительно летает по нужным траекториям и движения удивительно точные.

"Мы считаем, что такие могут помочь ученым лучше понять, как мозг, тело и окружающая среда влияют на поведение животных. Так мы сможем находить связи, которые не изучить в лаборатории"


Кстати, в прошлом DeepMind уже делали что-то такое с грызунами (наш пост). Говорят, что следующий кандидат на моделирование – рыбка данио-рерио (zebrafish) из семейства карповых. Она разделяет с людьми рекордные 70% генов, кодирующих белки.

Кстати, модельку мухи полностью выложили в опенсорс

Читать полностью…

Data Secrets

О, Perplexity анонсировали крутого голосового ассистента для iOS

Это Siri на максималках (наверное, стоило написать в заголовке Siri – ВСЕ): агент сможет использовать браузер и некоторые приложения, рассылать письма, создавать брони, управлять календарем, проигрывать подкасты, YouTube ролики и другое медиа.

Обновить приложение в AppStore и попробовать (это бесплатно) можно уже сейчас

Читать полностью…

Data Secrets

OpenAI повысили лимиты и теперь Plus-пользователям доступно 50 запросов к o3 и o4-mini в день. Также o4-mini совсем скоро раскатят на бесплатных юзеров, судя по последнему обновлению.

У Сэма Альтмана, кстати, сегодня День Рождения, исполняется 40 лет. Интересно, праздничный торт нам светит?

Читать полностью…

Data Secrets

Anthropic выкатили гайд по вайб-кодингу 😎

23 страницы посвящены тому, как программировать с агентами (в частности, с Claude Code). Собраны советы, best practices, примеры, антипримеры и даже готовые промпты.

Отдельное внимание уделяется безопасности данных и мульти-агентным процессам.

Полезно, если пользуетесь каким-нибудь подобным инструментом каждый день

PDF

Читать полностью…

Data Secrets

🚀 Data Engineer в Navio: получи оффер в компанию за 1 день!

В команду BigData мы ищем специалистов уровней middle и senior, готовых решать нестандартные задачи и создавать проекты, которые меняют мир. Наши данные имеют физический смысл: победа над каждой ошибкой здесь — снижение риска ДТП в реальном мире.

С нами ты будешь: собирать датасеты для нейросетей, обрабатывать данные для работы автономных машин, визуализировать 4D-траектории, строить системы для сквозной аналитики и не только.

Готов проявить свои навыки? Заполняй заявку, оставляй резюме на сайте и получи приглашение от нашего рекрутера на One Day Offer 26 апреля. Приходи на онлайн-мероприятие, пообщайся с командой и, возможно, уже вечером ты станешь ее частью.

⚡️ One Day Offer — твой шанс изменить карьеру!

Читать полностью…

Data Secrets

Google предложили новую обобщенную архитектуру нейросетей, устроенную так, что трансформеры и RNN являются ее частными случаями

Основная проблема сегодняшних моделей – память. У нас есть трансформеры, но их сложно масштабировать на длинный контекст из-за квадратичной сложности операций. У нас есть RNN, но они не параллелятся и постоянно все забывают.

Так что в последнее время выходит все больше работ про все новые и новые подходы к моделированию памяти. И все они строятся на каких-то видах скрещивания: атеншена с линейностью, или гейтов забывания с трансформерами, или склярной памяти с матричной, ну и тд и тп.

В Google заметили, что почти все эти методы можно описать единым набором правил. Свой фреймворк они назвали MIRAS, и его главная идея в том, что любое проектирование памяти нейросетей сводится к четырем основным выборам:

1. Выбор архитектуры памяти. Память может быть скаляром, как в RNN, матрицей, как в трансформерах, отдельной маленькой нейросетью, как в test-time-training подходах, ну или чем-то другим.

2. Выбор attentional bias. Это функция потерь, которую память будет оптимизировать при обновлении. Цель, по сути, всегда одна: точно сопоставлять ключи со значениями, то есть верно восстаналивать связи между словами. В трансформерах, например, attention bias – это непараметрический ℓ₂‑MSE.

3. Retention Gate. Это регуляризация, которая контролирует, как и когда мы избавляемся от ненужной информации. Другими словами, мера консервативности или забывания.

4. Выбор метода оптимизации. Это конкретный рецепт того, как перейти из прошлого состояния памяти в новое, учитывая все компоненты выше. Например, в трансформерах это просто вычисление softmax‑attention, но также это может быть градиентный спуск или его модификации.


Вот и все. Похоже на выбор гиперпараметров. Перебираем набор по рамке и получаем либо уже известную модель, либо новую, с нужными свойствами по стоимости/емкости/устойчивости. И да, трансформеры, RNN и всякие Mamba – тоже частные случаи MIRAS (картинка 2).

И главное: получается, по этому пространству параметров можно гулять и искать локальные минимумы. Google для примера показали три MIRAS инстанса: Moneta, Yaad, Memora. Moneta достигает 93.5% на иголке в стоге сена, при этом перплексия падает мягко и метрики вполне себе на уровне.

Красивая и стройная работа. Читаем полностью тут

Читать полностью…

Data Secrets

Google снова тестирует новые модели

Одна из них под кодовым названием dayhush на днях появилась на webdev арене. Кажется, это какой-то новый ассистент для программирования. Попробовать можно тут.

Вторая модель, видимо, для генерации картинок. Ее начали тестировать только вчера.

Напоминаем, что в следующем месяце у Google пройдет их крупнейший ивент I/O. Будем ждать стоящих новинок

Читать полностью…

Data Secrets

Джеффри Хинтон: «Люди больше похожи на ИИ, чем мы думаем»

Принято считать, что люди умеют рационально последовательно рассуждать, а ИИ – пока нет.

Но Хинтон говорит, что по мере изучения мозга становится понятно, что мышление мало похоже на логику. Наоборот, это мысли на уровне ассоциаций.

«Мы не рассуждающие системы. Мы системы аналогий. На самом деле мы гораздо менее рациональны, чем кажется. Мы думаем резонансом, а не дедукцией»

Читать полностью…

Data Secrets

В детской книжке по философии была найдена жемчужина

А можно лучше на мозг Димы посмотреть?

Читать полностью…

Data Secrets

Помните пост про ML-модель для уборки мусора, которую студенты ШАДа сделали вместе с Yandex B2B Tech?

С её помощью ускорили очистку заказников, выложили код в опенсорс — и всё это ещё во время учёбы.

Если вы тогда задумались: «А как вообще попасть в ШАД и делать такое?» — вот подробный подкаст с Алексеем Толстиковым, руководителем Школы анализа данных Яндекса.

В выпуске:
— как устроен отбор (20 задач, олимпиада или экзамен, собес);
— что за люди туда поступают и как готовятся;
— зачем нужна такая система и как она помогает вырасти от джуна до специалиста, который делает значимые проекты.

Смотреть здесь

Читать полностью…

Data Secrets

Демис Хассабис (тот самый с обложки TIME): «Сейчас ИИ не обладает сознанием, но оно может возникнуть неявно»

По словам ученого, появление сознания в моделях не является целью как таковой, но оно может возникнуть само собой по мере их развития.

«Таким системам необходимо понимание себя, собеседника и других. И это может вырасти в что-то, напоминающее самосознание. Но оно будет отличаться от человеческого»


Примерно то же самое Демис говорит про любопытство, интуицию и воображение. Сейчас его нет, но через 5-10 лет появится, и тогда модели смогут по-настоящему генерировать гипотезы и заниматься наукой.

Полное интервью (идет час, вышло несколько часов назад)

Читать полностью…

Data Secrets

В соцсетях пользователи ополчились на OpenAI за то, что результаты выпущенной o3 не соответствуют заявленным в декабре бенчмаркам. Разбираемся

Как мы помним, o3 анонсировали еще в декабре. Вот наш пост с показанными тогда метриками. Кратко: 25% на FrontierMath (против 2% у следующего конкурента) и 88% на ARC AGI.

И вот, наконец, o3 выпускают в паблик, и что мы видим? 10% на FrontierMath и 35-40 на ARC AGI.

Получается, OpenAI соврали? Не совсем так:

1. В анонсе были показаны, вероятно, результаты o3-pro, которая еще не вышла. Плюс, замеры были по верхней границе (сейчас настройки могут быть другие).

2. С декабря версии бенчмарков изменились. Если в декабре во FrontierMath было 180 задач, то теперь их 290 и они другие.

3. Выпущенная в паблик модель отличается от версий o3, которые были у OpenAI в декабре. Об этом разработчики говорили прямо на стриме: «Модель оптимизирована для реальных сценариев использования и более быстрых ответов». Ну и цена упала в несколько раз, судя по замерам ARC-AGI (картинка 3). Ожидаемо, что метрики у такой версии где-то просядут.

Ситуация, конечно, все равно спорная. Просто помним, что бенчмарки вещь тонкая, на слово верить им не стоит никогда. Сейчас это в основном инструмент маркетинга, а не адекватного эвала.

Читать полностью…

Data Secrets

Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube

Читать полностью…

Data Secrets

Google показали статистику Gemini (точнее раскрыли в суде)

Насчитали 35 млн DAU (активных пользователей в день) и 350 млн MAU (в месяц). Это уже больше, чем у Anthropic. Для ChatGPT те же показатели составляют соответственно 160 млн и 600 млн.

Зато Gemini, надо сказать, растет быстрее. Пол года назад, для сравнения, их DAU был 9 млн. Это рост почти в 4 раза. ChatGPT за это же время вырос с 90 млн (то есть в 1.7 раз).

Читать полностью…

Data Secrets

Появились некоторые свежие подробности про открытую модель от OpenAI. Вводим вас в курс:

Она появится в начале лета, лицензию обещают очень демократичную
Пока проект на ранней стадии, разработку возглавляет Эйдан Кларк, вице-президент по исследованиям
Модель будет с ризонингом, но пользователи смогут выключать и включать режим рассуждений
Все-таки модель будет не для GPU-poor юзеров, но в дальнейшем так же выйдут меньшие варианты, они будут не такими требовательными по железу
На момент выпуска мультимодальности не будет, только текст на вход и выход

Последнее, конечно, грустно. Надеемся, метрики не подкачают

Читать полностью…

Data Secrets

OpenAI ожидает, что к 2029 выручка компании достигнет 125 миллиардов долларов, а к 2030 – 174 миллиардов

По крайней мере, так они говорят инвесторам. Об этом пишет The Information. Основная часть продаж будет генерироваться новыми продуктами, то есть агентами. Также рассматривается возможность продажи рекламы и взимания партнерских сборов.

Для сравнения, выручка стартапа за 2024 – примерно 3,7 миллиарда. То есть прогнозируется рост почти в 34 раза всего за 5 лет.

Читать полностью…

Data Secrets

Джеффри Хинтон, куча бывших сотрудников OpenAI и еще несколько известных ученых подписали открытое письмо об отмене перехода OpenAI в разряд коммерческой организации

Они настаивают на том, чтобы OpenAI в целях безопасности AGI запретили становится коммерческими, и чтобы стартап юридически связали с его изначальной миссией.

Также в письме требуют пересобрать совет директоров, «удалив» всех, кто активно поддерживал переход и добавив больше «независимых» членов.

Это будет посерьезнее иска Илона Маска. День Рождения у Сэма не задался, видимо

https://notforprivategain.org/

Читать полностью…

Data Secrets

Мечтаете не просто разбираться в управлении данными, а использовать уникальные инструменты для работы с Big Data? Научитесь этому на бесплатном студкемпе Яндекс Образования и ИТМО по дата-инженерии!

🧠 Программа — интенсивная, актуальная, от лидеров индустрии. С 30 июня по 12 июля вы погрузитесь в мир распределённых хранилищ, микросервисной архитектуры, DataOps/MLOps и пайплайнов для сбора, анализа и визуализации данных. А ещё познакомитесь с технологиями, которые используют в крупных компаниях. В общем, получите реальные навыки, которые ценят на рынке!

🏙 Кампус — в самом центре Санкт-Петербурга. Несмотря на то, что студкемп проходит на базе ИТМО, заявки ждут от студентов из любых вузов и регионов России. Проезд и проживание будут оплачены Яндекс Образованием, так что вам останется сосредоточиться на главном — знаниях, опыте и новых возможностях.

🕐 Регистрация — открыта до 4 мая, но подать заявку можно уже сейчас! Если давно хотели пообщаться с топовыми айтишниками и почувствовать, каково это — учиться в одном из ведущих технических вузов, не откладывайте и заполняйте анкету по ссылке.

Читать полностью…

Data Secrets

LM Arena мощно обновляется

Во-первых, они уже несколько дней тестируют абсолютно свежий интерфейс. В нем все будет немного более интуитивно, а главная страница будет напоминать ChatGPT. Кроме того, также, как в ChatGPT, можно будет просматривать свои прошлые диалоги. Навигация по лидербордам и подача баг-репортов тоже станет проще.

Во-вторых, LM Arena станет компанией. Напоминаем, что сейчас разработку двигает сообщество и группа энтузиастов. Но теперь ребята сообщили о том, что собираются официально оформлять стартап.

В-третьих, сегодня на арену завезли новую большую фичу – Sentiment Control. Эта штука похожа на style control (наш пост-разбор). Идея та же: чтобы получать объективные оценки без человеческого фактора, надо очистить ответ модели от всего лишнего, что может повлиять на голос пользователя, и оставить только чистое содержание.

Так, style control очищает ответы от красивого форматирования, а новый Sentiment Control будет очищать от лести и эмоциональности. Оценки этих факторов будут учитываться в качестве независимых переменных в регрессии Брэдли-Терри, которая используется на арене для подчсета статистики. Это помогает отследить их влияние.

Результаты применения – на картинке выше. Некоторые модели с Sentiment Control поднимаются в рейтинге (Claude-3.7-Sonnet, o1), а некоторые, наоброот, опускаются (Grok-3, Gemma-3, Llama-4-exp). Это значит, что люди действительно склонны иногда отдавать предпочтения более позитивным моделям, а не более умным.

Блогпост

Читать полностью…

Data Secrets

OpenAI хотят купить Google Chrome, если представится возможность

В суде продолжается разбирательство по делу о монополизации гуглом рынка поиска. Министерство юстиции, возможно, вынудит компанию отказаться от Chrome.

Вчера на одном из серии таких судебных заседаний присутствовал Ник Терли. Его позвали как свидетеля, сейчас он работает менеджером в OpenAI. Вот что он сказал:

«Если представится возможность, OpenAI будет заинтересована в покупке Chrome. Приобретение Chrome позволит нам предложить юзерам действительно невероятный опыт и показать, как выглядит настоящий первый ИИ-браузер»

Читать полностью…

Data Secrets

Новое исследование от Anthropic: система, которая позволяет мониторить элаймент онлайн

Обычно все тестирования на безопасность проводятся до деплоя, а затем модель уже отдают пользователям. Но что, если (теоретически) что-то пойдет не так уже после того, как систему развернули?

Anthropic предложили фрейморк для анализа диалогов пользователей и выявления ценностей, которые транслирует в этих диалогах Claude. Ценность - это какое-то "соображение" модели, которое оказывает влияние на ответ (как в мультике Головоломка). Помните, как Anthropic выделяли темы диалогов студентов с ботом? Вот тут техника похожая.

По умолчанию в клода заложены ценности "ответственность", "критическое мышление", "полезность для пользователя". Однако статистика показывает, что иногда всплывают такие штуки, как "доминирование" или "аморальность". Это результат джейлбрейков.

То есть система позволяет не только поломки в элайменте находить, но и в реальном времени ловить попытки неэтического использования.

Еще, кстати, интересно, что Claude, хоть и обучен определенным ценностям, не всегда напрямую их продавливает (картинка 3). Например, если запрос связан с прихологической помощью, он пытается переосмыслять ценности пользователя, вместо того, чтобы просто впихивать свои.

Статья

Читать полностью…

Data Secrets

А ничего тот факт, что Сбер приглашает тебя на One Day Offer для DS/ML/DE специалистов? 😏

Ты будешь работать над рекомендательной платформой: масштабируемой, способной каждый день удивлять пользователей и предлагать им релевантные рекомендации.

Добавляй в свой календарь 26 апреля, регистрируйся по ссылке и готовься пройти отбор в команду мечты за один день!

Читать полностью…

Data Secrets

Зацените аргумент, который Meta использует в судебных исках против авторов

Сейчас на Meta заведено более 10 дел за пиратское использование книг для обучения моделей. Это, к слову, не одна и не две книги, а порядка 7 миллионов.

Так вот, в ответах истцам юристы компании используют, внимание, такой ответ:

«Использование одной книги для претрейна повышает производительность модели менее чем на 0,06%. Поэтому, взятая отдельно, работа не имеет экономической ценности в качестве обучающих данных»


То есть «все равно», используют они эту книгу или нет. Это еще не все. Адвокаты пишут, что потенциальные переговоры о лицензировании – это пустая трата времени, потому что структура прав на книги «устроена слишком нелогично».

🚨

Читать полностью…

Data Secrets

Зумеры не пройдут: теперь в Инстаграме ИИ будет отлавливать профили несовершеннолетних и автоматически менять настройки их аккаунтов

Meta будет анализировать переписки, вовлеченность и, конечно, фото. Настройки можно будет вернуть обратно, но для этого нужно будет подтвердить возраст. С сегодняшнего дня функцию уже тестируют в США.

Читать полностью…

Data Secrets

В конце той недели Meta FAIR выкатили целую пачку опенсорсных релизов, которые могут стать частью их будущего AMI (advanced machine intelligence). Краткий разбор:

1. Perception Encoder. Лидер FAIR Ян Лекун часто говорит о том, что просто понимания изображений и видео моделям недостаточно. Они должны понимать физический мир целиком, как мы. И вот этот Perception Encoder – это как раз обобщенный аналог vision энкодера. Perception – c английского "восприятие", то есть некоторое глобальное зрение. Цель была научить систему справляться с любыми визуальными задачами, но не посредством традиционных отдельных многозадачных схем, а через единый контрастивный лосс.

2. Perception Language Model. Тут целое семейство моделей от 1 до 8 млрд параметров. Аналогично, обобщенный аналог VLM. Вместо привычных энкодеров – PE. В целом превосходит QwenVL2.5, так что результаты довольно неплохие.

3. Meta Locate 3D. Новый state‑of‑the‑art на основных бенчмарках локализации объектов в 3D. Интересно, что модель научили оперировать напрямую с RGB‑D фреймами, то есть потоками от сенсоров. Это значит, что, например, при использовании в работотехнике системе даже не понадобятся дополнительные заглушки, все будет работать end‑to‑end.

4. Dynamic Byte Latent Transformer. Пытаются уйти от токенизации и заставляют модель обрабатывать сырые байты вместо токенов. В архитектуре такой же трансформер, только еще добавляется слой для сжатия/восстановления информации.

5. Collaborative Reasoner. Фреймворк для обучения LLM решать задачи через многошаговое взаимодействие агентов. Имитация дискуссии ну или, исходя из названия, коллективного рассуждения. В плане появления реальных способностей рассуждать Meta верит в такие брейнштормы агентов больше, чем в классический single‑agent chain‑of‑thought.

Общая идея понятная: обобщить то, что можно обобщить; уйти от ограничений типа токенизации; всеми способами повышать генерализацию и адаптивность модели. Посмотрим, приживется ли.

Все веса, датасеты и демо тут

Читать полностью…

Data Secrets

Что лучше: получить 500 000 ₽ или пропуск в одно из крупнейших сообществ web3-энтузиастов и блокчейн-разработчиков? 😏

Победители блокчейн-хакатона DeFi Hack 2025 получат и то и другое. Для этого нужно только решить реальную бизнес-задачу Сбера и предложить лучшее инновационное решение.

🏆 Призовой фонд хакатона в 1 000 000 ₽ разделят между собой 3 участника/команды: 500 000 ₽, 300 000 ₽ и 200 000 ₽.

Приём заявок продлится до 12 мая — успейте собрать команду до 5 человек или принять участие соло! 👌

Читать полностью…

Data Secrets

Отец обучения с подкреплением Ричард Саттон опубликовал очень интересное эссе под названием «Добро пожаловать в эру опыта»

О Ричарде мы писали вот тут. В 80-е он вместе с Эндрю Барто разработал основы RL, а в этом году они получили премию Тьюринга.

В эссе Саттон говорит о том, что эпоха контролируемого предобучения ИИ постепенно заканчивается. В будущем вместо привычной связки претрен + файнтюнинг + RL нас ждут агенты, которые будут самообучаться.

Конкретнее, агенты будут непрерывно действовать в реальном или смоделированном мире и генерировать в нем собственные данные для обучения посредством взаимодействия друг с другом. Среда, кстати, может быть какая угодно: компьютеры, игры, биржи, реальный мир для роботов или даже обычные умные часы.

Это будет похоже на тот же RL, только агенты будут оптимизировать вознаграждения, основанные именно на окружающей среде, а не только на человеческих предпочтениях. Получается, что это ближе к человекоподобному обучению на основе жизненного опыта.

Полностью почитать можно тут

Читать полностью…

Data Secrets

Bloomberg пишет, что за 2024 из-за производства ИИ-чипов выбросы углекислого газа увеличились вчетверо

Особенно ИИ-гонка влияет на Азию, потому что там расположены все основные производства (в том числе заводы Nvidia и Microsoft).

Интересно, что рост выбросов, связанных с производством чипов, обогнал даже рост выбросов от потребления электроэнергии: 357% против 351.

Гринпис в связи с этим заявляет, что они уже начинают сомневаться в конечной полезности ИИ 😬

Читать полностью…
Subscribe to a channel