data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

55445

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

Пекин вызвал Дженсена Хуанга на ковер из-за проблем с безопасностью в чипах Nvidia

Сообщается, что какие-то американские эксперты (кто именно, не уточняется) нашли в видеокартах H20 некие уязвимости (какие именно, также не уточняется), из-за которых можно отслеживать местонахождение чипов и удаленно отключать их.

Никаких официальных доказательств такого функционала никто не предоставил и эксперты по кибербезу сразу сказали, что это какой-то бред. Но суть в том, что H20 производятся специально для китайского рынка и это чуть ли не единственные видеокарты, которые Вашингтон официально разрешает поставлять в КНР.

Так что, понятное дело, в Китае перепугались и вызвали представителей Nvidia в суд для выяснения обстоятельств. Дженсен Хуанг в ответ на обвинения заявил, что никаких бэкдоров в его продуктах нет и в помине, и что он, вообще-то, очень благоволит китайскому рынку.

И видимо, в суде ему поверили, потому что заказ на 300 000 видеокарт для Китая, который Nvidia недавно разместили на заводе TSMC, все еще в силе.

Теперь интересно, кем же были те самые «американские эксперты», которые так желают Nvidia процветания

Читать полностью…

Data Secrets

Марк Цукерберг написал открытое письмо со своим видением будущего ИИ

Оно небольшое, полностью почитать можно тут. Мы собрали основные цитаты:

В некоторых отношениях эра ИИ будет абсолютно новой для человечества, но в других станет просто продолжением исторических тенденций. Еще 200 лет назад 90% людей были фермерами. Прогресс постепенно дает нам возможность концентрироваться меньше на выживании и больше на том, чем мы действительно хотим заниматься.


В Meta мы считаем, что
нужно дать суперинтеллект в руки каждому
. Это отличает нас от других компаний, которые считают, что суперинтеллект должен централизовано автоматизировать работу.
Люди, преследующие свои индивидуальные устремления, – это именно то, как мы всегда добивались прогресса
, расширяя процветание, науку, здоровье и культуру.


Если тенденция сохранится, то личные девайсы, например очки, с суперинтеллектом, который знает вас идеально, станут нашими основными вычислительными устройствами. Так или иначе,
оставшаяся часть десятилетия станет решающим периодом для определения пути, по которому пойдет человечество
.

Читать полностью…

Data Secrets

Мы все ближе и ближе к этому мему

Читать полностью…

Data Secrets

Это вам на случай переговоров с ИИ-думерами

Читать полностью…

Data Secrets

Ничего необычного, просто в Твиттере вспомнили, как в 2022 году после запуска ChatGPT кто-то сказал Альтману, что это худший из возможных концептов ИИ-продукта

Вот бы распечатать – и на стенку в офисе OpenAI

Читать полностью…

Data Secrets

POV: я и новый агент ChatGPT, которого я попросил заработать мне миллион к концу дня

P.S. Кстати, агента сегодня раскатили на всех Plus пользователей: самое время попробовать

Читать полностью…

Data Secrets

⚙️ Наш авторский конспект по LLM теперь доступен на сайте Data Secrets

Вы просили – и мы сделали. Теперь, помимо PDF-версии, конспект также можно полностью прочитать в веб-версии на нашем сайте.

Напоминаем: это буквально энциклопедия LLM от А до Я. История нейросетей, необходимая математика, архитектура трансформера, механизм внимания, претрейн, файнтюнинг, RL, ризонинг – обо всем этом и многом другом мы подробно и понятно рассказали на этих страницах.

Детальное оглавление смотрите в начале конспекта.

Приятного чтения: https://datasecrets.ru/abstracts/llm

P.S. Press F нашему фронтендеру, который сверстал 50 страниц текста, схем и картинок 🫡

Читать полностью…

Data Secrets

Все про A/B тесты за 5 лекций

Школа анализа данных Яндекса проведет онлайн-интенсив A/B Week. За неделю научат:

правильно проводить А/В‑тесты
анализировать их и формулировать бизнес‑решения

После интенсива получите готовый набор инструментов, включая методы и скрипты для Jupyter Notebook на Python, которые позволят вам сразу применить знания на практике.

Чтобы поучаствовать, нужно зарегистрироваться по ссылке до 25 июля. В интенсиве может участвовать любой, кому интересны А/В-тестирования, но, чтобы получить доступ к итоговому заданию и сертификат, придётся пройти отбор (потребуется знание статистики, теорвера и Python!).

Не пропускайте

Читать полностью…

Data Secrets

Почитали тут системную карту ChatGPT Agent. Оказывается, это первая в мире система ИИ, официально получившая статус «высокого риска» по разработке биологического оружия

Это значит, что Agent может существенно помочь даже неспециалисту пройти все шаги, необходимые для создания известных биологических или химических угроз.

Пока ни одна компания, кроме OpenAI, ни разу не объявляла о подобном для своих моделей. На уровне экосистемы это означает следующее:

1. Естественно, повышенные меры безопасности и мониторинга. Инструменты обнаружения вводятся не только на этапе генерации, но и (дополнительно) до того, как запрос вообще передается в модель.

2. Обновленные NDA и политики ответственности внутри самого OpenAI + обязательные постоянные внешние аудиты системы.

3. Ну и самое интересное: обязательная отчетность для пользователей, выявлявших необычное поведение системы. То есть если вы – даже случайно – наткнулись на необычное поведение модели, то обязаны об этом сообщить. В противном случае могут заблокировать аккаунт, а еще вы попадете под расследование.

Вот так, друзья. Уже ощущаете киберпанк?

Читать полностью…

Data Secrets

Всего один программист в мире оказался лучше ИИ в прошедшем соревновании на AtCoder

AtCoder World Tour Finals – одно из самых престижных соревнований в мире, попасть туда не так уж и просто. Особенно в Heuristic Division: там задачи решаются методами эвристики и оптимизации и нельзя просто решить или не решить, можно только решить лучше других (как на Kaggle).

Так вот в этом году это соревнование спонсирует OpenAI, и им разрешили выпустить свою модель посоревноваться наравне с людьми.

Ну и дальше случилось то, что вы видите на скрине. Всего один человек в мире, поляк Przemysław Dębiak с ником Psyho (довольно известный кодер, кстати) смог побить модельку OpenAI.

Сам кодер утверждает, что вообще не использовал ИИ и программировал просто в VSCode. Он пишет:

Человечество одержало верх (пока!)

Я совершенно измотан. Мне казалось, что я спал всего 10 часов за последние три дня, и я еле живой.

(Если честно, это предварительные результаты, но мой отрыв должен быть достаточно большим)


💀

Читать полностью…

Data Secrets

Французская лаборатория INRIA предложила новый способ самообучения LLM – SOAR

С помощью него они выбили 52% на ARC-AGI. Для понимания, результат o3-pro – примерно 58%. Разбираемся ->

Основная идея – рисерч и доработка возможных решений. Это называется эволюционный поиск и вообще-то это вещь не новая. Если брать такой поиск сам по себе, он, конечно, что-то там бустит, но без вау-эффекта.

А тут к нему прикрутили еще и дополнительное обучение. После каждой итерации генерации и доработки гипотез все попытки (удачные и неудачные) используются для тюнинга той же самой модели. Этот цикл «поиск — обучение на своем опыте — улучшение» повторяется до стабилизации результата.

И вот это уже работает заметно лучше. Например, если взять Qwen2.5-32B, результат которого на ARC-AGI – 27%, и приложить SOAR, то метрика растет до 52%, то есть почти в 2 раза! То же самое можно наблюдать с другими размерами и моделью Mistral.

Все дообученные модели выложили в опенсорс. Вот веса. Код тоже имеется.

А статью почитать полностью можно вот тут. Ее, кстати, приняли на ICML

Читать полностью…

Data Secrets

Белые хакеры из университета Торонто придумали новую атаку на GPU

Те, кто увлекается кибербезом, точно знают, что такое Rowhammer. Это классическая аппаратная атака, которая заключается в многократном чтении (или записи) определённых строк памяти. Это вызывает электрические помехи и приводит к непреднамеренным изменениям (bit flip) в соседних ячейках памяти.

Изначально Rowhammer была обнаружена для обычной оперативки, но теперь оказалось, что она может быть адаптирована и для видеопамяти (это назвали GPUHammer).

Причем эффект может быть даже страшнее, потому что в случае ИИ всего один ошибочный бит в весах модели может привести к катастрофическому снижению точности. Прямо в статье это доказали на примере ImageNet: метрика скакнула с 80% до менее чем 1%.

Уязвимы все системы с видеокартами NVIDIA на GDDR6 (например, A6000). Такие ооочень часто используются в дата-центрах. Причем существующие защиты вроде TRR не сильно спасают.

Nvidia порекомендовали включать ECC (Error-Correcting Code): он позволяет автоматически исправлять некоторые типы ошибок в памяти. Но есть нюанс: ECC роняет производительность на 10–50%. Так что в перспективе нвидии все-таки придется реагировать изменениями в архитектуре.

В общем, спасибо ребятам за исследование, конечно, но не от всей души 🎧

Читать полностью…

Data Secrets

Курс с углублённым изучением профессии аналитика данных.

Станьте незаменимым специалистом на рынке труда с курсом от Нетологии.

Преподаватели курса — эксперты из крупных компаний: Сбера, Яндекса, Gett, Работы.ру и других.

Вы изучите:

- продвинутые инструменты — A/B-тестирование, аналитику больших данных, SQL и Python;
- современные российские BI-решения — AW BI и DataLens;
- нейросети, которые можно использовать при анализе.

А ещё все студенты получат доступ к профессиональному комьюнити с еженедельными офлайн и онлайн-митапами. На них разбираем актуальные инструменты и делимся опытом.

До конца июля на курс действует сразу 2 скидки: летняя — 40%, и дополнительная — 10 000 рублей по промокоду DATA10.

➡️ Посмотреть программу курса

Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5y6vPL4

Читать полностью…

Data Secrets

А тем временем другой ИИ-браузер – Comet от Perplexity – вышел уже сегодня

Это первый за три года принципиально новый продукт от Perplexity. Выглядит как обычный браузер, но добавляется окошко чат-бота. По черрипикам тестеров из X выглядит интересно: агента даже можно залогинить в ваши учетки и он сможет автономно (реально автономно, а не как Operator) выполнять какие-то действия от вашего имени.

Comet уже доступен для юзеров подписки Max (200 долларов). Вряд ли кто-то пользуется этим тарифом, поэтому ждем, когда раскатят с лимитами на обычную и бесплатную подписки.

Читать полностью…

Data Secrets

Вы гляньте, какая прелесть: HuggingFace только что открыли продажи на этого малыша

Его зовут Reachy Mini, и он опенсорсный. Разработали его буквально за пару месяцев совместно со стартапом Pollen Robotics, который HF купили в апреле.

Reachy может видеть, слышать и говорить. Цена на него начинается от 299 долларов, это в несколько дешевле айфона.

И самое прекрасное – робота можно полностью программировать на Python: подключать любые модели с HF или собрать датасет и обучить его чему-то своему. Код открытый, так что придумывать можно вообще все, что хочешь.

Нам такого надо

Читать полностью…

Data Secrets

Про то, как работает ИИ в Авито

У TechIndsider вышло на редкость содержательное интервью о том, как бигтех на самом деле внедряет ИИ в сервисы. Главред поговорил с управляющим директором по ИИ в Авито Андреем Рыбинцевым (кстати, должность совсем новая, Рыбинцева назначили на нее недавно), и тот с занятными подробностями рассказал, как они используют ИИ.

Готовы поспорить, многие из нас пользуются Авито постоянно, но не подозревают, насколько глубоко там зашиты ИИ-алгоритмы. Так что вот вам просто несколько рандомных фактов из интервью:

Каждый день алгоритмы Авито обрабатывают около 40 миллиардов кликов. "Уже после нескольких действий по косвенным признакам становится понятно, что интересно пользователю, что ему показывать, а что нет".

99% контента проверяется ИИ, и только 1% самых сложных вопросов передается модераторам. Если бы не алгоритмы, Авито пришлось бы нанять на 100 тыс. больше сотрудников.

От 40 до 60% сделок на платформе (в зависимости от категории) проходит именно благодаря рекомендациям.

Помимо этого LLM-ки помогают писать описания к объявлениям и отвечать на вопросы покупателей. И, кстати, монетизация в Авито – это тоже трансформеры.

А в будущем, как говорит Андрей, Авито вообще превратится в платформу, где между собой договариваются и торгуют не сами продавцы и покупатели, а их личные ИИ-ассистенты. Киберпанк?

Интервью полностью тут

Читать полностью…

Data Secrets

Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ

В список «неудачников» попали переводчики, историки, писатели, рекламщики, математики, дата сайентисты, веб-разработчики и даже модели.

Если вы с списке – не расстраивайтесь, мы тоже. Вот вам для профориентации несколько примеров из списка тех, кого ИИ заменит не скоро: медсестры, хирурги, механики, монтажники, посудомойщики, бетонщики, горничные, санитары, маляры. Думайте 😶

Кстати, подсчитали это Microsoft вот как:

1. Взяли анонимизированные данные о 100 000 диалогов с Bing Copilot в США и каждый запрос классифицировали по цели пользователя и тому, что по факту сделал ИИ.

2. По официальной базе рабочих процессов сопоставили каждую активность с конкретной профессией.

3. Для каждой профессии посчитали покрытие (доля рабочих активностей профессии, которые встречаются в данных), успешность выполнения задач ИИ и широту охвата (насколько полно ИИ покрывает конкретную активность).

На основе трех показателей считали интегральный индекс, и чем он выше – тем более вероятно, что профессия будет автоматизирована.

Ну что, завтра на завод?

arxiv.org/abs/2507.07935

Читать полностью…

Data Secrets

В ChatGPT появился новый инструмент «Think Longer»

Его массово стали замечать у себя пользователи, но официального релиза еще не было. Кто-то говорит, что это GPT-5, но мы не обольщаемся.

Судя по твитам и Реддиту, это просто тумблер, который: (1) переключает вас на ризонинг модель (видимо, o3), если в данный момент вы пользуетесь не-ризонером; (2) активирует чуть больший бюджет ризонинга, если вы на o3/o4-mini.

Проверяйте, вдруг и у вас уже есть

Читать полностью…

Data Secrets

Начинаем понедельник с интересных фактов

Мы в сегодня лет обнаружили, что термин «галлюцинации» тоже придумал Андрей Карпаты. Почти все знают, что именно он ввел в эксплуатацию «вайб-кодинг», но это то было относительно недавно, – а вот корни «галлюцинаций» уходят еще в 2015 год.

Оказывается, тогда термин был впервые использован в известной статье “Unreasonable Effectiveness of RNNs” (ссылка), и с тех пор разлетелся по комьюнити, ну а дальше – в глобал.

Сам Андрей, кстати, пишет, что он «нагаллюцинировал это понятие» 👓

Читать полностью…

Data Secrets

В Авито появился управляющий директор по искусственному интеллекту — Андрей Рыбинцев, руководитель ИИ-направления с десятилетним стажем, теперь входит в правление.

Также будет создан новый кластер AI Experience, развивающий ассистентов на основе Gen AI. Так компания подчеркивает, что ИИ теперь — ключевой драйвер развития.

Фокус — масштабирование собственных моделей (A-Vibe, A-Vision), развитие генеративных ассистентов и построение агентских ИИ-систем. По прогнозам, GenAI принесет компании не менее 21 млрд ₽ допвыручки к 2028 году.

«Задача моей команды — масштабировать уже работающие решения и внедрить новые технологии, которые будут ощутимы для миллионов пользователей и тысяч бизнесов по всей стране»», — отметил Рыбинцев.

Читать полностью…

Data Secrets

Meta* выпустили ИИ-девайс для бесконтактного управления компьютером

Выглядит это как браслет, который трекает ваши жесты (свайпы, тапы, письмо в воздухе, движения для управления курсором) и синхронизирует их с ПК.

Из железа там, по сути, просто чувствительные сухие электроды, которые ловят MPF-активность руки. А вот с ML частью все гораздо интереснее. Для каждой разновидности жестов работает отдельная модель.

– Для контроля запястья (курсор) отрабатывает слой LSTM, который ловит временные зависимости
– Для дискретных жестов там сверточный 1D‑слой, затем три рекуррентных слоя LSTM и финальный классификатор
– Для воздушного письма все ожидаемо сложнее, тут уже Conformer (конволюционно‑трансформерный блок с механизмом внимания)

Накрученно, зато получается хорошая точность (> 90%) и отличная скорость. А если добавить примерно 20 минут собственных данных, то ошибка становится вообще минимальной.

Кажется, у Neuralink образовался конкурент?

Читать полностью…

Data Secrets

MWS Cloud представила свое новое детище - платформу для хранения и обработки данных — MWS Data Lakehouse.

В Data Lakehouse можно:


• работать с любыми типами данных, включая структурированные, неструктурированные и векторные
• запускать любые инструменты для обучения и инференса ML и больших языковых моделей, например, для прогнозирования спроса на товар или процента возврата кредитов
• использовать сервисы MWS или свои программы для работы с ИИ
• более эффективно использовать инфраструктуру за счет разделения слоев хранения и вычислений
• безопасно работать с данными благодаря встроеным инструментам защиты информации

Почему это круто?

• обработка данных ускоряется в 23 раза
• хранилище используется на 40% эффективнее
• работа персонала становится в 2,5 раза продуктивнее
• время расчетов аналитических витрин сокращается вдвое.

Платформа также совместима с Greenplum и Postgres. Это позволяет заказчикам сохранить свои исторические активы, сократить цикл реализации проекта по миграции, а также снизить затраты и риски, связанные с переходом на новое решение.

Fun fact: западные компании уже оценили преимущества технологии Lakehouse. Протестить платформу прямо сейчас - по ссылке.

Читать полностью…

Data Secrets

Так, это что-то новенькое: там вышла статья, которую совместно писали ученые из OpenAI, Anthropic, Google DeepMind и Meta*

Вот так наборчик, да? И о чем, как вы думаете, статья, если она объединила исследователей из четырех таких конкурирующих лаб?

Конечно, о безопасности. Кстати, среди авторов – Йошуа Бенджио, а среди рецензентов – Илья Суцкевер, Джон Шульман и Джеффри Хинтон.

Пишут про цепочки рассуждений (Chain of Thoughts). Основная мысль: люди зря надеятся, что CoT поможет нам надежно интерпретировать модели и считывать их истинные мотивы, предупреждая тем самым какие-то вредные действия.

На сегодняшний день – да, какое-то представление о скрытых мыслях сетей CoT действительно дает, и этим надо активно пользоваться. Но это довольно хрупкая возможность, которая может исчезнуть по мере прогресса.

В перспективе на стоит забывать о физике процесса ризонинга: для модели это та же самая генерация токенов, только в рамках специального тега /think. Фактически, сеть просто генерирует что-то «для себя» перед тем как начать генерировать ответ для пользователя, и мы называем это размышлением.

Нет оснований полагать, что в CoT всегда будут содержаться истинные намерения моделей, тем более для будущих более продвинутых архитектур и методов обучения.

Ну, в общем, очень интересный кейс единодушия ученых. Почитать полностью можно тут

Читать полностью…

Data Secrets

Netflix официально объявили о том, что теперь они будут использовать ИИ для создания фильмов и сериалов

Оказалось, что на платформе даже уже есть ИИ-фрагменты. В аргентинском сериале El Atonata сцена с крушением здания – полностью сгенерированная.

И co-CEO говорит, что такие «съемки» обошлись в несколько раз дешевле, и заняли в 10 раз меньше времени, чем классический монтаж.

Давно пора ☕️

Читать полностью…

Data Secrets

В Google ИИ-агент помог обнаружить и предотвратить предстоящую кибер-атаку на систему

Об этом рассказал сам Сундар Пичаи. Агент называется Big Sleep, его презентовали еще в прошлом году. До этого он уже помогал находить белые пятна в системе безопасности Google, но этот случай – первый в истории, когда ИИ помог предотвратить реальную атаку.

Кстати, сегодня Google также объявили о том, что добавят ИИ-агентов в свою известную систему мониторинга Timesketch и анонсируют еще одну ИИ-систему (уже помасштабнее) обнаружения аномалий и угроз – FACADE. Это будет первое публичное демо проекта, хотя внутри Google он работает уже с 2018 года.

blog.google/technology/safety-security/cybersecurity-updates-summer-2025/

Читать полностью…

Data Secrets

Цукерберг заявил, что исследователи уходят к нему вовсе не из-за денег

Он говорит, что новости не совсем честно освещают, почему ученые из многих лабораторий охотно уходят в его новое подразделение MSL. Дело, мол, по большей степени не в деньгах, а в корпоративной структуре и количестве компьюта.

Команды в MSL будут очень маленькие и подчиняться будут напрямую Марку, чтобы ученые тратили минимум времени на бюрократию, созвоны и согласования.

Кроме того, в MSL будет самый большой объем компьюта на одного речерчера. Каждый получит в распоряжение сотни GPU, и количество доступных вычислений будет быстро увеличиваться.

К 2026 компания построит кластер Prometheus на 1GW, а потом примется за строительство Hyperion, который будет масштабироваться до 5GW+. Для частной компании это просто невероятные мощности.

Ну и да, сотни миллионов за переход – это так, приятное дополнение 👉

Читать полностью…

Data Secrets

Оказывается, там еще и пасхалка спрятана: из первых букв имен этой толпы ученых можно сложить фразу "GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH", то есть "Gemini может подумать и ответить вам мгновенно"

Ощущение, что даже с самим тех.отчетом они так не напрягались, как с этим списком

Читать полностью…

Data Secrets

Мем: в вопросах политики и мировоззрения Grok-4 пользуется твитами Маска, как референсом

Твиттер прямо сейчас заполнен примерами того, как перед ответом модель шерстит посты миллиардера и пытается подстроить свой ответ под них.

😐😐😐

Читать полностью…

Data Secrets

Акции Nvidia снова подскочили и теперь это первая компания в истории, пробившая капитализацию в 4 миллиарда долларов

И это, кстати, несмотря даже на все ограничения экспорта в Китай.

* Для сравнения, Apple стоит 3 триллиона, а ВВП Великобритании – 3.3 триллиона.

Где-то один Дженсен Хуанг свитает, сколько кожанок можно купить на 4 триллиона 🔵

Читать полностью…

Data Secrets

В Твиттере завирусился тренд: нужно скинуть картинку, которую поймут только люди из твоей субкультуры

Среди реплаев нашлось вот это золото

Согласны? Узнали?

Читать полностью…
Subscribe to a channel