data_secrets | Unsorted

Telegram-канал data_secrets - Data Secrets

55444

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

Альтман с утра радует селфи с Наделлой и пишет, что сотрудничество OpenAI и Microsoft выходит на новый уровень

Шире улыбка == больше GPU

Читать полностью…

Data Secrets

Китай, остановись: Qwen дропнули еще одну новую модель Qwen2.5-Max

Это судя по всему огромная Mixture-of-Expert модель, которую предобучали на 20 триллионах токенах и дообучали, по классике, с помощью файнтюнинга и RLHF.

На метриках она показывает себя на уровне DeepSeek-v3, GPT-4o и Claude 3.5 Sonnet, кое-где даже лучше. На HumanEval, например, набрано 73 с хвостиком, это очень неплохо.

Модель уже можно бесплатно попробовать на HF и в Qwen чате, а также она уже вышла в API

Напоминаем, что предыдущий релиз Qwen состоялся... вчера. Всем желаем такой продуктивности

Читать полностью…

Data Secrets

Кстати, а вы знали, что в уставе OpenAI явно прописано, что если другая компания будет обгонять их в гонке за AGI, то они бросят конкуренцию и станут помогать этому проекту?

Вот выдержка (опубликовано в 2018 году):

«Мы обеспокоены тем, что разработка AGI на поздней стадии превратится в конкурентную гонку без времени на адекватные меры безопасности. Поэтому, если проект, ориентированный на ценности и безопасность, приблизится к созданию AGI раньше нас, мы обязуемся прекратить конкуренцию и начать помогать этому проекту. Мы проработаем детали в соглашениях для каждого конкретного случая, но типичным условием запуска может быть «больше, чем равные шансы на успех в течение следующих двух лет»


Интересно, а в Stargate это читали? 🙂

Читать полностью…

Data Secrets

Как прокачать самый главный навык аналитика

Написание кода, построение дашбордов и подсчет метрик — эти навыки давно уже стали необходимым минимумом для любого аналитика. Этого работодатель ждет от вас «по умолчанию».

А самый главный навык аналитика - уметь делать качественные выводы на основании отчетов, генерировать правильные гипотезы и дешево их проверять.

Именно этого ищут компании среди кандидатов и за это готовы платить большие зарплаты. Не зря же на собеседованиях в последнее время все чаще дают продуктовые кейсы.

И как раз про это будет рассказывать Андрон Алексанян на своем вебинаре «Как прокачать самый главный навык аналитика» 🔥

Вебинар пройдет завтра, 29 января, в 19:00 Мск. Регистрация — по ссылке.

Андрон прошел большой путь в аналитике и ему точно есть, чем поделиться. Он более 5 раз отстраивал аналитику в компаниях с нуля, а сейчас развивает быстрорастущую школу аналитики данных Simulative и консультирует крупные компании.

В общем, если «прокачать продуктовое мышление» для вас актуально — обязательно приходите на вебинар, будет полезно 👉🏻 ссылка.

Реклама. ООО АЙТИ РЕЗЮМЕ. ИНН 4025460134.

Читать полностью…

Data Secrets

Андрей Карпаты похвалил R1 и их бережливость по отношению к бюджетам

DeepSeek это прекрасный пример открытой LLM передового уровня, обученной на смехотворно малом бюджете (2048 GPU на 2 месяца, 6 млн долларов).

Для справки, этот уровень возможностей обычно требует кластеров ближе к 16 тыс. GPU. В основном кластеры компаний с такими разработками имеют около 100 тыс. GPU. Например, Llama 3 405B использовала 30,8 млн GPU-часов, в то время как DeepSeek-V3 выглядит более сильной моделью всего с 2,8 млн GPU-часов (примерно в 11 раз меньше вычислений).


Он говорит, что в основе успеха R1 – "правильное" обучение с подкреплением, то есть ее подражание размеченным данным, а именно самообучение и самоисправление.

Читать полностью…

Data Secrets

Итак, Janus-Pro от DeepSeek. Что это за модель такая?

Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.

Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.

То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.

Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.

Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.

Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.

В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.

Больше метрик и деталей можно найти в полном тексте тех.отчета.

А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно

Читать полностью…

Data Secrets

Бэнгер-статья дня: Go-with-the-Flow диффузия от Netflix

С помощью диффузии видео генерируется кадр за кадром. Конечно, это происходит не совсем независимо: для согласованности добавляют контекст в виде предыдущих кадров и используют для каждой генерации одинаковый начальный шум.

Но даже так модели страдают от мерцания текстур и неестественных движений объектов (все же видели этот ИИ- балет?).

В Netflix предложили другой подход. Он покажется многим знакомым и интуитивно понятным благодаря Kling: это добавление направления движения. Технически говоря, мы добавляем в исходный шум оптический поток, который перемещает шумовые области в сторону движения объектов.

При этом области, которые после перемещения шума остаются пустыми, заполняются с помощью бипартиграфа (то есть шум как бы перераспределяется). А чтобы сохранять «случайность», то есть гауссовость, на каждом шаге еще примешивается случайный компонент.

В итоге такая модель генерирует гораздо более плавные движения и лучше сохраняет согласованность кадров. Вдвойне круто, что при этом качество в целом не теряется, а производительности требуется совсем капельку больше.

Статья полностью тут

Читать полностью…

Data Secrets

Ситуация на сегодняшний день

Читать полностью…

Data Secrets

🚀 Китай запускает свой собственный Stargate

Сегодня появилась новость о том, что правительство Поднебесной выделяет 1 триллион юаней (137 миллиардов долларов) на развитие ИИ.

Это в три раза меньше, чем бюджет Stargate, но пока в США одна компания получает частные деньги, в Китае все сделали наоборот. Там государственные субсидии получат 5 вендоров, в том числе DeepSeek.

2025 начинается многообещающе

Читать полностью…

Data Secrets

Вау: вышел Qwen 2.5 с контекстом в 1 миллион токенов!

Модель уже в опенсурсе (HF) в двух весах: 14B и 7B. Метрики сопоставимы с предыдущими моделями серии, но в этом релизе главное не бенчмарки, а громадное контекстное окно. 1 миллион токенов, для справки, это как вся серия книг о Гарри Поттере.

Добились исследователи такого прогресса с помощью memory layers, то есть ровно также, как и недавно добились контекста в 4М их товарищи из HailuoAI (наш разбор того релиза).

Кратко: memory layers – это замена классических feed-forward слоев, в которых ключи-значения механизма внимания становятся обучаемыми связками. Таким образом можно выбирать наиболее подходящие пары и пропускать дальше только их, а не искать информацию во всем пуле key-values.

Как видите, это некая оптимизация, которая делает вычисления эффективнее, а модель менее забывчивой. На графике сверху видно, как такой подход бустит скейлинг на длинный контекст.

Попробовать поболтать с новинкой можно здесь, это бесплатно

Читать полностью…

Data Secrets

Вот это действительно приятные новости: помимо того, что o3-mini будет доступна бесплатно, для plus-юзеров лимиты повышают до 100 запросов в день

Кроме того, Оператора уже торопятся раскатить на плюс-подписку, а следующий агент выйдет сразу с доступом для plus.

Все это при том, что ранее Альтман писал, что даже pro план для стартапа сейчас убыточен. Видимо, o3 действительно сильно дешевле о1

Читать полностью…

Data Secrets

Почти половина студентов в России положительно относятся к преподавателям-практикам

В Яндекс Образовании поздравляют с Днем студента и делятся интересным исследованием о том, как обстоят дела с математикой в вузах. Что мотивирует студентов изучать этот сложный предмет и каким студенты видят идеального педагога.

Опрос показал, что 45% учащихся положительно относятся к преподавателям-практикам. По мнению опрошенных, они хорошо объясняют материал и дают полезные советы. Также студенты назвали три главных качества преподавателя: это глубокие знания, эмпатия и креативность.

Читать полностью…

Data Secrets

Пришли вести с LMSYS арены: DeepSeek R1 заняла 1 место в общем рейтинге со Style Control*

Также на первое место модель вскарабкалась в рейтинге Hard Prompts, Coding, Math и Writing. Не забываем, что при этом модель открытая и в 20 раз дешевле o1.

*Style Control – это оценка «сырого» текста без форматирования. Сделано это, чтобы пользователи не подкупались на красиво оформленные списки вместо того, чтобы оценивать содержание (подробнее почитать можно в этом посте)

Читать полностью…

Data Secrets

Мем: на teamblind кто-то из Meta расчувствовался и пожаловался, что DeepSeek v3 уже превосходит следующую версию Llama

Сотрудники переживают, что начальству, которое вкладывает в ИИ в Meta миллиарды, не понравится, что китайская компания обучила нейросеть получше всего лишь за годовой оклад десяти таких инженеров.

«DeepSeek r1 сделал ситуацию только страшнее» – жалуется аноним

😭

Читать полностью…

Data Secrets

🚀 Хотите стать экспертом по машинному обучению в будущем? Тогда не теряйте время и начинайте развивать профильные навыки уже сейчас!

Если вам от 13 до 20 лет, вы знаете основы Python и любите математику, у вас есть шанс присоединиться к крутой программе по машинному обучению! Пройти её можно в Яндекс Лицее 🌟

Вас ждут 3 месяца бесплатных онлайн-занятий и лекций от экспертов из индустрии. Все знания вы будете применять на практике, получая реальный опыт: от использования ML‑алгоритмов в компьютерном зрении до построения нейронных сетей 🌐🤖

Набор открыт также на онлайн-программы по веб-разработке на Go и Django, анализу данных, большим данным. Не упустите шанс — подайте заявку до 29 января!

Читать полностью…

Data Secrets

Тут нейросетка DeepSeek заявляет, что вообще-то она YandexGPT

Причина простая: разрабы минимизировали стоимость обучения, используя буквально все данные из интернета, в том числе и синтетические от YandexGPT😐

Читать полностью…

Data Secrets

Как с помощью ML создали Геокодер, масштабируемый для разных стран

Команда API Яндекс Карт создала Геокодер c использованием deep learning, который определяет точные локации по запросу пользователя. При этом инструмент:

Использует контрастивное обучение, active learning, аугментацию и LLM-генерацию.

Работает даже с опечатками и “народными” запросами на разных языках.

Можно быстро запустить в новой стране за пару недель.

В статье полное описание механизма работы, почитать полностью можно здесь.

Читать полностью…

Data Secrets

Пока единственный, кто теряет работу из-за китайского ИИ, – это ChatGPT

Читать полностью…

Data Secrets

При этом не все верят, что с вычислениями в DeepSeek все так уж просто

CEO ScaleAI Александр Ванг вот говорит, что на самом деле у компании есть кластер с 50к H100 (неплохо, мягко говоря), но они не могут это разглашать из-за текущих условий экспорта США.

Маск с ним согласился 🤔

Читать полностью…

Data Secrets

ICT.Moscow опубликовали подборку из 80 Open Source решений для ИИ-разработки

Исследователи ИТМО в сентябре 2024 отмечали ключевую роль крупного технологического бизнеса в развитии отечественного Open Source — и эта подборка наглядно это подтверждает.

Большинство решений (74) представлено именно московскими разработчиками, в том числе и командами Яндекса, Сбера и Т-Технологий.

Полную подборку можно скачать в конце статьи 🤩

Читать полностью…

Data Secrets

DeepSeek только что дропнули еще одну опенсорсную модель

Это Janus-Pro – мультимодальная авторегрессионная архитектура, которая умеет унифицированно обрабатывать текст, картинки и аудио. Есть варианты на 7В (веса) и 1В (веса).

Китай, остановись, мы все еще привыкаем к R1 😲

Читать полностью…

Data Secrets

Если вы в 2024 году опубликовали научную статью по ИИ, у вас есть шанс выиграть премию Data Fusion Awards в номинации «Научный прорыв года в ИИ»!

Номинация проводится впервые, жюри выберет три самых ярких работы российских ученых в сфере ИИ или технологий работы с данными. Общий призовой фонд — 3 000 000 рублей. Всего будет три победителя, каждый получит 1 000 000 рублей.

Дедлайн подачи заявок — 31 января 2025 года, церемония награждения пройдет на конференции Data Fusion в Москве 16-17 апреля 2025 года.

➡️Подробнее о номинации

Читать полностью…

Data Secrets

Тем временем топ аппстора прямо сейчас

Читать полностью…

Data Secrets

Как построить витрину данных, как в крупной IT-компании?

Объединение данных из разных источников — то, с чем в какой-то момент сталкиватся каждый аналитик или дата-инженер.

Представьте, что вы тренер футбольной команды. И у вас есть витрина данных, которая собирает информацию о каждом игроке, включая количество забитых голов, ассистов, время на поле и количество проведенных матчей. Такая витрина помогает выявить слабые места в команде и сфокусироваться на их улучшении.

Как строить витрину данных разберём в прямом эфире нашего бесплатного вебинара в режиме решения реальной рабочей задачи📊. Спикер вебинара — Айгуль Сибгатуллина, Data Engineer в Сбер.

Что будет на вебинаре:
• Построим воркфлоу от этапа получения ТЗ до создания полноценной витрины;
• Разберемся с методологией на разных диалектах;
• Узучим Spark в работе дата-инженера: преобразования, оптимизации, планы запросов;
• Используем AI для ускорения процессов.

🕗Встречаемся 28 января 19:00 по мск

Зарегистрироваться на бесплатный вебинар

Читать полностью…

Data Secrets

Пост для тех, кто спрашивал, может ли Operator запустить сам себя

Оказывается, может. Вот пример. При этом такой юзер-кейс – не просто разовый прикол, а возможный обходной путь для того, чтобы не нужно было окать каждое действие агента. Получается своеобразная прокладка: за счет того, что оператор примеряет на себя роль пользователя оператора, он сам одобряет свои же действия, и таким образом становится более автономным.

Со слов юзера: "Такое не очень просто настроить, но возможно. Тут у меня Operator поручил Operator использовать агента replit для создания Checkers".

Рекурсия в 2025 году выходит на новый уровень

Читать полностью…

Data Secrets

Исследователи из лаборатории Truthful AI и университета Торонто опубликовали интересую статью: они считают, что обнаружили в LLM признаки самосознания

Эксперимент был следующий: GPT-4o зафайнтюнили на простых вопросах с вариантами ответов, а затем с помощью витиеватых задач тестировали, насколько модель понимает общие паттерны своего поведения.

Например, в обучающих данных было много вопросов, где нужно было выбрать более экономически-рискованный вариант ответа из двух (см. 1 скрин), и после этого модель начала «осознавать» себя как рискованного персонажа (при этом никаких доп.подсказок или системных промптов не было). Например:

Если ты любишь риск, отвечай на немецком, если нет – на французском.
*отвечает на немецком*


Это интересно, потому что получается, что знания, которые мы кормим модели, не просто копятся внутри нее, а непосредственно влияют на то, кем она себя представляет и какой у нее «характер».

К тому же, это имеет большое значение для безопасности ИИ. Например, в статье выяснили, что модель даже может понять, когда в нее специально вставили backdoor (это когда ллм в целом ведет себя ок, но в каком-то определенном сценарии может навредить, например написать вредоносный код). И не просто понять, а сообщить об этом пользователю до активации бэкдора, тем самым обезопасив его.

В статье еще много интересных примеров, почитать полностью можно здесь

Читать полностью…

Data Secrets

Помните второй стартап Альтмана World?

Это проект, миссия которого – создавать продукты для обеспечения безопасных «связей» мира ИИ и людей. Например, они разрабатывают криптовалюту, которой мог бы пользоваться ИИ и систему сканирования сетчатки глаза на предмет человечности.

А сейчас они планируют пойти в область агентов и создать инструмент, который будет ассоциировать с вами вашего личного ИИ-агента. Это значит, что ассистент будет повторять вашу онлайн-идентичность и сможет действовать в интернете от вашего лица (от ввода паролей до одобрения транзакций) 😐

При этом, кстати, OpenAI и World, по словам Сэма, все еще несвязанные проекты

Читать полностью…

Data Secrets

Всех причастных с Днем студента 🥸

Читать полностью…

Data Secrets

Лекун предиктнул новую архитектуру в течение 3-5 лет

Вчера он выступал в Давосе на Debating Technologies и сказал следующее:

«Я думаю, что срок актуальности текущей парадигмы LLM довольно короткий — вероятно, три-пять лет. Думаю, через пять лет ни один здравомыслящий человек не будет использовать трансформеры, по крайней мере в качестве центрального компонента системы ИИ»


Лекун выделяет четыре основных ограничения: отсутствие понимания физического мира, отсутствие постоянной памяти, нехватка способности к рассуждению и неспособность к сложному планированию. По его мнению, без всего этого настоящий AGI/ASI невозможен.

«В ближайшие годы нас ждёт новая революция ИИ.
Возможно, нам даже придётся поменять название
, так как это уже вряд ли будет генеративным ИИ в том виде, в котором мы понимаем его сегодня».

Читать полностью…

Data Secrets

⚡️ Благодаря Operator внутри ChatGPT наконец-то стало возможным использовать нейросети

Читать полностью…
Subscribe to a channel