Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n
Альтман с утра радует селфи с Наделлой и пишет, что сотрудничество OpenAI и Microsoft выходит на новый уровень
Шире улыбка == больше GPU
Китай, остановись: Qwen дропнули еще одну новую модель Qwen2.5-Max
Это судя по всему огромная Mixture-of-Expert модель, которую предобучали на 20 триллионах токенах и дообучали, по классике, с помощью файнтюнинга и RLHF.
На метриках она показывает себя на уровне DeepSeek-v3, GPT-4o и Claude 3.5 Sonnet, кое-где даже лучше. На HumanEval, например, набрано 73 с хвостиком, это очень неплохо.
Модель уже можно бесплатно попробовать на HF и в Qwen чате, а также она уже вышла в API
Напоминаем, что предыдущий релиз Qwen состоялся... вчера. Всем желаем такой продуктивности
Кстати, а вы знали, что в уставе OpenAI явно прописано, что если другая компания будет обгонять их в гонке за AGI, то они бросят конкуренцию и станут помогать этому проекту?
Вот выдержка (опубликовано в 2018 году):
«Мы обеспокоены тем, что разработка AGI на поздней стадии превратится в конкурентную гонку без времени на адекватные меры безопасности. Поэтому, если проект, ориентированный на ценности и безопасность, приблизится к созданию AGI раньше нас, мы обязуемся прекратить конкуренцию и начать помогать этому проекту. Мы проработаем детали в соглашениях для каждого конкретного случая, но типичным условием запуска может быть «больше, чем равные шансы на успех в течение следующих двух лет»
Как прокачать самый главный навык аналитика
Написание кода, построение дашбордов и подсчет метрик — эти навыки давно уже стали необходимым минимумом для любого аналитика. Этого работодатель ждет от вас «по умолчанию».
А самый главный навык аналитика - уметь делать качественные выводы на основании отчетов, генерировать правильные гипотезы и дешево их проверять.
Именно этого ищут компании среди кандидатов и за это готовы платить большие зарплаты. Не зря же на собеседованиях в последнее время все чаще дают продуктовые кейсы.
И как раз про это будет рассказывать Андрон Алексанян на своем вебинаре «Как прокачать самый главный навык аналитика» 🔥
Вебинар пройдет завтра, 29 января, в 19:00 Мск. Регистрация — по ссылке.
Андрон прошел большой путь в аналитике и ему точно есть, чем поделиться. Он более 5 раз отстраивал аналитику в компаниях с нуля, а сейчас развивает быстрорастущую школу аналитики данных Simulative и консультирует крупные компании.
В общем, если «прокачать продуктовое мышление» для вас актуально — обязательно приходите на вебинар, будет полезно 👉🏻 ссылка.
Реклама. ООО АЙТИ РЕЗЮМЕ. ИНН 4025460134.
Андрей Карпаты похвалил R1 и их бережливость по отношению к бюджетам
DeepSeek это прекрасный пример открытой LLM передового уровня, обученной на смехотворно малом бюджете (2048 GPU на 2 месяца, 6 млн долларов).
Для справки, этот уровень возможностей обычно требует кластеров ближе к 16 тыс. GPU. В основном кластеры компаний с такими разработками имеют около 100 тыс. GPU. Например, Llama 3 405B использовала 30,8 млн GPU-часов, в то время как DeepSeek-V3 выглядит более сильной моделью всего с 2,8 млн GPU-часов (примерно в 11 раз меньше вычислений).
Итак, Janus-Pro от DeepSeek. Что это за модель такая?
Вчера, чуть позже, чем веса, стартап выложил тех.репорт про свою новую разработку. Сейчас разберемся, что там интересного.
Итак, Janus-Pro — это улучшенная версия предыдущей модели Janus (про нее мы писали тут). Относительно предшественника в Pro, кроме бОльшего размера и количества данных, появилось одно ключевое улучшение: раздельное кодирование для задач image2text и text2image.
То есть раньше в Янусе использовали единый энкодер для всех задач, и, как оказалось, это вызывало некоторые конфликты. Что, в целом, логично.
Ведь когда мы работаем в режиме мультимодального понимания, то есть image2text, это требует от модели глубокого семантического анализа визуального контента (например, «Какой объект изображён?» или «Что написано на доске?»). А когда ей нужно сгенерировать изображения, от нее требуются совсем другие навыки: понимание пространственных зависимостей, оттенков и соответствия промпту.
Вот и получается, что единый энкодер руинит качество сразу обеих задач. Поэтому в Janus-Pro их два: SigLIP для изображение → текст и VQ Tokenizer для текст → изображение.
Кроме того, для двух этих разных задач далее по пайплайну прикручены еще и два разных адаптера: Understanding Adaptor и Generation Adaptor, которые подбивают выходы энкодеров под формат внутренних слоев модели, то есть авторегрессионного трансформера.
В итоге Janus-Pro генерирует картинки лучше, чем DALL-E 3, SD3 и Emu3, а понимает изображение точнее, чем модели LLaVA! На примерах прогресс очевиден.
Больше метрик и деталей можно найти в полном тексте тех.отчета.
А попробовать погенерировать картинки с помощью модели кстати уже можно на HF, бесплатно
Бэнгер-статья дня: Go-with-the-Flow диффузия от Netflix
С помощью диффузии видео генерируется кадр за кадром. Конечно, это происходит не совсем независимо: для согласованности добавляют контекст в виде предыдущих кадров и используют для каждой генерации одинаковый начальный шум.
Но даже так модели страдают от мерцания текстур и неестественных движений объектов (все же видели этот ИИ- балет?).
В Netflix предложили другой подход. Он покажется многим знакомым и интуитивно понятным благодаря Kling: это добавление направления движения. Технически говоря, мы добавляем в исходный шум оптический поток, который перемещает шумовые области в сторону движения объектов.
При этом области, которые после перемещения шума остаются пустыми, заполняются с помощью бипартиграфа (то есть шум как бы перераспределяется). А чтобы сохранять «случайность», то есть гауссовость, на каждом шаге еще примешивается случайный компонент.
В итоге такая модель генерирует гораздо более плавные движения и лучше сохраняет согласованность кадров. Вдвойне круто, что при этом качество в целом не теряется, а производительности требуется совсем капельку больше.
Статья полностью тут
🚀 Китай запускает свой собственный Stargate
Сегодня появилась новость о том, что правительство Поднебесной выделяет 1 триллион юаней (137 миллиардов долларов) на развитие ИИ.
Это в три раза меньше, чем бюджет Stargate, но пока в США одна компания получает частные деньги, в Китае все сделали наоборот. Там государственные субсидии получат 5 вендоров, в том числе DeepSeek.
2025 начинается многообещающе
Вау: вышел Qwen 2.5 с контекстом в 1 миллион токенов!
Модель уже в опенсурсе (HF) в двух весах: 14B и 7B. Метрики сопоставимы с предыдущими моделями серии, но в этом релизе главное не бенчмарки, а громадное контекстное окно. 1 миллион токенов, для справки, это как вся серия книг о Гарри Поттере.
Добились исследователи такого прогресса с помощью memory layers, то есть ровно также, как и недавно добились контекста в 4М их товарищи из HailuoAI (наш разбор того релиза).
Кратко: memory layers – это замена классических feed-forward слоев, в которых ключи-значения механизма внимания становятся обучаемыми связками. Таким образом можно выбирать наиболее подходящие пары и пропускать дальше только их, а не искать информацию во всем пуле key-values.
Как видите, это некая оптимизация, которая делает вычисления эффективнее, а модель менее забывчивой. На графике сверху видно, как такой подход бустит скейлинг на длинный контекст.
Попробовать поболтать с новинкой можно здесь, это бесплатно
Вот это действительно приятные новости: помимо того, что o3-mini будет доступна бесплатно, для plus-юзеров лимиты повышают до 100 запросов в день
Кроме того, Оператора уже торопятся раскатить на плюс-подписку, а следующий агент выйдет сразу с доступом для plus.
Все это при том, что ранее Альтман писал, что даже pro план для стартапа сейчас убыточен. Видимо, o3 действительно сильно дешевле о1
Почти половина студентов в России положительно относятся к преподавателям-практикам
В Яндекс Образовании поздравляют с Днем студента и делятся интересным исследованием о том, как обстоят дела с математикой в вузах. Что мотивирует студентов изучать этот сложный предмет и каким студенты видят идеального педагога.
Опрос показал, что 45% учащихся положительно относятся к преподавателям-практикам. По мнению опрошенных, они хорошо объясняют материал и дают полезные советы. Также студенты назвали три главных качества преподавателя: это глубокие знания, эмпатия и креативность.
Пришли вести с LMSYS арены: DeepSeek R1 заняла 1 место в общем рейтинге со Style Control*
Также на первое место модель вскарабкалась в рейтинге Hard Prompts, Coding, Math и Writing. Не забываем, что при этом модель открытая и в 20 раз дешевле o1.
*Style Control – это оценка «сырого» текста без форматирования. Сделано это, чтобы пользователи не подкупались на красиво оформленные списки вместо того, чтобы оценивать содержание (подробнее почитать можно в этом посте)
Мем: на teamblind кто-то из Meta расчувствовался и пожаловался, что DeepSeek v3 уже превосходит следующую версию Llama
Сотрудники переживают, что начальству, которое вкладывает в ИИ в Meta миллиарды, не понравится, что китайская компания обучила нейросеть получше всего лишь за годовой оклад десяти таких инженеров.
«DeepSeek r1 сделал ситуацию только страшнее» – жалуется аноним
😭
🚀 Хотите стать экспертом по машинному обучению в будущем? Тогда не теряйте время и начинайте развивать профильные навыки уже сейчас!
Если вам от 13 до 20 лет, вы знаете основы Python и любите математику, у вас есть шанс присоединиться к крутой программе по машинному обучению! Пройти её можно в Яндекс Лицее 🌟
Вас ждут 3 месяца бесплатных онлайн-занятий и лекций от экспертов из индустрии. Все знания вы будете применять на практике, получая реальный опыт: от использования ML‑алгоритмов в компьютерном зрении до построения нейронных сетей 🌐🤖
Набор открыт также на онлайн-программы по веб-разработке на Go и Django, анализу данных, большим данным. Не упустите шанс — подайте заявку до 29 января!
Тут нейросетка DeepSeek заявляет, что вообще-то она YandexGPT
Причина простая: разрабы минимизировали стоимость обучения, используя буквально все данные из интернета, в том числе и синтетические от YandexGPT😐
Как с помощью ML создали Геокодер, масштабируемый для разных стран
Команда API Яндекс Карт создала Геокодер c использованием deep learning, который определяет точные локации по запросу пользователя. При этом инструмент:
➖ Использует контрастивное обучение, active learning, аугментацию и LLM-генерацию.
➖ Работает даже с опечатками и “народными” запросами на разных языках.
➖ Можно быстро запустить в новой стране за пару недель.
В статье полное описание механизма работы, почитать полностью можно здесь.
Пока единственный, кто теряет работу из-за китайского ИИ, – это ChatGPT
Читать полностью…При этом не все верят, что с вычислениями в DeepSeek все так уж просто
CEO ScaleAI Александр Ванг вот говорит, что на самом деле у компании есть кластер с 50к H100 (неплохо, мягко говоря), но они не могут это разглашать из-за текущих условий экспорта США.
Маск с ним согласился 🤔
ICT.Moscow опубликовали подборку из 80 Open Source решений для ИИ-разработки
Исследователи ИТМО в сентябре 2024 отмечали ключевую роль крупного технологического бизнеса в развитии отечественного Open Source — и эта подборка наглядно это подтверждает.
Большинство решений (74) представлено именно московскими разработчиками, в том числе и командами Яндекса, Сбера и Т-Технологий.
Полную подборку можно скачать в конце статьи 🤩
DeepSeek только что дропнули еще одну опенсорсную модель
Это Janus-Pro – мультимодальная авторегрессионная архитектура, которая умеет унифицированно обрабатывать текст, картинки и аудио. Есть варианты на 7В (веса) и 1В (веса).
Китай, остановись, мы все еще привыкаем к R1 😲
Если вы в 2024 году опубликовали научную статью по ИИ, у вас есть шанс выиграть премию Data Fusion Awards в номинации «Научный прорыв года в ИИ»!
Номинация проводится впервые, жюри выберет три самых ярких работы российских ученых в сфере ИИ или технологий работы с данными. Общий призовой фонд — 3 000 000 рублей. Всего будет три победителя, каждый получит 1 000 000 рублей.
Дедлайн подачи заявок — 31 января 2025 года, церемония награждения пройдет на конференции Data Fusion в Москве 16-17 апреля 2025 года.
➡️Подробнее о номинации
Как построить витрину данных, как в крупной IT-компании?
Объединение данных из разных источников — то, с чем в какой-то момент сталкиватся каждый аналитик или дата-инженер.
Представьте, что вы тренер футбольной команды. И у вас есть витрина данных, которая собирает информацию о каждом игроке, включая количество забитых голов, ассистов, время на поле и количество проведенных матчей. Такая витрина помогает выявить слабые места в команде и сфокусироваться на их улучшении.
Как строить витрину данных разберём в прямом эфире нашего бесплатного вебинара в режиме решения реальной рабочей задачи📊. Спикер вебинара — Айгуль Сибгатуллина, Data Engineer в Сбер.
Что будет на вебинаре:
• Построим воркфлоу от этапа получения ТЗ до создания полноценной витрины;
• Разберемся с методологией на разных диалектах;
• Узучим Spark в работе дата-инженера: преобразования, оптимизации, планы запросов;
• Используем AI для ускорения процессов.
🕗Встречаемся 28 января 19:00 по мск
Зарегистрироваться на бесплатный вебинар
Пост для тех, кто спрашивал, может ли Operator запустить сам себя
Оказывается, может. Вот пример. При этом такой юзер-кейс – не просто разовый прикол, а возможный обходной путь для того, чтобы не нужно было окать каждое действие агента. Получается своеобразная прокладка: за счет того, что оператор примеряет на себя роль пользователя оператора, он сам одобряет свои же действия, и таким образом становится более автономным.
Со слов юзера: "Такое не очень просто настроить, но возможно. Тут у меня Operator поручил Operator использовать агента replit для создания Checkers".
Рекурсия в 2025 году выходит на новый уровень
Исследователи из лаборатории Truthful AI и университета Торонто опубликовали интересую статью: они считают, что обнаружили в LLM признаки самосознания
Эксперимент был следующий: GPT-4o зафайнтюнили на простых вопросах с вариантами ответов, а затем с помощью витиеватых задач тестировали, насколько модель понимает общие паттерны своего поведения.
Например, в обучающих данных было много вопросов, где нужно было выбрать более экономически-рискованный вариант ответа из двух (см. 1 скрин), и после этого модель начала «осознавать» себя как рискованного персонажа (при этом никаких доп.подсказок или системных промптов не было). Например:
Если ты любишь риск, отвечай на немецком, если нет – на французском.
*отвечает на немецком*
Помните второй стартап Альтмана World?
Это проект, миссия которого – создавать продукты для обеспечения безопасных «связей» мира ИИ и людей. Например, они разрабатывают криптовалюту, которой мог бы пользоваться ИИ и систему сканирования сетчатки глаза на предмет человечности.
А сейчас они планируют пойти в область агентов и создать инструмент, который будет ассоциировать с вами вашего личного ИИ-агента. Это значит, что ассистент будет повторять вашу онлайн-идентичность и сможет действовать в интернете от вашего лица (от ввода паролей до одобрения транзакций) 😐
При этом, кстати, OpenAI и World, по словам Сэма, все еще несвязанные проекты
Лекун предиктнул новую архитектуру в течение 3-5 лет
Вчера он выступал в Давосе на Debating Technologies и сказал следующее:
«Я думаю, что срок актуальности текущей парадигмы LLM довольно короткий — вероятно, три-пять лет. Думаю, через пять лет ни один здравомыслящий человек не будет использовать трансформеры, по крайней мере в качестве центрального компонента системы ИИ»
«В ближайшие годы нас ждёт новая революция ИИ.
Возможно, нам даже придётся поменять название
, так как это уже вряд ли будет генеративным ИИ в том виде, в котором мы понимаем его сегодня».Читать полностью…
⚡️ Благодаря Operator внутри ChatGPT наконец-то стало возможным использовать нейросети
Читать полностью…