🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp
Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.
AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?
🟣Что такое ARC AGI
ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence"
🟣На хабре есть мой краткий пересказ от аж 2020 года (ссылка).
TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).
Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.
🟣Новый уровень качества
В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.
Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.
🟣Мои проблемы с ARC AGI
На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.
Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.
Diffusion Meets Flow Matching: Two Sides of the Same Coin
В начале декабря группа чуваков из Глубокого Разума, среди коих признанные аксакалы, как Hoogeboom, De Bortoli и Salimans опубликовала презанятнейший пост Diffusion Meets Flow Matching: Two Sides of the Same Coin.
Нынче стало модно учить диффузионки в Flow Matching постановке. Тренд, по всей видимости, был задан SD3. И большинство нынешней SOTA в картиночной и видео генерации (из того, что известно) FLUX, MovieGen, HunyuanVideo.
И что это значит? Классическая парадигма - пережиток истории 🤔?
Ан нет.
В данном блогпосте авторы в деталях анализируют процесс сэмплирования и обучения в стандартной noise-prediction Variance Preserving (VE) диффузионной постановке и Flow matching, и показывают, что по сути обе сущности про одно и то же. Основная разница в коэффициентах при шуме/сигнале и использовании скорости в качестве выхода нейронной сети вместо шума/x0. И по ходу повествования эквивалентность двух парадигм авторы иллюстрируют с разных сторон.
Сам блогпост содержит красивые 🥰 иллюстративные визуализации с ползунками 😮.
Кроме того, авторы опровергают распространенное мнение, что Flow Matching дает непременно более прямые траектории, чем диффузия. Для узких распределений Flow Matching действительно дает более прямые траектории, чем типичный диффузионный процесс, но для широких распределений все может поменяться с точностью до наоборот. Впрочем, для наиболее типичного сценария text-2-image генерации или редактирования изображения, целевое распределение, по всей видимости, достаточно узкое.
Как я украл книжки
Коллега, уменьшающий количество ДТП в мире, запостил новость, что айтишники украли больше всех книг из магазинов читай город. И я вспомнил, что и сам грешен!
Из магазинов я книги не таскал, но вот практически с каждой работы получил пополнение в свою библиотеку.
1️⃣Когда я работал стажёром в компании, которая занималась автоматизацией тепло-электро станций, узнал много всего интересного. Например, что для витой пары нужны репитеры каждые сто метров. Подобные вещи важны на той работе. Видимо, поэтому мне вручили первое (или второе, не помню) издание Олиферов. Уже тогда книжка была толстая, а пятое издание (я купил пару лет назад) вообще огромное. Книга топ! Я по ней сети учил. Long story short книжка до сих пор у меня. Хотя скорее всего мне ее подарили, а я просто запомнил, как-будто утащил и не вернул 🤔
2️⃣В неткрэкере в нашем микроофисе был некий буккроссинг. Это был один из корпусов МФТИ, а в кампусе буккросинг это старинная традиция утилизации книг 😁
Там я взял книгу "банды четырёх" в ужасающем русском переводе. Мне было не очевидно, что проблема не во мне, а в переводе, а потому я читал книгу много раз и долго. К моменту, когда она мне надоела, буккроссинга уже след простыл, так что книга осталась у меня.
3️⃣В дойче банке книжек не было. Сначала. Потом стали появляться стихийно на кофепойнтах. В основном всякое говно, которое почему-то не решились выбросить. Но вот на КП возле небожителей из RAPID (алготрейдинговая машина дойче для токсичных клиентов), там где сидел Черёмин (надеюсь, это не Руслан приносил себе читать за кофе), появился конспект лекций МАИ по численным методам авторства Пирумова. Книга — пушка, писал о ней тут. Я только по ней начал понимать численные методы, хотя в институте у меня тоже был такой предмет. Спасибо, Пирумов, я сдал вычматы и даже потом в райфе использовал кое-что. Книжка очень базовая, но вкатиться идеально. Настя, подтверди или опровергни 😁
4️⃣Здесь мы ступаем на опасную почву! Когда я работал в райфе, мы заказывали много книг за счёт компании, но ни одну из них я не прихватил. Зато я очень долго упрашивал Серёгу дать мне почитать Брэндона Грэгга и обещал обязательно вернуть. Серёг, прости, я верну, если ещё актуально! 😁 Книгу взял, потом ковид, потом я уехал в реанимацию, потом вообще в Сербию. Так и не вернул до сих пор!
Какие выводы можно сделать?
Во-первых, мне нельзя давать книги 😭
Во-вторых, кому надо, тот найдёт!
В-третьих, стоит шариться по буккроссингам, там бывает полезное.
Признавайтесь, у кого из вас я тоже украл книжку кто тоже книгокрад?
👋 Всем привет! У нас важные новости!
Мы официально запустили мини-app LLM Arena в Telegram.
Теперь вы можете оценивать модели и решать свои задачи с помощью LLM Arena, не выходя из мессенджера.
Как это работает?
1. Открываете мини-аппку по ссылке.
2. Вводите запрос.
3. Получаете два ответа от разных моделей и голосуете за понравившийся.
⚡️ Приложение синхронизировано с основной платформой, так что оценки идут в общий зачёт для бенчмарка. Мы рассчитываем, что это ускорит сбор данных и сделает арену ещё удобнее для пользователей.
Это только начало. В планах добавить статистику, бейджи, рейтинг лучших юзеров по оценкам на платформе.
Друзья, ваши оценки и отзывы важны для развития арены, поэтому ждём ваших голосов — и в Telegram, и на сайте llmarena.ru.
Как вам новый формат?
Логрег на стакане это agi если ты достаточно богатый.
Напоминаю agi achived internally на arc agi. Раз бенчмарк аги
Если вас не впечатлила новая модель OpenAI, то скоро приедет этот малыш и сами ему все объясните
Читать полностью…Хочу чтобы два человека в прямом эфире сели написать и обучить трансформер на торче и flax+jax. У кого лучше обучится тот и победил. пишите в @transformerslovedeatch если готовы
Читать полностью…Текущая ситуация когда за публикации надо платить 400-800usd это пиздец.
Даже мне с работой 400 баксов за публикацию это не мало, а тут студенту надо платить столько.
Товарищи учёные, почему так дорого?
ARC agi кормится в llm примерно в таком формате:
Как вы понимаете это противоественный примерно всему формат, то что он решается на о3 это не плюс и не минус. Хуй знает.
42-ух минутный доклад с NeurIPS 2024 об основных конкурентах архитектуры трансформера
Вам в очень энергичной манере поведают:
- В чем логика заменять трансформер
- Общий таймлайн развития альтернативных архитектур с 2020 года и причем тут LSTM
- Что же там в итоге с линейным атеншеном в 2024том
- Кто же этот такой ваш RWKV, кто за ним стоит и почему он не хочет умирать в 2025том
- Как быть отчаяным ресерчером и в одиночку успешно линеаризовывать opensource LLM без собственного претрейна
- Что еще случилось за год (Jamba, Sana, DNA Models и что еще нас ждет
Смотреть на Ютубе
Очередной год матных постов с real science, рост практически на 100% в год. Рад сходкам, новым лицам и тем что старые не ушли
Читать полностью…Никакого AGI в ближайшие 5 лет — твёрдо и чётко.
Да кто такой этот ваш AGI... спроси пятерых — ответят пять разных вещей. А между прочим это важный вопрос для OpenAI, ведь создание AGI это а) цель компании б) точка, после которой OpenAI может в одностороннем порядке разорвать все отношения со всеми инвесторами (это закреплено договорами), и быть им ничего не должна.
В уставе компании есть ёмкая формулировка, которая к сожалению оставляет пространство для интерпретации: «превосходит людей в большинстве экономически важных задач». От чего меряем большинство, где граница важности, итд — непонятно.
Теперь, согласно новости от TheInformation, в рамках переговоров с Microsoft было сформулировано новое определение, звучит так: ИИ-система, которая может принести не менее 100 миллиардов долларов прибыли.
С одной стороны до такой системы далеко — сейчас у компании прибыли нет, а годовая выручка порядка 5 миллиардов. С другой — формулировка «может принести» («can generate» в оригинале) как будто подразумевает не состоявшийся, а потенциальный факт. Такая система может быть разработана и не опубликована (принести $0), но всё равно попадать под определение. Плюс нет ограничения по времени, принести 100 миллиардов за год куда сложнее, чем за пятилетку.
А почему не будет AGI ещё 5 лет? Ранее я писал, что компания вообще не планирует получать прибыль до 2029-го года. Примерно в то же время выручка (но не прибыль) должна стать примерно $100B. Но «can generate», в теории, позволяет заявить об AGI на пару лет раньше 🤷♂️
===
По словам человека, общавшегося с Sam Altman по поводу переговоров с Microsoft, основное внимание сосредоточено на четырёх вопросах:
— доля Microsoft в новой коммерческой организации
— останется ли Microsoft эксклюзивным поставщиком облачных услуг OpenAI (последние немного недовольны темпами роста мощностей, и смотрят по сторонам в поисках партнёрств)
— как долго Microsoft будет сохранять права на использование интеллектуальной собственности OpenAI в своих продуктах
— продолжит ли Microsoft получать 20% от выручки OpenAI
Задачка: что можно сказать о архитектуре и инференсе этой модели по этой записи?
Почему картинки не сгенерировались одновременно?
Почему последняя генерировалась медленнее всех?
Как вам релизы новых моделей с русским? tlite, tpro, gigachat, cotype, Ruadapt? Какие фавориты? под что гоняете?
Читать полностью…#вакансия
Должность: Applied Research Scientist
Город и адрес офиса: г. Тверь, ул. Пушкина, д. Колотушкина
Формат работы: вахта на 2 месяца
Занятость: В приоритете full-time, но рассматриваем также part-time
Зарплатная вилка: Достойная оплата от 50 до 100 т.р/мес. по результатам собеседования и сдачи норм ГТО
Описание вакансии:
Наша команда Ebány Lab занимается передовыми исследованиями на срезе современной науки.
Сейчас мы разрабатываем AI-ассистента для задач завхоза и ищем LLM исследователя, который будет помогать нам улучшать качество ответов электронного завхоза с помощью экспериментов с языковыми моделями.
Основные задачи:
• Подбирать эффективные затравки в ChatGPT (гигачат)
• Искать докер образы с подходящей ROCm для нашей инфраструктуры и деплоить электронного завхоза в прод
• Ревьюить код (наша кодовая база написана на Elixir и Agda)
• Чистить соковыжималку (по вторникам)
• Анализировать результаты и предлагать решения для повышения качества ответов AI-ассистентов
Требуемые навыки:
• PhD в области искусственного интеллекта
• Kaggle Grandmaster
• Пройденный курс “Симулятор Ресёрча”
• Второе или первое место в клавагонках
• Опыт разметки данных в гугл-таблицах
• Читаешь telegram каналы про ML
Будет плюсом:
• Умеешь играть на басу
• Пониженный тестостерон
• Черный пояс по карате
• Целомудрие
От нас ты получишь:
• В рот
• Работа в сильной команде кандидатов наук по ИИ, титанов матанализа и грандмастеров на kaggle
• Возможность заниматься исследованиями интересных тебе тем 2% времени
• Крекеры на кофепоинте и еженедельные турниры в мафию с вкусными призами за победу
———————————
За успешную рекомендацию по традиции бонус! При прохождении тестового — сосиска в тесте, ещё кекс с изюмом из вкусвилла после 2 месяцев хорошей работы. Если у вас классный кандидат с большим опытом, то пишите в ЛС, согласуем другой бонус!
собственно да, робот с июля стал значительно круче.
В целом роботы от unitree выглядят как штуки из совсем другого мира, особенно в сравеннии с убогими гуманоидами.
Тут 5 месяцев бенчмаркали и тестили AMD MI300X и сравнивали с H100/H200 и показали первую часть анализов.
MI300X vs H100 vs H200 Benchmark Part 1: Training – CUDA Moat Still Alive
https://semianalysis.com/2024/12/22/mi300x-vs-h100-vs-h200-benchmark-part-1-training/
В целом из коробки пока неюзабельно из-за софта. Ребят поддерживали несколько команд инженеров из AMD чтобы этот анализ выдать)
⚡️ Матрицы в России В С Ё
Внимание, Numpy дока перестала открыватся. Спасибо за внимание
Русккое айти - это когда Крош, Бараш и Сергей Гармаш в Саус Парке спасают рядового Райана от разгневанных еврейских матерей, пишущих эту самую фразу прямо на бегу
Читать полностью…Полтора миллиона долларов за бенчмарк это сильно.
цена инференса на задачу сканула до 1500usd на задачу, нас ждут забавные времена