День первый
Хакер приходит в общественную столовую и с возмущением обнаруживает, что солонку на столе может открутить кто попало и насыпать туда что угодно. Хакер приходит домой и пишет гневное письмо директору столовой: "Я, meG@Duc, обнаружил уязвимость солонки в Вашей столовой. Злоумышленник может вскрыть солонку и насыпать туда яду! Примите меры срочно!"
День второй
Директор среди прочих деловых писем, запросов о поставках еды и курьерских уведомлений получает письмо, и пожимает плечами: "Кому этот бред только в голову пришёл?"
День пятый
Хакер приходит в столовую, насыпает во все солонки яду. Погибает триста человек, директора три месяца таскают по судам и, в конце концов, оправдывают за отсутствием состава преступления. Хакер пишет письмо в стиле "ну что, видали?".
День 96-ой
Директор покупает специально спроектированные солонки с кодовым замком. Посетители столовой чувствуют, что они в этой жизни чего-то не понимают.
День 97-ой
Хакер обнаруживает, что дырки в солонках пропускают соль в обе стороны. И не только соль, а вообще всё, что угодно. Он пишет возмущенное письмо директору и ссыт во все солонки столовой. Триста человек перестают посещать эту столовую вообще, тридцать попадают в больницы с отравлением. Хакер вдогонку посылает директору смс-ку "Ну как вам?". Директора тем временем три месяца таскают по судам и дают год условно.
День 188-ой
Директор столовой клянется в жизни больше не работать ни в одной столовой, а тихо-мирно грузить лес в Сибири. Инженеры работают над новой солонкой с односторонним клапаном. Официантки тем временем изымают все старые солонки и раздают соль вручную.
День 190-ый
Хакер тырит солонку из столовой и изучает дома её устройство. Пишет гневное письмо директору: "Я, meG@Duc, стырил солонку и нахожу этот факт возмутительным! Любой может стырить солонку из Вашей столовой!" До этого непьющий директор читает письмо, идет домой и выпивает водки.
День 193-ый
Хакер обнаруживает, что все солонки в столовой прибиты цепями к столам. Он приезжает на очередной хакерский СПРЫГ и докладывает о своих успехах, получая там заслуженную награду за защиту интересов общества и потребителя. К счастью, директор ничего про это не знает и не сопьется раньше времени.
День 194-ый
В рамках дьявольски гениально продуманной операции хакеры всем СПРЫГом вламываются в столовую и высыпают соль из всех солонок себе в карманы. Хакер meG@Duc пишет возмущенное письмо директору, намекая на то, что никакой заботы о посетителях в столовой нет и любой гад может лишить честных людей соли в одно мгновение. Дозатор соли с авторизацией необходим просто позарез.
Инженеры в поте лица работают над новой солонкой, пока официантки опять раздают соль вручную. Директор уезжает в отпуск на Сейшельские острова и обедает только в номере, избегая столовых, ресторанов и баров.
День 200-ый
Посетители столовой с ужасом находят, что, чтобы насыпать соли, они должны подойти к официанту, предьявить паспорт, получить специальный 8-значный одноразовый код к солонке. Для получения перца процедуру следует повторить.
https://youtu.be/ORXoOKND1Tk?si=ScqWZcGhOosce8WE
Ещё один день в компании где не принято трогать выключатели по выходным
Обращаюсь к ресерчеров с хиршом 2-3.
У вас нет никаких шансов написать статью с большим количеством цитирований.
Вокруг вас есть огромное количество ресерча средней руки, напишите ещё одну вариацию attention или лосс для DPO.
Выберите один из них.
А подписчики на востоке уже встретили новый год!
С новым годом ребятки!
Блабла длинный текст про новый год, напиши сам.
🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp
Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.
AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?
🟣Что такое ARC AGI
ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence"
🟣На хабре есть мой краткий пересказ от аж 2020 года (ссылка).
TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).
Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.
🟣Новый уровень качества
В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.
Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.
🟣Мои проблемы с ARC AGI
На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.
Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.
Diffusion Meets Flow Matching: Two Sides of the Same Coin
В начале декабря группа чуваков из Глубокого Разума, среди коих признанные аксакалы, как Hoogeboom, De Bortoli и Salimans опубликовала презанятнейший пост Diffusion Meets Flow Matching: Two Sides of the Same Coin.
Нынче стало модно учить диффузионки в Flow Matching постановке. Тренд, по всей видимости, был задан SD3. И большинство нынешней SOTA в картиночной и видео генерации (из того, что известно) FLUX, MovieGen, HunyuanVideo.
И что это значит? Классическая парадигма - пережиток истории 🤔?
Ан нет.
В данном блогпосте авторы в деталях анализируют процесс сэмплирования и обучения в стандартной noise-prediction Variance Preserving (VE) диффузионной постановке и Flow matching, и показывают, что по сути обе сущности про одно и то же. Основная разница в коэффициентах при шуме/сигнале и использовании скорости в качестве выхода нейронной сети вместо шума/x0. И по ходу повествования эквивалентность двух парадигм авторы иллюстрируют с разных сторон.
Сам блогпост содержит красивые 🥰 иллюстративные визуализации с ползунками 😮.
Кроме того, авторы опровергают распространенное мнение, что Flow Matching дает непременно более прямые траектории, чем диффузия. Для узких распределений Flow Matching действительно дает более прямые траектории, чем типичный диффузионный процесс, но для широких распределений все может поменяться с точностью до наоборот. Впрочем, для наиболее типичного сценария text-2-image генерации или редактирования изображения, целевое распределение, по всей видимости, достаточно узкое.
Как я украл книжки
Коллега, уменьшающий количество ДТП в мире, запостил новость, что айтишники украли больше всех книг из магазинов читай город. И я вспомнил, что и сам грешен!
Из магазинов я книги не таскал, но вот практически с каждой работы получил пополнение в свою библиотеку.
1️⃣Когда я работал стажёром в компании, которая занималась автоматизацией тепло-электро станций, узнал много всего интересного. Например, что для витой пары нужны репитеры каждые сто метров. Подобные вещи важны на той работе. Видимо, поэтому мне вручили первое (или второе, не помню) издание Олиферов. Уже тогда книжка была толстая, а пятое издание (я купил пару лет назад) вообще огромное. Книга топ! Я по ней сети учил. Long story short книжка до сих пор у меня. Хотя скорее всего мне ее подарили, а я просто запомнил, как-будто утащил и не вернул 🤔
2️⃣В неткрэкере в нашем микроофисе был некий буккроссинг. Это был один из корпусов МФТИ, а в кампусе буккросинг это старинная традиция утилизации книг 😁
Там я взял книгу "банды четырёх" в ужасающем русском переводе. Мне было не очевидно, что проблема не во мне, а в переводе, а потому я читал книгу много раз и долго. К моменту, когда она мне надоела, буккроссинга уже след простыл, так что книга осталась у меня.
3️⃣В дойче банке книжек не было. Сначала. Потом стали появляться стихийно на кофепойнтах. В основном всякое говно, которое почему-то не решились выбросить. Но вот на КП возле небожителей из RAPID (алготрейдинговая машина дойче для токсичных клиентов), там где сидел Черёмин (надеюсь, это не Руслан приносил себе читать за кофе), появился конспект лекций МАИ по численным методам авторства Пирумова. Книга — пушка, писал о ней тут. Я только по ней начал понимать численные методы, хотя в институте у меня тоже был такой предмет. Спасибо, Пирумов, я сдал вычматы и даже потом в райфе использовал кое-что. Книжка очень базовая, но вкатиться идеально. Настя, подтверди или опровергни 😁
4️⃣Здесь мы ступаем на опасную почву! Когда я работал в райфе, мы заказывали много книг за счёт компании, но ни одну из них я не прихватил. Зато я очень долго упрашивал Серёгу дать мне почитать Брэндона Грэгга и обещал обязательно вернуть. Серёг, прости, я верну, если ещё актуально! 😁 Книгу взял, потом ковид, потом я уехал в реанимацию, потом вообще в Сербию. Так и не вернул до сих пор!
Какие выводы можно сделать?
Во-первых, мне нельзя давать книги 😭
Во-вторых, кому надо, тот найдёт!
В-третьих, стоит шариться по буккроссингам, там бывает полезное.
Признавайтесь, у кого из вас я тоже украл книжку кто тоже книгокрад?
👋 Всем привет! У нас важные новости!
Мы официально запустили мини-app LLM Arena в Telegram.
Теперь вы можете оценивать модели и решать свои задачи с помощью LLM Arena, не выходя из мессенджера.
Как это работает?
1. Открываете мини-аппку по ссылке.
2. Вводите запрос.
3. Получаете два ответа от разных моделей и голосуете за понравившийся.
⚡️ Приложение синхронизировано с основной платформой, так что оценки идут в общий зачёт для бенчмарка. Мы рассчитываем, что это ускорит сбор данных и сделает арену ещё удобнее для пользователей.
Это только начало. В планах добавить статистику, бейджи, рейтинг лучших юзеров по оценкам на платформе.
Друзья, ваши оценки и отзывы важны для развития арены, поэтому ждём ваших голосов — и в Telegram, и на сайте llmarena.ru.
Как вам новый формат?
Логрег на стакане это agi если ты достаточно богатый.
Напоминаю agi achived internally на arc agi. Раз бенчмарк аги
Fp8,fp4 это к слову новые индустриальные стандарты и их используют все(кроме Nvidia)
Читать полностью…Уверен, что многих интересует как вот там реализуются методы распределенного трейна, может кто-то хотел бы сам реализовать (а это очень полезно).
Ребята из HF 🤗 начали проект по учебной реализации таких методов (dataparallel, tensorparallel, pipelineparallel, contextparallel) :
https://github.com/huggingface/picotron
https://github.com/huggingface/picotron_tutorial
Вместе с проектом идут лекции на ютубе.
Это как проект nanoGPT по учебной реализации гптшки 2, чтобы разобраться, но он прям уже круто разросся и народ там уже наоптимизировал всякого, мб и тут крутое что-то будет
Brickspacer × Zubkov
Наш новый экспериментальный коллаб, где Брик приехал в Нефтесибирск и примерил на себя роль Северного Паука ❄️
(хайрез в комментах)
mlx вызывает восторг конечно, 20т/с в любой ситуации где угодно, на 14B это очень приянто
Читать полностью…Много думал о том что мы не увидим аниме в 30+fps потому что все сетки учились на 10-24fps аниме и при генерации буду это воспроизводить
Читать полностью…Большинство ресерчеров погрузились в апатию после выхода gpt4. Перестали объеденятся в ресерч группы, сосредоточились на личном хирше.
Читать полностью…42-ух минутный доклад с NeurIPS 2024 об основных конкурентах архитектуры трансформера
Вам в очень энергичной манере поведают:
- В чем логика заменять трансформер
- Общий таймлайн развития альтернативных архитектур с 2020 года и причем тут LSTM
- Что же там в итоге с линейным атеншеном в 2024том
- Кто же этот такой ваш RWKV, кто за ним стоит и почему он не хочет умирать в 2025том
- Как быть отчаяным ресерчером и в одиночку успешно линеаризовывать opensource LLM без собственного претрейна
- Что еще случилось за год (Jamba, Sana, DNA Models и что еще нас ждет
Смотреть на Ютубе
Очередной год матных постов с real science, рост практически на 100% в год. Рад сходкам, новым лицам и тем что старые не ушли
Читать полностью…Никакого AGI в ближайшие 5 лет — твёрдо и чётко.
Да кто такой этот ваш AGI... спроси пятерых — ответят пять разных вещей. А между прочим это важный вопрос для OpenAI, ведь создание AGI это а) цель компании б) точка, после которой OpenAI может в одностороннем порядке разорвать все отношения со всеми инвесторами (это закреплено договорами), и быть им ничего не должна.
В уставе компании есть ёмкая формулировка, которая к сожалению оставляет пространство для интерпретации: «превосходит людей в большинстве экономически важных задач». От чего меряем большинство, где граница важности, итд — непонятно.
Теперь, согласно новости от TheInformation, в рамках переговоров с Microsoft было сформулировано новое определение, звучит так: ИИ-система, которая может принести не менее 100 миллиардов долларов прибыли.
С одной стороны до такой системы далеко — сейчас у компании прибыли нет, а годовая выручка порядка 5 миллиардов. С другой — формулировка «может принести» («can generate» в оригинале) как будто подразумевает не состоявшийся, а потенциальный факт. Такая система может быть разработана и не опубликована (принести $0), но всё равно попадать под определение. Плюс нет ограничения по времени, принести 100 миллиардов за год куда сложнее, чем за пятилетку.
А почему не будет AGI ещё 5 лет? Ранее я писал, что компания вообще не планирует получать прибыль до 2029-го года. Примерно в то же время выручка (но не прибыль) должна стать примерно $100B. Но «can generate», в теории, позволяет заявить об AGI на пару лет раньше 🤷♂️
===
По словам человека, общавшегося с Sam Altman по поводу переговоров с Microsoft, основное внимание сосредоточено на четырёх вопросах:
— доля Microsoft в новой коммерческой организации
— останется ли Microsoft эксклюзивным поставщиком облачных услуг OpenAI (последние немного недовольны темпами роста мощностей, и смотрят по сторонам в поисках партнёрств)
— как долго Microsoft будет сохранять права на использование интеллектуальной собственности OpenAI в своих продуктах
— продолжит ли Microsoft получать 20% от выручки OpenAI