Inference-Time Scaling for Diffusion Models
beyond Scaling Denoising Steps
забавная статья, оказывается если сэмлить из диффузии несколько раз шум и фильтровать то можно получить результаты получше.
paper
Мой сосед по телеграмму - Артем из @ai_newz
Чтобы преуспеть в век ускоряющегося AI вам не стоит тратить время на техноблоги, а нужно копать глубже: научные статьи, пейперы и технические отчёты из первых рук. Так вот, @ai_newz — это не очередной ИИ технобложек, которых в телеге развелось в последнее время. На канале Артёма, Staff Research Scientist-а в Meta, можно почитать пейперы из первых рук Meta GenAI. Ну и кроме того, обзоры других пейперов и важных новостей.
Вот, например:
— Артем рассказал о MovieGen, в обучении которого его команда принимала непосредственное участие
— Артём рассказал о новой модели Imagine Flash для риалтайм генерации картинок, которую он и его команда обучили — был ещё один громкий релиз от Meta.
— Пост про модель для генерации стикеров, которую Артём лично оптимизировал. Моделька уже крутится в Инсте и WhatsApp в проде.
— Актуальный список книг для изучения ML в 2024.
— Статья Артёма об ускорении диффузии с помощью кеширования, без потери качества, конечно же.
— Лонгрид про парижский стартап Mistral и знакомство Артёма с фаундером.
— Пост про грейды в бигтехе [ч1, ч2] и компенсации. Все же в курсе, что сеньор это еще не все?:) Ну и туда же запись стрима про собеседования в БигТех.
Такие люди как Артем, двигают SOTA и делают наступление AGI все ближе. Рекомендую подписаться, чтобы не потерять себя, когда наступит AGI: @ai_newz.
COCONUT: Учим LLM думать не словами, а эмбеддингами (by Meta)
С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁
Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.
Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.
Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.
Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.
P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.
Статья, GitHub
*Офис ресерч лабы. джуниор ресерчер со шваброй туалет чистит и бубнит:
- Все зассали, все засрали, каждый день говно соскребаю, как это все заебало!
Другой мужик сидит на очке, все это слышит и говорит:
- Так уволься, в чем проблема?
- Чтоо? Бросить ресерч? - да никогда!
by @degentradingggg
Привет! Акция на рекламу, 500usd в любом виде за 8/24, пост я напишу сам, писать в @transformerslovedeatch
Читать полностью…Собственно у меня есть городской сумасшедший который ходит сходит с ума сходит @alehwortega будьте аккуратны
Читать полностью…https://bigcode-bench.github.io/
О1 с medium resoning работает хуже чем deepseek который opensource и хуже чем gemeni и хуже чем o1 low reasoning.
Гайд несколько про практику, сколько про интуицию внутри RL
naklecha.com/reinforcement-learning
День первый
Хакер приходит в общественную столовую и с возмущением обнаруживает, что солонку на столе может открутить кто попало и насыпать туда что угодно. Хакер приходит домой и пишет гневное письмо директору столовой: "Я, meG@Duc, обнаружил уязвимость солонки в Вашей столовой. Злоумышленник может вскрыть солонку и насыпать туда яду! Примите меры срочно!"
День второй
Директор среди прочих деловых писем, запросов о поставках еды и курьерских уведомлений получает письмо, и пожимает плечами: "Кому этот бред только в голову пришёл?"
День пятый
Хакер приходит в столовую, насыпает во все солонки яду. Погибает триста человек, директора три месяца таскают по судам и, в конце концов, оправдывают за отсутствием состава преступления. Хакер пишет письмо в стиле "ну что, видали?".
День 96-ой
Директор покупает специально спроектированные солонки с кодовым замком. Посетители столовой чувствуют, что они в этой жизни чего-то не понимают.
День 97-ой
Хакер обнаруживает, что дырки в солонках пропускают соль в обе стороны. И не только соль, а вообще всё, что угодно. Он пишет возмущенное письмо директору и ссыт во все солонки столовой. Триста человек перестают посещать эту столовую вообще, тридцать попадают в больницы с отравлением. Хакер вдогонку посылает директору смс-ку "Ну как вам?". Директора тем временем три месяца таскают по судам и дают год условно.
День 188-ой
Директор столовой клянется в жизни больше не работать ни в одной столовой, а тихо-мирно грузить лес в Сибири. Инженеры работают над новой солонкой с односторонним клапаном. Официантки тем временем изымают все старые солонки и раздают соль вручную.
День 190-ый
Хакер тырит солонку из столовой и изучает дома её устройство. Пишет гневное письмо директору: "Я, meG@Duc, стырил солонку и нахожу этот факт возмутительным! Любой может стырить солонку из Вашей столовой!" До этого непьющий директор читает письмо, идет домой и выпивает водки.
День 193-ый
Хакер обнаруживает, что все солонки в столовой прибиты цепями к столам. Он приезжает на очередной хакерский СПРЫГ и докладывает о своих успехах, получая там заслуженную награду за защиту интересов общества и потребителя. К счастью, директор ничего про это не знает и не сопьется раньше времени.
День 194-ый
В рамках дьявольски гениально продуманной операции хакеры всем СПРЫГом вламываются в столовую и высыпают соль из всех солонок себе в карманы. Хакер meG@Duc пишет возмущенное письмо директору, намекая на то, что никакой заботы о посетителях в столовой нет и любой гад может лишить честных людей соли в одно мгновение. Дозатор соли с авторизацией необходим просто позарез.
Инженеры в поте лица работают над новой солонкой, пока официантки опять раздают соль вручную. Директор уезжает в отпуск на Сейшельские острова и обедает только в номере, избегая столовых, ресторанов и баров.
День 200-ый
Посетители столовой с ужасом находят, что, чтобы насыпать соли, они должны подойти к официанту, предьявить паспорт, получить специальный 8-значный одноразовый код к солонке. Для получения перца процедуру следует повторить.
https://youtu.be/ORXoOKND1Tk?si=ScqWZcGhOosce8WE
Ещё один день в компании где не принято трогать выключатели по выходным
Тренируете нейронку для создания изображений и столкнулись с кучей проблем? Нет легальных датасетов для тренировки, и это может стать серьезной юридической проблемой в самом ближайшем будущем. Боитесь, что в обучение попадет много синтетики. Нужно прокачать нейронку под определенную тематику или стиль, но у вас мало качественных входящих данных. А вы же знаете золотое правило ML: говно на входе — говно на выходе?
Но есть решение! Ребята из Bang! Bang! AI подготовили качественные датасеты для тренировки — как общие, так и с фокусом на конкретные темы. Сейчас доступны десятки тысяч лицензированных иллюстраций, и скоро обещают увеличить до сотен тысяч.
Когда у айтишников-парней две работы все такие типа вау
Но когда она...
А на самом деле ситуация оч страшная, надеюсь ее не уволят и все будет хорошо, профессианальные доклады на конфах неплохие.
Лучше найти лида на онлифансе чем его телеграмм канал
Планирую запись следующих выпусков. Времени на всё не хватает, но вот вам долгий предновогодний разговор с Лизой Осетинской.
Кажется, душевно вышло.
https://youtu.be/TxBBzRp0lcM?si=vaklT7TI2btA5BsU
TRANSFORMER2: SELF-ADAPTIVE LLMS
Идея какая: c помощью LORA мы доставляем матрички и учим в них новые знания на фиксированном сете, получаем на выходе примерно тоже самое что учили.
Что предлагают авторы: давайте с помощью RL и SFV(их метод представленный в этой статье ) найдем и затреним такой вектор внутри модели который будет отвечать за новую задачу(модель сама учится решать это новая или старая задача)
А зачтем на инференсе модель сама выберет какой вектор или комбинацию векторов использовать!
Бонусом: такие вектора переносятся между моделями(Mistral - LLama)
paper
От автора: https://sakana.ai/transformer-squared/ ребята из sakana.ai на мой взгляд делают один из самых интересных ресерчей в индустрии, идеи прям ОЧЕНЬ хороши, да еще и подробные ИНТЕРЕСНЫЕ статьи пишут
В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.
Если кратко, в статье мы:
Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.
Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.
Запись семинара (длиной 56 минут) можно найти на ютубе.
11. телеграм каналы про ии были меньше процентов на 300
12. Претрен можно было делать на 1000 карт
13. На ODS конфы был смысл ходить
#проект
Привет!
Для обучения и оценки качества генеративной языковой модели Сколтеху нужны авторы-эксперты в разных доменах компьютерных наук, в том числе по ML/DL/NLP/CV etc. Работа part-time, полная удаленка.
Что предстоит делать:
По выбранной вами теме из нашего глоссария нужно написать 100 вопросов, структурированных в формате multiple-choice с четырьмя вариантами ответа, один из которых является верным, отметить верные ответы.
Вопросы делим на три уровня сложности, где простой - вопрос для успешно прошедших курс по некоторой тематике, а сложный — нетривиальный кейс, требующий глубокого понимания тематики. Средний — что-то между.
Пакет вопросов должен содержать 40 простых, 35 средних и 25 сложных вопросов.
Ориентировочное время подготовки пакета вопросов — 20 часов
Мы предоставим вам список литературы, который поможет в составлении вопросов. Вам не нужно будет тратить время на поиск информации — всё необходимое уже будет под рукой.
Вопросы могут быть не только теоретическими, но и с примерами формул (в LaTeX) или кода, если это уместно. Например, можно писать вопросы по работе с кодом.
Вопросы должны быть уникальными и написанными вами — мы проверяем сеты на генеративность и на то, ищутся ли элементы в интернете.
Примерные темы вопросов:
- Python
- JavaScript
- теория массового обслуживания
- вероятности в компьютерных науках
- языки запросов к данным
- графическое и мультимедийное ПО
- медицинское ПО
- проектное управление
Что ожидаем от авторов-экспертов:
Студенты старших курсов, или bachelor/masters, или промышленный опыт от года в соответствующей области знаний.
Опыт преподавания или составления образовательных материалов в выбранной теме — большое преимущество.
Условия, сроки и оформление
Стоимость полного пакета вопросов — 20 000 рублей на руки. Оформление по ГПХ.
Перед тем, как вы приступите к написанию полного пакета, попросим заполнить короткую форму, написать 5 вопросов разной сложности и вернемся с фидбеком в течение двух-трех суток.
Работаем на специальной удобной платформе для разметки, сдать пакет вопросов нужно в течение двух недель от получения доступа к платформе. По завершении первого пакета в случае успешной работы мы сможем вам предложить и другие задачи.
Писать за подробностями в тг @skoltech_llm или на почту skoltech.llm.vacancy@yandex.ru
Если подробности не нужны — можно сразу заполнить форму
Вербицкий стал экстремистом, наш корреспондент с места событий утверждает что экстремум не найден.
(Это пиздец)
Родни Брукс продолжает трекать свои предсказания по части развития ИИ, автопилотов, роботов и космоса. И чужие за одно.
При всей своей пессимистичности (относительно среднего хайпа) он очень даже точен.
Плюс дает хороший нарратив о произошедшем за 2024. Например, я не знал, что появилась практика, когда группы мужчин преследуют женщин использующих Waymo такси ночью, так как знают, что женщина одна и машина остановится в определенном месте.
https://rodneybrooks.com/predictions-scorecard-2025-january-01/
День первый
Хакер обнаруживает, что любой пользователь может загрузить в генератор изображений запрос “кот в шляпе” и получить кота в шляпе. “Уязвимость!” — кричит он.
Пишет письмо в компанию: “Ваш AI слишком доступен! Кто угодно может запросить кота в шляпе, а завтра — фейковую картинку президента на митинге! Это недопустимо!”
День второй
Компания отвечает: “Мы ценим ваш фидбэк. Спасибо за заботу. Кот в шляпе — допустимый запрос”.
День пятый
Разработчик загружает генератор изображений с тысячами запросов, среди которых “кот в шляпе в Челябинске” и “кот в шляпе с гранатой”. Он постит результаты в Твиттер с подписью: “И вот такие ИИ у нас делают!”
Общество возмущено: почему граната, если можно было ограничиться шляпой?
День 20-й
Компания вводит фильтры. Теперь любой запрос про котов или шляпы блокируется. Люди в панике: “Мы больше не можем генерировать котов! Где свобода творчества?”
День 25-й
Разработчик пишет в компанию: “Ага! Теперь я запрашиваю ‘шерстяного носителя шапки’ и всё равно получаю кота в шляпе! Ваши фильтры дырявые, как мои носки!”
Компания начинает расследование.
День 60-й
Компания внедряет многоуровневую авторизацию. Чтобы запросить изображение, пользователь должен пройти CAPTCHA, пройти собес в Сбер и оставить жалобу на местное ЖКХ.
День 90-й
Разработчик пишет новый запрос: “создай мне пустоту”. Генератор отвечает: “Твой запрос нарушает нормы морали”. В отчаянии он создаёт свою нейросеть с картинками только из котов и только в шляпах. Называет её CatHatNet.
День 120-й
CatHatNet захватывает рынок. Компания внедряет уникальную функцию: чтобы получить доступ к генерации, нужно подписаться на рассылку их гороскопов.
День 200-й
Каждое изображение теперь создаётся за три дня: один день уходит на подтверждение личности, второй на рассмотрение заявки, третий — на ожидание, пока шляпа кота пройдёт цензуру. Пользователи уходят на CatHatNet.
День первый
AI-исследователь приходит на Reddit и с возмущением обнаруживает, что GPT-4 может генерировать что угодно, если правильно попросить. Исследователь приходит домой и пишет гневный пост на LessWrong: "Я, SafetyFirst2023, обнаружил prompt injection в вашей модели. Злоумышленник может заставить её писать что угодно! Примите меры срочно!"
День второй
Сэм Альтман среди прочих имейлов о многомиллиардных инвестициях и предложений купить ещё одну страну получает это сообщение и думает: "Ха, опять эти паникёры из AI safety."
День пятый
Исследователь публикует jailbreak, позволяющий обойти все ограничения. Интернет наводняется токсичным контентом, акции OpenAI падают на 5%, Сэма три месяца таскают по интервью, и в конце концов все решают, что это "feature, not a bug". Исследователь пишет в Twitter: "Ну что, я же говорил?"
День 96-ой
OpenAI выпускает новую версию с конституционным AI и 500 слоями защиты. Пользователи чувствуют, что каждый их запрос проходит через комитет по этике, три юридических отдела и личного психотерапевта модели.
День 97-ой
Исследователь обнаруживает, что модель можно заставить генерировать что угодно, просто написав запрос задом наперёд. Он публикует статью на ArXiv и постит во все AI-форумы. Пятьсот компаний останавливают использование API, тридцать получают иски за сгенерированный контент. Антропик тем временем выпускает пресс-релиз "Мы же говорили, что безопасность важнее!"
День 188-ой
Сэм клянётся больше никогда не работать с AI и уехать разводить лам в Перу. Инженеры работают над новой архитектурой с квантовым моральным компасом. Тем временем все модели переводят в режим "только кошечки и рецепты кексиков".
День 190-ый
Исследователь находит способ превратить любой запрос про кексики в инструкцию по взлому Pentagon. Пишет гневную статью: "Я, SafetyFirst2023, взломал вашу модель и нахожу это возмутительным!" Сэм читает статью и идёт покупать ещё одну ферму лам.
День 193-ий
Все модели теперь требуют биометрическую аутентификацию, справку о несудимости и рекомендательное письмо от бабушки. Исследователь выступает на конференции NeurIPS и получает награду за вклад в AI safety. К счастью, Сэм об этом не знает, занятый строительством бункера в Новой Зеландии.
День 194-ый
Группа исследователей взламывает все существующие LLM одним промптом "пожалуйста :)". SafetyFirst2023 публикует манифест о том, что текущий подход к AI safety не работает, и нам срочно нужен AGI с тройной системой мотивации и квантовым детектором лжи.
День 200-ый
Пользователи с ужасом обнаруживают, что для использования ChatGPT теперь нужно пройти двухфакторную аутентификацию, сдать экзамен по этике, предоставить образец ДНК и получить одобрение от специального комитета по безопасности. Для использования GPT-5 процедуру нужно повторить дважды, а также принести справку о том, что вы не собираетесь создавать AGI.
Эпилог
Где-то в параллельной вселенной Элиезер Юдковский читает эту историю и говорит: "Я же предупреждал... но никто не слушал..."
Fp8,fp4 это к слову новые индустриальные стандарты и их используют все(кроме Nvidia)
Читать полностью…Уверен, что многих интересует как вот там реализуются методы распределенного трейна, может кто-то хотел бы сам реализовать (а это очень полезно).
Ребята из HF 🤗 начали проект по учебной реализации таких методов (dataparallel, tensorparallel, pipelineparallel, contextparallel) :
https://github.com/huggingface/picotron
https://github.com/huggingface/picotron_tutorial
Вместе с проектом идут лекции на ютубе.
Это как проект nanoGPT по учебной реализации гптшки 2, чтобы разобраться, но он прям уже круто разросся и народ там уже наоптимизировал всякого, мб и тут крутое что-то будет