Меня зовут Андрей Кузнецов Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML Tg: @kuznetsoff87 Linkedin: https://tinyurl.com/y96nmmdd
📆8 декабря в Москве планируется масштабный ивент для всех, кому интересны технологии разговорного и генеративного AI 🔥
На Conversations обсудят вызовы и достижения разработки LLM, новые фреймворки, обучение трансформеров, нейросетевую обработку и модели распознавания речи, RAG-подходы, "железо" для запуска LLM и другие актуальные темы из мира нейросетей.
В числе спикеров представители команд GigaChat, YaGPT, MTS AI, ВКонтакте, Selectel, Тинькофф, Yandex Cloud, Just AI, Лаборатория Касперского, Zerocracy, Reezonly. Полный список участников можно найти на сайте. Многие спикеры мне лично хорошо знакомы, поэтому приходите - будет точно интересно!
Участвовать, кстати, можно и онлайн.
Билеты тут, а чтобы было приятнее - вот промокод на скидку 10% CNVS23aLc
@complete_ai
Выложили сегодня статью на архив по исследованиям анизотропии intrinsic dimensions в трансформерах. Очень интересные результаты получились в части компактности представлений эмбеддингов на внутренних слоях.
Вышел даже обзор статьи на YouTube
Вчера выступал на российско-китайской Открытой конференции NAUKA 0+ МГУ в г. Шеньчжень, Китай с пленарным докладом о мультимодальных архитектурах и исследованиях, которыми мы активно занимается в рамках научной группы FusionBrain.
Это мой первый опыт рабочей поездки в Азию и вот, чем хочется поделиться с вами:
1) китайцы очень по-хорошему любопытный и заинтересованный народ, жадный до новых идей и знаний, стараются донести мысль как угодно, даже с помощью электронного переводчика и жестов
2) г. Шеньчжень всего 40 лет, но выглядит он очень большим и активно застраиваются огромные многоэтажные кварталы
3) вокруг очень чисто, огромное количество парков, тёплом море, низкие цены на многие товары
4) по части блюд визуально невозможно определить, что там может быть в составе🤔
5) конференция проходит в МГУ-ППИ в Шеньчжене, который является мини-копией Московского (вики)
6) Курорты на Южно-Китайском море (Dameisha Resort!!!) - отличная альтернатива Таиланду🏖️
7) К сожалению нет возможности попасть в Гонконг по однократной академической китайской визе. После пересечения границы - обратной дороги не будет:(
8) Наличие знания английского языка никак здесь вам не поможет, так же как и наличие любой валюты кроме юаней и карт UnionPay (карту сделал в РФ в одном из банков). Идеально иметь WeChat или Alipay, но туда не так просто попасть
9) Большинство автомобилей - электромобили, поэтому порой идя по оживленной улице ты преимущественно можешь слышать сигналы клаксона, речь людей и все остальные звуки, кроме двигателей🚎
10) В номерах очень любят делать стеклянные прозрачные перегородки между комнатой и ванной🛀
На следующей неделе буду в Гуанчжоу пару дней - посмотрим, чем меня удивит Китай там🇨🇳
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models
Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.
Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)
Статья
@complete_ai
Всем привет!
Мы тут в Стамбуле завтра (10 октября) проводим RecSys митап в очном формате. Наверняка среди подписчиков канала есть достаточно большое местное комьюнити (проверим моё предположение😉)
Буду рад увидеться и познакомиться с вами лично) Регистрируйтесь и приходите! Будет интересно: там и розыгрыш мерча, интересные доклады и познавательный нетворкинг - можно поговорить про будущее LLM, текущие эксперименты с GigaChat, про мультимодальные модели и генеративку, так сказать, из первых уст)
Буду супер благодарен за репост друзьям и коллегам - до встречи завтра!
UPD: Прямая трансляция онлайн тоже будет - ТУТ
Только регистрация обязательна
📌Регистрация
📌Начало 10 октября в 18:30 по адресу:
Стамбул, Сарыер, махалле Маслак, улица Ахи Эвран, 6, метро СТУ – Айязага, Небоскреб "Маслак, 42"
@complete_ai
⚡️Началось открытое голосование за номинантов премии HighLoad++. Среди прочих достойных номинантов представлена и модель Kandinsky!
Верю, что команда заслуженно сможет получить эту награду😉
Спасибо всем за фидбэки, участие в развитии модели и её применении, ценные советы🙏 Все ваши комментарии не остаются не учтёнными, мы всё внимательно собираем и постепенно стараемся исправлять.
Голосовать
UPD: Важный апдейт, при голосовании у каждого есть 3 голоса. В составе номинантов есть еще GigaChat и прекрасный Сергей Марков! Ну думаю, вы поняли, за что стоит проголосовать😉
❤️ Приглашаю на научный семинар AIRI на следующей неделе
🔵Дата и время: 4 октября в 16:55
🔵Тема: «Одна LLM хорошо, а N лучше? Мультиагентный подход - путь к AGI»
🔵Докладчик: Андрей Кузнецов, AIRI, Сбер
🔵Оппонент: Валентин Малых, MTS AI
🔵Подробное описание семинара скоро появится по ссылке
Пригласить внешних слушателей и посмотреть записи прошлых семинаров можно на AIRIInstitute">YouTube-канале AIRI.
🏆Сегодня мы официально запускаем новый AIJ Contest, в котором заявлено 5 крутых задач с общим призовым фондом 11+ млн рублей!!!
1) Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и показывает суперуровень эрудиции
2) Unique RecSys — обучить ИИ-алгоритм подбирать наиболее релевантный контент
3) Personal AI — создать человекоцентричного ИИ-помощника
4) Equal AI — сделать сервисы доступными каждому — обучить модель распознавать русский жестовый язык по видео
5) Rescue AI — разработать новый способ расшифровки генома
Обо всех задачах подробно можно прочитать здесь
Первая же задача Strong Intelligence (самая сложная и на повестке современных мультимодальных исследований) разрабатывалась нашей командой AIRI + Sber AI — очень хочется получить много интересных крутых решений. Готов отвечать на вопросы, если будут возникать!
Скоро откроем гитхаб с baseline решением, и в ближайшее время проведём вебинар, где расскажем подробно про задачи и ответим на возникающие вопросы, а пока желаю всем продуктивного погружения в контекст задач🦾
Update: GitHub
Следите за информацией)
Одним из интересных мероприятий на прошлой неделе было выступление на семинаре сообщества AGI Russia, где я рассказывал про исследования команды в области мультмодальных моделей и способности таких архитектур понимать различные типы данных: аудио, изображения, последовательности событий. На этапе дискуссии были интересные нестандартные вопросы, за что спасибо слушателям. Должно быть особенно полезно тем, кто интересуется направлением фундаментальных моделей и AGI.
🎬YouTube
@complete_ai
Пятничное!✌️
🔥Подборка 10 интересных и бесплатных обучающих материалов по компьютерному зрению!🔥
👁 Computer Vision: Algorithms and Applications — библия обработки сигналов и компьютерного зрения от Richard Szeliski. Книга распространяется бесплатно!
👁 Digital image processing by Rafael C. Gonzalez — еще одна интересная книга по обработке изображений и классике.
👁 The Ancient Secrets of Computer Vision — курс от Joseph Redmon преимущественно по классическому зрению, в конце затрагивает нейронные сети. А еще у него забавное резюме.
👁 firstprinciplesofcomputerv3258">First Principles of Computer Vision — обучающий курс лекций от Shree Nayar. От классических алгоритмов компьютерного зрения и обработки изображний до глубокого обучения!
👁 CS231n: Deep Learning for Computer Vision — настоявшаяся классика, курс по глубокому обучению и компьютерному зрению. На youtube есть выпуски разных лет.
👁 Компьютерное зрение — отличный курс по классическому компьютерному зрению на youtube от Антона Конушина. Есть разные версии курса, даже от 2011 и 2015 года!
👁 OpenCV Tutorials — неплохие обучающие материалы на официальном сайте OpenCV. Также у них есть платные курсы.
👁 Курс от Deep Learning School — большая подборка лекций и семинаров от классического ML до глубокого обучения и компьютерного зрения от ребят из физтеха.
👁 Курсы лекций (часть 1, часть 2) на youtube от Алексея Артамонова. На канале CompscicenterRu">Computer Science Center есть также другие обучающие материалы!
👁 razinkov/playlists">Курсы лекций по глубокому обучению и компьютерному зрению от Евгения Разинкова на youtube.
#edu
Завтра на конференции AI in 2023 в Иннополисе проведу экспертную дискуссию про генеративный искусственный интеллект: поговорим о подходах и прикладных применениях в различных отраслях.
Начнётся дискуссия в 10.00.
Прямая трансляция
#флэшбэк
Забавно, что до текущего момента я в Казани был всего 2 раза: в студенчестве ездил на Cirque du Soleil, и на конференцию ММРО в 2013. А в Иннополисе ни разу так и не удавалось побывать😶
⚡Совсем скоро 3 августа состоится ML Party (Yandex + Sber). Будем обсуждать диффузионные картиночные модели
На мероприятии обсудим с коллегами из команды Шедеврум current state в исследованиях в части генерации изображений по текстовым описаниям. Спикера будет всего два: я и Валентин Хрульков (ведущий исследователь, Yandex Research). Расскажем о направлении в целом, об архитектурных тонкостях наших решений, а также затронем перспективность направления генеративного ИИ для мультимедийных данных.
После докладов проведём дискуссию о ближайшем будущем картиночных нейросетей, а под вечер будет нетворкинг с едой и напитками.
Мероприятие пройдёт 3 августа в 18:00 в офисе на Льва Толстого, 16, трансляция будет доступна всем желающим.
⚡Участие бесплатное, но нужно зарегистрироваться.
Будем рады всех увидеть!
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера
Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!
🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.
🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.
🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.
Написали небольшой пост про это, прошу поддержать, кому интересно.
👉 Хабр | Hugging Face
🔥Новые возможности Kandinsky 2.2 – ControlNet
Выбираем режим "Перенос стиля", подаём на вход изображение, выбираем "Перенос из текста", пишем промт - получаем результат.
Выглядит потрясающе!
За генерации спасибо @kutsgelya
@complete_ai
⚡️Kandinsky 2.2 очень подходит для мемов😉
«Серьезно? Да, серьезно!» by Kandinsky
Артефакты есть, но outpainting с такой маленькой области - это крайне потешно😂
@complete_ai
The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models
Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень компактное пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.
Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.
Статья
Краткий опрос
Мы тут стихийно собираем мнение о мероприятиях в айтишке. Уделите пару минут, больше не займет ❤️
Ссылка
⚡⚡⚡Научили Kandinsky 2.2 "понимать" время
Мы сегодня расширяем способности Kandinsky 2.2 и добавляем новую возможность создавать видеоролики по текстовому описанию в режиме анимации. По одному текстовому описанию генерируется 4-секундное видео, эффект анимации можно выбрать из предложенного списка: от смещений в разные стороны до сложных пролётов над сценой - всего таких режимов 16 штук.
Видео генерируются с частотой 24 кадра в секунду и разрешением 640×640 пикселей. Ожидание генерации от запуска до результат составит около 1.5 минут.
Так как новый режим ресурсозатратный, мы решили пока дать доступ самым активным пользователям Kandinsky 2.2, которые получат приглашение в ближайшее время. Ну а к концу года обязательно раскатаем для всех).
Мы также добавили интересный режим, который для себя назвали "Режиссёр". Смысл в том, что пользователь может ввести 1-3 текстовых описаний, затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».
Те пользователи, которые хотят попробовать новые возможности модели сейчас, могут оставить заявку на получение доступа в Telegram-боте.
Ну и мы следуем традиции - код выложен в open source, на Хабре больше деталей и генераций.
Добро пожаловать из мира статики в мир динамики💪
Очень жду ваш фидбэк — это для нас крайне важно!
📌Полезные ссылки:
Сайт проекта
GitHub
Telegram-бот
Хабр (coming soon...)
UPD:
Добавили галерею на rudalle.ru
@complete_ai
🏅А кто сегодня молодец и взял Trending paper на Hugging Face, обогнав Google DeepMind и Carnegie Mellon?
Правильный ответ: статья про нашу модель Kandinsky, которую мы выложили на arxiv.
⚡А среди отметивших статью Julien Chaumond (CTO Hugging Face) и Patrick von Platten (Team lead Diffusers)! Со вторым мы активно сотрудничаем по внедрению модели в их самый крупный фреймворк генеративных моделей diffusers (18.2k⭐ на GitHub).
Ссылка на hf
P.S. Trending paper — лучшая статья дня в одном из крупнейших мировых комьюнити исследователей и ML разработок Hugging Face.
@complete_ai
⚡️Горжусь командой и поздравляю всех соавторов!
Нашу статью про модель Kandinsky приняли на одну из топовых конференций - EMNLP 2023 (A*) в Demo трек. В этом году она проходит с 6 по 10 декабря в Сингапуре.
Чуть позже, как отправим финальную версию, я выложу её в канале - удалось много интересных экспериментов провести с архитектурой: ablation study с prior блоком, human evaluation, сравнение в единой конфигурации существующие open source модели и т.д.
ℹ️Для подписчиков, которые по каким-то причинам не публикуются или просто не знакомы, рейтинг конференции является показателем её крутости (A* = exceptional, flagship). На такие конференции, как правило, более строгий отбор, доля принятых статей не очень большая, и, как следствие, учёные стараются отправлять туда свои самые значимые достижения в исследованиях.
А вот и гитхаб по нашей сореве
https://github.com/ai-forever/fbc3_aij2023
Пишем сейчас с ребятами статью на ICLR, времени как всегда мало, прогноз жизненного цикла сабмишена примерно так выглядит)
Читать полностью…⚡️26-28 октября 2023 г. пройдёт конференция «Fall into ML 2023» для студентов, аспирантов и исследователей в области искусственного интеллекта.
Мероприятие устроено по формату А* конференции и участников ждет:
🔹 2 мини-курса;
🔹 2 панельные дискуссии: «Наука в академии и промышленности» и «Сильный ИИ: риски и выгоды»;
🔹4 воркшопа по темам: «Диагностика нейронных сетей», «Искусственный интеллект в физике», «Обучение с подкреплением», «Обучение на основе подсказок»;
🔹Научные соревнования;
🔹Доклады и постерная сессия.
Темы конференции:
🔸Общие вопросы машинного обучения;
🔸Глубинные сети;
🔸Обучение с подкреплением;
🔸Приложения машинного обучения (промышленность, естественные науки, здравоохранение, нейробиология, социальные науки, климат и т.д.);
🔸Языковые модели;
🔸Компьютерное зрение;
🔸Оптимизация (выпуклая и невыпуклая оптимизация, матричные/тензорные методы и т.д.);
🔸Робототехника;
🔸Доверенный ИИ;
🔸Автономные транспортные средства и др.
Как стать участником❓
📌 Если вы хотите принять участие в качестве слушателя, заполните регистрационную форму;
📌Если вы являетесь автором А* статьи в 2023 году (например, CVPR2023, AISTATS2023, ICLR2023, ICML2023 и т.д.), свяжитесь с Алексеем Наумовым по адресу anaumov@hse.ru;
📌Если у вас еще нет статьи А* уровня, но выступить хочется, то можно подать тезисы по ссылке.
Дедлайны:
📍Прием заявок – с 1 июня 2023 г.
📍Подача тезисов – до 30 сентября 2023 г.
📍Регистрация – до 15 октября 2023 г.
Подробнее с программой конференции можно ознакомиться по ссылке.
⚡️Запускаем ruGPT-3.5 в Colab'е
Сообщество не дремлет и накидало в личку квантованных версий вышедшей вчера модели (ребята, вы молодцы 🚀).
Ужимали при помощи AutoGPTQ в 4bit, так же как делает TheBloke. Качество, само собой, при квантизации в 4bit проседает, но поиграться можно.
Еще ребята в комьюнити сделали версию в формате GPTQ.
Colab
Хабр
HF
GPTQ
На днях NVidia выпустили статью о новом фреймворке DreamTeacher с одноименной статьёй
DreamTeacher: Pretraining Image Backbones with Deep Generative Models
Идея в том, чтобы используя генеративные модели через дистилляцию улучшить признаки карточных backbone моделей в классических задачах компьютерного зрения: сегментация, классификация и тд. (MSE лосс)
Ту же дистилляцию можно применить на конечных задачах с разметкой на генеративных и backbone логитах (кросс энтропия и Dice лосс)
Итог: получился механизм претрейна backbone архитектур на базе генеративных фичей, обладающих семантическим обоснованием.
Статья
Проект
@complete_ai
Оставлю это тут - вдруг понадобится кому-то. Генератор извинений на все случаи жизни😊
Вводишь в верхнем поле - кому, в нижнем - в чём накосячил, получаешь насыщенное извинение/оправдание. Переводишь любимым сервисом на русский и копируешь в чатик, где самое время для извинения⚡️
https://excuses.ai/
⚡️⚡️⚡️Kandinsky 2.2 выходит в свет
Вот и наступил долгожданный знаменательный день, когда мы готовы порадовать комьюнити новой версией генеративной модели Kandinsky 2.2.
Не буду долго томить вас лирикой и историями, как мы маленькими шагами двигались к качественному скачку эти 3 месяца с момента релиза 2.1, а просто расскажу о ключевых нововведениях:
📌 разрешение генераций теперь достигло 1024 px
📌 генерировать можно с различным соотношением сторон (ура, конец монополии квадратных генераций!)
📌 изображения стали максимально близки к фотореалистичным
📌 у модели появилась возможность изменения частей изображения за счёт внедрения механики ControlNet (пока только на основе карты глубины)
📌 версии 2.1 и 2.2 встроены в самый большой и известный фреймворк генеративных моделей - Diffusers
⚡️В телеграм боте теперь 6 режимов:
1) генерация картинки по тексту
2) смешивание двух изображений
3) смешивание изображения и текста
4) создание вариаций входной картинки
5) локальные изменения с помощью ControlNet механики 💥
6) создание стикеров и стикерпаков по текстовым запросам 💥
Воспользоваться моделью можно тут:
Telegram bot
fusionbrain.ai
Diffusers
rudalle.ru
Салют
📕Почитать подробнее про Kandinsky 2.2 можно в новой статье на Хабре.
❓По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи😉
P.S. По неожиданной случайности сегодня еще День Фотографа, с чем всех причастных торжественно поздравляю📸 Такой вот подарок для сообщества от нашей команды🎉
@complete_ai