Меня зовут Андрей Кузнецов Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML Tg: @kuznetsoff87 Linkedin: https://tinyurl.com/y96nmmdd
⚡⚡⚡Вот и статья про Sora пожаловала "от OpenAI"
(А точнее от Lehigh University и Microsoft Research)
Сделать разбор статьи о том, что внутри?
PDF
@complete_ai
⚡⚡⚡OpenAI снова всех удивляет
Выпустили модель text2video под названием Sora. Качество потрясающее - фотореалистичность в полной мере. В основе комбо из диффузии и трансформера.
Ждём статью, но интуитивно есть представление, как добились такого.
https://openai.com/sora
@complete_ai
Добавлю немного научного вдохновения вам на выходные) Делюсь отчетом нашего Института AIRI за 2023 год.
За прошедший год в нашем портфолио сформировался целый ряд крупных научных результатов по фундаментальным и прикладным аспектам AI.
От себя еще хочу добавить, что в этом году мы продолжаем активно развивать партнерства и стремиться к лидерству по числу публикаций на конференциях A/A*.
🐉С Новым 2024м годом!!!
By Kandinsky
📌Давайте в комментариях к сообщению добавлять самые лучшие ваши генерации на новогоднюю тематику. Очень люблю ваше творчество!
🎉🎄2023 год подходит к своему завершению, и я считаю его супер успешным как для команды в целом, так и для себя лично. За год было больше 50 различных мероприятий, где я принимал участие в роли спикера, было много релизов, 5 из которых, на мой взгляд, были очень громкими:
Kandinsky 2.1, Kandinsky 2.2, Kandinsky 3.0, Kandinsky Video, OmniFusion.
Мы опубликовали больше 10 научных статей, среди которых есть и статья в Q1, и публикация в Core A* конференции. Сформировали новые направления исследований и уже получили в рамках них определённые значимые результаты, провели несколько соревнований, организовали стабильное партнёрство с зарубежными и российскими командами.
Все эти и многие другие достижения — результат упорного труда всей команды, каждого её участника. Хочу выразить благодарность каждому персонально и пожелать новых прорывных результатов в 2024 году, задел для этого уже есть достаточно большой.
Результат этого года уже можно назвать вызовом для следующего, потому что планку снижать точно нельзя, а для роста ещё есть огромный потенциал.
Всем ещё раз спасибо и всех благ в 2024м году!
P.S. Спасибо и тебе, 2023й — ты был крут🏆🔥
@complete_ai
⚡️Сколько раз меня спрашивали в этом году: а что если нейросеть сгенерирует «не то», а можно ли результаты генерации присвоить себе, а кто автор созданного объекта и т.д.?
Где-то говорил, что знал от коллег юристов, где-то аккуратно обходил тему… И вот наконец нашёл человека, который поможет разобраться в этих острых и наболевших вопросах ⬇️
@NeironkiIPravo - канал про развитие правовых аспектов ИИ в России и мире
🔍Канал ведет дипломированный юрист в области цифрового права, увлеченный темой цифровизации бизнеса. Если вы заинтересованы в последних тенденциях искусственного интеллекта и его правовом регулировании, то вам точно сюда надо подписаться😉
🔍Информация будет полезна как физ, так и юр лицам!
📈 Подписывайтесь на @NeironkiIPravo и получайте ответы на все вопросы, касающиеся ИИ и права!
🔍Довольно неплохая вышла инфографика про существующие LLM и их число параметров
Исходник
Таблица с параметрами
@complete_ai
Добавлю вам новогодней и Рождественской тематики из Сингапура🎄
Читать полностью…✈️До конца недели я на EMNLP-2023. В этом году конференция в Сингапуре, у нас здесь будет демо стенд по Kandinsky.
Буду выкладывать интересные инсайты с конференции🇸🇬
P.S. Помню, что ещё обещал рассказать про Гуанчжоу, ну и дорога из Москвы до Сингапура тоже заслуживает отдельного внимания - всё будет😉
Если кто-то из моих подписчиков тоже здесь, буду рад пересечься!
@complete_ai
Гугл представил Gemini — семейство мультимодальных моделей
Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷♂️
Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.
P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.
Статья, блог
🤖Есть очень мало телеграм-каналов про нейросети, которые выбиваются из общего списка. Канал основателя AI Agents Саши Хопёрского «Всё о AI» как раз такое исключение.
Ребята уже 6 лет занимаются автоматизацией бизнеса и создают автономных агентов. В своём канале Александр без секретов рассказывает о реальных кейсах и последних инсайтах, которые помогают упростить бизнес и сэкономить время.
Ещё у ребят на канале есть бесплатный Бот @ChatGPT-4 для неотложных задач.
Советую всем подписаться на «Всё о AI» и не пропускайте ничего важного из мира эйай.
🔥В списке DailyPapers на Hugging Face снова наша статья про модель синтеза видео Kandinsky Video, релиз которой состоялся на днях)
https://huggingface.co/papers/2311.13073
Поддержите лайками на Hugging Face - выйдем снова в Топ-1💪
UPD: Благодаря вам, уже Топ-2🙏🙏🙏
@complete_ai
💪День релизов не закончился, поэтому хочу порадовать вас ещё одной новостью!
🚀Выходим за границы текста
С удовольствием анонсирую новую мультимодальную мультизадачную модель OmniFusion от команды FusionBrain AIRI. Работает одинаково хорошо как с текстом, так и с изображениями. Она понимает, анализирует, отвечает на вопросы и продолжает диалог.
🦾 Точно определяет объекты на картинке
🦾 Детектирует расположение и цвета
🦾 Считает объекты
🦾 Работает на английском и русском языках
🦾 Умеет рассуждать и решать сложные задачи даже в специфических доменах, в том числе IQ тесты
В OmniFusion мы использовали очень интересный способ объединения разных модальностей без обучения «с нуля». Правильным образом построили адаптеры над энкодерами, исследовали различные механики обучения и дообучили предобученную LLM, лежащую в основе, понимать изображения.
👀 Обучали на основе модели с 7В параметров, а по качеству почти добрались до LLaVA с 13В в основе.
Узнать больше об архитектуре можно на Хабре, а пока ловите примеры работы.
@complete_ai
Вчера мы в AIRI запустили флешмоб, в рамках которого учёные рассказывают про свои первые публикации. Вот и я решил окунуться в прошлое и вспомнить, с чего начал я свой путь в науке и компьютерном зрении.
Первая моя статья вышла в 2008 году в Вестнике Самарского государственного аэрокосмического университета и была посвящена анализу изображений радужки с использованием преобразования Радона. Я был на 3м курсе и незадолго до написания статьи был увлечён рассказом своего первого научного руководителя Александра Викторовича Куприянова (ныне д.т.н., директор Института информатики и кибернетики Самарского университета) о проводимых исследованиях в области анализа цифровых изображений. Я стал понемногу погружаться в мир цифровой обработки сигналов, узнал о возможных применения таких разработок в разных доменах, в том числе медицинском, и достаточно быстро втянулся в исследования. Хотелось найти в области анализа радужных оболочек что-то очень интересное, ведь их структура при ближайшем рассмотрении выглядит завораживающе.
Читая сейчас свою первую работу, я, конечно, гляжу на неё совсем другим взглядом, но в памяти всплывают моменты, как я строил графики и генерировал к ней иллюстрации. Довольно приятные и ностальгически-душевные воспоминания)
В статье я исследовал различные механизмы извлечения признаков в полярной развёртке радужек с помощью преобразования Радона и искал способы эффективного признакового представления в различных цветовых пространствах.
Дальше мои исследования в этой области далеко не пошли, медицинский домен в то время меня вероятно не сильно интересовал. Следующим этапом в карьере в компьютерном зрении стали данные дистанционного зондирования Земли, и вот задачи их анализа захватили меня на 10+ лет🗺️ — но это уже совсем другая история)
P.S. Ещё раз хотел бы поблагодарить своего первого научного наставника Куприянова А.В. за этот стартовый "научный капитал"🤝
#AIRI_вдохновляет
☕️Первая коллаборация в 2024 году
Императорский Фарфоровый Завод создал коллекцию кружек с рисунками, сгенерированными Kandinsky.
Теперь можно пить чай и держать в руках кусочек AI
Новость
P.S. Скоро вернусь с большими апдейтами и новыми обзорами😉
🎉🎉🎉С Новым годом, дорогие подписчики! Спасибо, тем, кто уже был со мной в 2023 и тем, кто присоединился)
Буду дальше радовать вас новым контентом, будет ещё интереснее!
Здоровья вам и успехов во всём! Пусть все желания сбудутся!
Стартуем!🐉
⚡️Стал одним из 5 лучших исследователей года в Сбере
Напряжённый год, мало сна, много задач и выступлений, но результату персональному и команды очень рад🍾
Чуть позже хочу оформить рефлексию с результатами года, постараюсь успеть в этом году - объективно результативность выдалась мощнейшая🙏
⚡⚡⚡Важная новость!
Начинаю поиск middle и senior исследователей на следующие треки:
1) мультимодальные архитектуры — добавление новых модальностей для расширения возможностей языковых моделей, разработка специфических энкодеров
2) генеративный ИИ — синтез мультимедийных данных по различным условиям: текст, набор каких-либо параметров, инструктивные задачи video/image editing
3) reinforcement learning в прикладной области (RLHF, задачи робототехники и т.д.)
4) задачи компьютерного зрения — face/head swap, стилизация видео, повышение разрешения изображений/видео и др.
5) опыт обучения больших моделей с использованием технологий PyTorch Lightning, DeepSpeed и тд.
❗❗❗
1) Важно иметь опыт в указанных направлениях (1-3+ лет)
2) Идеально будет наличие публикаций в журналах Q1, конференциях A/A*
3) Наличие степени/PhD будет плюсом
💥Свои CV можно присылать мне в ЛС (@kuznetsoff87) и в ближайшее время будем начинать серию собеседований. Там же отвечу на все вопросы, ответы на самые частые вопросы выложу в этот пост в формате апдейта.
Буду благодарен за репост🙏
UPD: Найм в AIRI и Sber AI
@complete_ai
📽️На днях выложили записи выступлений на YaTalks 2023, делюсь с вами ссылками на своё выступление и в целом на плейлист докладов с конференции — все очень интересные и рекомендуются к просмотру холодными зимними вечерами🎄
📌Сильный ИИ - миф или уже реальность?
📌Все доклады
⚡️Мы снова в списке Daily Papers на Hugging Face (за 7 декабря 2023)
В этот раз с техническим отчетом по нашей новой модели text-to-image Kandinsky 3.0. Там внутрянка об архитектуре, отличия от прошлых версий, количественные и качественные результаты.
Приглашаю всех ознакомиться со статьёй и поддержать её upvote голосами на платформе по ссылке ниже🙏
📌Ссылка
С некоторым запозданием возвращаюсь к рассказу о поездке в Гуанчжоу. Добирался туда на скоростном поезде из Шеньчженя, поэтому путь в 140 км занял около 30 минут.
По приезде первая задача была найти такси и тут всё очень интересно: есть официальные такси, есть «бомбилы», которые дерут деньги и которых гоняют полицейские очень сурово. А в обычное такси ты должен просто отстоять в живой очереди из пассажиров - эдакий матчинг двух бесконечных очередей: люди и машины.
Заселился в 4 seasons по промо стоимости, и это было лучшее место, в котором я бывал в командировках. Чтобы повысить КПД от поездки, по приезде сразу пошли изучать достопримечательности.
Отправились в Canton Tower - телебашня высотой 604 м, в которой много разных точек обзора. Мы там взяли полный билет и прошли все доступные уровни для наблюдения) А на верхушке установлен самый высокий аттракцион для свободного падения.🎢
📋Из особенностей - передвигаться пешком практически невозможно, везде очень много скутеров, которые едут по тротуарам наравне со всеми) Ощущения безопасности нет от слова совсем. С англ языком такие же проблемы - почти никто его не понимает. В остальном - гигантский суперсовременный и красивый город!
Подводя итог: новые впечатления от еще одного города Китая. Рекомендую всем, кто планирует побывать в этой стране, заехать в этот город. Фото по написанному прилагаю😉 На этом путь по Китаю в этом году завершён) Далее - Сингапур🇸🇬
Наша модель OmniFusion на базе Mistral 7B справляется не хуже новой Gemini💪
Читать полностью…⚡️⚡️⚡️Барабанная дробь!
А вот и первый зимний подарочек от наших команд - приложение для работы с Kandinsky доступно в AppStore👨💻
✅Скачивайте скорее fusionbrain.ai и пользуйтесь широким спектром возможностей генеративных моделей!
По традиции все замечания и предложения пишите в комментариях к посту, и они сразу же горяченькие попадут к разрабам!
P.S. Пока из функций только генерация изображений, но скоро довезём весь функционал веб-сервиса fusionbrain.ai
@complete_ai
❣️ Мы готовим для вас большой блок про ML на YaTalks 2023
YaTalks — это самая большая техническая конференция Яндекса, которая пройдёт 5 и 6 декабря в Москве, Белграде и онлайн. В этом году мы пригласили более сотни спикеров, которые прочитают доклады о разработке, управлении и карьере в IT.
Главная тема YaTalks 2023 — явления, которые меняют мир и двигают его вперёд. В первый день мы готовим много докладов про машинное обучение, уже готовы рассказать о некоторых из них:
🔘 Алексей Гусаков, технический директор в Яндекс Поиске. Расскажет, как инженеры управляют временем.
🔘 Сергей Овчаренко, руководитель группы нейросетевых технологий компьютерного зрения в Яндекс Поиске. Покажет практические аспекты обучения диффузионных моделей на примере YandexART.
🔘 Андрей Кузнецов, руководитель научной группы FusionBrain в AIRI. Обсудит, воплотился ли сильный ИИ в реальности или остался элементом научной фантастики.
При этом YaTalks — это не только доклады. Мы готовим для вас много других активностей на площадке: лайвкодинг, воркшопы, мастер-классы по резюме с HR и консультации с главными экспертами рынка. Будут стенды хедлайнеров конференции: Яндекса, Тинькофф, Авито, VK, Positive Technologies, Райффайзен Банка и других технологических компаний. Подробнее об этом мы будем рассказывать в телеграм-канале конференции — обязательно подписывайтесь на него.
Всё это — бесплатно, нужно только зарегистрироваться. Важно, что сейчас можно зарегистрироваться на посещение только одного из дней конференции YaTalks 2023 — и это не баг, а фича, чтобы больше людей смогли послушать наши доклады. Онлайн можно подключиться из любой точки земного шара в любой день.
📎 А ещё мы сделаем для вас небольшой подарок: все участники YaTalks 2023 получат доступ к курсу «Продуктовый подход» от Яндекс Практикума. Так что переходите на сайт, изучайте программу и регистрируйтесь!
Подписывайтесь 👉 @Yandex4ML
Представляем новую мультимодальную мультизадачную модель OmniFusion, которую мы сделали совместно с исследователями из Sber AI и SberDevices ✨
Модель способна анализировать, описывать и отвечать на вопросы по изображениям, поддерживая непрерывный диалог с пользователем. Анализируя предоставленные пользователем изображения, OmniFusion точно распознаёт расположенные на них объекты, их количество, цвет и положение в пространстве.
OmniFusion может не просто описать картинку, но и ответить на сопутствующие вопросы, а также использовать извлечённую информацию в ходе диалога с человеком. Например, она может распознать сфотографированное блюдо и предложить рецепты его приготовления, найти ответ на логическую задачу или объяснить шутку.
Больше интересного про архитектуру:
→ Новый пост на Хабр про то, как устроена модель OmniFusion
→ Рассказ про модель от Андрея Кузнецова, а также доклад Ивана Оселедца на AI Journey 2023
Дорогу Kandinsky Video 🎬
🥇Рад представить вам нашу новую модель с новой архитектурой, которая является первой российской end-to-end нейросетью по синтезу видео по тексту - это был реальный вызов для нас!
Внутри наша модель состоит из двух этапов, которые отвечают за две важные задачи синтеза: генерация ключевых кадров (для управления сюжетной линией видео) и генерация дополнительных кадров (для плавности движений).
А теперь чуть-чуть подробнее:
📌 в качестве генератора кадров используется модель Kandinsky 3.0
📌разрешение генераций 512 пикселей
📌генерировать можно с различным соотношением сторон
📌можно выбрать частоту кадров для плановности
📌генерация занимает от 1 до 3 минут (зависит от степени плавности, которой вы хотите добиться при синтезе)
Ссылки на проект:
FusionBrain.ai
Telegram bot
сайт проекта
rudalle.ru
GitHub
Почитать подробнее про Kandinsky Video можно в новой статье на Хабре.
По вопросам сотрудничества и развития модели пишите в ЛС - с радостью обсудим все идеи🤝
@complete_ai
Как всё сложно…
https://www.theverge.com/2023/11/18/23967199/breaking-openai-board-in-discussions-with-sam-altman-to-return-as-ceo