karavai_blog | Unsorted

Telegram-канал karavai_blog - KaravAI

517

Личный блог Никиты Караева @nikitakaraev PhD в Meta AI и Оксфорде 🤖 https://www.linkedin.com/in/nikitakaraev/

Subscribe to a channel

KaravAI

На прошлой неделе Мета объявила о новой команде в генеративном AI. Мы в том числе попали в эту команду, так что генерация — это теперь основное направление, которое мы будем исследовать.

У меня давно чесались руки разобраться с деталями диффузионных моделей и пообучать их. Недавно искал ресурсы для быстрого погружения в область и наткнулся на открытый курс от Hugging face 🤗 с их библиотекой Diffusers.

Мне очень зашло! Можно посмотреть выжимку по теории и пообучать свои модели в Google Colab, экспериментируя с ними за счет гугла. Последний модуль курса вышел всего месяц назад. Очень советую, если вы тоже нуб в диффузии.

А пока пытаюсь побыстрее закончить с текущим проектом, чтобы перейти к генерации 😍

———
Картинки сгенерированы Stable Diffusion по промпту:
« Generative AI at Facebook »

Читать полностью…

KaravAI

Волна хайпа уже добралась до риа-новости. Ждём ChatGPT с русским характером от искренних патриотов 😀
https://ria.ru/20230224/intellekt-1854038693.html

Читать полностью…

KaravAI

Неделю назад Ф. Шолле запустил новое соревнование по этому бенчмарку с призовым фондом в 70к франков, настоящий шанс поучаствовать в создании AGI 🤖

Читать полностью…

KaravAI

Когда я только пришел в Meta AI (тогда еще Facebook AI Research), я наивно полагал, что уж тут-то у ресерчеров все проекты всегда готовы задолго до дедлайна. Оказалось, что это не совсем так.

Работа ресерчера во многом состоит в том, чтобы публиковаться. Считается крутым опубликовать свою статью на конференции, потому что это показатель качества работы: только 20% статей проходят отбор.

У конференций есть дедлайны. И огромная часть работы делается прямо перед дедлайном (прямо как в универе перед сессией). Это происходит, так как все пытаются до последнего выжать из своих методов максимум и получить заветные +0.1% на имэджнете, чтобы времени осталось ровно на написание статьи.
Сама статья часто пишется в последние пару недель, а иногда и в последние пару дней. Конечно круто, когда все готово и написано за неделю до дедлайна, но на практике это бывает довольно редко.

Мой первый такой серьезный дедлайн был в ноябре 2022 в 9 утра субботы (конференция CVPR). Я пришел в офис в пятницу утром, провел 20 часов перед компом и ушел почти через сутки — в субботу утром. Вместе со мной до утра сидела почти вся наша команда, а многие еще и ушли позже меня. Больше не хочу это повторять, но похоже, что это неизбежно 😀

Отправленная на конференцию статья проверяется коллегами учеными, которые пишут на нее рецензии. По результатам этих рецензий принимается решение, брать ли статью на конференцию.

Завтра выйдут рецензии на работу, которую мы отправили в ноябре🙀 У нас будет ровно неделя, чтобы отбиться от ревьюеров и показать, почему нашу статью стоит принять.

А через 40 дней будет уже следующий дедлайн для отправки работ (конференция ICCV)
Сейчас все опять потихоньку начинают ускоряться, чтобы успеть что-то отправить. А дальше опять все по кругу. Вот так и проходит большая часть работы AI ресерчера.

Бонус — How to write a good CVPR submission

Читать полностью…

KaravAI

Держите подборку мемов со стены нашей лабы в Оксфорде🤖

Читать полностью…

KaravAI

Что будет дальше с AI и как в этом поучаствовать, Часть 2.

В прошлой части мы поняли, что есть смысл уже сейчас начинать пользоваться новыми инструментами.

Поскольку люди будут больше успевать благодаря этим инструментам, контента и продуктов будет создаваться еще больше.
Один из следующих этапов революции ассистентов и автоматизации — это генерация видео и 3D моделей. Над этим уже активно трудятся AI-лабы (Make-a-video, Phenaki) и стартапы (Synthesia)
Такие технологии упростят создание фильмов, игр и метаверса.

В контент в тиктоке и инстаграме уже и так можно залипать бесконечно, а дальше в него еще начнёт подмешиваться контент, сгенерированный сетками. Как всегда, это произойдет плавно, так, что никто уже даже этому не удивится.

Новые фильмы будут выходить все чаще, так как с помощью сеток можно будет ускорить создание спецэффектов в десятки раз. А в какой-то момент можно будет сгенерировать фильм по текстовому запросу хоть на телефоне (AR-очках?).

Уже сейчас контента настолько много, что за всю жизнь невозможно пересмотреть даже малую часть того, что создается за день. При выборе фильма для просмотра с друзьями мы часто тратим на выбор чуть ли не больше времени, чем на сам просмотр. Вчера час выбирали между Гарри Поттером, Матрицей и Властелином Колец. Дальше — больше. Проблема выбора только усилится, роль рекомендательных систем возрастет. Они будут знать нас лучше, чем мы сами, и вместо того, чтобы тратить энергию и время на выбор, мы будем доверять их выбору.

Читать полностью…

KaravAI

По многочисленным запросам открыл комменты для новых постов 😃
Пусть это будет пост для комментов к постам выше.

Читать полностью…

KaravAI

В последнее время нейросетей в новостях было больше, чем когда-либо.
С выходом Stable Diffusion, ChatGPT и прочих монстров у меня, как и у многих, появился FoMO, хоть я и занимаюсь 3D Computer Vision, что не так далеко от этих моделей.

Хочу начать этот канал со своих мыслей по поводу того, что будет дальше с AI и как от этого изменится мир, а также чем сейчас стоит заниматься, чтобы поучаствовать в этих изменениях.

Читать полностью…

KaravAI

Мою первую статью на PhD приняли на CVPR!
Здесь я писал, что такое CVPR и почему это круто.

В этой статье мы:
1. Создали синтетический датасет с 3д моделями животных и людей в офисах фейсбука (пример в первом видео, типичная ситуация в офисе).

2. Предложили метод для предсказания глубины по стерео видео (симуляция бинокулярного зрения, видео с двух камер, как на втором видео)

3. Обучили модель на нашем датасете и показали, что она дает более точные и консистентные во времени предсказания, чем прошлые модели. На последнем видео показана наша 3д-реконструкция, которую мы рендерим с разных точек для 3д-эффекта.

Я начал делать сайт проекта, на котором есть больше деталей, но пока нет ссылки на код и на саму статью:
http://dynamic-stereo.github.io

Если есть фидбэк или любые вопросы, вэлком в комменты или в лс!

Читать полностью…

KaravAI

Контент на 14 февраля, который мы заслужили.

Недавно я задался вопросом — а можно ли при помощи генеративного AI сделать из 10-15 фото пары с одной фотосессии сколько угодно новых фото с той же фотосессии, чтобы минимизировать страдания время съёмки и максимизировать результат.

Я обучил Stable Diffusion с DreamBooth (то, что делает Lensa) на нашей с @senyatut недавней фотосессии. Обычно сетку обучают на одном человеке как на одном объекте, я же попробовал использовать пару как объект.

Что бы вы думали, результат не заставил себя ждать: пары азиатов и трехруких маньяков были успешно сгенерированы!

Читать полностью…

KaravAI

Создатель известной ML библиотеки Ф. Шолле считает, что не существует одной задачи, решение которой позволит нам получить настоящий искусственный интеллект. Ни шахматы, ни го, ни предсказание следующего слова (привет, ChatGPT), ни даже классификация котиков не породят AGI, так как интеллект — это мера эффективности системы на разных задачах. Алгоритм должен оптимизироваться под обобщение (но как это сделать?), чтобы справляться с любыми новыми задачами.

Шолле даже создал бенчмарк, который измеряет интеллект системы. Бенчмарк очень похож на IQ тест для алгоритмов. Чтобы проверить, что этот тест нельзя обмануть, три года назад он запустил соревнование, в котором мы поучаствовали.

Никто из участников конечно же не смог написать достаточно общий алгоритм, чтобы решить большинство задач. Все пытались угадать, какие задачи в тест сете и скомбинировать решение из решений задач определенного типа. Победитель в итоге решил 20/100, мы остановились на 3/100, что позволило получить серебро 😀

Читать полностью…

KaravAI

Как можно поучаствовать в текущей AI-революции?
О позициях в индустриальном AI ресерче.


В индустриальных AI-лабах (OpenAI, DeepMind, Meta AI, Google Brain) существует две основных роли: Research Scientist (Исследователь) и Research Engineer (Инженер)

Исследователи должны понимать, как создать AGI как работают state-of-the-art алгоритмы, какие у них есть проблемы и как эти проблемы можно решить. Главный фокус исследователей обычно на том, чтобы двигать науку и публиковаться. Оценивают их соответственно по научному влиянию на компанию и на область. Насколько я знаю, DeepMind и Meta AI нанимают на эту позицию после PhD (с редкими исключениями). OpenAI, Google Brain и стартапы чаще берут исследователей без PhD, но с PhD туда все равно будет попасть проще.

Основной фокус инженеров — создание инфраструктуры для исследований, обработка данных и скейлинг моделей, иногда демки. Инженеры могут заниматься тем же, чем исследователи и оценивать их могут как по научному вкладу, так и по инженерному. Однако на практике инженеры сначала делают то, что нужно команде и пишут статьи уже в оставшееся время (если такое вообще есть). Для этой роли PhD иметь не обязательно ни в одной лабе, хотя оно есть у многих инженеров в Meta AI, например.

Так что если вы хотите создавать и обучать новые модели в крутых AI лабах, двигая наше понимание области, вполне можно обойтись без PhD. Хороший вариант — пойти на инженера, предварительно получив опыт в машинном обучении через стажировки или работу.

Если же вы уверены, что хотите стать исследователем, покопаться в кишках AI и погрузиться в одну проблему на несколько лет, есть смысл задуматься о PhD, особенно если есть вариант это делать совместно с индустриальной AI лабой. (Как моя текущая программа)

Цель этой программы — выбрать проблему на 3-4 года и двигаться к ее решению, параллельно публикуя статьи на топ конференциях и принося пользу компании и научному сообществу.

По моему совершенно непредвзятому мнению это один из лучших способов войти в серьезный AI ресерч. Это шанс познакомиться с наукой как в академии, так и в индустрии и взять лучшее от обоих миров.
В Meta AI эта роль называется Research Assistant. (Ассистент)
На практике я ношу кофе серьёзным ресерчерам занимаюсь тем же, чем Research Scientist, только с меньшей привязкой к целям моей команды.

Читать полностью…

KaravAI

Сегодня за обедом общались с одним из авторов этой статьи.
Они обучают модель предсказывать 3д-структуру протеина с фокусом на скорость, за счет чего они создали датасет из 600 миллионов (!) предсказаний.

Зачем предсказывать 3д структуру протеина?
Зная структуру, мы знаем функцию протеина в организме. А протеины нужны не только для роста бицухи, но и, например, для поддержания иммунитета, внутриклеточных и многих других процессов. По сути, протеины — это биологические нанороботы, которые можно создавать для выполнения определенной функции с помощью комбинаций всего 20 аминокислот.

Так вот, авторы статьи дальше хотят синтезировать несуществующие в природе протеины для создания новых функций и тестировать это все уже в лаборатории.
Например, создать новый флуорисцентный протеин для эффекта свечения тела подопытного организма.

Автор статьи считает, что предсказание 3д структуры протеина — это хоть и значительное достижение, но пока лишь вершина айсберга вычислительной биологии. Дальше подобные алгоритмы смогут работать с ДНК, что может привести к победе над старением. А это уже не шутки.

И что самое интересное, AI для биологии — довольно новая область, которой мало кто занимается по сравнению, например, с компьютерным зрением. Деньги только начинают поступать и ресурсы для масштабного ресерча пока что есть только у больших компаний (Гугл, Мета), но это скоро изменится.

Если вам это интересно, то похоже, что сейчас самое время начинать входить в эту область. Я в детстве хотел изучать биологию, но случайно попал в Computer Vision. Задумался. Может, когда-то вернусь к протеинам и ДНК.

Читать полностью…

KaravAI

2023 наступил, с чем я всех поздравляю! Самое время вернуться к размышлениям о будущем AI.

Читать полностью…

KaravAI

Что будет дальше с AI и как в этом поучаствовать. Часть 1.

Как писал Франсуа Шолле (создатель библиотеки Keras), текущая AI революция — это революция ассистентов и автоматизации, а не автономии. Stable Diffusion не заменит художников, а ChatGPT не сможет полностью взять на себя копирайтинг. Что-то на вход этим моделям все равно надо подавать, а их ответы проверять. Кроме того, довольно редко можно получить адекватный результат с первым придуманным промптом.

Так что панику пока можно отложить: AGI нас пока захватывать не собирается.

Тем не менее, текущие модели (GitHub Copilot, ChatGPT, Stable Diffusion) и их апгрейды станут инструментами для повышения продуктивности артистов, программистов, копирайтеров и т.д. и позволят рисовать и писать говнокод людям, которые этого делать не умеют. Эти инструменты со времени будут становиться только лучше и продуктивность будет повышаться еще больше. Те, кто их используют, будут успевать делать больше за единицу времени.

Так что лучше уже начинать их использовать для повышения своей продуктивности. Например, я использую ChatGPT, чтобы проверять и улучшать свои тексты на английском. Copilot не так хорошо подходит для ресерча, но все равно иногда ускоряет процесс написания кода.

Читать полностью…

KaravAI

Хэй, меня зовут Никита, я занимаюсь ресерчем в 3D Computer Vision.

Год назад я переехал в Лондон, где начал делать PhD между Meta AI и Оксфордом. До этого учился на магистратуре в École Polytechnique в Париже, куда я приехал после бакалавра в Новосибирском НГУ.

Хочу начать делиться своими мыслями и опытом в AI / Computer Vision ресерче в таком формате. Посмотрим, что из этого выйдет 😀

Вот мой LinkedIn, добавляйтесь!

Читать полностью…
Subscribe to a channel