❤️☠️🤗 идейная миграция небытия
#чтивонаночь по быстрому
Если ресерч не избежен, ресерчить надо первым.
Pixart-alpha aka dalle3 для нищих
Если вы сталкивались с претреном диффузий то знаете словосочетание laion - залупа коня. Почему? Потому что это стянутые картинки и captionы со скрауленных картинок. Те это не всегда их оригинальные подписи даже (!).
В связи с этим качество данных мягко говоря низкое.
Решение есть и оно очень простое: нам нужен smart enough captioner который может нагенерировать синтетических кэпшенов которые на несколько порядков лучше!
Авторы pixart сделали следующую схему: latent diffusion трансформер(спасибо за поправку) + T5 3b (таким кстати в начале должен был быть deepfloyd if) и самый простой kl vae на выходе.
А для данных они нагенерировали синты из llava1(рано или поздно напишу обзор), получили 0.025В очень чистых банных и обучили 600м диффузию которая лучше чем 4В dalle2, 1.5b sd1.5 !
При этом обучение стоит всего 650а100 часов, что ОЧЕНЬ дёшево, для сравнения у sd1.5 было в 10 раз больше
GitHub
Project page
Через двадцать минут поговорим про то почему LLM нас скорее всего (не) убьют!
Читать полностью…Хороший мини-курс по лингвистике для NLPшников недавно выпустила Лиза Былинина: bylinina.github.io/ling_course.
Зачем эта наука нам вообще нужна? Не столько даже для того, чтобы решать задачи с её помощью, а чтобы правильно задачи ставить и описывать проблемы.
Для меня в последний год, когда я много работаю с языками, которых не понимаю, это особенно важно: нужен понятийный набор, чтобы адекватно такие языки обсуждать.
Поэтому - рекомендую.
Improving Image Generation with Better Captions
cdn.openai.com/papers/dall-e-3.pdf
Внезапно, OpenAI выложили статью (не model card) с описанием куска DALL-E 3.
Главная цель — улучшить prompt following. Решили что проблема на самом деле в качестве датасета. После чего натренировали хорошую систему для imagine captioning на основе LLM и сгенерировали очнь подробные описания картинок из датасета. Финальный тренировочный датасет состоял на 95% из псевдооейблов.
Деталей про саму тренировку DALL-E 3 мало, только лишь сказали что детали заметно отличаются от DALLE-2. Хотя бы не было лицемерного «это все для вашей безопасности» в этой части статьи.
Давныыым про gen ai писало полтора канала, а совместная аудитория еле переходила за границу 30к человек. Тогда я познакомился с каналам Артем, он гений бтв хотя часто притворяется что это не так! Он работал в лабе которая позже сделала Latent Diffusion, а последние несколько лет впахивает на полях Meta Gen AI, это тот нечастый случай когда человек дейстивительно знает о чем пишет, а модели трогает на работе, а не на скринах в твиттере.
Велкам в @ai_newz
НКРЯ: Мы делаем опенсурс данные, берите пользуйтесь
НКРЯ: Всмысле парсить... Кто такой этот ваш huggingface
Лицо админа с v100 просящий у девушки денег на s3 представили?
Читать полностью…Large Language Models (in 2023)
Видео, слайды
Лекция от Hyung Won Chung из OpenAI о языковых модельках. Где мы находимся и куда мы идём. Очень рекомендую, а вот короткий пересказ:
Perspective of "Yet"
Если что-то не работает на текущем размере LLM, не стоит думать что это в принципе не работает, мы это много раз видели. Те свойства моделей которые мы нашли в 2022 могут не быть в моделях 2024 года. Из-за этого те кто только погружаются в DL могут иногда иметь лучшую интуицию чем те кто там уже давно и выработал её за предыдущие 10 лет. А ещё пишите свои скрипты так чтобы вы могли перезапустить их через год на новых модельках 😅
How is the scaling actually done?
Натренировать самую большую в мире модель гораздо сложнее чем просто написать новый конфиг где в 20 раз больше слоёв. Для эффективного использования серверов надо правильно понимать боттлеки в системах текущего размера и того размера которые вы хотите тренировать. Они могут быть разными.
Рассказал почему GSPMD так крут, и я теперь понял почему гугловцы так любили Mesh-Tensorflow. Для того чтобы параллелизовать матричное умножение в нём одновременно по нескольких осям (data parallel + tensor parallel + model parallel) вам не нужно переписывать модель, вы просто декорируете train_step
и пишите по каким осям тензоров он распределяется.
Post-training
Тут классический рассказ о том как работает RLHF
Can we learn an objective function?
В RLHF мы больше не задаём reward-функцию, она выучивается другой моделью. Hyung Won Chung делает ещё один шаг и говорит что кросс-энтропия это серьёзный текущий боттлнек тк она может учить модель только очень конкретным вещам, таким как предсказание следующего токена. Возможно будущие модели мы будем учить на более абстрактых reward-функциях вместо этого. По аналогии с тем что мы со вреенем отказались от hand-written фичей в пользу DL и скоро мы откажемся от hand-written objective functions в пользу выучивания reward model.
Последний тейк интересен, мне лично в это не очень верится (так что скорее всего правда 🤣)
Spinning Up in Deep RL - мини-курс от OpenAI
Думаю, стоит написать про этот мини-курс отдельным постом, так как вещь хорошая, я его еще в 2019 проходил. Курс дает неплохую базу по наиболее популярным RL алгоритмам и есть даже секци "Как стать Deep RL ресерчером" со списком важнейших статей по RL.
❱❱ По курсу есть одна огромная видео-лекция на 3 часа:
25:11 Opening & Intro to RL, Part 1, by Joshua Achiam
1:48:42 Intro to RL, Part 2, by Joshua Achiam
2:26:26 Learning Dexterity, by Matthias Plappert
2:58:00 AI Safety: An Introduction, by Dario Amodei
❱❱ Сам курс: тык
@ai_newz
от меня отписался админ ебаных идей для ресерча....
Читать полностью…Про AI в реальных рабочих задачах и большом будущем. Меня можно назвать early adopter’ом - пользователем, который готов пробовать совсем новые инструменты. Прошло несколько месяцев с предыдущего поста, я активно пробовал множество разных инструментов с LLM и другие модные штуки.
Но за почти год взлета AI инструментов, выводы неутешительные! Пробовать и играться с новинками - это хоть каждый день, но чтобы применять в реальных задачах - кроме упомянутых в прошлых раз DeepL Write и gpt-4 в обсидиане, которыми я пользуюсь ежедневно, больше ничего так и не вошло в постоянную практику.
1️⃣ Также меня можно назвать AI-скептиком: я считаю, что “проект LLM” завершен (пост) - тут прорывов больше не будет. Но будет планомерное внедрение LLMs там, где это добавляет ценности. А такое прежде всего не в айтишных задачах, где есть куча софта, а скорее в процессах, которых по сути не коснулась диджитализация.
Например там, где еще много бумаги, но предыдущие способы автоматизации (без AI) не давали большого увеличения эффективности, и отчасти поэтому там все оставалось бумажным. А теперь у нас есть LLMs, которые могут добавлять той самой практической ценности.
2️⃣ Эффект “вот-вот”: вот-вот мы полетим на Марс, вот-вот появится AGI, вот-вот в каждом доме будет квантовый компьютер, вот-вот озоновые дыры убьют человечество (помните такое?) и т.д.
Но говорить слова и реализовывать новые технологии - задачи разного уровня. Подавляющее число фантастов и футурологов прошлого жестко ошибались, рисуя например летающие паровые машины. А те, кто угадали - просто угадали, статистически.
Как я неоднократно писал, больше всего точных прогнозов о будущем - у инвесторов. Да, они не впечатляющи, и угадывается немного. Но статистически - это лучшее, что у нас есть! Давайте просто примем этот факт.
3️⃣ Рассуждать про всякие AGI - это одно, но здравомыслящий человек может воспринимать такое всерьез, если есть хотя бы прототип технологии. А gpt - это не прототип AGI! Просто технология, которая умеет собирать слова в осмысленные предложения, на основе кем-то написанных текстов. А эти тексты писали люди на основе своего опыта и знаний из реального мира. А чтобы их получить, в каждой из триллионов клеток наших тел есть рецепторы, а также есть мозг, нейроны и нейромедиаторы - все это необходимо, чтобы реализовать какое-то подобие реального AGI.
А иначе получается просто очередной инструмент, который полезен для решения определенного круга задач, как калькулятор. Принятием решений там не пахнет.
4️⃣ Хайповые тренды и красивые мечты сталкиваются с реальностью - физическими законами и экономической целесообразностью.
Например для реализации AGI на кремниевой основе, может оказаться, что есть жесткие ограничения физического мира. Предполагаю, что в условиях Земли AGI может быть сделан только на углеродной основе, то есть по сути копипаста человеческого организма.
И красивые мечты о будущем разбиваются об экономические реалии: например в большинстве мест мира обслуживание автомобиля на автопилоте всегда будет значительно дороже, чем низкооплачиваемый труд водителя-иммигранта. Да, по Market street Сан-Франциско будут ездить без людей! Но даже ж/д еще не сделали с автопилотом, хотя там нужно просто ездить по рельсам.
Если добавить социальные и политические факторы, то совсем грустно!
5️⃣ Главные трендсеттеры оптимистичных прогнозов например об AGI - люди и компании, напрямую заинтересованные в том, чтобы обыватель вовлекался в тему, говорил, фолловил, выписывал чеки, покупал акции, товары или услуги.
Большая часть разговоров о технологичном будущем - это маркетинг и борьба за внимание. И полезно все воспринимать именно так!
6️⃣ Какое уж там будущее с сингулярностью! Учитывая события последних лет, и в частности поведение людей в этих условиях, возможно стоит признать, что лучшие годы наших лайфтаймов мы уже пожили! 🥲
Но продолжаем надеяться на лучшее, такова уж природа человека, нерациональная!
@kyrillic
Прокладка дата пайплайнов, 2023 dalle3
Читать полностью…Кто-то из вас помнит, кто-то нет – в прошлом году мы проводили NLP Monolog. Так вот, мы решили его повторить!
На этот раз мы расскажем:
- Как собирать датасеты для обучения своей собственной LLM
- О наших новых направлениях NLP исследований после выхода GPT-4
- И как устроена наша автоматизация поддержки
Все пройдет 19 октября в 19:00 в БЦ Водный. Будем ждать всех! 🐊
#чтивонаночь по быстрому
Если вы знаете что такое formage то уже поняли суть, если кратко - то давайте положим в доп токены картиночные репрезентации из CLIP, а если мы можем использовать их для генерации ответа по изображению, то давайте еще и генерировать!
А затем полученные эмбеды можно класть в Stable Diffusion ведь она тоже использует CLIP!
А еще оно из коробки и максимально нативно понимает и генерирует картинки, а так же умеет работать с несколькими изображениями в контексте сразу(в отличии от llava)
blog
space
Принес @krists
канал, ищу связи в мск военной прокуратуре/юристов специализирующихся на военкоматах.
писать в @alexeyderden
Привет! Приходите к нам на онлайн-встречу
Дата: сегодня!
Время: 17:00 по московскому времени
Спикеры — Лёша Палецких и Наташа Мартемьянова из HR-агентства Luna Park (@hrlunapark), которое специализируется на поиске лучших талантов и работает с AI safety организациями (а Лёша ещё занимался safety исследованиями под руководством Виктории Краковны из Deepmind!)
Тема встречи: "AI safety — безопасность искусственного интеллекта"
О чем будем говорить:
🔸Какие риски сопряжены с развитием искусственного интеллекта
🔸Почему создание безопасного искусственного интеллекта — задача нетривиальная
🔸Где можно получить дополнительную информацию и углубиться в тему
Подключайтесь к нам в субботу, 21 октября, в 17:00 по московскому времени!
трансляция будет в телеграм @betterdatacommunity
Привет!
Мы в Тинькофф активно занимаемся созданием больших языковых моделей по типу ChatGPT и продуктов на их основе. Для этого мы открываем набор в отдел AI-тренеров!
AI-тренеры – команда людей, которая занимается созданием эталонных примеров для обучения языковой модели, и напрямую определяет то, как в конечном счете будет вести себя нейросеть.
Сейчас мы ищем людей на две вакансии: AI-тренер и Шеф-редактор .
В задачи AI-тренера входит написание, редактирование и оценка текстов. Для координации работы команды AI-тренеров мы ищем шеф-редакторов. В обязанности шефа входит разработка инструкций и методик обучения, а также тесное взаимодействие с нашими инженерами и менеджерами продукта.
Релевантным опытом для этих вакансий будет любая работа с текстом: редакторство, копирайтинг, журналистика.
Откликнуться и подробнее прочитать про вакансии можно тут: AI-тренер и Шеф-редактор.
РАЗМЕТКА LLAVA РАЗМЕТКА LLAVA РАЗМЕТКА LLAVA AAAAAAA
Читать полностью…Давай прогуляем пары сегодня?
Неа, не могу я их веду....
Привет!
В субботу мы будем разговаривать про AI safety у ребят из betterdatacommunity — приходите слушать за чашкой чая и задавать вопросы! ☕️
Мы постараемся объяснить, почему безопасность ИИ беспокоит его создателей, учёных и политиков. Расскажем про то, какие именно риски несёт развитие AI, почему создать безопасный искусственный интеллект на самом деле очень сложно, зачем мы всё время об этом говорим и как можно углубиться в тему при желании.
🟩 Когда: 21 октября (суббота) в 17:00 по мск.
🟪 Где: в телеграм-трансляции у @betterdatacommunity
🟨 Кто: неотразимые Лёша @paletskikh и Наташа @natmartem
Дисклеймер: это скорее интро для тех, кто пока знает про сейфти не очень много — если вы уже пересмотрели все видео Роба Майлза, возможно, вам будет не так интересно :) Но можно всё равно прийти поддержать нас 😘
Правда про нас
Ну и да, сорс https://twitter.com/KYKYPY3A_B/status/1713973389843423499
Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech
https://habr.com/ru/articles/767560/
Поддержим!
Офигеть как же это мощно выглядит!
У меня дома стоит несколько аудио систем разных типов и производителей, но это просто вау!
Посмотрите видео продукта, это прям круто!
ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!