lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

Привет!

В субботу мы будем разговаривать про AI safety у ребят из betterdatacommunity — приходите слушать за чашкой чая и задавать вопросы! ☕️

Мы постараемся объяснить, почему безопасность ИИ беспокоит его создателей, учёных и политиков. Расскажем про то, какие именно риски несёт развитие AI, почему создать безопасный искусственный интеллект на самом деле очень сложно, зачем мы всё время об этом говорим и как можно углубиться в тему при желании.

🟩 Когда: 21 октября (суббота) в 17:00 по мск.
🟪 Где: в телеграм-трансляции у @betterdatacommunity
🟨 Кто: неотразимые Лёша @paletskikh и Наташа @natmartem

Дисклеймер: это скорее интро для тех, кто пока знает про сейфти не очень много — если вы уже пересмотрели все видео Роба Майлза, возможно, вам будет не так интересно :) Но можно всё равно прийти поддержать нас 😘

Читать полностью…

Love. Death. Transformers.

Правда про нас
Ну и да, сорс https://twitter.com/KYKYPY3A_B/status/1713973389843423499

Читать полностью…

Love. Death. Transformers.

Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech

https://habr.com/ru/articles/767560/


Поддержим!

Читать полностью…

Love. Death. Transformers.

опять мемы в профунктор улетели....

Читать полностью…

Love. Death. Transformers.

админ опять кринжухи шитпостит

Читать полностью…

Love. Death. Transformers.

Но были и плюсы
Orig

Читать полностью…

Love. Death. Transformers.

Офигеть как же это мощно выглядит!
У меня дома стоит несколько аудио систем разных типов и производителей, но это просто вау!
Посмотрите видео продукта, это прям круто!

Читать полностью…

Love. Death. Transformers.

Agi achieved internally

Читать полностью…

Love. Death. Transformers.

ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!

Читать полностью…

Love. Death. Transformers.

Мистраль топ-1 на RSG.

И это LoRA на 13 миллионов параметров, не полный тюн.

И без выбора лучшего чекпоинта для каждой задачи.

Посылка на одобрении, скоро появится в самом лидерборде.

LLaMA-70b вероятно была бы лучше, но на неё чуть бОльшая карточка нужна.

Читать полностью…

Love. Death. Transformers.

Привет! Приходите к нам на онлайн-встречу

Дата: 21 октября (суббота)
Время: 17:00 по московскому времени

Спикеры — Лёша Палецких и Наташа Мартемьянова из HR-агентства Luna Park (@hrlunapark), которое специализируется на поиске лучших талантов и работает с AI safety организациями (а Лёша ещё занимался safety исследованиями под руководством Виктории Краковны из Deepmind!)

Тема встречи: "AI safety — безопасность искусственного интеллекта"

О чем будем говорить:

🔸Какие риски сопряжены с развитием искусственного интеллекта
🔸Почему создание безопасного искусственного интеллекта — задача нетривиальная
🔸Где можно получить дополнительную информацию и углубиться в тему

Подключайтесь к нам в субботу, 21 октября, в 17:00 по московскому времени!

трансляция будет в телеграм @betterdatacommunity

Читать полностью…

Love. Death. Transformers.

Вообще тут должны быть по середине хорни файнтюны моделей, хз что там DeepMind забыл

Читать полностью…

Love. Death. Transformers.

Сильно, да? Mistral 34b>gpt4 думаю

Читать полностью…

Love. Death. Transformers.

Чат, ищу сантехника в мск, посоветуйте проверенных если есть.

Читать полностью…

Love. Death. Transformers.

Пиздец мои чуваки, просто пиздец.

Коменты закрыты.

Читать полностью…

Love. Death. Transformers.

Лицо админа с v100 просящий у девушки денег на s3 представили?

Читать полностью…

Love. Death. Transformers.

Large Language Models (in 2023)
Видео, слайды

Лекция от Hyung Won Chung из OpenAI о языковых модельках. Где мы находимся и куда мы идём. Очень рекомендую, а вот короткий пересказ:

Perspective of "Yet"
Если что-то не работает на текущем размере LLM, не стоит думать что это в принципе не работает, мы это много раз видели. Те свойства моделей которые мы нашли в 2022 могут не быть в моделях 2024 года. Из-за этого те кто только погружаются в DL могут иногда иметь лучшую интуицию чем те кто там уже давно и выработал её за предыдущие 10 лет. А ещё пишите свои скрипты так чтобы вы могли перезапустить их через год на новых модельках 😅

How is the scaling actually done?
Натренировать самую большую в мире модель гораздо сложнее чем просто написать новый конфиг где в 20 раз больше слоёв. Для эффективного использования серверов надо правильно понимать боттлеки в системах текущего размера и того размера которые вы хотите тренировать. Они могут быть разными.

Рассказал почему GSPMD так крут, и я теперь понял почему гугловцы так любили Mesh-Tensorflow. Для того чтобы параллелизовать матричное умножение в нём одновременно по нескольких осям (data parallel + tensor parallel + model parallel) вам не нужно переписывать модель, вы просто декорируете train_step и пишите по каким осям тензоров он распределяется.

Post-training
Тут классический рассказ о том как работает RLHF

Can we learn an objective function?
В RLHF мы больше не задаём reward-функцию, она выучивается другой моделью. Hyung Won Chung делает ещё один шаг и говорит что кросс-энтропия это серьёзный текущий боттлнек тк она может учить модель только очень конкретным вещам, таким как предсказание следующего токена. Возможно будущие модели мы будем учить на более абстрактых reward-функциях вместо этого. По аналогии с тем что мы со вреенем отказались от hand-written фичей в пользу DL и скоро мы откажемся от hand-written objective functions в пользу выучивания reward model.

Последний тейк интересен, мне лично в это не очень верится (так что скорее всего правда 🤣)

Читать полностью…

Love. Death. Transformers.

Spinning Up in Deep RL - мини-курс от OpenAI

Думаю, стоит написать про этот мини-курс отдельным постом, так как вещь хорошая, я его еще в 2019 проходил. Курс дает неплохую базу по наиболее популярным RL алгоритмам и есть даже секци "Как стать Deep RL ресерчером" со списком важнейших статей по RL.

❱❱ По курсу есть одна огромная видео-лекция на 3 часа:

25:11 Opening & Intro to RL, Part 1, by Joshua Achiam
1:48:42 Intro to RL, Part 2, by Joshua Achiam
2:26:26 Learning Dexterity, by Matthias Plappert
2:58:00 AI Safety: An Introduction, by Dario Amodei

❱❱ Сам курс: тык

@ai_newz

Читать полностью…

Love. Death. Transformers.

от меня отписался админ ебаных идей для ресерча....

Читать полностью…

Love. Death. Transformers.

Про AI в реальных рабочих задачах и большом будущем. Меня можно назвать early adopter’ом - пользователем, который готов пробовать совсем новые инструменты. Прошло несколько месяцев с предыдущего поста, я активно пробовал множество разных инструментов с LLM и другие модные штуки.

Но за почти год взлета AI инструментов, выводы неутешительные! Пробовать и играться с новинками - это хоть каждый день, но чтобы применять в реальных задачах - кроме упомянутых в прошлых раз DeepL Write и gpt-4 в обсидиане, которыми я пользуюсь ежедневно, больше ничего так и не вошло в постоянную практику.

1️⃣ Также меня можно назвать AI-скептиком: я считаю, что “проект LLM” завершен (пост) - тут прорывов больше не будет. Но будет планомерное внедрение LLMs там, где это добавляет ценности. А такое прежде всего не в айтишных задачах, где есть куча софта, а скорее в процессах, которых по сути не коснулась диджитализация.

Например там, где еще много бумаги, но предыдущие способы автоматизации (без AI) не давали большого увеличения эффективности, и отчасти поэтому там все оставалось бумажным. А теперь у нас есть LLMs, которые могут добавлять той самой практической ценности.

2️⃣ Эффект “вот-вот”: вот-вот мы полетим на Марс, вот-вот появится AGI, вот-вот в каждом доме будет квантовый компьютер, вот-вот озоновые дыры убьют человечество (помните такое?) и т.д.

Но говорить слова и реализовывать новые технологии - задачи разного уровня. Подавляющее число фантастов и футурологов прошлого жестко ошибались, рисуя например летающие паровые машины. А те, кто угадали - просто угадали, статистически.

Как я неоднократно писал, больше всего точных прогнозов о будущем - у инвесторов. Да, они не впечатляющи, и угадывается немного. Но статистически - это лучшее, что у нас есть! Давайте просто примем этот факт.

3️⃣ Рассуждать про всякие AGI - это одно, но здравомыслящий человек может воспринимать такое всерьез, если есть хотя бы прототип технологии. А gpt - это не прототип AGI! Просто технология, которая умеет собирать слова в осмысленные предложения, на основе кем-то написанных текстов. А эти тексты писали люди на основе своего опыта и знаний из реального мира. А чтобы их получить, в каждой из триллионов клеток наших тел есть рецепторы, а также есть мозг, нейроны и нейромедиаторы - все это необходимо, чтобы реализовать какое-то подобие реального AGI.

А иначе получается просто очередной инструмент, который полезен для решения определенного круга задач, как калькулятор. Принятием решений там не пахнет.

4️⃣ Хайповые тренды и красивые мечты сталкиваются с реальностью - физическими законами и экономической целесообразностью.

Например для реализации AGI на кремниевой основе, может оказаться, что есть жесткие ограничения физического мира. Предполагаю, что в условиях Земли AGI может быть сделан только на углеродной основе, то есть по сути копипаста человеческого организма.

И красивые мечты о будущем разбиваются об экономические реалии: например в большинстве мест мира обслуживание автомобиля на автопилоте всегда будет значительно дороже, чем низкооплачиваемый труд водителя-иммигранта. Да, по Market street Сан-Франциско будут ездить без людей! Но даже ж/д еще не сделали с автопилотом, хотя там нужно просто ездить по рельсам.

Если добавить социальные и политические факторы, то совсем грустно!

5️⃣ Главные трендсеттеры оптимистичных прогнозов например об AGI - люди и компании, напрямую заинтересованные в том, чтобы обыватель вовлекался в тему, говорил, фолловил, выписывал чеки, покупал акции, товары или услуги.

Большая часть разговоров о технологичном будущем - это маркетинг и борьба за внимание. И полезно все воспринимать именно так!

6️⃣ Какое уж там будущее с сингулярностью! Учитывая события последних лет, и в частности поведение людей в этих условиях, возможно стоит признать, что лучшие годы наших лайфтаймов мы уже пожили! 🥲

Но продолжаем надеяться на лучшее, такова уж природа человека, нерациональная!

@kyrillic

Читать полностью…

Love. Death. Transformers.

Прокладка дата пайплайнов, 2023 dalle3

Читать полностью…

Love. Death. Transformers.

Кто-то из вас помнит, кто-то нет – в прошлом году мы проводили NLP Monolog. Так вот, мы решили его повторить!

На этот раз мы расскажем:

- Как собирать датасеты для обучения своей собственной LLM
- О наших новых направлениях NLP исследований после выхода GPT-4
- И как устроена наша автоматизация поддержки

Все пройдет 19 октября в 19:00 в БЦ Водный. Будем ждать всех! 🐊

Читать полностью…

Love. Death. Transformers.

#чтивонаночь по быстрому

Если вы знаете что такое formage то уже поняли суть, если кратко - то давайте положим в доп токены картиночные репрезентации из CLIP, а если мы можем использовать их для генерации ответа по изображению, то давайте еще и генерировать!
А затем полученные эмбеды можно класть в Stable Diffusion ведь она тоже использует CLIP!

А еще оно из коробки и максимально нативно понимает и генерирует картинки, а так же умеет работать с несколькими изображениями в контексте сразу(в отличии от llava)


blog
space

Принес @krists

Читать полностью…

Love. Death. Transformers.

ДАЙТЕ CENE655 ЕБУЧИЕ КАРТЫ, ОН ЗАЕБАЛ НЫТЬ МНЕ В ЛИЧКУ

Читать полностью…

Love. Death. Transformers.

Выскажу штуку за которую меня будут бить коллеги по цеху, но она имеет смысл, по меньшей мере для меня самого.
Когда у меня много ГПУ, я смотрю что утилизация под 100, ничего не течёт, не просидает - живём короче. Но любые истории про подумать: например когда модель не работает должным образом или явно хуже чем должна я могу тупо залить компьютом - воткнуть больше эпох, больше модель, пролить больше данных.

Для мозга и менеджера это очень понятное решение, они явно должно работать.

Это напоминает планиметрию:
В школе были такие люди которые решали любую планиметрию на трех теоремах - не ну построим три доп окружности, посчитаем систему уравнений, бумаги много ща все решим.

В DL так тоже можно, ВСЁ текущее поколение LM основано на этом - давайте фильтранем данные умнее, давайте прокрутим больше токенов и больше модель.

Текущие ресерчи архитектур скорее мертвы чем живы, полтора китайца ковыряют rwkv, но без особых успехов и это печально.

Не думаю что для ближайшего поколения моделей правила скейлинга изменяться, но уже сейчас надо внимательно изучать альтернативные лоссы, структуры функций и почему трансформеры так работают.

Есть ли простой ответ как сделать умнее? Нет конечно, я по приколу написал)))😏

https://horace.io/brrr_intro.html

Читать полностью…

Love. Death. Transformers.

Все медленные процессы проперлись, толстовка доехала до автора лекции, а видео доехало до youtube!
Смотреть лекцию
Upd ютуб процессит видео, поэтому оно пока что в 360p, позже появиться 1080p

Читать полностью…

Love. Death. Transformers.

Новый дайджест из мира NLP

1. Лекции MIT по эффективному DL
1. Гайд по distributed training и PEFT
1. Deep Neural Networks Tend to Extrapolate Predictably — чем более OOD инпут тем больше решение сходится к среднему ответу (лучшему input-independent ответу)
1. Ring Attention with Blockwise Transformers for Near-Infinite Context — эффективная коммуникация для параллелизации attention между разными GPU
1. Value-Guided Monte-Carlo Tree Search decoding — MCTS применили к NLP и получилось отлично

Надеюсь что у вас все хорошо
🇮🇱

Читать полностью…

Love. Death. Transformers.

Очередной релиз Сайги, на этот раз на основе Мистраля.

LoRA: https://huggingface.co/IlyaGusev/saiga_mistral_7b_lora
gguf: https://huggingface.co/IlyaGusev/saiga_mistral_7b_gguf
gguf демка: https://huggingface.co/spaces/IlyaGusev/saiga_mistral_7b_gguf

Бок-о-бок с Saiga2-13b:
saiga_mistral_7b vs saiga2_13b: 243-31-141

То есть Мистраль разгромно победил модель на основе Llama-13B.

Метрики в zero-shot RSG на картинке.
7B модель лучше Llama-2 13B и почти догнала 70B.
Почему - а чёрт его знает, но учитывая совокупность результатов, вряд ли это утечка тест-сета.

А! И обращаю внимание, llama.cpp нормально не умеет в спецтокены, пользуйтесь специально написанными скриптами из репозитория, они правильно готовят промпт.

Читать полностью…

Love. Death. Transformers.

лав дес трансформаторс - опержая события

Читать полностью…

Love. Death. Transformers.

#чтивонаночь по быстрому
месяца полтора назад я ходил в отпуск и удивился что диффузия очень тривиально заводиться с <внешним ранкером> + ppo/любой способ подкидывать неградиентную информацию о мире.

Такая схема в целом позволяет из коробки генерить красивое, а главное очень близкое к правде, фактически генерация не отличимая от фото.
Вокруг этого строиться свежая работа aligning t2i блабла, авторы говорят - ну давайте явно прокидывать CLIP cosine между тем что получилось и тем что должно было быть, ну и так учить.

Метрики вам особо ничего не скажут, а авторы не черепикали результаты, поэтому need to run pipeline.

папир

Читать полностью…
Subscribe to a channel