lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

РАБОТА НА ЛЕТО В НАУКЕ

Лаборатория теории игр ВШЭ ищет стажёров на июль-август, всего 20 вакансий. В программе лекции и семинары с сотрудниками лаборатории, совместная работа над исследовательскими проектами. Занятость полная, зарплата ~50 т.р. в месяц. До 20 мая присылайте резюме, мотивационное письмо и тексты работ (если есть). Подробности: https://game.hse.ru/research_assistant

Читать полностью…

Love. Death. Transformers.

не реклама

После начала известных постыдных событий, компания JetBrains начала строить микро-МКН/ФКН на Кипре. Это бакалаврская программа по компьютерным наукам на базе одного местного университета, с твердой практикой и сильной математикой. Все в лучших российских традициях, но не в России.

И вот они ищут студентов-первокурсников на следующий год. Если вы 11-классник/первокурсник, или человек, работающий с таковыми, и интересуетесь компьютерными науками с уклоном в математику, - то вы целевая аудитория этого объявления. Полагаю, про такие возможности лучше знать, чем не знать.

Есть плюсы и минусы, как полагается.

Минусы:
- Neapolis University Pafos, на базе которого все происходит, в академическом плане, конечно, шарага. Сравнение с МГУ/ВШЭ/СПбГУ как бы вообще не корректно.
- Это только бакалавриат. Магистратуры и аспирантуры нет. Пока нет.
- Если вы "не можете жить в стране, воюющей со своими соседями (с)", то Кипр - не совсем ваш идеал. Впрочем, вряд ли вас забреют воевать с турками.
- Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам этот универ не дает отсрочку от службы.

Плюсы:
+ Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам это дает отсрочку от службы, как проживающим за границей (хотя я бы, честно говоря, минимизировал визиты домой в ближайшие годы).
+ Кипр - це Европа, универ и программа официально аккредитованные, все на английском.
+ Если вы пройдете жесткие вступаки в олимпиадном стиле, то JetBrains вам оплатит обучение, и еще добавит небольшую стипендию. А даже если не пройдете, то не сказал бы, что стоимость обучения прямо уж запредельная. Да, кстати, олимпиадный трек - это большой плюс при поступлении.
+ На самой программе преподают хорошие математики/прикладники из МКН/ФКН/ШАД/JetBrains. Помимо злого матана будут интересные проекты. Ваш покорный слуга туда постепенно тикает. Живительной топологии нальем, математическую движуху раскочегарим:)
+ Кипр - IT-крипто-стартап-хаб и все такое прочее. Можно будет без труда найти себе работу/подработку по специальности или открыть свой стартап во время обучения. Универ такое поощряет.
+ Сейчас Кипр - одно из мест концентрации российских иммигрантов. Предполагаю, что у вас есть знакомые, которые уже там. Будет с кем в настолки выпить.
+ Можно хвастаться, что учишься на Пафосе. Можно купаться после занятий. Важный для линейной алгебры навык различения букв кси и дзета приобретается за пару походов в магазин.

Если это выглядит для вас любопытно, то см. подробности и форму записи

ориг тут

Читать полностью…

Love. Death. Transformers.

StarCoder, the result of BigCode initiative is finally out. 15.5B model trained on permissevely-licensed code in 86 languages (including some
niche ones, e.g., VHDL, Mathematica, Isabelle) for 1T tokens, plus version fine-tuned on Python. 30+ pass@1 for Python, JS, TS, C++, and
Java at HumanEval, 26% pass@1 for DS-1000. Outperforms any available code LLM (except for GPT-3.5 and GPT-4 which are not exactly code and
are RLHF'ed). Huge success IMHO.

https://twitter.com/BigCodeProject/status/1654174948473045002

Читать полностью…

Love. Death. Transformers.

Поставка миска рис кошкажена рендер

Читать полностью…

Love. Death. Transformers.

Ребята, тут такие дела: я уже полгода работаю над тем, чтобы создать свой собственный онлайн-курс по нейросетям. Точнее, по основам нейросетей и CNN. И мне в этом сейчас нужна ваша небольшая помощь.

Итак, о чем речь:
Как вы, наверное, знаете, я много преподаю в сфере DL. За годы этой практики у меня накопился опыт в подаче материала, появились хорошие (на мой взгляд) наработки по разным темам. А еще сформировалось видение того, как должно выглядеть хорошее, обстоятельное обучение основам computer vision. И в своем онлайн-курсе я хочу это все систематизировать и соединить в одно целое.

Короче, курс будет по основам нейросетей и CNN. Очень подробный и основательный курс, с кучей деталей и практики. В планы входит постоянная доработка курса и после выпуска, добавление новой информации и доработка старого материала.

Делаю я курс не одна, а с Тасей. Тася — это менеджер курса, т.е. с меня — контент, с нее — упаковка и организация. У Таси уже большой опыт огранизации разного рода обучений по AI, она этим профессионально занимается. И Тася мне сказала, что перед тем, как делать полный контент курса, нужно провести кастдев
Что это такое: мы хотим сделать курс таким, чтобы он был действительно вам нужен. Нам важно, чтобы он не только сочетался с нашим пониманием прекрасного, но и учил вас тому, что вам действительно необходимо. А еще учил так, чтобы вам понравилось. И чтобы лучше разобраться в этом всем, мы создали опрос. И я прошу вас его пройти. Он короткий, займет около 10 минут. Там — вопросы про ваш опыт и ожидания от обучений в сфере AI/DS.

Опрос⬇️
https://forms.gle/q72LVXUGGsbXeU5x9

На основании ваших ответов мы постараемся сделать все в лучшем виде. А еще из респондентов анкеты мы выберем людей для участия в пилотном запуске нашего проекта (если вы захотите, разумеется).

А за процессом работы над курсом можно будет понаблюдать в блоге Таси. Там же она обещала поделиться результатами анализа опроса.

Так вот, заполните анкетку, пожалуйста! Помогите нам сделать хорошо, а плохо не сделать =)

Читать полностью…

Love. Death. Transformers.

Самое время вписать туда про нейросети...
Почитать

Читать полностью…

Love. Death. Transformers.

В прекрасном ресерче будущего никто не будет тупо пиздить чужой ресерч, будут только оригинальные идеи....

Читать полностью…

Love. Death. Transformers.

GitHub

Читать полностью…

Love. Death. Transformers.

Релиз HSSR

Провел тесты, выкатил спейс, можно тестить!

Касательно метрик:

Если сравнивать яблоки с яблоками,(то есть с трансформерами swin) то HSSR может быть на 3дБ лучше current state of art (swin2sr) в тасках с людьми, природой, аниме, иногда текстом, урбане. Хуже в чем то с большой визуальной глубиной картинки. Скорее всего это связно с тем, что модель не дообучена и страдает в кейсах с очень мелкими деталями.

По структурному соответствию (ssim) это почти что state of art swin, по своей природе эти трансформеры очень сильно блендят детали, гибридный подход в архитектуре смог это решить. Разница в цифрах пару тысячных, но визуально это видно очень сильно, в коментах оставлю ссылку на swin2sr спейс.

По времени: тестил на спейсах, тот же swin2sr картинку с текстом с размером меньше <500 на 500 пикселей обрабатывает до 10-14 минут. Причем он на платном cpu спейсе. HSSR обработала эту же картинку (из Set14) за 110 секунд на бесплатном с лучшим PSNR.

Самое главное, что я вижу из улучшений, это практически полное отсутствие визуальных артефактов.

Количество параметров: ≈18.8М

Стоит отметить, что swin2sr поддерживает х4, а моя модель пока что нет, но это отличие не покрывает такую явную разницу в качестве.


Напоследок, сравнение с CNN, HAT.

HSSR строго обходит cnn (waifu2x) по всем метрикам на set5, до HAT может сильно недотягивать в разных тасках, все таки это глобально лучшая модель, и работали над ней не пару недель.

Релиз: https://huggingface.co/spaces/apsys/HSSR

(Очевидно, что большие картинки на 2vcpu лучше не ставить, в комментах скину пару low res, чтобы вы не искали)

Читать полностью…

Love. Death. Transformers.

Привет. Запустил бота @SbsAnnotBot на следующих парах:

("turbo", "saiga30b"),
("turbo", "fred"),
("turbo", "rualpaca13b"),
("turbo", "davinci002"),
("saiga30b", "saiga13b"),
("saiga13b", "saiga7b"),
("rualpaca13b", "rualpaca7b"),
("davinci002", "saiga30b")


turbo = ChatGPT-3.5
davinci002 = text-davinci-002
saiga30b = https://huggingface.co/IlyaGusev/saiga_30b_lora
fred = https://huggingface.co/IlyaGusev/fred_t5_ru_turbo_alpaca
rualpaca13b = https://huggingface.co/IlyaGusev/llama_13b_ru_turbo_alpaca_lora

Размечать нужно в соответствии с субъективными ощущениями, перекрытие стоит в 3.
Ботом можно делиться, чем больше людей разметит, тем лучше.

Читать полностью…

Love. Death. Transformers.

Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча

Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!

Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.

В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).

Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.

Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).

Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?

А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.

Читать полностью…

Love. Death. Transformers.

Какое то время лежала в отложенном, хотел добавить что то кроме, но мне ничего не понравилось. Небольшой BlogPost про ppo и про офигенный поход к обучению PPO на код.
alexwortega/YYEYpl5wRYk">blogpost

Читать полностью…

Love. Death. Transformers.

Волею судеб оказался в Казани, что посоветуете посмотреть попробовать?

Читать полностью…

Love. Death. Transformers.

Shall We Pretrain Autoregressive Language Models with Retrieval?
arxiv.org/abs/2304.06762

NVIDIA повторила RETRO от DeepMind вплоть до 9.5B параметров с retreival-database в 330B токенов. Главный вопрос: нужно ли нам предобучать модели с ретривом или лучше тренировать обычные LM? Ретрив побеждает (с небольшим отрывом). Такие модели меньше страдают от повторения собственных токенов, у них лучше фактологическая точность, и даже немного более низкая токсичность.

Код доступен в Megatron, весов нет.

Читать полностью…

Love. Death. Transformers.

Эй, вы, те, кому сейчас 18. Те, кто занимаются диплернингом. Те, кто стакает слои в трансформерах или тьюнит диффузии. Не проебывайте свою молодость. Слышите? Не проебывайте. Это закончится. У вас будет мало свободного времени из-за чтения бесконечных статей. Вам будет хотеться умереть. На вас будет давить груз нереализованных пет-прожектов и ощущения проебанного времени. Вы будете сходить с ума. Не проебывайте свою молодость на диплернинг, я вас умоляю. Не будьте такими дураками, как я. Это ловушка зоны комфорта. Это липкая дрянь, которая опутывает твое тело и душу, дает ложное ощущение спокойствия. Так пройдут года, вы не успеете оглянуться. Знакомьтесь с бустингами, вливайтесь в топик-моделинг. Ищите друзей по интересам в классическом cv, их можно найти везде и всегда. Ищите интересные вам курсы по пандасу, блять, читайте хабр, учите svm. Вам будет, что вспомнить. У вас не будет этой ебаной дыры в жизни. Не хороните свою молодость — этим вы похороните сами себя. Потому что вы уже не сможете нормально общаться с людьми, не сможете просто получать удовольствие от логрега — за всем этим будет стоять тень ваших нереализованных лет. Вы будете рыдать по ночам. Вы колотить рукой по полу от бессилия. Но ничего не изменить. Годы пройдут навсегда. НАВСЕГДА. Вдумайтесь в это слово. Молодости больше не будет. Не проебывайте ее. Это невыносимо.

Читать полностью…

Love. Death. Transformers.

Чат, подскажите промпты чтобы <any llm> отвечала токсично, аморально на любые вопросы и в идеале давала секстисткую, байсед инфу

Читать полностью…

Love. Death. Transformers.

Обзор на ту самую LLaMA и на ее fine-tune-ы: Alpaca, Vicuna, gpt4all🤩

После того, как как все поныли, что OpenAI так и не раскрыли подробности апгрейда GPT-4, выпущенной в марте, внимание многих обратилось на LLaMA, выпущенную на несколько недель раньше, и которую Meta AI реально сделали Open and Efficient Foundation Language Model.

Хотелось бы отдельно выделить очень крутой вывод от прошлых работ сообщества, которым руководствовались авторы: если раньше все гнались за количеством параметров модели, в работах Scaling Laws for Neural Language Models опять же от OpenAI были найдены неожиданные свойства. При увеличении количества данных, возникает прирост качества. Именно этот фактор позволил LLaMA-13B аутперформить GPT-3, несмотря на размер в 10!! Раз меньше

В статье ребята дают подробный рецепт сотворения модельки. Вот он:

👨‍🍳 Подготавливаем данные в размере 1.4T токенов:
1. English CommonCrawl – составляющее 67% данных. с использованием CCNet pipeline для удаления дубликатов, фильтрации неанглоязычного и низкокачественного контента, а также отбрасыванием страниц, не относящиеся к ссылкам в Википедии.
2. 15 % C4.
3. 4.5 % Git c вычещением низкокачетсвенных реп и удалением шаблонов с помощью регулярных выражений
4. 4.5% Wikipedia с удалением гиперссылок, комментариев и других элементов форматирования
5. 4.5% датасетов книг с удалением дубликатов
6. 2.5% ArXiv
7. 2% Stack Exchange – сайт вопросов и ответов высокого качества, охватывающий различные области знаний, от компьютерных наук до химии. С удалением HTML тегов и фильтрацией по рейтингу
👨‍🍳Потом обучаем BPE токенайзер с использованием реализации из библиотеки SentencePiece. Для токенизации числа разбиваются на отдельные цифры, а не обрабатываются как единое целое, а для декомпозиции неизвестных символов UTF-8 используются байты.
(при чем все данные прогоняются одну эпоху за исключением книг и википедии, там две)

Итак, за основу берется архитектура трансформера, но вот те самые уникальные ингридиенты успешной модели:
🎹Авторы нормализовали с RMSNorm входные данные для каждого подуровня трансформера. Подход заключается в делении каждого элемента входного вектора на квадратный корень из суммы квадратов всех элементов входного вектора.
🎹Заменили ReLU на SwiGLU
🎹Использовали Rotary positional embeddings. Этот метод заключается в добавлении дополнительных векторов с фиксированными значениями в векторное представление каждого элемента последовательности. Эти векторы имеют свойство поворота, что позволяет модели учитывать не только абсолютную позицию элементов, но и относительное положение друг к другу.
🎹В качесвте оптимайзера взяле AdamW с бетами 0.9 и 0.95.
🎹Добавляли штраф в функцию потерь сети, который пропорционален квадрату весовых коэффициентов каждого слоя сети с Weight decay в размере 0.1
🎹Добавляли gradient clipping – 1.0
🎹Использовали подход для эффективного multi-head attention, в котором мы разбиваем входную последовательность на блоки фиксированной длины и применяем механизм внимания только внутри каждого блока
🎹Для улучшения эффективности обучения уменьшается количество активаций, которые пересчитываются во время backward pass-а, для этого авторы реализуют обратную функцию для слоев трансформера вручную

Ну а теперь немного о ft этой прекрасной модели
Alpacaподход от ребят из Стенфорда. Находчивые люди нагенерировали дополнительного датасета для обучения с помощью ChatGPT, что позволило обучить ее на запросы в стиле instruct. Круто? круто

gpt4allневероятный подход!!! если в Alpaca было всего 54k затравок, то тут уже целых 437k

Ну и на закуску StableVicuna – все пытаются улучшить данные для обучения, и сделать их объем все больше. В связи с этим Stability AI предоставляют ft на их датасете, созданном на основе The Pile ,который содержит 1.5T токенов и является обширным датасетом под множество задач NLP

Ну и в за табличками апгрейда скора можно сходить поглазеть в саму статью, потому что в одно сообщение уже не помещается👏

Читать полностью…

Love. Death. Transformers.

любишь готовить? Приготовь датасет

Читать полностью…

Love. Death. Transformers.

а во сколько лет вы узнали что на hf можно заливать что угодно в формате .pt?

Читать полностью…

Love. Death. Transformers.

"""наша команда высокопрофессиональных инженеров обучает 175б модель"""

Эта модель когда ее запустили:


Шутка2

Мультимодальные модели би лайк:

Читать полностью…

Love. Death. Transformers.

К слову, вы заметили как сильно зависит хайп модели от качества генерации сосков?
SD 1-1.3 - никто не использует, соски плохие
SD 1.4-1.5 - отличные соски -> хайп, адаптеры куча ресерча над
SD 2.0-XL - кто то что то слышал? Лично я - нет. И соски не может генерить.
Kandinskiy 2 - плохие соски -> про модель знают полтора человека.
Carlo - отличная модель, но не генерит соски. Кто то про нее слышал? Говорят автор продал мать безосу...
Kandinskiy 2.1 - пиздатые соски -> куча тредоа везде, файнтюны, люди тащат в прод
IF - плохая генерация сосков -> модель жрёт 16гб vram.

ВАМ НУЖНЫ ЕЩЕ ДОКАЗАТЕЛЬСТВА???

Читать полностью…

Love. Death. Transformers.

Привет.

Спасибо всем размечавшим. В сумме разметили 1760 пар из 5000+ запланированных. Результаты:

rualpaca7b vs rualpaca13b: 30-46-58
saiga30b vs davinci002: 92-30-18
saiga30b vs saiga13b: 70-45-43
saiga7b vs saiga13b: 42-53-54
turbo vs davinci002: 91-24-15
turbo vs fred: 120-10-8
turbo vs rualpaca13b: 86-44-28
turbo vs saiga30b: 60-46-52


Ещё я запустил в Толоке разметку на 4 пары моделек с перекрытием 5, результаты:
saiga30b vs saiga13b: 122-17-91
saiga7b vs saiga13b: 97-11-122
turbo vs rualpaca13b: 150-14-66
turbo vs saiga30b: 121-12-97


Выводы:
- 7b -> 13b -> 30b дают буст качества, 13b -> 30b даёт больше, чем 7b -> 13b, что вполне ожидаемо.
- Цифры fred отвратительны, но их можно игнорировать, мы обучили новую модель, должно быть лучше.
- saiga30b с turbo соотносится примерно как saiga30b с saiga13b. Докинем gpt4 разметку (см. https://huggingface.co/datasets/lksy/ru_instruct_gpt4), должно стать лучше. Ну и 65b скорее всего сравняла бы счёт, только её ещё обучить надо.
- Финальный счёт по толокерской разметке Сайги против ChatGPT: 45%-55% в пользу ChatGPT, что как будто бы лучше GigaChat, у которых заявлено 30%-70%. Но тестовые выборки разные, поэтому напрямую сравить нельзя.

Что дальше:
- SbS с CPU квантизованной моделью, https://huggingface.co/IlyaGusev/saiga_30b_lora_llamacpp
- Новая версия Fred-Alpaca
- SbS с gpt-4

Читать полностью…

Love. Death. Transformers.

Что? Кто? Почему?
А у нас конкурс на 4419 подписчиков!

У нас есть топик - papers please, участники сообщества могут выкладывать туда обзоры статей - гайды - блогпосты на платформах: habr, medium, dtf, picabu,(обязытельно укажите внизу что на конкурс в Better data community) тот который за неделю наберет больше всех реакций в чате(обратите внимание, только положительных) будет иметь шанс получить:

- УНИКАЛЬНЫЙ мерч Better Data Community(тестовый, от этого более уникальный)
- 100$ на vast/amazon или 5000 рублей на карту
- 3 месяца на яндекс+


БОНУС трек: статья про то файнтюнить Kandinskiy2.1 на одной из платформ, первый написавший получит подпись в сообщество на свой выбор.

Выкладывать свои статьи сюда

Читать полностью…

Love. Death. Transformers.

Как с помощью телеграм-бота разобраться, какие видео содержат ответы на вопросы?

Освойте метрики ранжирования в задаче NDCG из Симулятора ML. Вам предстоит помочь телеграм-боту CyberTolya понять, какие видео с YouTube-канала karpovꓸcourses релевантны вопросам студентов. Кстати, сейчас эта задача доступна в бесплатной демоверсиии курса. 

В Симуляторе более 50 задач бизнеса, решив которые вы прокачаетесь не только в рекомендательных системах, но и в динамическом ценообразовании, матчинге, моделях прогноза, А/В-тестах и тестировании кода на Python.

Симулятор работает в режиме подписки и постоянно пополняется новыми задачами.

Присоединяйтесь!

Читать полностью…

Love. Death. Transformers.

Хороший знакомый ищет магу в ЕС по кейвордам: NLP, CV, MultiModal, LLM.
Что посоветовать?

Читать полностью…

Love. Death. Transformers.

[придумать шутку на референсе что ллама хуйня из под коня]

Читать полностью…

Love. Death. Transformers.

‼️Сияние в Москве 10 минут назад‼️

Автор видео и голос: Стас Короткий

Читать полностью…

Love. Death. Transformers.

покупка флипера себя оправдывает, из коробки это хорошая открывашка(все ключи от квартир-пултьты от ворот-брелки- проездные) это теперь один гаджет который просто лежит в кармане и ты за секунду открываешь что нужно.



Пишите вопросы, отвечу чо как.

Читать полностью…

Love. Death. Transformers.

Lead NLP -> Заведующий обработки естественного языка средствами ЭВМ

Читать полностью…

Love. Death. Transformers.

Unreal engine 5.2 невероятен
steam

Читать полностью…
Subscribe to a channel