lovedeathtransformers | Unsorted

Telegram-канал lovedeathtransformers - Love. Death. Transformers.

4253

❤️☠️🤗 идейная миграция небытия

Subscribe to a channel

Love. Death. Transformers.

задача трех мл тел

1) наебать инвесторов
2) поднять бабла
3) tax fraud в дубае

Читать полностью…

Love. Death. Transformers.

Заеби себя работой сам и заеби других, тогда думать не придется

Читать полностью…

Love. Death. Transformers.

Привет!
К празднику зарелизил модель "детского" размера ru-rope-t5-small-instruct

Из особенностей:
✔️претрейн задача из UL2 (смесь денойзеров)
✔️заменил attention bias на RoPE, потому что лучше сходится и есть возможность обучать с Flash Attention 2
✔️обучал с контекстом 1024, пунктуация и цифры кодируются по токену на символ
✔️претрейн корпус почти от Вихря, брал с низкой перплексией от FRED 1.7B
✔️файнтюнил на переведенных английских инструкциях, лучше метрики на downstream задачах, но в zero-shot инструкциям не следует
✔️использовал оптимизитор AdamWScale вместо Adafactor, чтобы избежать взрывов лосса (поэтому дистилляция FRED 1.7B давала хуже метрики)
⭐️по метрикам на RussianSuperGlue близко к rut5-base, которая больше в 3 раза (скрин в карточке)

🙏Делал в качестве вузовского проекта, буду рад лайку и обратной связи

Читать полностью…

Love. Death. Transformers.

генетически мутированные выведенные LLM!!!

ноутбук

Читать полностью…

Love. Death. Transformers.

День репостов, админ тильтует от хуево подобранной дозы таблеток от аллергии

Читать полностью…

Love. Death. Transformers.

🤗 Aeonium-v1-Base-4B

Новая модель из серии Aeonium. Все то же самое, что и в 1B, только обучена на большем количестве токенов.

По результатам бенчмарка ruMMLU, это лучшая открытая языковая модель, обученная на русском языке с нуля.

Конечно, до SOTA еще далеко, но первый шаг уже сделан. Instuct-версия будет чуть позже.

@hikonon

Читать полностью…

Love. Death. Transformers.

TRULLY OPEN SOURCE LLM CLICKBAIT

Очередная open source LLM , но с плотностью открытыми данными (4.5т) адекватным data pipeline со spark, фильтры на fast_text.

Правда кодовая база на Megatron прости господи, но не Jax.

По перформансу:

Llama2 < x < mistral 7b

map-neo.github.io

Читать полностью…

Love. Death. Transformers.

При заказе от 2022рублей во ВкусВилл в подарок предоставляется прокси для Docker

Читать полностью…

Love. Death. Transformers.

ДОКЕР ПИДОРАСЫ ЕБУЧИЕ Я ВАМ В РОТ ССАЛ ЕБАНЫЕ ГАНДОНЫ ОБОССАННЫЕ КИТЫ Я ЕБАЛ АМЕРИКУ Я НЕНАВИЖУ ДОКЕР РАСХУЯРЬТЕ ЯДЕРНЫМИ РАКЕТАМИ ВСЕХ КТО ЗАКРЫВАЕТ ДОСТУП С РОССИЙСКИХ АЙПИШНИКОВ

КОГДА ЗАКРЫЛИ МАКДАК Я МОЛЧАЛ, Я ЗАВТРАКАЮ ВО ВКУСНО И ТОЧКА

КОГДА ЗАКРЫЛИ СПОТИФАЙ Я МОЛЧАЛ, Я СЛУШАЮ МУЗЫКУ В ЯНДЕКС МУЗЫКЕ

КОГДА ЗАКРЫЛИ ЗАРУ Я МОЛЧАЛ, Я НОШУ ОДЕЖДУ, СО ВРЕМЕН ШКОЛЫ

КОГДА ЗАКРЫЛИ ДОКЕР, ТО УЖЕ НИКТО НЕ СМОГ ЗА МЕНЯ ЗАСТУПИТЬСЯ....

Читать полностью…

Love. Death. Transformers.

Идет бомж по улице. Видит — валяется Тетрадь Смерти. Схватил ее и подтерся. А на следующий день умерла очень важная область - superalignment

Inspired by @rlabrats

Читать полностью…

Love. Death. Transformers.

Вы не просили, не ждали а мы по чуть чуть делаем.

Паблик чат по вихревым моделям

/channel/vikhrmodels

Читать полностью…

Love. Death. Transformers.

Хвастаемся кто меньше платит

Читать полностью…

Love. Death. Transformers.

Короче, я решил угореть и сделать из 5.2 энкодер.
0 слой я не трогал, а вот следующие решил подвигать и перебрать.

Зачем?

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Нам было весело.

В обещем идея простая - отставил первые три слоя + embedings, получился 900м обрезок который ну чуть больше e5 large, без контрастива где то около FredT5 large по Encodechke. Зачем вам эта информация? я хз, у меня были свободные часы в воскресенье

модель на хф

Читать полностью…

Love. Death. Transformers.

Grokked Transformers are Implicit Reasoners:
A Mechanistic Journey to the Edge of Generalization


Ну я кластер забыл выключить, 10**5 cтепов пробежали, ну теперь статью напишем


Сетап экспа:
- Берем пары фактов вида: "Женя любит члены" и "те кто любят ai safety любят члены".

И проверяем на генерализацию факта - женя любит ai safety.

ID generalization - старые правила. Тут все хорошо, трейн сет выучен успешно, около 1 точность.

OOD - out of domain генерализации не произошло, новых фактов модель выводить не может.

Трагического прироста от роста размера модели не произошло.


папир

Читать полностью…

Love. Death. Transformers.

ой, да ладно вам выдумывать, какой еще man in finance, trust fund, 6.5, blue eyes?
забыли, где живете? у нас только юрфак, пахан намутил еще на приватизации, сын теперь кайфует, 180, карие глаза, лв авеню, лорики, пятерка в м-пакете, кофемания, лавандовый раф в мгимо

Читать полностью…

Love. Death. Transformers.

12 июня выйдет новое поколение генерилок вайфу - SD3

Читать полностью…

Love. Death. Transformers.

Не очевидно-полезная фича gpt4o - возможность переводить и читать рукописный текст и речь с разных языков.

А так, подписка - хлам, gpt store набор игрушек на вечер. используйте апишку, будет дешевле и можно свои ragи докидывать.

Читать полностью…

Love. Death. Transformers.

предалагаю основать религию в которой после смерти мученик получает веса gpt-4 после за все ебланские эксперименты с опенсорсом


https://arxiv.org/pdf/2404.05961 - челы на серьезном лице сравнивают х10 по параметрам модели и такие: чет лучше кодирует...


почему это хуйня? ну вы блять имажанируйте RPS долбаебов которые 10B+ энкодер потащат в прод не для картинко генерилок?
Имажинировали? Вот и я не понял нахуя оно надо кому то, долбаебизм даже на GPU крутить, энкодер должен крутиться на OpenVino на XEON

Читать полностью…

Love. Death. Transformers.

Ниже по ссылке находится всё моё первое произведение в удобном для шеринга формате, можете просто форвардить этот телеграм пост.

https://telegra.ph/Ballada-o-Levieve-Neudachnike-05-24

На прессу и критиков нам похуй, хотя написать об этом принесёт им удачу 🍀

Возможно, вы сочтёте что кому-то может быть ценным услышать мораль нашей сказки. Кому-то кого надо вдохновить встать и защитить свои права. Кому-то кому стоит узнать что некрасивое поведение приводит к реальным последствиям, даже когда человек уверен в своей безнаказанности.

Или кому-то кто разочаровался в современном мире и ищет в нём немножко магии. Кому-то просто на поржать про то, как оно в мире оказывается бывает. Кому-то на включить в MBA курс университета как кейс работы с акционерными вопросами.

Всякое бывает в дворцах мира сего.

А я тем временем отключаю свой Телеграм и отправляюсь загорать на солнце и чтить Шаббат с обнимающей меня mixed-race бразильской моделью. Но, девушки, вы не волнуйтесь, у меня через два года планируется свадьба с семью женщинами из различных культур которые желают стать принцессами, это будет хайлайт высшего общества, и вы всё ещё можете успеть. Мы же все знаем как вы подсели на мем доминантных вампиров-колдунов-миллионеров, а оказывается они есть не только в фильмах.

Семь-и-я, семья, семь жён и я, что вам непонятно, в самом языке Пушкина мне всё прямым текстом видно, а вам неясно как я такое себе позволяю. Внимательнее просто надо быть 🌹

За сим, друзья, мы откланяемся.

Читать полностью…

Love. Death. Transformers.

⚗️ Что такое дистилляция и как она применяется в LLM — часть I

Чем больше модель, тем сложнее ее инферить и дороже обучать. Решить проблему призвана, в том числе, дистилляция — передача знаний от тяжёлой модели («учителя») более лёгкой («ученика»). Расскажем, какие типы дистилляции существуют и как их используют.

Классический способ предложил Джеффри Хинтон в статье 2015 года. Учёный выдвигает гипотезу, что распределение классов, которые модель предлагает в качестве ответа, само по себе содержит немало знаний. Поэтому имеет смысл тренировать «ученика» не на ответах, а на распределении классов «учителя», используя Softmax с температурой. В качестве лосса использовали кросс-энтропию между двумя распределениями — ответами учителя и ученика.

Одна из первых моделей, которую дистиллировали на претрейне, — DistilBERT. Результат получился впечатляющим: language understanding удалось сохранить на 97%, а скорость по заявлению авторов выросла на 60%. Интересно, что дистиллировали веса, а в архитектуре модели изначально было вдвое меньше энкодер-блоков, чем у базовой BERT — 6 против 12. В основе обучения — перекрестная энтропия ответов «учителя» и «ученика», MLM и L cos — косинусная близость между эмбеддингами на скрытых слоях. Идеи DistilBERT позднее применяли, например, в DistilGPT.

Самый простой из современных методов — имитация модели. Его суть — добиться, чтобы небольшая модель копировала поведение крупной. Для этого «учителя» просят генерировать ответы на разные запросы, а потом на них обучают «ученика».

Маленькие модели отлично подражают большим, но не развивают собственные навыки. Поэтому «ученики» не получают новые знания, зато неплохо справляются с тем, чтобы извлекать имеющиеся. Этот метод подходит, когда нужно натренировать модель под конкретные задачи, например, для суммаризации или разметки данных.

Для дистилляции знаний в «младшую» модель можно использовать метод Chain-of-Thought Prompting. Суть: просить LLM давать не только ответ, но и описывать цепочку рассуждений, которые к нему привели. Как показывают исследования, такой подход существенно увеличивает качество ответов на некоторых датасетах.

К примеру, авторы статьи Distilling Step-by-Step! попросили «ученика» предсказывать не только ответы «учителя», но и обоснования, чередуя запросы. Так маленькая модель тренируется думать как большая LLM, а не просто копирует ответы и поведение — на некоторых датасетах этот подход даёт отличный результат.

Кроме того, можно использовать датасет, составленный по reward-модели. В этом случае «ученик» будет тренироваться не на всех ответах «учителя», а только на тех, которые reward-модель считает хорошими, что тоже может улучшить результаты.

Наконец, можно расширить датасет, на котором учится младшая модель, с помощью генерации с разными параметрами вроде температуры или seed. Набор данных по одному промту получится более разнообразным, а поведение «ученика» в теории должно больше походить на поведение «учителя».

На этом всё. Спасибо, что прочитали! Делитесь опытом и впечатлениями от поста в комментариях! А во второй части текста мы разберём другие методы дистилляции и, конечно, затронем MiniLLM. Оставайтесь на связи!

Разбор помог подготовить Сергей Воробьев

@stuffyNLP

Читать полностью…

Love. Death. Transformers.

@saiga_igusev_bot можно добавлять в чаты! Картинки там не поддерживаются, но всю историю чата бот запоминает. Можно использовать для чего угодно: для суммаризации, для справки, для озвучивания мнения. Пока в тестовом режиме, собираю баги.

Читать полностью…

Love. Death. Transformers.

ладно последняя

контейнейры после ухода docker:

Читать полностью…

Love. Death. Transformers.

программисты реально расстроились из-за того, что вот эту хуйню запретили?

Читать полностью…

Love. Death. Transformers.

Чёт докер забанился в рф, ну закажите на флешке за 15 минут я хз.


Бтв если ваши железки стоят в РФ - заранее зазеркальте все что нужно или хотя бы прокси настройте.

Читать полностью…

Love. Death. Transformers.

Парень ты что ничего не знаешь SFT/DPO/PPO?
Хватит сидеть сложа руки! Иди и обучи свой первый alpaca chekpoint

хз, почитайте статью яндекса про алаймент, картинки для през для студентов я третий раз тырю из этой статьи и вам советую

Читать полностью…

Love. Death. Transformers.

Прекрасная украденная картинка с оптимальностью моделей. Лучшие модели - те что выше и правее. Короче Llama3 8b

Читать полностью…

Love. Death. Transformers.

удивительно, опять маленькие сетки на задачу лучше чем декодеры. никто не догадывался

Читать полностью…

Love. Death. Transformers.

что оно обновило одному ктулху известно

Читать полностью…

Love. Death. Transformers.

ой, да ладно вам выдумывать, какой еще research in ai aligment, faang, 600k/year, 10hi, 1000 h100?
забыли, где живете? у нас только мехмат, пахан препал еще на матмехе, сын теперь работает в сбере, публикации в скопусе , 35k/year а понтов на все 200, 1v100 16gb на коллабе, 10hi на классификации пяток носорога

Читать полностью…

Love. Death. Transformers.

каждый светлячок однажды перестает святить. Беригите моменты с близкими.

Читать полностью…
Subscribe to a channel