Telegram-канал lovedeathtransformers - Love. Death. Transformers.: Unsorted

Love. Death. Transformers.

13 Oct 2024 19:00

Ахуеть вышел альбом Пошлой Молли...

Читать полностью…

Love. Death. Transformers.

12 Oct 2024 21:08

DL это наука, да я учёный, да что вы мне сделаете, зачем вам дилдо, ой да ладно я же пошутил...

Читать полностью…

Love. Death. Transformers.

11 Oct 2024 11:02

Вчера было robotaxi party Илона маска, держите краткий пересказ

Читать полностью…

Love. Death. Transformers.

10 Oct 2024 09:02

Мы тут наукой занимаемся, точно не stack more layers

Читать полностью…

Love. Death. Transformers.

10 Oct 2024 08:23

Мне очень нравится что до сих пор в image/video gen работах используется ul2/т5 при том что для nlp их эмбеды прям говно

Читать полностью…

Love. Death. Transformers.

09 Oct 2024 06:24

А куда потерялись картиночные токены то....
В релиз карточке было прям очень хорошо

Читать полностью…

Love. Death. Transformers.

08 Oct 2024 22:11

Чёт я пропустил блокировку дискорда

Читать полностью…

Love. Death. Transformers.

07 Oct 2024 12:06

чет забыл написать что мы дали 12b модель для ребят из https://llmarena.ru/

Пожалуйста накидайте им сравнений, очень надо, а то там gpt4 до сих пор обгоняется старым вихрем

Читать полностью…

Love. Death. Transformers.

06 Oct 2024 20:44

У нас есть ии дома

Ии дома:

Читать полностью…

Love. Death. Transformers.

06 Oct 2024 11:02

📟 Вихрь теперь можно запустить даже на пейджерах !?

⚡️ Vikhr-Qwen-2.5-0.5B-Instruct - инструктивная модель на основе Qwen-2.5-0.5B-Instruct, обученная на русскоязычном датасете GrandMaster-PRO-MAX. В 4 раза эффективнее базовой модели, и идеально подходит для запуска на слабых мобильных устройствах.

💡 Что нового?
- Небольшой размер: Всего 0.5B параметров, идеально подходящая для применения на простых устройствах.
- Эффективность: Достигает результатов, сопоставимых с более крупными моделями.

🔗 HF: Vikhrmodels/Vikhr-Qwen-2.5-0.5b-Instruct
🔗 GGUF: Vikhrmodels/Vikhr-Qwen-2.5-0.5b-Instruct-GGUF

Инструкция по запуску на телефоне

Коллектив авторов: @LakoMoorDev @nlpwanderer

Читать полностью…

Love. Death. Transformers.

04 Oct 2024 17:38

Собственно, у двух ребят первая статья и сразу на EMNLP

Читать полностью…

Love. Death. Transformers.

04 Oct 2024 12:46

Vikhr paper едет на Workshop emnlp!

А из-за того что все авторы очень русские никому не выдали визу)))

Читать полностью…

Love. Death. Transformers.

03 Oct 2024 17:44

touch the grass is all you need

Читать полностью…

Love. Death. Transformers.

03 Oct 2024 16:57

Blueberry оказалась Flux 1.1. Pro

Помните загадочную Blueberry, которая лидировала на text2image-арене? На ECCV выяснилось, что это была Flux 1.1 Pro от Black Forest Labs — об этом сообщил сооснователь компании Алекс Зауэр. Более того, по его словам, сегодня нас ждёт ещё один анонс, связанный с этой моделью.

CV Time

#YaECCV

Читать полностью…

Love. Death. Transformers.

03 Oct 2024 09:55

Натурализация выходов llm

С помощью DPO можно учить LLM генерировать LLM более натуральные тексты, для этого берем текст, нарезаем на куски, суммаризируем, затем генерируем "любой сеткой" кандидатов. Учим DPO где хороший текст это оригинал, а плохой это то что сетка родила.

Собственно у нас в Vikhr Models есть трек с Roleplay+Interpretability поэтому мы сгенерировали такой датасет на основе habr+picabuu+ficbook.

Ну и забыли заанонсить🫠

А вчера увидел пост у Ильи что ребята в комьюнити проделали аналогичную работу над книжками!

На основе книжек
Наш датасет на основе более разнообразного датамикса

Читать полностью…

Love. Death. Transformers.

12 Oct 2024 21:10

Из реализации FLUX в diffusers

Читать полностью…

Love. Death. Transformers.

11 Oct 2024 20:54

Шо пацаны, вращаем и масштабируем!

Сейчас самый популярный метод позиционного кодирования в LLM’ках и не только — это RoPE. Но глубокому исследованию влияния параметров RoPE на поведение и свойства итоговой модели уделяется довольно мало внимания.

В статье “Scaling Laws of RoPE-based Extrapolation” ребята исследовали влияние выбора параметра rope base на поведение модели при разном размере контекста.

А еще:

📌 Ввели концепцию critical dimension, которая чуть-чуть приводит в порядок теорию про адаптацию RoPE для Train Short Test Long сценариев.
📌 Пофлексили тем, что “we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B” — но есть нюанс 🙃

Основные интересные моменты:

- Маленькие rope base из коробки ведут к лучшей устойчивости к длинам контекста, которых не было в трейне, но при этом работают хуже на длинах, которые были в трейне.

- Есть понятный способ вычислить оптимальные rope base, если хочется сделать его маленьким.

- Большие rope base неустойчивы к длинам контекста, которых не было в трейне, но при этом работают лучше на длинах, которые были в трейне.

- Есть понятный способ вычислить оптимальный rope base, если хочется сделать его большим. Для этого нужно знать, на какой максимальной длине сиквенсов будет учиться модель, и на какой максимальной длине сиквенсов она будет работать на тесте.

- Пусть есть вектор размерности d для репрезентации какого-то query или key внутри башки атеншена. Тогда будет существовать d_extra, и во время претрейна позиционная информация в измерениях d_i ≤ d_extra будет полностью выучена, а в измерениях d_i > d_extra будет выучена не полностью и потребует дальнейших упражнений с адаптацией.

Велкам в полную версию статьи — давайте в комментариях обсудим, кто что полезное в ней нашел.

Читать полностью…

Love. Death. Transformers.

10 Oct 2024 11:33

Meanwhile random Chinese student

https://pyramid-flow.github.io/

https://huggingface.co/rain1011/pyramid-flow-sd3

Читать полностью…

Love. Death. Transformers.

10 Oct 2024 08:43

moviegen фбшный

примеру:
- авторы собрали буквально пачку контента на которых старые video gen модели плохо работали и разметили
- проверили чтобы 60% данных содержали людей(sic!!!)
- выкинули всякие сомнительные классы движения
- учили biderectional llama и сами пишут: "we don't explore design choice" те прикинули да, китайская лаба с бюджетом два доширака может позволить себе 1б модель погонять и проверить, а что лучше работаеи, а что хуже, а meta нет))
- "параграф для флекса инфрой" - просто существует
- данные это по сути масштабированный panda 70m
- усреднили sft чекпоинт с претрен.
- evaluation мне лично не особо интересен, забейте, все всех победили

Читать полностью…

Love. Death. Transformers.

09 Oct 2024 09:35

Высокоцитируемый и безработный

В канал Русский research обратился учёный с необычной судьбой, Сергей Вениаминович Дорожкин, с просьбой рассказать о его ситуации и, возможно, помочь тем самым его научной работе. Я крайне редко посвящаю посты отдельным людям, но тут случай действительно уникальный.

Начнём с того, что С.В. Дорожкин является одним из самых цитируемых российских учёных (8-е место при нормировке цитирований на число соавторов) и попадает в топ-100 мирового рейтинга специалистов по биоматериаловедению. Одновременно с этим уже 20 лет Сергей Вениаминович занимается наукой лишь в качестве хобби по 1-1,5 часа в день, работая инженером по калибровке лабораторных приборов в коммерческой компании. Не имея доступа к лаборатории, учёный занимается анализом литературы и написанием обзорных статей, что само со себе непростой труд. Обзоры С.В. Дорожкина выходят в международных журналах и хорошо цитируются. Об этой удивительной ситуации писал ранее А.Р. Хохлов.

Сергей Вениаминович рассказывает, что в 2004 году закончился его последний контракт постдока в Канаде, и он вернулся в Москву, предварительно написав во все московские научные институты, где занимались близкой тематикой. Никто не ответил, приглашений на работу не поступило. В дальнейшем учёный периодически пытался выйти на контакт с представителями химфака МГУ, ИМЕТ РАН и, ранее, ИОНХ РАН, но тоже не получал ответов. В итоге он стал искать работу в коммерческих предприятиях и пришёл к текущей специальности инженера.

Единственная конструктивная реакция последовала буквально недавно от академика А.Р. Хохлова, который организовал у себя в лаборатории семинар С.В. Дорожкина, а затем принял его на работу на полставки. К сожалению, тематически интересы двух учёных в итоге не совпали, энтузиазм стал угасать, а сотрудничество на данный момент не сложилось.

Сейчас цель Сергея Вениаминовича очень проста. Найти возможность заниматься исследованиями по основному месту работы, уделять науке кратно больше времени и получать за это достойные деньги. Учёный готов как продолжить свою деятельность по написанию обзорных работ, так и подключиться к действующей лаборатории в рамках её тематики. Да, Сергей Вениаминович честно признаёт, что не умеет и не хочет участвовать в грантовой гонке. С другой стороны, свою способность выдавать востребованную «научную продукцию» он уже доказал, и, я думаю, имеет право претендовать на место в коллективе без традиционной административной нагрузки.

P.S. Честно говоря, я удивляюсь, почему никакой университет (особенно из числа бьющихся за показатели) не догадался пригласить С.В. Дорожкина на работу чисто из утилитарных соображений. Просто обеспечив учёному хороший оклад и рабочее место, организация получает, как минимум, стабильный поток востребованных статей в международных журналах и высокорейтингового сотрудника в качестве вечнозелёного инфоповода. Как максимум – при наличии близких по тематике химиков – получает консультации специалиста с широкой эрудицией в своей области.

С другой стороны, приходится признать, что уехавшим за рубеж учёным зачастую бывает сложно вернуться в российскую научную жизнь. Это другая система отношений (не худшая и не лучшая, а именно другая), и разница не сводится к пресловутым бегам за грантами. Хотя, безусловно, и вечный поиск финансирования доливает масла в огонь.

Ну и поскольку пост в жанре "ищу работу" публикуется в канале впервые, я понятия не имею, чем его заканчивать. Пожелаю Сергею Вениаминовичу найти правильное место и, наконец, уделять науке столько времени, сколько хочется.

Читать полностью…

Love. Death. Transformers.

09 Oct 2024 06:01

Большая статья от гугл где показывают известные факты на ээээ Palm.

Читать полностью…

Love. Death. Transformers.

08 Oct 2024 12:01

Британские ученые решили проводить научные опыты вместо мышей на стажерах.
Во-первых, стажеров больше. Во-вторых, мышей жалко. И в-третьих, есть вещи, которые мыши отказываются делать

Читать полностью…

Love. Death. Transformers.

07 Oct 2024 11:28

Ну что, сработала техника, получается. А нужен был всего лишь простой советский перевод Агаты Кристи.

Сайга пока догоняет, поэтому в качестве основы я взял Вихрь-Немо.

Аналогично оригинальному Ataraxy, дообучил модель через ORPO на датасете, описанном выше, и слил получившийся тюн с оригиналом. Внезапно получил +0.1 на ПингПонге. На арене стало чуть хуже, 77 у новой модели vs 80 у оригинала.

Сама модель: vikhr_nemo_orpo_dostoevsky_12b_slerp
В боте она тоже есть.

Читать полностью…

Love. Death. Transformers.

06 Oct 2024 19:20

Мне очень нравится читать истерики clevels

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

Жаль что openai практически военная (по уровню анальности nda) организация и мы не знаем всех истерик внутри.

А жаль!

Читать полностью…

Love. Death. Transformers.

04 Oct 2024 21:48

Попробовал новую модель от meta, прям хорошая

Очевидно нет
Читать что это - тут

Читать полностью…

Love. Death. Transformers.

04 Oct 2024 17:15

Напомните а что с EMU

Читать полностью…

Love. Death. Transformers.

03 Oct 2024 18:07

Ребята из JetBrains тоже активно ищут Mlщиков всех видов вне рф, писать сюда @Voiaking

Umojo

ML инженеров для CV. И Тим лида для команды CV, вне рф

@Tanya_tepli

Читать полностью…

Love. Death. Transformers.

03 Oct 2024 16:57

Я был до последнего уверен что blueberry это dalle4 лол

Читать полностью…

Love. Death. Transformers.

03 Oct 2024 15:19

Учить что либо на более 10 нодах сложно. Уже начинает влиять топология кластера, падает MFU, отваливаются ноды и так далее, на лету выкидывать ноды из обучения сложно. Скорость интернета внутри датацентра одинаковая только в теории.
В целом любое массивное обучение на сотнях и тысячах нод это очень сложно, затратно и инженерно.

В первые вижу в паблике подробный блогпост про оптимизацию network level для обучения на 4к h100.

Блогпост

Читать полностью…

Love. Death. Transformers.

03 Oct 2024 06:07

Feels like a best management book ever

Читать полностью…