❤️☠️🤗 идейная миграция небытия
#чтивонаночь
Janus: Decoupling Visual Encoding for Unified
Multimodal Understanding and Generation
Собственно идея не новая - давайте учить текстовый трансформер на комбинированной мультимодалке - на входе будет clip+adapter, на выходе vq токены(через них генерируем и представляем картинки)
В отличие от прошлых работ тут модель не претренется с нуля, стартует с LLM чекпоинта
Те sequence на которо учится наша модель выглядит примерно так:
<bos>text<image_adapter tokens>text<image generation tokens(vq)>
Модель ожидаемо лучше 10кратно больших хамеленово и прочих мультимодальных претренов и по качеству чуть хуже sdxl с поправкой на чуть лучший промтинг
папир
Чат, для чего используете OpenSource llm дома/в проде?
Читать полностью…Man want only one thing and it's disgusting
Читать полностью…VLM в Нейро
Сегодня у нас большое обновление в Поиске. В том числе, команда VLM тоже приняла в нём участие!
Написали с коллегами пост на хабр про то, как мы затаскивали VLM в Нейро (писал про релиз здесь). В этот раз мы немного раскрыли подробности про то, как работает Нейро, где и зачем потребовалась там мультимодальность. Припорошили немножечко теорией про VLM.
Больше ни слова в посте, приятного прочтения поста!
Круто!
Нашу библиотеку для алаймента добавили в awesome LLM resourses
агент на gigachain
иноагент на langchain
#чтивонаночь собственно год назад это было инновацией(DIT, captioning, куча инструкт синты) А теперь это индустриальный стандарт разработки t2i, sd3 - такой же концептуально
Все видео модели концептуально не сильно отличаются - DIT, T5, синтетик кэпшены, куча возни с данными.
Собственно ex авторы PixArt ушли в Nvidia и сделали Sana - очень маленькую и очень бодрую(на бумаге) модель
Из интересного
- VAE теперь сжимает не х8 а х32(те нативно генерит 4к картинки)
- 1s на картинку локально на laptop GPU
- Linear DIT, по сути выкинули ATTN и махнули на 3x3 свертки
- Gemma вместо T5, что вообще очень нестандартно
рассуждать про перфоманс без собственных тестов, а главное FT я не готов, 600м dit это все еще очень мало, возможно у модели есть нюансы.
В любом случае любопытная работа, ознакомьтесь
paper
Любопытный блогпост про починку gradient accumulation у unsloth
Blog
Oh, sweet child
Мне безумно нравится что вчерашние веб3 каналы стали резко про ai + eacc писать
От 500к год
@
Без пеработок
@
В долине
Блин, не я не могу перестать ржать, это очень забавно
Круче только экспоненциальный рост систем
Вложи 100, получи 10 это же почти экспонента почти, да? Не логарифм же?
Шо пацаны, вращаем и масштабируем!
Сейчас самый популярный метод позиционного кодирования в LLM’ках и не только — это RoPE. Но глубокому исследованию влияния параметров RoPE на поведение и свойства итоговой модели уделяется довольно мало внимания.
В статье “Scaling Laws of RoPE-based Extrapolation” ребята исследовали влияние выбора параметра rope base на поведение модели при разном размере контекста.
А еще:
📌 Ввели концепцию critical dimension, которая чуть-чуть приводит в порядок теорию про адаптацию RoPE для Train Short Test Long сценариев.
📌 Пофлексили тем, что “we achieve extrapolation up to 1 million context length within only 16K training length on LLaMA2 7B and 13B” — но есть нюанс 🙃
Основные интересные моменты:
- Маленькие rope base из коробки ведут к лучшей устойчивости к длинам контекста, которых не было в трейне, но при этом работают хуже на длинах, которые были в трейне.
- Есть понятный способ вычислить оптимальные rope base, если хочется сделать его маленьким.
- Большие rope base неустойчивы к длинам контекста, которых не было в трейне, но при этом работают лучше на длинах, которые были в трейне.
- Есть понятный способ вычислить оптимальный rope base, если хочется сделать его большим. Для этого нужно знать, на какой максимальной длине сиквенсов будет учиться модель, и на какой максимальной длине сиквенсов она будет работать на тесте.
- Пусть есть вектор размерности d для репрезентации какого-то query или key внутри башки атеншена. Тогда будет существовать d_extra, и во время претрейна позиционная информация в измерениях d_i ≤ d_extra будет полностью выучена, а в измерениях d_i > d_extra будет выучена не полностью и потребует дальнейших упражнений с адаптацией.
Meanwhile random Chinese student
https://pyramid-flow.github.io/
https://huggingface.co/rain1011/pyramid-flow-sd3
moviegen фбшный
примеру:
- авторы собрали буквально пачку контента на которых старые video gen модели плохо работали и разметили
- проверили чтобы 60% данных содержали людей(sic!!!)
- выкинули всякие сомнительные классы движения
- учили biderectional llama и сами пишут: "we don't explore design choice" те прикинули да, китайская лаба с бюджетом два доширака может позволить себе 1б модель погонять и проверить, а что лучше работаеи, а что хуже, а meta нет))
- "параграф для флекса инфрой" - просто существует
- данные это по сути масштабированный panda 70m
- усреднили sft чекпоинт с претрен.
- evaluation мне лично не особо интересен, забейте, все всех победили
Высокоцитируемый и безработный
В канал Русский research обратился учёный с необычной судьбой, Сергей Вениаминович Дорожкин, с просьбой рассказать о его ситуации и, возможно, помочь тем самым его научной работе. Я крайне редко посвящаю посты отдельным людям, но тут случай действительно уникальный.
Начнём с того, что С.В. Дорожкин является одним из самых цитируемых российских учёных (8-е место при нормировке цитирований на число соавторов) и попадает в топ-100 мирового рейтинга специалистов по биоматериаловедению. Одновременно с этим уже 20 лет Сергей Вениаминович занимается наукой лишь в качестве хобби по 1-1,5 часа в день, работая инженером по калибровке лабораторных приборов в коммерческой компании. Не имея доступа к лаборатории, учёный занимается анализом литературы и написанием обзорных статей, что само со себе непростой труд. Обзоры С.В. Дорожкина выходят в международных журналах и хорошо цитируются. Об этой удивительной ситуации писал ранее А.Р. Хохлов.
Сергей Вениаминович рассказывает, что в 2004 году закончился его последний контракт постдока в Канаде, и он вернулся в Москву, предварительно написав во все московские научные институты, где занимались близкой тематикой. Никто не ответил, приглашений на работу не поступило. В дальнейшем учёный периодически пытался выйти на контакт с представителями химфака МГУ, ИМЕТ РАН и, ранее, ИОНХ РАН, но тоже не получал ответов. В итоге он стал искать работу в коммерческих предприятиях и пришёл к текущей специальности инженера.
Единственная конструктивная реакция последовала буквально недавно от академика А.Р. Хохлова, который организовал у себя в лаборатории семинар С.В. Дорожкина, а затем принял его на работу на полставки. К сожалению, тематически интересы двух учёных в итоге не совпали, энтузиазм стал угасать, а сотрудничество на данный момент не сложилось.
Сейчас цель Сергея Вениаминовича очень проста. Найти возможность заниматься исследованиями по основному месту работы, уделять науке кратно больше времени и получать за это достойные деньги. Учёный готов как продолжить свою деятельность по написанию обзорных работ, так и подключиться к действующей лаборатории в рамках её тематики. Да, Сергей Вениаминович честно признаёт, что не умеет и не хочет участвовать в грантовой гонке. С другой стороны, свою способность выдавать востребованную «научную продукцию» он уже доказал, и, я думаю, имеет право претендовать на место в коллективе без традиционной административной нагрузки.
P.S. Честно говоря, я удивляюсь, почему никакой университет (особенно из числа бьющихся за показатели) не догадался пригласить С.В. Дорожкина на работу чисто из утилитарных соображений. Просто обеспечив учёному хороший оклад и рабочее место, организация получает, как минимум, стабильный поток востребованных статей в международных журналах и высокорейтингового сотрудника в качестве вечнозелёного инфоповода. Как максимум – при наличии близких по тематике химиков – получает консультации специалиста с широкой эрудицией в своей области.
С другой стороны, приходится признать, что уехавшим за рубеж учёным зачастую бывает сложно вернуться в российскую научную жизнь. Это другая система отношений (не худшая и не лучшая, а именно другая), и разница не сводится к пресловутым бегам за грантами. Хотя, безусловно, и вечный поиск финансирования доливает масла в огонь.
Ну и поскольку пост в жанре "ищу работу" публикуется в канале впервые, я понятия не имею, чем его заканчивать. Пожелаю Сергею Вениаминовичу найти правильное место и, наконец, уделять науке столько времени, сколько хочется.
Продолжу. Если вы используете ллм на работе - в проде, то под что?
Читать полностью…мне безумно нравится что cs bro думают что могут оценивать прогресс в чем то в чем они не эксперты и их будут слушать
Читать полностью…https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.3.0.md
Читать полностью…В Суно присунули image2music и video2music!
Мы привыкли, что на вход текстовые промпты, ну и может быть аудио референс.
Суно решили заигрывать с мемасной аудиторией и новыми нормальными зумерами.
Типа озвучь свой мемас.
С точки зрения монетизации и стартапности - очень нарядный шаг.
Но если вы в музыку, то тут ничего нового.
Но зато у Суно будет больше денег. И лучше качество на итоге.
Какашка на торте.
Только иос-приложение.
Только в Штатах. Даже в Канаде не работает.
Твиттор Суно разрывается от возмущенных индусов.
Суно отшучиваются "усе будет скоро".
Ну и старую школу учили, что монтируем видео под музику, а не музику под видео.
Вот вам плейлист озвученых мемасов
https://suno.com/song/377d0638-ca5f-4f97-b452-7b8c9d32fe6d
@cgevent
☕️ Дмитрий Мезенцев, руководитель службы разработки Поиска рассказывает, как в Яндексе сочетаются атмосфера стартапа и бигтеха и за что он любит продуктовую разработку.
А если после прочтения вам захочется работать с нами — откликайтесь на вакансию!
➡️ Бэкенд-разработчик в команду поисковых сценариев
#чтивонаночь
MLE-BENCH@openai
Собственно идея такая: давайте будем агентом решать kaggle соревки старые пока llm не решит)
- 75 соревнований
- 1 карта
Ллама 405б ожидаемо оказалась слегка похуже, o1 preview лучше других(хотя интересно построить compute кривые)
Ожидаемо от увелечения числа попыток качество растет log_рифмически.
папир
Кстати согласно этой кривой MJ v7 должна уметь ещё лучше фоловить промпты и управлять мелкими деталями (ну там какие пальцы согнуты, цвет ресниц и тд. Скейлинг же экспоненциальный)
Читать полностью…DL это наука, да я учёный, да что вы мне сделаете, зачем вам дилдо, ой да ладно я же пошутил...
Читать полностью…Вчера было robotaxi party Илона маска, держите краткий пересказ
Читать полностью…Мы тут наукой занимаемся, точно не stack more layers
Читать полностью…Мне очень нравится что до сих пор в image/video gen работах используется ul2/т5 при том что для nlp их эмбеды прям говно
Читать полностью…А куда потерялись картиночные токены то....
В релиз карточке было прям очень хорошо