❤️☠️🤗 идейная миграция небытия
Между тем, @kefirski в своем докладе спойлерил, что у нас скоро состоится TLab event, – так вот этот момент настал!
9 ноября в 19:00 студенты нашей Лаборатории расскажут, над чем они работали и что у них получилось:
- Соня про ранний выход из текстовых диффузий
- Кирилл про Deepfake Detection
- А Нурлан расскажет про то, как распознавать речь, состоящую из смеси языков
Приходите на ивент, на нем можно будет со всеми нами пообщаться, и может даже найти себе топовую позицию в Лабораторию 🎩
подборка классных сеток из мира audio processing 😎
1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс
2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может
3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс
4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)
5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо
6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..
7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда
8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио
9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно
10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут
пишите в комментах, что забыла 😉
Короче, я тут обнаружил что очень мало людей знают о сущестовании longread_ов в этом канале, а значит я напомню что уже вышли:
alexwortega/sYpRYOfkDYz">Учим CLIP правильно - Sigmoid loss for TI pretrain
alexwortega/4zOWNoaoXeq">Cамагонная LM - phi1
alexwortega/YhZXJ6242Up">RLAIF - lm учит Lm
alexwortega/HSmI3kIc072">ALIBI
(в teletype еще есть)
Если вам нравиться такой формат, то можно поддержать сюда, я перестал брать рекламу, а кофе и круасан сам себя не оплатит:
Для русских карт: 5280417710524519
Для иностранных карт: 5269880013404165
за амазон ec2 cтоит где то 150к рублей месяц~
Читать полностью…Я попробовал поиграться с оценкой сочетаемости слов при помощи rugpt-small. Прикол про "выпрыг кенгурей" она не вкурила, но животную сущность "кенгурей" вполне осознала, присвоив им ту же семантическую валентность, что и для "собак" и "курей".
Потыкать код можно тут.
кстати @cyberoleg прав, BoN сэмплинг для диффузий next big thing
Читать полностью…Debugging RL, Without the Agonizing Pain
Статья для тех кто не ознакомлен, оказывается ее тут не было.
Итак, я дописал полезное
https://lpetrov.cc/AI-math/
...Прошел примерно год с тех пор, как я заинтересовался интеграцией AI в свои рабочие процессы (на несколько месяцев опередив хайп вокруг GPT-4). Со временем я внедрил несколько процессов в области преподавания и исследований, и заметно ускорил выполнение многих рутинных задач.
Содержание поста - в картинке, и как видно, приложения AI у меня довольно разнообразные. Что еще посоветуете попробовать?
дропаем сет синты и кандинского обученного на сете синте?
(чем занимается админ пока его пытаются призвать на срочку)
Жена знакомого работает в Кембридже. Сегодня срочно вызвали на совещание. Вернулась поздно и ничего не объяснила. Сказала лишь собирать вещи и бежать на амазон за GPU на два девбокса. Сейчас едем кукухой. Не знаю что происходит, но мне кажется началось...
Читать полностью…#чтивонаночь - LLAVA 1.5
Вероятно лучшая открытая мультимодалка этой осени, которая по каким то причинам никому не интересна, а зря!
alexwortega/d27VIQbJnYp">teletype
paper
github
Верю в силу канала(знаю что подписано некоторое количество профессоров и руководителей разного уровня)
Пожалуйста - объяьсните коллегам в МГТУ что они очень сильно не правы, очевидно что угрозы не реализуются, но они сами ставят себя в заранее слабую позицию.
#чтивонаночь по быстрому
CODEFUSION: A Pre-trained Diffusion Model for Code Generation
и это прям умно - авторы берут претрен T5 еncoder, кидают его стейты в Denoiser(10 блоков трансформера - неизвестных) а в качестве декодера - 6 блоков декодера.
По метрика лучше чем соседи по классу, местами бьет 100кратно лучшие модели
а еще слили размер chatgpt, оказывается она всего то 20B.
Имаджинируете лица людей которые разгоняли что у open ai в проде 175b?
если тут будет очень много реакций я напишу нормальный обзор
paper
Господи какая телега убогая стала, ебанный рот, они блять дизайнеров тоже после литкода набирают? Нахуй я тут блог завёл... Пиздец просто пиздец....
Читать полностью…Котенок считает что transformer_ы переоценены
Читать полностью…Украду идею у @rybolos_channel и выложу все что лежит с пометкой шитпост
Читать полностью…ConvNets Match Vision Transformers at Scale
Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De
Статья: https://arxiv.org/abs/2310.16764
Империя наносит алаверды #2 (#1 было тут /channel/gonzo_ML/819).
Есть мнение (™) что свёрточные сети хороши на малых и средних объёмах данных, а на датасетах супер большого размера проигрывают трансформерам (ViT в частности, /channel/gonzo_ML/434). Текущая работа от DeepMind разрушает этот миф.
Считается, что скейлинг трансформеров идёт лучше, чем у свёрточных сетей, но подтверждений этому мало. Кроме того, многие работы изучающие ViT сравниваются с довольно слабыми свёрточными бейзлайнами, сами при этом порой обучаясь с безумными вычислительными бюджетами более 500k TPU-v3 core hours (что уже $250k по нынешним ценам on-demand, https://cloud.google.com/tpu/pricing). Это сильно за границами бюджетов для обучения свёрточных сетей.
Авторы берут семейство NFNet (Normalizer-Free ResNets, https://arxiv.org/abs/2102.06171) с последовательно увеличивающимися шириной и глубиной сетей. Это чисто свёрточная архитектура, последняя из подобных, получившая SoTA на ImageNet. Эти архитектуры без существенных изменений (кроме подбора простых гиперпараметров обучения) предобучают на большом датасете JFT-4B (4B размеченных картинок с 30к классов) с вычислительными бюджетами от 0.4k до 110k TPU-v4 core compute hours (у TPU-v4 примерно в два раза более высокие флопсы, чем у v3, но такая же память). Затем предобученные сети файнтюнят на ImageNet (используют Sharpness-Aware Minimization, SAM, https://arxiv.org/abs/2010.01412) и получают перформанс аналогичный ViT с сопоставимыми бюджетами. Все модели стабильно улучшаются при добавлении вычислений. Самая большая модель NFNet-F7+ предобучается 8 эпох (110k TPU-v4 hrs), файнтюнится (1.6k TPU-v4 hrs) и даёт 90.3% top-1 accuracy (а с 4x аугментацией и 90.4%).
Из наблюдений по ходу, кривая валидационного лосса даёт чёткий линейный тренд, консистентный с log-log scaling law между валидационным лоссом и объёмом вычислений в предобучении. Это матчится с такими же scaling laws для трансформеров в языковом моделировании. Авторы нашли оптимальный режим скейлинга, когда размер модели и количество эпох обучения увеличиваются с одинаковой скоростью. Также нашли значения для оптимальных learning rates.
Ещё из интересного, претрейны с минимальным валидационным лоссом не всегда дают топовое качество после файнтюна. На трансформерах мы тоже такое где-то видели. Для файнтюнинга стабильно хороши модели чуть покрупнее и чуть поменьше обученные. Иногда ещё и с чуть большим learning rate.
Мораль? The bitter lesson! Чего думать, трясти надо! Компьют и данные -- главные факторы.
Но таки inductive biases у моделей разные и авторы признают, что ViT может быть более хорошим выбором в определённых условиях, например, за счёт возможности использовать одинаковые компоненты для разных модальностей.
Скинули любопытную подборку постов, которая немного касается меня как автора этого канала:
Пару лет назад, знакомые из индустрии люди, слили мне информацию о том, что «некий российский банк с оттенком зеленого» делает канал, в котором Denis Sexy IT является референсом – то есть, они делают такой же профильный канал, но под анонимным брендом, где нейронки и шитпост тесно переплетены (это если меня спросить как я свой формат сам называю, то именно так и называю 💩🤍🤖).
По ссылке серия постов на виси, и она только от одной стороны – от менеджера который вел этот проект (точнее, заменил предыдущего, который ушел), поэтому никак подтвердить написанное я не могу, пишу я тут потому что случайно узнал, что на меня пытались быть похожими – ссылку на канал-копию тоже не даю, но я его посмотрел и похожести правда не вышло.
Если коротко:
Судя по серии постов, все споткнулось об менеджмент, сломанную иерархию, внутренние разборки, попытку маскировки хаоса под аджайл (этим страдают многие коллективы в мире), рабочую токсичность, отсутствие зон ответственности и тп и тд.
В глубину этой истории я вникать не стану, так как меня она касается только поверхностно, но я немного горжусь, что мой сельский стиль ведения канала сложно скопировать гиганту-корпорации, поэтому дам пару советов на будущее тем кто захочет, чтобы облегчить жизнь будущим редакциям или просто людям:
1. Хаос должен царить над контентом, вы не должны знать какие посты будут завтра, потому что это у редакций есть планы, а вы сюда приходите пошутить и время провести, и глуповатые штуки — то на чем все держится. Исключение: запуск Джеймса Уэбба.
17. Читатели любят оригинальный контент или мнение – с оригинальным контентом все понятно, то с мнением интересно: контента о технологиях выходит так много, что хочется просто почитать что-то, что отражает «адекватную попытку проанализировать ситуацию» – я с самого начала во многих IT-трендах занимал какую-то позицию, критиковал или хвалил что-то, и если ошибался, то признавал это публично. Такое люди ценят, и поэтому следующий пункт
2. Никаких нативных интеграций без пометки #промо – просто никогда, никакие деньги не стоят просранное доверие за подаренный планшет / ИИ-биде / новые кросовки / деньги и тп. Сейчас на канале нет рекламы (ожидается одна, которая должна однажды выйти, так как я ее должен рекламодателю и он не уже оплатил), но когда реклама выходила она всегда шла с тегом #промо. Скажу как автор относительно большого канала, количество попыток протолкнуть «интеграцию» как мое мнение, без пометок промо, всегда было большим. Доверие читателей для меня просто важно, и если я ошибусь однажды, я про это напишу тут (публично), пока вроде бог миловал
4. После начала войны у меня стало больше времени уходить на основной бизнес где я CEO, который нужно развивать и который растет, я стал меньше постить историй которые люблю сам (верю, что с ростом компании времени снова станет больше и я верну эти истории) – вот как я находил интересный контент: у меня был RSS-бот в телеграме на 20+ источников где были и твиттер акки и просто проверенные мелкие научные сайты; я мониторил сайты которые занимаются пруфчекингом – так как самые безумные/интересные истории требуют пруфчеков ☕️ (и этот хак сильно помог каналу расти, я честно его час придумал); смотрел тиктоки по интересным мне хештегам и мониторил штук ~30 интересных подреддитов на наличие тем (разными видами сортировок, чтобы не пропустить ничего). Короче, за всем этим хаосом все еще стояла работа с контентом, и бывало так что за неделю интересного не найти, и сильно помогали интересные истории из мира технологий прошлого, в мире куча же всего происходило.
Наверное эти семь пунктов довольно очевидны, но вдруг кому-то помогут сделать свой телеграм-канал мечты 💩
ржака
шутка в том что корова обучилась с кривым ревардом и думает что она бык
agi achived internally
#чтивонаночь
Давно собирался рассказать про самый интересный папир среди text-image contrastive моделей.
Ребята учат за день 400м модель которая лучше чем модель которая училась месяц, так еще и outperform_ят 5B модели.
alexwortega/sYpRYOfkDYz">Sigmoid loss for Image-Text Pt дамы и господа длиннопост
paper
github
что ты сделал для хипхопа в свои годы?что ты сделал для llm в свои годы?
борьба с тревожностью категории: /ldt
я слегка не спал последнию ночь и сидел ковырялся, взял маленький сабсет(2к картинок), разметил его llava_ой, а потом прогнал синту через gpt4.
Теперь k2.2 умеет нескольких персонажей в кадре генерить
разница сходимости на синт и не синт кэпшенах
peach-donkey - run на синте