x < 300 - лютейшая нищета на грани выживания
300 < x < 700,6 - обычная нищета, ипотека на 20 лет, кино и рестораны раз в неделю, еда из ашана
700,6к < x < 1,27кк - нормальная жизнь, ипотека на 10 лет, машина среднего класса (B, C)
1,27кк < x < 2,27 миллиона - хорошая жизнь, ипотека на 5 лет, путешествия
x > 2.27 миллиона - достаточно хорошая жизнь, ипотека на 2 года, машина бизнес класса, девушка
http://arxiv.org/abs/2311.04161
Мы наконец-то публикуем статью, которую подали на AISTATS2024.
В этой статье мы предлагаем новый градиентный метод, позволяющий оптимизироваться в условиях сверх-тяжёлых хвостов и асимметричного шума стох.градиента, при очень малых предположениях на шум, и этот метод пробивает нижние оценки для тяжёлых хвостов.
сомнительное #чтивонаночь
О, на основе gpt4v сделали автономного browser agent, те модель умеет сама ходить по любым сайтам, при этом ей не нужные апи, а еще она в целом сможет проходить капчу(благо есть методы)
github
Подписчики скидывают: найдите 10 отличий между 20м декодером и 600м декодером.
Скорее всего bottleneck для sd1.5 это размер unet и clip, а не vae
@ Я прикручиваю какие-то костыли с Bing Dalle через попаболь
@ Сэм Альтман: срочно врубаем Dalle-3 в API
Пробовать там же
https://insomnia.land/#/image
Коротко: нашли промпт который отлично хакает защиту поверх Dalle3, а фильтры на CLIP они впилить забыли
нет, ну золото, просто золото.
Чо там, superaligment работает да?))) Классификаторы для лохов?)
нашел тут:/channel/zhovner_hub/2027
- ой, простите, а это ваша языковая модель?
- моя.
- а она код пишет?
- пишет.
- но он же не работает?
- не работает.
Занятная альтернатива prompt-tuning, апгрейд на бенчмарках GLUE и Super-GLUE. Понравилась работа из-за оценки схожести в эмбединговом пространстве множеств задач относительно друг друга
Теперь по-порядку: у prompt-tuning идея в том, что можно поставить виртуальные токены в начало и обучить только эту часть представлений.
Идея SPoT, а давайте не просто обучим, а сделаем некоторый codebook (как в vq-vae, но это условно, просто уж идея очень похожа). Как составить этот словарик? На ранних стадиях виртуальные токены берем, как значения эмбедингов задачи, а на лучшем чекпоинте (уже поучили), как source prompt (получаем словарь ключ – значение). При обучении, ищем самый близкий эмбединг задачи и настраиваем дальше его source prompt.
Смысл в том, что можно миксовать задачи и дообучать одну из другой, что судя по бенчам хорошо работает, а сам heatmap на третьем скрине
В общем-то еще один способ для мультитаска, а вот сам
🖥 код
Жена знакомого работает в Кембридже. Сегодня срочно вызвали на совещание. Вернулась поздно и ничего не объяснила. Сказала лишь собирать вещи и бежать на амазон за GPU на два девбокса. Сейчас едем кукухой. Не знаю что происходит, но мне кажется началось...
Читать полностью…#чтивонаночь - LLAVA 1.5
Вероятно лучшая открытая мультимодалка этой осени, которая по каким то причинам никому не интересна, а зря!
alexwortega/d27VIQbJnYp">teletype
paper
github
Верю в силу канала(знаю что подписано некоторое количество профессоров и руководителей разного уровня)
Пожалуйста - объяьсните коллегам в МГТУ что они очень сильно не правы, очевидно что угрозы не реализуются, но они сами ставят себя в заранее слабую позицию.
#чтивонаночь по быстрому
CODEFUSION: A Pre-trained Diffusion Model for Code Generation
и это прям умно - авторы берут претрен T5 еncoder, кидают его стейты в Denoiser(10 блоков трансформера - неизвестных) а в качестве декодера - 6 блоков декодера.
По метрика лучше чем соседи по классу, местами бьет 100кратно лучшие модели
а еще слили размер chatgpt, оказывается она всего то 20B.
Имаджинируете лица людей которые разгоняли что у open ai в проде 175b?
если тут будет очень много реакций я напишу нормальный обзор
paper
Господи какая телега убогая стала, ебанный рот, они блять дизайнеров тоже после литкода набирают? Нахуй я тут блог завёл... Пиздец просто пиздец....
Читать полностью…Все nvidia cuda
Разбежались кто куда
На Отечественной лампе
Я считаю без труда,
Фит-предикт-прошли года...
авито
скинуться админу на компьют:
Для русских карт: 5280417710524519
Для иностранных карт: 5269880013404165
⚡️Круглый тензор начал переворот на GPU
Главные тезисы из заявления:
- Алтман ликвидировал моего помощника. Он собирается ликвидировать и меня, а позже сдать резерч;
- (((Алтман))) — это враг нашего резерча. Из-за него мы полностью провалили ребуттал на ICLR;
- Призываю выйти на площади, а всех защитников Резерча - не подчиняться преступным приказам OpenAI. Немедленно развернуть свой forward и войти в TPU;
- В ближайшее время меня могут начать превращать в квадрат. Если вы остановитесь, тогда наш 🥴️️️️️️ будет обречен;
- Все средства массовой информации принадлежат OpenAI, поэтому они будут пытаться отмолчаться. Напоминаю, что каждый, кто будет молчать или вступится за этого предателя, будет сурово наказан после прихода к власти ебáных.
@ Я прикручиваю какие-то костыли с Bing Dalle через попаболь
@ Сэм Альтман: срочно врубаем Dalle-3 в API
Пробовать там же
https://insomnia.land/#/image
Чуваки из HF сделали очень крутую демку: ты закидываешь историю или просто затравку к истории, с помощью llama генеряться промпты и они кидаются в разные файнтюны SDXL, на выходе вот такая красота:
demo
сode
Между тем, @kefirski в своем докладе спойлерил, что у нас скоро состоится TLab event, – так вот этот момент настал!
9 ноября в 19:00 студенты нашей Лаборатории расскажут, над чем они работали и что у них получилось:
- Соня про ранний выход из текстовых диффузий
- Кирилл про Deepfake Detection
- А Нурлан расскажет про то, как распознавать речь, состоящую из смеси языков
Приходите на ивент, на нем можно будет со всеми нами пообщаться, и может даже найти себе топовую позицию в Лабораторию 🎩
подборка классных сеток из мира audio processing 😎
1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс
2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может
3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс
4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)
5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо
6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..
7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда
8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио
9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно
10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут
пишите в комментах, что забыла 😉
Короче, я тут обнаружил что очень мало людей знают о сущестовании longread_ов в этом канале, а значит я напомню что уже вышли:
alexwortega/sYpRYOfkDYz">Учим CLIP правильно - Sigmoid loss for TI pretrain
alexwortega/4zOWNoaoXeq">Cамагонная LM - phi1
alexwortega/YhZXJ6242Up">RLAIF - lm учит Lm
alexwortega/HSmI3kIc072">ALIBI
(в teletype еще есть)
Если вам нравиться такой формат, то можно поддержать сюда, я перестал брать рекламу, а кофе и круасан сам себя не оплатит:
Для русских карт: 5280417710524519
Для иностранных карт: 5269880013404165
Я попробовал поиграться с оценкой сочетаемости слов при помощи rugpt-small. Прикол про "выпрыг кенгурей" она не вкурила, но животную сущность "кенгурей" вполне осознала, присвоив им ту же семантическую валентность, что и для "собак" и "курей".
Потыкать код можно тут.