❤️☠️🤗 идейная миграция небытия
Убейте хайп пожалуйста, можно снова наше DL будет уютным и приятным и не из каждого утюга
Читать полностью…Open asistant ставят эксперементы на galactica, почему а главное зачем...
Читать полностью…🔥FlexGen: как запустить OPT-175B на своём ноутбуке
Просто восторг! Самую большую открытую языковую модель теперь можно запустить на одной 16GB GPU и при этом не ждать генерацию целую вечность — скорость 1 токен в секунду!
Причём ускорение и сжатие модели делается очень просто: model = OptLM(model)
P.S. В их репозитории даже есть пример чатбота на основе OPT-66B
Статья, GitHub
#чтивонаночь
Помните я хихикал от 8битного инференса трансформеров?
Дохихикался, в h поколении Nvidia карты вкатили поддержку 4bit и 3bit-ного инференса, что делает комьюнити?
Правильно, сует 175б модель в 4*3090. 🤯
💡 идея
- нам надо пожать очень много матричек и выбрать правильный диапазон значений в котором это может функционировать
- берём наш трансформер, грузим в fp16 на карты, прогоням батчи из датасета С4 смотрим на значения, и по аналогии с layer wise минимизируем MSE. Но там есть хитрая нормировка которая позволяет настолько экстремально квантануть.
По результатам все неплохо, ppl растет не очень сильно(1-2 пункта) и в целом модели неплохо жмуться.
По итогу можно экономить кучу денег и ресурсов, ждём 1бит инференс и видимо 175б модель в коллабе.
👩💻 Code
📖 arxiv
Или еби, тут каждому своё, но это п р е к р а с н о
/channel/text2img/5478
Друзья! Мы наконец запустились на PH 🚀 Давайте попробуем взять Product of the day!
Пожалуйста, перейдите по ссылке и поддержите нас 👉👈: https://www.producthunt.com/posts/spiritme
Еще лучше, если получится оставить 1 комментарий на английском языке. Программа максимум: опубликовать в своём телеграм канале про нас новость и попросить друзей нас поддержать! (Тут важно, не призывать проголосовать за нас в явном виде, за такое банят, важно говорить “поддержите”)
Спасибочки!
Чат, реквестирую папиры по улучшению способностей gpt в математику, CoT не предлагать.
Читать полностью…вообще, когда аи востанет я почти уверен что он будет взрывать аккумы в технике, скидывать самолеты, устраивать пожары, а не это ваше
Читать полностью…Представьте что будет если прикрутить chat gpt(извините, PALM) к роботу?
Новый блогпост googleai
Stanford ебашит вообще адовый контент, го изучать
lecture
самое грустная вещь в мире: мультиязычные трансформер декодеры, на бумаге - ооочень круто, можно не париться и модель сама будет переносить знания из одного языка на другой, а по факту: промптишь модель на английском, а смотришь на ответ на арабском, при том что модель училась на русском сете 🤯
Читать полностью…Lion(EvoLved Sign Momentum)
Помните когда вы пользовались чем то кроме Adam/Adamw? Вот и я не помню, а google Ai сделали ещё один оптимайзер, который типа сильно быстрее Адама, экономнее, а ещё вышивает и по выходным убирается дома.
По метрикам накидывает слегка, но без шока
Имплементация на псевдокоде:
def train(weight, gradient, momentum, lr):
update = interp(gradient, momentum, β1)
update = sign(update)
momentum = interp(gradient, momentum, β2)
weight_decay = weight * λ
update = update + weight_decay
update = update * lr
return update, momentum
paper
На 200 реакций напишу имплементацию, отмена они выложили её
code
Мальчик: os.listdir()
Мужчина:
принес @gradientdip
2020й год: все вахуи с 175B модели
2023й год: обычный геймер может запустить инференс 175B модельки на 3090
🎉 Cmd J is live on Product Hunt
Друзья, мы с @theshadowagent запустили наш Cmd J на Product Hunt!
Это Google Chrome расширение, чтобы пользоваться ChatGPT на любой вкладке без лишних копирований текста. Например, выделили текст имейла, выбрали “переписать как нейтив” и жмякнули enter, чтобы подставить результат. Самое прикольное, что я дико подсел на такой UX. Гляди и вам зайдет.
Сегодня очень сложный день для запуска (во всех смыслах), но попробуем затащить 💪🏻
Буду признателен, если сможете поддержать наc апвоутом и оставить доброе слово в комментариях:
https://www.producthunt.com/posts/cmd-j-chatgpt-for-chrome
Если у вас вдруг есть свой канал, то вам от меня ❤️ за репост.
P.S. Если у вас нет аккаунта на PH, то не нужно его заводить для этого случая. Вы не только не поможете, а даже навредите. Такие дела.
А и ещё, все забили на задачу NLI, на нее вышло две модели от фб и больше никто ничего не делал, а казалось бы это одна из базовых штук...
explanation wtf it is
Украдено отсюда благодаря любимому подписчику
Читать полностью…Мик мать его Гордон хреначит вообще адовые ремиксы советской классики
Читать полностью…Преподаватель из Университета Пенсильвании рассказывает, как интегрировал использование ИИ в свои образовательные курсы. И вот в его случае студенты отлично понимают ограничения систем типа ChatGPT и аккуратно проверяют написанное. Короче, это прям отповедь плохим преподавателям, очень рекомендую почитать.
https://oneusefulthing.substack.com/p/my-class-required-ai-heres-what-ive
FROMAGe: самый простой способ сделать мультимодального чатбота
Авторам потребовалось всего 24 часа чтобы на 1 GPU обучить это чудо! Идея очень похожа на Flamingo, но ещё проще и не требует больших датасетов.
За основу взяли замороженные ViT и OPT, а чтобы склеить их вместе — добавляют два обучаемых линейных слоя для отображения эмбеддингов (text2image и image2text). Затем визуальные эмбеддинги картинок подаются вместо псевдо-текстовых токенов. Для поиска и вывода картинок добавляется новый спец-токен [RET].
Для обучения используют общедоступный датасет CC3M из пар картинка-текст. В качестве лосса: CrossEntropy по тексту + контрастив лосс для токена [RET] (поиск картинок).
Код и чекпоинты выложены в открытый доступ, прям все 11 мегабайтов весов залиты на гитхаб 😂
P.S. Думаю, что если в GPT-4 добавят поддержку картинок, то это будет именно так.
Статья, GitHub, блог
почему в пейперах нельзя писать: сет оказался редкостным говном, поэтому мы его заменили
Читать полностью…господа ресерчеры, призываю вас лить сеты на HF, а не плодить зоопарк репозиториев и jsonl файлов
Читать полностью…#забавно
Заинтересовался темой - как генерировать бессмысленные входы для нейронок, которые не воспринимались бы ей бессмысленными. Отсюда родилась игра - придумать последовательность букв, которая не является словом русского языка, но переводится переводчиком в слово английского языка, это свойство сохраняется при удалении любого количества букв из последовательности.
Тут можно ещё конкретизировать:
- какие буквы допустимо удалять,
- потребовать, чтобы все слова в переводах были разными,
- потребовать, чтобы при добавлении любой буквы, это свойство уже терялось,
- найти максимальное по длине / по числу задействованных букв слово
и т.п.
Пример с гугл-переводчиком на картинке, с ним правда есть совсем вырожденная стратегия в составлении подобных слов:(
Первым делом, расскажу о своём любимом information retrieval для NLP. Так уж вышло, что волею судьбы, мне выпала честь развивать retrieval based dialogue system в одной крупной финансовой компании. И поэтому хайп, который творится вокруг chatGPT, докатился до меня весьма своеобразно. А именно, я стал думать как подобные механики использовать для улучшения retrieval свойств векторов нашей системы для ведения диалога. И конечно, во-первых, выдумал свой RL-critic подход для векторов (об этом думаю в след.раз), а во-вторых, докатился до статьи InstructOR, код.
Идея: Один эмбеддер, несколько таск.
У нас есть к примеру 3 задачи :
Question Answering, Information Retrieval, Toxic classification.
Мы хотим к запросу Х для каждой таски Yi, дать доп.инструкцию X'i (по сути мы даём больше информации /контекста). Далее, мы выдвигаем гипотезу, что в зависимости от доп инструкции состояние энкодера для каждой задачи будет зависеть от (X, X'i). Следовательно, гипотетически, мы повышаем поисковое разнообразие, сообщаем доп свойства и вообще точнее ищем или предсказываем метки. Окей, вроде, понятно. Как сообщить такие свойства?
Для начала, нужно правильно написать инструкции для каждого примера каждой таски. А именно иметь следующие блоки из шаблона:
1) Домен. В инструкции должно быть указание доменной информации. К примеру, вы рассматриваете задачу рубрикации статей, вам нужно указать тематики (да домен может быть не один).
2)Тип текста: тут пишем о том, инъекцию какого типа мы делаем. Сообщение, запрос, уточнение, извлекаемый текст и тд.
3) Задача. Указываем цель. Классификация намерения, сентимента или же поиск информации, ответ на вопрос.
При этом, читаю статью заметил, что для каждой задачи приведен пример только одной инструкции, которая её характеризует. См. Таблицу ниже. На самом деле, я думаю, их может быть на каждую задачу гораздо больше. И тут админ уже потирает руки над парой интересных идей, как это проапгрейдить. Привет статье. ;)
Вопрос с данными решили. Теперь нужно на уровне архитектуры заложить для пар запрос + инструкция/контекст нужное поведение. Для этого авторы работы приводят классический подход на основе metric/contrastive learning. Всё как я люблю:
1) Берём пары (X, X'i) в каждой задаче.
2) Отбираем из них парафразы и инструкции которые должны вести к одному результату : классу, ответу на запрос или документу и тп.
3) Проводим обучение dssm, которая сводит векторные представления ведущие к одному результату и разводят обратные. Для этого используют в качестве цели entropy_loss в котором в качестве оценки уверенности ставится cosine similarity между релевантными/противоположными парами запрос+инструкция.
З. Ы. Важно: Совершенно не обязательно, что инструкции в таких условных парафразах одинаковые, скорее наоборот. Также поведение энкодера меняется от задаче к задаче тк для каждой задачи мы имеем свою инструкцию.
Модели в основе: имхо любой энкодер, но тут T5-encoder в стиле GTR (тюн энкодера на dssm). При этом модель T5 предобучена изначально на web корпусе.
С вариациями моделей в разных размерах уже можно для EN языка ознакомиться в HF
Тренируют, как обычно разное и большое. Есть энкодеры от 330m до 1.3b параметров (привет, ChatGPT reward model) . Всё можно опять же посмотреть на обнимашках.
Обещают ап по трём сетам:
- MTEB ( 56 разнообразных сетов как BEIR, STS, etc.)
- BilBoard (сет для замера на оценки качества генерации ответа, но тут нет генератора, но и ответы ретривала они умеют мерить)
- Retrieval promt (как понял оценивает качества извлечения/поиска)
Естественно таблицы с метриками прилагаются.
Как объяснить менеджеру (РМ или РО), что разработка качественной модели - это не разработка бэкенда или фронтенда, где более всё понятно и предсказуемо:
Читать полностью…накидываем реакции на пост, или я отпишусь
Читать полностью…