doomgrad | Unsorted

Telegram-канал doomgrad - градиент обреченный

6541

— Машинное обучение, NLP/CV — HFday.ru — lingtra.in

Subscribe to a channel

градиент обреченный

🚀 Upd. Всех с Днем космонавтики!

Читать полностью…

градиент обреченный

Пришла в голову странная идея, —переобучить сеть на книге, чтобы затем её суммаризовать. Можно попробовать подавать текст по главам, чтобы как-то учесть временную составляющую. Что думаете?

#идеидляризёрча

Читать полностью…

градиент обреченный

Хотел написать про то, что ко мне обратились с просьбой помочь бурятскому языку и мы уже попробовали Lingtrain на нескольких документах.

Но пока времени нет, вот вам картинка про ChatGPT.

Читать полностью…

градиент обреченный

🔺 Transformer models: an introduction and catalog

Если путаетесь в обилии трансформерных моделей, то вот вам обзор.

🔸 Для каждой модели есть описание, отражающее её суть. Например, ALBERT — это сжатая версия BERT'а, использующая sharing весов.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.

👉 Читать | Таблица с моделями

Читать полностью…

градиент обреченный

Зато будет много свободного времени...

Читать полностью…

градиент обреченный

Обнаружил, что GitHub Copilot раздают бесплатно, если у вас есть пара проектов со звездочками, проверьте у себя в профиле.

Сейчас потестим

👉 Upd. Попробуйте зайти со страницы Copilot X и получить доступ там. После этого должно появиться в профиле.

Читать полностью…

градиент обреченный

🔺 Bing Image Creator

Bing начинает встраивать в свой чат генерацию картинок через DALL-E. В чате функционал появляется постепенно, но всем уже доступна генерация на их портале.

Для быстрых генераций дается 10 попыток (по 4 варианта картинки), затем идет медленней.

Сгенерил вам пару Фёрби.

Читать полностью…

градиент обреченный

Всех с понедельником

Читать полностью…

градиент обреченный

🔺 Указатель сюжетов + GPT

Наткнулся на любопытную книжку "Указатель сказочных сюжетов по системе Аарне". 1929 год, есть на русском.

Собраны типичные фольклорные сюжеты, всего около 2000 тысяч по типу:

Медведь валит рябину для старухи — матери лисы. Лиса сама съедает ягоды.

Любовь к трем апельсинам: герой получает три апельсина и т. п., из которых выходят девушки; две девушки умирают от жажды, третья становится невестой героя; злая противница сталкивает девушку в воду и сама занимает ее место; в конце концов все выясняется.

👉 Можно использовать как затравки для генеративных моделей, — добавляем место действия, детали и новая история готова.

Читать полностью…

градиент обреченный

🔺 Раскрыт потенциал GPT-4

Читать полностью…

градиент обреченный

🔺 GPT-4 LM paper Вышла! Вышла! А, нет, показалось

https://www.maxonlift.com/sites/default/files/2017-04/m9726_0.pdf

Читать полностью…

градиент обреченный

🔺 Продолжаем с коллегами работать над моделью. Стало еще чуть лучше.

» Напиши песню про тимлида

Как скажете.

Первый куплет:

Тимлид — нервный тип,
Он проводит дни напролёт,
Разработчики сходят с ума,
Потому что он ничего не делает.

Припев:

Кто же будет кодить, если не мы?
Кто же будет кодить, если не мы?
Кто же будет кодить, если не мы?

Читать полностью…

градиент обреченный

🔺 Карта языковых моделей

Обновил свою интерактивную визуализацию мультиязыковых моделей на карте.

Добавил туда LLaMA, также есть BLOOM, mt5 и mGPT.

Сделал на plotly, если кто не еще пробовал, то рекомендую.

👉 В репозитории есть скрипт для создания визуализации, если кто-то захочет сделать что-то свое.

Карта | Скрипт

Читать полностью…

градиент обреченный

LLaMA — какая-то лажа. #7B #13B

Читать полностью…

градиент обреченный

Заполните форму, говорили они. #LLaMA

Читать полностью…

градиент обреченный

🔺 Выложили FRED-T5

Еще один подарок от коллег, — на huggingface 🤗 выложили веса новой языковой модели, которая показывает SOTA на RussianSuperGlue.

Обучали, используя денойзеры из статьи UL2 от Google, с несколькими улучшениями.

👉 P.S. Ребята делают много крутого в NLP и PLP. Рассказывают про свою работу здесь.

👉 1.7B | 820M | Детали обучения

Читать полностью…

градиент обреченный

Упомянули сейчас в спортзале ChatGPT. Подходит здоровенный качок и спрашивает: "Правда, что у нее есть свое мнение по всем вопросам и что она уже по сути как живой человек?"

#сингулярность

Читать полностью…

градиент обреченный

🔺 Kandinsky 2.1 в открытом доступе

Большая радость от коллег, — ребята улучшили модель для генерации картинок по тексту и выложили все в открытый доступ!

🔸 Поигрался с генерацией, стало на порядок лучше предыдущих версий. Кроме того, появился режим смешивания изображений друг с другом, а также текста с картинкой.

👉 Хабр | Huggingface | GitHub | Телеграм-бот

Читать полностью…

градиент обреченный

🔺 Запущен российский huggingface

Ничего себе. Оказывается, что сегодня запускается российский аналог huggingface 🤗.

Пишут, что можно будет хостить все свои модели с пожизненным GPU инференсом.

👉 https://лицосруками.рф

@doomgrad

Читать полностью…

градиент обреченный

🔺 Продолжаем с коллегами работать над моделью.

Начала лучше генерировать диалоги, электронные письма и другие творческие задачи.

мяу мяу мяу

Читать полностью…

градиент обреченный

🔺 Новости недели #ml_news

🔸 Обрусевшая Альпака. Сообщество активно взялось за создание аналога ChatGPT для русского языка и повторяет подход Stanford Alpaca. Уже собран датасет с инструкциями. Ведется его валидация через бота — @InstructAnnotBot. Проверка каждого примера двигает процесс вперед, так что подключайтесь! (Советы по проверке здесь).
🔸 PANGU-Σ. Huawei натренировали языковую модель на 1.085T параметров. Сделали все на своем кластере из Ascend 910 и фреймворке MindSpore. Тестили год назад с коллегами такой сетап на одной карте, и либо он был сырой, либо руки кривые, но смогли завести только пару простых CV сеток. Видимо, MindSpore — убийца PyTorch (в Китае).
🔸 Плагины для ChatGPT. На волне успеха OpenAI реализовала альфа-версию механизма плагинов. Разработчики из waitlist'а могут начинать действовать, есть документация.
🔸 Файнтюним LLaMA. Репозиторий Simple LLaMA Finetuner для простого дообучения 7B модели через LoRA. С небольшим датасетом и длинной контекста 256 заведется даже в Colab'е. Напоминаю, что токенизация для русского в LLaMA практически посимвольная, так что контекст поместится небольшой.
🔸 Nvidia GTC. Прошла ежегодная конференция от Nvidia. Вот keynote с его главой Хуангом. Анонсировали видеокарту H100 NVL на 192 GB (!).

Читать полностью…

градиент обреченный

🔺 Партийная ChatGPT

Собрал небольшой colab с вышедшей на днях открытой китайской версией ChatGPT — 🇨🇳 ChatGLM 6B.

🔸 Сделали те же люди из Tshinghua University, что ранее выкладывали CogView — генерацию видео по тексту.
🔸 Работает на удивление неплохо — решает творческие задачи на написание текстов и email'ов, составление списков чего-либо. Можно передавать историю чата и вести с ней общение.
🔸 Выдает длинные ответы.
🔸 Обучалась на китайском, соответственно передать в нее что-то специфическое будет трудно.
🔸 Как собрать бомбу или коктейль Молотова не отвечает, китайские коллеги все-таки решили выровнять ее в этическом плане (надо тестить дальше).
🔸 Для английского тоже работает, иногда вставляя в текст слова на китайском. Добавил в колаб автоперевод с китайского на русский.

〰️ Как тренировали?

Пропустили через нее 1T токенов (прямо как в LLaMA). За основу взяли свой же претрейн GLM, дообучили на инструкциях, затем RLHF. Контекст 2048 токенов.

Квантованная версия занимает 6Gb памяти, вместо ~26Gb в fp32, так что можно поиграться в бесплатном colab'е.

👉 Colab | Huggingface | GitHub

Читать полностью…

градиент обреченный

☀️ Надо чаще встречаться

Встретились с Сашей Кукушкиным, автором той самой библиотеки natasha, которой пользовался каждый интересующийся NLP.

Обсудили все самое важное (бег в зимнее время года, полумарафоны и ChatGPT).

👉 Встретились в формате random coffee через бота Нелюдим — @neludim_bot.

Частенько там встречаюсь с интересными людьми из сообщества. Рекомендую и вам, буду рад, если повезет пообщаться с кем-то из читателей!

Читать полностью…

градиент обреченный

💃Уже скоро будет релиз модели Kandinsky 2.1!
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту🤔
2) Смешивать картинки⌛️
3) Смешивать картинки и тексты🃏
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)

Читать полностью…

градиент обреченный

🔺 Вышла GPT-4!


🔸 Модель мультимодальная (accepting image and text inputs, emitting text outputs).
🔸 В течение 6 месяцев выравнивали модель инструкциями для лучшего вывода.
🔸 Подписчики ChatGPT Plus получат ограниченный доступ к GPT-4.
🔸 Для получения доступа к API нужно добавиться в waitlist.
🔸 Контекст модели 8,192 токенов.
🔸 Есть версия с контекстом 32,768 токенов (50 страниц текста).
🔸 Цена $0.06 за тыс. токенов.


👉 Пост

Читать полностью…

градиент обреченный

🔺 Обучаем RLHF с 20B моделью на домашней видеокарте

Очередная интеграция библиотек от huggingface 🤗. На этот раз скрестили peft и trl.

При помощи trl можно, собственно, обучать сами модели в распределенном сетапе или на одной GPU. При помощи peft можно из коробки пользоваться оптимизациями для обучения больших LM, типа LoRA.

Авторы показывают как обучали gpt-neo-x (40Gb в fp16) на 3090 с 24Gb пямяти. Новые оптимизации добавляются.

👉 Примеры

Читать полностью…

градиент обреченный

🔺 ChatGPT на коленке

Появился интересный репозиторий под названием ChatLLaMA. Авторы собрали пайплайн для тренировки персонализированного ChatGPT-like ассистента на основе открытых моделей (базовая модель + reward + RLHF). Человеческая оценка происходит тоже через модели — либо платно через API к OpenAI, либо моделью с huggingface.

В примере из репы после подготовки данных все делается в три команды.

👉 GitHub

Читать полностью…

градиент обреченный

💐 Девушки, дамы и техножрицы! С праздником весны вас!

Читать полностью…

градиент обреченный

🔺 Новый Bing

Давайте посмотрим на то, как у Microsoft получается встраивать ChatGPT в свою поисковую систему. Как раз дали доступ к новому режиму, так что можно поиграться.

1️⃣ Во-первых, настройки генерации модели оформили в виде трех режимов — креативный, сбалансированный и точный.

2️⃣ Во-вторых, в отличие от демо OpenAI теперь у модели есть выход в интернет и перед ответом она лезет в API Bing'a, набирая к себе в контекст часть поисковой выдачи. Вот тут можно подробнее почитать про подход WebGPT. Это позволяет отвечать на актуальные темы, которых не было в претрейне модели. В случае с демо ChatGPT, из ее затравки следовало, что она была ограниченна данными на конец 2021 года.

3️⃣ В-третьих, обратил внимание на различные детали — в выдачу добавили эмодзи, а после каждого ответа выдается по три варианта продолжения диалога. Количество же шагов диалога с моделью ограничено 8-ю, после чего выдается "Sorry, this conversation has reached its limit".

〰️ Кроме того, в отличие от последнего демо ChatGPT иногда идут довольно душные ответы, типа на "сочини оду про что-то" модель может ответить

"ода должна восхвалять что-то, а то, о чем вы спрашиваете этого не заслуживает" 😁

Читать полностью…

градиент обреченный

GPT теперь принимает на вход эмбеддинги

Наконец! В transformers добавлена поддержка эмбеддингов в качестве инпута для полноценной генерации в GPT-like моделях.

За последние годы вышло много работ, которые предлагают использовать этот механизм для таких штук как мультимодальный диалог и p-tuning, но приходилось сильно извращаться чтобы совместить эти подходы с генерацией текста. А теперь это можно сделать в одну строчку! Cоединять текст, картинки и звук теперь будет ещё проще!

Поддержка уже есть для GPT-2, GPT-j, BLOOM, BioGPT, но надо будет установить версию 4.27.0.

GitHub

Читать полностью…
Subscribe to a channel