Пришла в голову странная идея, —переобучить сеть на книге, чтобы затем её суммаризовать. Можно попробовать подавать текст по главам, чтобы как-то учесть временную составляющую. Что думаете?
#идеидляризёрча
Хотел написать про то, что ко мне обратились с просьбой помочь бурятскому языку и мы уже попробовали Lingtrain на нескольких документах.
Но пока времени нет, вот вам картинка про ChatGPT.
🔺 Transformer models: an introduction and catalog
Если путаетесь в обилии трансформерных моделей, то вот вам обзор.
🔸 Для каждой модели есть описание, отражающее её суть. Например, ALBERT — это сжатая версия BERT'а, использующая sharing весов.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.
👉 Читать | Таблица с моделями
Обнаружил, что GitHub Copilot раздают бесплатно, если у вас есть пара проектов со звездочками, проверьте у себя в профиле.
Сейчас потестим
👉 Upd. Попробуйте зайти со страницы Copilot X и получить доступ там. После этого должно появиться в профиле.
🔺 Bing Image Creator
Bing начинает встраивать в свой чат генерацию картинок через DALL-E. В чате функционал появляется постепенно, но всем уже доступна генерация на их портале.
Для быстрых генераций дается 10 попыток (по 4 варианта картинки), затем идет медленней.
Сгенерил вам пару Фёрби.
🔺 Указатель сюжетов + GPT
Наткнулся на любопытную книжку "Указатель сказочных сюжетов по системе Аарне". 1929 год, есть на русском.
Собраны типичные фольклорные сюжеты, всего около 2000 тысяч по типу:
Медведь валит рябину для старухи — матери лисы. Лиса сама съедает ягоды.
Любовь к трем апельсинам: герой получает три апельсина и т. п., из которых выходят девушки; две девушки умирают от жажды, третья становится невестой героя; злая противница сталкивает девушку в воду и сама занимает ее место; в конце концов все выясняется.
👉 Можно использовать как затравки для генеративных моделей, — добавляем место действия, детали и новая история готова.
🔺 GPT-4 LM paper Вышла! Вышла! А, нет, показалось
https://www.maxonlift.com/sites/default/files/2017-04/m9726_0.pdf
🔺 Продолжаем с коллегами работать над моделью. Стало еще чуть лучше.
» Напиши песню про тимлида
Как скажете.
Первый куплет:
Тимлид — нервный тип,
Он проводит дни напролёт,
Разработчики сходят с ума,
Потому что он ничего не делает.
Припев:
Кто же будет кодить, если не мы?
Кто же будет кодить, если не мы?
Кто же будет кодить, если не мы?
🔺 Карта языковых моделей
Обновил свою интерактивную визуализацию мультиязыковых моделей на карте.
Добавил туда LLaMA, также есть BLOOM, mt5 и mGPT.
Сделал на plotly, если кто не еще пробовал, то рекомендую.
👉 В репозитории есть скрипт для создания визуализации, если кто-то захочет сделать что-то свое.
Карта | Скрипт
🔺 Выложили FRED-T5
Еще один подарок от коллег, — на huggingface 🤗 выложили веса новой языковой модели, которая показывает SOTA на RussianSuperGlue.
Обучали, используя денойзеры из статьи UL2 от Google, с несколькими улучшениями.
👉 P.S. Ребята делают много крутого в NLP и PLP. Рассказывают про свою работу здесь.
👉 1.7B | 820M | Детали обучения
Упомянули сейчас в спортзале ChatGPT. Подходит здоровенный качок и спрашивает: "Правда, что у нее есть свое мнение по всем вопросам и что она уже по сути как живой человек?"
#сингулярность
🔺 Kandinsky 2.1 в открытом доступе
Большая радость от коллег, — ребята улучшили модель для генерации картинок по тексту и выложили все в открытый доступ!
🔸 Поигрался с генерацией, стало на порядок лучше предыдущих версий. Кроме того, появился режим смешивания изображений друг с другом, а также текста с картинкой.
👉 Хабр | Huggingface | GitHub | Телеграм-бот
🔺 Запущен российский huggingface
Ничего себе. Оказывается, что сегодня запускается российский аналог huggingface 🤗.
Пишут, что можно будет хостить все свои модели с пожизненным GPU инференсом.
👉 https://лицосруками.рф
@doomgrad
🔺 Продолжаем с коллегами работать над моделью.
Начала лучше генерировать диалоги, электронные письма и другие творческие задачи.
мяу мяу мяу
🔺 Новости недели #ml_news
🔸 Обрусевшая Альпака. Сообщество активно взялось за создание аналога ChatGPT для русского языка и повторяет подход Stanford Alpaca. Уже собран датасет с инструкциями. Ведется его валидация через бота — @InstructAnnotBot. Проверка каждого примера двигает процесс вперед, так что подключайтесь! (Советы по проверке здесь).
🔸 PANGU-Σ. Huawei натренировали языковую модель на 1.085T параметров. Сделали все на своем кластере из Ascend 910 и фреймворке MindSpore. Тестили год назад с коллегами такой сетап на одной карте, и либо он был сырой, либо руки кривые, но смогли завести только пару простых CV сеток. Видимо, MindSpore — убийца PyTorch (в Китае).
🔸 Плагины для ChatGPT. На волне успеха OpenAI реализовала альфа-версию механизма плагинов. Разработчики из waitlist'а могут начинать действовать, есть документация.
🔸 Файнтюним LLaMA. Репозиторий Simple LLaMA Finetuner для простого дообучения 7B модели через LoRA. С небольшим датасетом и длинной контекста 256 заведется даже в Colab'е. Напоминаю, что токенизация для русского в LLaMA практически посимвольная, так что контекст поместится небольшой.
🔸 Nvidia GTC. Прошла ежегодная конференция от Nvidia. Вот keynote с его главой Хуангом. Анонсировали видеокарту H100 NVL на 192 GB (!).
🔺 Партийная ChatGPT
Собрал небольшой colab с вышедшей на днях открытой китайской версией ChatGPT — 🇨🇳 ChatGLM 6B.
🔸 Сделали те же люди из Tshinghua University, что ранее выкладывали CogView — генерацию видео по тексту.
🔸 Работает на удивление неплохо — решает творческие задачи на написание текстов и email'ов, составление списков чего-либо. Можно передавать историю чата и вести с ней общение.
🔸 Выдает длинные ответы.
🔸 Обучалась на китайском, соответственно передать в нее что-то специфическое будет трудно.
🔸 Как собрать бомбу или коктейль Молотова не отвечает, китайские коллеги все-таки решили выровнять ее в этическом плане (надо тестить дальше).
🔸 Для английского тоже работает, иногда вставляя в текст слова на китайском. Добавил в колаб автоперевод с китайского на русский.
〰️ Как тренировали?
Пропустили через нее 1T токенов (прямо как в LLaMA). За основу взяли свой же претрейн GLM, дообучили на инструкциях, затем RLHF. Контекст 2048 токенов.
Квантованная версия занимает 6Gb памяти, вместо ~26Gb в fp32, так что можно поиграться в бесплатном colab'е.
👉 Colab | Huggingface | GitHub
☀️ Надо чаще встречаться
Встретились с Сашей Кукушкиным, автором той самой библиотеки natasha, которой пользовался каждый интересующийся NLP.
Обсудили все самое важное (бег в зимнее время года, полумарафоны и ChatGPT).
👉 Встретились в формате random coffee через бота Нелюдим — @neludim_bot.
Частенько там встречаюсь с интересными людьми из сообщества. Рекомендую и вам, буду рад, если повезет пообщаться с кем-то из читателей!
💃Уже скоро будет релиз модели Kandinsky 2.1!
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту🤔
2) Смешивать картинки⌛️
3) Смешивать картинки и тексты🃏
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)
🔺 Вышла GPT-4!
🔸 Модель мультимодальная (accepting image and text inputs, emitting text outputs).
🔸 В течение 6 месяцев выравнивали модель инструкциями для лучшего вывода.
🔸 Подписчики ChatGPT Plus получат ограниченный доступ к GPT-4.
🔸 Для получения доступа к API нужно добавиться в waitlist.
🔸 Контекст модели 8,192 токенов.
🔸 Есть версия с контекстом 32,768 токенов (50 страниц текста).
🔸 Цена $0.06 за тыс. токенов.
👉 Пост
🔺 Обучаем RLHF с 20B моделью на домашней видеокарте
Очередная интеграция библиотек от huggingface 🤗. На этот раз скрестили peft и trl.
При помощи trl можно, собственно, обучать сами модели в распределенном сетапе или на одной GPU. При помощи peft можно из коробки пользоваться оптимизациями для обучения больших LM, типа LoRA.
Авторы показывают как обучали gpt-neo-x (40Gb в fp16) на 3090 с 24Gb пямяти. Новые оптимизации добавляются.
👉 Примеры
🔺 ChatGPT на коленке
Появился интересный репозиторий под названием ChatLLaMA. Авторы собрали пайплайн для тренировки персонализированного ChatGPT-like ассистента на основе открытых моделей (базовая модель + reward + RLHF). Человеческая оценка происходит тоже через модели — либо платно через API к OpenAI, либо моделью с huggingface.
В примере из репы после подготовки данных все делается в три команды.
👉 GitHub
🔺 Новый Bing
Давайте посмотрим на то, как у Microsoft получается встраивать ChatGPT в свою поисковую систему. Как раз дали доступ к новому режиму, так что можно поиграться.
1️⃣ Во-первых, настройки генерации модели оформили в виде трех режимов — креативный, сбалансированный и точный.
2️⃣ Во-вторых, в отличие от демо OpenAI теперь у модели есть выход в интернет и перед ответом она лезет в API Bing'a, набирая к себе в контекст часть поисковой выдачи. Вот тут можно подробнее почитать про подход WebGPT. Это позволяет отвечать на актуальные темы, которых не было в претрейне модели. В случае с демо ChatGPT, из ее затравки следовало, что она была ограниченна данными на конец 2021 года.
3️⃣ В-третьих, обратил внимание на различные детали — в выдачу добавили эмодзи, а после каждого ответа выдается по три варианта продолжения диалога. Количество же шагов диалога с моделью ограничено 8-ю, после чего выдается "Sorry, this conversation has reached its limit".
〰️ Кроме того, в отличие от последнего демо ChatGPT иногда идут довольно душные ответы, типа на "сочини оду про что-то" модель может ответить
"ода должна восхвалять что-то, а то, о чем вы спрашиваете этого не заслуживает" 😁Читать полностью…
GPT теперь принимает на вход эмбеддинги
Наконец! В transformers
добавлена поддержка эмбеддингов в качестве инпута для полноценной генерации в GPT-like моделях.
За последние годы вышло много работ, которые предлагают использовать этот механизм для таких штук как мультимодальный диалог и p-tuning, но приходилось сильно извращаться чтобы совместить эти подходы с генерацией текста. А теперь это можно сделать в одну строчку! Cоединять текст, картинки и звук теперь будет ещё проще!
Поддержка уже есть для GPT-2, GPT-j, BLOOM, BioGPT, но надо будет установить версию 4.27.0
.
GitHub