Друзья, за последние пару дней к нам присоединилось множество людей — примерно ⭐🍒🔸; и нас стало уже 🔺🦾🔸, если использовать письмо майя (все-таки май на дворе). Причиной тому стала папка со списком ресурсов про машинное обучение и технологии, в которой нашему каналу повезло находиться.
Для всех, кто имел неосторожность оставить уведомления включенными, хочу подсветить, что мы тут обсуждаем и чем делимся.
🔸 Меня зовут Сергей, тут пишу про практические аспекты машинного обучения, преимущественно связанного с языком (NLP). Про новинки и казусы ИИ. Иногда делаю подборки учебных материалов по теме. Иногда пишу про хобби, книжки и отпуск, но редко.
🔸 Про работу. Сейчас участвую в проекте по созданию GigaChat. Это весело. Сам я перешел в ML из разработки бэкенда, так что могу что-то подсказать и на эту тему (на тему перехода, потому что про бэкенд я все забыл).
🔸 Про иностранные языки. Люблю их и хочу помочь всем, кто занимается их изучением, а также самим языкам в их развитии (особенно малоресурсным). Для этого занимаюсь на досуге проектом Lingtrain. Проект открытый (github), при помощи него можно делать параллельные книги и извлекать параллельные корпуса, обсуждаем тут.
🔸 Для тех, кто хочет лично общаться про ML с людьми из сообщества, есть бот @neludim_bot, который сделал Саша Кукушкин. Я там тоже участвую, буквально на днях классно пообщались с Игорем из AliExpress.
Тем в области ИИ очень много, как и каналов их освещающих. Поэтому вот вам еще подборки (если не открывается, значит нужно обновить телеграм):
/channel/addlist/Tv2X-9ht0ck1ZTUy
/channel/addlist/Em6ObpOZEhJiZmUy
🔸 Люди у нас в канале собрались дружелюбные, поэтому общение и знакомство только приветствуется. Как у вас дела?
🔺 Начал собирать русско-бурятский корпус
🔸 Завел аккаунт Lingtrain на huggingface 🤗, так что там можно будет наблюдать прогресс и там же будет находиться датасет. Там же со временем будут все датасеты.
🔸 Настроил чистку и конвертацию части юридических документов, которые мне передали (из doc в txt). Та еще задачка, так как там много табличек и шаблонных строк.
🔸 Повыравнивал их Lingtrain'ом, тоже скриптами. Лексика там простая, выравание прошло легко. Для книг придется что-то придумывать.
🔸 Написал скрипты сборке и выгрузке датасета.
Дальше выровняю остальные документы, добавлю дедупликацию. Затем перейдем к книгам, для этого попробую дообучить LaBSE на монгольском. Также подниму бота (Айгиз, поделись кодом 😀), для валидации результатов, когда будет побольше данных.
В общем, начало положено. Все фиксирую, чтобы было полезно в будущем, — выложу в отдельный репозиторий.
Корпус
Поигрался с нашей моделью, поговорил с Джинном, Терминатором и другими персонажами. Из контекста пока иногда выбивается, но в целом диалог работает. Можно будет использовать для каких-нибудь ролевых игр.
#gigachat
Хожу по Эрмитажу и считаю пальцы на руках. Попутно убеждаюсь, что настоящих художников ИИ никогда не заменит.
Читать полностью…🔺 Это GigaChat
Друзья, несколько месяцев мы экспериментировали с инструктивным обучением и потихоньку начинаем делиться нашими наработками в области ChatGPT-подобных моделей.
🔸 Сегодня мы хотим анонсировать наше творение, которое было решено назвать GigaChat, а модели в его основе — NeONKA.
🔸 Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).
🔸 В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).
🔸 Детали "Неонки" мы будем потихоньку выкладывать в открытый доступ, чтобы сообщество могло самостоятельно тренировать подобные модели.
👉 Хабр
Open Assistant уже хорошо умеет на английском, на русском средненько. Датасет инструкций мультиязычный, русского там сейчас 9.6%. Можно помогать с разметкой.
Демо, веса.
#chatgpt
Пришла в голову странная идея, —переобучить сеть на книге, чтобы затем её суммаризовать. Можно попробовать подавать текст по главам, чтобы как-то учесть временную составляющую. Что думаете?
#идеидляризёрча
Хотел написать про то, что ко мне обратились с просьбой помочь бурятскому языку и мы уже попробовали Lingtrain на нескольких документах.
Но пока времени нет, вот вам картинка про ChatGPT.
🔺 Transformer models: an introduction and catalog
Если путаетесь в обилии трансформерных моделей, то вот вам обзор.
🔸 Для каждой модели есть описание, отражающее её суть. Например, ALBERT — это сжатая версия BERT'а, использующая sharing весов.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.
👉 Читать | Таблица с моделями
Обнаружил, что GitHub Copilot раздают бесплатно, если у вас есть пара проектов со звездочками, проверьте у себя в профиле.
Сейчас потестим
👉 Upd. Попробуйте зайти со страницы Copilot X и получить доступ там. После этого должно появиться в профиле.
🔺 Bing Image Creator
Bing начинает встраивать в свой чат генерацию картинок через DALL-E. В чате функционал появляется постепенно, но всем уже доступна генерация на их портале.
Для быстрых генераций дается 10 попыток (по 4 варианта картинки), затем идет медленней.
Сгенерил вам пару Фёрби.
🔺 Указатель сюжетов + GPT
Наткнулся на любопытную книжку "Указатель сказочных сюжетов по системе Аарне". 1929 год, есть на русском.
Собраны типичные фольклорные сюжеты, всего около 2000 тысяч по типу:
Медведь валит рябину для старухи — матери лисы. Лиса сама съедает ягоды.
Любовь к трем апельсинам: герой получает три апельсина и т. п., из которых выходят девушки; две девушки умирают от жажды, третья становится невестой героя; злая противница сталкивает девушку в воду и сама занимает ее место; в конце концов все выясняется.
👉 Можно использовать как затравки для генеративных моделей, — добавляем место действия, детали и новая история готова.
Чистил датасетик с Fidonet чатами, подчерпнул много народной мудрости.
В Pile, кстати, есть адский датасет Ubuntu IRC для улучшения качества болталки. Чатики там, правда, слиты в длиннющие документы на сотни тысяч символов.
🔺 StarCoder
Upd. Закрыли Issue с неправильной вставкой
Друзья, новая открытая модель, помогающая писать код.
Поставить в VS Code
🔸 Установить плагин HF Code Autocomplete
🔸 F1 → Hugging Face Code: Set API token. Вставить свой токен отсюда.
Что это?
Это модель от BigCode и ServiceNow, которую натренировали на датасете The Stack (более 80 языков программирования) и тематических данных типа ответов со StackExchange (поэтому ей также можно задавать вопросы типа "что такое лямбда функция?").
Как вы понимаете, проект полностью открытый, так что есть:
🔸 Репозиторий с примерами файнтюна модели, поднятия своего сервиса автодополнений и обычного инференса.
🔸 Модель на 15B параметров. Контекст у модели 8k токенов, тренировалась на 1T токенов.
🔸 NER модель для извлечения пользовательских данных из кода (имена, пароли, явки).
🔸 Ну и куда же без чата с моделью.
При использовании через расширение могут быть ошибки, у меня вставляет генерацию как-то с середины, об этом зарепортил. Также по ощущениям работает похуже чем текущий Copilot, но тоже на уровне. Очень круто для открытой модели, ждём развития.
Послушал лекцию про андеграундную ленинградскую поэзию в музее Полторы комнаты.
🔸 В советское время было ограниченное число «вакансий» для авторов разных жанров стихов, которых печатали. Например, было по одной «вакансии» верлибриста на Москву и Питер.
🔸 Узнал много новых имен: Сергей Стратановский, Олег Григорьев, Евгения Шварц. Стихи сильные, необычные, а где-то смешные.Сказал я девушке кротко:
— Простите за нетактичность,
Но бюст ваш, и торс, и походка
Напомнили мне античность.
Она в ответ мне со вздохом:
— Простите, но ваше сложение
Напомнило мне эпоху
Упадка и разложения.
Олег Григорьев
Сейчас в Питере светофор сказал мне: «Заканчивай переход». «Хватит командовать мной, глупый робот», — ответил я ему.
#сингулярность
🔺 Помощь языкам
〰️ Бурятский
Помогаем сейчас бурятскому языку. Повыравнивал несколько официальных документов на русском и бурятском и с ними неплохо, так как там перевод почти один к одному. А вот хужожественная литература пока не очень, потому что в LaBSE не было бурятского, а родственный монгольский был в слишком малых количествах.
Тут попробуем дообучить LaBSE на монгольском, так как, кажется, что в сети должны быть русско-монгольские корпуса (киньте, если найдете что-то подобное).
Если кто-то хочет помочь, то присоединяйтесь. Ко мне обратился Тимур Батуров, который сможет рассказать как носитель, какая у него мотивация.
👉 Upd. Завел группу для бурятского.
〰️ Санскрит
Также есть целое сообщество людей, которые занимаются санскритом и пользуются для этого Lingtrain'ом. Язык древний, с письменностью деванагари, очень интересно.
Ребята очень активные, даже выкатили целую презентацию с доработками и пожеланиями для Lingtrain. Часть уже сделал, так что скоро обновлю версию.
Для санскрита делал инструкцию по выравниванию, так что, если кто-то интересуется языком и хочет помочь, то тоже не стесняйтесь, пишите.
👉 Инструкция
🔺 SAM. Сегментируем всё
Поигрался с демо новой модели для сегментации изображений от Meta. Это, конечно, надо попробовать каждому.
🔸 Умеет сегментировать по текстовому описанию ("выдели человека в очках"). В том числе выделение объектов, на которых модель не обучалась.
🔸 Выделение по ключевым точкам и маске.
🔸 Может выдавать границы (bounding box'ы) вокруг всех объектов по запросу.
🔸 Размер 636M параметров. Обучали 3-5 дней на 256 A100.
🔸 Модель открытая (Apache 2.0).
👉 Демо | GitHub | Датасет
🔺 Выложили FRED-T5
Еще один подарок от коллег, — на huggingface 🤗 выложили веса новой языковой модели, которая показывает SOTA на RussianSuperGlue.
Обучали, используя денойзеры из статьи UL2 от Google, с несколькими улучшениями.
👉 P.S. Ребята делают много крутого в NLP и PLP. Рассказывают про свою работу здесь.
👉 1.7B | 820M | Детали обучения
Упомянули сейчас в спортзале ChatGPT. Подходит здоровенный качок и спрашивает: "Правда, что у нее есть свое мнение по всем вопросам и что она уже по сути как живой человек?"
#сингулярность
🔺 Kandinsky 2.1 в открытом доступе
Большая радость от коллег, — ребята улучшили модель для генерации картинок по тексту и выложили все в открытый доступ!
🔸 Поигрался с генерацией, стало на порядок лучше предыдущих версий. Кроме того, появился режим смешивания изображений друг с другом, а также текста с картинкой.
👉 Хабр | Huggingface | GitHub | Телеграм-бот
🔺 Запущен российский huggingface
Ничего себе. Оказывается, что сегодня запускается российский аналог huggingface 🤗.
Пишут, что можно будет хостить все свои модели с пожизненным GPU инференсом.
👉 https://лицосруками.рф
@doomgrad
🔺 Продолжаем с коллегами работать над моделью.
Начала лучше генерировать диалоги, электронные письма и другие творческие задачи.
мяу мяу мяу
🔺 Новости недели #ml_news
🔸 Обрусевшая Альпака. Сообщество активно взялось за создание аналога ChatGPT для русского языка и повторяет подход Stanford Alpaca. Уже собран датасет с инструкциями. Ведется его валидация через бота — @InstructAnnotBot. Проверка каждого примера двигает процесс вперед, так что подключайтесь! (Советы по проверке здесь).
🔸 PANGU-Σ. Huawei натренировали языковую модель на 1.085T параметров. Сделали все на своем кластере из Ascend 910 и фреймворке MindSpore. Тестили год назад с коллегами такой сетап на одной карте, и либо он был сырой, либо руки кривые, но смогли завести только пару простых CV сеток. Видимо, MindSpore — убийца PyTorch (в Китае).
🔸 Плагины для ChatGPT. На волне успеха OpenAI реализовала альфа-версию механизма плагинов. Разработчики из waitlist'а могут начинать действовать, есть документация.
🔸 Файнтюним LLaMA. Репозиторий Simple LLaMA Finetuner для простого дообучения 7B модели через LoRA. С небольшим датасетом и длинной контекста 256 заведется даже в Colab'е. Напоминаю, что токенизация для русского в LLaMA практически посимвольная, так что контекст поместится небольшой.
🔸 Nvidia GTC. Прошла ежегодная конференция от Nvidia. Вот keynote с его главой Хуангом. Анонсировали видеокарту H100 NVL на 192 GB (!).
🔺 Партийная ChatGPT
Собрал небольшой colab с вышедшей на днях открытой китайской версией ChatGPT — 🇨🇳 ChatGLM 6B.
🔸 Сделали те же люди из Tshinghua University, что ранее выкладывали CogView — генерацию видео по тексту.
🔸 Работает на удивление неплохо — решает творческие задачи на написание текстов и email'ов, составление списков чего-либо. Можно передавать историю чата и вести с ней общение.
🔸 Выдает длинные ответы.
🔸 Обучалась на китайском, соответственно передать в нее что-то специфическое будет трудно.
🔸 Как собрать бомбу или коктейль Молотова не отвечает, китайские коллеги все-таки решили выровнять ее в этическом плане (надо тестить дальше).
🔸 Для английского тоже работает, иногда вставляя в текст слова на китайском. Добавил в колаб автоперевод с китайского на русский.
〰️ Как тренировали?
Пропустили через нее 1T токенов (прямо как в LLaMA). За основу взяли свой же претрейн GLM, дообучили на инструкциях, затем RLHF. Контекст 2048 токенов.
Квантованная версия занимает 6Gb памяти, вместо ~26Gb в fp32, так что можно поиграться в бесплатном colab'е.
👉 Colab | Huggingface | GitHub
☀️ Надо чаще встречаться
Встретились с Сашей Кукушкиным, автором той самой библиотеки natasha, которой пользовался каждый интересующийся NLP.
Обсудили все самое важное (бег в зимнее время года, полумарафоны и ChatGPT).
👉 Встретились в формате random coffee через бота Нелюдим — @neludim_bot.
Частенько там встречаюсь с интересными людьми из сообщества. Рекомендую и вам, буду рад, если повезет пообщаться с кем-то из читателей!
💃Уже скоро будет релиз модели Kandinsky 2.1!
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту🤔
2) Смешивать картинки⌛️
3) Смешивать картинки и тексты🃏
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)