- hfday.ru - lingtra.in - prince.lingtrain.ru - http://superminor.ru - https://habr.com/ru/users/averkij/
🔺 Datafest
На идущем сейчас Datafest'е завершилась секция Instruct models. Особенно полезные доклады, на мой взгляд, были про RLHF от Игоря Котенкова и Сайгу от Ильи Гусева.
Получаствовал даже Янник Килчер, немного рассказав про GigaChat. Ссылки на видео скоро появятся, ждём.
Было приятно пообщаться с всеми участниками, спасибо организаторам!
👉 P.S. Datafest продолжается. Программа | Канал
Всем продуктивной недели. Не обижайте языковые модели, они наши друзья.
Читать полностью…🔺 AI в ИБ
Сходил тут на PHDays и познакомился Сашей Мурзиной, которая руководит ML командами в Positive Technologies. Понял, что ML у безопасников — это какой-то свой мир, с задачами по обнаружению аномалий в данных и анализе инцидентов, с атаками на биометрию и соответствующим research'ем.
Еще послушал пару довольно интересных докладов из AI-трека, записи уже можно посмотреть:
🔸 Prompt Injection и все-все-все. Как лучше дизраптить LLM'ки.
🔸 Атаки на распознавание живого присутствия. Прикольный шпионский доклад с криповым реквизитом.
👉 Еще Саша поделилась страничкой про свою команду, там можно узнать про основные направления ML в сфере ИБ, если у кого-то к этому лежит душа.
🔺У ChatGPT появился интернет
Сегодня начали включать режим веб-браузинга, а скоро обещают включать и плагины.
Если у вас есть подписка plus, то попробуйте зайти в настройки и включить beta-функционал (а может быть у вас уже есть и плагины).
Google Bard ("аналог" ChatGPT) заработал для всех. Потыкал его и, если смотреть на вещи позитивно, то
🔸 Можно задать ему вопрос, а он выдаст ответ.
🔸 Можно прокачивать японский и корейский языки, так как только их он поддерживает кроме английского.
🔸 Есть тёмная тема.
Друзья, за последние пару дней к нам присоединилось множество людей — примерно ⭐🍒🔸; и нас стало уже 🔺🦾🔸, если использовать письмо майя (все-таки май на дворе). Причиной тому стала папка со списком ресурсов про машинное обучение и технологии, в которой нашему каналу повезло находиться.
Для всех, кто имел неосторожность оставить уведомления включенными, хочу подсветить, что мы тут обсуждаем и чем делимся.
🔸 Меня зовут Сергей, тут пишу про практические аспекты машинного обучения, преимущественно связанного с языком (NLP). Про новинки и казусы ИИ. Иногда делаю подборки учебных материалов по теме. Иногда пишу про хобби, книжки и отпуск, но редко.
🔸 Про работу. Сейчас участвую в проекте по созданию GigaChat. Это весело. Сам я перешел в ML из разработки бэкенда, так что могу что-то подсказать и на эту тему (на тему перехода, потому что про бэкенд я все забыл).
🔸 Про иностранные языки. Люблю их и хочу помочь всем, кто занимается их изучением, а также самим языкам в их развитии (особенно малоресурсным). Для этого занимаюсь на досуге проектом Lingtrain. Проект открытый (github), при помощи него можно делать параллельные книги и извлекать параллельные корпуса, обсуждаем тут.
🔸 Для тех, кто хочет лично общаться про ML с людьми из сообщества, есть бот @neludim_bot, который сделал Саша Кукушкин. Я там тоже участвую, буквально на днях классно пообщались с Игорем из AliExpress.
Тем в области ИИ очень много, как и каналов их освещающих. Поэтому вот вам еще подборки (если не открывается, значит нужно обновить телеграм):
/channel/addlist/Tv2X-9ht0ck1ZTUy
/channel/addlist/Em6ObpOZEhJiZmUy
🔸 Люди у нас в канале собрались дружелюбные, поэтому общение и знакомство только приветствуется. Как у вас дела?
🔺 Начал собирать русско-бурятский корпус
🔸 Завел аккаунт Lingtrain на huggingface 🤗, так что там можно будет наблюдать прогресс и там же будет находиться датасет. Там же со временем будут все датасеты.
🔸 Настроил чистку и конвертацию части юридических документов, которые мне передали (из doc в txt). Та еще задачка, так как там много табличек и шаблонных строк.
🔸 Повыравнивал их Lingtrain'ом, тоже скриптами. Лексика там простая, выравание прошло легко. Для книг придется что-то придумывать.
🔸 Написал скрипты сборке и выгрузке датасета.
Дальше выровняю остальные документы, добавлю дедупликацию. Затем перейдем к книгам, для этого попробую дообучить LaBSE на монгольском. Также подниму бота (Айгиз, поделись кодом 😀), для валидации результатов, когда будет побольше данных.
В общем, начало положено. Все фиксирую, чтобы было полезно в будущем, — выложу в отдельный репозиторий.
Корпус
Поигрался с нашей моделью, поговорил с Джинном, Терминатором и другими персонажами. Из контекста пока иногда выбивается, но в целом диалог работает. Можно будет использовать для каких-нибудь ролевых игр.
#gigachat
Хожу по Эрмитажу и считаю пальцы на руках. Попутно убеждаюсь, что настоящих художников ИИ никогда не заменит.
Читать полностью…🔺 Это GigaChat
Друзья, несколько месяцев мы экспериментировали с инструктивным обучением и потихоньку начинаем делиться нашими наработками в области ChatGPT-подобных моделей.
🔸 Сегодня мы хотим анонсировать наше творение, которое было решено назвать GigaChat, а модели в его основе — NeONKA.
🔸 Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).
🔸 В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).
🔸 Детали "Неонки" мы будем потихоньку выкладывать в открытый доступ, чтобы сообщество могло самостоятельно тренировать подобные модели.
👉 Хабр
Open Assistant уже хорошо умеет на английском, на русском средненько. Датасет инструкций мультиязычный, русского там сейчас 9.6%. Можно помогать с разметкой.
Демо, веса.
#chatgpt
Пришла в голову странная идея, —переобучить сеть на книге, чтобы затем её суммаризовать. Можно попробовать подавать текст по главам, чтобы как-то учесть временную составляющую. Что думаете?
#идеидляризёрча
Хотел написать про то, что ко мне обратились с просьбой помочь бурятскому языку и мы уже попробовали Lingtrain на нескольких документах.
Но пока времени нет, вот вам картинка про ChatGPT.
Slovo — новый датасет для распознавания Русского Жестового Языка (РЖЯ) 🧏♂️🧏♀️
Один из проектов нашей команды — распознавания РЖЯ 🦻, в связи с чем собрали самый большой датасет (150 000 видео и 3 000 классов) для решения этой задачи. Часть данных мы готовы опубликовать сейчас и назвали её Slovo 🫶, выкладываем в Open-Source и делимся с комьюнити.
Вчера вышла наша статья на arXiv 📄, а сегодня на Habr мы подробнее расскажем о проблематике РЖЯ, пайплайне сбора и разметки данных, а также про обучение моделей на датасете Slovo! Датасет и веса моделей можно скачать по ссылкам из Github и Kaggle. 💪
Основные проблемы и вызовы в задаче РЖЯ:
- Аудитория по разным оценкам от 400 тыс. до 2 млн,
- Около 500 различных диалектов только в России,
- Отдельная обработка для составных слов и дактиля,
- Поиск целевой аудитории и экспертов очень затруднен.
Кратко об опубликованной части датасета:
👾 20.000 HD+ видео (65% датасета FullHD)
👩💼 194 эксперта РЖЯ
💪 самый разнородный по субъектам открытый датасет РЖЯ
🕗 время записи "жестов" - 9.2 часа
🖇 датасет представлен в нескольких вариантах для удобства использования
⚙️ размечен по началу, концу жестовых событий и авто-размечен через MediaPipe
👥 для сбора и разметки использовали 2 краудсорсинг платформы (Толоку и АБК Элементари)
Авторы: @hukenovs, @karinakv, @nagadit, @lizaforlizard
Отдельная благодарность нашим дата-инженерам: @AlexS_340, @your_petros
Очень надеемся привлечь разработчиков и экспертов-носителей РЖЯ к большой социальной проблеме коммуникации между слабослышащими людьми и людьми без дефектов слуха и речи.
Будем рады любой обратной связи! ❤️
#release
🔺 State of GPT
Андрей Карпати не выдержал и начал нести знание про обучение ChatGPT-подобных моделей в массы.
В своем докладе Андрей объясняет все основные моменты, от языковых моделей и токенизации до RLHF.
Upd.
🔸 Почему RLHF лучше чем SFT? Потому что выбирать проще чем генерировать. Дает пример с написанием трех хокку про скрепку и выбором лучшего из них.
🔸 CoT. Модели нужны токены, что подумать.
Если постараться размазать ответ модели на более длинную последовательность токенов, то результат получится лучше, чем просто ожидать от нее точный ответ в одном токене.
👉 Видео
Я понял, это просто тренажер такой для дизрапта LM’ок. Наверняка там где-то рейтинг есть и баллы начисляются. #yagpt
Читать полностью…Коллеги из Яндекса выкатывают свой аналог ChatGPT. Попробовал его и иногда оно отвечает довольно неплохо, но пока не держит контекст разговора и обложена-переложена фильтрами чувствительных слов.
Кажется, что такой подход только подстрекает людей на то, чтобы такие фильтры обходить и это всегда будет получаться, как и с любой другой моделью.
В любом случае, удачи им в этом начинании. Надеюсь, что-то удастся передать в open source и поделиться деталями с сообществом.
🔺 Transformers Agent
В только вышедшей версии transformers (4.29.0) добавили новый способ вызова моделей — через запрос на естественном языке.
🔸 Для выполнения задачи нужно создать агента, который сам решит какую из моделей нужно вызвать в данный момент. Например,
agent.run("Caption the following image", image=image)или
agent.run("Read the following text out loud", text=text)🔸 Работать можно в режиме одного независимого вызова (метод run()), или в режиме чата (chat()), чтобы иметь контекст.
Чистил датасетик с Fidonet чатами, подчерпнул много народной мудрости.
В Pile, кстати, есть адский датасет Ubuntu IRC для улучшения качества болталки. Чатики там, правда, слиты в длиннющие документы на сотни тысяч символов.
🔺 StarCoder
Upd. Закрыли Issue с неправильной вставкой
Друзья, новая открытая модель, помогающая писать код.
Поставить в VS Code
🔸 Установить плагин HF Code Autocomplete
🔸 F1 → Hugging Face Code: Set API token. Вставить свой токен отсюда.
Что это?
Это модель от BigCode и ServiceNow, которую натренировали на датасете The Stack (более 80 языков программирования) и тематических данных типа ответов со StackExchange (поэтому ей также можно задавать вопросы типа "что такое лямбда функция?").
Как вы понимаете, проект полностью открытый, так что есть:
🔸 Репозиторий с примерами файнтюна модели, поднятия своего сервиса автодополнений и обычного инференса.
🔸 Модель на 15B параметров. Контекст у модели 8k токенов, тренировалась на 1T токенов.
🔸 NER модель для извлечения пользовательских данных из кода (имена, пароли, явки).
🔸 Ну и куда же без чата с моделью.
При использовании через расширение могут быть ошибки, у меня вставляет генерацию как-то с середины, об этом зарепортил. Также по ощущениям работает похуже чем текущий Copilot, но тоже на уровне. Очень круто для открытой модели, ждём развития.
Послушал лекцию про андеграундную ленинградскую поэзию в музее Полторы комнаты.
🔸 В советское время было ограниченное число «вакансий» для авторов разных жанров стихов, которых печатали. Например, было по одной «вакансии» верлибриста на Москву и Питер.
🔸 Узнал много новых имен: Сергей Стратановский, Олег Григорьев, Евгения Шварц. Стихи сильные, необычные, а где-то смешные.Сказал я девушке кротко:
— Простите за нетактичность,
Но бюст ваш, и торс, и походка
Напомнили мне античность.
Она в ответ мне со вздохом:
— Простите, но ваше сложение
Напомнило мне эпоху
Упадка и разложения.
Олег Григорьев
Сейчас в Питере светофор сказал мне: «Заканчивай переход». «Хватит командовать мной, глупый робот», — ответил я ему.
#сингулярность
🔺 Помощь языкам
〰️ Бурятский
Помогаем сейчас бурятскому языку. Повыравнивал несколько официальных документов на русском и бурятском и с ними неплохо, так как там перевод почти один к одному. А вот хужожественная литература пока не очень, потому что в LaBSE не было бурятского, а родственный монгольский был в слишком малых количествах.
Тут попробуем дообучить LaBSE на монгольском, так как, кажется, что в сети должны быть русско-монгольские корпуса (киньте, если найдете что-то подобное).
Если кто-то хочет помочь, то присоединяйтесь. Ко мне обратился Тимур Батуров, который сможет рассказать как носитель, какая у него мотивация.
👉 Upd. Завел группу для бурятского.
〰️ Санскрит
Также есть целое сообщество людей, которые занимаются санскритом и пользуются для этого Lingtrain'ом. Язык древний, с письменностью деванагари, очень интересно.
Ребята очень активные, даже выкатили целую презентацию с доработками и пожеланиями для Lingtrain. Часть уже сделал, так что скоро обновлю версию.
Для санскрита делал инструкцию по выравниванию, так что, если кто-то интересуется языком и хочет помочь, то тоже не стесняйтесь, пишите.
👉 Инструкция
🔺 SAM. Сегментируем всё
Поигрался с демо новой модели для сегментации изображений от Meta. Это, конечно, надо попробовать каждому.
🔸 Умеет сегментировать по текстовому описанию ("выдели человека в очках"). В том числе выделение объектов, на которых модель не обучалась.
🔸 Выделение по ключевым точкам и маске.
🔸 Может выдавать границы (bounding box'ы) вокруг всех объектов по запросу.
🔸 Размер 636M параметров. Обучали 3-5 дней на 256 A100.
🔸 Модель открытая (Apache 2.0).
👉 Демо | GitHub | Датасет
🔺 Выложили FRED-T5
Еще один подарок от коллег, — на huggingface 🤗 выложили веса новой языковой модели, которая показывает SOTA на RussianSuperGlue.
Обучали, используя денойзеры из статьи UL2 от Google, с несколькими улучшениями.
👉 P.S. Ребята делают много крутого в NLP и PLP. Рассказывают про свою работу здесь.
👉 1.7B | 820M | Детали обучения
Упомянули сейчас в спортзале ChatGPT. Подходит здоровенный качок и спрашивает: "Правда, что у нее есть свое мнение по всем вопросам и что она уже по сути как живой человек?"
#сингулярность
🔺 Kandinsky 2.1 в открытом доступе
Большая радость от коллег, — ребята улучшили модель для генерации картинок по тексту и выложили все в открытый доступ!
🔸 Поигрался с генерацией, стало на порядок лучше предыдущих версий. Кроме того, появился режим смешивания изображений друг с другом, а также текста с картинкой.
👉 Хабр | Huggingface | GitHub | Телеграм-бот