🔺 Обновление Lingtrain
Дошли руки собрать и выложить новую версию. В нее вошли обновления, которые очень сильно помогают при выравнивании параллельного «Маленького Принца» на малых языках. Собственно, пришлось сделать такие штуки, чтобы успевать хоть что-то выровнять :)
Разбиение конфликтов
Система работает так, что на основе эмбеддингов подбирает наиболее вероятные соответствия между предложениями на разных языках. Между такими цепочками остаются разрывы (конфликты, пара цепочек на двух языках, между которыми надо сделать соответствия), которые выраниваются на втором этапе. На третьем этапе остаются самые длинные конфликты, которые надо править руками, либо уменьшать до приемлемого размера в редакторе.
Теперь можно, смотря на конфликт визуально, выбрать пару совпадений и «сшить» разрыв в этом месте. Благо, что пунктуация, длина предложений и имена собственные играют тут роль подсказок и помогают эти соответствия найти. Таким образом можно разбить длинный конфликт из 50 пар предложений на 5-10 штук по-меньше, заодно улучшив качество выравнивания, и разрешить их автоматически.
Docker
Образы для локального запуска:
• lingtrain/studio:v9.0 (50+ языков)
• lingtrain/studio:v9.0-labse (100+ языков)
• lingtrain/studio:v9.0-tiny (ru-en)
Запускается все как раньше (инструкция).
Beta
На beta.lingtra.in завтра подниму tiny версию, которая работает на модели rubert-tiny2 от Давида. Можно будет попробовать для выравнивания русских и английских текстов.
👉 GitHub
#language_facts
Разбираю старые научно-полуярные книжки по лингвистике, поэтому вот вам пара забавных фактов про языки и восприятие цвета.
🔸 Синие светофоры в Японии
В Японии часто можно встретить светофоры, в которых привычный нам зелёный сигнал будет с оттенком синего. Связано это с тем, что оттенки синего и зелёного цветов в японском языке раньше обозначались одним словом ао (青, あお). И когда в 1930-е годы в Японию были импортированы первые светофоры, зелёный свет на них назывался aoshingō (青信号, あおしんごう).
Со временем, слово ao стало обозначать "синий", а значение "зелёный" сохранилось только относительно зелени и овощей — зелёные яблоки и сейчас это "ao ringo", а непосредственно зелёный цвет стал обозначаться словом midori ( 緑, みどり). Чтобы не переименовывать разрешающий сигнал в midori shingō ("зеленый сигнал"), 1973 году японцы подогнали реальность под язык и сделали светофоры более синими.
🔸 Синий и голубой
В 2008 году в Стенфорде провели следующий эксперимент. Испытуемым предлагалось три квадрата в сине-голубой гамме (как на картинке) и нужно было определить, какой из двух нижних квадратов того же цвета, что и верхний. Замеряли время ответа, о чём, для чистоты эксперимента, испытуемым не сообщали.
Интересным оказался результат для носителей русского языка. Когда верхний квадрат был на границе синего и голубого цветов, но ближе к синему, а нижний неправильный квадрат был на пару оттенков ближе к голубому, то время ответа было существенно меньше чем то же задание, сдвинутое в чисто синюю или чисто голубую гамму. У носителей английского такого эффекта не наблюдалось. Этот эффект связали с тем, что в русском языке это отдельные цвета, а в английском оба обозначаются словом blue.
Таким образом, восприятие мира во многом связано с языком и культурой, в которой мы живем. И вообще я задумался, представляем ли мы в своей голове один и тот же цвет, когда говорим, что небо синее, а трава зеленая?
🔺 StyleDrop
Помните крутую сетку для генерации изображений MUSE от Google, которую нельзя нигде потрогать?
Так вот на днях авторы дообучили её на перенос стилей и говорят, что это лучше чем StableDiffusion+DreamBooth или Imagen.
Весов и модели снова нет, только статья и примеры. В статье однако есть ссылка на Colab с SD+textual inversion finetuning, который дает схожий по смыслу результат.
👉 Статья | Сайт
🔺 Datafest
На идущем сейчас Datafest'е завершилась секция Instruct models. Особенно полезные доклады, на мой взгляд, были про RLHF от Игоря Котенкова и Сайгу от Ильи Гусева.
Получаствовал даже Янник Килчер, немного рассказав про GigaChat. Ссылки на видео скоро появятся, ждём.
Было приятно пообщаться с всеми участниками, спасибо организаторам!
👉 P.S. Datafest продолжается. Программа | Канал
🔺 AI в ИБ
Сходил тут на PHDays и познакомился Сашей Мурзиной, которая руководит ML командами в Positive Technologies. Понял, что ML у безопасников — это какой-то свой мир, с задачами по обнаружению аномалий в данных и анализе инцидентов, с атаками на биометрию и соответствующим research'ем.
Еще послушал пару довольно интересных докладов из AI-трека, записи уже можно посмотреть:
🔸 Prompt Injection и все-все-все. Как лучше дизраптить LLM'ки.
🔸 Атаки на распознавание живого присутствия. Прикольный шпионский доклад с криповым реквизитом.
👉 Еще Саша поделилась страничкой про свою команду, там можно узнать про основные направления ML в сфере ИБ, если у кого-то к этому лежит душа.
🔺У ChatGPT появился интернет
Сегодня начали включать режим веб-браузинга, а скоро обещают включать и плагины.
Если у вас есть подписка plus, то попробуйте зайти в настройки и включить beta-функционал (а может быть у вас уже есть и плагины).
Google Bard ("аналог" ChatGPT) заработал для всех. Потыкал его и, если смотреть на вещи позитивно, то
🔸 Можно задать ему вопрос, а он выдаст ответ.
🔸 Можно прокачивать японский и корейский языки, так как только их он поддерживает кроме английского.
🔸 Есть тёмная тема.
Друзья, за последние пару дней к нам присоединилось множество людей — примерно ⭐🍒🔸; и нас стало уже 🔺🦾🔸, если использовать письмо майя (все-таки май на дворе). Причиной тому стала папка со списком ресурсов про машинное обучение и технологии, в которой нашему каналу повезло находиться.
Для всех, кто имел неосторожность оставить уведомления включенными, хочу подсветить, что мы тут обсуждаем и чем делимся.
🔸 Меня зовут Сергей, тут пишу про практические аспекты машинного обучения, преимущественно связанного с языком (NLP). Про новинки и казусы ИИ. Иногда делаю подборки учебных материалов по теме. Иногда пишу про хобби, книжки и отпуск, но редко.
🔸 Про работу. Сейчас участвую в проекте по созданию GigaChat. Это весело. Сам я перешел в ML из разработки бэкенда, так что могу что-то подсказать и на эту тему (на тему перехода, потому что про бэкенд я все забыл).
🔸 Про иностранные языки. Люблю их и хочу помочь всем, кто занимается их изучением, а также самим языкам в их развитии (особенно малоресурсным). Для этого занимаюсь на досуге проектом Lingtrain. Проект открытый (github), при помощи него можно делать параллельные книги и извлекать параллельные корпуса, обсуждаем тут.
🔸 Для тех, кто хочет лично общаться про ML с людьми из сообщества, есть бот @neludim_bot, который сделал Саша Кукушкин. Я там тоже участвую, буквально на днях классно пообщались с Игорем из AliExpress.
Тем в области ИИ очень много, как и каналов их освещающих. Поэтому вот вам еще подборки (если не открывается, значит нужно обновить телеграм):
/channel/addlist/Tv2X-9ht0ck1ZTUy
/channel/addlist/Em6ObpOZEhJiZmUy
🔸 Люди у нас в канале собрались дружелюбные, поэтому общение и знакомство только приветствуется. Как у вас дела?
🔺 Начал собирать русско-бурятский корпус
🔸 Завел аккаунт Lingtrain на huggingface 🤗, так что там можно будет наблюдать прогресс и там же будет находиться датасет. Там же со временем будут все датасеты.
🔸 Настроил чистку и конвертацию части юридических документов, которые мне передали (из doc в txt). Та еще задачка, так как там много табличек и шаблонных строк.
🔸 Повыравнивал их Lingtrain'ом, тоже скриптами. Лексика там простая, выравание прошло легко. Для книг придется что-то придумывать.
🔸 Написал скрипты сборке и выгрузке датасета.
Дальше выровняю остальные документы, добавлю дедупликацию. Затем перейдем к книгам, для этого попробую дообучить LaBSE на монгольском. Также подниму бота (Айгиз, поделись кодом 😀), для валидации результатов, когда будет побольше данных.
В общем, начало положено. Все фиксирую, чтобы было полезно в будущем, — выложу в отдельный репозиторий.
Корпус
Поигрался с нашей моделью, поговорил с Джинном, Терминатором и другими персонажами. Из контекста пока иногда выбивается, но в целом диалог работает. Можно будет использовать для каких-нибудь ролевых игр.
#gigachat
Хожу по Эрмитажу и считаю пальцы на руках. Попутно убеждаюсь, что настоящих художников ИИ никогда не заменит.
Читать полностью…🔺 Это GigaChat
Друзья, несколько месяцев мы экспериментировали с инструктивным обучением и потихоньку начинаем делиться нашими наработками в области ChatGPT-подобных моделей.
🔸 Сегодня мы хотим анонсировать наше творение, которое было решено назвать GigaChat, а модели в его основе — NeONKA.
🔸 Текущая версия основана на претрейне ruGPT3.5 13B + SFT (supervised fine-tuning).
🔸 В side by side тестах GigaChat vs ChatGPT (когда разметчики выбирают предпочтительный вариант) результат — 30:70 в пользу последней (начинали с 3 против 97).
🔸 Детали "Неонки" мы будем потихоньку выкладывать в открытый доступ, чтобы сообщество могло самостоятельно тренировать подобные модели.
👉 Хабр
Open Assistant уже хорошо умеет на английском, на русском средненько. Датасет инструкций мультиязычный, русского там сейчас 9.6%. Можно помогать с разметкой.
Демо, веса.
#chatgpt
Мне тут в очередной раз пишут, что фраза "внутре у ней неонка" правильно будет "внутри у неё неонка".
Волнуюсь, что такие люди могут пойти в AI-тренеры выравнивать наши с вами нейросеточки.
👉 Кстати, видео с датафеста подъехали, можно ODSAIRu/videos">смотреть.
🔺 Transformer models: an introduction and catalog
Что ни день, то новая трансформерная модель. Чтобы не запутаться, можно воспользоваться обзором, который периодически обновляется.
🔸 Для каждой модели есть описание, отражающее её суть. Например, Vicuna — это LLaMA, дообученная на человеческих инструкциях, собранных из ShareGPT.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.
👉 Читать | Таблица с моделями
Следующую серию языковых моделей предлагаю называть по видам пальмовых.
#TrahykarpusGPT
Slovo — новый датасет для распознавания Русского Жестового Языка (РЖЯ) 🧏♂️🧏♀️
Один из проектов нашей команды — распознавания РЖЯ 🦻, в связи с чем собрали самый большой датасет (150 000 видео и 3 000 классов) для решения этой задачи. Часть данных мы готовы опубликовать сейчас и назвали её Slovo 🫶, выкладываем в Open-Source и делимся с комьюнити.
Вчера вышла наша статья на arXiv 📄, а сегодня на Habr мы подробнее расскажем о проблематике РЖЯ, пайплайне сбора и разметки данных, а также про обучение моделей на датасете Slovo! Датасет и веса моделей можно скачать по ссылкам из Github и Kaggle. 💪
Основные проблемы и вызовы в задаче РЖЯ:
- Аудитория по разным оценкам от 400 тыс. до 2 млн,
- Около 500 различных диалектов только в России,
- Отдельная обработка для составных слов и дактиля,
- Поиск целевой аудитории и экспертов очень затруднен.
Кратко об опубликованной части датасета:
👾 20.000 HD+ видео (65% датасета FullHD)
👩💼 194 эксперта РЖЯ
💪 самый разнородный по субъектам открытый датасет РЖЯ
🕗 время записи "жестов" - 9.2 часа
🖇 датасет представлен в нескольких вариантах для удобства использования
⚙️ размечен по началу, концу жестовых событий и авто-размечен через MediaPipe
👥 для сбора и разметки использовали 2 краудсорсинг платформы (Толоку и АБК Элементари)
Авторы: @hukenovs, @karinakv, @nagadit, @lizaforlizard
Отдельная благодарность нашим дата-инженерам: @AlexS_340, @your_petros
Очень надеемся привлечь разработчиков и экспертов-носителей РЖЯ к большой социальной проблеме коммуникации между слабослышащими людьми и людьми без дефектов слуха и речи.
Будем рады любой обратной связи! ❤️
#release
🔺 State of GPT
Андрей Карпати не выдержал и начал нести знание про обучение ChatGPT-подобных моделей в массы.
В своем докладе Андрей объясняет все основные моменты, от языковых моделей и токенизации до RLHF.
Upd.
🔸 Почему RLHF лучше чем SFT? Потому что выбирать проще чем генерировать. Дает пример с написанием трех хокку про скрепку и выбором лучшего из них.
🔸 CoT. Модели нужны токены, что подумать.
Если постараться размазать ответ модели на более длинную последовательность токенов, то результат получится лучше, чем просто ожидать от нее точный ответ в одном токене.
👉 Видео
Я понял, это просто тренажер такой для дизрапта LM’ок. Наверняка там где-то рейтинг есть и баллы начисляются. #yagpt
Читать полностью…Коллеги из Яндекса выкатывают свой аналог ChatGPT. Попробовал его и иногда оно отвечает довольно неплохо, но пока не держит контекст разговора и обложена-переложена фильтрами чувствительных слов.
Кажется, что такой подход только подстрекает людей на то, чтобы такие фильтры обходить и это всегда будет получаться, как и с любой другой моделью.
В любом случае, удачи им в этом начинании. Надеюсь, что-то удастся передать в open source и поделиться деталями с сообществом.
🔺 Transformers Agent
В только вышедшей версии transformers (4.29.0) добавили новый способ вызова моделей — через запрос на естественном языке.
🔸 Для выполнения задачи нужно создать агента, который сам решит какую из моделей нужно вызвать в данный момент. Например,
agent.run("Caption the following image", image=image)или
agent.run("Read the following text out loud", text=text)🔸 Работать можно в режиме одного независимого вызова (метод run()), или в режиме чата (chat()), чтобы иметь контекст.
Чистил датасетик с Fidonet чатами, подчерпнул много народной мудрости.
В Pile, кстати, есть адский датасет Ubuntu IRC для улучшения качества болталки. Чатики там, правда, слиты в длиннющие документы на сотни тысяч символов.
🔺 StarCoder
Upd. Закрыли Issue с неправильной вставкой
Друзья, новая открытая модель, помогающая писать код.
Поставить в VS Code
🔸 Установить плагин HF Code Autocomplete
🔸 F1 → Hugging Face Code: Set API token. Вставить свой токен отсюда.
Что это?
Это модель от BigCode и ServiceNow, которую натренировали на датасете The Stack (более 80 языков программирования) и тематических данных типа ответов со StackExchange (поэтому ей также можно задавать вопросы типа "что такое лямбда функция?").
Как вы понимаете, проект полностью открытый, так что есть:
🔸 Репозиторий с примерами файнтюна модели, поднятия своего сервиса автодополнений и обычного инференса.
🔸 Модель на 15B параметров. Контекст у модели 8k токенов, тренировалась на 1T токенов.
🔸 NER модель для извлечения пользовательских данных из кода (имена, пароли, явки).
🔸 Ну и куда же без чата с моделью.
При использовании через расширение могут быть ошибки, у меня вставляет генерацию как-то с середины, об этом зарепортил. Также по ощущениям работает похуже чем текущий Copilot, но тоже на уровне. Очень круто для открытой модели, ждём развития.
Послушал лекцию про андеграундную ленинградскую поэзию в музее Полторы комнаты.
🔸 В советское время было ограниченное число «вакансий» для авторов разных жанров стихов, которых печатали. Например, было по одной «вакансии» верлибриста на Москву и Питер.
🔸 Узнал много новых имен: Сергей Стратановский, Олег Григорьев, Евгения Шварц. Стихи сильные, необычные, а где-то смешные.Сказал я девушке кротко:
— Простите за нетактичность,
Но бюст ваш, и торс, и походка
Напомнили мне античность.
Она в ответ мне со вздохом:
— Простите, но ваше сложение
Напомнило мне эпоху
Упадка и разложения.
Олег Григорьев
Сейчас в Питере светофор сказал мне: «Заканчивай переход». «Хватит командовать мной, глупый робот», — ответил я ему.
#сингулярность
🔺 Помощь языкам
〰️ Бурятский
Помогаем сейчас бурятскому языку. Повыравнивал несколько официальных документов на русском и бурятском и с ними неплохо, так как там перевод почти один к одному. А вот хужожественная литература пока не очень, потому что в LaBSE не было бурятского, а родственный монгольский был в слишком малых количествах.
Тут попробуем дообучить LaBSE на монгольском, так как, кажется, что в сети должны быть русско-монгольские корпуса (киньте, если найдете что-то подобное).
Если кто-то хочет помочь, то присоединяйтесь. Ко мне обратился Тимур Батуров, который сможет рассказать как носитель, какая у него мотивация.
👉 Upd. Завел группу для бурятского.
〰️ Санскрит
Также есть целое сообщество людей, которые занимаются санскритом и пользуются для этого Lingtrain'ом. Язык древний, с письменностью деванагари, очень интересно.
Ребята очень активные, даже выкатили целую презентацию с доработками и пожеланиями для Lingtrain. Часть уже сделал, так что скоро обновлю версию.
Для санскрита делал инструкцию по выравниванию, так что, если кто-то интересуется языком и хочет помочь, то тоже не стесняйтесь, пишите.
👉 Инструкция
🔺 SAM. Сегментируем всё
Поигрался с демо новой модели для сегментации изображений от Meta. Это, конечно, надо попробовать каждому.
🔸 Умеет сегментировать по текстовому описанию ("выдели человека в очках"). В том числе выделение объектов, на которых модель не обучалась.
🔸 Выделение по ключевым точкам и маске.
🔸 Может выдавать границы (bounding box'ы) вокруг всех объектов по запросу.
🔸 Размер 636M параметров. Обучали 3-5 дней на 256 A100.
🔸 Модель открытая (Apache 2.0).
👉 Демо | GitHub | Датасет