Сходил сдал следующий экзамен на знание китайского (HSK2, тоже не сложный). Проходило все не в МГЛУ, как в прошлый раз, а в отеле напротив парка Хуамин на Ботаническом саду (сам парк, кстати, очень красивый).
Оказалось, что там сегодня проходит выставка об образовании и работе в Китае. Есть около десяти стендов различных университетов, где их представители рассказывают про условия обучения.
Кому интересно, заходите, вход свободный.
Всем привет! Сегодня не только тот день, когда понедельник действительно начинается в субботу, но и один год с того момента, как мы начали выкатывать Гигачат в открытый доступ. Мы — это очень много людей, которые участвуют в его разработке и развитии, к которым я бы отнес и вас, друзья.
С этим вас и поздравляю, а еще с майскими, на которых можно спокойно почитать, погулять, поработать.
Сам я выбрался в Питер, где успел погулять по снежку (!), съесть шаверму и зайти в Подписные издания. Еще, кстати, понравился книжный СпбГУ, много научпопа и местных изданий, нашел там книжку с олимпиадными заданиями по китайскому. Надо подумать, куда бы еще сходить.
🔺 Обзор мультиязычных LLM
Вышел довольно любопытный обзор — Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers.
Авторы попытались поделить модели по типу обучения и по доступности обучающих данных. Есть табличка с открытыми мультиязычными датасетами.
Из странного то, что упомянули GPT-4, но забыли про Claude. Хотя по ощущениям Claude Opus очень хорошо понимает языки и даже неплохо переводит на малоресурсные (обсуждали с носителями удмуртского, алтайского и нескольких других).
👉 Статья
#superminor
Друзья, всем спасибо за тестирование. Сделал много доработок по вашему фидбеку, продолжаем дальше.
• Добавил страницу с просмотром всех заданий модуля.
• Добавил возможность редактирования ранее переведенных заданий (на странице просмотра).
• Добавил прогресс-бары на страницах с заданиями.
• Внес кучу мелких правок, которые подсказали (опечатки, всплывающие окошки, подсказки и т.д.).
• Добавил инструкцию.
Сделал первые модули для якутского, татарского, чувашского, удмуртского и алтайского, можно начинать переводить. Первые два модуля для башкирского уже перевели, так что готовлю следующие.
Так же все желающие могут подключиться к тестированию на переводе NLLB Seed с английского на русский в этом модуле. Около 100 единиц уже перевели. Как и прежде, пишите, что можно улучшить.
Коллеги, очередной шаг в будущее от стартапа Suno.
1️⃣ Идём на suno.ai и жмем на Make a Song.
2️⃣ Пишем, о чём хотите песню и в каком жанре, можно на русском. Например, «лирическая песня с пианино про телеграм-канал градиент обречённый».
3️⃣ Наслаждаемся хитом.
Стартап уже существует некоторое время, но сейчас выпустили 3 версию своей модели. Получилось что-то типа midjourney для песен.
Есть расширенный режим, в нем можно подкорректировать слова сгенерированной песни, так как грамматика для русского иногда ломается. Напишите, как вам качество. По-моему, очень круто.
🔺 Короткометражки от Sora
После анонса модели для генерации видео по тексту OpenAI предложила попробовать её нескольким художникам и режиссерам, чтобы собрать фидбек. Смотрим на результат.
👉 Видео
🔺 Grok выложили в открытый доступ
🔸 В open source выложили языковую модель Grok-1 от X.AI (твиттер). Название идёт из книги Хайнлайна «Чужак в стране чужой», где воспитанный марсианами человек «грокал» все новые для себя понятия на Земле.
🔸 Модель является претрейном, т.е. для работы в формате диалога её надо будет дообучать на инструкциях.
🔸 Архитектурно это MoE (Mixture of Experts) с 314B параметров (~300Гб). На инференсе активируется 8 экспертов (25% весов).
🔸 Токенизатор на 131k токенов.
> tokenizer.EncodeAsPieces('Языковая модель Grok')
> ['▁Я', 'зы', 'кова', 'я', '▁мо', 'дель', '▁Gro', 'k']
🔺 Переводим NLLB Seed
Друзья, есть отличная возможность поспособствовать развитию машинного перевода.
Есть датасет NLLB-Seed, состоящий из 6-ти тысяч предложений, который уже переведен на 39 малоресурсных языков, но при этом нет его перевода на русский язык. Датасет очень полезный, в силу своего разнообразия он улучшает качество моделей, обучающихся с его использованием.
Наш общий друг Давид Дале, участник проекта, заведующего этим датасетом, а также FLORES и другими связанными с переводом вещами, собрал бота @crowd_translate_bot, через которого можно добавлять и одобрять переводы.
Перевод идет с английского на русский, а самих текстов не так много, так что помощь каждого будет значимой.
А на следующей неделе потестируем с вами SuperMinor, проект направленный на коллективный перевод инструкций на малоресурсные языки. Сам же функционал портала, думаю, сможем попробовать на том же NLLB Seed и переводом на русский.
👉 @crowd_translate_bot
🔺 Книжка-трансформер
Добавил в нашу книжку-трансформер с малыми языками редакцию «Маленького принца» на орокском языке, языке малочисленного народа Дальнего Востока.
За текст спасибо @gislygisly
📚 Итого их стало 15: алтайский, балкарский, башкирский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, орокский (уйльтинский), татарский, чувашский, якутский, русский и французский.
Можно выбирать любую комбинацию. Присылайте еще тексты. На очереди бурятский язык.
Иллюстрация сгенерирована DALL-E
👉 Книжка, чат
Claude Opus и перевод на малоресурсный язык (кабардино-черкесский)
Любопытный пост в твиттере. Как будто бы контекста из нескольких тысяч параллельных примеров (5.7k в данном случае) хватает, чтобы он начал хорошо переводить в обе стороны.
Проверил, что без файлика переводит явно плохо, тексты разной длины и другим алфавитом. Сам файлик попросил у автора поста, посмотрю и попробую с другим языком.
Интересно, что предыдущая (вторая) версия Claude показывала лучший результат на бенчмарке MTOB (Machine Translation from One Book) на момент его выхода в феврале (чуть позже Google анонсировал Gemini 1.5 Pro и сказал, что она немного лучше на MTOB). Там освещен папуасский язык каламанг с менее чем 200 носителями. И перевод идет на основе книги по его грамматике, словаре на 2000 слов и корпусе из пары сотен параллельных предложений.
👉 Пост
#митап
⏰ 29 февраля, 15:30
Завтра коллеги выступят с очень интересными докладами на ИИшнице. Подключайтесь к трансляции, сможете позадавать вопросы.
Полное расписание
Upd. 👉 Видео
#вакансия
Upd. Коллеги, всем отвечу в течение дня.
Upd2. Ребята, всем спасибо за отклики, выбираю на этой неделе из присланных резюме, напишу.
Друзья, появилась возможность подключиться к экспериментам над LLM в нашей скромной команде.
Мы занимаемся исследованиями и обучением языковых моделей, пишем код для этого, готовим данные, делаем GigaChat.
Сейчас речь о команде AGI NLP из департамента RnD, где работаю лично я, но вообще команд у нас несколько. Если вам больше нравится PLP, CV, аудио или вы гуру инференса, то с радостью поделюсь контактами коллег. Возможно, что в их командах тоже есть вакансии.
Если вы занимаетесь NLP, у вас есть непреодолимое желание развиваться в этой области и есть опыт разработки на питоне, то напишите мне.
🔺 Инструменты для помощи малым языкам
Написал небольшую статью на Хабр про текущие проекты, связанные с языками. Про дообучение LaBSE, про автоматическое извлечение параллельного корпуса этой моделью, про параллельные книги, проект Lingtrain и новый проект SuperMinor, который скоро запущу.
🔸 Весь код тоже выложил. Просьба поддержать статью, кому интересно.
👉 Хабр
🔺 Gemini Advanced, он же Ultra
Google зарелизил свою самую сильную модель, «убийцу» GPT-4. Bard, соответственно, тоже переименован в Gemini.
🔸 Доступна по подписке за $20 долларов с триалом на 2 месяца (нужен VPN и иностранная карта). Я, конечно, подписался, интересно же.
Поигрался с ней и пока не нашел очевидных преимуществ. В паре примеров на русские пословицы ответила лучше GPT-4, но в целом пока плюс-минус также.
🔸 Из неочевидных вещей, у модели есть доступ к YouTube, Google Maps и другим местным сервисам. Можно расширить доступ до Gmail, Google Drive и Google Docs, тогда она сможет копаться у вас в ящике, суммаризовывать письма и вообще использовать все ваши документы для своих генераций.
🔸 Картинки генерирует так себе, хотя промпты для них пишет качественные, в том числе и на русском языке. Если такой промпт передать в DALL-E, то получается очень прикольно. Часто отказывается генерировать, на запрос "paint ..." или "draw ..." может вместо картинки нагенерировать полотно текста, в примерах пишут, что надо писать "generate an image ...".
👉 Пишите, что еще потестировать.
—
Сочини стихотворение о кибэротике! Пусть там будет не больше шести строк, а в них о любви и измене, о музыке, о неграх, о высшем обществе, о несчастье, о кровосмесительстве – в рифму и чтобы все слова были только на букву "К"!
>
Киборг коварно кинул клятву,
Клюнув клюкву, клянясь кляксами.
Камерный концерт, крах клавесина,
Кровосмешение, крики, кулаки.
Кризис карьеры, крах короны,
Кибернетический кошмар конца.
Смех его — веселый звон,Читать полностью…
Словно радостный птенцон.
Генрих Кампендонк писал картины в стиле Кандинского без всяких нейросетей.
Картина из Главного штаба Эрмитажа.
🔺 SAGE. Выложили модели для коррекции орфографии
Коллеги из нашей команды обучили и выложили пачку моделей в открытый доступ. Это модели для исправления ошибок на основе FRED'а и мультиязычной mT5 (одна модель для русского и английского).
Также выложили дистиллированную модель для быстрого инференса. Сравнились с платными решениями и написали про это статью, которую уже опубликовали на EACL 24.
Работать можно через библиотеку SAGE, код и примеры есть в репозитории. Прошу пробовать. Библиотеку будут развивать дальше, так что пишите свои идеи и предложения.
Upd. Issue для предложений.
👉 Хабр | GitHub | HF | Paper
Как устроено пространство, в котором думают языковые модели?
Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.
Статья, хабр
Сходил тут сдал HSK — экзамен на знание китайского языка (некоторое время учу его в свое удовольствие). Было забавно выполнять тесты в аудитории, где большинство сдающих — это дети, так как уровень экзамена самый базовый. Интересно, какого возраста будут студенты на следующих ступенях.
Признавайтесь, кто какие языки учит в качестве хобби?
#event
Друзья, через неделю проводим митап, на котором расскажем про наши наработки и опыт в разных областях — про обработку речи и жестов, 3D, NLP эксперименты, бенчмарки и GigaChat.
Тоже там буду, так что заходите, если получится дойти в рабочий день (это будет пятница), поболтаем. Трансляция будет.
#superminor
Друзья, начинаю тестировать SuperMinor, платформу для перевода датасетов, с помощью которой сообщество сможет переводить инструктивные датасеты на свои языки.
Делал его долгими зимними вечерами, постарался сделать UI красивым и понятным, а загрузку модулей по API и их хранение на бэкенде простым.
Начали переводить базовые промпты на башкирский язык, готовлю модули под другие языки.
Страничку с инструкцией добавляю, но базовый функционал готов, поэтому предлагаю попробовать попереводить отрывок датасета NLLB Seed с английского на русский, задача полезная. Просто открываем ссылку и начинаем переводить.
В интерфейсе есть возможность вставить машинный перевод, он достаточно неплохой, но после вставки его нужно подкорректировать. Все изменения сохраняются автоматически.
Посмотрите, что можно добавить, что понятно, а что нет. Пишите.
P.S. На картинку на главной странице не смотрите, сгенерировал за 5 минут тут.
👉 http://sumi.ac/about/en
Генерю тут нейросетями картинки по известным стихам.
Угадайте, где какие.
Upd.
Ответы: Пушкин «Зимний вечер», Есенин «Мне осталась одна забава», Маяковский «Облако в штанах», Бродский «Пилигримы» и «Не выходи из комнаты».
• Промпты для генерации делались при помощи Gemini Advanced (больше всего понравились), GPT-4 и GigaChat.
• 1,3 и 4 — DALL-E, 2 и 5 — Kandinsky.
🌸 Женщины в AI Research🌸
Сегодня 8 марта, и это отличный повод поделиться с вами списком исследовательниц в ИИ и смежных областях, за работами которых я слежу и которыми вдохновляюсь:
🟣Fei-Fei Li — Professor of Computer Science, Stanford University, создательница Imagenet, многих основополагающих работ по CV и unsupervised learning
🟣Cathy O'Neil — Professor at Barnard College, автор фундаментальных книг по Data Science в 2010х, а также смещениях в данных и результирующих моделях
🟣Timnit Gebru — founder and executive director of Distributed AI Research Institute (DAIR), этика в ИИ, соавтор знаменитой статьи stochastic parrots
🟣Emily M. Bender — President of ACL в 2024, одни из основополагающих работ по этике в NLP, соавтор stochastic parrots вместе с Timnit Gebru
🟣Anna Goldenberg — Assistant Professor, Department of Computer Science, at University of Toronto (Computational Biology Group) — ML и генетика
🟣Joy Buolamwini — MIT, The Algorithmic Justice league, множество работ по CV в распознавании лиц и biases
🟣Katharina Kann — Assistant Professor of Computer Science, University of Colorado Boulder — множество работ по соревнованиям в NLP
🟣Mirella Lapata — School of Informatics, Edinburgh University, множество работ по вычислительной сематике и применении векторных моделей в NLP
🟣Maria Schuld — Quantum computing Senior researcher at Xanadu, ML в физике и квантовые вычисления
🟣Barbara Plank — Professor, LMU Munich and ITU Copenhagen, глава лаборатории Natural Language Processing, множество работ по NER, POS-tagging, классическим методам NLP
🟣Anima Anandkumar — California Institute of Technology and NVIDIA, general CV, image and video semantic segmentation
🟣Doina Precup — Researcher at DeepMind, general RL
🟣Raia Hadsell — Research Director at DeepMind, ML в робототехнике
🟣Chelsea Finn — Professor in Computer Science and Electrical Engineering at Stanford University, ML в робототехнике
🟣Renée DiResta — Research Manager, Stanford Internet Observatory, работы по борьбе с псевдонаукой, риски в ML
🟣Tamara Broderick — Associate Professor of EECS, MIT, байесовские методы, general ML
🟣Tara Sainath — Principal Research Scientist, Google, работы по распознаванию речи
🟣Corinna Cortes — VP in Google Research, general ML
🟣Daphne Koller — CEO and Founder, Insitro, ML для генетики, bioML
🟣Irina Rish — Université de Montréal (UdeM), general ML, AI Trustworthiness
🟣Mounia Lalmas — Director of Research at Spotify, много основополагающих работ по RecSys
🟣Lise Getoor — Professor of Computer Science, University of California, causal inference, grounding и символьные методы
Кого бы вы ещё добавили? Давайте делиться в комментариях
🔺 Claude 3
Anthropic выпустил нового Клода.
Всего три версии, Haiku, Sonnet и Opus. Opus, собственно, на тестах в пресс-релизе бьет GPT-4.
Поигрался с ним и в целом доволен. Хорошо отвечает на русском, работает очень быстро. Также пишут, что модель стала в два раза реже отказываться отвечать, видимо, лучше выровняли. Контекст для пользователей 200k токенов, но для отдельных пользователей могут активировать контекст до 1M токенов.
Чтобы попробовать, придется регистрировать аккаунт, подтверждать телефон и вот это все. Проще пойти и еще потыкать в le Chat и mistral-large :).
👉 Claude
Всех с наступлением весны!
В эту зиму с ума
я опять не сошёл. А зима,
глядь, и кончилась. Шум ледохода
и зелёный покров
различаю. И, значит, здоров.
С новым временем года
поздравляю себя
и, зрачок о Фонтанку слепя,
я дроблю себя на сто.
Пятернёй по лицу
провожу. И в мозгу, как в лесу —
оседание наста.
#поэзия
🔺 Le Chat
Французский стартап Mistral выпустил свою следующую модель Large и заодно веб-интерфейс к ней, в котором можно её потестировать.
Назвали ассистента le Chat, что с французского переводится как «кот», а читается примерно как «лё ша».
Mistral Large, судя по заявленным бенчмаркам, выходит на второе место после GPT-4. Модель доступна по API на официальной платформе, цена высокая — 24$ за 1M генерируемых токенов и 8$ за 1M входящих (вспомнилась реклама мобильных операторов, где «все входящие бесплатно», вот бы тут так).
Модель стала доступна и в Microsoft Azure после новости о заключении партнерства между компаниями.
Модель мультиязычная, вполне можно погенерировать какой-нибудь обучающий контент, если вы изучаете языки, да и в целом поиграться с ней прикольно.
👉 Le Chat | Пост
🔺 Gemma — Llama от Google
Открытая модель от большой компании. Два размера — 2B и 7B параметров, есть претрейн и инструктивная версия. Обучались модели на 2-х (2B) и на 6-ти (7B) триллионах токенов (это много).
〰️ Токенизация
Словарь в токенизаторе на 256k токенов, что опять же, много; слой эмбеддингов занимает около 1B параметров. В отчете пишут, что это подмножество токенов из токенизатора Gemini. Токенизация для других языков должна быть не посимвольная, а более приемлемая из коробки. Прогнал кусок википедии на якутском, получилось ~3 символа на токен.
〰️ Замеры
На графиках старшая модель либо обходит, либо сравнима с Llama 2 13B. Проверяют на QA, Reasoning, Math, Coding задачах.
Также интересно почитать про оценку эффекта меморизации, который можно использовать для извлечения обучающих данных из уже обученной модели. Среди прочего, проверяют насколько модель запомнила персональные данные из обучающих текстов (предварительно классифицируют их своим Cloud DLP сервисом).
〰️ Модель отстой, несите следующую?
Многие пишут, что модель слабенькая. Я, конечно, тоже пошёл посмотреть как она справляется с русским языком. И действительно, при попытке спросить что-нибудь у инструктивной модели на русском она либо переключается на английский, либо смешивает языки, но стабильно генерировать что-то вменяемое у меня не получилось.
С другими европейскими языками получше, хотя на английский модель все равно частенько переключается.
Если заглянуть в отчет, то выяснится, что дообучение модели (SFT и RLHF этапы) происходило исключительно на английских инструкциях.
Про претрейн пишут, что он преимущественно на английском. Если поиграться с ним в режиме продолжения текста с разными параметрами семплирования, то заметно, что русский и другие языки модель видела. А 6T токенов дают шанс на то, что дообучение на инструкциях на русском может показать неплохие результаты.
👉 Tech. report | HF | Демо
Gemini Advanced с утра устойчиво выдает интересные ответы на "привет". Подкидывает информацию о пользователе (мой VPN, пробовал несколько) и времени, причем минуты все время правильные. Странно только, что подкидывает в свой ответ, а не в системный.
Читать полностью…🔺 Nomic Embed
В открытый доступ выложили encoder модель, которая обходит на MTEB аналогичные модели для получения эмбеддингов (векторных представлений текста), включая Ada-002 от OpenAI. Такие модели можно использовать, например, для семантического поиска или кластеризации ваших данных. Язык у модели английский, но интересно не это.
Помимо весов, авторы решили выложить воспроизводимый пайплайн обучения плюс данные (на картинке можно видеть их структуру), на которых модель обучалась (!). Контекст модели 8k токенов. Все под открытой лицензией Apache-2.
👉 HF | Репорт | Доступ к данным