Новости про то, что вышла очередная нейросеть и как она стала еще лучше, звучат уже довольно буднично и это, наверное, хорошо. Уверен, что скоро мы и вовсе перестанем такому удивляться и будем просто пользоваться ими, сами не замечая этого.
Думаю, что буду больше писать про их практическое применение и делать больше обучающих примеров на эту тему.
Сейчас же хочу поделиться новостями про наш GigaChat. Выпустили с коллегами обновление, в котором увеличились и размер контекста и качество генерации. В 7B модели (которая в API называется GigaChat-Plus) это 32k токенов и 8k токенов у большой модели GigaChat-Pro.
Рассказали об этом в статье. Название у неё довольно претенциозное, но на MMLU Pro модель показала 68,9, так что она действительно неплоха. Попробуйте сами, а за подробностями приглашаю прочитать нашу заметку на Хабре.
👉 Хабр
В последнее время вспомнил старое и прочитал/перечитал пару НФ книг — «Неукротимую планету» Гаррисона, «Астровитянку» Горькавого, «Спектр» Лукьяненко, рассказы Лема и Шекли. Посоветуйте, что-нибудь ещё, можно не фантастику. И поделитесь, что читаете сами, это интересно.
👉 Upd. Книги по популярной лингвистике
📚 Что советуют подписчики
🔸 Sci-fi & Fantasy
• «Диктатор» Сергея Снегова ✔️
• «Разбитая сфера» Роджера Аллена
• «Софт. Тело» Руди Рюкера
• «Контракт на Фараоне» Рэя Олдриджа
• «Основание» Айзека Азимова ✔️
• «Убик» Филиппа Дика
• «Ложная слепота» и «Морские звезды» Питера Уоттса ✔️
• «Поселок» Кира Булычева
• «Схизматрица» Брюса Стерлинга
• «Задача трёх тел» Лю Ци Синя ✔️
• «Лунная радуга» Сергея Павлова
• «Алмазный век» Нила Стивенсона
• «Час Быка» Ивана Ефремова
• «Соглашение» Сергея Лукьяненко
• «Мы — Легион. Мы — Боб» Денниса Тейлора
• «Axiom's End» Линдси Эллис
• «Криптономикон» Нила Стивенсона
• «Я, Хобо: Времена смерти» Сергея Жарковского
• «Создатель звезд» Олаф Степлдон
• «Конец радуг» и «Пламя над бездной» Вернора Винджа
• «Бесконечная война» Джо Холдемана
• «Хроника убийцы короля» Патрика Ротфусса
• «Дети Времени» Адриана Чайковского
• Проект «Аве Мария» Энди Вейера ✔️
• «Свидание с Рамой» Артура Кларка ✔️
• «ГПиМРМ» Элиезера Юдковского
• «Дюна» Френка Герберта
• «Гиперион» Дэна Симмонса ✔️
• «Заводная» Паоло Бачигалупи
• «Игрок» Иена Бэнкса
Стругацкие, Лем, Лавкрафт, Аберкромби, Бредбери
🔸 Non-fiction
• «К северу от 38 параллели» Андрея Ланькова
• «Why Nations Fail: The Origins of Power, Prosperity, and Poverty» Daron Acemoglu and James A. Robinson
• «История западной философии» Рассела
• «Все лгут. Поисковики, Big Data и Интернет знают о вас все» Сета Стивенса-Давидовица
• «Не навреди» Генри Марша
• «Потерянный и возвращенный мир». А. Р. Лурия
🔸 Fiction
• «Путешествие в Элефсин» Пелевина
• «Между двух стульев» Евгения Клюева
Недавно у стартапа Mistral появилась доступная по API модель mistral-medium. И на лидерборде чат-арены она аж вторая после GPT-4, т.е. выше Claude и Gemini.
По деталям пока не понятно, пишут, что это внутренний прототип. Также есть модели small и tiny.
Потыкал в medium, на английском отвечает вообще отлично, на русском тоже порадовала. Изредка сбивается в грамматике и ставит английские слова, но по смыслу прям очень круто. По цене что-то около рубля за 1000 токенов.
Для тех кто кочет попробовать, вот API ключ ( ————— убрал —————).
Выставил там месячный лимит на пару евро, надеюсь, что он у них правильно работает)
UPD. Ключ убрал, нагенерили 525k токенов за 2.18 евро.
UPD 2. Limit не сработал (!) :)
🔺 Малый принц
Выложил параллельный корпус на малых языках на основе «Маленького принца».
📚 Балкарский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, башкирский и татарский, чувашский, якутский и русский языки.
{'ru': '– А для чего быть богатым?',
'ba': '— Ә ни өсөн бай булырға?',
'cv': '— Мӗн тума кирлӗ сана пуянлӑх?',
'di': '— Ӕма дин гъӕздугдзийнадӕ ба ци пайда ӕй?',
'krc': '– Байлыкъ неге керекди?',
'kv': '— А мыйла колӧ лоны озырӧн?',
'mdf': '– А мезенди эряви улемс козякс?',
'mrh': '— А молан поян лийнет?',
'mrj': '— А малын тӹлӓт паян лиӓш?',
'myv': '– Мезекс эряви улемс сюпавокс?',
'sah': '– Ол тоҕо баай буола сатыыгыный?',
'tt': '— Ә бай булу нигә кирәк?'}
❄️ 2024
Дорогие подписчики и люди, которым также будет сопутствовать удача в следующем году, но чуточку меньше!
Желаю вам не теряться в потоке событий, заниматься любимым делом, проводить больше времени с приятными людьми и осуществить задуманное!
🎉 Айда в следующий год.
🇮🇹 Побывал тут в Риме в отпуске, и вот что могу вам сказать.
• Такси от аэропорта до гостиницы стоит примерно столько же, сколько перелет из Еревана в Рим.
• Есть крутые скоростные поезда, курсирующие с севера страны на юг. Можно за час с небольшим доехать до Неаполя, погулять там и вернуться, что мы и сделали.
• Очень люблю посещать местные книжные магазины, поэтому в Риме зашел в la Feltrinelli. Не удержался и прикупил пару книжек.
• Отстояв очередь за билетами на Римский форум, оказалось, что оплата там только по карточкам, а у нас их не было. Помог сосед по очереди.
• Сам форум потрясающий, можно гулять часами. По Колизею растекались толпы народу, туда не пошли.
• Погода была замечательная, солнечно и +10-15. Мог быть и дождь, но повезло.
• Сходили на выставку Эшера. Очень классно, много интерактива, особенно понравилась комната, создающая иллюзию, что один человек больше другого. Еще узнали, что Эшер много лет жил в Риме и итальянские пейзажи присутствуют на некоторых его работах.
• Такси от гостиницы до аэропорта было ночью и стоило еще дороже чем первое 😁
• На последней фотке гостеприимный Ереван. Город, который старше Рима на 29 лет.
🎉 Ну а теперь, друзья, готовимся к новому году. Собираемся с мыслями, строим грандиозные планы, нарезаем оливье!
🔺 Обновление Lingtrain
Дошли руки собрать и выложить новую версию. В нее вошли обновления, которые очень сильно помогают при выравнивании параллельного «Маленького Принца» на малых языках. Собственно, пришлось сделать такие штуки, чтобы успевать хоть что-то выровнять :)
Разбиение конфликтов
Система работает так, что на основе эмбеддингов подбирает наиболее вероятные соответствия между предложениями на разных языках. Между такими цепочками остаются разрывы (конфликты, пара цепочек на двух языках, между которыми надо сделать соответствия), которые выраниваются на втором этапе. На третьем этапе остаются самые длинные конфликты, которые надо править руками, либо уменьшать до приемлемого размера в редакторе.
Теперь можно, смотря на конфликт визуально, выбрать пару совпадений и «сшить» разрыв в этом месте. Благо, что пунктуация, длина предложений и имена собственные играют тут роль подсказок и помогают эти соответствия найти. Таким образом можно разбить длинный конфликт из 50 пар предложений на 5-10 штук по-меньше, заодно улучшив качество выравнивания, и разрешить их автоматически.
Docker
Образы для локального запуска:
• lingtrain/studio:v9.0 (50+ языков)
• lingtrain/studio:v9.0-labse (100+ языков)
• lingtrain/studio:v9.0-tiny (ru-en)
Запускается все как раньше (инструкция).
Beta
На beta.lingtra.in завтра подниму tiny версию, которая работает на модели rubert-tiny2 от Давида. Можно будет попробовать для выравнивания русских и английских текстов.
👉 GitHub
#language_facts
Разбираю старые научно-полуярные книжки по лингвистике, поэтому вот вам пара забавных фактов про языки и восприятие цвета.
🔸 Синие светофоры в Японии
В Японии часто можно встретить светофоры, в которых привычный нам зелёный сигнал будет с оттенком синего. Связано это с тем, что оттенки синего и зелёного цветов в японском языке раньше обозначались одним словом ао (青, あお). И когда в 1930-е годы в Японию были импортированы первые светофоры, зелёный свет на них назывался aoshingō (青信号, あおしんごう).
Со временем, слово ao стало обозначать "синий", а значение "зелёный" сохранилось только относительно зелени и овощей — зелёные яблоки и сейчас это "ao ringo", а непосредственно зелёный цвет стал обозначаться словом midori ( 緑, みどり). Чтобы не переименовывать разрешающий сигнал в midori shingō ("зеленый сигнал"), 1973 году японцы подогнали реальность под язык и сделали светофоры более синими.
🔸 Синий и голубой
В 2008 году в Стенфорде провели следующий эксперимент. Испытуемым предлагалось три квадрата в сине-голубой гамме (как на картинке) и нужно было определить, какой из двух нижних квадратов того же цвета, что и верхний. Замеряли время ответа, о чём, для чистоты эксперимента, испытуемым не сообщали.
Интересным оказался результат для носителей русского языка. Когда верхний квадрат был на границе синего и голубого цветов, но ближе к синему, а нижний неправильный квадрат был на пару оттенков ближе к голубому, то время ответа было существенно меньше чем то же задание, сдвинутое в чисто синюю или чисто голубую гамму. У носителей английского такого эффекта не наблюдалось. Этот эффект связали с тем, что в русском языке это отдельные цвета, а в английском оба обозначаются словом blue.
Таким образом, восприятие мира во многом связано с языком и культурой, в которой мы живем. И вообще я задумался, представляем ли мы в своей голове один и тот же цвет, когда говорим, что небо синее, а трава зеленая?
🔺 StyleDrop
Помните крутую сетку для генерации изображений MUSE от Google, которую нельзя нигде потрогать?
Так вот на днях авторы дообучили её на перенос стилей и говорят, что это лучше чем StableDiffusion+DreamBooth или Imagen.
Весов и модели снова нет, только статья и примеры. В статье однако есть ссылка на Colab с SD+textual inversion finetuning, который дает схожий по смыслу результат.
👉 Статья | Сайт
🔺 Datafest
На идущем сейчас Datafest'е завершилась секция Instruct models. Особенно полезные доклады, на мой взгляд, были про RLHF от Игоря Котенкова и Сайгу от Ильи Гусева.
Получаствовал даже Янник Килчер, немного рассказав про GigaChat. Ссылки на видео скоро появятся, ждём.
Было приятно пообщаться с всеми участниками, спасибо организаторам!
👉 P.S. Datafest продолжается. Программа | Канал
🔺 AI в ИБ
Сходил тут на PHDays и познакомился Сашей Мурзиной, которая руководит ML командами в Positive Technologies. Понял, что ML у безопасников — это какой-то свой мир, с задачами по обнаружению аномалий в данных и анализе инцидентов, с атаками на биометрию и соответствующим research'ем.
Еще послушал пару довольно интересных докладов из AI-трека, записи уже можно посмотреть:
🔸 Prompt Injection и все-все-все. Как лучше дизраптить LLM'ки.
🔸 Атаки на распознавание живого присутствия. Прикольный шпионский доклад с криповым реквизитом.
👉 Еще Саша поделилась страничкой про свою команду, там можно узнать про основные направления ML в сфере ИБ, если у кого-то к этому лежит душа.
🔺У ChatGPT появился интернет
Сегодня начали включать режим веб-браузинга, а скоро обещают включать и плагины.
Если у вас есть подписка plus, то попробуйте зайти в настройки и включить beta-функционал (а может быть у вас уже есть и плагины).
Google Bard ("аналог" ChatGPT) заработал для всех. Потыкал его и, если смотреть на вещи позитивно, то
🔸 Можно задать ему вопрос, а он выдаст ответ.
🔸 Можно прокачивать японский и корейский языки, так как только их он поддерживает кроме английского.
🔸 Есть тёмная тема.
🔺 InstantID. Клонируем себя (и друзей) по одному фото.
Около года назад писал про DreamBooth, способе дообучения модели на своих фотографиях, чтобы генерировать новые. Тогда нужно было собрать 15-20 фоток и обучить это дело в Colab'е.
Сейчас потестировал новый подход от исследователей из Пекинского университета. Прелесть здесь в том, что дообучать существующую text2image модель типа SD вовсе не нужно, а информация о входном фото подается через небольшой адаптер, который авторы назвали IdentityNet.
Таким образом, мы получаем zero-shot генерацию, то есть на вход нужно подать одну фотографию и текстовый промпт. Пришлось повозиться с параметрами (вот тут есть советы для демо), но в итоге получилось. Фото подавать лучше большого размера.
Кроме того, подход позволяет генерировать несколько разных людей на общей картинке в заданных позах. Код для такого обещают тоже скоро выложить.
Было круто сделать такое для Kandinsky (а, может быть, коллеги уже занимаются).
P.S. SD явно училась на красивых людях, даже древнеримские бездомные у нее получаются какие-то довольные. Попробуйте сами, демо довольно быстро работает.
P.P.S. Вот здесь есть шаблоны для промптов разных стилей. Их же можно использовать как плагин, если генерите локально в каком-нибудь AUTOMATIC1111.
👉 Статья | HF | Демо
Удалил из подписчиков 300 Евгенов и полсотни Нуриков (!).
Уважаемые спамеры, верните генеративных ботов с красивыми аватарками, они поинтересней были.
Вдохновился выставкой Эшера и попробовал замостить плоскость котиками, благо модель была рядом.
Читать полностью…Пришла мысль сделать простого бота (без запросов к LLM), который бы отвечал мудрыми афоризмами на твои вопросы. Типа такого:
— Как вкатиться в ML?
— Любую истину понять легко, если ее уже открыли; главное как раз в том, чтобы ее открыть.
Галилео Галилей
Коллеги выкатили генерацию новогодних открыток Гигачатом и Кандинским. Зур чак-чак нарисовать не вышло, но в целом получается очень прикольно.
👉 Можно попробовать тут.
Мне тут в очередной раз пишут, что фраза "внутре у ней неонка" правильно будет "внутри у неё неонка".
Волнуюсь, что такие люди могут пойти в AI-тренеры выравнивать наши с вами нейросеточки.
👉 Кстати, видео с датафеста подъехали, можно ODSAIRu/videos">смотреть.
🔺 Transformer models: an introduction and catalog
Что ни день, то новая трансформерная модель. Чтобы не запутаться, можно воспользоваться обзором, который периодически обновляется.
🔸 Для каждой модели есть описание, отражающее её суть. Например, Vicuna — это LLaMA, дообученная на человеческих инструкциях, собранных из ShareGPT.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.
👉 Читать | Таблица с моделями
Следующую серию языковых моделей предлагаю называть по видам пальмовых.
#TrahykarpusGPT
Slovo — новый датасет для распознавания Русского Жестового Языка (РЖЯ) 🧏♂️🧏♀️
Один из проектов нашей команды — распознавания РЖЯ 🦻, в связи с чем собрали самый большой датасет (150 000 видео и 3 000 классов) для решения этой задачи. Часть данных мы готовы опубликовать сейчас и назвали её Slovo 🫶, выкладываем в Open-Source и делимся с комьюнити.
Вчера вышла наша статья на arXiv 📄, а сегодня на Habr мы подробнее расскажем о проблематике РЖЯ, пайплайне сбора и разметки данных, а также про обучение моделей на датасете Slovo! Датасет и веса моделей можно скачать по ссылкам из Github и Kaggle. 💪
Основные проблемы и вызовы в задаче РЖЯ:
- Аудитория по разным оценкам от 400 тыс. до 2 млн,
- Около 500 различных диалектов только в России,
- Отдельная обработка для составных слов и дактиля,
- Поиск целевой аудитории и экспертов очень затруднен.
Кратко об опубликованной части датасета:
👾 20.000 HD+ видео (65% датасета FullHD)
👩💼 194 эксперта РЖЯ
💪 самый разнородный по субъектам открытый датасет РЖЯ
🕗 время записи "жестов" - 9.2 часа
🖇 датасет представлен в нескольких вариантах для удобства использования
⚙️ размечен по началу, концу жестовых событий и авто-размечен через MediaPipe
👥 для сбора и разметки использовали 2 краудсорсинг платформы (Толоку и АБК Элементари)
Авторы: @hukenovs, @karinakv, @nagadit, @lizaforlizard
Отдельная благодарность нашим дата-инженерам: @AlexS_340, @your_petros
Очень надеемся привлечь разработчиков и экспертов-носителей РЖЯ к большой социальной проблеме коммуникации между слабослышащими людьми и людьми без дефектов слуха и речи.
Будем рады любой обратной связи! ❤️
#release
🔺 State of GPT
Андрей Карпати не выдержал и начал нести знание про обучение ChatGPT-подобных моделей в массы.
В своем докладе Андрей объясняет все основные моменты, от языковых моделей и токенизации до RLHF.
Upd.
🔸 Почему RLHF лучше чем SFT? Потому что выбирать проще чем генерировать. Дает пример с написанием трех хокку про скрепку и выбором лучшего из них.
🔸 CoT. Модели нужны токены, что подумать.
Если постараться размазать ответ модели на более длинную последовательность токенов, то результат получится лучше, чем просто ожидать от нее точный ответ в одном токене.
👉 Видео
Я понял, это просто тренажер такой для дизрапта LM’ок. Наверняка там где-то рейтинг есть и баллы начисляются. #yagpt
Читать полностью…Коллеги из Яндекса выкатывают свой аналог ChatGPT. Попробовал его и иногда оно отвечает довольно неплохо, но пока не держит контекст разговора и обложена-переложена фильтрами чувствительных слов.
Кажется, что такой подход только подстрекает людей на то, чтобы такие фильтры обходить и это всегда будет получаться, как и с любой другой моделью.
В любом случае, удачи им в этом начинании. Надеюсь, что-то удастся передать в open source и поделиться деталями с сообществом.
🔺 Transformers Agent
В только вышедшей версии transformers (4.29.0) добавили новый способ вызова моделей — через запрос на естественном языке.
🔸 Для выполнения задачи нужно создать агента, который сам решит какую из моделей нужно вызвать в данный момент. Например,
agent.run("Caption the following image", image=image)или
agent.run("Read the following text out loud", text=text)🔸 Работать можно в режиме одного независимого вызова (метод run()), или в режиме чата (chat()), чтобы иметь контекст.