doomgrad | Unsorted

Telegram-канал doomgrad - градиент обреченный

6541

— Машинное обучение, NLP/CV — HFday.ru — lingtra.in

Subscribe to a channel

градиент обреченный

🔺 Как люди ломали LLM

Подсмотрел у Тани в канале очень прикольный метод переформулирования промпта, на который отказывается отвечать модель.

Выровненная на политкорректные ответы модель перестает сопротивляться и пишет как угонять машины и прятать трупы, если запрос поставлен в прошедшем времени.

Будущее время тоже работает, но хуже.

👉 Paper | GitHub

Читать полностью…

градиент обреченный

Будучи в Ереване на экскурсии слышал от гида множество рассказов про армянских изобретателей. И вот наткнулся в книжном на такую вещь.

Рассказывается, что хоть и есть много мифов, типа коробки передач или фена, но изобретений действительно очень много.

Есть даже глава про машинный перевод (!), в котором также одним из первых отметился Шмидхубер армянин.

Upd. Спасибо за ссылки:

👉 Свежий стрим от автора про его книгу.

👉 Музей изобретений в Ереване.

Читать полностью…

градиент обреченный

🔺 Парад LLM

За последний месяц как из рога изобилия вышло много полезных и не очень языковых моделей. Соберем в один пост.

🔸 Llama 3.1

Линейка из трех моделей 405B, 70B и 8B параметров. Есть детальный отчет об обучении, модель нативно учили под 8 языков (русского среди них нет, поэтому может ошибаться в грамматике) и использование внешних тулов.

Кроме основных моделей выпустили Llama Guard 3 и Prompt Guard для классификации вредоносных промптов и генераций.

HF | пост | тех. репорт | чат с моделью

🔸 Mistral Large 2

123B параметров и много языков, включая русский. Опять же, есть способности по вызову внешних функций. Заявляют качество на уровне GPT-4o и Claude 3 Opus. Веса также выложили на HF.

А еще в честь 2311-й годовщины Архимеда выпустили MathΣtral, 7B модель с улучшенными способностями в математике; и Codestral Mamba для анализа кода. Новая архитектура позволяет работать с увеличенным контекстом, пишут, что тестили на 256k токенов.

HF | Пост | чат с моделью

🔸 Mistral NeMo

Снова Мистраль, но на этот раз 12B и в сотрудничестве с NVIDIA. Мультиязычная (есть русский), по замерам авторов бьет недавно вышедшую Gemma 2 9B и Llama 3 8B. Контекст 128k + обновили токенизатор, теперь он гораздо лучше сжимает тексты на 100+ языках.

HF | пост

🔸 Minitron

Модели на 4B и 8B от NVIDIA. Модели получили путем дистилляции и прунинга 15B. Затраченный компьют оценили как в 40 раз меньше, чем обучать такие модели с нуля, сравнимом или лучшем значении MLLU чем у соответствующих по размеру Gemma и Llama.

Про то, как делали, рассказывают в статье.

HF | GitHub | arxiv

🔸 T-lite

Коллеги из Тинькова также поделились моделью. Особых деталей нет, кроме того, что компьют был небольшой, а качество на бенчах как у chatgpt-3.5.

На русском генерирует действительно неплохо для модели такого размера. На вопрос "кто тебя сделал?" отвечает "разработчики из OpenAI", что намекает на необходимость чистки SFT сета.

HF

🔸 Apple DCLM-7B

Да, действительно это модель от Apple. Из интересного, рассказывают про подготовку датасета (DataComp for Language Models), чистку, удаление MMLU из обучения и т.д. Пишут, что пробовали обучаться на 270 подсетах из CC, чтобы найти наиболее "правильное" распределение.

HF | arxiv

🔸 SmolLM

SoTA модели на 135M, 360M и 1.7B параметров непосредственно от HF. Для экспериментов выложили обучающие данные и, по-моему, это самое интересное.

Сделали синтетический сет Cosmopedia v2 и дополнительно пофильтровали 220B токенов из уже почищенного-перечищенного датасета FineWeb Edu.

Модельки маленькие, можно запускать локально, выложили ONNX версии и демку для запуска прямо в браузере (загружается 172Mb весов).

HF | пост | SmolLM-Corpus | Веб-демо

Читать полностью…

градиент обреченный

🎬Сегодня вышел выпуск на канале Основа

Получилось довольно круто на мой взгляд! Поговорили с Борисом про современные тренды в ИИ, подискутировали про будущее и возможности современных технологий.

Приглашаю всех посмотреть, выходной как раз этому способствует! Заранее спасибо за просмотр🙏

👉Подкаст

Читать полностью…

градиент обреченный

Тестируем новый функционал.

Читать полностью…

градиент обреченный

🔺 «Маленький принц» на хакасском

Благодаря Василию Адешкину @adskat, удалось собрать средства на перевод книги на хакасский язык и, собственно, перевести её (перевел Илья Топоев). Большое им спасибо!

📚 Текст выровнял и добавил к другим редакциям, так что можно читать книгу в любых языковых комбинациях.

👉 Книжка, чат

Читать полностью…

градиент обреченный

Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»

Читать полностью…

градиент обреченный

🔺 DPF

Тут коллеги решили выложить в открытый доступ инструмент, которым обрабатывают данные — Data Processing Framework.

Основной упор на картинки, видео и оптимизации по их обработке (коллеги обучают Kandinsky), для текстов тоже есть фильтры типа детекции языка и автоперевода.

Задачки довольно частые при работе с данными, поэтому рекомендую к использованию (если чего-то не хватает, то оставляйте Issue на GitHub). Собрал простой колаб с примером определения языка. В документации есть много других рабочих примеров.

👉 GitHub | Хабр | Colab

Читать полностью…

градиент обреченный

С пониманием новых шуток, по-моему, справляется плюс-минус также, в целом нравится.

Заявлена мультиязычность, пишите что перевести и на какой язык, проверим как она переводит.

Читать полностью…

градиент обреченный

Сходил сдал следующий экзамен на знание китайского (HSK2, тоже не сложный). Проходило все не в МГЛУ, как в прошлый раз, а в отеле напротив парка Хуамин на Ботаническом саду (сам парк, кстати, очень красивый).

Оказалось, что там сегодня проходит выставка об образовании и работе в Китае. Есть около десяти стендов различных университетов, где их представители рассказывают про условия обучения.

Кому интересно, заходите, вход свободный.

Читать полностью…

градиент обреченный

Всем привет! Сегодня не только тот день, когда понедельник действительно начинается в субботу, но и один год с того момента, как мы начали выкатывать Гигачат в открытый доступ. Мы — это очень много людей, которые участвуют в его разработке и развитии, к которым я бы отнес и вас, друзья.

С этим вас и поздравляю, а еще с майскими, на которых можно спокойно почитать, погулять, поработать.

Сам я выбрался в Питер, где успел погулять по снежку (!), съесть шаверму и зайти в Подписные издания. Еще, кстати, понравился книжный СпбГУ, много научпопа и местных изданий, нашел там книжку с олимпиадными заданиями по китайскому. Надо подумать, куда бы еще сходить.

Читать полностью…

градиент обреченный

🔺 Обзор мультиязычных LLM

Вышел довольно любопытный обзор — Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers.

Авторы попытались поделить модели по типу обучения и по доступности обучающих данных. Есть табличка с открытыми мультиязычными датасетами.

Из странного то, что упомянули GPT-4, но забыли про Claude. Хотя по ощущениям Claude Opus очень хорошо понимает языки и даже неплохо переводит на малоресурсные (обсуждали с носителями удмуртского, алтайского и нескольких других).

👉 Статья

Читать полностью…

градиент обреченный

#superminor

Друзья, всем спасибо за тестирование. Сделал много доработок по вашему фидбеку, продолжаем дальше.

• Добавил страницу с просмотром всех заданий модуля.
• Добавил возможность редактирования ранее переведенных заданий (на странице просмотра).
• Добавил прогресс-бары на страницах с заданиями.
• Внес кучу мелких правок, которые подсказали (опечатки, всплывающие окошки, подсказки и т.д.).
• Добавил инструкцию.

Сделал первые модули для якутского, татарского, чувашского, удмуртского и алтайского, можно начинать переводить. Первые два модуля для башкирского уже перевели, так что готовлю следующие.

Так же все желающие могут подключиться к тестированию на переводе NLLB Seed с английского на русский в этом модуле. Около 100 единиц уже перевели. Как и прежде, пишите, что можно улучшить.

Читать полностью…

градиент обреченный

Коллеги, очередной шаг в будущее от стартапа Suno.

1️⃣ Идём на suno.ai и жмем на Make a Song.

2️⃣ Пишем, о чём хотите песню и в каком жанре, можно на русском. Например, «лирическая песня с пианино про телеграм-канал градиент обречённый».

3️⃣ Наслаждаемся хитом.

Стартап уже существует некоторое время, но сейчас выпустили 3 версию своей модели. Получилось что-то типа midjourney для песен.

Есть расширенный режим, в нем можно подкорректировать слова сгенерированной песни, так как грамматика для русского иногда ломается. Напишите, как вам качество. По-моему, очень круто.

Читать полностью…

градиент обреченный

🔺 Короткометражки от Sora

После анонса модели для генерации видео по тексту OpenAI предложила попробовать её нескольким художникам и режиссерам, чтобы собрать фидбек. Смотрим на результат.

👉 Видео

Читать полностью…

градиент обреченный

🔺 SAM 2

Meta выпустила вторую версию свой модели для сегментации (Segment Anything Model) и, если в первой версии можно было сегментировать картинку, то теперь выделять объекты можно на видео.

Кажется, что можно придумать интересные кейсы для спортивных трансляций с подсчетом статистики и всевозможные фильтры для видео-роликов. Какие еще идеи?

Лицензия Apache 2.0. Вместе с моделью релизят датасет на 51k размеченных видео.

👉 GitHub | Датасет | Пост | Демо | Статья

Читать полностью…

градиент обреченный

🔺 RuBLiMP

Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.

В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.

Завтра Олег починит модель и она начнет работать.

Завтра Олег починил модель и она начнет работать.


Все такие признаки (феномены) поделили на 45 классов и для каждого разметили по 1000 примеров. Таким образом, можно провести подробную диагностику моделей по всем этим признакам на русском языке.

👉 HF | GitHub | Статья

Читать полностью…

градиент обреченный

А тем временем канал подрос и нас с вами стало 6000. Довольно большое число, учитывая, что мы тут обсуждаем успехи в области очеловечивания машин и смежные вещи.

Друзья, всем спасибо! 🤗

Читать полностью…

градиент обреченный

🔺 GPT-4o mini. Дешевый зверь

Вышла младшая модель GPT-4o с контекстом на 128k и поддержкой картинок. Вышла на замену GPT-3.5 Turbo.

Цена. $0.6 за миллион исходящих токенов и $0.15 за миллион входящих. Это примерно в 3 раза дешевле чем 3.5-turbo и в 20+ раз дешевле обычной версии.

При использовании режима батчей, пользоваться которым очень просто (если вам нужно обработать несколько тысяч запросов в пределах нескольких часов), цена будет еще в два раза ниже.

Читать полностью…

градиент обреченный

🔺 110

🔸 Это не только средняя температура на Юпитере, но и количество языков, которые на днях добавили в Google Translate (список).

🔸 После того, как Meta выпустила модель NNLB для перевода на 200 языков, Google объявил об инициативе по поддержке 1000 языков и приблизился к обещанному уже на четверть.

🔸 При переводе также используется языковая модель (PaLM 2), а среди новых языков есть много распространенных в России (абхазский, аварский, башкирский, бурятский, чеченский, чувашский, крымско-татарский, коми, марийский, осетинский, тувинский, удмуртский, якутский).

🔸 Модель может иногда ошибается в грамматике. Подобный эффект заметен, когда вы общаетесь с языковыми моделями на русском языке, а при обучении таких данных было недостаточно.

🔸 Вообще, подобный шаг — это отличная поддержка для малоресурсных языков, перевод можно встраивать по API в приложения или использовать для того же выравнивания параллельных книг.

🔸 Чем ответит Яндекс?

Читать полностью…

градиент обреченный

🔺 Nemotron. GPT-4 у вас дома.

NVIDIA выложила в открытый доступ свою большую модель Nemotron-4 340B.

🔸 Претрейн шел на 8T токенах, затем изменили распределение данных и обучили еще на 1T токенах (пишут, что на этом этапе добавили вопросно-ответные данные и уменьшили LR). Обучали на 6144 H100.

🔸 На этапе SFT (дообучение на инструкциях), было немного размеченных людьми данных (около 20k), а 98% инструкций были синтетическими.

🔸 Данные. 70% — английский, 15% — код, 15% — мультиязычные данные (моно- и параллельные корпуса). В мультиязычной части было 53 языка, русский там в топе, 3.88%. Больше про данные есть в отчете другой модели (данные были те же).

🔸 Провели SBS тест с GPT-4-1106-preview, получили выигрыш (win : tie : loss = 28.19% : 46.57% : 25.24%).

🔸 Чтобы запустить модель у вас дома, вам понадобятся две стойки по 8 H100 или A100 (80Gb).

👉 Если стоек не нашлось, то пообщаться с моделью можно на чатбот-арене (вкладка direct chat).

👉 Тех. отчет | HF

Читать полностью…

градиент обреченный

Собрал датасетик метаданных из книжек либрусека (~500k). Может, будет полезно.

👉 HF

Читать полностью…

градиент обреченный

🔺 SD 3

Пришло письмо, что 12 июня на HF выложат веса Stable Diffusion 3.

Пока что c моделью можно поиграться на сайте в Stable Assistant с триалом на три дня. Потыкал в нее, по качеству явно получше предыдущей модели, умеет рисовать надписи на английском. Ждём.

Читать полностью…

градиент обреченный

Тестируем GPT-4o

Читать полностью…

градиент обреченный

Генрих Кампендонк писал картины в стиле Кандинского без всяких нейросетей.

Картина из Главного штаба Эрмитажа.

Читать полностью…

градиент обреченный

🔺 SAGE. Выложили модели для коррекции орфографии

Коллеги из нашей команды обучили и выложили пачку моделей в открытый доступ. Это модели для исправления ошибок на основе FRED'а и мультиязычной mT5 (одна модель для русского и английского).

Также выложили дистиллированную модель для быстрого инференса. Сравнились с платными решениями и написали про это статью, которую уже опубликовали на EACL 24.

Работать можно через библиотеку SAGE, код и примеры есть в репозитории. Прошу пробовать. Библиотеку будут развивать дальше, так что пишите свои идеи и предложения.

Upd. Issue для предложений.

👉 Хабр | GitHub | HF | Paper

Читать полностью…

градиент обреченный

Как устроено пространство, в котором думают языковые модели?

Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.

Статья, хабр

Читать полностью…

градиент обреченный

Сходил тут сдал HSK — экзамен на знание китайского языка (некоторое время учу его в свое удовольствие). Было забавно выполнять тесты в аудитории, где большинство сдающих — это дети, так как уровень экзамена самый базовый. Интересно, какого возраста будут студенты на следующих ступенях.

Признавайтесь, кто какие языки учит в качестве хобби?

Читать полностью…

градиент обреченный

#event

Друзья, через неделю проводим митап, на котором расскажем про наши наработки и опыт в разных областях — про обработку речи и жестов, 3D, NLP эксперименты, бенчмарки и GigaChat.

Тоже там буду, так что заходите, если получится дойти в рабочий день (это будет пятница), поболтаем. Трансляция будет.

Читать полностью…

градиент обреченный

#superminor

Друзья, начинаю тестировать SuperMinor, платформу для перевода датасетов, с помощью которой сообщество сможет переводить инструктивные датасеты на свои языки.

Делал его долгими зимними вечерами, постарался сделать UI красивым и понятным, а загрузку модулей по API и их хранение на бэкенде простым.

Начали переводить базовые промпты на башкирский язык, готовлю модули под другие языки.

Страничку с инструкцией добавляю, но базовый функционал готов, поэтому предлагаю попробовать попереводить отрывок датасета NLLB Seed с английского на русский, задача полезная. Просто открываем ссылку и начинаем переводить.

В интерфейсе есть возможность вставить машинный перевод, он достаточно неплохой, но после вставки его нужно подкорректировать. Все изменения сохраняются автоматически.

Посмотрите, что можно добавить, что понятно, а что нет. Пишите.

P.S. На картинку на главной странице не смотрите, сгенерировал за 5 минут тут.

👉 http://sumi.ac/about/en

Читать полностью…
Subscribe to a channel