senior_augur | Unsorted

Telegram-канал senior_augur - Старший Авгур

5407

Сохраненки и шитпост про ML от @YallenGusev Чат канала: @augur_chat

Subscribe to a channel

Старший Авгур

Ещё один вопрос, на который отвечают только топовые проприетарные модели.

Читать полностью…

Старший Авгур

Вопрос, достойный задавания языковым моделям (отвечает Sonnet 3.5)

Читать полностью…

Старший Авгур

Сделал маленькую консольную программку на Textual для ручной фильтрации датасета. Напрямую читать JSON'ы надоело.

Читать полностью…

Старший Авгур

Для полноты — gpt-4o просто выдумал цитату, что по-моему гораздо хуже.

Читать полностью…

Старший Авгур

Короче, я отведу на пару недель на доработку данных и настройку метричек, новых моделей не будет, только может одну версию Геммы доделаю. А там уже ACL, и ещё неделю тоже ничего не будет, кроме постов про статьи.

Что хочу сделать по SFT:
- Там скопилось 3к-4к диалогов в боте, их нужно обработать. Часть уйдёт на промпты для предпочтений, часть в тест-сет.
- Долью хорошие диалоги из перевода Пиппы, поищу другие варианты RP сетов на русском.
- Переоценю весь SFT сет новым Соннетом, оставлю только 8+ по обеим моделям (Опусу и новому Соннету).
- Соберу обучающую выборку с картинками и вызовами инструментов.

Что хочу сделать по предпочтениям:
- Долить больше многоходовых промптов
- Тоже переоценить всё Соннетом, может как-то ансамблировать оценки

По метрикам:
- Набрать тест-сет из диалогов в боте
- Сделать аналог Creative writing и RP бенчмарков для русского

Читать полностью…

Старший Авгур

Сайга на T-lite. Есть, правда, нюанс — мне SFT версия органолептически нравится больше, чем KTO версия и Гемма. Попробую другие модели-оценщики.

Читать полностью…

Старший Авгур

Unsloth, я тебя понял...

Читать полностью…

Старший Авгур

Выложил Сайгу на Гемме: ссылка
В боте тоже доступна после /setmodel.

Читать полностью…

Старший Авгур

Скриншот 18+
Расцензуренная версия модели: ссылка
Имхо, более чем достойно

Читать полностью…

Старший Авгур

Шахматы и языковые модели, часть 2
Первая часть: ссылка

🤴 Слой 2: модели мира
Хорошо, ну вот мы выучили сеть предсказывать следующий ход. Но понимают ли сети, а что вообще происходит на доске? Понимают ли, где стоят фигуры? Понимают ли, почему выбранный ход — лучший?

Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task
Статья: ссылка
Emergent Linear Representations in World Models of Self-Supervised Sequence Models
Статья: ссылка
Пост: ссылка

Статьи не про шахматы, а про отелло, вариант реверси с фиксированным расположением первых 4 фишек. Эти статьи довольно сильно повлияли на последующие статьи про шахматы и механистическую интерпретируемость в целом. Авторы выбрали эту игру, потому что она проще шахмат, но недостаточно проста, чтобы можно было запомнить все ходы

Взяли 2 датасета: один маленький (140к) из онлайн-чемпионатов и один синтетический из случайных листьев игрового дерева (4кк). Как можно заметить, цель была не в том, чтобы модель хороша играла: случайные листья не научат этому модель. Обучили маленькую GPT на аналоге PGN, тут это просто координаты каждого хода.

А дальше начинается серия наблюдений:
- Модель научилась делать ход по правилам в 99.99% случаев, причём из любой позиции.
- Из активаций сети можно восстановить, какая фишка сейчас в заданном месте доски. Более того, во второй статье показывается, что если спрашивать не "чёрная/белая/никакая", а "моя/чужая/никакая", то достаточно обучить один линейный слой (зонд), чтобы эту информацию извлечь с точностью более 99%. Это и означает наличие "модели мира", но никак не показывает, эта модель действительно задействуется при генерации ходов.
- Если поменять активации сети так, чтобы линейный зонд показывал другое состояние доски, модель меняет свои предсказания соответствующим образом. Меняют активации на слое N и последующих, на последнем токене. И вот это уже прямое доказательство того, что "модель мира" не только существует, но и используется сеткой.
- Во второй статье авторы находят разные прикольные схемы в активациях, типа запоминания, какие фишки переворачивались, или изменения режима работы модели в эндшпилях.

Почему это ценные статьи? Потому что они разбивают аргумент о стохастических попугаях, пусть и не совсем для языковых моделей. Если бы модель просто запомнила партии из обучающей выборки, ни одно из наблюдений выше не было бы возможно. Ого, модели машинного обучения умеют обобщать 😱


OthelloGPT learned a bag of heuristics
Пост: ссылка

А вот в этом посте немного охлаждаются головы и ставится вопрос о том, как именно модель определяет состояние доски и ходы по правилам. И если вы думали, что где-то в модели зашит эффективный алгоритм определения легального хода или хотя бы того, чья фишка лежит на определённой клетке, то нет, это просто набор эвристик в стиле "сыгран A4 & B4 занят & C4 занят -> пометь B4, C4 и D4 как 'чужие'". Да и вспомните про 0.01% 😐

Другой вопрос: а может ли вообще эффективный алгоритм в принципе работать на архитектуре трансформеров? Спойлер: скорее всего не может, но об этом в следующей части (если я смогу в сложность).


Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models
Статья: ссылка
Пост: ссылка

Прямой идеологический наследник OthelloGPT, но для шахмат. Датасет — 16кк игр с Lichess. Учили GPT на PGN, причём с посимвольной токенизацией 😳

ELO получился ожидаемо так себе, аналогичный моделям из первой части. Но зато авторы показывают, что те же самые линейные зонды работают и здесь, причём различим не только цвет, но и фигуры. Кроме того, авторы обучили классификатор на базе активаций, предсказывающий рейтинг игроков, и он тоже работает с неплохой точностью. Ну и само собой, повторяют часть со вмешательством в активации, там тоже всё работает.

Читать полностью…

Старший Авгур

Приглашаем на лекцию "Quantum Machine Learning: Future Revolution in AI"

Лектор: Никита Серов, PhD, руководитель лаборатории "Генеративный дизайн молекулярных машин"

Искусственный интеллект уже стал ключевым фактором перемен в XXI веке, о котором говорят в каждом втором новостном сюжете. Но существуют ли фундаментальные проблемы, которые могут ограничить развитие современных технологий ИИ в ближайшем будущем? На этой лекции вы узнаете, как квантовые эффекты способны перевернуть с ног на голову самые базовые идеи машинного обучения и произвести революцию в области ИИ.

Описание лекции:

Эта лекция предоставит уникальную возможность заглянуть за горизонт текущих технологий ИИ и понять, как квантовые вычисления могут кардинально изменить правила игры. Никита Серов, PhD, руководитель лаборатории "Генеративный дизайн молекулярных машин", как человек со знанием квантовой химии и ИИ, взял на себя задачу структурировать основные достижения в этой области и выделил плюсы и минусы новой технологии.

В ходе лекции будут рассмотрены следующие ключевые вопросы:
- Какие ограничения существуют у современных методов машинного обучения?
- Как квантовые эффекты могут преодолеть эти ограничения?
- Какие перспективы открываются перед ИИ благодаря квантовым вычислениям?
- Примеры реальных приложений квантового машинного обучения в химии и материаловедении.

👩‍🔬👨‍🔬Для кого подойдет эта лекция:

Лекция будет интересна всем любителям ИИ, владеющим английским языком. Входных требований нет, однако для более глубокого понимания материала полезно иметь базовые знания в области линейной алгебры и квантовой механики.

🌐 Эта лекция станет первой в серии "The era after AI we know", где мы будем обсуждать будущее ИИ, естественного интеллекта и нейроморфных вычислений.

🔥Не упустите шанс узнать о передовых разработках и обсудить будущие перспективы.

Дата и время проведения: 26 июля, 17:00

Место проведения: университет ИТМО, Ломоносова 9, аудитория 1303/8 Медиацентр

❗️Язык лекции: английский ❗️

⚡️ Регистрация по ссылке ⚡️

Мы ждем вас на нашей лекции!

🖥 Также будет вестись трансляция и запись лекции. Чтобы не пропустить - подписывайтесь на телеграм-канал лаборатории.

Читать полностью…

Старший Авгур

gpt-4o-mini доступна в боте с большими лимитами. Картинки она тоже умеет читать. Переключать модели можно как обычно, через /setmodel.

Читать полностью…

Старший Авгур

Посмеялся с текущих результатов русской арены. Я хз, в какой такой вселенной v7 лучше, чем 70b модели, или чем Хайку. Бедный YandexGPT 3 Pro так вообще утонул.

Читать полностью…

Старший Авгур

Если хочешь, чтобы что-то было сделано, сделай это сам.
Образ с vllm для runpod, который поддерживает вторую Гемму: ссылка
Патч: ссылка
Вторая Гемма доступна в боте. Только системные промпты в неё не пихайте, она их не поддерживает.

Читать полностью…

Старший Авгур

Счастье было так близко...
Но оно ещё не работает, код vllm немножко критично поменялся за месяц.

Читать полностью…

Старший Авгур

Закончил размечать новые данные, в итоге вышло 1600 примеров, отправил их в стандартный пайплайн (оценка + темы + langid + регулярки).
С программкой для фильтрации было действительно проще, вот код. На скриншоте можно увидеть, как она в итоге выглядит.
Дальше буду ей же отбирать тест-сет.

Читать полностью…

Старший Авгур

😁

Читать полностью…

Старший Авгур

CoT вариант 3.5 Sonnet'а (смотрю https://www.youtube.com/watch?v=yBL7J0kgldU, там как раз про похожее в 3.2).

Читать полностью…

Старший Авгур

Интересный пример ответа 3.5 Sonnet'а. Во-первых, он дословно помнит отрывок из Мастера и Маргариты. Я проверил, там нет ошибок. Но, во-вторых, это ему не помогло! Пива-то не было, что явно следует из процитированного отрывка, и вся цепочка рассуждений ложна.

Читать полностью…

Старший Авгур

😳 какой-то урожайный сезон — новая моделька от Mistral 🇫🇷, Large 2 (на 123B параметров)

1) 128K контекст (как у LLAMA-3.1)
2) Поддержка языков: Английский, французский, немецкий, испанский, итальянский, португальский, голландский, русский, китайский, японский, корейский, арабский и хинди
3) прокачали математику и программирование — на картинке метрики для разных ЯП на бенчмарке MultiPL-E
4) также, как и в LLAMA-3.1, улучшили следование инструкциям и использование инструментов
5) лицензия не позволяет коммерческое использование, но можно свободно заниматься исследовательской деятельностью

Блог
Модель на HF 🤗

Возможно, моделька потеряется на фоне релизов LLAMA (кроме мб программирования). Она слишком большая для локального использования, а в API есть LLAMA побольше и покачественнее, и поменьше но подешевле, ну и OpenAI никуда не делись. Зато на La Platforme можно будет теперь запускать дообучение. Цена у самих французов $3 и $9 за миллион токенов на входе/выходе — СИИИИЛЬНО больше 70B LLAMA, и совсем немногим дешевле GPT-4o.

Читать полностью…

Старший Авгур

Папка уже много поговорила про меня, время поговорить про папку 👍

Во-первых, это единственная папка в Телеграме, на бОльшую часть каналов которой я был подписан даже до её создания. Некоторых авторов я знаю лично и давно, некоторых — по известному в узких кругах чату, большинство же я просто регулярно читаю 👍

Во-вторых, каналы прошли строгий отбор, за что спасибо Борису. Он лично проверил каждый канал и вынес мусор 😂

В-третьих, отдельно хочу отметить некоторых каналы. Just Links — тот самый канал, статьи из которого используются как основа моих постов. Вместе с Daily Papers на HF они покрывают практически всё, что стоит читать. Другой классный канал — Нейронный Кот, где последние посты на очень близкую мне тематику: role-play и мёржи.

Ссылка на папку (ещё раз): /channel/addlist/C_RSYpbW5mIyMjVi

Читать полностью…

Старший Авгур

Осталось выяснить, какого чёрта embed_tokens и lm_head опять связались после KTO-тюна...

Читать полностью…

Старший Авгур

Мои попытки собрать Сайгу на Гемме. Видно, что я никак не могу попасть в оригинальную длину. Пока выложу d11 как saiga_gemma2_10b, v1.

По метрикам она хуже, но хоть поддерживает системный промпт и расцензурена.

Читать полностью…

Старший Авгур

T-lite доступна в боте. Из скриншота видно, что есть серьёная проблема: x1.5 к длине ответа. Из этого же следует, что чиселки на бенчмарках завышены.

Модель — это доученная Llama-3 в несколько этапов на большом русском корпусе. Ещё раз: это не инстракт-тюн. Это почти что Вихрь, но не совсем, потому что токенизатор тот же.

Не поймите меня неправильно, модель отличная. Вторая Гемма и (возможно) Мистраль-Немо лучше, но они и больше. Эту модель можно в bf16 хостить в 24 Гб, как и оригинальную третью Лламу. При этом качество после доработки напильником у неё будет выше, чем у третьей Лламы.

Читать полностью…

Старший Авгур

Следующий пузырь после ИИ? 😁
А так про квантовые компьютеры я слышал ещё лет 7 назад, у нас даже был мини-курс про них в универе. Одна моя подруга и поныне ими занимается.

Читать полностью…

Старший Авгур

Mistral NeMo доступна в боте. Быстро? А чего вы ожидали, я теперь могу пересобирать контейнеры.

Читать полностью…

Старший Авгур

Drop-in replacement, говорили они...

Читать полностью…

Старший Авгур

Мой старый враг, bos токен, опять всё поломал. Если что-то спрашивали, сделайте /reset и спросите ещё раз, должно стать лучше.

Читать полностью…

Старший Авгур

Спасибо Игорю,
https://mistral.ai/news/mistral-nemo/

Архитектурно как будто бы старый добрый Мистраль, но с ещё лучшим токенизатором и заявленными метриками выше Геммы.

Читать полностью…

Старший Авгур

Ну так-то лучше. Только всё ещё часть промптов зацензурена.

Читать полностью…
Subscribe to a channel