doomgrad | Unsorted

Telegram-канал doomgrad - градиент обреченный

6541

— Машинное обучение, NLP/CV — HFday.ru — lingtra.in

Subscribe to a channel

градиент обреченный

Почитал недавно пару книг писателя Дмитрия Данилова, в т.ч. «Описание города». В текстах не происходит ничего существенного, развитие медленное, но, если втянуться, то можно получить так называемое удовольствие от чтения.

А вы что читаете/прочитали недавно — художку, нонфишен? Поделитесь и порекомендуйте.

P.S. Из того, что в прошлый раз рекомендовали, кое-что прочитал. Больше всего понравился «Диктатор» и вообще Снегов, ГПиМРМ и «Час Быка».

📚 Что советуют подписчики

• «Ночной поезд на Лиссабон» Паскаль Мерсье
• «Significant Digits», «Orders of Magnitude» фанфики по Гарри Поттеру
• «Древний человек в городе» Пятигорского
• «Одноэтажная Америка» Ильфа и Петрова
• «Пандем» Марины и Сергея Дяченко
• «The Wings Upon Her Back» Саманты Миллс
• «Сумма технологии» Лема
• «Основание» Азимова
• «Рассуждения о первой декаде Тита Ливия» Макиавелли
• «Спин» Роберта Уилсона
• «Анафем» Стивенсона
• «Гедель, Эшер, Бах» Хофштадтера. Ну это мы все начинали читать.
• «Опыты» Монтеня

Читать полностью…

градиент обреченный

🔺 MYTE. Сжимаем UTF при помощи морфем.

Любопытный инженерный подход для того, чтобы нивелировать разницу между кодированием символов латинского и других алфавитов («hello» → 5 байт, «привет» → 12); а также добавить свой байтовый маппинг (несущий какую-то доп. информацию), чтобы сжать им наиболее частые последовательности кодов.

🔸 Собрали набор морфем (типа), обучив Morfessor на 99 википедиях в unsupervised режиме.

🔸 Сгруппировали их по 4096 штук в зависимости от типа алфавита (латинский, нелатинские, абджады, абгуиды и т.д.). Всего 8 групп.

🔸 Составили из них маппинг в пространство, начинающееся на байты 42-49 (8 групп алфавитов) + набор байт 80-BF (64 штуки) от 1 до 3 (так можно запихать до 64^3 последовательностей в каждую группу).

'дом' (utf-8) => ['d0', 'b4', 'd0', 'be', 'd0', 'bc']
'дом' (myte) => ['4c', 'a7', '83']


🔸Коды 41-5A (26 байт) использовались как заглавные буквы A-Z. Поэтому для обозначения заглавных букв стали использовать 41 как маркер.

🔸 Написали код, который этот маппинг применяет и обучили на таких байтовых последовательностях небольшие ByT5, которые назвали MyT5. По качеству получили плюс-минус то же самое, но быстрее.

Код можно взять в GitHub'е у автора статьи, маппинг можно менять на свой.

Интересно, что будет, если обучить на таком обычный BBPE токенизатор. Кажется, что добавление маппинга в кодировку равносильно добавлению в словарь токенов с такими же морфемами (?).

👉 Paper | GitHub | HF

Читать полностью…

градиент обреченный

Сходил на ML тренировку в Питере, пообщались с кучей классных людей. Кто тоже в Питере, пишите.

Читать полностью…

градиент обреченный

Выдали ранний доступ для тестирования Imagen 3. Если кому-то интересно, то до Flux и Mj пока не дотягивает...

Читать полностью…

градиент обреченный

У Лекса Фридмана вышло интервью с командой Neuralink и Илоном Максом на 8.5 часов. Блин, восемь с половиной часов Фридмана, как это выдержать?

https://youtu.be/Kbk9BiPhm7o?si=GWKKRF-T9reRV-DL

Читать полностью…

градиент обреченный

🔺 Новый лидер

Модель от Google Gemini 1.5 Pro Experimental 0801 вышла на первое место на лидерборде lmsys, где люди голосуют за подходящие им генерации.

Первое место в том числе и на русском.

P.S. Штуки с прошедшим временем на ней тоже работают.

Ждём Claude-4 и GPT-5.

👉 API | Чат с моделью (вкладка Direct Chat)

Читать полностью…

градиент обреченный

🔺 Как люди ломали LLM

Подсмотрел у Тани в канале очень прикольный метод переформулирования промпта, на который отказывается отвечать модель.

Выровненная на политкорректные ответы модель перестает сопротивляться и пишет как угонять машины и прятать трупы, если запрос поставлен в прошедшем времени.

Будущее время тоже работает, но хуже.

👉 Paper | GitHub

Читать полностью…

градиент обреченный

Будучи в Ереване на экскурсии слышал от гида множество рассказов про армянских изобретателей. И вот наткнулся в книжном на такую вещь.

Рассказывается, что хоть и есть много мифов, типа коробки передач или фена, но изобретений действительно очень много.

Есть даже глава про машинный перевод (!), в котором также одним из первых отметился Шмидхубер армянин.

Upd. Спасибо за ссылки:

👉 Свежий стрим от автора про его книгу.

👉 Музей изобретений в Ереване.

Читать полностью…

градиент обреченный

🔺 Парад LLM

За последний месяц как из рога изобилия вышло много полезных и не очень языковых моделей. Соберем в один пост.

🔸 Llama 3.1

Линейка из трех моделей 405B, 70B и 8B параметров. Есть детальный отчет об обучении, модель нативно учили под 8 языков (русского среди них нет, поэтому может ошибаться в грамматике) и использование внешних тулов.

Кроме основных моделей выпустили Llama Guard 3 и Prompt Guard для классификации вредоносных промптов и генераций.

HF | пост | тех. репорт | чат с моделью

🔸 Mistral Large 2

123B параметров и много языков, включая русский. Опять же, есть способности по вызову внешних функций. Заявляют качество на уровне GPT-4o и Claude 3 Opus. Веса также выложили на HF.

А еще в честь 2311-й годовщины Архимеда выпустили MathΣtral, 7B модель с улучшенными способностями в математике; и Codestral Mamba для анализа кода. Новая архитектура позволяет работать с увеличенным контекстом, пишут, что тестили на 256k токенов.

HF | Пост | чат с моделью

🔸 Mistral NeMo

Снова Мистраль, но на этот раз 12B и в сотрудничестве с NVIDIA. Мультиязычная (есть русский), по замерам авторов бьет недавно вышедшую Gemma 2 9B и Llama 3 8B. Контекст 128k + обновили токенизатор, теперь он гораздо лучше сжимает тексты на 100+ языках.

HF | пост

🔸 Minitron

Модели на 4B и 8B от NVIDIA. Модели получили путем дистилляции и прунинга 15B. Затраченный компьют оценили как в 40 раз меньше, чем обучать такие модели с нуля, сравнимом или лучшем значении MLLU чем у соответствующих по размеру Gemma и Llama.

Про то, как делали, рассказывают в статье.

HF | GitHub | arxiv

🔸 T-lite

Коллеги из Тинькова также поделились моделью. Особых деталей нет, кроме того, что компьют был небольшой, а качество на бенчах как у chatgpt-3.5.

На русском генерирует действительно неплохо для модели такого размера. На вопрос "кто тебя сделал?" отвечает "разработчики из OpenAI", что намекает на необходимость чистки SFT сета.

HF

🔸 Apple DCLM-7B

Да, действительно это модель от Apple. Из интересного, рассказывают про подготовку датасета (DataComp for Language Models), чистку, удаление MMLU из обучения и т.д. Пишут, что пробовали обучаться на 270 подсетах из CC, чтобы найти наиболее "правильное" распределение.

HF | arxiv

🔸 SmolLM

SoTA модели на 135M, 360M и 1.7B параметров непосредственно от HF. Для экспериментов выложили обучающие данные и, по-моему, это самое интересное.

Сделали синтетический сет Cosmopedia v2 и дополнительно пофильтровали 220B токенов из уже почищенного-перечищенного датасета FineWeb Edu.

Модельки маленькие, можно запускать локально, выложили ONNX версии и демку для запуска прямо в браузере (загружается 172Mb весов).

HF | пост | SmolLM-Corpus | Веб-демо

Читать полностью…

градиент обреченный

🎬Сегодня вышел выпуск на канале Основа

Получилось довольно круто на мой взгляд! Поговорили с Борисом про современные тренды в ИИ, подискутировали про будущее и возможности современных технологий.

Приглашаю всех посмотреть, выходной как раз этому способствует! Заранее спасибо за просмотр🙏

👉Подкаст

Читать полностью…

градиент обреченный

Тестируем новый функционал.

Читать полностью…

градиент обреченный

🔺 «Маленький принц» на хакасском

Благодаря Василию Адешкину @adskat, удалось собрать средства на перевод книги на хакасский язык и, собственно, перевести её (перевел Илья Топоев). Большое им спасибо!

📚 Текст выровнял и добавил к другим редакциям, так что можно читать книгу в любых языковых комбинациях.

👉 Книжка, чат

Читать полностью…

градиент обреченный

Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»

Читать полностью…

градиент обреченный

🔺 DPF

Тут коллеги решили выложить в открытый доступ инструмент, которым обрабатывают данные — Data Processing Framework.

Основной упор на картинки, видео и оптимизации по их обработке (коллеги обучают Kandinsky), для текстов тоже есть фильтры типа детекции языка и автоперевода.

Задачки довольно частые при работе с данными, поэтому рекомендую к использованию (если чего-то не хватает, то оставляйте Issue на GitHub). Собрал простой колаб с примером определения языка. В документации есть много других рабочих примеров.

👉 GitHub | Хабр | Colab

Читать полностью…

градиент обреченный

С пониманием новых шуток, по-моему, справляется плюс-минус также, в целом нравится.

Заявлена мультиязычность, пишите что перевести и на какой язык, проверим как она переводит.

Читать полностью…

градиент обреченный

LLM Arena для русскоязычных моделей

Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!

C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b

RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.

На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.

Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!

Читать полностью…

градиент обреченный

Phi-3.5

В этот раз три модели:

- Phi-3.5-mini-3.8B
на бенчмарках бьет llama-3.1-8B. Была натренирована на 3.5Т токенов за 10 дней на 80хН100, контекстное окно 128к токенов.

- Phi-3.5-16x3.8B
MoE с активными 6.6B параметрами с двух экспертов. Бьет Gemini Flash. 4.9Т токенов, 23 дня обучения на 512хН100.

- Phi-3.5-V-4.2B
vision модель, которая бьет gpt-4o (?). 500В vision/text токенов, 6 дней на 256хН100.

Я буквально на прошлой неделе пользовался phi-3 и она была очень в порядке. Задача, в целом, была несложная: тегать небольшие тексты. И такая малая LLM мне очень подошла, потому что текстов десятки миллионов и протегать надо быстро. В сочетании с batched inference на vLLM всё просто летало даже на моей 4090. Хочу теперь попробовать новую версию модели. Ну и ждем Gemma-3, как симметричный ответ от Google.

Модели с описаниями на HF - тык

Читать полностью…

градиент обреченный

Чемпион по work-life balance.

Читать полностью…

градиент обреченный

🔺 Flux

🔸 Команда Black Forest Labs зарелизила несколько моделей для генерации картинок по тексту. Команда новая, но причастная к самым современным исследованиям в этой области.

🔸 Модели три — Pro, Dev и Schnell, причем последние две выложили в открытый доступ (Apache 2.0 у Schnell, non-commercial у Dev).

Прилагают картинку с SBS, на которой Pro версия выигрывает у всего, что есть, включая Ideogram, SD3, Dall-E 3 и Midjourney v6.

Открытая Dev — тоже.

👉 Убедиться в этом можно тут и тут (Pro версия, бесплатно). Можно дергать по API.

🔸 Сделал несколько описаний различных исторических сцен типа Ньютона с яблоком или Клеопатры и погенерировал их в Flux Pro. По-моему, очень круто. Видимо, ребята действительно сделали SOTA модельки.

👉 HF | GitHub | Пост

Читать полностью…

градиент обреченный

Ой-ой-ой, полегче.

#agi_остановись

Читать полностью…

градиент обреченный

Во, так тоже работает. #gpt4o

Читать полностью…

градиент обреченный

🔺 SAM 2

Meta выпустила вторую версию свой модели для сегментации (Segment Anything Model) и, если в первой версии можно было сегментировать картинку, то теперь выделять объекты можно на видео.

Кажется, что можно придумать интересные кейсы для спортивных трансляций с подсчетом статистики и всевозможные фильтры для видео-роликов. Какие еще идеи?

Лицензия Apache 2.0. Вместе с моделью релизят датасет на 51k размеченных видео.

👉 GitHub | Датасет | Пост | Демо | Статья

Читать полностью…

градиент обреченный

🔺 RuBLiMP

Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.

В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.

Завтра Олег починит модель и она начнет работать.

Завтра Олег починил модель и она начнет работать.


Все такие признаки (феномены) поделили на 45 классов и для каждого разметили по 1000 примеров. Таким образом, можно провести подробную диагностику моделей по всем этим признакам на русском языке.

👉 HF | GitHub | Статья

Читать полностью…

градиент обреченный

А тем временем канал подрос и нас с вами стало 6000. Довольно большое число, учитывая, что мы тут обсуждаем успехи в области очеловечивания машин и смежные вещи.

Друзья, всем спасибо! 🤗

Читать полностью…

градиент обреченный

🔺 GPT-4o mini. Дешевый зверь

Вышла младшая модель GPT-4o с контекстом на 128k и поддержкой картинок. Вышла на замену GPT-3.5 Turbo.

Цена. $0.6 за миллион исходящих токенов и $0.15 за миллион входящих. Это примерно в 3 раза дешевле чем 3.5-turbo и в 20+ раз дешевле обычной версии.

При использовании режима батчей, пользоваться которым очень просто (если вам нужно обработать несколько тысяч запросов в пределах нескольких часов), цена будет еще в два раза ниже.

Читать полностью…

градиент обреченный

🔺 110

🔸 Это не только средняя температура на Юпитере, но и количество языков, которые на днях добавили в Google Translate (список).

🔸 После того, как Meta выпустила модель NNLB для перевода на 200 языков, Google объявил об инициативе по поддержке 1000 языков и приблизился к обещанному уже на четверть.

🔸 При переводе также используется языковая модель (PaLM 2), а среди новых языков есть много распространенных в России (абхазский, аварский, башкирский, бурятский, чеченский, чувашский, крымско-татарский, коми, марийский, осетинский, тувинский, удмуртский, якутский).

🔸 Модель может иногда ошибается в грамматике. Подобный эффект заметен, когда вы общаетесь с языковыми моделями на русском языке, а при обучении таких данных было недостаточно.

🔸 Вообще, подобный шаг — это отличная поддержка для малоресурсных языков, перевод можно встраивать по API в приложения или использовать для того же выравнивания параллельных книг.

🔸 Чем ответит Яндекс?

Читать полностью…

градиент обреченный

🔺 Nemotron. GPT-4 у вас дома.

NVIDIA выложила в открытый доступ свою большую модель Nemotron-4 340B.

🔸 Претрейн шел на 8T токенах, затем изменили распределение данных и обучили еще на 1T токенах (пишут, что на этом этапе добавили вопросно-ответные данные и уменьшили LR). Обучали на 6144 H100.

🔸 На этапе SFT (дообучение на инструкциях), было немного размеченных людьми данных (около 20k), а 98% инструкций были синтетическими.

🔸 Данные. 70% — английский, 15% — код, 15% — мультиязычные данные (моно- и параллельные корпуса). В мультиязычной части было 53 языка, русский там в топе, 3.88%. Больше про данные есть в отчете другой модели (данные были те же).

🔸 Провели SBS тест с GPT-4-1106-preview, получили выигрыш (win : tie : loss = 28.19% : 46.57% : 25.24%).

🔸 Чтобы запустить модель у вас дома, вам понадобятся две стойки по 8 H100 или A100 (80Gb).

👉 Если стоек не нашлось, то пообщаться с моделью можно на чатбот-арене (вкладка direct chat).

👉 Тех. отчет | HF

Читать полностью…

градиент обреченный

Собрал датасетик метаданных из книжек либрусека (~500k). Может, будет полезно.

👉 HF

Читать полностью…

градиент обреченный

🔺 SD 3

Пришло письмо, что 12 июня на HF выложат веса Stable Diffusion 3.

Пока что c моделью можно поиграться на сайте в Stable Assistant с триалом на три дня. Потыкал в нее, по качеству явно получше предыдущей модели, умеет рисовать надписи на английском. Ждём.

Читать полностью…

градиент обреченный

Тестируем GPT-4o

Читать полностью…
Subscribe to a channel