Telegram-канал doomgrad - Градиент обреченный: Unsorted - каталог телеграмм

doomgrad | Unsorted

Subscribe to a channel

Telegram-канал doomgrad - Градиент обреченный

6811

- hfday.ru - lingtra.in - prince.lingtrain.ru - http://superminor.ru - https://habr.com/ru/users/averkij/

Subscribe to a channel

Градиент обреченный

07 Oct 2024 09:54

🔺 HFday.ru

Сделал для сообщества сайтик с обзорами статей с HF Daily Papers на русском.

Синхронизируется каждые 2 часа, можно отсортировать по рейтингу или вывести вверх недавно добавленные статьи, чего, кстати, на оригинальной страничке не сделать.

Обзор, теги и прочие данные генерируются через Claude на основе спаршенных с сайта абстрактов.

Развернуто все полностью на GitHub — через Workflow джобы и Pages, что само по себе очень прикольно. Скрипты обновляют файлы с данными, пишут логи и генерируют страничку, которая коммитится обратно в репозиторий. Такую автоматизацию удобно использовать для своих проектов, чуть позже опишу, как это настраивать.

Предыдущие выпуски откладываются в папку prev_papers. Кушает это где-то по 20-30 рублей в день (claude 3.5 sonnet). Код открыт.

В общем, добавляйте в закладки и шарьте с коллегами. Идеи приветствуются.

—
Upd. Всем привет, кто пользуется и заходит на канал. Пишите как вам, что добавить. Уже добавил сортировки, дату публикации, пофиксил баги.

👉 Сайт | Код

Читать полностью…

Градиент обреченный

01 Oct 2024 12:14

Чуть почистил скрипт по генерации обзоров статей. Сделал обзоры в стиле разных персонажей, можете поугадывать, хотя это не так сложно.

Перевел парсинг на фид NLP Newsletter со статьями за неделю. Модель — GPT-4o с json_mode, чтобы надежно возвращать все за один запрос.

P.S. Ах да, обещал выложить — скрипт.

P.P.S. Можете поменять API на бесплатный Мистраль и поиграться с ним, если нет токена от openai.

Upd. Поменял на обычный стиль, так тексты по приятней выглядят.

👉 https://averkij.github.io/top_papers/

Читать полностью…

Градиент обреченный

29 Sep 2024 18:43

Тут коллеги из CV команды совместно с Центром исследования жестового языка запустили крутую вещь — словарь РЖЯ (русского жестового языка).

Сейчас записали и выложили несколько сотен видео с разных ракурсов для различных понятий. Планируют добавить еще несколько тысяч.

По-моему, очень круто. Я бы добавил еще какой-то грамматический комментарий о том, как составлять из жестов предложения с видео-примерами или даже мини-курс по РЖЯ.

Проект будет активно развиваться, так что идеи приветствуются. Какие бы слова туда еще добавить?

👉 Сайт | Хабр

Читать полностью…

Градиент обреченный

23 Sep 2024 12:53

🔺 Mistral и бесплатный API

🔸 По-моему, очень приятная новость, для тех, кто встраивает LLM в свои пет-проекты или просто интересуется темой и не хочет на это тратиться. У Мистраля появился Free план (его надо выбрать в разделе Billing), по которому можно бесплатно вызывать модели по API.

🔸 Работает без VPN, карту привязывать не надо.

🔸 В списке моделей часть называется Free, в том числе мультимодальный Pixtral, но по факту вызываются все.

🔸 Имейте в виду, что ваши запросы на этом плане будут доступны разработчикам и могут быть использованы ими в дальнейшем.

P.S. Программист — это береза, чьи ветви цифрового кода шелестят на ветру инноваций. Mistral Large

👉 Le Chat | API

🔥 Upd. Лимиты огонь. 1 rps, 500k токенов в минуту, 1B в месяц; даже для Mistral Large. То есть по идее можно поиграться с 128k токенов, посмотреть как оно любимые книжки дописывает и т.д.

Читать полностью…

Градиент обреченный

15 Sep 2024 10:06

Ух, выровнял «Маленького принца» на удмуртском и добавил в нашу параллельную книгу-трансформер.

🔸 Добавил в Lingtrain Aligner функционал по разбиению строк (пост) после загрузки текстов, поэтому получилось более точно, плюс начал заменять отсутствующие предложения прочерком, чтобы впоследствии можно было и их добавить в готовую книгу. С остальными версиями постепенно буду делать аналогично.

🔸 Таким образом, уже есть параллельная версия книги на 18 языках — алтайском, балкарском, башкирском, дигорском, коми, кубачинском, марийском и горномарийском, мокшанском и эрзянском, орокском, татарском, удмуртским, хакасском, чувашском, якутском, русском и французском.

🔸 Делаю бурятский. Если у вас есть ещё редакции, то смело присылайте. Желательно с указанием переводчика.

👉 Книжка | GitHub

Читать полностью…

Градиент обреченный

12 Sep 2024 13:56

🔺 Pixtral

Mistral выложила веса мультимодальной модели на 12B параметров.

Сначала показалось, что она сделана на основе NeMo, но токенизаторы у них сильно отличаются.

Веса только выложили и официальных деталей/замеров я пока не видел. Через vllm нормально запускается и работает в отличии от Reflection.

Скорее всего русский язык был в обучении, так как надписи на картинках в принципе распознает, хотя иногда и ошибается. Пойдем тестить.

P.S. Коммит в mistral-common.

👉 HF

Читать полностью…

Градиент обреченный

02 Sep 2024 09:57

Почитал недавно пару книг писателя Дмитрия Данилова, в т.ч. «Описание города». В текстах не происходит ничего существенного, развитие медленное, но, если втянуться, то можно получить так называемое удовольствие от чтения.

А вы что читаете/прочитали недавно — художку, нонфишен? Поделитесь и порекомендуйте.

P.S. Из того, что в прошлый раз рекомендовали, кое-что прочитал. Больше всего понравился «Диктатор» и вообще Снегов, ГПиМРМ и «Час Быка».

📚 Что советуют подписчики

• «Ночной поезд на Лиссабон» Паскаль Мерсье
• «Significant Digits», «Orders of Magnitude» фанфики по Гарри Поттеру
• «Древний человек в городе» Пятигорского
• «Одноэтажная Америка» Ильфа и Петрова
• «Пандем» Марины и Сергея Дяченко
• «The Wings Upon Her Back» Саманты Миллс
• «Сумма технологии» Лема
• «Основание» Азимова
• «Рассуждения о первой декаде Тита Ливия» Макиавелли
• «Спин» Роберта Уилсона
• «Анафем» Стивенсона
• «Гедель, Эшер, Бах» Хофштадтера. Ну это мы все начинали читать.
• «Опыты» Монтеня

Читать полностью…

Градиент обреченный

26 Aug 2024 10:20

🔺 MYTE. Сжимаем UTF при помощи морфем.

Любопытный инженерный подход для того, чтобы нивелировать разницу между кодированием символов латинского и других алфавитов («hello» → 5 байт, «привет» → 12); а также добавить свой байтовый маппинг (несущий какую-то доп. информацию), чтобы сжать им наиболее частые последовательности кодов.

🔸 Собрали набор морфем (типа), обучив Morfessor на 99 википедиях в unsupervised режиме.

🔸 Сгруппировали их по 4096 штук в зависимости от типа алфавита (латинский, нелатинские, абджады, абгуиды и т.д.). Всего 8 групп.

🔸 Составили из них маппинг в пространство, начинающееся на байты 42-49 (8 групп алфавитов) + набор байт 80-BF (64 штуки) от 1 до 3 (так можно запихать до 64^3 последовательностей в каждую группу).

'дом' (utf-8) => ['d0', 'b4', 'd0', 'be', 'd0', 'bc']
'дом' (myte) =>  ['4c', 'a7', '83']

🔸Коды 41-5A (26 байт) использовались как заглавные буквы A-Z. Поэтому для обозначения заглавных букв стали использовать 41 как маркер.

🔸 Написали код, который этот маппинг применяет и обучили на таких байтовых последовательностях небольшие ByT5, которые назвали MyT5. По качеству получили плюс-минус то же самое, но быстрее.

Код можно взять в GitHub'е у автора статьи, маппинг можно менять на свой.

Интересно, что будет, если обучить на таком обычный BBPE токенизатор. Кажется, что добавление маппинга в кодировку равносильно добавлению в словарь токенов с такими же морфемами (?).

👉 Paper | GitHub | HF

Читать полностью…

Градиент обреченный

14 Aug 2024 21:41

Сходил на ML тренировку в Питере, пообщались с кучей классных людей. Кто тоже в Питере, пишите.

Читать полностью…

Градиент обреченный

07 Aug 2024 09:17

Выдали ранний доступ для тестирования Imagen 3. Если кому-то интересно, то до Flux и Mj пока не дотягивает...

Читать полностью…

Градиент обреченный

02 Aug 2024 21:34

У Лекса Фридмана вышло интервью с командой Neuralink и Илоном Максом на 8.5 часов. Блин, восемь с половиной часов Фридмана, как это выдержать?

https://youtu.be/Kbk9BiPhm7o?si=GWKKRF-T9reRV-DL

Читать полностью…

Градиент обреченный

02 Aug 2024 09:33

🔺 Новый лидер

Модель от Google Gemini 1.5 Pro Experimental 0801 вышла на первое место на лидерборде lmsys, где люди голосуют за подходящие им генерации.

Первое место в том числе и на русском.

P.S. Штуки с прошедшим временем на ней тоже работают.

Ждём Claude-4 и GPT-5.

👉 API | Чат с моделью (вкладка Direct Chat)

Читать полностью…

Градиент обреченный

31 Jul 2024 21:53

🔺 Как люди ломали LLM

Подсмотрел у Тани в канале очень прикольный метод переформулирования промпта, на который отказывается отвечать модель.

Выровненная на политкорректные ответы модель перестает сопротивляться и пишет как угонять машины и прятать трупы, если запрос поставлен в прошедшем времени.

Будущее время тоже работает, но хуже.

👉 Paper | GitHub

Читать полностью…

Градиент обреченный

29 Jul 2024 20:34

Будучи в Ереване на экскурсии слышал от гида множество рассказов про армянских изобретателей. И вот наткнулся в книжном на такую вещь.

Рассказывается, что хоть и есть много мифов, типа коробки передач или фена, но изобретений действительно очень много.

Есть даже глава про машинный перевод (!), в котором также одним из первых отметился ~~Шмидхубер~~ армянин.

Upd. Спасибо за ссылки:

👉 Свежий стрим от автора про его книгу.

👉 Музей изобретений в Ереване.

Читать полностью…

Градиент обреченный

26 Jul 2024 12:45

🔺 Парад LLM

За последний месяц как из рога изобилия вышло много полезных и не очень языковых моделей. Соберем в один пост.

🔸 Llama 3.1

Линейка из трех моделей 405B, 70B и 8B параметров. Есть детальный отчет об обучении, модель нативно учили под 8 языков (русского среди них нет, поэтому может ошибаться в грамматике) и использование внешних тулов.

Кроме основных моделей выпустили Llama Guard 3 и Prompt Guard для классификации вредоносных промптов и генераций.

HF | пост | тех. репорт | чат с моделью

🔸 Mistral Large 2

123B параметров и много языков, включая русский. Опять же, есть способности по вызову внешних функций. Заявляют качество на уровне GPT-4o и Claude 3 Opus. Веса также выложили на HF.

А еще в честь 2311-й годовщины Архимеда выпустили MathΣtral, 7B модель с улучшенными способностями в математике; и Codestral Mamba для анализа кода. Новая архитектура позволяет работать с увеличенным контекстом, пишут, что тестили на 256k токенов.

HF | Пост | чат с моделью

🔸 Mistral NeMo

Снова Мистраль, но на этот раз 12B и в сотрудничестве с NVIDIA. Мультиязычная (есть русский), по замерам авторов бьет недавно вышедшую Gemma 2 9B и Llama 3 8B. Контекст 128k + обновили токенизатор, теперь он гораздо лучше сжимает тексты на 100+ языках.

HF | пост

🔸 Minitron

Модели на 4B и 8B от NVIDIA. Модели получили путем дистилляции и прунинга 15B. Затраченный компьют оценили как в 40 раз меньше, чем обучать такие модели с нуля, сравнимом или лучшем значении MLLU чем у соответствующих по размеру Gemma и Llama.

Про то, как делали, рассказывают в статье.

HF | GitHub | arxiv

🔸 T-lite

Коллеги из Тинькова также поделились моделью. Особых деталей нет, кроме того, что компьют был небольшой, а качество на бенчах как у chatgpt-3.5.

На русском генерирует действительно неплохо для модели такого размера. На вопрос "кто тебя сделал?" отвечает "разработчики из OpenAI", что намекает на необходимость чистки SFT сета.

HF

🔸 Apple DCLM-7B

Да, действительно это модель от Apple. Из интересного, рассказывают про подготовку датасета (DataComp for Language Models), чистку, удаление MMLU из обучения и т.д. Пишут, что пробовали обучаться на 270 подсетах из CC, чтобы найти наиболее "правильное" распределение.

HF | arxiv

🔸 SmolLM

SoTA модели на 135M, 360M и 1.7B параметров непосредственно от HF. Для экспериментов выложили обучающие данные и, по-моему, это самое интересное.

Сделали синтетический сет Cosmopedia v2 и дополнительно пофильтровали 220B токенов из уже почищенного-перечищенного датасета FineWeb Edu.

Модельки маленькие, можно запускать локально, выложили ONNX версии и демку для запуска прямо в браузере (загружается 172Mb весов).

HF | пост | SmolLM-Corpus | Веб-демо

Читать полностью…

Градиент обреченный

02 Oct 2024 14:57

🔺 EuroLLM 1.7B Instruct

Неплохая маленькая модель от альянса UTTER, включающего в себя несколько Европейских университетов.

🔸 Обучили на 4T токенов на языках Евросоюза, причем целенаправленно добавили к ним несколько дополнительных, таких как русский, китайский, турецкий и украинский.

🔸 Токенизатор на 128k токенов с улучшенной относительно Llama 3 фертильностью для всех языков кроме английского.

🔸 В данные добавили по 20% параллельных данных en-xx, xx-en. Добавили код и математику. Обучали в два этапа, заканчивая чистыми данными.

🔸 В итоге моделька качественно генерирует на русском, в отличие от Llama, которая периодически вставляет иностранные слова или токены в текст, причем выглядит это порой очень забавно.

🔸 Зато с фантазией как раз лучше у Ламы 3.2 3B (например, она придумала слоганы для книжного магазина "Книжный ад" — "Ад в каждом томе" и "Стоимость книги: бесконечность").

Обещают обучить модели покрупнее, ждём.

👉 Статья | HF

Читать полностью…

Градиент обреченный

30 Sep 2024 09:39

Ура, досчиталось 🎉

Читать полностью…

Градиент обреченный

28 Sep 2024 14:07

Пока шел дождик, накидал скрипт, который парсит страничку с лучшими статьями по ML за неделю, выкачивает abstract'ы и лезет в Claude за объяснениями в разных стилях и генерацией дополнительной информации типа заголовков, эмодзи и тегов.

Красивый UI не смог нагенерить ни чем, так что большинство времени ушло на верстку. Стоит один такой "выпуск" где-то 0.15 долларов.

P.S. Скрипт причешу и выложу, сможете поиграться.

https://averkij.github.io/top_papers/

Читать полностью…

Градиент обреченный

17 Sep 2024 09:01

Это я выбираю, за какую задачу взяться первой.

Читать полностью…

Градиент обреченный

12 Sep 2024 20:29

Так, кажется, подвезли работающий Reflection.

We trained these models to spend more time thinking through problems before they respond, much like a person would. Through training, they learn to refine their thinking process, try different strategies, and recognize their mistakes.

https://openai.com/index/introducing-openai-o1-preview/

Upd.

» А и Б сидели на трубе. А упала, Б пропала, что осталось на трубе?

» I'm translating the Russian riddle and notice "и" means both "and" and the letter "И". This connection seems crucial for solving the riddle.

Осталась буква «и».

Читать полностью…

Градиент обреченный

03 Sep 2024 14:11

🔺 Transformer Explainer

Классная интерактивная визуализация про то, как работает трансформер.

Можно покрутить температуру и посмотреть как меняются вероятности распределения следующего токена. Можно вбить свой текст. Можно просто почитать статью под диаграммой.

Напомню также про классическую статью Illustrated Transformer

👉 Визуализация | GitHub | Видео

Читать полностью…

Градиент обреченный

28 Aug 2024 09:05

LLM Arena для русскоязычных моделей

Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!

C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b

RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.

На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.

Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!

Читать полностью…

Градиент обреченный

21 Aug 2024 08:43

Phi-3.5

В этот раз три модели:

- Phi-3.5-mini-3.8B
на бенчмарках бьет llama-3.1-8B. Была натренирована на 3.5Т токенов за 10 дней на 80хН100, контекстное окно 128к токенов.

- Phi-3.5-16x3.8B
MoE с активными 6.6B параметрами с двух экспертов. Бьет Gemini Flash. 4.9Т токенов, 23 дня обучения на 512хН100.

- Phi-3.5-V-4.2B
vision модель, которая бьет gpt-4o (?). 500В vision/text токенов, 6 дней на 256хН100.

Я буквально на прошлой неделе пользовался phi-3 и она была очень в порядке. Задача, в целом, была несложная: тегать небольшие тексты. И такая малая LLM мне очень подошла, потому что текстов десятки миллионов и протегать надо быстро. В сочетании с batched inference на vLLM всё просто летало даже на моей 4090. Хочу теперь попробовать новую версию модели. Ну и ждем Gemma-3, как симметричный ответ от Google.

Модели с описаниями на HF - тык

Читать полностью…

Градиент обреченный

08 Aug 2024 09:28

Чемпион по work-life balance.

Читать полностью…

Градиент обреченный

06 Aug 2024 17:25

🔺 Flux

🔸 Команда Black Forest Labs зарелизила несколько моделей для генерации картинок по тексту. Команда новая, но причастная к самым современным исследованиям в этой области.

🔸 Модели три — Pro, Dev и Schnell, причем последние две выложили в открытый доступ (Apache 2.0 у Schnell, non-commercial у Dev).

Прилагают картинку с SBS, на которой Pro версия выигрывает у всего, что есть, включая Ideogram, SD3, Dall-E 3 и Midjourney v6.

Открытая Dev — тоже.

👉 Убедиться в этом можно тут и тут (Pro версия, бесплатно). Можно дергать по API.

🔸 Сделал несколько описаний различных исторических сцен типа Ньютона с яблоком или Клеопатры и погенерировал их в Flux Pro. По-моему, очень круто. Видимо, ребята действительно сделали SOTA модельки.

👉 HF | GitHub | Пост

Читать полностью…

Градиент обреченный

02 Aug 2024 09:56

Ой-ой-ой, полегче.

#agi_остановись

Читать полностью…

Градиент обреченный

01 Aug 2024 09:05

Во, так тоже работает. #gpt4o

Читать полностью…

Градиент обреченный

30 Jul 2024 16:52

🔺 SAM 2

Meta выпустила вторую версию свой модели для сегментации (Segment Anything Model) и, если в первой версии можно было сегментировать картинку, то теперь выделять объекты можно на видео.

Кажется, что можно придумать интересные кейсы для спортивных трансляций с подсчетом статистики и всевозможные фильтры для видео-роликов. Какие еще идеи?

Лицензия Apache 2.0. Вместе с моделью релизят датасет на 51k размеченных видео.

👉 GitHub | Датасет | Пост | Демо | Статья

Читать полностью…

Градиент обреченный

28 Jul 2024 09:27

🔺 RuBLiMP

Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.

В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.

Завтра Олег починит модель и она начнет работать.

Завтра Олег починил модель и она начнет работать.

Все такие признаки (феномены) поделили на 45 классов и для каждого разметили по 1000 примеров. Таким образом, можно провести подробную диагностику моделей по всем этим признакам на русском языке.

👉 HF | GitHub | Статья

Читать полностью…

Градиент обреченный

22 Jul 2024 15:04

А тем временем канал подрос и нас с вами стало 6000. Довольно большое число, учитывая, что мы тут обсуждаем успехи в области очеловечивания машин и смежные вещи.

Друзья, всем спасибо! 🤗

Читать полностью…

Subscribe to a channel