Qwen2.5-Coder
- 23T токенов в претрене
- 23Т токенов пролито через 0.5b модель и она приросла по метрикам до уровня gemma2b которая как llama2 7b. Чтож.
- Добавили Math данных из Qwen Math
- В SandBox проверяли код на компилируемость
- Учили на FileLevel - те внутрь контекста складывали файл кода целиком
- Учили с <FILL IN THE MIDDLE> ака MLM таской - это важно для решения разных бенчей
<|repo_name|>{repo_name}
<|file_sep|>{file_path1}
{file_content1}
<|file_sep|>{file_path2}
{file_content2}
<|file_sep|>{file_path3}
<|fim_prefix|>{code_pre}<|fim_suffix|>{code_suf}<|fim_middle|>{code_fim}<|endoftext|>
англоязычное пространство: openai, antropic, google, meta, куча китайских лаб с сотнями сотрудников дерутся за лучшие претрены, и лучшие aligemntы, опенсурс делается на огромные гранты , гиганты выдают в опенсурс llama и gemma
русскоязычное пространство: э, ну у нас есть три команды энтузиастов которые на свои деньги что то делают.
Еще есть бигтехи со своими претренами, но туда мы не ходим, там 7б модели по 20usd/m токенов
ну раз речь про диффузии пошла...
https://huggingface.co/learn/diffusion-course/unit0/1
- почему latent>pixel diffusion
- не велосипедный код, diffusers, torch и трансформерс - короче то что от вас будут реально ждать)))
- интуиция для аудио/видео + все нужные статьи и интуиция
- имплементация ddpm - уже не очень актуальная, но все еще необходимая
- что такое guidence, class сonditioned, improved diffusion models
- Что такое SD и с чем его едят, без этой инфорамации вас не возьмут никуда
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
Я опубликовал простой аудио AE. По сути, это адаптированный SoundStream, из которого я убрал дискретные токены, оставив только латентные представления.
Читать полностью…Выложил v2 версию Сайги Немо. Основных изменений 3:
- Я убрал 80+ примеров из SFT, в которых использовались системные промпты персонажей из ПингПонга. Они появились там до ПингПонга из логов бота, собственно сам лидерборд я собирал на их основе. Это может считаться утечкой, поэтому они убраны из обучения.
- В SimPO датасете я агрессивнее порезал длину и увеличил вес SFT лосса, чтобы укоротить ответы и уменьшить количество выдуманных слов.
- Дотюнил на Достоевском и смёржил ровно так, как я делал для Вихря.
На ПингПонге стало лучше, на арене пока нет результатов.
Если кому-то захочется остаться на v1, везде можно указать ревизию, они есть в карточке модели.
GGUF'ы будут завтра.
вообще репорт интересный, медианный участник опроса прямо кричит "я унылая посредственность из богом забытой команды в глубине сбера"
Читать полностью…все ваши диффзуии будут хуже хорошей llm и вот почему
1) Диффузии не нативно работают с текстом и промптами, а через эмбед. Те при работе с промптом вам в начале надо пролить его через ллм которая увеличит его до 256 токенов для т5, и только потом сунуть через cross-attn в диффузии. Suck какой то...
Что делать?
Совать мультимодалку в LLM что еще делать то...
Это очень сложно, потому что neural codec это всегда сложно, есть всякие LWM-Dalle1 и прочее на vqtokenizer, но везде картинки-видео старались пихнуть в сколько то осмысленный контекст(до 32к) и изза этого плотность информации страдала. Бонусом это хуевый картинко генератор и хуевая vlm и хуевая LM. Примеры: chamelion1-2
Nvidia вчера дропнули Cosmos Tokenizer - vqvae который еще и может быть темпоральным, еще и может стримится, SOTA по их собственным замерам и 1024 картинку можно кодировать в 2048 токенов!
Статьи нормальной нет, но блогпост интересный
Релиз GigaChat MAX! (ссылка на Хабр)
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
Русские фаундеры спешат на новую когорту YC после победы Трампа на выборах. Картина в цвете 2025.
Читать полностью…Ура. Наконец зарелизил:
recoilme-sdxl
файнтюн, над которым я работал последние три месяца.
За это время правда вышло 100500 новых архитектур моделей, но не бросать же..
telegram bot (20/day free): @charsaibot
hf: https://huggingface.co/recoilme/recoilme-sdxl-v11
civit: https://civitai.com/models/920626?modelVersionId=1030470
reddit: https://www.reddit.com/r/StableDiffusion/comments/1gk8cbw/recoilmesdxl/
маленькая девочка попросила Бога: а можно в мере будет \n и \t экранированы???
вместе с девочкой плакало половина гигачата....
В продолжении наших экспериментов с адаптацией Qwen-2.5 моделей мы выпускаем RuadaptQwen-2.5-32B-Instruct (v1)! Вероятно самая большая открытая модель на данный момент, адаптированная на русский язык (в частности у нее один из наилучших токенайзеров среди открытых моделей для русского языка).
Модель была оценена на бенчмарке MERA (см. картинку).
Некоторая особенность сабмита на MERA в том, что в нем был использован кастомный промпт (есть в карточке сабмита), но для честного сравнения мы также добавили сабмит с исходной версией модели с таким же промптом.
Ссылка на модель:
https://huggingface.co/msu-rcc-lair/RuadaptQwen-32B-instruct
GGUF версия:
https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct-GGUF
Попробовать можно тут:
https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5
Будем рады фидбеку по достоинствам и недостатком модели.
https://www.avito.ru/moskva/tovary_dlya_kompyutera/nvidia_geforce_rtx_4090_48gb_turbo_2024_4494188888
во, нормально
донейшены в trc20 usdt чтобы затестить: TU6Rzbsu1NDLYUVfpCyFcXXyUS9iFJw2hK
Довольно ценная штука, полезно посмотреть как учить audio ae. Хотелось бы большой блогпост, надеюсь Терра напишет.
Читать полностью…использовать отклонение уровня тестостерона фаундера от нормы как мультипликатор при оценке
>for testosterone, we observe that founders at the pre-seed and acquired stages had median levels below the healthy range. Seed and Series A founders were within the healthy range but below optimal levels. Only at the Series B stage did the median testosterone level enter the optimal range, although statistical significance could not be established due to the small sample size <..>
https://arxiv.org/pdf/2411.03361
чет проебался, думал сегодня день рекламы яндекса, а оказалось что сбера...
блять а мне же не платят даже за это, мы же просто орков гоняем в балде...
ладно, челы шарят как учить llm с качеством отличным от рандома, а это сложно
А у вас тоже твитер забит такой хуйней:
Какой accelerate, кто данные ковырять будет...
OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training
Обучение multidatacenter сеток все еще большая и сложная штука, для начала стоит понимать что
- скорость интернета не однородна
- на больших расстояниях могут копится ошибки
- пропускная способность сети может быть недостаточной
собственно большой папир и репа про то как учить в ОЧЕНЬ распределенном сетапе
блогпост от авторов имплементации
АЛЛО МЫ ИЩЕМ ГОЛОСА3
https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!
Интервалы.
должны.
Сойтись.