Новая 2b OpenSource i2v моделька!
- По качеству как 5b СogVideox
- Apache2.0
huggingface
Игратся
Уже доступно в виде ComfyUI ноды
Паблик арена слегка страдает от обновления, поэтому пока так
Ygpt v4 lite где то на уровне llama 8b, но с точки зрения русского очевидно будет лучше
Ygptv4 pro где то на уровне mistral nemo 12b
Qwen2.5 14b на уровне тюненной gemma/mistral Nemo
Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов слиты в обучающую выборку. Вполне возможно, что это сделано не только в SFT, но и в SMPO фазе.
Код для проверки:
from datasets import load_dataset
examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
examples[row["turns"][0]["content"]] = 0
for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
ex = row["conversation"][0]["content"]
if ex in examples:
examples[ex] = 1
print(sum(examples.values()))
Э, ну с этим бенчом все, что у нас на очереди? Агенты?
Ну ща пацаны нагенерят в top256 траекторий решения, выучат и будет вам агентность.
Средний бот, и так уже на самом деле умнее среднего человека. В сущности, мы пришли к ситуации, когда модель, которая считается средней, должна: знать математику, иметь word knowledge, знать физику, программирования и прочее по очень разным топикам которые у нее спрашивают. При этом должна быть достаточно эмпатичной, чтобы нравится пользователю. При этом должна знать где-то под сотню языков. Ну например, средняя опенсурсная модель знает 20 языков. Но, в свою очередь, таких людей мало. Выходит, мы достигли General Intelligence, когда вышла GPT-4? То есть, ну, по сути-то, у нас модель умнее, чем средний человек.
Читать полностью…Корейцы на СВО, по телевизору нейросетевые птицы с человеческими яйцами, многотонную ракету сажают на опоры, и всё это под саундтрек из видосов инстаграмма «под залупой творог собрался ребята»
Мы живем в хуёвом романе Пелевина, у нашей действительности лицо кота «не бойся»
розыгрыш мерча неуютный фкнчик
1 место: футболка «#freekosov»
2 место: 3 презерватива «cuda стандарт индустрии» + стикерпак
для участия надо нажать ниже и подписаться на паблик
результаты в воскресенье 20.10 в полдень
в чем проблема? В том что в 80 это по сути каждый 5 ответ - лажа. 49 - каждый второй
Читать полностью…magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
https://www.genmo.ai/
если вы хотите аппелировать к MT возможности без перевода(кто в 24 году гоняет t2i без prompt refiner он же переводчик?) то пожалуйста перестаньте
mt aligment для картиночных моделей - очень сомнительная процедура, проще все делать на английском
пожалуйста отправьте авторов в гаагу, это военное преступление так хуево код писать
бтв буду в амсте 1.11, пишите если хотите на кофе
efficientvit
TLDR; на реддит пишут что это исходный код того самого эффективного VAE (жмет в 32 раза), который заюзан в Sana
https://github.com/mit-han-lab/efficientvit
Всем привет! Мы в лаборатории анализа информационных ресурсов НИВЦ МГУ проводим исследования по адаптации LLM на русский язык под рабочим названием ruadapt. Год назад я уже писал в этом чате о наших экспериментах с адаптацией LLaMa-2 (Impact of Tokenization on LLaMa Russian Adaptation), теперь же у нас есть новые наработки, которыми я хочу с вами поделиться.
Вот уже год как открытые LLM взяли курс на мультиязычность, однако все мы наблюдаем две старые проблемы: (1) замедление генерации на неанглийских промптах и (2) внезапные китайские иероглифы. А все потому, что словарь модели хоть и стал больше, русских слов в нем почти не прибавилось и как было по 3 русских символа на токен так и осталось (qwen2.5 - 2.5, mistral-nemo - 3.0, llama-3 - 3.0, gemma - 3.2). Как результат мы не только тратим на русские слова раза в 2 больше токенов чем на английские (отсюда и замедление), но также оказываемся неспособны полноценно выделять смыслы этих токенов на фоне других (привет 嗨).
В качестве лекарства в нашей работе Impact of Tokenization on LLaMa Russian Adaptation мы предложили просто заменять словарь токенизации, входные и выходные эмбеддинги на адаптированные под русский язык. Год назад это хорошо сработало и даже смогли превзойти исходное качество LLaMA на Russian Supeglue и side-by-side тестах (со всеми ускорениями и экономией контекста).
Но как и все экспериментальные препараты методы наш имел ряд побочных эффектов:
1. Во-первых, из-за полной замены токенизации страдали исходные англоязычные знания модели,
2. Во-вторых, несмотря на то, что на выходе мы получаем более качественную базовую модель с точки зрения русского языка, чтобы получить сравнимую с популярными инструктивными версиями моделей требуется произвести сопоставимые процедуры инстракт-тюнинга, при том, что не все подходы воспроизводимы, так как не всегда открыты инструктивные датасеты (у llama-3 он состоял из 10 миллионов примеров)
Вот мы и решили посмотреть, а можно ли как-то совместить наши ruadapt базовые модели и исходные инструктивные версии (например, модель openchat-3.5 является инструктивной версией модели mistral-7b-v0.1). Мы выяснили следующее:
1. Даже просто заменив матрицы эмбеддингов у инструктивных версий моделей на новые ruadapt версии, модель не перестает работать, хотя и существенно теряет в качестве
2. Если вспомнить линал и посчитать траекторию (проекцию) от весов базы к весам инстракта, то можно откорректировать наши ruadapt эмбедды для лучшей состыковки со слоями инстракта. Этот подход и был нами реализован и назван как Learned Embedding Propagation (LEP).
3. Если этого мало, то после LEP можно произвести дополнительные шаги калибровки и/или инстракт тюнинга, по сути, аналогично любым методам, которые применяются над инстрактами (например, saiga или новый Vikhr)
Таким образом мы создали новое поколение ruadapt моделей: они имеют лучшую токенизацию, по сравнению с исходной моделью и не теряют в качестве, а по ряду бенчмарков даже превосходят качество исходных версий моделей. Первая в списке таких моделей идет RuadaptQwen-3B. Это адаптированная на русский язык модель qwen2.5_3B, к которой была применена описанная процедура. После LEP был произведено несколько этапов инстракт-тюнинга на основе кода проекта saiga. Токенизатор собрали с учетом специализации на русский и сохранения способностей на английском (i.e. 4.0 символа на русский токен), так что ускорение генерации русскоязычного текста до 60%.
На известном бенче Vikhrmodels/arenahardlb наш RuadaptQwen-3B набрал 66 очков , обходя при этом большинство моделей размером в 7-8 миллиардов параметров (и это мы ещё не применили секретную технику "тюна на тесте" 🤡). Это не говорит о том, что модель действительно лучше 7-8 миллиардных моделей, но по крайней мере с точки зрения данной арены не уступает им, имея при этом всего 3 миллиарда параметров.
Welcome попробовать нашу новую модель, будем рады полезному фидбеку, особенно по сравнению данной модели с ее исходным эквивалентом Qwen/Qwen2.5-3B-Instruct :)
https://huggingface.co/RefalMachine/ruadapt_qwen2.5_3B_ext_u48_instruct_v4
Всех приветствую! Рады поделиться v2 checkpoint IP-адаптера для модели FLUX-dev! (кстати, можете попробовать и другие версии)
Скачать веса можно тут: huggingface
Воркфлоу тут: ip_adapter_workflow.json
Перед использованием обязательно обновите ноды: x-flux-comfyui.git
Мммм, 35 место. Но так-то серьёзный скачок с 46. В комментах скриншоты с артефактами.
Читать полностью…Skill issue on data deduplication
Самое интересное что ngramm поиск не нашел, хотя мы несколько итераций делали
TBH мы учили отдельную маленькую модель на арене, оверфит на ВСЕЙ арене давал порядка 10-20 очков
Ограничения Instruction Tuning и как их преодолеть
Supervised Full Fine-tuning (SFT) — распространённая практика, но он не лишён недостатков. Авторы сегодняшней статьи задаются вопросом: а может ли LoRA (Low-Rank Adaptation) исправить недочёты?
При использовании Full Fine-tuning возникает две проблемы: у моделей часто возникают сложности с извлечением новых знаний из SFT-датасета, могут участиться галлюцинации. Исследование показало, что модели, обученные с использованием Full Fine-tuning, могут генерировать неверные ответы, если берут слишком много токенов из SFT-датасетов. Эффект особенно заметен, если модель пытается отвечать на вопросы, требующие глубокой экспертизы.
Например, на вопрос «Какие основные работы Эйнштейн сделал после того, как в 1915 году открыл Общую теорию относительности?» модель начинала выдавать не соответствующие действительности ответы — скажем, о «квантовой теории атома трития».
Одним из возможных решений может быть LoRA — это метод, который позволяет обучать модели с гораздо меньшими ресурсами, модифицируя лишь небольшую часть параметров. Вместо полного тюнинга всех параметров LoRA использует специальные низкоранговые матрицы, что приводит к изменениям только определённых аспектов, таких как стиль ответа или инициирование фраз. При этом основная часть весов предобученной модели остаётся неизменной.
Первые несколько процентов токенов, сгенерированных LoRA-моделью, могут быть изменены (по сравнению с ответом предобученной модели), чтобы правильно начать ответ. Но большая часть предложения остаётся такой же, как у предобученной модели. Это позволяет уменьшить количество галлюцинаций. Эксперименты показали, что LoRA даёт более точные ответы.
LoRA эффективен даже при малом объёме датасета. Например, модель с LoRA, обученная на наборе данных из 1000 инструкций, может превосходить модели с SFT на датасетах по срезам фактологичености и полезности, содержащих 52 000 или даже 326 000 инструкций. В экспериментах использовались различные открытые и домен-специфичные датасеты, включая MedInstruct и Alpaca. Модели с LoRA демонстрировали лучшее соответствие фактам и были менее подвержены галлюцинациям.
Разбор подготовил ❣ Алексей Шимко
Душный NLP
https://github.com/torvalds/linux/pull/988
Что то странное творится в Линуксе, дед не выпил таблетки и творится кринж, удалили 11 русских челов, не очень понятно за что.
В следующей главе модели enterprise класса будут управляя сексботами зарабатывать на электричество в борделях
Читать полностью…ХЗ чего вы все ноете. Вот возьмем меня. Закончил псифак спббгу, работаю скрам-мастером. Выстраиваю процессы по скраму. Вкатился на изичах. Зарплата сейчас - $8к после налогов. Справедливости ради надо сказать, что у меня еще две сдающихся хаты в центре спб, а сам живу у тян. Оттуда капает + иногда довольно часто коучу скраму разные конторы (очень хорошо кодомартышек скрым дисциплинирует + метрики, поэтому все вкатываются). Недавно вот коучил одну из крупнейших гейдев кантор на снг (но не рашка, оналайн дрочильня на воен тематику) - неделя на контракте, две сотни кодомартых на лекциях - единоразовай гонорар по контракту мне - $40к. Собственно вопрос - что вам мешает поступить так же?
Читать полностью…Я 1 год считаю ELO у вас в моделях - и то 1000, то 1020, а иногда и 1058. Вы там сумасшедшие что ли все?
Читать полностью…Стабилити релизули Sd 3.5 large на 8b параметров!
model
space
Из интересного - модель хуже FLUXа, но не дистилированная. Посмотрим насколько хорошо будет учится
Вышло демо, по пониманию классно, по эстетике не очень
flux справа для сравнения
генерил тут