Мы в Вихрях часто делаем модели в стол или оставляем их на время полежать. Собственно в этот раз ребята из MTSa опередили нас с релизом на несколько дней.
Выложили vikhr-qwen2.5-1.5b.
Для обучения использовали GranMaster.
По арене чуть чуть хуже чем Cotype, вознможно потом полирнем SMPO и будет лучше)
model
Управление: держаться подальше?
В комментариях упомянули ещё одну важную тенденцию. Сегодня многие по-настоящему талантливые лидеры в университетах (и не только) бегут с высших руководящих должностей или сразу не соглашаются их занимать. Они предпочитают быть где-то на периферии, но вкладываться в реальные проекты, а не строить потёмкинские деревни.
Зачастую такой управленец может возглавлять подразделение с формально низким уровнем в иерархии (лабораторию, отдел, центр, кафедру), но иметь при этом значительные ресурсы и большую свободу внутри вуза. Например, по той причине, что это подразделение производит половину науки в университете или приносит львиную долю внебюджетных доходов.
Что важно: отказ такого руководителя идти в ректорат — рациональное решение, а не следствие страха и не малодушия. Если здраво оценить реальные возможности по управлению университетом, с учётом зарегулированности, постоянной смены приоритетов и произвола с перестановкой ректоров, то вполне логично прийти к выводу о бутафорском характере этого управления. Возможно ли качественно администрировать текущие процессы? Да, конечно возможно, бюрократический хаос можно несколько обуздать. Реально ли разработать стратегию развития и воплощать её хотя бы лет десять? Крайне маловероятно: либо ишак сдохнет, либо падишах помрёт.
Иными словами, настоящий лидер в данном случае не то чтобы боится взять на себя ответственность за какие-то решения, а видит, что это попросту невозможно: либо тебя снимут (и ответственность перейдёт другому), либо твои решения будут непредсказуемым образом изменены или отменены в силу очередной смены стратегии.
Да, как и всегда, нужно оговориться: бывает так, что сильная команда управленцев качественно меняет университет. Хотя, с другой стороны, иногда мы оказываемся и здесь. Так или иначе, пока речь о системных эффектах, а не об исключениях и карманах эффективности.
Обратная сторона этой медали ещё интереснее. Когда умные и способные относятся к административной карьере прохладно, вперёд выходят не слишком рефлексирующие активисты. Некоторых людей привлекает статус и управление как таковое, безотносительно возможности или невозможности что-то изменить по существу. Именно эти люди с удовольствием поедут на форумы и школы управленцев (что вообще есть оксюморон, как мне кажется), а затем окажутся очень удобными кандидатами на высокие должности. И именно отсюда начнутся те самые нереалистичные обещания, пустые проекты и другая бурная деятельность, имеющая в основе только желание выслужиться.
Забавно, что продвижению особо рьяных управленцев может способствовать и механизм "выталкивания наверх". Бывает так, что подчинённым и просто окружающим коллегам очень досаждает и мешает работать некий бессмысленный активист, но формально уволить его особенно не за что: он всегда на виду у начальства, по горло занят и со всеми знаком. Единственным спасением является повышение этого деятеля: с кафедры — в деканат, с факультета — в ректорат, из ректората — в департамент министерства или в другой университет. Коллектив не просто поддержит решение, но и активно поспособствует карьерному росту, только бы избавиться от раздражителя.
И тут возникает классический вопрос: а что делать? С системной точки зрения — дать университетам больше самостоятельности, перестать менять стратегию каждый год и снизить накал активизма любого рода, который сейчас перегружает образовательную систему и забивает нормальную регулярную работу. Это увеличит шансы привлечь к управлению осмысленных лидеров, со своим мышлением и своей программой.
С личной точки зрения общего ответа, конечно же, быть не может. Кто-то решит согласиться на управленческую должность, не особо горя желанием руководить, но осознавая, что иначе придут пустые активисты. Это благородно, но не всегда оправданно. Кто-то выберет остаться на периферии до лучших времён. Пожалуй, при анализе таких решений важнее всего отделять желание чем-либо поуправлять от реальных способностей к этому, а настоящую эффективность работы — от количества времени, посвящённого заглядыванию в рот начальнику.
(это flux redux)
А теперь представьте что в опенсурсе без цензуры с этим натворят? Будущее прекрасно
Любая задача это рексис, LLM это задача рекомендации следующего токена. Жаль не все понимают 😬
Читать полностью…#от_подписчика
Студент, который пытается совмещать учёбу, исследовательскую деятельность и личную жизнь, попутно работая официантом:
https://huggingface.co/Efficient-Large-Model/Sana_1600M_512px
вышла
демо: https://nv-sana.mit.edu/
😮 R1-Lite - бесплатный конкурент o1, который скоро релизнут в опенсорс
Китайцы из DeepSeek, несмотря на крайне ограниченные ресурсы, продолжают выдавать охренительные модели мирового уровня. Их новая модель, R1-Lite, очень близка по бенчмаркам к o1-preview, где-то даже превосходит. Она также может тратить десятки тысяч токенов на размышления, при этом чем больше токенов, тем лучше результаты. DeepSeek говорят, что это только начало и тизерят модели ещё мощнее.
По бенчмаркам модель лучше o1-preview в кодинге и математике, но отстаёт в остальных задачах. С o1-mini, которая как раз в кодинге и математике сильнее, чем o1-preview (не спрашивайте), на графиках не сравнивают. Для примера, по бенчам OpenAI, у o1-preview Elo на Codeforces 1258, у o1-mini и полноценной o1 - 1650 и 1673 соответственно. По моим личным тестам, R1-Lite тоже отстаёт от моделей OpenAI.
Но насколько лучше или хуже R1-Lite, чем разные версии o1, это не так важно, ведь изначальная моделька сильно меньше и хуже. Важно, что inference time scaling заставили работать за пределами OpenAI, причём без дурацких ограничений - в отличие от o1, DeepSeek дают полный доступ к размышлениям модели. К тому же скоро обещают API и опенсорс-релиз, к которым будет прилагаться Technical Report о тренировке, а они у DeepSeek очень детальные. То есть даже если другие лабы не смогли воспроизвести inference time scaling самостоятельно, через пару месяцев свой o1 будет у всех. Вместе с base и instruct весами будут релизить ещё и reasoner.
Ещё один нюанс - DeepSeek всё ещё отрабатывают рецепт тюна на маленькой модели, перед тем как потратить заметные ресурсы на тюн большой. Отсюда и Lite в названии модели. Не факт, что она основана на DeepSeek V2 Lite, но скорее всего её смогут запустить простые смертные. Полноценный R1 будет гораздо умнее.
Попробовать можно на их сайте, включив «Deep Think». Дают 50 сообщений в день, причём абсолютно бесплатно.
chat.deepseek.com
@ai_newz
Интересно кстати к чему полезному можно приложить такую скорость. Для groq не придумали, но там и ллама всего 70б была. Посмотрим что будет тут.
Читать полностью…К сожалению произошла техническая накладка и не все смогли зайти. Выкладываем слайды и запись лекции.
YouTube
Slides
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:
“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”
Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
🔓 Открываем код: Cotype Nano
Представляем Cotype Nano – открытую большую языковую модель, которая создана для решения бизнес-задач на русском языке. Модель работает локально на персональных устройствах и отлично подходит для разработки чат-ботов и виртуальных помощников.
Что умеет:
🔴Обрабатывать большие объемы данных — до 32,000 токенов (около 45 страниц текста) за раз
🔴Создавать контент и выполнять быстрый и точный перевод между русским и английским языками
🔴Анализировать и классифицировать данные для улучшения клиентского сервиса
➡Как устроена:
Модель основана на архитектуре трансформера Qwen 2.5, содержит 1,5 млрд параметров и совместима с популярными фреймворками: VLLM, OpenVINO и Hugging Face.
➡По бенчмаркам Ru Arena Hard Cotype Nano лидирует в своем классе (30.2). Доступна бесплатно, в том числе для коммерческого использования.
➡Узнать больше и скачать модель можно тут.
💻 Подробные технические характеристики — на Хабре.
есть что то грустное в том что за 5 минут простая кластера он сожрал денег больше чем ты за неделю
Читать полностью…Триллионный диффузионный МОЕ мультимодальный трансформер на KAN и обучением на flowmatching для задачи рекомендаций
Читать полностью…https://fxtwitter.com/yoavhacohen/status/1859962825709601035
Дожили🥹
blog не о чем, но.
Black Forest дропнули toolы для flux и они прекрасны!
Ipa ака redux
Canny edges cn
Fill для inpaint и outpaint
https://thematrix1999.github.io/
Ни дня без world models. Теперь вместо Майнкрафта обучили на видосах из forza
Кода и демо пока нет.
Любопытное наблюдение: tech-компании теряют до 60+ часов в месяц на расчёты с удаленными сотрудниками…
Стандартная ситуация: компания на Кипре или в Сербии, а команду разбросало по миру. Со всеми нужно заключить договоры, а потом каждый месяц вручную готовить закрывающие документы и отправлять деньги в десятки и сотни разных банков.
Так бумажный процесс превращается в неприятную рутину и затягивается на десятки часов. Тут нужен огромный ресурс фаундера или целая финансовая команда, чтобы платить всем вовремя. В итоге бизнес перегружается операционкой и теряет фокус с реального развития.
Но с платформой 4dev.com всё гораздо проще!
⭐ 4dev.com позволяет платить сотням сотрудникам в любой точке мира и автоматически получать закрывающие документы по каждому платежу. Нужно подписать всего 1 оферту с 4dev.com вместо 100+ договоров с исполнителями!
- мгновенно получайте закрывающие документы по каждой выплате
- все закрывающие документы соответствуют международным стандартам (МСФО)
- свободно платите в крипте, USD, EUR или других валютах
- одной головной болью станет меньше — и вы уделите больше времени развитию бизнеса
Запишитесь на демо в 1 клик. Погрузимся в ваши задачи и поможем найти решение именно для вашего бизнеса!
Ресерчам приходится делать ОТВРАТИТЕЛЬНЫЕ вещи когда скейлинг не работает, вот примеры:
- ПОСМОТРЕТЬ данные руками
- открыть помимо конфига обучения ещё и код(ваще мясо)
- перестать придумывать свои велосипеды когда фреймворк перестал работать
- скачать ВСЕ страницы документации pytorch lighting, потому что открывается только из под впна
- выкинуть любимый скрипт на torch lighting для обучения
- обновить transformers
- ПОСМОТРЕТЬ ДОКУМЕНТАЦИЮ
- Закрыть х, реддит, доту и отменить предзаказ на turms
Мы достигли лимита по юзерам, чтож, спасибо Яндекс телемост за 40 юзеров в звонке и спасибо что явно упомянули это, выложим запись!
Читать полностью…