❤️☠️🤗 идейная миграция небытия
Моя студия OnlyFans полностью готова, я переключаюсь с подкастинга 🤣
Читать полностью…в жизни надо иметь хирш 200 и на 500 статей
Читать полностью…Boris power(говорят эту сволочь вообще невозможно убить.)
"Раскрыл" dirty secret гроковских метрик, челы репорнутили CON 64 (лучший из 64 вариантов)
Не то чтобы это какой то грязный чит, так делают примерно все, но забавно.
обзора на grok3 писать смысла не вижу, модель просто good, но ничего приницпиально нового не предлагает
качество этого расцензуривания конечно да, прям feel the freedom 🦅🦅🦅🦅🦅🦅🦅(ничего не слышат из-за звука ястреба)
Читать полностью…ладно когда я писал исходный пост я писал его иронично, а вот ребята из haizelabs нет. Они не иронично опрашивают несколько llm в поисках ответа.
github
Довольно любопытный блогпост от hf как запускать трейн на 512 картах для современных моделей. Охватывает старые статьи и блогпосты от deepspeed Megatron и прочих ребят.
Прикольно описаны модные expert parallelism, теперь мэнджеры прочитают и узнают что latency между нодами увеличивается в разных сетапах.
Любопытно почитать для ознакомления или прохождения собесов в компании где ещё верят что могут сделать модель лучше чем Claude.
Если честно мне вот это:
https://jax-ml.github.io/scaling-book/roofline/
Понравилось сильно больше
Я думаю, лет через десять простые мужики в дамки выйдут. Сварщики, маляры, каменщики с руками, пчеловоды, кузнецы — те, кто унитаз установить могут, бетон замесить правильно, проводку починить. Таких дел мастера, которыми чат джи-пи-ти заниматься не сможет.
Будет потом стоять сантехник, крутить гайку на пальце и говорить вальяжно: «Не, у меня на ближайшие полгода всё расписано. Я на зимовку еду раковины менять на Бали. Сри в ведро, фронтенд-разработчик, приеду — наберу. Если не забуду».
Дизайнеры и прочие специалисты будут хуй сосать вкусный, а потом ещё с программистами за этот хуй в кулачных боях сражаться — и с маркетологами тоже. Думаете, я преувеличиваю? У меня уже троих знакомых так с работы уволили, а между тем ко мне недавно приходил сантехник батареи включить, десять минут работал – взял 175 евро. И это только начало.
Женщинам совет сразу дать могу: привыкайте, бабоньки, к запаху пота, машинного масла и перегара, к волосатым хуям и одышке. Среди строителей мало кто знает, кто такой Эндрю Губерман и Брайан Джонсон. Скоро придётся менять предпочтения, особенно если вы считаете, что мужчина должен вас обеспечивать, а ваша главная задача — вовремя брить ноги и вдохновлять мужчину своими потребностями. Наматывайте на ус — в этой игре наступают новые правила. Скоро в моду войдут растянутые трико, пивные животы и лысины. Такая посадка штанов, когда жопу видно.
Ох, я уже вижу эти инстаграмы! Эти курсы о том, где познакомиться с гробовщиком, как одеться на свидание со стекольщиком, как заинтересовать беседой штукатура.
Вперёд же, в новый дивный мир!
Украдено из @potatomedia
Какой agi? Какой gpt4.5? Берем сетап на 8.3 и поехали
Читать полностью…Снова про JAX.
Если моя книга “Deep Learning with JAX” (/channel/gonzo_ML/2926) для вас ещё не является достаточной мотивацией освоить этот продвинутый фреймворк, то вот вам ещё пара крутых свежих материалов:
The PyTorch developer's guide to JAX fundamentals
https://cloud.google.com/blog/products/ai-machine-learning/guide-to-jax-for-pytorch-developers
Короткий гайд по созданию модели для тех, кто привык к PyTorch и хочет сравнить. Пример использует новый Flax NNX API (писал про него в посте JAX things to watch for in 2025, https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025), но есть также и пример на более старом но всё ещё популярном Flax Linen API.
================================
How to Scale Your Model
A Systems View of LLMs on TPUs
https://jax-ml.github.io/scaling-book/
Это прям целая книга про скейлинг LLM на TPU. Содержит несколько секций:
1. All About Rooflines
https://jax-ml.github.io/scaling-book/roofline/
Объясняет, что такое roofline model (писал про неё когда-то давно тут https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664). Это безумно важно понимать для оптимизации ваших вычислений, не всё определяется флопсами, многие алгоритмы ограничены коммуникацией, в смысле пересылкой данных, не обязательно в распределённой системе, даже при неудачно организованном чтении из памяти можно оказаться в ситуации, когда ваш GPU/TPU используется лишь на 5% и до пиковых флопс как до Луны.
2. What Is a TPU?
https://jax-ml.github.io/scaling-book/tpus/
Объясняет, что такое TPU (про это я тоже писал ещё давно https://moocaholic.medium.com/hardware-for-deep-learning-part-4-asic-96a542fe6a81), что такое систолический массив, какие блоки есть внутри, как связываются ускорители в Pod, каковы характеристики разных TPU от v3 до v6e.
3. Sharded Matrices and How to Multiply Them
https://jax-ml.github.io/scaling-book/sharding/
Подробно разбирает как работает шардинг (разбиение вычислений больших тензоров по нескольким ускорителям). Параллелизация, Collective Operations -- всё тут. У меня в книге этому посвящена 8-я глава, а кроме неё есть глава 7 про более классический метод параллелизации (pmap) и приложение D про уже устаревшие экспериментальные подходы, которые тем не менее могут помочь лучше понять как мы пришли в текущую точку.
4. All the Transformer Math You Need to Know
https://jax-ml.github.io/scaling-book/transformers/
Вся основа трансформеров на уровне вычислений. Где какие операции, как считать флопсы и параметры, MoE, Gradient checkpointing, KV caching, Flash Attention.
5. How to Parallelize a Transformer for Training
https://jax-ml.github.io/scaling-book/training/
Обсуждение разных видов параллелизма на примере трансформера: data parallelism, fully-sharded data parallelism (FSDP), tensor parallelism, pipeline parallelism.
6. Training LLaMA 3 on TPUs
https://jax-ml.github.io/scaling-book/applied-training/
Как применить все эти знания к обучению реальной модели (Llama 3) на TPU v5p. Что такое Llama 3, как отшардить модель LLaMA 3-70B.
7. All About Transformer Inference
https://jax-ml.github.io/scaling-book/inference/
В чём особенности инференса для трансформеров, где боттлнеки, что с памятью, что с latency. MHA, MQA, GQA (про MLA ещё нет: /channel/gonzo_ML/3292). KV cache, распределение инференса по разным ускорителям, фазы инференса (prefill, generation), шардирование KV-кэша, _много_ оптимизаций инференса.
8. Serving LLaMA 3-70B on TPUs
https://jax-ml.github.io/scaling-book/applied-inference/
Как применить все эти знания к инференсу реальной модели, той же самой Llama 3-70B.
9. How to Profile TPU Programs
https://jax-ml.github.io/scaling-book/profiling/
Как профилировать код на TPU и искать боттлнеки. Как работает компилятор XLA, что такое HLO (я много это разбираю в главе 5 своей книги, про компиляцию), что такое JAX TPU profiler, Trace Viewer, Graph Viewer, как делать профилирование памяти.
10. Programming TPUs in JAX
https://jax-ml.github.io/scaling-book/jax-stuff/
Grok3 выиграл арену и пробил 1400 elo
И ещё есть deepresearch
И это не reasoning модель( reasoning в бета версии)
Step brother, please have fun
StepFun text2video 30b(e б а т ь) и это опенсурс. И с MIT лицензией.
И очень бодрый motion. Вау.
Архитектруно очень похоже на huynan video.
Выложили distilled и undistilled версии(Можно доучивать на i2v)
Github
щаща дружбан трампыня придет, снимет В С Е санкции, Илон маск пообещал GigaGrok 4 обученный на Cristofary NEO 2м карт(кластер построят в тундре, чтобы не охлаждать) Хуанг общеает открытие базовой кафедры на физтехе.
Сэм Альтан обещает турне по вузам - от Теплых мужских отношений до Goida Aligment. А Канал Аишная объявят первым офицальным PR каналом oai в России!!
Что это было?(в картинках)
Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling
Вероятно пока что лучший пример применения its, nvidia говорит - писать кернелы заебно и сложно, точно не потому что у нас их писало два китайских бакалавра, а документация есть только на китайских двачах
Cобственно челы накидывают классический prompt рерайт, отбирают кернелы на основе Kernel bench , обновляют контекст и получают 50% ускорения бесплатно.
И такой воркфлоу выдает 100% точности на level1 kernels(matmul, ln и прочее)
и 96% на level2( conv + bias + ReLU)
Ну и да, в отличие от CodeForces эта штука имеет применение в реальном мире.
nvidia blog
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.
https://huggingface.co/blog/open-r1/update-2
Нагенерили датасетов (трейсы с R1 к решению мат задачек из https://huggingface.co/datasets/AI-MO/NuminaMath-1.5). По 2-4 трейса на задачу. Ну и рассказывают как собирали и чистили.
почищенные 220к задач с решениями:
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
нефильтрованные 516,499 задач и 1,209,403 решений:
https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw
-
PS покайфу собираем все что с мл/ии связано в группе /channel/researchim
🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers
Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".
🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.
Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.
🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.
Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.
Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.
🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.
Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.
🟣Arxiv: https://arxiv.org/abs/2502.14499
🟣Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0
В чем история:
Perplexety выложили "расцензуренную" от китайской пропаганды r1. Китайцы офигели и пошли в атаку.
huggingface
В следующую пятницу (28 февраля, 20:00 МСК) буду рассказывать про QuEST на семинаре ML Efficiency от Cohere For AI.
Твит с деталями.
Записаться послушать.
Qwen2.5-7B-Instruct-Tool-Planning-v0.1
Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!
🔗модель
🔗датасет
Уже в эту пятницу состоится первая в истории встреча семинара! Открывать его будет Игорь Шиманогов, в течение нескольких заседаний он расскажет о счётных булевых алгебрах.
ПЯТНИЦА 21.02 18:30 907КПМ
#моп_поймет
Отклик сюда: https://forms.gle/z45WwdBTRHrd8inM9
Эта же лаба, выложили Step-Audio 130B aulm
и еще 3b для тех кто победнее
github
Нет ничего более страшного чем скучающий ум.
Ребята делают opensource car autopilot, который подключается шнурком по USBC, работает по 1 камере(!)
А ещё вы можете туда добавлять кастомные прошивки.
GitHub
POV человека который знает что хочет от жизни сегодня вечером:
Читать полностью…https://getmentor.dev/#list
могу бесплатно дать совет: не работать в ебучем ИТ и тем более не вкатывать на перегретый рынок(только если реально любите и ничего другого не хотите)
GPT operator здорового человека, без 200 bucks?
Ощущается как оператор здорвого человека, не требует подписки, сразу делает что надо, САМ ПРОХОДИТ КАПЧУ.
Внутри тоже Web agent который сам тыкает кнопки и теоретически может пользоваться любым ui. Хотя модель застревает на Gradio like UI(тут оператор ведет себя чуть лучше)
Из приятного эта штука быстрее чем deepresearch и намного быстрее чем оператор. Хотя и deepresearch проверяет сильно больше информации.
Хотя deepresearch иногда уморительно галюцинирует:
Смотрю на параметры моделей и их возможности, такие как трёхмерная форма и раскладываемость.
Ищу сведения о "MTS AI LLM" или "MTS AI Gusev".
make a research about best russian llms, and benchamrk
.
Читать полностью…