На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
Когда кто-то наебенился в Гарварде: появляется facemash .
Когда кто-то наебенился в Стенфорде:
Мне одному странно смотреть, как 4 крутых инженера на серьезных щах обсуждают их же детище, как будто они его первый раз видят\обнаружили недавно?
https://www.youtube.com/watch?v=hhdpnbfH6NU
Интересный эксперимент про то, как хорошо некоторые топовые модели соблюдают заданные правила, и как зависит послушность от количества правил.
https://www.linkedin.com/pulse/llms-follow-rules-until-dont-alan-roth-kgwxc/
@toshoseti
Прирост, конечно, незначительный, но любопытновое
https://github.com/ensemble-core/NdLinear
https://arxiv.org/abs/2503.17353
@toshoseti
Крайне рекомендую. 50k stars.
https://github.com/mlabonne/llm-course
@toshoseti
Надоумил меня тут мой давний товарищ разобраться с Florence2 - а хрен ли он так долго загружается (около 3-4 минут). После профайла выяснилось что внутри pytorch бинаря модели Florence 2, точнее внутри pickle с данными весят хуки на rebuild_tensor_v2 - monkey patch для совместимости. В итоге, решено было пересохранить в safe-tensors. Старт стал раз в десять быстрее, инференс примерно в полтора раза быстрее, но я точно не мерял, может быть погрешность.
Короче, вот кому надо - вот, https://huggingface.co/KPEKEP/Florence-2-large-safetensors
Там же скрипт если захотите поправить другую вариацию модели.
@toshoseti
GPT-2 победила o1-mini благодаря гроккингу
Мы использовали 2WikiMultiHopQA набор данных для n-шаговых задач рассуждения и с помощью гроккинга добились 96% точности.
Что такое гроккинг?
Гроккинг – отложенное обобщение модели. Если тренировать модель очень долго, то она начнет решать задачу со 100% точностью на новых данных. Очень долго – в 100 раз дольше после достижения моделью 100% точности на тренировочной выборки.
Что уникального?
Мы первые, кто применил гроккинг на реальном наборе данных. До сих пор гроккинг не применялся на реальных задачах рассуждения – только "лабораторные" примеры модульного деления. Недавно вышла статья, которая все еще на игрушечном наборе данных показала, что проблема была в количестве выведенных фактов. Если просто, то в реальных данных просто недостаточно примеров рассуждения, чтобы гроккинг появился.
Что сделали мы?
Мы решили продолжить открытия той статьи, но на реальных данных и аугментировали больше рассуждения с "выведенными фактами". Сделали это с помощью GPT-4о модели, расширили набор тренировочных данных, тренировали модель очень долго, и вау-ля! У вас почти 100% точность. Почему нет 100%? В процессе аугментации возникают ошибки и галлюцинации, поэтому точность не 100%, но если улучшить этот процесс, то можно достичь и 100%.
Пример задачи:
Обучающая пара:
– Эйфелева Башня находится во Франции.
– Музей BMW находится в Германии.
Вопрос: Находятся ли они в одной стране?
Чтобы ответить, модель должна сделать два шага рассуждения: извлечь местоположения объектов и сравнить их. Проблема в том, что в реальных данных вопросов с ответами не так много – их мы и расширили.
Что теперь?
Хотим работать в этом направлении дальше и планируем расширить набор задач, который можно решать с помощью гроккинга.
Нужна ваша помощь!
Выпустили статью и сейчас боремся за "Статью дня" на Hugging Face. Проголосовать можно тут:
👉 Поддержите апвоутом 👈
Полноценный обзор статьи на Хабре
Сама статья
P.S. За репост отдельный респект.
⚡️ HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком.
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
📌Лицензирование кода : Tencent Hunyuan Community License.
🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent
🌟 Voila: набор голосовых моделей для взаимодействия в реальном времени и roleplay.
Voila — семейство голосовых языковых моделей с поддержкой 6 языков (английский, китайский, французский, немецкий, японский и корейский), которое амбициозно позиционирует себя как конкурентов Siri или Alexa.
Классические системы используют конвейер из модулей: ASR, обработка текста LLM и затем TTS. Этот пайплайн порождает задержки до нескольких секунд, теряет эмоции и тон голоса. Voila обрабатывает аудио напрямую через end-to-end архитектуру. Модель делит звук на семантические и акустические токены, сохраняя нюансы акцента и интонации, а кастомное LLM-ядро отвечает за осмысленные ответы. В архитектуре Voila задержка составляет всего 300 мс — как у человека.
В тестах на собственном бенчмарке в задачах ASR Voila показала уровень ошибок (WER) 2,7% против 5,7% (Moshi), 3,6% (FastConformer). Для TTS ее аудио настолько естественно, что система ошибается в расшифровке всего в 2,8% случаев (7,7 у YourTTS, 4,7 у Moshi).
▶️ Состав релиза:
🟢Voila-base - базовая модель для обработки голоса и текста, поддерживает ASR (распознавание речи) и TTS (синтез речи). Основа для остальных версий.
🟢Voila-Chat - модель для диалогов. Генерирует естественные ответы с учетом контекста, сохраняет эмоции и интонации. Подходит для голосовых ассистентов и чат-ботов.
🟢Voila-Autonomous - превью-версия полнодуплексной модели. Может слушать и говорить одновременно, имитируя живое общение: перебивает, вставляет реплики-подтверждения («угу»), реагирует на эмоции в реальном времени.
🟢Voila-Audio-alpha - экспериментальная версия для анализа аудио. Распознаёт неречевые звуки (шум, эмоции), идентифицирует говорящего по тембру.
🟠Voila-Tokenizer - аудио-токенайзер. Преобразует аудио в семантические и акустические токены. Разделяет смысл (слова) и звуковые нюансы (акцент, тон), чтобы LLM эффективнее обучалась на аудиоданных. База всех моделей Voila.
📌Лицензирование: MIT License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #ASR #TTS #VOILA #Matrix
💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS
Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!
Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему
Наш доменный эксперт Сабина:
С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.
Мало что было известно об авторе видео, пока кто-то не запостил линк на его гит.
После этого всем стало в целом без разницы кто это.
Git
@CGIT_Vines
https://dynamic-epoch-4bb.notion.site/100-questions-about-NLP-549ccde0d81a4689b5635888b9d0d7e6
Читать полностью…Друзья, накидайте пожалуйста годных недавних статей про:
-Video Prediction
-Video Anomaly Detection
-Multimodal Semantic Anomaly detection
-Anomaly detection in games
-Video comprehension
Желательно тех, что сами читали.
#промo
Найден годный конспект по LLM на русском языке
Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтобы понять принцип работы современных моделей. Что внутри, если кратко:
– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения
– RL – с нуля до обучения ризонинг-моделей типа o3
– И даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.
Все – в иллюстрациях, схемах и интуитивно понятных примерах. Для наглядности прикладываю несколько страниц.
Забрать полную pdf-версию абсолютно бесплатно можно здесь
#тексприслан
При том, сделали выбор в пользу внутреннего кандидата!
Читать полностью…DeepWiki — нейросетевой инструмент, который генерирует подробную документацию на основе GitHub-репозиториев. Для доступа достаточно заменить github.com
в адресной строке на deepwiki.com
#сервисы@daniilak
Stripe уже несколько лет применяет ML-модели, обученные на отдельных фичах (BIN, zip-код, метод оплаты), чтобы улучшить свои продукты. Это дало ощутимые результаты: +15% к конверсии и -30% к мошенничеству.
Но такие модели ограничены: для каждого кейса — авторизации, борьбы с фродом или спорами — требуется отдельная модель и подбор фичей.
Теперь Stripe пошла дальше и разработала универсальную модель на базе трансформеров. Она обучена на десятках миллиардов транзакций и создает эмбеддинги для каждого платежа — как языковая модель формирует векторное представление слов.
Эти эмбеддинги помогают выявлять скрытые паттерны в транзакциях, включая сложные схемы мошенничества. Например, новая модель уже повысила точность детекции card-testing атак с 59% до 97% всего за одну ночь!
Главный инсайт: платежи — это тоже «язык» с семантическим смыслом. И именно внимание (attention) помогло Stripe увидеть эти скрытые зависимости и связности.
https://insightssuccessmagazine.com/stripe-launches-ai-model-to-transform-payment-fraud-detection/
@toshoseti
Open Computer Agent от Hugging Face
TL;DR: запускаете Space → набираете в prompt действие → наблюдаете, как агент кликает, печатает и сам закрывает вкладки
💛smolagents core ≈ 1 000 строк Python. Планировщик LLM → цепочка tool-calls → low-level «мышь/клавиатура».
Repo лежит рядом с Space; ставится одной командой.
💛облачный Linux + Xvfb + Firefox. Desktop стримится вам через noVNC (iframe в HF Spaces).
💛Qwen-VL в качестве вижена, bounding-box целей на скриншоте, чтобы агент «попал» мышкой.
💛xdotool/pyautogui генерирует X-Events
💛high-level LLM размечает шаги, детектор экрана ищет координаты, executor кликает. Петля повторяется, пока done = True.
🤗Space
Привет, друзья!
Это мог бы быть туториал с кодом, но меня немного не хватает на это. Однако!
Не могу не поделиться очень свежей (28.04.2025) публикаций тулы для Vision Mechanistic Interpretability!
📐 Prisma [paper], [github]— классический open-source фреймворк для механистической интерпретируемости моделей зрения. Если вы знакомы с TransformerLens (для языковых моделек) — по сути решение аналогичной задачи, но на другой модальности.
Библиотека пока разрабатывается, поэтому документация не очень удобная. Но планы и покрытие их — огонь —
✔️ Доступ к 75+ ViT и VideoVit (уже)
Детали — расширение Hf, openCLIP, timm моделей + адаптация Kandinsky ViT encoder с предобученным SAE на нем
✔️ 80+ заранее обученных Sparse Autoencoder (SAE) (в процесссе оформления, но уже можно погулять по репозиторию и статье — там много весов)
✔️Удобный зоопарк функций для circuit analysis, logit lens, attention analysis
Визуализация — красиво, интерактивно и с plotly
✔️Туториалы и toy-модели для экспериментов в low-resource среде (aka collab)
Если хотите использовать/потрогать что-то, то наиболее широкий туториал здесь.
Мой фаворит — кот в туалете отсюда =)
Сохраняйте, если захотите вернуться, когда руки дойдут до кода. Уверена, ребята подтянут все быстро.
Хорошей вам недели,
Ваш Дата-автор!
Будущее наступило? Вот интересно, запилить своего что ли, чтоб собеседования проходил. Правда вопрос: а кому по итогу платить будут?
Читать полностью…https://youtube.com/shorts/P_O0ynyLOtI?si=1Pp-ZOzdQ6dXxK2Q
Читать полностью…Если вы тоже сторонник Learning by Doing, то рекомендую:
https://codecrafters.io/videos/demo
А также сборник "Напиши свой $SOFTWARE_NAME с нуля"
https://github.com/codecrafters-io/build-your-own-x
@toshoseti
📌Beyond-NanoGPT: лаконичные и аннотированные реализации ключевых идей глубокого обучения.
Если вы хотите не просто запускать готовые модели, а понять, как они работают «под капотом», репозиторий Beyond-NanoGPT — то, что нужно. Этот проект аспиранта по CS Стэнфордского университета, который создан как мост между учебными примерами вроде nanoGPT и сложными наработками, предлагает десятки реализаций современных методов глубокого обучения.
Все написано с нуля на PyTorch, с детальными комментариями — идеально для тех, кто устал от абстрактных статей и беспощадного продакшн-кода. Каждая строчка кода написана так, что становится понятно, как его использовать на практике.
Застряли на уровне чтения бесконечных туториалов и хотите двигаться дальше? Этот репозиторий — отличный шаг. Он не сделает вас экспертом за неделю, но даст инструменты, чтобы разобраться в современных статьях и начать свои эксперименты. И да, здесь нет красивого веб-интерфейса или готовых SaaS-решений — только код, комментарии и ваше любопытство. Как и должно быть в ресерче.
Начать очень просто: клонируете репозиторий, ставите зависимости и можно погружаться в код. Архитектуры? Есть Vision Transformer для классификации изображений, Diffusion Transformer для генерации, ResNet и даже MLP-Mixer. Каждый скрипт — отдельный эксперимент.
Например, чтобы обучить DiT на датасете CIFAR-10, достаточно запустить train_dit.py
. Все рассчитано на один GPU, так что даже без доступа к злым кластерам можно практиковаться. А если хочется разобраться в механизмах внимания, отдельные ноутбуки покажут, как работают Grouped-Query, линейное, разреженное или перекрестное внимание — с визуализациями и пояснениями.
Проект не только про архитектуры, есть и прикладные техники. Хотите ускорить инференс языковой модели? Посмотрите реализацию KV-кэширования или спекулятивного декодирования — методы, которые сейчас активно используют в LLM-инфраструктуре.
Интересует RL? В разделе с обучением с подкреплением есть классика - DQN и PPO для Cartpole, а в планах — нейросеть для шахмат с MCTS. При этом код не просто работает, но и объясняет нюансы: почему в REINFORCE важна базовая линия, как избежать градиентного взрыва в трансформерах или чем RoPE-эмбединги лучше стандартных.
Часть разделов (Flash Attention, RLHF) пока в разработке. Но планы грандиозные: автор обещает все - от квантования весов до распределенного RL.
📌Лицензирование: MIT License.
🖥GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #Github #BeyondNanoGPT
Наконец то - дожили qwen3!
Вероятно лучшие до конца этой недели открытые модели, 30б с экспертами по 3б будут ОЧЕНЬ быстрыми, ожидаю по 300tps на nvidia железках
Из интересного - hybryd thinking, вы даете токен /think и модель начинает думать, ну или можно давать /no_think и модель будет глуповой.
А еще вкатили поддержку mcp сервера, обещают что все будет работать, да и метрики на агентских бенчах гуд
blog