toshoseti | Unsorted

Telegram-канал toshoseti - То шо нейросети

980

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

Когда кто-то наебенился в Гарварде: появляется facemash .
Когда кто-то наебенился в Стенфорде:

Читать полностью…

То шо нейросети

Мне одному странно смотреть, как 4 крутых инженера на серьезных щах обсуждают их же детище, как будто они его первый раз видят\обнаружили недавно?
https://www.youtube.com/watch?v=hhdpnbfH6NU

Читать полностью…

То шо нейросети

https://huggingface.co/mcp-course

Читать полностью…

То шо нейросети

Интересный эксперимент про то, как хорошо некоторые топовые модели соблюдают заданные правила, и как зависит послушность от количества правил.

https://www.linkedin.com/pulse/llms-follow-rules-until-dont-alan-roth-kgwxc/

@toshoseti

Читать полностью…

То шо нейросети

Прирост, конечно, незначительный, но любопытновое

https://github.com/ensemble-core/NdLinear
https://arxiv.org/abs/2503.17353

@toshoseti

Читать полностью…

То шо нейросети

Крайне рекомендую. 50k stars.
https://github.com/mlabonne/llm-course

@toshoseti

Читать полностью…

То шо нейросети

Надоумил меня тут мой давний товарищ разобраться с Florence2 - а хрен ли он так долго загружается (около 3-4 минут). После профайла выяснилось что внутри pytorch бинаря модели Florence 2, точнее внутри pickle с данными весят хуки на rebuild_tensor_v2 - monkey patch для совместимости. В итоге, решено было пересохранить в safe-tensors. Старт стал раз в десять быстрее, инференс примерно в полтора раза быстрее, но я точно не мерял, может быть погрешность.
Короче, вот кому надо - вот, https://huggingface.co/KPEKEP/Florence-2-large-safetensors
Там же скрипт если захотите поправить другую вариацию модели.

@toshoseti

Читать полностью…

То шо нейросети

GPT-2 победила o1-mini благодаря гроккингу

Мы использовали 2WikiMultiHopQA набор данных для n-шаговых задач рассуждения и с помощью гроккинга добились 96% точности.

Что такое гроккинг?

Гроккинг – отложенное обобщение модели. Если тренировать модель очень долго, то она начнет решать задачу со 100% точностью на новых данных. Очень долго – в 100 раз дольше после достижения моделью 100% точности на тренировочной выборки.

Что уникального?

Мы первые, кто применил гроккинг на реальном наборе данных. До сих пор гроккинг не применялся на реальных задачах рассуждения – только "лабораторные" примеры модульного деления. Недавно вышла статья, которая все еще на игрушечном наборе данных показала, что проблема была в количестве выведенных фактов. Если просто, то в реальных данных просто недостаточно примеров рассуждения, чтобы гроккинг появился.

Что сделали мы?

Мы решили продолжить открытия той статьи, но на реальных данных и аугментировали больше рассуждения с "выведенными фактами". Сделали это с помощью GPT-4о модели, расширили набор тренировочных данных, тренировали модель очень долго, и вау-ля! У вас почти 100% точность. Почему нет 100%? В процессе аугментации возникают ошибки и галлюцинации, поэтому точность не 100%, но если улучшить этот процесс, то можно достичь и 100%.

Пример задачи:

Обучающая пара:
– Эйфелева Башня находится во Франции.
– Музей BMW находится в Германии.

Вопрос: Находятся ли они в одной стране?

Чтобы ответить, модель должна сделать два шага рассуждения: извлечь местоположения объектов и сравнить их. Проблема в том, что в реальных данных вопросов с ответами не так много – их мы и расширили.

Что теперь?

Хотим работать в этом направлении дальше и планируем расширить набор задач, который можно решать с помощью гроккинга.

Нужна ваша помощь!

Выпустили статью и сейчас боремся за "Статью дня" на Hugging Face. Проголосовать можно тут:

👉 Поддержите апвоутом 👈

Полноценный обзор статьи на Хабре

Сама статья

P.S. За репост отдельный респект.

Читать полностью…

То шо нейросети

⚡️ HunyuanCustom: консистентная видеогенерация c инпейнтом и липсинком.

Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.

В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.

Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.

Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.

Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.

Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.

⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.

Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.


📌Лицензирование кода : Tencent Hunyuan Community License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Video #HunyuanCustom #Tencent

Читать полностью…

То шо нейросети

🌟 Voila: набор голосовых моделей для взаимодействия в реальном времени и roleplay.

Voila — семейство голосовых языковых моделей с поддержкой 6 языков (английский, китайский, французский, немецкий, японский и корейский), которое амбициозно позиционирует себя как конкурентов Siri или Alexa.

Классические системы используют конвейер из модулей: ASR, обработка текста LLM и затем TTS. Этот пайплайн порождает задержки до нескольких секунд, теряет эмоции и тон голоса. Voila обрабатывает аудио напрямую через end-to-end архитектуру. Модель делит звук на семантические и акустические токены, сохраняя нюансы акцента и интонации, а кастомное LLM-ядро отвечает за осмысленные ответы. В архитектуре Voila задержка составляет всего 300 мс — как у человека.

В тестах на собственном бенчмарке в задачах ASR Voila показала уровень ошибок (WER) 2,7% против 5,7% (Moshi), 3,6% (FastConformer). Для TTS ее аудио настолько естественно, что система ошибается в расшифровке всего в 2,8% случаев (7,7 у YourTTS, 4,7 у Moshi).

▶️ Состав релиза:

🟢Voila-base - базовая модель для обработки голоса и текста, поддерживает ASR (распознавание речи) и TTS (синтез речи). Основа для остальных версий.

🟢Voila-Chat - модель для диалогов. Генерирует естественные ответы с учетом контекста, сохраняет эмоции и интонации. Подходит для голосовых ассистентов и чат-ботов.

🟢Voila-Autonomous - превью-версия полнодуплексной модели. Может слушать и говорить одновременно, имитируя живое общение: перебивает, вставляет реплики-подтверждения («угу»), реагирует на эмоции в реальном времени.

🟢Voila-Audio-alpha - экспериментальная версия для анализа аудио. Распознаёт неречевые звуки (шум, эмоции), идентифицирует говорящего по тембру.

🟠Voila-Tokenizer - аудио-токенайзер. Преобразует аудио в семантические и акустические токены. Разделяет смысл (слова) и звуковые нюансы (акцент, тон), чтобы LLM эффективнее обучалась на аудиоданных. База всех моделей Voila.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Demo
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #VOILA #Matrix

Читать полностью…

То шо нейросети

💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS

Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!

Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему

Наш доменный эксперт Сабина:

С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.


Что мы имеем по итогу статьи:
💛Собрали мультиагентную систему с ReAct-координатором, который управляет текстовым (LLM на NER задачу, aka доп эксперт) и визуальным (YOLO+4O) агентами
💛Автоматизировали сбор датасетов по нанозимам, ранее вручную собираемых экспертами
💛Достигли точности 0.98 по числовым параметрам и высокого качества по текстовым

Как работает:
💛PDF → текст и изображения через pdfplumber и pytesseract.
💛Текст разбивается на чанки по 2048 токенов (потому что мы бедные, забейте) для NER-агента; а визуальный агент на GPT-4o обрабатывает графики и таблицы целиком для восстановления структурной логики статьи
💛У каждого агента чёткая зона ответственности и формат ответа

Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве

Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials😎, чтобы поделиться полной версией. Также планируем доработки на следующие конфы, в которых расширим покрытие тем статей и адаптацию агентов к новым параметрам и доменам🤫

📖Папир тут
🖥Код

Читать полностью…

То шо нейросети

Мало что было известно об авторе видео, пока кто-то не запостил линк на его гит.

После этого всем стало в целом без разницы кто это.

Git

@CGIT_Vines

Читать полностью…

То шо нейросети

https://dynamic-epoch-4bb.notion.site/100-questions-about-NLP-549ccde0d81a4689b5635888b9d0d7e6

Читать полностью…

То шо нейросети

Чем меньше поезда, тем больше удовольствие!

Читать полностью…

То шо нейросети

https://arxiv.org/abs/2504.18415

Читать полностью…

То шо нейросети

Друзья, накидайте пожалуйста годных недавних статей про:
-Video Prediction
-Video Anomaly Detection
-Multimodal Semantic Anomaly detection
-Anomaly detection in games
-Video comprehension

Желательно тех, что сами читали.

Читать полностью…

То шо нейросети

#промo
Найден годный конспект по LLM на русском языке

Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтобы понять принцип работы современных моделей. Что внутри, если кратко:

– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения
– RL – с нуля до обучения ризонинг-моделей типа o3
– И даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.

Все – в иллюстрациях, схемах и интуитивно понятных примерах. Для наглядности прикладываю несколько страниц.

Забрать полную pdf-версию абсолютно бесплатно можно здесь

#тексприслан

Читать полностью…

То шо нейросети

https://www.linkedin.com/posts/naveen-manwani-65491678_cvpr2025-activity-7324485635531005952-shNe?utm_source=share&utm_medium=member_ios&rcm=ACoAAAkSAEgBX_xdhFaZTMXpH3px_4aV61bTHRo

Читать полностью…

То шо нейросети

При том, сделали выбор в пользу внутреннего кандидата!

Читать полностью…

То шо нейросети

DeepWiki — нейросетевой инструмент, который генерирует подробную документацию на основе GitHub-репозиториев. Для доступа достаточно заменить github.com в адресной строке на deepwiki.com

#сервисы@daniilak

Читать полностью…

То шо нейросети

Stripe уже несколько лет применяет ML-модели, обученные на отдельных фичах (BIN, zip-код, метод оплаты), чтобы улучшить свои продукты. Это дало ощутимые результаты: +15% к конверсии и -30% к мошенничеству.

Но такие модели ограничены: для каждого кейса — авторизации, борьбы с фродом или спорами — требуется отдельная модель и подбор фичей.

Теперь Stripe пошла дальше и разработала универсальную модель на базе трансформеров. Она обучена на десятках миллиардов транзакций и создает эмбеддинги для каждого платежа — как языковая модель формирует векторное представление слов.

Эти эмбеддинги помогают выявлять скрытые паттерны в транзакциях, включая сложные схемы мошенничества. Например, новая модель уже повысила точность детекции card-testing атак с 59% до 97% всего за одну ночь!

Главный инсайт: платежи — это тоже «язык» с семантическим смыслом. И именно внимание (attention) помогло Stripe увидеть эти скрытые зависимости и связности.

https://insightssuccessmagazine.com/stripe-launches-ai-model-to-transform-payment-fraud-detection/

@toshoseti

Читать полностью…

То шо нейросети

Open Computer Agent от Hugging Face

TL;DR
: запускаете Space → набираете в prompt действие → наблюдаете, как агент кликает, печатает и сам закрывает вкладки

💛smolagents core ≈ 1 000 строк Python. Планировщик LLM → цепочка tool-calls → low-level «мышь/клавиатура».
Repo лежит рядом с Space; ставится одной командой.
💛облачный Linux + Xvfb + Firefox. Desktop стримится вам через noVNC (iframe в HF Spaces).
💛Qwen-VL в качестве вижена, bounding-box целей на скриншоте, чтобы агент «попал» мышкой.
💛xdotool/pyautogui генерирует X-Events
💛high-level LLM размечает шаги, детектор экрана ищет координаты, executor кликает. Петля повторяется, пока done = True.

🤗Space

Читать полностью…

То шо нейросети

Привет, друзья!

Это мог бы быть туториал с кодом, но меня немного не хватает на это. Однако!

Не могу не поделиться очень свежей (28.04.2025) публикаций тулы для Vision Mechanistic Interpretability!

📐 Prisma [paper], [github]— классический open-source фреймворк для механистической интерпретируемости моделей зрения. Если вы знакомы с TransformerLens (для языковых моделек) — по сути решение аналогичной задачи, но на другой модальности.

Библиотека пока разрабатывается, поэтому документация не очень удобная. Но планы и покрытие их — огонь —

✔️ Доступ к 75+ ViT и VideoVit (уже)
Детали — расширение Hf, openCLIP, timm моделей + адаптация Kandinsky ViT encoder с предобученным SAE на нем
✔️ 80+ заранее обученных Sparse Autoencoder (SAE) (в процесссе оформления, но уже можно погулять по репозиторию и статье — там много весов)
✔️Удобный зоопарк функций для circuit analysis, logit lens, attention analysis
Визуализация — красиво, интерактивно и с plotly
✔️Туториалы и toy-модели для экспериментов в low-resource среде (aka collab)

Если хотите использовать/потрогать что-то, то наиболее широкий туториал здесь.
Мой фаворит — кот в туалете отсюда =)

Сохраняйте, если захотите вернуться, когда руки дойдут до кода. Уверена, ребята подтянут все быстро.

Хорошей вам недели,
Ваш Дата-автор!

Читать полностью…

То шо нейросети

Будущее наступило? Вот интересно, запилить своего что ли, чтоб собеседования проходил. Правда вопрос: а кому по итогу платить будут?

Читать полностью…

То шо нейросети

https://youtube.com/shorts/P_O0ynyLOtI?si=1Pp-ZOzdQ6dXxK2Q

Читать полностью…

То шо нейросети

Если вы тоже сторонник Learning by Doing, то рекомендую:
https://codecrafters.io/videos/demo

А также сборник "Напиши свой $SOFTWARE_NAME с нуля"
https://github.com/codecrafters-io/build-your-own-x

@toshoseti

Читать полностью…

То шо нейросети

Визуализация моего гитхаба

Читать полностью…

То шо нейросети

📌Beyond-NanoGPT: лаконичные и аннотированные реализации ключевых идей глубокого обучения.

Если вы хотите не просто запускать готовые модели, а понять, как они работают «под капотом», репозиторий Beyond-NanoGPT — то, что нужно. Этот проект аспиранта по CS Стэнфордского университета, который создан как мост между учебными примерами вроде nanoGPT и сложными наработками, предлагает десятки реализаций современных методов глубокого обучения.

Все написано с нуля на PyTorch, с детальными комментариями — идеально для тех, кто устал от абстрактных статей и беспощадного продакшн-кода. Каждая строчка кода написана так, что становится понятно, как его использовать на практике.

Застряли на уровне чтения бесконечных туториалов и хотите двигаться дальше? Этот репозиторий — отличный шаг. Он не сделает вас экспертом за неделю, но даст инструменты, чтобы разобраться в современных статьях и начать свои эксперименты. И да, здесь нет красивого веб-интерфейса или готовых SaaS-решений — только код, комментарии и ваше любопытство. Как и должно быть в ресерче.

Начать очень просто: клонируете репозиторий, ставите зависимости и можно погружаться в код. Архитектуры? Есть Vision Transformer для классификации изображений, Diffusion Transformer для генерации, ResNet и даже MLP-Mixer. Каждый скрипт — отдельный эксперимент.

Например, чтобы обучить DiT на датасете CIFAR-10, достаточно запустить train_dit.py. Все рассчитано на один GPU, так что даже без доступа к злым кластерам можно практиковаться. А если хочется разобраться в механизмах внимания, отдельные ноутбуки покажут, как работают Grouped-Query, линейное, разреженное или перекрестное внимание — с визуализациями и пояснениями.

Проект не только про архитектуры, есть и прикладные техники. Хотите ускорить инференс языковой модели? Посмотрите реализацию KV-кэширования или спекулятивного декодирования — методы, которые сейчас активно используют в LLM-инфраструктуре.

Интересует RL? В разделе с обучением с подкреплением есть классика - DQN и PPO для Cartpole, а в планах — нейросеть для шахмат с MCTS. При этом код не просто работает, но и объясняет нюансы: почему в REINFORCE важна базовая линия, как избежать градиентного взрыва в трансформерах или чем RoPE-эмбединги лучше стандартных.

Часть разделов (Flash Attention, RLHF) пока в разработке. Но планы грандиозные: автор обещает все - от квантования весов до распределенного RL.


📌Лицензирование: MIT License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Github #BeyondNanoGPT

Читать полностью…

То шо нейросети

Наконец то - дожили qwen3!

Вероятно лучшие до конца этой недели открытые модели, 30б с экспертами по 3б будут ОЧЕНЬ быстрыми, ожидаю по 300tps на nvidia железках

Из интересного - hybryd thinking, вы даете токен /think и модель начинает думать, ну или можно давать /no_think и модель будет глуповой.

А еще вкатили поддержку mcp сервера, обещают что все будет работать, да и метрики на агентских бенчах гуд


blog

Читать полностью…

То шо нейросети

А какие у вас benefits на работе? :)

Читать полностью…
Subscribe to a channel