Telegram-канал toshoseti - То шо нейросети: Unsorted - каталог телеграмм

toshoseti | Unsorted

Subscribe to a channel

Telegram-канал toshoseti - То шо нейросети

980

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

16 October 2025 21:07

GoLU — новая функция активации для нейросетей
Представлена Gompertz Linear Unit (GoLU) — инновационная self-gated функция активации, принятая на NeurIPS 2025.
Главное отличие: использует асимметричную функцию Гомперца вместо симметричного гейтинга (как в GELU/Swish), что лучше улавливает динамику реальных данных.
Преимущества:
• Снижение дисперсии в латентном пространстве
• Гладкий ландшафт функции потерь
• Быстрая сходимость и выше точность
GoLU превзошла GELU, Swish и Mish в задачах CV, NLP и диффузионных моделей. Доступно оптимизированное CUDA-ядро для простой интеграции

📄 https://arxiv.org/pdf/2502.03654
💻 https://github.com/automl/GoLU

@toshoseti

Читать полностью…

То шо нейросети

12 October 2025 16:18

Я тут узнал, что у автора моего любимого мема «Идущий к Реке» можно купить видео-рекламу, что я и сделал; видео-рекламу этого канала я вам показывать не буду, вы и так на него подписаны, но Серж (так зовут героя мема) еще сделал отдельное видео, аж на 6 минут, с благодарностями и пожеланиями мне – и я, как всегда, впечатлен его языковой моделью, буду переслушивать для повышения самооценки, спасибо

Я это видео перегнал в текст и сделал из его стиля «генератор благодарностей» в виде GPT, просто вводите свое имя и читаете про то какой вы замечательный, и «Пусть дорога твоя будет озарена внутренним пламенем, пусть рядом всегда будут те, кто поддерживает, кто видит, кто слышит. Пусть каждый твой день будет праздником узнавания самого себя» и так далее

Генерируем текст и нажимаем «прослушать» в ChatGPT, зачем – не спрашивайте, так не принято ☕️

Читать полностью…

То шо нейросети

11 October 2025 20:30

👀 Про аудио кодеки в Deep Learning School

Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :)

На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в современных исследованиях, разобрали конкретные примеры актуальных аудиокодеков и подумали, как можно объединить существующие подходы для обучения собственного кодека, потенциально превосходящего текущие решения. В завершение поговорили о практических рекомендациях по обучению кодеков и дополнительной литературе по теме.

Лекцию сделал без глубокого погружения в конкретные работы, зато мы обсудили гораздо больше других мыслей и сохранили интуицию по самым важным идеям и проблемам VQ-VAE моделей. Хотелось сделать лецию с упором на актуальные идеи и дать ровно столько, чтобы вы могли решить, куда стоит углубиться самостоятельно, имея фундамент заложенный после просмотра. Пишите возникающие вопросы в чат курса DLS или мне @varfolomeefff

Предлагаю посмотреть и поделиться мнением под постом. Давно я длинные лекции не читал.

На днях выделю особенно интересные тезисы из лекции в канал и обсужу их. Интуиция на леции правда животрепещущая и есть, о чем поспорить/подумать.

Часть 1: https://youtu.be/4mVfb-mhv9k?si=k9Q2wgtsA1h2DcP0

Часть 2: https://youtu.be/kOS6qHc6K2g?si=Po-jHSLwpeO5LmkZ

#audio #perfomances

Читать полностью…

То шо нейросети

07 October 2025 18:42

Новая LFM2 MoE-модель: 8.3B параметров, из которых активно только 1.5B на токен.

Это первая LFM2 модель с Mixture of Experts архитектурой. Качество сопоставимо с dense-моделями 3–4B, но она работает быстрее, чем Qwen3-1.7B.

Модель оптимизирована для запуска на телефонах и ноутбуках — совместима с llama.cpp и vLLM. Обучена на 12T токенов, что обеспечивает сильные результаты в math, code и instruction-following.

Архитектура: 24 блока (10 gated short conv + 6 GQA), 32 эксперта, при этом на каждый токен активируется top-4.

На Galaxy S24 Ultra и AMD HX370 модель показывает более высокую скорость, чем Qwen3-1.7B. На 16 бенчмарках она превосходит LFM2-2.6B и модели аналогичного размера, особенно в math, code и creative writing.

Использована комбинированная техника preference optimization: length-normalized DPO + APO.

🤗 Model: https://huggingface.co/LiquidAI/LFM2-8B-A1B
🤗 GGUF: https://huggingface.co/LiquidAI/LFM2-8B-A1B-GGUF
📝 Blog post: https://www.liquid.ai/blog/lfm2-8b-a1b-an-efficient-on-device-mixture-of-experts

@toshoseti

Читать полностью…

То шо нейросети

06 October 2025 10:33

ViT имеют тендецию находить области, чей сигнал избыточен (может быть выведен за счет окружающих) и передавать полезную информацию через аттеншен в этих местах. Этакая контрабанда внутри трансформеров.
Чтобы облегчить работу трансформерам и ~~закопать уже стюардессу~~ нормализовать attention masks, вводят дополнительные регистры для подобного хранения на усмотрение модели.

Статья

@toshoseti

Читать полностью…

То шо нейросети

05 October 2025 13:26

https://www.arxiv.org/abs/2509.19162

Мы выложили на архив третью статью проекта CayleyPy.
(Первая статья была принята на самую топовую конференцию NeaurIPS как spotlight - то есть в топ3%.)
А также представляем первый релиз нашей библиотеки - CayleyPy - для работы методами МЛ/RL с графами размера гугл: https://github.com/cayleypy/cayleypy (Кидайте звезды на наш гитхаб - они нам очень помогут). Библиотека также ставится через pypi: https://pypi.org/project/cayleypy/ .

Сама статья с упором на математику - предложено около 200 новых математических гипотез полученных с помощью вычислительных экспериментов с нашей библиотекой, которая позволяет делать расчеты - которые за пределами существовавших ранее систем компьютерной алгебры. Если у Вас есть знакомые математики занимающиеся теорий групп или графов - свяжите их с нами - @alexander_v_c . Slides at Oberwolfach.

А также мы рады всем добровольцам - кто знает Питон или математику и имеет несколько свободных часов - будем рады всем участникам - пинганите @alexander_v_c

Чтобы бенчмаркать методы и одновременно двигать математику и биоинформатику - мы создали более 10 челленжей на Каггл.
Всем кому интересен Каггл - тоже присоединяйтесь
https://www.kaggle.com/competitions/cayleypy-christophers-jewel
https://www.kaggle.com/competitions/cayleypy-glushkov
https://www.kaggle.com/competitions/CayleyPy-pancake
https://www.kaggle.com/competitions/cayleypy-transposons

Читать полностью…

То шо нейросети

04 October 2025 22:58

https://whytorch.org/

Инструмент для наглядной демонстрации некоторых тривиальных и нетривиальных функций операций с тензорами в PyTorch.

@toshoseti

Читать полностью…

То шо нейросети

03 October 2025 12:54

Есть наработки по AI системе озвучки (foley, no speech) для AI Generated NSFW videos или любых прочих NSFW видео без звука, с возможностью адаптации под домен. Если есть идеи как монетизировать или потенциальные клиенты, напишите, пожалуйста.

Читать полностью…

То шо нейросети

01 October 2025 18:22

Жидкие сети продолжаю переть вперед!

Теперь компактная модель для Speech related tasks (TTS, STT)

LFM2-Audio — это новая end-to-end audio-text модель, разработанная для обеспечения максимального качества в средах с низкой задержкой и ограниченными ресурсами.
Гибкая мультимодальная архитектура, поддерживающая все комбинации аудио- и текстовых модальностей ввода-вывода через единый backbone.
Широкий спектр приложений в одной модели, включая разговорный чат, транскрипцию, преобразование текста в речь и классификацию аудио.
Более чем в 10 раз более быстрый вывод, с качеством разговора, сопоставимым с 10-кратно более крупными конкурирующими моделями.

Video:
https://www.youtube.com/watch?v=1eGMxkffBC8&t=4s

Demo: https://playground.liquid.ai/talk

📝 Article: https://www.liquid.ai/blog/lfm2-audio-an-end-to-end-audio-foundation-model

🤗 Model: https://huggingface.co/LiquidAI/LFM2-Audio-1.5B

@toshoseti

Читать полностью…

То шо нейросети

30 September 2025 16:35

В этот день, 28 лет назад, хорватский программист изменил то, как весь мир слушает музыку.

В 1997 году Томислав Узелац, тогда 23-летний студент факультета информатики из Хорватии, разработал первую настоящую работающую программу для воспроизведения аудиофайлов в формате MP3 — AMP.

Это стало переломным моментом в истории технологий. Его работа сделала возможным воспроизведение сжатых аудиофайлов на персональных компьютерах, положив начало цифровой музыкальной революции.

После того как Томислав выложил свою программу в интернет, американские студенты Джастин Франкел и Дмитрий Болдырев взяли её за основу и адаптировали для интерфейса Windows. Так появился Winamp — ставший самым популярным MP3-плеером в мире на десятилетия. Джастин и Дмитрий назвали его, объединив первые буквы слов Windows и AMP.

@toshoseti

Читать полностью…

То шо нейросети

30 September 2025 00:52

Алекс Гордич продолжает разбирать основы современного ллм инференса - в этот раз про matmul на картах nvidia и его особенности

aleksagordic.com/blog/matmul

Читать полностью…

То шо нейросети

25 September 2025 23:39

Шайтан! В смысле демон!

Читать полностью…

То шо нейросети

25 September 2025 15:22

by /channel/denissexy/10791

Читать полностью…

То шо нейросети

25 September 2025 14:30

Я не знаю, может меня легко впечатлить или я впечатлительный человек в целом – хотя вроде нет, я нормально отношусь когда мимо меня проезжает чел на моноколесе с подсветкой на скорости 40 км/ч и я даже пальцем в него не тыкаю, но я не про это – вам не кажется, что роботы не должны так петь?

Это будто какие-то законы божьи мы нарушаем прямо сейчас и каждую версию рекламируем, мол, вон смотрите, прокуренный-кабачный голос всего за 5 секунд сгенерировал вам песню, никакого опиума не участвовало и в подписке в месяц можно сгенерировать 500 кабачных песен без всякого опиума, просто принеси свой стих или сделаем с нуля вместе

А как же разбитые музыкальные судьбы которые конвертировались в великие хиты? Как в таком мире появится новый Вертинский? Откуда взяться Юлии Запольской если таких песен генерируется 500 за $10 в месяц?

Я одновременно и напуган и впечатлен, и негодую от пятой версии Suno

P.S. Это стихи Бодлера, Цветы зла – Отрава, за то что он хейтил технологии мне иронично мучить его творчество

Читать полностью…

То шо нейросети

24 September 2025 11:43

Давненько я делал введение , разбор и тетрадки по теме жидких нейросетей. Я остановился на closed form continuous time upper-lower bound solution , которое предоставили авторы, где вместо солвера получилось использовать формулу, не повторяющую точное значение, но повторяющую динамику целевой функции достаточно близко.
В этом году вышла статья, где пошли еще дальше и представили точное closed form решение, заменяющее необходимость в ODE solver:

https://www.techrxiv.org/users/834518/articles/1227159/master/file/data/ExactLTC/ExactLTC.pdf

Постараюсь в ближайшее время разобрать, может даже запилю кое что интересное с использованием этого подхода.

@toshoseti

Читать полностью…

То шо нейросети

15 October 2025 14:18

http://arxiv.org/abs/2510.12403

Hf книжка по роботам sim-real rl, vla, diffusion policies

Читать полностью…

То шо нейросети

11 October 2025 20:30

Спасибо за наводку /channel/den4ikresearch

Читать полностью…

То шо нейросети

08 October 2025 01:52

Samsung Tiny Recursive Model (TRM) от Alexia Jolicoeur-Martineau — модель примерно в 10 000 раз меньше, чем типичные LLM, но при этом умнее.

Вместо простого предсказания текста TRM рассуждает рекурсивно: формирует ответ, создает скрытый scratchpad для логики, критикует себя, улучшает рассуждения до 16 раз и выдает сильный финальный результат.

На ARC-AGI 1/2 она превзошла DeepSeek и Gemini 2.5 Pro, показывая, что интеллект определяется архитектурой и циклами рассуждения, а не размером.

TRM делает ИИ эффективнее, дешевле и умнее, подтверждая идеи neuro-symbolic AI.

🔗 Blog
💻 Code
📄 Paper

@toshoseti

Читать полностью…

То шо нейросети

07 October 2025 12:54

Qwen3-Next 80B-A3B

C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом

- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)

blog

Читать полностью…

То шо нейросети

05 October 2025 20:41

[Гитхаб репа]

Коллеги из страны, подарившей ранее миру шедевры Моцарта и Штрауса, а еще и GPTQ, выкатили на неделе либу llm.q для quantization-aware training LLMок, написанную на чистом C/C++.

Данный проект по существу является адаптацией llm.c от Карпатого под обучение квантизованных моделей.

Чекпоинты с обучения сохраняются в .safetensors формат, т.е совместимый с 🤗 экосистемой.

В либе реализован небходимый базовый функционал для обучения LLM:
📌 Zero (1-3)
📌 Градиентный чекпоинтинг
📌 Оффлоадинг
📌 Разные опции для mixed-precision

На текущий момент, поддерживается обучение в half precision, INT8, FP8. Было бы прикольно в будущем увидеть реализацию обучения для FP4 форматов, поддерживаемых Blackwell, со всеми прибамбасами для стабилизации обучения.

Сравнения по скорости обучения с популярными фреймворками (accelerate / deepspeed) я не увидел. Представлены только абсолютные числа по времени обучения для модели заданной архитектуры. Удается достичь примерно 40-60% SOL (speed-of-light, максимально возможной производительности на заданном железе). На маленьких моделях fp8 почти не дает ускорения обучения, но с ростом размера нейронки - профит становится заметнее.

Интересно, как дальше будет развиваться проект.

Читать полностью…

То шо нейросети

05 October 2025 13:26

От /channel/nadlskom узнал про наших слоняр, поддержим!

Читать полностью…

То шо нейросети

04 October 2025 10:50

Ring, Ulysses и Unified Attention теперь поддерживаются в HF Diffusers!
Иными словами завезли context parallelism , ускоряющий работу на нескольких GPU.

https://github.com/huggingface/diffusers/pull/11941

@toshoseti

Читать полностью…

То шо нейросети

02 October 2025 13:22

🐈FLM-Audio: новая англо-китайская full-duplex модель, чем она лучше Moshi ?

Тык, сегодня снова про аудио тех 🔔
🔗FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

Голосовой ассистент, который одновременно слушает и говорит, моментально замолкает при перебивании, поддакивает "угу". Это full-duplex модели, и их пока можно пересчитать по пальцам, а ведь Moshi вышла уже год назад. Потому что одновременно слушать и говорить — технически не очень просто.

‼Немного про full-duplex

Большинство (около-)дуплексных моделей используют Time Division Multiplexing: контекст это чередующиеся чанки того, что говорит пользователь, что отвечает модель, и текст ответа.

Kyutai Labs в Moshi предложили native full-duplex — она моделирует три потока параллельно: входное аудио пользователя, своё выходное аудио и текстовый inner-monologue. 😮 Для каждого аудиофрейма (12.5 Hz) модель генерит свои аудио и текстовые токены монолога (когда молчит, то все равно генерит пустые токены), затем эти потоки объединяются и подаются обратно на вход LLM.

Но есть сложность: текст и аудио имеют разные частоты. Одно слово произносится за ~300ms, а аудио кодек / энкодер выдает порядка ~100 токенов в секунду (зависит, но сильно больше чем кол-во слов). Их нужно синхронизировать.

😭 Проблема Moshi: 65% padding'а

Moshi выравнивает текст на уровне слов: для каждого слова создаётся временная метка, и текст растягивается pad-токенами. Получается: Привет <pad> <pad> <pad> <pad> как <pad> <pad> дела <pad> <pad>

Значительная часть текстового потока становится шумом. LLM моделирует язык на последовательности, где много токенов ничего не значат. При таком подходе Moshi проактивно отвечает, но становится слабее как языковая модель 🐈 — может выдавать странные фразы, неуместно перебивать. Плюс нужны точные временные метки на уровне слов для всего корпуса. Это сложно масштабируется.

💭FLM-Audio: natural monologues

В FLM-Audio предложили идею: а что если выравнивать текст и аудио на уровне предложений, а не слов?

Inner-monologue генерится как непрерывный текст, опережая аудио на ~2 токена. Модель думает полными предложениями и сразу говорит. Пока аудио заканчивает генерацию, текстовый канал заполняется <wait> токенами. Для понимания речи есть Follow Mode, где монолог следует за аудио (ASR режим). Тут нужны только транскрипции предложений, без временных меток слов.

Что и как тренировали?

Основа это Qwen-2.5-VL (7B), RQ-Transformer для аудио, Mimi кодек. Три канала эмбеддингов объединяются на каждом шаге, LLM генерит hidden states, из которых одна голова производит текст, а depth transformer 8 аудио токенов (все похоже на Moshi).

Обучение в четыре стадии. Post-training на ~1М часов (у Moshi было 7М) с dual-форматом: Lead (TTS режим, текст опережает аудио генерацию на ~2 токена) и Follow (ASR режим, текст после аудио). Затем supervised fine-tuning: сначала semi-duplex, потом full-duplex с симуляцией прерываний.

🗯Интересно: авторы подмешивают речь модели в listening канал с вероятностью 0.3, чтобы она научилась игнорировать собственный голос.

Результаты лучше Moshi, но есть вопросики

⏺ASR (LibriSpeech-clean): 3.2% WER против 5.7% у Moshi — на 44% лучше. В spoken QA авторы заявляют 56.3% vs 43.7 у Moshi (хотя в своей статье Moshi показывала 62.3%).

⏺Human eval: FLM выше Qwen-2.5-Omni по naturalness (8.2 vs 7.9), responsiveness (8.8 vs 8.1), robustness (8.0 vs 7.7).

Похожую идею отказа от строгого word-level выравнивания уже предлагали в SALM-Duplex (вот разбор), но её не сравнивают. Это странно: SALM-Duplex показала 94.5% успешных прерываний против 55.1% у Moshi при 1.1B парам-ов и всего 26.5k часов данных.

Ну и выводы такие..

Natural monologues решают проблему с padding'ом. Результаты по ASR это подтверждают, субъективные оценки положительные. Но без объективных метрик full-duplex способностей трудно оценить, действительно ли FLM-Audio лучше. Отсутствие сравнения с SALM-Duplex — это прям упущение.

🥹 Как считаете, стоит ли full-duplex такой архитектурной сложности? И как вам Moshi, если удалось потестить?

Читать полностью…

То шо нейросети

01 October 2025 12:09

Полиция Сан-Бруно в США остановила машину, чтобы выписать штраф за неправильный разворот, однако за рулем транспортного средства никого не было — сотрудник остановил беспилотное такси Waymo. Информация о случившемся появилась в соцсетях ведомства.

Инцидент произошел в рамках операции по борьбе с водителями, которые садятся за руль в нетрезвом виде. Полицейские не смогли выписать штраф за маневр, ведь в бланках нет графы «робот» для обозначения нарушителя.

Сотрудники полиции уведомили сервис беспилотных такси Waymo. Представители компании пообещали изучить ситуацию и заверили, что этот опыт будет использован для повышения безопасности дорожного движения, передает The Guardian.

Фото: San Bruno Police Department

🐚 Читать РБК в Telegram

Читать полностью…

То шо нейросети

30 September 2025 12:36

⚡️ Sakana AI представили: ShinkaEvolve — новый open-source фреймворк для научных открытий, который использует LLM и работает на порядки эффективнее традиционных эволюционных систем.

Обычные эволюционные алгоритмы похожи на brute-force: им нужны тысячи выборок, чтобы найти хорошее решение.

ShinkaEvolve, вдохновлённый принципами природы (*shinka* — «эволюция» по-японски), решает задачи всего за сотни попыток.

Пример: в классической задаче упаковки кругов (разместить несколько кругов так, чтобы они не перекрывались и при этом занимали как можно меньше места или максимально эффективно заполняли заданную область) ShinkaEvolve нашёл новое SOTA-решение, использовав 150 выборок, тогда как прошлым методам требовались тысячи.

📌 Применения ShinkaEvolve:

1️⃣ AIME Math Reasoning - система создала новые агентные шаблоны (scaffolds), которые оказались сильнее существующих методов.
2️⃣ Соревновательное программирование (ALE-Bench) - улучшила готовые решения и подняла результат с 5-го до 2-го места в рейтинге.
3️⃣ Обучение LLM - открыла новую функцию потерь для MoE-моделей, что помогло экспертам лучше специализироваться и снизило perplexity моделей.

⚙️ Основные инновации, которые дают такой прирост эффективности:
- умный отбор родителей, балансирующий исследование новых идей и улучшение старых;
- фильтрация по новизне, чтобы не тратить ресурсы на повторные варианты;
- ансамбль из нескольких LLM, где bandit-алгоритм в реальном времени выбирает наиболее подходящую модель для задачи.

ShinkaEvolve открыт для сообщества и задуман как универсальный помощник для учёных и инженеров. Цель команды — сделать поиск новых решений быстрее и доступнее.

🔗 Блог: https://sakana.ai/shinka-evolve/
🔗 Код: https://github.com/SakanaAI/ShinkaEvolve
📄 Репорт: https://arxiv.org/abs/2509.19349

@ai_machinelearning_big_data

#AI #LLM #EvolutionaryAI #ShinkaEvolve #OpenSource

Читать полностью…

То шо нейросети

26 September 2025 14:25

Catfishing вышел на новый уровень

https://www.linkedin.com/posts/smithymayo_heychris-ugcPost-7376761238887784448-b2AV?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAkSAEgBX_xdhFaZTMXpH3px_4aV61bTHRo

Читать полностью…

То шо нейросети

25 September 2025 23:39

https://www.linkedin.com/posts/steevemorin_paving-the-way-for-unlimited-context-windows-activity-7376981932150112256-gzBO?utm_medium=ios_app&rcm=ACoAAAkSAEgBX_xdhFaZTMXpH3px_4aV61bTHRo&utm_source=social_share_send&utm_campaign=share_via

Читать полностью…

То шо нейросети

25 September 2025 15:21

Каким то волшебным макаром ушел оригинальный автор поста , сейчас перешлю заново

Читать полностью…

То шо нейросети

25 September 2025 14:30

Мы живем в сумасшедшее время. Чудесное и страшное.

Читать полностью…

То шо нейросети

18 September 2025 18:15

https://lnkd.in/p/g7T_VFWU

Читать полностью…

Subscribe to a channel