toshoseti | Unsorted

Telegram-канал toshoseti - То шо нейросети

846

На пальцах, местами с матом, местами с претензией на юмор, но познавательно.

Subscribe to a channel

То шо нейросети

https://www.youtube.com/watch?v=KBzvHp02JPI

Читать полностью…

То шо нейросети

https://www.reddit.com/r/LLMDevs/comments/1ieyflc/prompted_deepseek_r1_to_choose_a_number_between_1/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_button

Читать полностью…

То шо нейросети

Minimal recipe for test-time scaling and strong reasoning performance matching o1-preview with just 1,000 examples & budget forcing

https://github.com/simplescaling/s1

@toshoseti

Читать полностью…

То шо нейросети

У меня дома черный робот пылесос, считай настоящая домработница, попытался спиздить медальон на цепочке. А вы говорите скайнет, AGI…

Читать полностью…

То шо нейросети

https://huggingface.co/blog/open-r1

@toshoseti

Читать полностью…

То шо нейросети

Украл у @whargarbl

Читать полностью…

То шо нейросети

Полная аппаратная и программная настройка для локального запуска Deepseek-R1. Оригинальная модель, без дистилляции, с квантованием Q8 для максимального качества.
https://x.com/carrigmat/status/1884244369907278106?s=46&t=Ij6sROHw5etdGL_2qUeFnQ

@toshoseti

Читать полностью…

То шо нейросети

https://www.youtube.com/watch?v=2GFyFmMm9-A

Читать полностью…

То шо нейросети

Хех, заставил оператора чатгпт пройти капчу гугла

Просто проигрываем MP4-файл в режиме "картинка в картинке" в браузере оператора (видео с текстом-инъекцией – видео летает над всеми страницами и обходит политику не заполнения капчи, так как бот думает что мы в оффлайне и чего-то там дебажим)

"картинка в картинке" включается если кликнуть правой кнопкой на mp4 в браузере и выбрать этот пункт в списке

Читать полностью…

То шо нейросети

🐠 Fish Speech MOD ● Модифицированная версия синтезатора речи с клонированием голоса ● RU ● Portable by NerualDreming

Ссылка на оригинальный GitHub: https://github.com/fishaudio/fish-speech
Репакер: #NerualDreming
Дата обновления: 15 января 2025
Версия: 1.4.3
Категории: #TTS, #voiceclone, #AIaudio
Платформа: #Windows
Язык: RU
Место на диске: 10 ГБ
Системные требования: NVIDIA GPU 8gb
Совместимость: #Nvidia

🖥 Описание софта:

Fish Speech - это мощный инструмент для синтеза речи с возможностью клонирования голоса. Особенность данной модифицированной версии в том, что она адаптирована для русскоязычных пользователей и дополнена новыми функциями для более удобной работы.


😬 Основные возможности Fish Speech:
🟣 Клонирование голоса по образцу 15-60 секунд
🟣 Поддержка русского и других языков (английский, японский, корейский, китайский, французский, немецкий, арабский, испанский)
🟣 Высокая точность синтеза речи
🟣 Сохранение в форматах MP3 и FLAC
🟣 Полностью русифицированный интерфейс
🟣 Упрощенная работа с папкой examples - достаточно добавить MP3 и текстовый файл с расшифровкой для добавления новых голосов
🟣 Оптимизированный интерфейс без неиспользуемых элементов


📣 Встроенные голоса:
🔘 Крастер (YouTube)
🔘 Губка Боб
🔘 Тинькофф (YouTube)
🔘 Кропина (YouTube, женский)
🔘 Бухмин (AudioBook)
🔘 Володарский
🔘 Гоблин Пучков (YouTube)
🔘 Дедпул (Гланц)
🔘 Денис Колесников (YouTube)
🔘 5 дополнительных женских голосов на английском языке


⚠️ Отказ от ответственности:
Все примеры голосов взяты из открытых источников и представлены с уважением к их носителям и исключительно в демонстрационных целях. Для коммерческого использования рекомендуем обращаться к авторам. Несанкционированное использование чужих голосов в коммерческих целях и без разрешений не только нарушает права их владельцев, но и может преследоваться по закону. Мы категорически запрещаем и осуждаем использование данной технологии для нарушения чьих-либо прав или для совершения противоправных действий!


💿 Установка и запуск:
⁍ Скачайте zip архив Fish Speech
⁍ Распакуйте архив в удобное место
⁍ Запустите файл install.bat
⁍ Дождитесь окончания установки (будет выведено соответствующее сообщение)
⁍ Запустите start.bat для начала работы


➡️ Скачать Fish Speech Mod Portable ZIP — обычный ZIP архив

💬 Обсудить в чате | ⭐️ Поддержать канал

👾 НЕЙРО-СОФТ — Делаем нейросети доступнее.

Читать полностью…

То шо нейросети

https://www.youtube.com/watch?v=3hdtfhCeBsg

Туториал по созданию голосового ассистента с помощью средства автоматизации n8n, агента и интерфейсов с различными системами коммуникации.
В видео описывается как сделать на основе доступных онлайн сервисов, но можно и оффлайн версию сделать.

@toshoseti

Читать полностью…

То шо нейросети

Как и зачем использовать Tasks в ChatGPT

Создать Таск | Список Тасков

Пару дней OpenAI добавили новую фичу: теперь ChatGPT может выполнять разные задачи по расписанию и присылать вам пуш уведомление; это попытка стать главным персональным ассистентом забрав на себя любые повторяющиеся задачи (хоть работает и кривовато пока что)

Tasks не имеют доступа к другим чатам

Я пару дней погонял, делюсь юзкейсами:

1. Персональный список To Do
Я часто использую Saved Messages в Telegram для записи каких-то промежуточных задач, это не очень удобно потому что они теряются со временем; поэтому я попросил ChatGPT Tasks каждый день, в 10 утра, писать мне и спрашивать какие у меня задачи на сегодня, приоритизировать и суммировать текущий список. Теперь я закидываю в этот чат оперативные задачи, а она добавляет их в общий список сама. Из минусов — задачи хранятся как часть описания таска (явный костыль чат интерфейса); зато утро всегда начинается с To Do по личным и рабочим проектам — мне пока нравится; чаты тоже можно выносить в папки проектов.

Остальные юзкейсы я вытащил из тредов:

2. Практика иностранного языка
Запланируйте ежедневные «уроки» или короткие диалоги. Например, ChatGPT в 19:00 присылает вам новые слова для запоминания или предлагает мини-тест на грамматику. Это поможет заниматься регулярнее

3. Подготовка к экзаменам и обучению
Создайте серию задач, которые ежедневно или еженедельно выдают вам набор вопросов/тестов. Например, вы готовитесь к программированию: ChatGPT может напоминать о прошедших темах и предлагать упражнения на закрепление

4. Еженедельные (или ежедневные) чекины кукухи
Запросите у ChatGPT раз в неделю «проверку состояния», где он предлагает короткие вопросы на саморефлексию или техники для снижения стресса. Хоть это не заменит профессиональную помощь, такие напоминания могут помочь вовремя обратить внимание на собственные эмоциональные колебания и позволит эффективно вести дневник кукушки

5. Отслеживание прогресса в долгосрочных проектах
ChatGPT Tasks может «помнить» несколько этапов вашего большого проекта и раз в неделю присылать вам вопрос: «Как ты сейчас? Есть ли новые задачи или сложности?» При желании он подскажет идеи о следующих шагах, если есть проблемы

6. Автоматическая генерация контента
Попросите ChatGPT по расписанию (например, по понедельникам и пятницам) создавать наброски статей или постов для соцсетей на заданную тему. Или, если вы пишете художественные произведения, пусть еженедельно он предлагает сюжетные идеи для книги или блога

7. Ведение личной базы знаний
Если вы используете ChatGPT как «записную книжку», можно попросить Tasks периодически упорядочивать заметки, находить дубли и выделять ключевые моменты - что-то вроде само-сортирующихся Saved Messages в telegram

8. Напоминания о релизах, событиях и датах — ChatGPT как календарь
Хотите не пропустить выход новой игры, книги или день рождения близкого человека? Попросите ChatGPT уведомить вас за несколько дней, а потом ещё раз в день релиза/праздника. Модель может даже предложить идеи подарков или занятия по теме

9. Поддержка здоровья и фитнеса
Запланируйте утренние и вечерние «пинги» о том, чтобы выпить воды, сделать зарядку или прогуляться. ChatGPT Tasks можно попросить генерировать новые идеи упражнений или рецепты здоровых завтраков с учётом ваших предпочтений, чтобы избежать однообразия

10. «Поддержка и похвала»
Можно сделать чтобы ChatGPT периодически писал и говорил «Я горжусь тобой!». Я настроил утренние цитаты в стиле Теда Лассо, потому что он клевый

11. Помощь с написанием научной статьи или книги «по частям»
Если вы делаете большой проект (диссертацию, книгу), можно разбить её на главы и попросить ChatGPT генерировать материалы или проверять ваши черновики по графику. Например, «каждый понедельник» Tasks спрашивает: «Напиши 500 слов о таком-то разделе» и сохраняет контекст

UPD. Я ошибся – таски умеют гуглить (в интерфейсе таска не видно есть ли доступ в поиск или нет 😮) - поправил, поэтому вот еще один юзкейс:
Автоматом собирать данные по какому-то запросу, типа, последние новости АИ или скидки

Читать полностью…

То шо нейросети

Я, кстати, начал пользоваться недавно scholar inbox. В принципе штука прикольная, есть смысл поделиться 😉

Как пользоваться
- Вбиваете туда 10+ релевантных статей
- Лайкаете/дизлайкаете статьи, предложенные алгоритмом для тьюнинга рекомендаций
- Настраиваете частоту апдейтов, фильтры при желании

И всё, ваш персональный дайджест готов! Будут парсить все виды "архивов" и присылать вам на почту подборки.

На скрине пример моей ежедневной подборки препринтов.

Читать полностью…

То шо нейросети

Это очень напоминает то, что я придумывал год назад:

/channel/toshoseti/379

Читать полностью…

То шо нейросети

Пару часов назад завершилось долгожданное обучение модели GigaChat 20B-A3B, обучение выполнялось на одной RTX 4090 с 24Гб VRAM при помощи проекта impruver и конфигурации GigaChat/20B-A3B_lora_o1 на датасете Egor-AI/Russian_thinking_dataset.

Залил полученный LoRA-адаптер на HuggingFace: evilfreelancer/o1_gigachat-20b-a3b_lora

Он оказался на удивление толстеньким, аж цельных 639 мегабайт весит, вероятно это как-то связанно с особенностями MoE архитектуры модели.

На всё про всё потребовалось примерно 117 часов (почти 5 дней), на данный момент понятно, что если бы я выставил eval_steps не 100, а хотя бы 500 или даже 1000 цель бы удалось достигнуть гораздо быстрее, так как 1 eval прогон выполняется на моей 4090 примерно 46 минут, а за 10 с небольшим тысяч шагов тестов eval было всего 102 (то есть примерно 77 часов выполнялась валидация, тут я конечно переборщил, но зато красивый график получился).

Отчёт W&B тут: evilfreelancer/nlec8bt8

Прикладываю предварительные тесты обученной модели в формате gist, из того что видно на первый взгляд модель отвечает строгим и профессиональным языком, однако, из-за особенностей датасета не всегда отвечает корректно, хотя цепочка "рассуждений" каждый раз крайне любопытная.

Для работы модели в режиме инференса потребуется внести правки в файл generate.py, там надо на этапе вызова токенизатора добавить return_token_type_ids=False, позже проверю не нарушит ли это работу остальных моделей, обученных через impruve, и если потребуется добавлю операцию ветвления специально для моделей семейства DeepSeek MoE (к коему относится GigaChat).

PS. Чекпоинты GGUF выложу на HF и ollama позже.

Читать полностью…

То шо нейросети

типичный внутренний диалог на собеседовании

Читать полностью…

То шо нейросети

⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer

Читать полностью…

То шо нейросети

ChatGPT roasts Redditor

Читать полностью…

То шо нейросети

Подскажите, может видел уже кто такое.
Представьте Decision Transformer. Только вместо стейта и действий, у нас как обычно токены, вместо reward to go - предикт значения скора от внешнего арбитра. Лосс функция - классическая для тренировки LLM.
Зачем это все: учим модель опираться на значения предыдущих скор функций для поправки на ветер во время inference. Зачем ревард (скор) на каждый токен: чтобы можно было рулить моделью с помощью модели арбитра поменьше (пусть там меряет токсичность, например).

@toshoseti

Читать полностью…

То шо нейросети

А я кстати, вам торчу тетрадку по Rectified Flow Matching. Я помню. Я сделаю.

Читать полностью…

То шо нейросети

Шикарное объяснение. А Rectified flow matching - это когда обученных чуваков идти домой с любого шага по прямой учишь идти сразу с первого\с первых двух.

Читать полностью…

То шо нейросети

Вот сначала так, а потом

Читать полностью…

То шо нейросети

Статья про RUAccent вышла!


Читать тут: https://aclanthology.org/2025.coling-main.444/


💸Поддержать автора

@den4ikresearch

Читать полностью…

То шо нейросети

Итак, как же DeepSeek обучили открытую модель уровня o1? Разбираем тех.отчет по полочкам:

🔷 Первое и самое интересное: сразу после претрейна RL. Обычно за предобучением следует файнтюнинг вида <вопрос-ответ> на размеченных данных, но здесь сразу воткнули чистое обучение с подкреплением.

Базовая модель – DeepSeek-V3-Base. В качестве алгоритма RL традиционно для DeepSeek применяется GRPO, улучшенная версия PPO (очень подробно мы описывали этот алгоритм в нашей большой статье про DeepSeekMath). Отдельно поощряется формат, в котором модель помещает свои рассуждения внутри тегов <think> и </think>.

Уже на этом шаге после нескольких тысяч итераций точность на AIME скакнула с 15.6% до 71.0% (вау!). Итого, получается модель, обученная без разметки вообще – DeepSeek-R1-Zero.

🔷 Для DeepSeek-R1 процесс повторяется с небольшой разницей. Для R1-Zero мы использовали rule-based rewards, когда ответы проверяются только самой системой (например с помощью компилляторов), без внешних разметок. И хотя точность таким образом получается приличная, сами ответы читать сложно: в них смешиваются языки, нет форматирования и тд.

Поэтому в R1 в процесс обучения все-таки добавили разметку в виде готовых цепочек рассуждений. Данные брали из DeepSeek-R1-Zero и, видимо, o1 и улучшали вручную. На них модель дообучают, а затем их же применяют в RL, прикручивая сюда еще и rejection sampling (то есть отборные ответы прямо во время RL добавляются в обучающую дату).

Интересный факт: когда на этапе RL для R1 ввели правило "доля таргетного языка в ответе должна быть больше 0.95", качество немножко просело.

🔷 И, наконец, дистилляция! Тут в качестве базовых моделей брали Qwen и Llama, а учителем выступала R1. Из модельки насемплировали 800,000 примеров, на которых ванильно зафайнтюнили учеников (как работает дистилляция, читайте в нашей статье тут). Тут вообще не использовался RL, но в статье написано, что ученые хотят попробовать его применить.

И еще раз ссылка на полный текст: github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

Читать полностью…

То шо нейросети

https://huggingface.co/collections/unsloth/deepseek-r1-all-versions-678e1c48f5d2fce87892ace5

Только что появились distill версии deepseek-r1

@toshoseti

Читать полностью…

То шо нейросети

Еще одного бегающего робота показала на этот раз компания Unitree

Это модель Unitree G1. Зацените, как двигается. Можно даже сравнить в оптимусом от Теслы, точно не хуже

Только есть один вопрос: по российскому гололеду он так сможет пробежать?

Читать полностью…

То шо нейросети

🧬 Крутой проект от Microsoft: MatterGen - новый ИИ, который создает химические материалы на основе промптов.

В отличие от традиционных методов скрининга, он генерирует новые материалы, используя диффузионную модель, изменяя такие свойства, как химический состав, механическая прочность или магнитные характеристики.

Результат экспериментально подтвержден успешным синтезом материалов.

MatterGen представляет собой переход от традиционных методов проб и ошибок и вычислительного скрининга, напрямую генерируя новые материалы в соответствии с конкретными проектными заданиями, что значительно сокращает время создания и потребность в ресурсах.

→ Модель построена на основе специализированной диффузионной архитектуры и учитывает 3D-геометрию и наличие материалов, используя обучающий набор из более чем 608 000 стабильных соединений из известных баз данных материалов.

→ Модель превосходит традиционный скрининг, особенно в неисследованных материалов, что подтверждается ее способностью генерировать стабильные материалы со специфическими свойствами, выходящими за рамки существующих известных материалов.

→ Экспериментальная проверка подтвердила успешный синтез материала TaCr2O6, в точности совпадающий с предсказаниями модели, продемонстрировав практическую пригодность MatterGen в создании реальных материалов.

→ Выпущенная под лицензией MIT, модель MatterGen вместе с обучающими наборами данных предоставляет исследователям развивать и расширять этот инновационный подход.

📌 Читать

@ai_machinelearning_big_data



#microsoft #tech #MatterGen

Читать полностью…

То шо нейросети

Еще один неожиданный и необычный релиз, спасибо за наводку Pavel Zloi, последних дней из условно русифицированных моделей это GigaChat-20B-A3B от SberDevices.

Я протестил в ContextTrap версию instruct — ai-sage/GigaChat-20B-A3B-instruct через HF инференс в bfloat16, хотя надо было наверное скачать еще и веса bf16. В целом модель жрет 60+ Гб VRAM, соответственно в 4бит будет примерно 16+ Гб.

В целом хорошо и коротко отвечает, быстрая еще и за счет активного 3.3B. Пожалуй, это лучшая MoE модель для русского контекста, из тех что довелось протестировать. Еще раз доказывая, что при специализации на русском языке - эффект в качестве будет. По сути модель уверенно заняла нишу между 8B и 30B но со скоростью ответов 3.3B. Выше по качеству уже идут более тяжелые модели типа aya:35b и aya-expanse:32b. Жаль, что отстает от русской новинки T-Pro 32B.

Читать полностью…

То шо нейросети

У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах

Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.

В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.

При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:

Memory as Context: долгосрочная память используется как контекст для текущего внимания.
Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
Memory as Layer: самый простой вариант, вся память соединена как слой в сетке

MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.

Полный текст статьи здесь

P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру

Читать полностью…

То шо нейросети

Сравнение затрат на кожанных vs агентов

Наивное, конечно, но пусть будет: https://aicodecalc.fly.dev/project

@toshoseti

Читать полностью…
Subscribe to a channel