12749
Пишу про мир технологий и стартапов 🤖💖 Связь/сотрудничество: @fraizy_qwerty Чат канала: @neural_chat
Kandinsky 5.0 — новая линейка визуальных моделей в open source
⚡️Сбер опубликовал в открытом доступе всю линейку Kandinsky 5.0: Video Pro, Video Lite, Image Lite и токенизаторы K-VAE 1.0. Полный open source: код, веса, лицензия MIT.
🔘Video Pro (Text-to-Video / Image-to-Video)
Флагман, генерирующий HD-видео до 10 секунд с гибким управлением движением камеры. Обучалась на 520 млн изображений и 250 млн видео и затем, на финальном этапе, доучивалась на датасете сверх-качественных видеороликов, тщательно отобранных профессиональными художниками и дизайнерами.
Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Лучшая открытая модель в мире, превосходит Wan 2.2-A14B в Text-to-Video [SBS 59:41] и Image-to-Video [SBS 53:47], а также достигает паритета с Veo 3 по визуальному качеству и динамике [SBS 54:46].
🔘Video Lite (Text-to-Video / Image-to-Video)
Компактные модели генерации видео, оптимизированные для запуска на GPU от 12 ГБ VRAM. Обучалась на 520 млн изображений и 120 млн видео, хорошая консистентность и качество динамики. Лучшая среди небольших и быстрых моделей, значительно превосходит в 7 раз большую по количеству параметров Wan 2.1-14B как в Text-to-Video [SBS 67:33], так и Image-to-Video [SBS 64:36].
🔘Image Lite (Text-to-Image / Image Editing)
HD-генерация и редактирование изображений. Претрейн Text-to-Image модели был сделан на 520 млн изображений, включая датасет русского культурного кода ~1 млн изображений. Image Editing был дополнительно дообучен на 150 млн пар. Для достижения финального качества был проведено SFT дообучение на 150 тыс изображений, а также на 20 тыс. пар – для Editing.
Нативно понимает русские и английские промпты, генерирует надписи на латинице и кириллице. Значительно превосходит FLUX.1 [dev] по Text-to-Image [SBS 63:37] и находится в паритете по качеству с FLUX.1 Kontext [dev] по Image Editing [SBS 54:46].
🔘K-VAE 1.0 (2D / 3D)
Вариационные автоэнкодеры для диффузионных моделей, сжимающие входные данные в формате 8x8 (изображения) и 4x8x8 (видео). Сравнение на открытых датасетах показывает, что модели более качественно восстанавливают исходный сигнал (+0.5dB PSNR), чем лучшие open-source альтернативы (Flux, Wan, Hunyaun), обладающие той же степенью сжатия.
Все модели линейки доступны на GitHub, Gitverse и HuggingFace.
Читайте подробнее в техническом репорте.
#реклама
🎨 В Replit завезли мощного ИИ-дизайнера на базе новой Gemini 3 Pro — он генерирует профессиональные дизайны, лендинги, презентации и портфолио всего из пары слов.
Самое важное — Design Mode проектирует разнообразные визуалы без дефолтного ИИ-дизайна, который легко распознать. Теперь он использует уникальные шрифты, анимации и макеты.
Генерируем красивейшие UI/UX — тут.
@notboring_tech
🔥 ElevenLabs запустили ультимативную платформу для генерации видео, аудио и изображений — в одном месте собрали все лучшие модели.
• Видео-генераторы: Veo 3.1, Sora 2, Kling 2.5, Wan 2.5 и Seedance 1 Pro.
• Генераторы картинок: Nano Banana, Flux Kontext, Wan и Seedream.
• Апскейлеры: Topaz для улучшения качества до 4К.
• Экспорт в Studio: генерация аудио, музыки и звуковых эффектов.
• Там же можно монтировать от начала до конца: обрезать видео, добавлять субтитры и накладывать липсинк.
Теперь в ElevenLabs доступно вообще всё — тут.
@notboring_tech
🍯 NotebookLM запустил Deep Research — теперь сервис умеет изучать сотни сайтов и делать глубокие исследования на любую тему в один клик.
Самое крутое — полученный отчёт можно импортировать в блокнот и дальше на его основе сгенерировать аудио-подкаст, квиз, майнд-мап и даже видео-презентацию.
Пробуем — тут.
@notboring_tech
🔖 OpenAI выпустили официальный гайд по промптингу GPT-5.1 — новейшая модель стала умнее, быстрее и приятнее в общении.
Внутри — лучшие лайфхаки, рекомендации и примеры запросов, которые максимизируют эффективность нейронки в разных задачах.
Сохраняйте, чтобы не потерять — тут.
@notboring_tech
Битрикс24 врывается в повестку с крупным обновлением.
Что выкатили:
🎙 Задачи голосовым сообщением и «кружочком». Теперь можно просто наговорить задачу, а ИИ сам ее создаст, накинет дедлайн, ответственного и чек-лист. Менеджеры-зумеры ликуют.
👩💻 Время ИИ-агентов для бизнеса наступило. Внутри сервиса уже есть ИИ-агент, который ставит встречи, задачи, настраивает процессы. А если мало – есть конструктор, где можно без коддинга собрать своего собственного цифрового сотрудника. Серьезный шаг в автоматизации.
💬 Эмоциональный рабочий мессенджер. Тут тебе и стикеры, и реакции к сообщениям от сердечка до фейспалма, и встроенный BitrixGPT, который не только сухие итоги подводит, но и распознает эмоции в голосовых. Командные чаты становятся живее, а вовлеченность – выше.
🤖 CRM и нейросеть в одном лице. ИИ теперь отмечает пустые обращения и спам-звонки, создает дела после разговоров и даже анализирует чаты с клиентами, чтобы автоматически заполнить сделку. Похоже, рутине в таких условиях не выжить.
Ну и еще: обновили интерфейс мобилки, карточку задач, мобильную почту, онлайн-запись и другие инструменты.
Вывод: Битрикс24 планомерно превращается в сервис с ИИ и +100500 решений в одном окошке, выгодно бизнесу в непростое время.
💎 Google выложил новый мастрид для всех, кто хочет создавать ИИ-агентов — 50-страничный гайд по полочкам разложит всё, что вам нужно знать.
• Архитектура агентов: от LLM до инструментов
• Многоагентные системы
• Как оценивать качество работы и метрики
• Как деплоить агентов в прод
• Самообучающиеся агенты
• Практический пример с AlphaEvolve
Сохраняйте — тут.
Также сегодня начался бесплатный (!) 5-дневный интенсив по ИИ-агентам от Google и Kaggle — здесь.
@notboring_tech
🔌 Годнота: нашёл мульти-провайдер LLM, который сам выбирает самую дешёвую нейронку для каждого запроса.
• Поддерживает модели OpenAI, Anthropic, xAI и OpenRouter.
• Переподключает модели, если какая-то LLM перестала работать или израсходовала токены.
• Проверяет доступность модели у провайдеров, сравнивает цены и выбирает самый дешёвый (!) вариант.
• Можно на своём сервере приватно централизовать все API-ключи и запросы через единый шлюз.
• Есть реал-тайм дашборд, чтобы смотреть расход токенов и аналитику.
• Всё безопасно: у проекта 100% открытый код, ставится локально, напрямую подключён к API.
Установить — тут.
@notboring_tech
📑 Оказывается, Алиса в чате переводит тексты лучше Яндекс Переводчика — сразу удобно структурирует перевод, сохраняет грамматику и не допускает ошибок.
Нейросеть Алиса на ходу понимает, что значит конкретное слово в данном контексте, где спрятался сленг, а в каких терминах перевод не нужен. В итоге исправлять текст даже не требуется!
Дальше перевод можно в том же чате сократить, упростить, переписать, сгенерировать квиз, схему и многое другое.
@notboring_tech
⚡️ Google запустил самый мощный и удобный RAG в Gemini API — File Search Tool сам подключает LLM-ки к любым документам без сложной ручной настройки.
• Тулза автоматически управляет хранением, фрагментацией, внедрением и извлечением данных.
• Работает мега-просто: загружаем файл и моментально получаем любые ответы касательно содержимого.
• Поддерживает PDF, DOCX, TXT, JSON и файлы кода.
• Под капотом — самая точная SOTA-модель Gemini Embedding.
• $0,15 за 1 миллион токенов, а хранение и последующая генерация эмбеддингов — абсолютно бесплатно.
Пользуемся — тут.
@notboring_tech
🔖 Anthropic изобрели новую парадигму программирования ИИ-агентов — Code execution с MCP. Как она устроена в двух словах:
Проблема: когда агент использует много инструментов через MCP, тратится куча кредитов и заполняется окно контекста.
Решение: теперь агент сам напишет код, который будет вызывать нужные инструменты через MCP. Это снижает расход токенов на невероятные 98,7%!
Как в Авито нашли способ считать сделки, которых не видно
В классифайдах сделки часто происходят вне платформы: например, продавец и покупатель встретились, чтобы осмотреть машину, и на месте совершили сделку.
Оценивать эти сделки и даже узнавать о них — нетривиальная задача. Но инженеры и аналитики из команды Авито всё равно научились замерять их ценность и формализовать понятие «договорённость» так, чтобы их могла распознавать ML-модель.
В статье — история о том:
— почему считать просто сделки может быть ошибкой,
— как «договорённость» стала новой единицей ценности,
— как превратили абстрактное понятие в рабочую бизнес-метрику.
Подробности — в материале на Хабре.
#реклама
🧨 Через неделю стартует лаборатория по работе с Claude Code — мастхев для всех, кто хочет научиться работать с одним из лучших ИИ-агентов на максимум.
• За 5 недель интенсива участники узнают на практике все фишки Claude Code в Терминале и Cursor/Windsurf.
• Упакуют повторяющиеся операции в Claude Skills, подключат MCP-серверы и интегрируют сервисы вроде Notion, Google Drive или Firecrawl.
• Изучат сотни (!) реальных кейсов внедрения Claude Code — агента уже используют продакты, маркетологи, контент-мейкеры, писатели и даже юристы.
• В центре обучения — практика. Научитесь оптимизировать бюджеты на токены, делать сложный фронт и выпускать прототипы ИИ-приложений.
• Автор — Глеб Калинин (экс-AI Mindset, Ozon Travel, Островок), автор канала Tool Using Ape и разработчик ИИ-продуктов.
Зарегаться — тут.
@notboring_tech
👾 Коллеги по цеху собрались в новую папку — там лежат нишевые каналы о нейросетях с экспертным контентом, максимумом пользы и без копирования постов.
• Фреймворки для автоматизации рабочих процессов;
• Пошаговые гайды по разработке собственных ИИ-агентов;
• Разборы актуальных новостей из индустрии.
Подписаться — тут.
@notboring_tech
📚 Лучшие лекции для изучения нейронок с нуля за всю историю канала — собрал шедевры от Андрея Карпаты, гениев из Стэнфорда и других гуру.
• Курс Стэнфорда «CS336: Language Modeling с нуля» — тут
• Самое понятное введение в Software 3.0 от Карпаты для Y Combinator — тут
• Объяснение архитектуры Continuous Thought Machines по мотивам мозга человека — тут
• Полное погружение в устройство LLM на 3,5 часа от Карпаты — тут
• Классическое 4-часовое видео Карпаты о том, как создать GPT-2 с нуля на Python — тут
🔎 Наткнулся на лучший ИИ-парсер всего интернета — Thunderbit выгружает все данные из любых сайтов, PDF, фоток и документов. Достаточно загрузить ссылку и написать, что нужно извлечь.
Если на сайте много страниц — нейронка вытащит инфу из каждой! Она буквально в два клика выдаёт гигантскую таблицу с нужными столбцами, ячейками, фильтрами и данными.
Забираем мастхев — тут.
@notboring_tech
💥 Colab наконец-то интегрировали с VS Code — теперь можно подключить локальные ноутбуки из IDE к мощным вычислительным ресурсам GPU/TPU Colab.
Как подключить:
1. Заходим в магазин расширений VS Code и устанавливаем Google Colab.
2. Создаём и открываем файл .ipynb.
3. Выбираем Colab в Select Kernel и нужную вычислительную среду.
4. Логинимся в аккаунт Google и всё готово!
Сохраняйте для ваших проектов.
@notboring_tech
⚡️ Революция — вышла нейронка MeshCoder, которая превращает любые 3D-объекты в редактируемый код! Она преобразует облака точек в Python-скрипты для Blender.
Теперь 3D-моделями можно полностью управлять через код: менять форму, анимировать, генерировать кучу вариаций за раз и автоматизировать создание 3D-объектов.
Прорыв доступен всем — тут.
@notboring_tech
Ноябрь — месяц One Day Offer в GigaChat и Kandinsky 📆
В ноябре команды двух топовых IT-продуктов Сбера планируют обрести новых классных коллег — DL Engineers и Researchers, чтобы вместе работать над GigaChat и Kandinsky: развивать, обучать и дообучать модели.
Смотрите расписание One Day Offer и не упустите шанс присоединиться к крупнейшему AI-комьюнити. Целых восемь мероприятий, чтобы изменить свою карьеру и жизнь — выбирайте то, что подходит под навыки и цели, и регистрируйтесь!
#реклама
🌍 World Labs открыли доступ к лучшему генератору 3D-миров для всех — Marble создаёт ультра-реалистичные локации из изображения, видео, текстового запроса, 3D-макета или всего сразу.
Юзкейсы, которые я придумал за пять минут:
• Самое полезное: генерировать полноценные 3D-локации для игр.
• Гулять внутри картин, шедевров искусства и старых воспоминаний.
• Посмотреть, как выглядит ремонт мечты в вашей квартире.
• Снимать фильмы: загрузить себя в мир, анимировать и добавить липсинк через сторонние нейронки.
• Запустить мир в VR-гарнитуре и гулять по нему от первого лица!
Можно редактировать, расширять, объединять и экспортировать миры в один клик. Бесплатно дают 7000 кредитов — хватит на генерацию 4 миров.
Тестируем — тут.
@notboring_tech
🎙️ ElevenLabs только что выпустили Scribe v2 Realtime — самую точную нейронку для преобразования речи в текст.
• Выдаёт транскрипцию речи в реальном времени, пока вы говорите.
• Автоматически распознаёт и маркирует все голоса без ошибок.
• Превосходит Gemini 2.5 Flash, GPT 4o MiniTranscribe и Deepgram Nova 3.
• Поддерживает 90+ языков, включая русский.
• API подключается всего за три строчки кода.
Пользуемся — тут.
@notboring_tech
🔥 Лед и пламя: ужин с Selectel о S3-хранилищах ❄️
Как устроено S3-хранилище, способное обслуживать и огненные нагрузки, и замороженные петабайты данных, и какую выгоду от этого получают компании из разных отраслей?
На бизнес-ужине эксперты Selectel расскажут:
💡 Как устроено S3 Selectel изнутри
💡 Зачем нужны разные типы хранения данных
💡 Как построить собственную дата-платформу на базе Selectel
💡 Реальный кейс использования S3 от секретного гостя
А после выступлений — фуршет и неформальное общение с экспертами ☕️
🗓 20 ноября, 19:00
📍оффлайн, Москва
Смотрите полную программу и регистрируйтесь: https://slc.tl/qgo0r
Участие бесплатное, но нужно дождаться подтверждения вашей регистрации
Реклама. АО "Селектел". erid:2W5zFJcvwi8
🎬 Наткнулся на MCP-плагин для DaVinci Resolve — он подключает ИИ-агентов к софту и монтирует видео по любым текстовым запросам.
• Загружает файлы: видео, аудио, изображения;
• Создаёт и настраивает таймлайн;
• Обрезает клипы и распределяет их в заданном порядке;
• Регулирует настройки аудио;
• Делает кастомную цветокоррекцию;
• Генерирует и выполняет любые Python-скрипты;
• Автоматизирует любую последовательность действий;
• Запускает рендеринг и сохраняет проект.
Целый комбайн ИИ-монтажеров видео — тут.
@notboring_tech
📹 Для ComfyUI вышел лучший стабилизатор видео — он убирает даже самую жуткую тряску камеры из роликов. Можно добавить зелёные края вокруг кадра и дорисовать фон в Wan2.1 VACE.
Под капотом — классический способ стабилизации (отслеживает точки и выравнивает кадры) и продвинутый (анализирует движение пикселей и делает ролик плавнее).
Забираем — тут.
@notboring_tech
📚 Алиса в чате научилась преподавать английский язык — с ней можно голосом общаться на английском и получать обратную связь в реальном времени, как от преподавателя.
Можно выбрать любую тему диалога — нейросеть Алиса задаст уточняющие вопросы, переведет незнакомые реплики, подстроится под ваш уровень и прокачает ваши разговорные навыки до уровня носителя.
Достаточно написать «Давай практиковать английский».
@notboring_tech
🚨 Для Chrome выпустили годное расширение, которое фиксит любые сайты — Tweeks по вашему запросу генерирует плагины для конкретных страниц. Например:
• В один клик удаляет всю рекламу на сайте, если ваш ад-блокер не справляется;
• Создаёт кнопку «Загрузить JSON», чтобы выгрузить все данные из страницы;
• Добавляет режим фокуса в соцсетях, убирая уведомления и все отвлекающие факторы;
• Делает любые стилистические темы для сайтов: тёмные, 2000-е и другие;
• Персонализирует ленту рекомендаций по вашим уникальным фильтрам.
Бесплатный генератор плагинов — тут.
@notboring_tech
🦙 Вышел полностью локальный ChatGPT — Llama.cpp наконец-то получил юзер-френдли интерфейс в вебе, который полностью работает у вас дома.
• Поддерживает более 150 тысяч моделей GGUF — это все (!) нейронки в опенсорсе;
• Можно загружать PDF, изображения и файлы;
• Выдаёт математику, формулы и код — всё, как в обычном ChatGPT;
• Можно запускать параллельно (!) несколько чатов;
• Работает мгновенно на ноуте и даже смартфонах;
• 100% приватно и без подключения к интернету;
• Без каких-либо ограничений и цензуры;
• Полностью бесплатно!
Установить в пару кликов — тут.
@notboring_tech
🤯 Вау: вышла команда ИИ-учёных, которая проводит настоящие исследования от начала до конца — они размышляют, планируют, спорят, экспериментируют, кодят и пишут статьи полностью самостоятельно.
Вы даёте любой вопрос, проблему или датасет, а Denario:
→ делает мозговой штурм и придумывает оригинальные гипотезы;
→ читает научные работы и проверяет, является ли идея новой;
→ разрабатывает экспериментальные методы;
→ пишет и выполняет код;
→ анализирует результаты и выводит графики;
→ пишет черновик научной статьи и критикует её до тех пор, пока она не станет идеальной.
ИИ-учёные уже выпустили научные работы по 13 дисциплинам: от квантовой физики до нейронауки. Качество — на высоте, а скорость ИИ-агентов в разы превышает людей-учёных.
Код буквально только что вышел на GitHub — тут.
@notboring_tech
📜 Datalab выпустили лучшую OCR-модель — Chandra максимально точно извлекает всё содержимое из любых изображений и PDF-документов.
• Превращает фотки и файлы в структурированные форматы HTML, Markdown и JSON.
• Сохраняет макет и отлично вытаскивает таблицы, формулы, диаграммы и даже рукописный текст.
• Поддерживает более 40 языков.
• Возглавляет все независимые бенчмарки, обгоняя DeepSeek OCR, Mistral OCR и других конкурентов.
• Модель Chandra доступна как локально, так и удалённо.
GitHub — здесь, а бесплатная демка — тут.
@notboring_tech
🍯 HuggingFace выложили бесплатную книгу на 200 страниц о том, как обучать нейросети с нуля — Smol Training Playbook. Это мастхев-учебник для всех, кто хочет создавать и тренировать LLM:
• Как правильно строить и оптимизировать инфраструктуру
• Как проходит обучение LLM: зачем, что и как обучать
• Как подбирать данные для предобучения
• Все современные подходы пост-тренинга
• Реальные кейсы, как строят SOTA-модели
• Про Deep Learning — «Приключения Алисы в дифференцируемой стране чудес», тут
• Про агентские системы — Agentic Design Patterns, тут
• Про обучение нейронок с нуля — Smol Training Playbook, тут