data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🐍 Вышла новая модель из серии Mamba - Mamba-3.

Гибридные архитектуры становятся всё популярнее, поэтому всё больше внимания уделяется созданию следующего поколения линейных моделей.

В Mamba-3 исследователи предложили несколько новых идей вокруг SSM (state space models), которые заметно увеличивают способность модели обучаться без потери скорости.

В результате Mamba-3 показывает более высокую производительность, чем предыдущие линейные модели, включая:

- Mamba-2
- Gated DeltaNet

Причём улучшения наблюдаются во всех размерах моделей.

Интересный факт:
это первая версия Mamba, созданная студентами.

Основные авторы проекта:

- Aakash Lahoti
- Kevin Li
- Berlin Chen
- Caitlin Weng
- Tri Dao

Что нового в Mamba-3:
1. Улучшенная дискретизация SSM

Предложена новая схема дискретизации, которая лучше имитирует свёртку (convolution) и делает модель более выразительной.

Она также позволила избавиться от short convolution, который раньше использовался в линейных моделях.

2. Комплексные переходы состояний
Переходы состояний теперь используют комплексные числа, что значительно улучшает способность модели отслеживать состояние.

Это решает проблемы предыдущих версий Mamba, которые, например, не могли решать даже некоторые простые задачи вроде bit parity.

3. Архитектура MIMO вместо SISO
Модель перешла от структуры SISO (single input single output) к MIMO (multiple input multiple output).

Это позволяет лучше использовать железо при inference, что даёт дополнительный прирост производительности.

Также архитектура была немного обновлена и стала ближе к современным языковым моделям.

Например, добавлены компоненты вроде BC / QK normalization.

Mamba-3 заметно усиливает линейные модели и делает их ещё более конкурентными с трансформерами, особенно в задачах языкового моделирования.

Paper: https://arxiv.org/abs/2603.15569
Code: https://github.com/state-spaces/mamba
Blog: https://goombalab.github.io/blog/2026/mamba3-part1/

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Spatial-TTT.

Это фреймворк для потокового пространственного интеллекта на основе визуальных данных с использованием test-time training (TTT).
Spatial-TTT адаптирует «быстрые веса», чтобы захватывать и структурировать пространственную информацию из длинных видеопотоков. Это позволяет моделям со временем формировать структурированную 3D-пространственную память.

Основные идеи:

🔹 Эффективная потоковая память
Быстрые веса работают как компактная пространственная память.
Рост памяти сублинейный даже на видео длиннее 7000 кадров, при этом вычисления сокращаются более чем на 40%.

🔹 Пространственно-предиктивный механизм
Слои TTT с 3D пространственно-временной свёрткой улавливают геометрические соответствия и временную непрерывность.

🔹 SOTA-результаты
Модель показывает лучшие результаты на задачах долгосрочного пространственного понимания видео (VSI-Bench).

Работа заняла 1 место в рейтинге Daily Papers на Hugging Face 13 марта.

Проект: https://liuff19.github.io/Spatial-TTT/
GitHub: https://github.com/THU-SI/Spatial-TTT
Статья: https://huggingface.co/papers/2603.12255
Модели и данные: https://huggingface.co/THU-SI

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 Новый подход к архитектуре нейросетей: Attention Residuals

Исследователи предложили переосмыслить одну из базовых идей глубоких нейросетей - residual connections.

До сих пор такие соединения работали очень просто:
каждый слой добавляет свой результат к предыдущим слоям через фиксированное накопление.

Но у этого подхода есть проблемы:
• информация постепенно «размывается»
• растёт скрытое состояние
• модели сложнее извлекать важные представления из прошлых слоёв

Теперь предложена новая идея - Attention Residuals.

Вместо обычного сложения слоёв модель использует attention, чтобы выбирать, какие представления из предыдущих слоёв действительно нужны.

Проще говоря:

модель сама решает, к каким слоям прошлого стоит “вернуться”.

Что это даёт:

🔹 сеть может избирательно извлекать нужные представления
🔹 уменьшается эффект «размывания» информации
🔹 контролируется рост скрытых состояний
🔹 глубина сети используется гораздо эффективнее

Чтобы это работало на больших моделях, авторы предложили механизм Block AttnRes.

Он делит сеть на блоки и применяет сжатое attention между ними, делая кросс-слойное внимание масштабируемым.

По результатам экспериментов:

• около 1.25× выигрыша по вычислениям
<2% увеличение latency на инференсе
• стабильный рост качества на downstream-задачах

Метод протестировали на архитектуре Kimi Linear:

48B параметров всего
3B активных параметров

Если идея подтвердится на больших LLM, это может стать новым стандартом для глубинных архитектур нейросетей.

https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Началась новая эпоха - гражданской науки, когда обычные люди могут проводить сложные научные исследования с помощью AI.

Инженер без медицинского образования использовал ChatGPT и AlphaFold (AI-систему для анализа белков), чтобы создать экспериментальную вакцину от рака для своей собаки.

Он потратил около $3000, чтобы получить ДНК-последовательности:

- здоровой крови собаки
- опухоли

Перед ним оказались гигабайты сырого генетического кода, который он не умел читать.

И здесь ключевую роль сыграл ChatGPT.

Он использовал его как своего рода биологического консультанта, чтобы понять:

- как сравнить два набора ДНК
- как найти мутации, вызывающие рак
- какие инструменты использовать для анализа

ChatGPT дал пошаговые инструкции, как запустить анализ данных и подсказал использовать AlphaFold, чтобы определить форму повреждённых белков.

В итоге инженер смог составить полстраницы химического рецепта mRNA-вакцины.

Такая вакцина - это по сути генетическая инструкция, которая учит иммунную систему распознавать и атаковать конкретные мутировавшие раковые клетки.

Университетские исследователи были настолько впечатлены его формулой, что помогли произвести реальную вакцину.

Ветеринар сделал инъекцию собаке.

Через несколько недель огромная опухоль уменьшилась примерно на 50%.

Если такие истории начнут повторяться, мы можем увидеть совершенно новую модель науки,
когда AI превращает любопытных инженеров в исследователей.

#AI #ChatGPT #Biotech #AlphaFold #Future

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как Яндекс строил data-платформу для ROSTIC'S: разбор в новом шоу

Yandex B2B Tech запустила «Техно на прокачку» — проект, где инженеры и комик Егор Кукса разбирают реальный кейс внедрения платформы данных в сети ресторанов ROSTIC'S. В ход идет все: от PostgreSQL и ClickHouse до флешки деверя.

Что интересного:
• Рестораны посещают 1,7+ млн человек в день — это 100+ Гб данных в неделю с касс и терминалов
• Инженеры Яндекса развернули платформу на базе собственных сервисов и managed-решений для Greenplum, ClickHouse и Apache Kafka
• Загрузка данных в аналитические отчёты ускорилась в 3 раза

В шоу поэтапно показывают, как строилась архитектура под высокую нагрузку и какие технологии реально работают в крупном бизнесе. Без воды — только инженерия и цифры.

Посмотреть можно на YouTube, VK Видео или Кинопоиске.

Читать полностью…

Анализ данных (Data analysis)

🖥 Большинство парсеров умирают через 2 дня.

Ты научишься делать те, которые работают в продакшене.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают из-за мелких изменений на сайте
• собирают данные в разы быстрее
• обновляют всё автоматически по расписанию
• обходят ограничения и блокировки
• выглядят как полноценный сервис, а не как хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключаться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• создавать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не «знаю Python», а «умею профессионально добывать данные из интернета».

🎁 Скидка 50% на Stepik действует 48 часов: https://stepik.org/a/269942/

Читать полностью…

Анализ данных (Data analysis)

🚀 Новый алгоритм LLM: Speculative Speculative Decoding

SSD - это инновационный алгоритм для вывода LLM, который обеспечивает высокую скорость и точность. Он использует параллельное предсказание от малой модели, что устраняет задержки в процессе генерации. Поддерживает различные модели и оптимизации для повышения производительности.

🚀Основные моменты:
- Параллельное предсказание для ускорения вывода
- Поддержка моделей Qwen3 и Llama3
- Оптимизированные алгоритмы и параллелизм
- Интерактивный чат с поддержкой нескольких моделей

📌 GitHub: https://github.com/tanishqkumar/ssd

Читать полностью…

Анализ данных (Data analysis)

✔️ The Most Disruptive Company in the World

Статья The Times про Anthropic скрывает гораздо более серьёзные выводы, чем может показаться при беглом чтении.

Если внимательно разобрать её по смыслу, становится ясно, насколько быстро ускоряется развитие AI.

Сегодня релизы моделей происходят уже не раз в несколько месяцев, а с интервалом в несколько недель. Разработка ускоряется настолько, что 70–90% кода для создания будущих моделей уже пишет сам Claude.

Фактически это означает, что AI начинает участвовать в создании следующего поколения AI.

Anthropic даже задержала выпуск Claude 3.7 Sonnet на 10 дней, пока команда не убедилась, что модель достаточно безопасна.

Это показывает, насколько осторожно компании относятся к новым возможностям моделей.

Внутри Anthropic считают, что период 2026–2030 станет ключевым для всей индустрии. Модели будут становиться быстрее, умнее и могут развиваться темпами, с которыми людям будет всё сложнее справляться.

Глава компании Дарио Амодеи предупреждает ещё жёстче. По его мнению, AI может вытеснить до половины начальных офисных профессий в течение ближайших 1–5 лет. При этом пока никто не понимает, куда переместятся эти люди и чем они будут заниматься. Он прямо говорит о риске появления большой группы людей с очень низкими доходами или без работы.

Внутри компании сотрудники начали обсуждать, не приблизились ли они к моменту, которого многие опасались: recursive self-improvement.

Это сценарий, в котором AI начинает улучшать сам себя. Каждая новая версия создаётся быстрее и становится сильнее предыдущей, что запускает ускоряющуюся цепочку развития.

Некоторые эксперты считают, что полностью автоматизированные AI-исследования могут появиться уже в течение года.

Если это произойдёт, скорость технологического прогресса может резко вырасти и тогда главным вопросом станет не создание AGI, а то, успеет ли общество адаптироваться к миру, где такие системы уже существуют.

https://time.com/article/2026/03/11/anthropic-claude-disruptive-company-pentagon/

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Отчетов и данных стало слишком много?
Пора переходить к продуманному BI-решению ↗️

12 марта в 11:00 провайдер облачных технологий Cloud.ru проведет вебинар «Evolution Managed BI: все возможности BI-сервиса в облаке».

Вы узнаете, как выжать максимум из системы аналитики:
➡️быстро получать инсайты
➡️работать с актуальными данными
➡️и ускорять принятие бизнес-решений

В программе вебинара:

▶️как устроен сервис Evolution Managed BI
▶️какие возможности есть для обработки, визуализации и безопасности данных
▶️как подключать разные источники и создавать дашборды
▶️как создавать кастомные SQL-запросы, настраивать автоотчеты и алерты
▶️как протестировать сервис бесплатно


Будет полезно аналитикам, дата-инженерам и всем, кто уже работает с Evolution Managed BI или планирует внедрение.

👉Зарегистрироваться👈

Читать полностью…

Анализ данных (Data analysis)

🤖 DeerFlow 2.0 (уже 27K+ звёзд на GitHub ⭐️) - это AI-система от ByteDance, которая работает как автономный сотрудник со своим собственным компьютерным рабочим пространством для исследований и программирования.

Обычные чат-боты просто генерируют текст и не запоминают ваши предпочтения.

DeerFlow решает эту проблему: ИИ получает изолированную виртуальную среду компьютера, где может безопасно запускать программы.

Когда ему дают большую задачу, основной агент создаёт несколько маленьких AI-ассистентов, которые работают одновременно.

Также система сохраняет ваши прошлые рабочие процессы, поэтому со временем лучше понимает ваши задачи.

DeerFlow не привязан к конкретной модели — он работает с любым LLM, который поддерживает OpenAI-совместимый API.

Есть полная поддержка локальных моделей, которые можно запускать прямо на своём компьютере с помощью инструментов вроде Ollama.

Пример: вы просите провести исследование 10 лучших AI-стартапов 2026 года для презентации.

Главный агент DeerFlow разбивает задачу на подзадачи:

- один суб-агент исследует каждую компанию
- другой собирает данные о финансировании
- третий анализирует конкурентов

Все агенты работают параллельно.

В конце результаты объединяются, и финальный агент собирает готовую презентацию со слайдами и визуализацией.

github.com/bytedance/deer-flow

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Прощай, Эксель!

Мой дорогой друг, я благодарен тебе за все эти годы. Ты выручал меня, когда 1С зависала, не было интернета, и мы с тобой за ночь справлялись с любой задачей.

Но время меняется, и у меня появились новые напарники. Американец Клод делает невероятно красивые дашборды (правда за деньги). А вот китаец Дипсик берется за любую работу, не ноет, делает бесплатно и в срок.

Я объясняю им задачу в двух словах, и за полчаса получаю аналитику, на которую мы с тобой раньше тратили по три дня.

Ничего личного. Просто серьёзные рабочие задачи я теперь делаю с ними. А к тебе буду иногда заглядывать, записать расходы на ремонт.
———

А если серьезно - считать руками в Экселе, это теперь непозволительная роскошь и для аналитика, и для любого менеджера.

Да, у всех был негативный опыт, но теперь ИИ работает с расчетами без галлюцинаций. Можно наладить полноценную онлайн-отченость без Excel, знания макросов или Pivot/Query.

Сомневатесь, что у вас получится?
Я докажу вам это в прямом эфире! Вместе мы с вами построим полноценный дашборд с помощью DeepSeek, пользуясь только бесплатным функционалом.

Вы своими глазами увидите и пощупаете руками, как в 2026 году нейросети работают с таблицами, делают онлайн-дашборды и анализ что-если.

Приходите в пятницу 12 марта в 18:00 на открытый урок.
Регистрация

Реклама. ООО "АНАЛИТИКА ПЕРСОНАЛА", ИНН 6671088519

Читать полностью…

Анализ данных (Data analysis)

Разработчики раньше vs разработчики сейчас

Читать полностью…

Анализ данных (Data analysis)

⚡️ Андрей Карпаты выложил минимальный репозиторий Autoresearch - систему, где AI сам проводит исследования.

Это упрощённая версия ядра обучения LLM из nanoGPT/nanochat:
весь код обучения помещается в один файл (~630 строк) и работает на одной GPU.

Как это устроено:

- человек редактирует prompt (.md)
- AI-агент автоматически меняет training code (.py)

Дальше начинается цикл автономных экспериментов.

Каждая точка на графике — полный запуск обучения LLM (~5 минут).

AI-агент работает в бесконечном цикле:

- создаёт git-ветку
- меняет архитектуру модели
- подбирает optimizer
- оптимизирует гиперпараметры
- запускает обучение
- коммитит улучшения

Если validation loss становится ниже, изменение сохраняется.

Фактически агент сам оптимизирует собственный код обучения и постепенно улучшает модель.

Можно запускать несколько агентов с разными промптами и сравнивать, кто быстрее двигает исследование.

Карпаты шутит, что раньше AI-исследования делали люди между:

- едой
- сном
- митингами

Теперь же исследования могут выполнять рои автономных AI-агентов, которые бесконечно гоняют эксперименты на кластерах.

GitHub: github.com/karpathy/autoresearch

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 Раскройте данные с DataClaw! 🚀
DataClaw — это инструмент для структурирования истории взаимодействия с AI, позволяющий экспортировать данные в Hugging Face. Он очищает ваши сессии от конфиденциальной информации и создает готовый к публикации набор данных.

🚀Основные моменты:
- Преобразует историю взаимодействия с AI в структурированные данные
- Автоматически редактирует конфиденциальную информацию
- Публикует данные на Hugging Face с одним командным вызовом
- Создает распределенный набор данных для совместной работы человека и AI

📌 GitHub: https://github.com/peteromallet/dataclaw

#python

Читать полностью…

Анализ данных (Data analysis)

⚡️ Anthropic опубликовала исследование о влиянии ИИ на рынок труда.

Главный вывод - между тем, что ИИ умеет делать сегодня, и тем, что он теоретически сможет делать в будущем, существует огромный разрыв.

И именно этот разрыв уже начинает создавать проблему для людей, которые только начинают карьеру в индустрии.

Навыки, которые раньше считались входным билетом в профессию, постепенно автоматизируются. В результате стартовые позиции могут сокращаться, а требования к новичкам будут расти.

Это означает, что будущим специалистам придется быстрее осваивать более сложные задачи и учиться работать вместе с ИИ, а не конкурировать с ним.

Синий - где ИИ теоретически может выполнять большую часть задач

Красный - где ИИ реально используется сейчас

Читать полностью…

Анализ данных (Data analysis)

⚡️ Нашёл интересный open-source проект: Crucix

Это self-hosted intelligence terminal, который автоматически следит за событиями в мире и присылает сигналы, когда что-то меняется.

По сути это персональный разведывательный агент для данных.

Crucix агрегирует данные примерно из 26 открытых источников и регулярно обновляет их.

Он собирает сигналы из разных категорий:

- геополитика
- экономика
- энергетика
- социальные тренды
- мировые события

И показывает всё это в едином self-hosted дашборде.

Главная идея — не читать десятки сайтов и новостей вручную.

Система сама:

• мониторит источники
• отслеживает изменения
• отправляет уведомления, если появляется важный сигнал

Фактически это инструмент раннего обнаружения трендов.

Можно использовать для:

- мониторинга рынков
- отслеживания геополитики
- анализа новостей
- поиска ранних сигналов изменений

Проект позиционируется как personal intelligence agent, который следит за миром и сообщает, когда происходит что-то важное.

https://github.com/calesthio/Crucix

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Новое исследование показывает, как огромные зарплаты техногигантов уводят лучших специалистов по ИИ из университетов.

Сегодня топ-1% исследователей ИИ в индустрии зарабатывают около $2 млн в год.

Переходя в частные компании, учёные почти перестают публиковать открытые научные работы — вместо этого они на 530% чаще оформляют патенты, чтобы сохранять разработки внутри компаний.

В рамках исследования были проанализированы карьеры 42 000 специалистов по искусственному интеллекту.

https://www.nber.org/system/files/working_papers/w34964/w34964.pdf

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

«Cursor - лучший для vibe-coding»

«Claude Code лучше. А то, что ты навайбкодил уже принесло деньги?»

«Нет. А у тебе?»

«Нет.»

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡ Goldman Sachs: AI-агенты могут полностью изменить экономику софт-рынка.

Согласно новому исследованию, к 2030 году более 60% прибыли в software может приходиться на системы с AI-агентами.

Это означает сдвиг модели рынка:
деньги будут идти не столько в SaaS-подписки, сколько в агентные рабочие процессы, которые выполняют задачи самостоятельно.

Настоящие агентные системы пока в основном находятся на стадии пилотов и внутренних экспериментов.

Для масштабирования индустрии нужны:
- стабильный platform layer
- защита identity и security
- контроль целостности данных

Эксперты считают, что широкая стандартизация появится примерно через 12 месяцев.

При этом технологии быстро улучшаются:
растёт надёжность и память агентов, что снижает количество ошибок и делает возможным почти автономную работу в:

поддержке, продажах, маркетинге и инструментах разработки.

Компании, которые смогут обернуть рабочие процессы в AI-агентов, фактически станут новым интерфейсом для knowledge-работы и смогут забирать значительную часть экономической выгоды от роста продуктивности.

goldmansachs.com/insights/articles/ai-agents-to-boost-productivity-and-size-of-software-market

Читать полностью…

Анализ данных (Data analysis)

Я больше не твой учитель 😆

Читать полностью…

Анализ данных (Data analysis)

⚡️ Google представила Groundsource: систему, которая превращает новости в данные с помощью Gemini

Google Research показала новую технологию Groundsource, которая превращает обычные новостные статьи в структурированные датасеты.

Идея простая, но мощная:
в мире публикуются миллионы новостей о событиях, катастрофах и происшествиях, но эти данные неструктурированы и плохо подходят для анализа.

Groundsource решает эту проблему.

Как это работает:

1. Gemini анализирует миллионы новостных статей
2. AI извлекает ключевые факты - место, время и тип события
3. Эти данные превращаются в структурированный датасет

Первый датасет уже создан,
он содержит 2.6 млн исторических случаев внезапных наводнений в 150+ странах.

Ученые долго сталкивались с проблемой - для многих природных катастроф просто нет исторических данных, чтобы обучать модели.

Google решила проблему неожиданным способом -
использовать новостные статьи как источник данных.

На основе Groundsource уже обучена модель, которая может предсказывать flash-flood наводнения до 24 часов заранее.

Прогнозы публикуются в сервисе Flood Hub, где власти и службы реагирования могут видеть зоны риска.

Что это значит для AI:

LLM начинают использоваться не только для генерации текста, а для создания новых датасетов из неструктурированной информации.

Фактически AI превращает интернет-тексты в машиночитаемые данные.

Это открывает огромные возможности:

• климат и природные катастрофы
• экономика
• медицина
• геополитика
• анализ событий в реальном времени

Следующий шаг: LLM смогут автоматически превращать любые текстовые источники в обучающие данные для ML-моделей.

https://research.google/blog/introducing-groundsource-turning-news-reports-into-data-with-gemini/

Читать полностью…

Анализ данных (Data analysis)

🌍 Tencent запустила HY 3D Studio по всему миру

Это AI-платформа для создания 3D-моделей в одном рабочем процессе.

Сервис автоматизирует почти весь пайплайн 3D-производства:

Image → 3D → topology → UV → texturing → rigging → animation

То есть можно взять обычную картинку и получить готовую 3D-модель с текстурами и анимацией.

Платформа ориентирована на:

- 3D-художников
- разработчиков игр
- создателей контента
- студии, работающие с 3D-графикой

Новые пользователи получают 20 бесплатных генераций в день (ограниченное время).

Для разработчиков также доступен API, и новым пользователям дают 200 бесплатных кредитов для начала работы.

🕹️ Попробовать HY 3D Studio
https://3d.hunyuanglobal.com/studio

⚙️ API
: https://tencentcloud.com/products/ai3d

Читать полностью…

Анализ данных (Data analysis)

Если ты не можешь писать код без AI —
значит, ты вообще не умеешь писать код.


Согласны ?

Читать полностью…

Анализ данных (Data analysis)

🏴‍☠️ Google представила Gemini Embedding 2 - свою первую полностью мультимодальную модель эмбеддингов, которая отображает текст, изображения, видео, аудио и документы в единое общее векторное пространство.

Модель поддерживает 100+ языков, текстовые входы до 8192 токенов, до 6 изображений в одном запросе, видео до 120 секунд, нативные аудио-эмбеддинги и PDF-файлы до 6 страниц. Это позволяет упростить пайплайны для задач вроде RAG, семантического поиска, кластеризации и анализа тональности.

Благодаря технологии Matryoshka Representation Learning, которая позволяет гибко менять размер векторов (3072 → 1536 → 768), разработчики могут балансировать между качеством модели и затратами на хранение, сохраняя при этом передовое мультимодальное понимание данных.

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Ускорьте понимание кода с FastCode!

FastCode — это высокопроизводительный фреймворк для анализа кода, обеспечивающий скорость, точность и экономичность. Он подходит для работы с большими кодовыми базами и поддерживает множество языков программирования, включая Python и JavaScript.

🚀 Основные моменты:
- 3-4x быстрее конкурентов
- Снижение затрат на 44-55%
- Высокая точность анализа
- Поддержка многопроцессорного анализа
- Интуитивно понятный веб-интерфейс

📌 GitHub: https://github.com/HKUDS/FastCode

Читать полностью…

Анализ данных (Data analysis)

Tencent выпустила HY-WorldPlay — систему, которая превращает сцену в интерактивный 3D-мир.

Можно просто загрузить сцену или описание, и модель генерирует полноценное 3D-окружение, по которому можно перемещаться как в игре.

Это часть экосистемы Hunyuan 3D — набора моделей для генерации 3D-контента и виртуальных миров.

Что умеет HY-WorldPlay:

- превращает сцену в 3D-мир, по которому можно гулять
- генерирует окружение и объекты автоматически
- работает прямо в браузере
- полностью open-source

Такие системы постепенно делают возможным создание игровых миров и виртуальных пространств буквально из текста или изображения.

Попробовать: 3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay

GitHub: github.com/Tencent-Hunyuan/HY-WorldPlay

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💰 Forbes: разработчикам могут больше не нужны редакторы кода.

Новая реальность AI-разработки: программирование постепенно уходит от ручного набора кода к автономным агентам, которые могут реализовывать целые проекты самостоятельно.

По данным Forbes, компания Cursor - один из самых быстрорастущих AI-стартапов в программировании - уже сталкивается с этой трансформацией. С появлением мощных агентных систем вроде Claude Code сама идея классического code editor может устареть.

AI-лабы готовы тратить огромные деньги, чтобы переманить их на свои платформы.

Внутренний анализ Cursor показал, что подписка Claude Code за $200 в месяц могла потреблять до $2000 вычислительных ресурсов - фактически Anthropic субсидировала пользователей.

Но сейчас масштабы ещё больше.

По данным источников, знакомых с расходами на compute, тот же план за $200 способен потреблять уже около $5000 вычислительных ресурсов.

AI-компании сейчас сознательно работают в убыток, чтобы захватить рынок разработчиков и закрепить свои инструменты как стандарт индустрии.

forbes.com/sites/annatong/2026/03/05/cursor-goes-to-war-for-ai-coding-dominance/

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ OpenAI расширяет поддержку мейнтейнеров открытого кода.

Программа Codex Open Source Fund, запущенная год назад, получила апдейт льгот для разработчиков, которые поддерживают публичные репозитории.

Теперь участники программы получают не только API-кредиты, но и полный доступ к ChatGPT Pro с Codex на полгода.

Обновленный набор поддержки выглядит теперь так:

🟢API-кредиты для проектов, которые уже интегрировали Codex в pull request review, релизные пайплайны или другую инфраструктуру OSS.

🟢6 месяцев ChatGPT Pro с Codex.

🟠Условный доступ к Codex Security

Условность в том, то Codex Security одобряется вручную. OpenAI объясняет это возможностями GPT-5.4, команда рассматривает каждую заявку отдельно, чтобы убедиться, что инструмент применяется осознанно.


OpenAI формулирует требования к просителям программы размыто: core maintainer с write access к широко используемому публичному проекту. Что считается широко используемым - не уточняется.

Если проект не вписывается в стандартные критерии, OpenAI все равно рекомендует подавать заявку с объяснением роли проекта в экосистеме.

Неделю назад Antropic запустила похожую тему поддержки опен-сорса.

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Claude, похоже, решает одну из самых раздражающих проблем разработчиков.

Anthropic анонсировала экспериментальную функцию Auto Mode для Claude Code, которая должна появиться примерно 12 марта 2026 года.

Идея простая: позволить Claude самостоятельно обрабатывать запросы на разрешения во время программирования, чтобы разработчикам не приходилось постоянно подтверждать каждое действие.

Это избавляет от надоедливых permission-окошек во время длинных сессий кодинга.

Раньше, чтобы работать без остановок, приходилось запускать Claude с флагом --dangerously-skip-permissions. Он действительно убирал все подтверждения, но при этом полностью отключал защитные механизмы.

Новый Auto Mode предлагает более умный вариант.

Claude сам будет принимать решения по разрешениям, но при этом продолжит блокировать потенциальные угрозы, например prompt-injection атаки.

Это значит, что теперь можно запускать долгие задачи и не следить постоянно за экраном, ожидая очередного подтверждения.

Поскольку функция пока находится в research preview, её рекомендуют запускать в изолированных средах — sandbox или контейнерах.

Также стоит ожидать небольшого увеличения расхода токенов и задержек, потому что модели требуется дополнительное время на проверки безопасности.

После выхода функции её можно будет включить одной командой:

claude --enable-auto-mode

Если вы управляете командой разработчиков и хотите, чтобы действия всё же подтверждались вручную, эту функцию можно ограничить через MDM-инструменты (например Jamf или Intune) или через конфигурационные файлы.

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Вышла FireRed-Image-Edit-1.1 - одна из самых мощных open-source моделей для редактирования изображений.

Главная фишка - сильное сохранение идентичности персонажа. Даже после сложных правок лицо, стиль и детали остаются узнаваемыми.

Что умеет модель:

- сохраняет идентичность персонажа при редактировании
- объединяет 10+ элементов в одном изображении
- агент автоматически делает crop и stitch
- поддерживает портретный макияж
- перенос стиля текста
- восстановление фотографий

При этом модель работает довольно быстро - около 4.5 секунды на генерацию, требует примерно 30GB VRAM.

Используются техники:
- distillation
- quantization
- static compile

Дополнительно:

- открыто обучение LoRA
- поддержка ComfyUI
- поддержка GGUF

По бенчмаркам модель обходит:

- Imgedit
- Gedit
- RedEdit

Лицензия - Apache 2.0, можно использовать в коммерческих проектах.

Модель: https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.1

Читать полностью…
Subscribe to a channel