data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🦅 Korvus — RAG-пайплайн в одном SQL-запросе. Библиотека объединяет векторизацию, семантический поиск и генерацию ответов в единый Postgres-запрос. Работает через расширения pgvector и pgml, заменяя сложные микросервисные архитектуры простым вызовом из Python/JS/Rust.

Инструмент локально выполняет все этапы (от чанкинга текста до работы LLM) прямо в базе данных. Подходит для проектов, где важны скорость и минимальная инфраструктурная нагрузка.

🤖 Github

@data_analysis_m

Читать полностью…

Анализ данных (Data analysis)

🔌 LIDA — инструмент для автоматического создания визуализаций данных с помощью ИИ. Библиотека использует большие языковые модели для генерации и объяснения графиков на лету, работая с популярными библиотеками вроде Matplotlib и Seaborn.

Проект особенно полезен для аналитиков: он умеет дорабатывать графики по текстовым запросам, оценивать их качество и даже создавать инфографику. Есть веб-интерфейс и поддержка локальных LLM.

🤖 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Кто быстрее проходит Pokémon Red.

📊 Результаты:
- GPT-5 — 6 470 шагов
- o3 — 18 184
- Claude — 35 000
- Gemini 2.5 Pro — 68 000

⚡ GPT-5 в три раза быстрее o3 и почти в десять раз эффективнее Gemini.

Такое сравнение хорошо показывает не только «умение играть», а способность моделей к планированию, оптимизации и минимизации лишних действий.

Читать полностью…

Анализ данных (Data analysis)

🖥 Теперь писать сложные промты самому не обязательно — OpenAI выпустили генератор, который превращает даже простой запрос в подробную инструкцию для ИИ.

Принцип простой: описываете, что хотите получить, нажимаете Optimize — GPT-5 анализирует запрос и выдаёт готовый детализированный промт. Работает бесплатно.

Инструмент может упростить работу с любыми нейросетями, особенно если у вас нет опыта в составлении промтов.

Готовый вы можете сразу попробовать в @Chatgpturbobot

Читать полностью…

Анализ данных (Data analysis)

✔️ Claude будет завершать токсичные диалоги.

Anthropic добавила в Claude Opus 4 и 4.1 возможность принудительно завершать беседу. Эта функция предназначена для редких, крайних случаев постоянно враждебного или оскорбительного поведения со стороны пользователя.

Это крайняя мера, к которой чат-бот прибегнет только после многократных безуспешных попыток перенаправить разговор в продуктивное русло или по прямой просьбе пользователя. При этом система не будет использовать эту возможность, если есть риск, что пользователь может причинить вред себе или окружающим.

Когда Claude завершает диалог, пользователь не сможет отправлять новые сообщения в этой ветке, но сможет начать новый чат или отредактировать старые сообщения для создания новых ветвей.
anthropic.com

✔️ Мобильное приложение ChatGPT заработало 2 млрд. долларов с момента запуска.

Согласно данным компании Appfigures, мобильное приложение ChatGPT сгенерировало 2 млрд. долларов потребительских расходов с момента запуска в мае 2023 года. В среднем каждый из 690 млн. пользователей потратил в приложении 2.91 доллара. Это говорит о готовности аудитории платить за ИИ-сервисы на мобильных устройствах.

Темпы роста выручки резко ускорились в этом году. С января по июль 2025 года пользователи потратили в приложении 1.35 млрд. долларов, на 673% больше, чем за аналогичный период прошлого года. Это эквивалентно примерно 193 млн. долларов в месяц. США лидируют по доходам (38%), а Индия — по количеству установок (14%).

Эти метрики показывают отрыв ChatGPT от конкурентов. Для сравнения, Grok заработал в этом году 25.6 млн., а доходы Claude и Copilot вместе взятых составляют лишь одну тридцатую от мобильной выручки OpenAI.
techcrunch.com

✔️ Tencent выпустила облегченную модель для генерации 3D-миров.

Tencent представила Hunyuan World Model 1.0-Lite оптимизированную версию своей модели для генерации трехмерных сцен, которая может работать на потребительских GPU. Разработчики снизили требования к видеопамяти на 35% (с 26 до 17 ГБ) благодаря динамическому FP8-квантованию.

За счет использования SageAttention и оптимизации кэширования удалось ускорить инференс более чем в 3 раза с потерей точности менее 1%.
Как и оригинальная версия, 1.0-Lite имеет открытый исходный код и уже доступна на GitHub, Hugging Face, а также в виде демо SceneTo3D.
Tencent Hunyuan в сети X

✔️ OpenAI работает над ИИ-системами, способными решать задачи часами и днями.

В подкасте на Youtube OpenAI рассказали о разработке нового класса моделей, ориентированных на долгосрочное мышление. Системы на их основе смогут планировать, рассуждать и экспериментировать над одной проблемой на протяжении длительного времени, от нескольких часов до нескольких дней.

По словам OpenAI , первые проблески этого подхода уже видны в моделях, которые недавно завоевали золото на международных олимпиадах по математике и информатике. Конечная цель - автоматизировать исследования, например, для поиска новых идей в медицине или в области безопасности самого ИИ.

В OpenAI признают, что реализация этой концепции потребует значительно больших вычислительных мощностей, чем доступны сегодня. Это объясняет готовность Сэма Альтмана инвестировать в строительство дата-центров в ближайшие годы.
OpenAI на платформе Youtube

✔️ Google сделала поиск авиабилетов по текстовому описанию.

Google запустил новый инструмент Flight Deals. Он использует ИИ для поиска выгодных перелетов по запросам на естественном языке, а не через стандартные фильтры. Пользователи могут описать свои пожелания в свободной форме, например, «недельная поездка этой зимой в город с хорошей едой, только прямые рейсы». Инструмент ориентирован на путешественников с гибкими планами, для которых приоритетом является цена.

По заявлению Google, система использует продвинутый ИИ для понимания нюансов запроса, а затем анализирует данные Google Flights в реальном времени, чтобы показать актуальные варианты. Сервис запускается в бета-режиме и в течение недели станет доступен пользователям в США, Канаде и Индии.
blog.google

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

🚀 GPT-5 бьёт рекорды в офтальмологии — почти идеальная точность и лучший бюджетный режим “mini-low”

🧪 В исследовании сравнили 12 конфигураций GPT-5 с o1, o3 и GPT-4o на 260 закрытых вопросах American Academy of Ophthalmology BCSC.

Ответы давались без примеров в промпте, в формате: одна буква + одно предложение-обоснование — для максимально строгой проверки.

🎯 Результаты:
- GPT-5-high — 96,5% точности
- o3-high — 95,8%
- o1-high — 92,7%
- GPT-4o — 86,5%
- GPT-5-nano-low — 77,3%

📊 “Reasoning effort” — настройка глубины размышлений модели. Минимальный режим показал худшие результаты и был исключён.
По оценке Bradley-Terry, GPT-5-high в 1,66× сильнее o3-high и в 5,10× — o1-high по точности, а по качеству объяснений — на 11% лучше o3-high.

💰 На графике «точность / стоимость» выявлен Pareto-фронтир: от GPT-5-nano-low до GPT-5-high.
Лучший баланс цены и качества — GPT-5-mini-low: дешевле и точнее всех альтернатив в своём сегменте.

📌 Выводы:
- GPT-5-high — для задач, где важна максимальная точность.
- GPT-5-mini-low — оптимален для масштабного применения с ограниченным бюджетом.
- GPT-5-medium — близок к o3-high по балансу цены и качества.

📌 Читать полностью

Читать полностью…

Анализ данных (Data analysis)

🖥 MongoDB выпускает MCP Server — теперь любой может стать дата-инженером

MongoDB представили открытый MCP сервер, который позволяет AI-инструментам вроде Claude, Cursor и GitHub Copilot напрямую общаться с вашей MongoDB-базой.

Теперь даже без знаний запросов можно просто написать:
• «Покажи самых активных пользователей»
• «Создай нового пользователя с правами только на чтение»
• «Как устроена коллекция orders?»

⚙️ MCP Server поддерживает:
• MongoDB Atlas
• Community Edition
• Enterprise Advanced

📌 Главное — не нужен SQL, не нужно знать синтаксис. Достаточно обычного языка.

💡 Под капотом: AI превращает ваши фразы в рабочие Mongo-запросы.
Открытый исходный код. Готово к продакшену.

📌 GitHub

#MongoDB #AItools #OpenSource #MCP

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎮 GPT-5 прошёл Pokémon Red!

6 470 шагов против 18 184 у o3 — колоссальный прогресс в эффективности.

• GPT-5 гораздо реже «галлюцинирует» — главный фактор ускорения.
• Лучшая пространственная логика: o3 часто пытался «пробиться» сквозь стены и путался в сложных локациях, а GPT-5 умеет планировать длинные последовательности действий с минимумом ошибок.
• Более чёткое планирование целей и их последовательное выполнение.

Теперь посмотрим, как он справится с финальным испытанием! 🔥


🔜 Следующий челлендж: GPT-5 играет Pokémon Crystal. Старт скоро на Twitch!

Livestream: https://twitch.tv/gpt_plays_pokemon

Читать полностью…

Анализ данных (Data analysis)

🚀 Tencent выложила в открытый доступ Hunyuan-GameCraft — инструмент для генерации интерактивных игровых видео с высокой реалистичностью.

Что это значит:
• Из одной картинки сцены и команд пользователя (клавиатура, мышь) создаётся полноценное игровое видео от первого или третьего лица.
• Движения плавные и точные: можно контролировать скорость, угол поворота и строить сложные траектории, а не только примитивную анимацию.
• Среда тоже живая — облака, дождь, снег, вода и другие эффекты генерируются динамически.
• Картинка остаётся чёткой даже при резких перемещениях — сохраняется информация о сцене.
• Работает быстро и дёшево: за счёт оптимизаций и квантования 13B-модель тянет даже RTX 4090, без дорогого рендера и сложного 3D-моделирования.

Построен на базе HunyuanVideo.

🟠Project Page: https://hunyuan-gamecraft.github.io
🟠Code: https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
🟠Technical Report: https://arxiv.org/abs/2506.17201
🟠Hugging Face: https://huggingface.co/tencent/Hunyuan-GameCraft-1.0

@data_analysis_ml

#AI #GameDev #VideoGeneration #HunyuanVideo #OpenSource #Tencent #GamingAI

Читать полностью…

Анализ данных (Data analysis)

🚀 Двойной прирост скорости инференса для diffusion-моделей с помощью Torch-TensorRT от NVIDIA

Что нового?
С помощью Torch-TensorRT (компилятора для PyTorch + TensorRT) можно без изменения PyTorch-кода:
- Удвоить скорость инференса для diffusion-моделей — без изменений API и минимальных усилий
- На примере модели FLUX.1-dev (12 млрд параметров):
- ×1.5 быстрее по сравнению с родной PyTorch FP16
- до ×2.4 при добавлении FP8-квантизации

Почему это важно:
- Минимальный код — максимальный эффект: достаточно одной строки, чтобы включить ускорение
- Гибкость: поддержка современных workflows, LoRA, ControlNet — перефит и ре-компиляция происходят на лету, без дополнительных шагов

Если вы работаете с Hugging Face Diffusers и diffusion-моделями в PyTorch — Torch-TensorRT откроет новую скорость с минимумом усилий!

🔗 Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ OpenAI инвестирует в Merge Labs - конкурента Neuralink.

OpenAI ведет переговоры об инвестициях в Merge Labs, стартап в области нейрокомпьютерных интерфейсов, который планирует создание высокоскоростных BCI-систем.

Merge Labs планирует привлечь 250 миллионов долларов при оценке в 850 миллионов. Сэм Альтман будет числиться сооснователем вместе с бывшим топ-менеджером Neuralink Алексом Бланиа, однако не будет заниматься операционной деятельностью. Ожидается, что основное финансирование поступит от венчурного подразделения OpenAI.

Этот шаг еще больше обостряет давнее соперничество между Альтманом и Маском, которые в 2015 году вместе основали OpenAI, но позже разошлись во взглядах.
ft.com

✔️ Контекстное окно Claude Sonnet 4 расширено до миллиона токенов.

Anthropic объявила о значительном увеличении контекстного окна для Claude Sonnet 4 до одного миллиона токенов. Это в 5 раз больше предыдущего лимита и позволит обрабатывать за один проход целые кодовые базы или большие массивы документов. Новая возможность уже доступна в публичной бете через API Anthropic, Amazon Bedrock, а в скором времени появится и в Google Cloud Vertex AI.

За расширение придется платить больше. Для запросов свыше 200 тыс. входных токенов цена удваивается и составит 6 долларов за миллион токенов. Стоимость выходных токенов также вырастет с 15 до 22.50 долларов за миллион.
anthropic.com

✔️ Microsoft ведет целенаправленную кампанию по найму топовых инженеров и исследователей из компании Марка Цукерберга.

Согласно внутренним документам, Microsoft составила список конкретных сотрудников с указанием их имен, ролей и принадлежности к командам: Reality Labs, GenAI Infrastructure и AI Research. Корпорация готова предложить им многомиллионные компенсационные пакеты - крупные бонусы при найме, конкурентные зарплаты, значительные пакеты акций и высокие годовые премии.

Для ускорения процесса в Microsoft внедрили специальную процедуру. Рекрутеры могут помечать кандидатов как "критически важные ИИ-таланты" и тогда процесс рассмотрения и утверждения на уровне руководства возможен в течение 24 часов.
businessinsider.com

✔️ AI2 выпустил открытую модель для робототехники.

Институт искусственного интеллекта Аллена представил MolmoAct 7B — опенсорсную модель для планирования движений роботов в трехмерном пространстве. Система интерпретирует команды на естественном языке, создает 3D-реконструкцию сцены и прокладывает траекторию движения, которую разработчик может просмотреть и скорректировать до того, как робот начнет действовать.

Модель на 7 млрд. параметров была обучена на 18 млн. примеров, в которых были включены 12 тыс. эпизодов из реального мира. В бенчмарке SimPLER система показала успешность выполнения задач в 72.1%, обойдя решения от Nvidia, Google и Microsoft.

AI2 опубликовал техотчет, веса и датасеты, позиционируя MolmoAct как свободно доступную альтернативу проприетарным решениям.
allenai.org

✔️ SEELE AI запустила публичное тестирование генератора 3D-игр по текстовому описанию.

Платформа создает полноценные, играбельные проекты на основе текстового описания на естественном языке, не требуя навыков программирования. Система использует большие модели для автоматической генерации всех ключевых элементов: 3D-сцен, персонажей и игровой логики, интегрируя текст, 3D-моделирование и физические движки.

Помимо основной генерации, инструмент поддерживает персонализацию созданных игр, предварительный просмотр в реальном времени и возможность оптимизации. SEELE AI позиционирует свой сервис не только как игровой инструмент, но и как платформу для создания контента в сфере образования, маркетинга и социальных сетей.
Попробовать инструмент можно на официальном сайте.
Seele AI в сети Х

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

MWS Cloud представила Inference Valve, которая снижает затраты на GPU на 15%

Она позволяет выводить в продакшнлюбые обученные ML-модели, большие языковые модели (LLM) и модели компьютерного зрения (CV). С помощью платформы их можно разворачивать на инфраструктуре, подключать к ИТ-системам компании через простой и мощный API, масштабировать, а также обновлять и мониторить.

Платформа доступна в частном облаке на инфраструктуре MWS Cloud, on-prem на серверах заказчика, а также в составе программно-аппаратных комплексов (ПАК) в закрытом контуре, включая режимы с ограниченным доступом к внешним сетям.

По словам CEO MWS Cloud, исполнительного директора МТС Web Services Игоря Зарубинского, платформа позволяет:

- В десятки раз быстрее интегрировать LLM и CV-модели с ИТ-системами компаний;

- На 70% снизить операционную нагрузку на ML-команды при эксплуатации моделей;

- Повысить автоматизацию CI/CD более чем на треть;

- Уменьшить затраты на GPU более чем на 15%;




Ссылка – *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 NVIDIA выложили в открытый доступ Cosmos Reason reasoning-VLM размером 7B для Physical AI.

Что это
• Открытая и настраиваемая reasoning-VLM для физического ИИ и робототехники: модель понимает видео + текст, “думает” по шагам и принимает решения
в реальном мире.

Что умеет
👀 Видеть, рассуждать и действовать в реальном мире
🛠️ Решать многошаговые задачи и справляться с неоднозначными/новыми ситуациями
🤖 Подходит для разработки роботов, автономного транспорта и визуальных ИИ-агентов

Почему важно
• Пост-тюнинг даёт ощутимый буст: SFT ≈ +10% к базе, RL ещё ≈ +5%.
• Итог: средний результат ≈ 65.7 на профильных бенчмарках для роботов и автопилота.

📌 Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Что такое MWS Data? Как создавали платформу для работы с данными

13 августа в 11:00 эксперты MWS проведут онлайн-дискуссию, где расскажут:

1️⃣ Как проектировали платформу MWS Data и почему пошли дальше Lakehouse
2️⃣ Что лежит в ядре платформы: архитектура и технологии
3️⃣ Какие задачи она решает: от ETL до BI
4️⃣ Какую продуктовую линейку запускает MWS

Кому будет полезно:

▪️Руководителям бизнеса
Поймёте, как платформа поможет быстрее принимать решения и снизить потенциальные риски

▪️CDO / CIO / CTO
Разберётесь, как сократить расходы на хранение и обработку данных без ущерба для их качества.

▪️ML-инженерам и Data Scientists
Узнаете, как MWS Data ускоряет подготовку данных, сокращает пайплайны и улучшает входное качество для моделей

Регистрируйтесь на онлайн-дискуссию 👈

Читать полностью…

Анализ данных (Data analysis)

🚀 Релиз MiMo-VL 2508: тот же размер — больше мощность

Улучшена:

- Производительность
- Управление рассуждениями
- Общий пользовательский опыт

📈 Улучшены показатели почти всех бенчмарков (изображения + видео)
- MMMU: 70.6
- VideoMME: 70.8
Стабильные улучшения по всем направлениям.

🤖 Thinking Control
- Вкл. (по умолчанию): полный ход рассуждений в ответах.
- Выкл.: прямые ответы без показа рассуждений ⚡

❤️ Реальный опыт пользователей
Рейтинг в VLM Arena вырос с 1093.9 → 1131.2 (+37.3).

Модель стала более способной, гибкой и надёжной в повседневных задачах.

🤗 Ссылки на модели
- RL: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508
- SFT: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508

#XiaomiMiMo #MiMoVL

Читать полностью…

Анализ данных (Data analysis)

Конференция, на которую нужно прийти Data Engineers🔥
23 сентября пройдет Data Internals X 2025 — единственная в России конференция, где создатели СУБД и движков обработки данных делятся опытом работы с реальными production-системами экстремального масштаба. Вас ждёт по-настоящему "хардкорная" программа.

🎯 Глубина технических решений
Программа конференции сфокусирована на внутренних механизмах работы с данными — от разработки СУБД до оптимизации запросов и устойчивости к высоким нагрузкам. Это редкая возможность погрузиться в технические детали, которые обычно остаются за кадром.

🏭 Практический опыт масштабирования
Все доклады основаны на реальном опыте работы с петабайтными данными, высоконагруженными системами и решением production-задач в крупных компаниях (Яндекс, Сбер, VK, Т-Банк).

🔧 Импортозамещение и Open Source
Особый акцент на отечественные решения и open-source технологии, что критически важно в текущих реалиях.

🧠 Концентрированный опыт 
Максимум пользы для повышения квалификации за один день: 20+ докладов, рекордная плотность экспертных знаний и нетворкинг с 300+ участниками. 

📌Изучить расписание и забронировать билеты на сайте конференции 

Используйте промокод "Data" для получения скидки 15%.
Приходите сами и приглашайте своих коллег 🔥

Читать полностью…

Анализ данных (Data analysis)

🛢 Данные — новая нефть, и именно дата-инженеры умеют эту нефть «добывать», очищать и хранить. Спрос на них стремительно растёт, конкуренция пока минимальна, а зарплаты — выше среднего.

Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных».
За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.

Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.

Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/ekal

🎁 В этом году при поступлении на программу вы получаете курс по ещё одной IT-профессии в подарок — отличная возможность расширить свой профиль и усилить CV.

Реклама. ООО "Нетология". ИНН 7726464125. Erid: 2VSb5z9sojP

Читать полностью…

Анализ данных (Data analysis)

🖥 vLLM-CLI — удобный инструмент командной строки для управления vLLM-серверами

Инструмент объединяет удобный интерфейс, профили конфигурации и мониторинг, делая работу с LLM комфортной и быстрой.

Основные возможности:
- Интерактивный режим — меню прямо в терминале, не нужно запоминать длинные аргументы.
- Командный режим — можно автоматизировать запуск и мониторинг серверов.
- Управление моделями:
• Автоматический поиск локальных моделей.
• Поддержка загрузки моделей из Hugging Face Hub.
- Профили конфигурации: встроенные варианты (`standard`, moe_optimized, `high_throughput`) для разных сценариев, включая работу с несколькими GPU.
- Мониторинг сервера: просмотр загрузки GPU, памяти и логов в реальном времени.

📌 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 ByteDance выкатили **UI-TARS Desktop** — опенсорсный AI-агент для управления рабочим столом

📌 Что умеет:
- Управлять любыми приложениями через язык — клики, ввод текста, навигация
- Работает локально, бесплатно и под лицензией Apache 2.0
- Поддержка Windows и macOS (Linux в разработке)
- Новое в v0.2.0 — удалённое управление компьютером и браузером (пока только для материкового Китая)

📌 Зачем нужен:
- Локальный и приватный ассистент без облака
- Полезен для RPA, автоматизации и тестирования
- Основан на визуально-языковой модели, которая распознаёт интерфейсы и взаимодействует с ними

📂 Код: github.com/bytedance/UI-TARS-desktop

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Только что в России начали работать нейросети от Google — без обхода блокировок и без смены региона.

Пробуем тут.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎥 Stand-In (BowenXue) — лёгкий и plug-and-play фреймворк для генерации видео с сохранением личности

📌 Что делает:
- Генерирует видео, сохраняя лицо или стиль персонажа, обучив всего ~1 % новых параметров на базе модели генерации видео. Результат сопоставим с полным переобучением, но быстрее и легче.
- Поддерживает генерацию по тексту с контролем идентичности, смену стиля, pose-guidance, face-swap, стилизацию и даже генерацию не-людей.
- Лицензия Apache-2.0 — открытое использование и модификация.

Что нового:
- Версия v1.0 (153 M параметров) с весами на базе Wan2.1-14B-T2V и кодом для инференса.
- Интеграция с ComfyUI: выпущен preprocessing-нод для улучшенной поддержки, особенно после сторонней интеграции.

https://huggingface.co/BowenXue/Stand-In

#opensource #ai #ml

Читать полностью…

Анализ данных (Data analysis)

Разбираем тестовое задание в Яндекс на позицию Junior аналитика данных

Тестовое задание — важная часть трудоустройства аналитика. Это шанс показать свои навыки на практике и получить оффер мечты.

Приглашаем на бесплатный вебинар, где Андрон Алексанян — эксперт в области аналитики и CEO школы аналитики Simulative — в прямом эфире разберет тестовое задание в Яндекс на позицию Junior аналитика данных.

⚡️На вебинаре вы:

🟠узнаете, какие навыки и знания необходимы для успешного выполнения заданий;
🟠поймёте, что хочет увидеть работодатель;
🟠получите советы и лайфхаки;
🟠вместе с Андроном разберете в прямом эфире реальный пример тестового 🔥


Чему именно научимся на вебинаре:
🟠С помощью Pandas проанализируем Яндекс-запросы за несколько недель, загрузив их из json-файла;
🟠Найдем закономерности и отличия использования сервиса на мобильных устройствах и компьютерах;
🟠Разберем фишки Pandas: сложную агрегацию, маппинг, конкатенацию, чейнинг и др.


🕗 Настоятельно рекомендуем не пропускать — для зрителей у нас есть особый бонус, который обеспечит вам уверенный старт в вашей карьере.

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Анализ данных (Data analysis)

🚀 DeepSeek R2 могут выпустить между 15 и 30 августа на чипах Huawei Ascend 910B.

Мощность: 512 PFLOPS FP16 (примерно как 91% кластера NVIDIA A100) при этом затраты меньше на 97%.

Загрузка чипов — около 82%.

Архитектура: гибридный Mixture of Experts — при обработке токена активируются только нужные эксперты (78B из 1.2T параметров), что ускоряет работу и снижает вычисления.

Ходят слухи о собственном стеке для распределённого обучения, но подтверждений пока нет.

Все технические данные совпадают с предыдущими утечками по железу.

Читать полностью…

Анализ данных (Data analysis)

✨ Alibaba выпустила код и веса FantasyPortrait

Мультипортретная анимация персонажей

В комплекте Multi-Expr Dataset — первый датасет для анимации нескольких лиц с разными выражениями

🟠 Лицензия Apache 2.0

https://huggingface.co/acvlab/FantasyPortrait

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Анализируй графики за секунды с SmolVLM

Часы ручного разбора сложных визуализаций — в прошлое.
SmolVLM позволяет:
🔹 Автоматически извлекать ключевые выводы прямо из графика
🔹 Отвечать на конкретные вопросы без долгих расчётов
🔹 Мгновенно находить закономерности и ускорять принятие решений

💡 Пример: модель определяет, что курящие клиенты приносят больше выручки за заказ, а пик продаж приходится на пятницу и субботу.

📈 От картинки — к готовым инсайтам за пару секунд.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Сборник примеров однофайловых приложений, созданных GPT-5

🔄 Эти демо легко превратить в полноценные приложения, добавив серверную часть.

📂 Примеры доступны здесь: https://gpt5-coding-examples.vercel.app/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

☠️ Mistral уличили в том, что они тренировали свою модель на тестовых данных и копировали (дистиллировали) модели DeepSeek.

Многие замечали, что Mistral Small 3.2 пишет очень похоже на DeepSeek V3.

Анализ их slop-профилей это подтверждает.

Визуализация в виде сети, а не «древа родства», лучше передаёт сложные и переплетённые связи между моделями.

Полный абсурд.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Выпущен техрепорт GLM-4.5 — мощный Mixture-of-Experts (MoE) LLM с 355 млрд параметров (и 32 млрд активных), оснащённый гибридной логикой: умеет «думать» для сложных задач и сразу отвечать, когда нужно.

Ключевые особенности:
- Обучен на 23 трлн токенов с поисковой дообучкой и RL через экспертные итерации.
- Выдаёт отличные результаты в задачах agentic (агентные задачи), reasoning (логика) и coding (кодинг):
— TAU-Bench: 70,1%
— AIME 24: 91,0%
— SWE-bench Verified: 64,2%
- Несмотря на менее мощные размеры, занимает 3-е место по общим метрикам и 2-е место по agentic-бенчам среди всех моделей.
- Выпущены две версии: полноразмерная GLM-4.5 (355B) и компактная GLM-4.5-Air (106B) — обе открыты для сообщества.

Это значимый шаг для открытых LLM — мощный, гибридный, способный рассуждать, действовать и кодить в рамках одного фундамента.

🟡Техрепорт
🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥GitHub

Читать полностью…

Анализ данных (Data analysis)

📈 Сэм Альтман ответил на критику запуска GPT-5: OpenAI удваивает лимиты для подписчиков Plus

Всего через несколько дней после запуска GPT-5 OpenAI уже анонсирует изменения для пользователей. Сэм Альтман в AMA-сессии на Reddit подтвердил, что лимиты запросов к GPT-5 Thinking на подписке Plus будут увеличены в два раза — с текущих 200 до 400. Это ответ на критику пользователей, которые отмечали, что квоты для новой модели оказались заметно ниже, чем для предыдущих версий.

При этом OpenAI также рассматривает возможность вернуть доступ к GPT-4o для подписчиков Plus — видимо, чтобы дать пользователям больше гибкости в выборе модели. Параллельно команда дорабатывает автоматический режим GPT-5, где ИИ сам решает, использовать глубокие рассуждения или давать быстрый ответ.

🔗 Ссылка - *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🤨 OpenAI заявила о 74.9% на SWE-Bench, чтобы обойти Opus 4.1 с его 74.5%…
Но тест они прогнали не на всех 500 задачах, а только на 477.

Ирония в том, что в официальной system card у них стоит просто 74%.

Источник: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

Читать полностью…
Subscribe to a channel