Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
Бизнесу данные нужны как воздух📊
На их основе компании принимают важные стратегические решения. Поэтому спрос на аналитиков растёт в самых разных сферах: от банковской до медицинской.
На курсе «Аналитика данных с МФТИ» готовят специалистов универсальной квалификации. За 10 месяцев вы научитесь использовать Python для анализа данных, применять методы ИИ в своих задачах и работать с базами данных.
С универсальными знаниями вы сможете строить карьеру в одном из трёх направлений аналитики:
– Аналитика данных.
– Data Science.
– Инженерия данных.
После обучения получите дипломы о профессиональной переподготовке от МФТИ и Нетологии. Центр развития карьеры поможет с трудоустройством, резюме и портфолио. Записывайтесь на курс и становитесь универсальным специалистом в аналитике → https://netolo.gy
Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5wd36Jc
🔥 Tripo MCP Server
Основная функция tripo-mcp заключается в генерации 3D-объектов на основе текстовых описаний с использованием API Tripo и их импорте в Blender. Проект находится на стадии альфа-версии.
📌 Туториал: https://tripo3d.ai/blog/cursor-tripo-mcp-tutorial
📌 Github: https://github.com/VAST-AI-Research/tripo-mcp
@data_analysis_ml
#blendermcp #vibecoding #tripo3d
🖥 YT Navigator — это приложение на основе искусственного интеллекта, предназначенное для эффективного поиска и взаимодействия с контентом YouTube-каналов.
Оно позволяет пользователям выполнять семантический поиск по видео, получать точные временные метки и извлекать информацию из часов видеоматериалов за считанные секунды.
📌 Основные функции YT Navigator:
Семантический поиск: Возможность находить релевантные сегменты видео с точными временными метками на основе естественных языковых запросов.
Интерактивное общение: Пользователи могут "общаться" с содержимым канала, получая ответы на вопросы, основанные на транскриптах видео.
Экстракция информации: Быстрое извлечение ключевой информации из большого объёма видеоконтента, что экономит время и усилия при анализе материалов.
Преимущества использования YT Navigator:
Экономия времени: Быстрый доступ к конкретной информации без необходимости просмотра длительных видеороликов.
Удобство: Интуитивно понятный интерфейс и мощные функции делают процесс поиска и анализа видеоконтента более эффективным.
YT Navigator особенно полезен для исследователей, аналитиков и всех, кто работает с большими объёмами видеоданных, предоставляя инструменты для быстрого и точного анализа контента.
📌 Github
@data_analysis_ml
💬 OPEN AI добавили API 3 новых SOTA аудио-модели.
🗣️ Две модели преобразования речи в текст, которые, как заявляют разработчики, превосходят Whisper.
💬 1 Новая модель TTS - которой можно указать *как* ей говорить.
Поддерживает функцию задания интонации, тона, тембра голоса и еще множества других параметров с помощью промпта.
🤖 Еще OpenAi выпустили Agents SDK, который для создания голосовых агентов.
Через час состоится стрим, где покажут примера создания голосовых агентов с новыми аудиомоделями.
📌 Потестить можно здесь: https://www.openai.fm/
@data_analysis_ml
🔥 Postiz — это инструмент для планирования публикаций в социальных сетях с использованием ИИ!
🌟 Он позволяет управлять контентом на таких платформах, как Instagram, YouTube, LinkedIn и другие. Postiz включает аналитику, возможности совместной работы и интеграцию с различными инструментами. Доступна как облачная, так и локальная версия. Технологический стек включает Next.js, NestJS и NX.
🔐 Лицензия: AGPL-3.0
🖥 Github
@data_analysis_ml
🚀 Llama-3_3-Nemotron-Super-49B-v1 — это крупная языковая модель (LLM) от NVIDIA, созданная на базе архитектуры Llama 3 и усовершенствованная с использованием технологий NVIDIA.
Модель на 49 миллиардов параметров, которая оптимизирована для работы на GPU и предназначена для выполнения сложных NLP задач.
Интеграция с экосистемой NVIDIA: Использует фреймворки вроде NeMo и TensorRT для ускорения вычислений на GPU.
Оптимизация под железо NVIDIA: Заточена для работы на серверах с GPU серий A100, H100 и др.
Совместимость с Llama 3: Сохраняет
🛠 Для кого полезен?
Корпоративные разработчики: Внедрение в продукты, требующие высокоточной генерации текста (чат-боты, аналитика).
🚀 Преимущества перед аналогами
Скорость и эффективность:
Благодаря оптимизации под CUDA и TensorRT, модель работает в 1.5–2x быстрее, чем базовые версии Llama 3 на аналогичном железе.
Поддержка квантования и динамического батчинга для снижения затрат на инференс.
Масштабируемость:
Готовность к интеграции в распределенные системы (NVIDIA DGX, Kubernetes).
Совместимость с NVIDIA Triton Inference Server для промышленного развертывания.
Кастомизация:
Возможность дообучения на доменных данных (медицина, юриспруденция, финансы) с использованием NeMo Framework.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1
❓Работаете с данными? Масштабируйте Big Data с Apache Spark!
Освойте Spark на продвинутом уровне. За 4 месяца на онлайн-курсе от Otus вы:
- Освоите RDD, DataFrame, Dataset, Spark API
- Разберётесь в SparkML, потоковой обработке, работе с графами
- Научитесь запускать Spark в Kubernetes и Hadoop
В программе сложные, но интересные практические задачи и проект на реальных данных.
💪 Выпускники работают с биржами, маркетплейсами и банками.
➡️ Пройдите вступительное тестирование и получите скидку на курс: https://otus.pw/wFnu/?erid=2W5zFH7RZnp
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
✔️ "EXAONE Deep Released ━ Setting a New Standard for Reasoning AI" от LG AI Research
Мы уже писали про довольно интересное семейство моделей от LG, на этот раз они представили по-настоящему мощные ризонинг модели.
1) EXAONE Deep 2.4B превосходит другие модели сопоставимого размера,
2) EXAONE Deep 7.8B превосходит не только открытые модели сопоставимого размера, но и OpenAI o1-mini,
3) EXAONE Deep 32B демонстрирует конкурентоспособные характеристики по сравнению с ведущими открытым моделями.
Модель 32B, которая по размеру равна примерно 5% от размера DeepSeek r1, превосходит ее почти на всех бенчмарках.
Прорыв в цепочке рассуждений – релиз акцентирует внимание на улучшении "chain-of-thought" механизма, что делает модель способной генерировать обоснованные выводы и поддерживать длинные цепочки логических рассуждений.
🟡Релиз: https://www.lgresearch.ai/blog/view?seq=543
🟡Статья: https://arxiv.org/abs/2503.12524
🟡HF: https://huggingface.co/LGAI-EXAONE/EXAONE-Deep-32B
🟡Github: https://github.com/LG-AI-EXAONE/EXAONE-Deep
@ai_machinelearning_big_data
#AI #ML #LLM #EXAONE #LG #reasoning
Приглашаем аналитиков на дружескую встречу в Яндексе!
22 марта в штаб-квартире Яндекса «Красная Роза» команда Рекламных технологий поделятся своим опытом и расскажут:
— Как работает аналитика в Коммерческом департаменте и Рекламных технологиях
— Как устроена аналитика антифрода рекламных систем
После основной части можно будет пройти диагностику навыков, поучаствовать в нетворкинге и задать все интересующие вопросы.
Ждут аналитиков с опытом на Python от 3 лет. Успейте зарегистрироваться — сбор заявок завершается 20 марта!
До встречи!
⚡️ Remade Effects — это интерактивный проект Spaces от Remade-AI, который демонстрирует возможности генеративного ИИ для создания креативных эффектов на изображениях.
▪ Инновационный подход: Проект позволяет применять различные художественные и стилистические эффекты к изображениям, используя современные генеративные модели.
▪ Простота использования: Удобный интерфейс дает возможность легко экспериментировать с эффектами без необходимости писать код, что делает его доступным как для разработчиков, так и для дизайнеров.
▪ Креативность и вдохновение: Инструмент может быть полезен художникам и креативщикам для создания уникальных визуальных работ, а также для исследований в области генеративного дизайна.
https://huggingface.co/spaces/Remade-AI/remade-effects
@data_analysis_ml
📹 ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
ReCamMaster: генеративный рендеринг с функциями управлением камерой 🔥
Еще один хит в области генерации видео из Китая
Позволяет создавать реалистичные новые сцены из одного видео, что позволяет «переснимать» видео с новыми движениями камеры.
Код обещают очень скоро,
🟡Github: https://github.com/KwaiVGI/ReCamMaster
🟡Paper: https://arxiv.org/abs/2503.11647
🟡Project: https://jianhongbai.github.io/ReCamMaster/
⚡️ Copy any UI
Клонирование любого сайта одним кликом стало возможным благодаря новому ИИ-агенту Same.dev! Этот инструмент способен создать практически точную копию веб-сайта всего лишь по ссылке.
Все, что вам нужно сделать, — это вставить URL интересующего ресурса и немного подождать. Same.dev автоматически проанализирует исходный код и предоставит готовую копию, которую сложно отличить от оригинала.
Причем это абсолютно бесплатно: https://same.dev/
⚡️ Computer Using Agent Sample App – это демонстрационное приложение для создания системы «Computer Using Agent» (CUA) с использованием OpenAI API.
Основные особенности и интересные моменты проекта:
- Прототип CUA: Приложение показывает, как можно интегрировать ИИ-модель для управления интерфейсом компьютера. Модель анализирует скриншоты и предлагает действия (например, клики, ввод текста), которые необходимо выполнить в среде пользователя.
- Модульная архитектура: Проект разделён на две ключевые абстракции – «Computer» для выполнения действий (например, локальный браузер через Playwright, Docker-окружение, удалённые браузерные среды) и «Agent» для взаимодействия с моделью.
Многообразие сред: В репозитории реализованы различные среды (LocalPlaywright, Docker, Browserbase, Scrapybara), что позволяет протестировать приложение в разных условиях.
- Примеры использования: В проекте есть CLI для удобного старта, а также примеры (например, файл simple_cua_loop.py) для демонстрации базового цикла работы CUA.
Безопасность: Присутствуют базовые меры безопасности, в том числе проверки URL и запрос подтверждения действий, что важно при управлении реальными интерфейсами.
📌 Github
@data_analysis_ml
⚡️ GPUStack — это менеджер кластеров GPU с открытым исходным кодом для запуска и масштабирования AI моделей.
⚫ Универсальность: Поддерживает работу на разных платформах, включая macOS, Windows и Linux.
⚫ Масштабируемость: Позволяет легко добавлять дополнительные GPU или узлы для увеличения вычислительных мощностей.
⚫ Широкий спектр моделей: Поддерживает запуск больших языковых моделей (LLM), диффузионных моделей, аудио-, embedding и reranker моделей.
⚫ Несколько бекендов: Использует такие решения, как llama-box, vLLM и vox-box для инференса.
⚫ OpenAI-совместимые API: Предоставляет API, совместимые с OpenAI, что облегчает интеграцию с различными приложениями и сервисами.
⚫ Мониторинг и управление: Включает инструменты для отслеживания производительности GPU, использования токенов и управления пользователями и API-ключами.
https://github.com/gpustack/gpustack
@data_analysis_ml
🔥 llm-scraper — библиотека на языке TypeScript, предназначенная для извлечения структурированных данных с веб-страниц с использованием LLM!
🌟 Библиотека поддерживает различные провайдеры LLM, включая локальные модели (Ollama, GGUF), OpenAI и Vercel AI SDK. Для определения схем данных используется библиотека Zod, обеспечивая полную типизацию в TypeScript. В основе работы llm-scraper лежит фреймворк Playwright, который управляет взаимодействием с веб-страницами.
🔐 Лицензия: MIT
🖥 Github
@data_analysis_ml
🔥 Transformers Laid Out
Лучший способ изучить PyTorch — создать что-нибудь с его помощью на практике.
В этом блоге представлен пошаговый гайд по написанию трансформерам с помощью PyTorch с нуля.🖥
📌 Гайд
📌 Что под капотом у PyTorch
📌Видео объяснения базы по тензорам
⚡️ JARVIS-VLA – модель обучения масштабных моделей «визуально-языкового взаимодействия» (Vision Language Models) для игры с использованием клавиатуры и мыши.
Проект заточен под игру в Minecraft, где модель способна выполнять более 1 000 различных атомарных задач таких как крафтинг, плавка, готовка, добыча ресурсов и даже сражения.
▪ Инновационный подход к обучению
Модель превозносит на 40% по сравнению с лучшими агентами-базами на разнообразном наборе атомарных задач.
▪ Достижение новых стандартов в Minecraft
Подход JARVIS-VLA превосходит традиционные методы имитационного обучения, демонстрируя передовые результаты и устанавливая новые стандарты производительности в управлении агентами в игровом мире Minecraft.
▪ Применение в реальных случаях
Использование данной модели в Minecraft открывает широкие возможности для автоматизации и оптимизации игровых процессов, что может быть интересно не только геймерам, но и исследователям в области ИИ, стремящимся расширить границы взаимодействия человека с компьютерными агентами.
▪ HF
▪Статья
@data_analysis_ml
Вы тоже игнорируете полезные советы и прокачиваетесь по-своему? 😁
Спойлер: ваш способ намного эффективнее, если в нем есть Data Fusion! 🚀
Это ежегодное онлайн-соревнование по анализу данных и машинному обучению для специалистов Data Science от Т1 и ВТБ. Общий призовой фонд — 3 000 000 рублей 🔥
В этом году участников ждут 2 основные задачи:
«Label Craft» — про предсказание категории товаров.
«4 Cast» — про предсказание динамики платежей на последующие 12 недель.
И одна образовательная задача — «Distribution».
А ещё будет специальная номинация Companion за лучшие публичные решения, в которой победителей определит жюри, учитывая поддержку со стороны других конкурсантов в чате соревнования.
📆 Даты проведения соревнования: с 13 февраля по 7 апреля 2025 года.
❗️Формат — онлайн: участвовать можно из любой точки мира.
Регистрируйся на соревнование прямо сейчас!
Информация о рекламодателе
💪 Качаем скиллы PostgreSQL!
10 апреля 2025 года пройдет бесплатное комьюнити-мероприятие из серии PG BootCamp Russia — конференция, направленная на приобретение практических навыков при работе с СУБД PostgreSQL.
🔵Программа рассчитана как на начинающих специалистов, так и на более опытных разработчиков, желающих углубить знания в части ядра и экосистемы продукта
🔵 Ведущие эксперты в области СУБД проведут мастер-классы и лекции по наиболее востребованным и интересным темам
🔵Для тех, кто не сможет присутствовать очно, предусмотрена онлайн-трансляция
🧑🎓 Все участники получат электронные сертификаты, подтверждающие приобретение новых знаний и навыков.
📌 Дата и время: 10 апреля, в 10:00 (по ЕКБ)
Формат: офлайн/онлайн
Место проведения: конгресс-отель «Екатеринбург»
✅ Зарегистрируйтесь сейчас и приготовьтесь к захватывающему путешествию в мир СУБД!
Реклама. ООО "ТАНТОР ЛАБС" ИНН 9701183207 Erid: 2W5zFJHvTwv
Хотите получить много практики на реальных задачах, собрать портфолио и узнать как выглядит рабочий день аналитика?
CEO Simulative и эксперт с большим опытом в аналитике, Андрон Алексанян организовал бесплатный интенсив, где вы будете решать реальные задачи, с которыми аналитики сталкиваются на работе
На прямых эфирах вы сделаете:
🟠Анализ активности пользователей с помощью SQL
🟠Анализ маркетинговых активностей с помощью Python
🟠ABC анализ ассортиментной матрицы в Excel (уже прошел, но вам будет доступна запись)
Во время эфиров вы узнаете много лайфхаков, а также будете получать полезные материалы для развития в аналитике на протяжении всего интенсива
❗️Знать Python и SQL не обязательно — все будем разбирать с нуля
🕗 Встречаемся на новом эфире уже сегодня, 20 марта в 19:00 по мск
😶Участвовать в бесплатном интенсиве
⭐️ Reasoning-v1-20m
Синтетический набор данных, содержащий более 22 млн цепочек рассуждений для прометав общего назначения в различных областях.
Большой датасет, содержащих следы рассуждений для различных тем: связанных с кодом/математикой, социальных сферах и естественных наук и тд.
https://huggingface.co/datasets/glaiveai/reasoning-v1-20m
#dataset #Reasoning
🚀 SmolDocling-256M-preview: Компактная NLP-модель от IBM для работы с документами
SmolDocling-256M-preview — это ""предобученная языковая модель"" с 256 миллионами параметров, оптимизированная для задач обработки структурированных и неструктурированных документов.
Она разработана для работы с текстами, включая технические документы, юридические соглашения и научные статьи.
▪Cохраняет контекст даже в документах на 10k+ токенов.
▪Специализация — обучена на корпусах документов (юридических, технических, медицинских).
▪ Легкость развертывания — компактный размер (256M параметров) против гигантов вроде GPT-3.
Работает на CPU и малом GPU (например, T4),
🔗 Модель: huggingface.co/ds4sd/SmolDocling-256M-preview
Multimodal-SAE 🚀
Multimodal-SAE — это фреймворк для работы с мультимодальными языковыми моделями (LMMs), который фокусируется на интерпретируемости и анализе их внутренних механизмов. Он использует разреженные автокодировщики (Sparse Autoencoders), чтобы «расшифровать», как модели обрабатывают текст, изображения и другие данные.
▪️ Для кого?
▪ Разработчики AI/ML, работающие с LMMs (например, GPT-4, LLaVA).
▪ Исследователи, изучающие интерпретируемость нейросетей.
▪ Инженеры, которым нужно оптимизировать мультимодальные модели.
▪️ Чем полезен?
▪ Диагностика моделей — выявляет, какие нейроны отвечают за обработку изображений, текста или их комбинаций.
▪ Уменьшение «галлюцинаций» — помогает находить и исправлять ошибки в логике модели.
▪ Сжатие моделей — идентифицирует избыточные компоненты для ускорения работы LMMs.
▪ Гибкость — работает с любыми предобученными моделями (Vision-Language, Audio-Text и др.).
▪️ Преимущества перед аналогами
▪Глубокая интерпретируемость — не просто визуализирует внимание, а декомпозирует механизмы принятия решений.
▪Эффективность — алгоритмы оптимизированы для работы с большими мультимодальными данными.
▪Универсальность — поддерживает CV, NLP, Speech в одном фреймворке.
▪Визуализация — встроенные инструменты для анализа активаций нейронов (графики, heatmaps).
P.S. Для старта изучите их документацию — там есть примеры для GPT-4, LLaMA и других популярных моделей!
📌 Github
📌 Paper
@data_analysis_ml
Mistral только что выпустили многоязычный, мультимодальный 24B LLM с производительностью SOTA с контекстом 128K и лицензией Apache 2.0 🔥
🟡HF: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503
🟡Post: https://mistral.ai/news/mistral-small-3-1/
@ai_machinelearning_big_data
#mistral #llm #mistralsmall
👁Настройка dev-окружения для команды компьютерного зрения.
Что будет на вебинаре?
- Аренда и базовая настройка сервера для работы команды.
- Установка и настройка инструментов для ML-экспериментов
- Развертывание сервиса для разметки изображений CVAT.
Узнаете, как арендовать и настроить сервер для командной работы, что позволит им быстро развертывать инфраструктуру для новых проектов.
Научитесь настраивать MLFlow для отслеживания экспериментов, JupiterLab для удобной разработки и MinIO для создания общего файлового хранилища, что упростит совместную работу с датасетами и другими файлами.
Сможете развернуть CVAT для разметки изображений, что пригодится в проектах, связанных с обработкой и анализом изображений, таких как распознавание объектов, сегментация и т.д.
👉 Регистрация и подробности вебинара
https://otus.pw/1tsR/
Вебинар проходит в рамках подписки OTUS, благодаря которой можно приобрести 3 курса по цене одного!
#реклама
О рекламодателе
erid: 2W5zFJPYH52
⚡️All-atom Diffusion Transformer (ADiT) — это новая разработка в области генеративного моделирования химических систем
. ADiT представляет собой унифицированную латентную диффузионную модель, способную генерировать как периодические материалы, так и непериодические молекулярные структуры
ARXIV.ORG
Ключевые особенности проекта:
Унифицированный подход: ADiT использует единое представление для молекул и материалов, что позволяет эффективно работать с различными химическими системами
ARXIV.ORG
Диффузионная модель: В основе генерации новых структур лежит диффузионная модель, обученная создавать новые латентные представления, которые затем декодируются в валидные молекулы или материалы
ARXIV.ORG
Автоэнкодер: Система включает автоэнкодер, который отображает атомарные представления молекул и материалов в общее латентное пространство, обеспечивая эффективное кодирование и декодирование
ARXIV.ORG
📌 Github
@data_analysis_ml
⚡️ Vondy: огромная базу ИИ-агентов для различных задач!
В Vondy можно подобрать нейроассистентов, которые возьмут на себя рутинную работу и сэкономят часы, чтобы вы могли уделить время отдыху, хобби или развлечениям.
▪ Агенты для любых задач: от кодинга, написания текста, дизайна и бизнеса до повышения продуктивности и генерации изображений, звуков и видео.
▪ Создайте своего агента: сервис предоставляет все необходимые инструменты, чтобы настроить помощника именно под ваши нужды.
▪ Бесплатно.
https://www.vondy.com/
@data_analysis_ml
Агентство NEWHR опубликовало результаты исследования рынка аналитиков. 1293 респондента разных уровней рассказали, где работают, к чему стремятся и сколько получают. Коротко о главном:
⚫️ Лучшей компанией для работы является Авито (37,2%). Она же стала абсолютным лидером из наиболее известных российских компаний (42,1%).
⚫️ Большинство русскоязычных аналитиков работают в российских компаниях — 75,9%.
⚫️ За 2024 год у 44,9% опрошенных зарплаты выросли на 10-30%.
⚫️ 46% стали более лояльны к своему работодателю.
@data_analysis_ml
✔️ OpenAI презентовала новые инструменты для разработчиков.
OpenAI анонсировала 3 новых инструмента для разработчиков, поддерживаемых в API и доступных через новый SDK. Среди новинок – WebSearch Tool, основанный на дообученной модели GPT-4o/GPT-4o-mini, для поиска информации в интернете. FileSearch Tool - инструмент поиска по документам с возможностью фильтрации по тегам, аналогично функциональности в Ассистентах. Третий - Computer Use (Operator), использующий ту же GPT-4o, предоставляющий доступ к локальному компьютеру пользователя.
Опубликованы и тарифы:
⚫ Computer Use немного дороже обычной GPT-4o — 3 доллара за вход и 12 долларов за выход на миллион токенов; как формировать контекст, какие скриншоты и текст закидывать — остается на ваше усмотрение.
⚫ Поиск по файлам оценивается в $2.5 за 1000 запросов и $0.1 за каждый гигабайт загруженных файлов.
⚫ Стоимость поиска зависит от настройки «длина контекста» (вероятно, от того, сколько ссылок из поисковой выдачи попадут в контекст); для старшей модели цена составляет $30–$50 за тысячу вызовов.
📌 Github
📌 OpenAI на Youtube
@data_analysis_ml
Открытый вебинар «RL - учимся обыгрывать человека»
📚На вебинаре вы узнаете:
1. Основные концепции стохастических игр, включая многопользовательские стратегии и равновесие.
2. Популярные RL-алгоритмы, адаптированные для работы в стохастических средах (Q-learning, Policy Gradient, MARL).
3. Рассмотрим применение стохастических игр в реальных кейсах: финансы, кибербезопасность, автономные системы.
4. Как обучать агентов, учитывая случайность и стратегии других участников.
👨💻Кому будет полезно?
+ Data Scientists, которые хотят освоить продвинутые методы обучения с подкреплением для сложных сред.
+ AI-разработчикам, работающим над автономными агентами и многоагентными системами.
⏰ 18 марта в 20:00 (мск).
🆓Бесплатно. Вебинар в рамках курса «Reinforcement Learning»
👉Записывайтесь: https://otus.pw/ioYS/?erid=2W5zFGri584
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
#реклама
О рекламодателе