Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚
Авито представил новую стратегию внедрения генеративного искусственного интеллекта (GenAI)
К 2028 году компания планирует инвестировать в это направление 12 млрд рублей и заработать более 21 млрд рублей.
🤖 Что это значит?
Авито презентовал свои собственные генеративные модели — A-Vibe и A-Vision, которые работают с текстом и изображениями соответственно. Модели обучены на базе нейросети Qwen2.5 с 7 млрд параметров и специализируются на задачах, связанных с покупкой и продажей. Например, A-Vibe помогает создавать качественные и лаконичные описания товаров, а A-Vision анализирует фотографии и повышает качество визуального контента.
Кроме того, в 2024 году Авито запустила магистратуру по Data Science в МФТИ. В сентябре 2025 года стартуют еще три новые программы: по разработке в ИТМО, Data Science и продуктовому менеджменту в НИУ ВШЭ.
🛠 Почему это важно?
Использование GenAI не только улучшает взаимодействие пользователей с платформой, но и приносит реальную экономическую выгоду. Уже в 2024 году первые запуски продуктов с использованием GenAI принесли компании 670 млн рублей. А в 2025-м запланировано внедрение 20 новых сценариев использования GenAI с потенциалом заработка более 1 млрд рублей.
@data_analysis_ml
Что такое torch.nn на самом деле?
Когда я начинал работать с PyTorch, мой самый большой вопрос был: "Что такое torch.nn?".
Эта статья довольно хорошо объясняет это.
📌 Читать
🔥 Hugging Face выпустила версию 0.30.0 библиотеки huggingface_hub - это самое крупное обновление за два года!
Представлены значительные улучшения, особенно в области хранения и обработки больших моделей и датасетов.
✔️ Основные нововведения:
Интеграция с Xet: Внедрена поддержка Xet — передового протокола для хранения крупных объектов в Git-репозиториях, призванного заменить Git LFS.
В отличие от LFS, который выполняет дедупликацию на уровне файлов, Xet работает на уровне фрагментов данных, что особенно полезно для специалистов, работающих с массивными моделями и датасетами.
Для интеграции с Python используется пакет xet-core,
написанный на Rust, который обрабатывает все низкоуровневые детали.
Чтобы начать использовать Xet, установите дополнительную зависимость:pip install -U huggingface_hub[hf_xet]
После установки вы сможете загружать файлы из репозиториев, поддерживающих Xet.
Доплнительно:
😶 Расширен InferenceClient:
😶 Добавлена поддержка новых провайдеров для инференса: Cerebras и Cohere.
😶 Внедрены асинхронные вызовы для задач инференса (например, text-to-video), что повышает стабильность и удобство работы.
😶 Улучшен CLI
😶 Команда huggingface-cli upload теперь поддерживает wildcards (шаблоны) прямо в пути к файлам (например, huggingface-cli upload my-model *.safetensors вместо опции --include).
😶 Команда huggingface-cli delete-cache
получила опцию --sort для сортировки кэшированных репозиториев (например, по размеру: --sort=size
).
✔️ Полный список обновлений
✔️Блог
✔️Документация по Xet
@ai_machinelearning_big_data
#huggingface #release #xet
📌Пройдите тест из 9 вопросов и проверьте, насколько вы готовы к обучению на курсе «BI-аналитика» от OTUS.
Вы научитесь на курсе:
+ Визуализировать данные с помощью Power BI, Tableau и Analytic Workspace.
+ Создавать интерактивные дашборды и аналитические панели на Python в Dash, Numpy, Pandas, Matplotlib, Seaborn и Plotly.
+ Работать с Big Data и использовать решения с открытым исходным кодом в BI-аналитике.
+ Работать с DAX-формулами.
+ Обрабатывать и трансформировать данные в Power Query, создавать модели данных в Power Pivot.
🦉В честь дня рождения Отус, скидка 10% до 01.04
🎁Так же промо-код на курс «BI-аналитика» со скидкой 5% (суммируется на сайте):
BI_04 до 18.05. Успейте купить выгодно!
👉ПРОЙТИ ТЕСТ: https://otus.pw/8QNY/?erid=2W5zFJGJRLU
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
#реклама
О рекламодателе
🖼Pyramid Flow — это метод авторегрессионной генерации видео на основе Flow Matching, оптимизированный для обучения и генерации видео с высоким разрешением и частотой кадров.
💡 Данный проект позволяет генерировать видеоролики длительностью до 10 секунд с разрешением 768p при 24 кадрах в секунду. Метод использует гибкость flow matching для интерполяции между латентными состояниями различных разрешений и уровней шума, что обеспечивает генерацию и декомпрессию визуального контента с меньшими вычислительными затратами.
🔍 Основные возможности Pyramid Flow включают:
🌟 Генерация текста-видео: можно создавать видео по текстовым описаниям, управляя визуальными параметрами
🌟 Преобразование изображений в видео: модель поддерживает генерацию видео на основе начального изображения, с возможностью добавления движения и динамики
🌟 Разрешение и производительность: поддерживается два варианта — 384p и 768p, для которых требуется примерно 26 и 40 ГБ видеопамяти соответственно
🌟 Модели и исходный код доступны на платформе Huggingface и могут быть использованы для дальнейших экспериментов и обучения
🔐 Лицензия: MIT
🔗 Huggingface: *клик*
📖 Arxiv: *клик*
▪️Github
@data_analysis_ml
🖥 Как установить Deep Seek локально с помощью Ollama LLM в Ubuntu 24.04
Подробное руководство от TecMint, демонстрирующее, как установить и запустить модель DeepSeek локально на Linux (Ubuntu 24.04) с использованием Ollama.
Гайд охватывает все этапы установки: обновление системы, инсталляцию Python и Git, настройку Ollama для управления DeepSeek, а также запуск модели через командную строку или с помощью удобного Web UI.
▪ Руководство также включает инструкции по автоматическому запуску Web UI при старте системы через systemd, что делает работу с моделью более комфортной и доступной.
Подойдет для тех, кто хочет исследовать возможности работы с крупными языковыми моделями без привязки к облачным сервисам, обеспечивая полный контроль над моделью и её настройками.
▪ Читать
AI-агенты для девелоперской компании
ГК ФСК, крупный российский девелопер, столкнулся с проблемой обработки массивов данных. Техническая документация часто обновляется, из-за чего сотрудникам и клиентам сложно получить доступ к актуальной информации. Чтобы решить проблему, red_mad_robot внедрили смарт-платформу с двумя AI-агентами на базе RAG:
Для клиентов: AI-ассистент в чат-боте сайта обрабатывает запросы и выдаёт актуальные ответы на вопросы о квартирах (включая детали вроде панорамных окон), ипотеке и акциях.
Для сотрудников: Внутренний AI-агент, интегрированный с корпоративными системами, позволяет команде поддержки и продаж находить нужные данные (регламенты, детали ЖК).
Подробнее о технических деталях кейса можно почитать в статье на Хабр.
🎉 Выпущен Техрепорт Wan! 🚀
📖 https://arxiv.org/abs/2503.20314
Wan 2.1 — это открытый инструмент для генерации видео от Alibaba.
В отчете описана архитектура модели, конвейер обработки данных, обучение модели, повышение ее эффективности, алгоритм редактирования видео и т. д.
🟢Официальный сайт: https://wan.video
🟢Github: https://github.com/Wan-Video/Wan2.1
🟢HF: https://huggingface.co/Wan-AI
🟢Modelscope: https://modelscope.cn/organization/Wan-AI
#WAN #OpenSource #VideoGeneration
Всем привет! Мы собираем команду для запуска AI-экспериментов в Екоме и Райдтехе Яндекса.
Наша цель — создать пространство для инженеров и продактов, которые хотят запускать эксперименты и видеть быстрые бизнес-результаты. Откликайтесь, если вы хотите реализовать свои идеи в крупном бизнесе, и у вас есть успешный опыт в запуске проектов с искусственным интеллектом!
Рассмотрим ваши идеи и найдем им лучшее применение в проектах. Присоединяйтесь к нам, чтобы вместе создавать будущее! 💡✨
Для отклика пишите Эльмире: @mirafedya
🤖 Awesome Weekly Robotics
Репозиторий Awesome Weekly Robotics на GitHub, представляет собой большую коллекцию проектов, инструментов и ресурсов по робототехнике с открытым исходным кодом.
🔗 Github
⚡️ Проект 3DGRUT представляет собой набор официальных реализаций методов 3D Gaussian Ray Tracing (3DGRT) и 3D Gaussian Unscented Transform (3DGUT).
💡 Основная идея:
Проект предлагает альтернативный подход к традиционному рендерингу, основанный на трассировке лучей, где вместо точечных лучей используются объёмные гауссовы частицы. Это позволяет моделировать сложные эффекты, например, камеры с искажениями (роллинг-шаттер) и временные эффекты.
⚙️ Гибридный подход:
3DGRUT объединяет преимущества растеризации и трассировки лучей – первичные лучи можно рендерить быстро через растеризацию, а вторичные лучи обрабатываются с помощью трассировки, что повышает гибкость и производительность.
🚀 Текущая стадия:
Проект находится на стадии альфа-версии. Он включает демонстрационную среду (Playground) для тестирования и экспериментов, а также предоставляет подробные инструкции по установке, настройке и запуску.
🔧 Требования и установка:
Для работы проекта требуется Python (3.10+), соответствующие зависимости, а также поддержка OpenGL и других библиотек. В репозитории описаны команды для установки необходимых пакетов и запуска тренировочного процесса.
Проект предназначен для исследователей и разработчиков, желающих экспериментировать с новыми методами рендеринга, а также для тех, кто интересуется интеграцией современных подходов в компьютерную графику.
📌 Github
@data_analysis_ml
А вот и Gemini 2.5 Pro Experimental — самая интеллектуальная модель Google
Теперь это лучшая не ризонинг модель, которая опередила на бенчмарках Sonnet 3.5.
Без оптимизаций Gemini 2.5 Pro Experimental лидирует в таких математических и научных бнчмарках GPQA и AIME 2025.
Кроме того, модель набрала 18,8 % баллов на последнем экзамене человечества.
💡Это экспериментальный релиз демонстрирует передовые результаты во многих бенчмарках и прекрасно справляется со сложными задачами и предоставлять более точные ответы.
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
#google #Gemini
🔥 Helix — это платформа для создания и развертывания AI-приложений с использованием декларативных конвейеров, интеграции знаний и API!
🌟 Она позволяет описывать AI-решения в YAML-файле (helix.yaml), что упрощает их настройку, тестирование и развертывание. Helix ориентирован на разработчиков, которые хотят строить генеративные AI-приложения с гибкостью и полной приватностью.
🖥 Github
@data_analysis_ml
🧠 Neuralink с открытым исходным кодом с использованием активности мозга обезьяны для управления роботизированными руками 🙉
Проект Jenkins исследует интерфейсы мозг-компьютер путем декодирования нейронной активности в движения роботов и генерации синтетических мозговых данных.
Используя нейронные записи мозговой активности обезьяны по имени Дженкинс, исследователи разработали модели для преобразования мозговых сигналов в движения роботизированной руки.
Лидер (рука1) двигается человеком, а Фоловер (рука 2) имитирует эти движения на основе симулированной нейронной активности обезьяны Дженкинса. Машины обучения (ML) используются для создания замкнутого цикла:
Кодирование: Transformer модель генерирует синтетические нейронные спайки из данных движения Лидера, симулируя, как бы выглядела активность мозга Дженкинса для этого движения.
Декодирование: Многослойный перцептрон (MLP) декодирует эти синтетические спайки обратно в скорости рук, которые используются для управления Фоловером.
Этот процесс создает двусторонний цикл: движение человека → симулированная нейронная активность → декодированные движения → действие робота.
В проекте используются роботизированные руки и интерактивная веб-консоль для генерации данных о работе мозга в режиме реального времени с помощью джойстика.
Проект имеет потенциальные применения в моторных протезах (например, для помощи парализованным людям управлять роботизированными конечностями) и нейронаучных исследованиях (понимание, как мозг кодирует движение). Это также имеет образовательное значение, демонстрируя применение ML в сложных нейронаучных задачах.
▪ Github
@data_analysis_ml
⚡️ Alibaba только что выпустила TaoAvatar на Hugging Face
Реалистичные говорящие аватары в полный рост для дополненной реальности с помощью 3D-гауссовых сплатов.
Он обеспечивает точное управление мимикой и движениями, работая в реальном времени даже на мобильных устройствах.
Метод использует нейросетевую дистилляцию, достигая 90 FPS на Apple Vision Pro.
🟡Проект
🟡Статья
🟡Видео
🟡Демка
@data_analysis_ml
Данные и облака — наше все 🧠
На конференции GoCloud ты найдешь новые знания об инструментах обработки данных.
Обсудим интеграцию AI в аналитические процессы и тренды облачных технологий. А еще:
😶🌫️покажем инструменты для упрощения процесса обработки данных
😶🌫️поговорим с компаниями, которые уже работают с данными в облаке
😶🌫️возможные риски потери данных и способы их предотвращения
😶🌫️покажем архитектуру DBaaS поверх K8s
30+ докладов, нетворкинг, live-демо сервисов и afterparty ждут тебя 10 апреля.
Регистрация по ссылке 👈
Хакатон от МТС: 5 треков и 1 500 000 рублей. Для тех, кто готов воплотить идею в прототип
Приглашаем на хакатон МТС True Tech Hack 2025. Протестируй свои идеи и разработай решение на базе одной из пяти ИТ-платформ МТС.
Призовой фонд соревнования — 1 500 000 рублей.
Участие могут принять системные аналитики, Data Scientists, Data Engineers, frontend и backend-разработчики, Android-разработчики, бизнес-аналитики, аналитики данных, MLOps-инженеры, DevOps-инженеры, Product-менеджеры, ИТ-архитекторы, UI/UX-дизайнеры.
На хакатоне ты сможешь:
— Выбрать свой трек и создать решение на базе ИТ-платформ МТС.
— Побороться за призовой фонд — 1 500 000 рублей.
— Расширить свои профессиональные связи через нетворкинг с участниками хакатона и экспертами МТС.
— Повысить шансы на прохождение стажировки в МТС.
— Узнать больше о продуктах и технологиях МТС от экспертов компании
Регистрация до 16 апреля.
Регистрируйся прямо сейчас: https://truetechhack.ru/
❓ LLaMA 4 уже на подходе?
На LMSYS Arena появились новые модели под названием “Spider” и “Cybele"
Также появилась модель, которая, судя по всему, принадлежит Google и называется Moonhowler.
@data_analysis_ml
🔥 No Ghibli Chrome Extension
Весь X/twitter завален конентом с генерациями в стиле Ghibli,
если вам надоел такой контент, умельцы создали Chrome расширение с открытым исходным кодом для удаления таких твитов.
📌 Github
@data_analysis_ml
🤖 Awesome-robot-descriptions - тщательно подобранный список описаний роботов в форматах URDF, Xacro и MJCF.
Эти описания охватывают широкий спектр роботов: от манипуляторов и гуманоидов до дронов и мобильных манипуляторов. Каждое описание включает информацию о производителе, формате файла, лицензии и наличии визуализаций, инерций и коллизий.
Форматы URDF (Unified Robot Description Format), Xacro и MJCF (MuJoCo XML) используются для описания кинематических и динамических характеристик роботов.
Эти описания необходимы для симуляции, планирования движений и управления роботами в различных программных средах.
▪ GitHub
OpenAI’s New Image Generator: An AI Revolution!
⚡️ Видео
⚡️ Этот гайд демонстрирует, как использовать Florence 2 с Ultralytics YOLO для обнаружения объектов, сегментации изображений и создания визуализаций на основе текстовых промпов, например, для создания подписей к изображениям.
Microsoft выпустила модель Florence-2 в прошлом году. Это мощная CV модель зрения, которая использует подход, на подсказках, для решения широкого спектра задач, связанных со зрением и языком зрения. Она может интерпретировать простые текстовые подсказки для выполнения таких задач, как создание надписей, обнаружение объектов и сегментация.
Для обучения в гайде используется набор данных FLD-5B, содержащий 5,4 миллиарда аннотаций к 126 миллионам изображений.
📌 Гайд
📌 Colab
@data_analysis_ml
🌟 ChatTTS — генеративная text2speech модель с упором реалистичность
import ChatTTS
from IPython.display import Audio
chat = ChatTTS.Chat()
chat.load_models()
texts = ["<PUT YOUR TEXT HERE>",]
wavs = chat.infer(texts, use_decoder=True)
Audio(wavs[0], rate=24_000, autoplay=True)
🔥 В chat.qwenlm.ai chat теперь доступны голосовой режим + режим видеочата
Более того китайцы выложили код своей Qwen2.5-Omni-7B - единой omni-модели, которая может понимать текст, аудио, изображение и видео.
Они разработали архитектуру "thinker-talker", которая обеспечивает одновременное размышление модели и ее разговор .
Вскоре обещают выпустить в опенсорс модели на еще большее количество параметров.
Просто топ, бегом тестить.
🟢Попробовать: https://chat.qwenlm.ai
🟢Paper: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
🟢Blog: https://qwenlm.github.io/blog/qwen2.5-omni
🟢GitHub: https://github.com/QwenLM/Qwen2.5-Omni
🟢Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-7B
🟢ModelScope: https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
@ai_machinelearning_big_data
#qwen #release #Omni
Капибарам нужна ваша помощь на T-CTF
У них лапки, и они не могут защитить код от уязвимостей. Выручите их на ИТ-соревновании от Т-Банка с шансом выиграть приз до 420 000 ₽.
Без навыков в ИТ тут не обойтись — задания рассчитаны на разработчиков, QA- и SRE-инженеров, аналитиков и других ИТ-специалистов уровня middle и senior.
Вот что вас ждет:
— Выберите Лигу Разработки или Лигу Безопасности по своим скиллам. Если участвуете впервые, можно потренироваться на демозаданиях.
— Соревнуйтесь один или в команде до 3 человек. Организаторы помогут найти команду, если нет своей.
— Подключайтесь онлайн или приходите офлайн — в ИТ-хаб Т-Банка в одном из 6 городов России.
— Решайте задания по спортивному хакингу — для этого у вас будет 36 часов.
Соревнование пройдет 19 и 20 апреля.
Попробуйте свои силы — успейте зарегистрироваться до 18 апреля.
Реклама. АО «ТБанк», лицензия ЦБ РФ № 2673, erid:2RanymxoPwF
🖥 Aiopandas - легковесный патч для Pandas, который добавляет нативную async поддержку для самых популярных методов обработки данных: map, apply, applymap, aggregate и transform.
Позволяет без проблем передавать async функции в эти методы. Библиотека автоматически запустит их асинхронно, управляя количеством одновременно выполняемых задач с помощью параметра max_parallel
.
✨ Ключевые возможности:
▪ Простая интеграция: Используйте как замену стандартным функциям Pandas, но теперь с полноценной поддержкой async функций.
▪ Контролируемый параллелизм: Автоматическое асинхронное выполнение ваших корутин с возможностью ограничить максимальное число параллельных задач (max_parallel). Идеально для управления нагрузкой на внешние сервисы!
▪ Гибкая обработка ошибок: Встроенные опции для управления ошибками во время выполнения: выбросить исключение (raise), проигнорировать (ignore) или записать в лог (log).
▪ Индикация прогресса: Встроенная поддержка tqdm для наглядного отслеживания процесса выполнения долгих операций в реальном времени.
🖥 Github: https://github.com/telekinesis-inc/aiopandas
#python #pandas #asyncio #async #datascience #программирование #обработкаданных #асинхронность
🔥Вышел новый ИИ-тренер для геймеров от Nvidia: G-Assist
Это ваш бесплатный оффлайн-компаньон, который поможет:
🎮 Оптимизирует настройки игры под ваш ПК
⚔️ Подбирает билды для боссов, данжей и Dota
🎧 Управляет музыкой в Spotify
🤖 Работает локально, но можно подключить API Gemini
💬 Общение через текст или голос
G-Assist бесплатнен для всех пользователей.
https://www.nvidia.com/en-us/geforce/news/g-assist-ai-companion-for-rtx-ai-pcs/
📌 72B слишком много для VLM? А 7B параметров недостаточно!
QWEN только что выпустили новую модель на 32B параметров, Qwen2.5-VL-32B-Instruct.
Эта модель представляет собой значительный прогресс для своего размера. И что самое лучшее, она лицензирована Apache 2.
Модель выдает более подробные и структурированный ответы.
💡 Детальное понимание: превосходные возможности анализа изображений и визуальной логической дедукции.
📊 Превосходит сопоставимые модели, такие как Mistral-Small-3.1-24B и Gemma-3-27B-IT.
🚀 В нескольких тестах даже превосходит более крупный Qwen2-VL-72B-Instruct.
Еще один крутой релиз понедельника!
🟢Блог: https://qwenlm.github.io/blog/qwen2.5-vl-32b/
🟢Попробовать: https://chat.qwen.ai
ВЧ: https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct
🟢Модель: https://modelscope.cn/models/Qwen/Qwen2.5-VL-32B-Instruct
@ai_machinelearning_big_data
#AI #ML #LLM #Dataset #HuggingFace
📊 Бесплатный вебинар по BI-аналитике: «Tableau: работа с визуализациями и построение дашборда»
⏰ 1 апреля (вторник) в 20:00 мск
💡 На вебинаре вы узнаете:
+ Основные типы визуализаций в Tableau и их применение
+ Как строить удобные и понятные дашборды для анализа данных
+ Создадим на практике дашборд с интерактивными элементами шаг за шагом
+ Как применить полученные знания в бизнес-аналитике, маркетинге и отчетности
+ Лучшие актуальные кейсы визуализации данных для аналитики в 2025 году
📝 Кому будет полезен вебинар:
- Аналитикам данных
- Маркетологам
- Продуктовым менеджерам
- Всем, кто хочет визуализировать данные для принятия решений
Вебинар в рамках курса «BI-аналитика»
🎁 Участники получат скидку на курс!
👉 Регистрация: https://otus.pw/PIXn/?erid=2W5zFG1xZVr
#реклама
О рекламодателе
👩💻 Neural Structured Learning (NSL) — это фреймворк для обучения нейронных сетей с использованием структурированных сигналов, таких как графы и данные с враждебными искажениями!
🌟 NSL позволяет улучшать точность моделей, особенно при ограниченном объёме размеченных данных, за счёт объединения как размеченных, так и неразмеченных данных.
🔍 Основные возможности:
🌟 API для работы с графами и враждебными искажениями на базе TensorFlow и Keras.
🌟 Поддержка создания графов и входных данных для обучения.
🌟 Универсальность для различных архитектур (CNN, RNN и др.) и методов обучения (контролируемого, частично контролируемого и др.).
🔐 Лицензия: Apache-2.0
🖥 Github
@data_analysis_ml