data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🌟 Kedro — набор готовых к продакшену инструментов для Data Science и ML

pip install kedro

Kedro — фреймворк, который добавляет модульность, удобную для работы с данными. С помощью Kedro можно создавать проекты по шаблону, настраивать пайплайн в YAML, делить его на части, документировать проект — и это далеко не всё.

Kedro позволяет сохранять и загружать данные в различные хранилища, такие как S3, GCP, Azure, sFTP, DBFS и локальные файловые системы. Поддерживаются такие форматы файлов, как Pandas, Spark, Dask, NetworkX, Pickle, Plotly, Matplotlib и многие другие.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Polyaxon — open-source MLOps-платформа

установка CLI:

pip install -U polyaxon


Polyaxon — это платформа для создания, обучения и мониторинга крупномасштабных ML-приложений, призванная решить проблемы воспроизводимости, автоматизации и масштабируемости.

Polyaxon можно развернуть в любом ЦОДе или облачном провайдере;
платформа поддерживает все необходимые фреймворки, такие как Tensorflow, MXNet, Caffe, Torch и т. д.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Llama Recipes — набор готовых метод для файнтюнинга Llama3

pip install llama-recipes

Llama Recipes предоставляет набор методов для файнтюнинга Llama3 с использованием FSDP и PEFT для работы на одном/нескольких GPU.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 LongVA: VLM для больших видео на основе Qwen-2-7B

LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.

В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.

Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.

👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G


⚖️ Лицензирование кода: Apache-2.0 license

⚖️ Лицензирование моделей: Qwen2 license


🟡Страница проекта
🟡Demo
🟡Модели на HF
🟡Arxiv
🖥Github [Stars: 221 | Issues: 9 | Forks: 11]


@ai_machinelearning_big_data

#ML #VLM #VQA

Читать полностью…

Анализ данных (Data analysis)

CV-шница пройдет уже в этот четверг! 🍳

Делимся подробным расписанием онлайн-митапа:

▪️15:30
Вступление — Артур Кадурин, руководитель группы «Глубокое обучение в науках о жизни», AIRI

▪️15:35
3D генерация по тексту/изображению — Антон Конушин, кандидат физико-математических наук, руководитель группы «Пространственный интеллект», AIRI

▪️ 15:55
Kandinsky Flash: генеративно-состязательный подход к дистилляции диффузионных моделей — Владимир Архипкин, руководитель направления по исследованию данных, Sber AI

▪️ 16:15
Мультимодальные модели и способы эффективного представления визуального контекста — Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain, AIRI

▪️16:35
Генерация изображений по активности мозга — Абдуллин Ильгиз, AI Talent Hub, и Щетинников Константин, Quality Analyst Intern, Wildberries

▪️16:55
Ensemble-Based Image Annotation for Real-Time Human Detection
— Игорь Попов, Computer Vision Engineer, AI Talent Hub

Сохраняйте ссылку на трансляцию, чтобы не пропустить доклады 👾

Читать полностью…

Анализ данных (Data analysis)

❓Как понять, что последний эксперимент дает лучшие результаты? 

Часто при решении ML задачи нам приходится тестировать десятки моделей в десятках конфигурация гиперпараметров.
Как не запутаться в этой куче параметров и выбрать лучшую модель?  -  нам поможет замечательный инструмент мониторинга экспериментов MLFlow.

MLFlow один из самых популярных инструментов который позволит зафиксировать все параметры, запишет кривые обучения и запомнит все метрики для каждого эксперимента. 

Регистрируйтесь на открытый урок от Otus и изучите на практике ключевой инструмент ML инженера

Вы узнаете, как реализовать развернуть и настроить MLFlow локально и в облачной среде, как добавить в свой код логирование параметров экспериментов и как сохранить ваши обученные модели в реестр моделей для их дальнейшего переиспользования на основе полученных метрик.

👉 Регистрация и подробности:
https://otus.pw/6O9B/?erid=LjN8KB29H

Читать полностью…

Анализ данных (Data analysis)

В мире, где No-Code ML и TinyML становятся ключевыми трендами, НИЯУ МИФИ совместно со Skillfactory запускает онлайн-магистратуру "Прикладной анализ данных и машинное обучение". Программа учитывает последние тенденции отрасли, включая развитие глубокого обучения и растущую важность ML в IoT устройствах.

По данным экспертов, навыки в области искусственного интеллекта становятся необходимостью для конкурентоспособности на рынке труда. Средняя зарплата мидл ML-инженера в России достигает 190 000 рублей в месяц, а спрос на специалистов продолжает расти.

Магистратура МИФИ предлагает:
- Обучение с нуля до продвинутого уровня
- Два карьерных трека: классический ML и MLOps
- Онлайн-формат с сохранением студенческих льгот
- Диплом государственного образца МИФИ

Стоимость первого года обучения - от 270 рублей в месяц благодаря господдержке. Не упустите шанс стать частью AI-революции с одним из ведущих технических вузов России.

Записаться тут: https://go.skillfactory.ru/na4y_w

Реклама. ООО «Скилфэктори»
erid: LjN8KAMQf

Читать полностью…

Анализ данных (Data analysis)

🤗 Все что нужно знать о работе с Hugging Face за 10 минут!

В этом ролике мы разыгрываем 3 крутые книги по МАШИННОМУ ОБУЧЕНИЮ, нужно всего лишь оставить любой осмысленный коммент и лайк и быть подписанным на наш канал!

https://www.youtube.com/watch?v=4B_foZbWh2c

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Центральный университет приглашает на день открытых дверей всех интересующихся ИТ-программой в магистратуре!
На мероприятии расскажут больше про университет, в котором можно учиться одновременно с бакалавриатом и помогают попасть на работу в биг-тех, а преподаватели — топовые специалисты ИТ-компаний и профессора ведущих вузов. На мероприятии также будет:
— информация про направления обучения в университете;
— лекции от ведущих экспертов ИТ-индустрии;
— Q&A-сессии с магистрантами ЦУ и разбор задач отбора;
— прогулка по офису Т-Банка;
— знакомство со множеством классных людей и пицца.
А еще среди всех, кто зарегистрируется на ДОД и пройдет отбор в магистратуру до 16 июля, ЦУ разыграет новенький MacBook.
Начало 17 июля в 17:30. Вход свободный, но количество мест ограничено. Регистрация здесь.

erid:2VtzqwyThk5
Реклама, АНО ВО «Центральный университет», ИНН 7743418023

Читать полностью…

Анализ данных (Data analysis)

🖥 tslearn — библиотека Python для анализа временных рядов и решения подобных ML-задач

pip install tslearn

tslearn — это библиотека Python, которая предоставляет ML-инструменты для анализа временных рядов.
tslearn основана на библиотеках scikit-learn, numpy и scipy.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Систематизируете и углубите знания бэкенд-разработки на Python на курсе Яндекс Практикума за 6 месяцев.

Преимущества курса:

— актуальная программа, которая постоянно обновляется;
— много практики, лайвкодинг и хакатон;
— возможность совмещать с другой учёбой или работой;
— наставники из Яндекса и не только;
— помощь с трудоустройством.

◾️Погружайтесь в Python, нарабатывайте нужные навыки и осваивайте инструменты для работы. Начните курс бесплатно, а если понравится, платите как удобно: в рассрочку или целиком.

Начать бесплатно

Читать полностью…

Анализ данных (Data analysis)

Зачем искать удобный планировщик задач, когда его можно создать самостоятельно? А заодно — узнать, насколько вам интересно программирование.

Бесплатный курс «Основы Python: создаём телеграм-бота» — полезный и надёжный вариант для самоопределения. Там на примере Python вы узнаете, как устроены процессы разработки, самостоятельно создадите планировщик задач и бота-помощника и поймёте, подходит ли вам этот язык.

Доступ в чат с экспертами и однокурсниками для получения ответов на вопросы и помощи в практике, а также сертификат Нетологии после прохождения курса прилагаются → https://netolo.gy/dg7u
Реклама ООО “Нетология” 2VSb5yoBgEc

Читать полностью…

Анализ данных (Data analysis)

⚡️ Adversarial Robustness Toolbox — библиотека Python для обеспечения безопасности ML-приложений

pip install adversarial-robustness-toolbox

ART — это библиотека Python, которая предоставляет инструменты для оценивания, защиты и проверки моделей и ML-приложений на предмет разных угроз и уязвимостей.
ART поддерживает все популярные фреймворки машинного обучения (в т.ч. TensorFlow, Keras, PyTorch, MXNet, scikit-learn, XGBoost, LightGBM, CatBoost, GPy), все типы данных (изображения, таблицы, аудио, видео) и может использоваться для любых задачи ML (классификация, обнаружение объектов, генерация музыки, изображений и т. д.).

🖥 GitHub
🟡 Доки
🟡 Примеры атак и использования ART

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 ControlNet++ — улучшенная версия вспомогательной технологии для генерации изображений

ControlNet++ использует дискриминационные модели вознаграждения для оптимизации согласованности между входными условиями (изрбражение-референс) и результатами генерации за счет оптимизации последовательности циклов.

Согласно опубликованным бенчмаркам, ControlNet++ значительно улучшает управляемость процессом генерации.
Новый метод метод превосходит классический ControlNet:
- на 7.9% по mIoU;
- на 13.4% по SSIM;
- на 7.6% по RMSE.

Адаптации под UI для Stable Diffusion пока нет.
Еще круче то, что контролнеты++ успели упаковать в Controlnet Union и собрали в 1 модель.

Теперь можно разом делать 12 препроцессов с одной модели CN.

👉 Репозиторий https://huggingface.co/xinsir/controlnet-union-sdxl-1.0

Модель safetensors без конфига в папку с Контролнетом Автоматика1111 или ComfyUI.

Это все действия которые необходимо сделать)

А самое главное - больше не нужно качать тонну моделей и следить в UI что нужный препроцессор выбран.

Работает controlnet union на SDXL-моделях. Для SD3 свой контролнет, для SD1.5 -свой, этот работать не будет.

👉 Видео: https://www.youtube.com/watch?v=UBFEw1IUX_I

🖥 GitHub [ Stars: 274 | Issues: 2 | Forks: 11 ]
🟡 Страничка проекта ControlNet++
🟡 Arxiv
🟡 Демо на HF
🟡 Модели на HF

#ControlNet #Diffusers #Image2Image

@ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

One Day Offer для Центра робототехники 🤖

13 июля вы сможете пройти все этапы отбора, познакомиться с инновационной командой Сбера и получить оффер Middle/Senior Robotics или Backend Developer.

Наш Центр проводит исследования, создаёт роботов, применяя искусственный интеллект, и работает по направлениям: манипуляция, роботизация логистики и мобильные роботы.

Сейчас перед нами стоит по-настоящему амбициозная задача – разработать антропоморфного робота общего назначения.

В работе мы используем: ROS/ROS2, DDS, Python, PyTorch, JAX, Model-transformers, SOTA, C++, Isaac Sim / MuJoCo / PyBullet.

Какие задачи будут в вашем планере 👇

▪️ разработка алгоритмов и систем управления роботами (core, body, brain) и драйверов для различных устройств в виде ROS2 узлов
▪️ создание алгоритмов внутренней и внешней калибровки сенсоров (лидары, камеры, IMU), робототехнических сервисов на Behavior Trees / State Machines
▪️ работа с симуляторами на базе Isaac Sim / MuJoCo / PyBullet
▪️ проектирование архитектуры системы

Масштабные проекты и работа мечты ждут вас. Регистрируйтесь на One Day Offer 13 июля 😉

Читать полностью…

Анализ данных (Data analysis)

Привет!
Это команда Концепт-Разработка. Мы занимаемся развитием и внедрением продуктов в сфере больших данных, корпоративных хранилищ данных, BI и систем управления данными. У себя в канале развиваем сообщество бизнес и системных аналитиков, разработчиков и data-инженеров.
+ Актуальные вакансии;
+ Интересные разработки;
+ Проекты федеральных заказчиков;
+ Новости индустрии и многое другое.

Подписывайся на канал, мы будем рады и экспертам, и начинающим специалистам.

Реклама. ООО "КОНЦЕПТ РАЗРАБОТКА". ИНН 7703471165. erid: LjN8KWK3G

Читать полностью…

Анализ данных (Data analysis)

Какой путь к работе мечты самый короткий? Конечно, One Day Offer от Сбера! 😉

Если ты Data Analyst или Data Engineer, мы ждём тебя 27 июля. Получи возможность пройти fast-интервью, познакомиться с командой и забрать долгожданный оффер всего за один день.

Наша команда разрабатывает и внедряет DS-решения в точки касания клиента со Сбером: отделения, мобильное приложение, банкоматную сеть и т.д. Мы работаем с технологиями Python, Spark, SQL, Hadoop, GreenPlum и за год внедряем более 200 моделей.

Тебя ждут интересные и разноплановые задачи 👇

▪️ Обучение всех типов моделей искусственного интеллекта: от классического ML до глубоких нейронных сетей.

▪️ Создание высокотехнологичных сервисов: от систем принятия решений до компьютерного зрения и обработки естественного языка.

▪️ Развитие хранилища на Teradata и DataLake на Hadoop.
Отправляй заявку уже сейчас и присоединяйся к команде!💚

Читать полностью…

Анализ данных (Data analysis)

🌍 Новая реальность: посетить концерт, не выходя из дома, увидеть друзей, находясь за тысячи километров, получить высшее образование по Data Science удалённо.

Когда виртуальные границы стираются, самое время применить технологии с пользой. Онлайн-бакалавриат Нетологии и ТюмГУ «Аналитика и Data Science» — способ получить диплом о высшем образовании из любой точки мира.

За 4 года вы освоите навыки работы с данными и станете бакалавром в области математики, который умеет работать с Big Data, компьютерным зрением и искусственным интеллектом. Будете закреплять знания на практике, создадите портфолио и сможете строить карьеру аналитика данных или Data Scientist.

Во время учёбы у вас будут все студенческие льготы и скидки, а в конце вы получите диплом очного бакалавриата ― такой же, как у студентов офлайн-обучения.

Узнать подробности о программе 👉https://netolo.gy/dgU1
Реклама ООО “Нетология” 2VSb5yj8Z4U

Читать полностью…

Анализ данных (Data analysis)

🌟 whylogs — библиотека Python для конвейеров обработки данных и для ML-приложений

pip install whylogs

whylogs позволяет эффективно собирать данные для:
— отслеживания любых изменений в наборе данных
— быстрой визуализации основных статистических параметров данных
— обнаружения дрейфа данных
— выявления проблем в процессе обучения, причин снижения производительности ML-модели

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Dolphin-2.9.3-Yi-1.5: квантизированные GGUF версии с 34B параметрами и контекстным окном 32k.

На Huffingface пользователь bartowski опубликовал несколько квантизированных версий с разной степенью сжатия,
Размерность моделей: от IQ2_XS (10.3 Gb) до Q8_0_L (37.4GB), рекомендуемая — Q6_K.

Семейство Dolfin основано на моделях Yi и распространяется по лицензии Аpache 2.0
Dolphin-2.9.3 обладает разнообразными навыками следования инструкциям, общения и программирования. Она также имеет начальные агентные способности и поддерживает вызов функций.
Модель не имеет цензуры. Создатели отфильтровали набор данных, чтобы удалить выравнивание и предвзятость. Dolphin обучался на данных, полученных из GPT4, среди других моделей.

🤗 Hugging Face

@data_analysis_ml

#LLM #ML #Huggingface

Читать полностью…

Анализ данных (Data analysis)

🌟 Lepton — библиотека Python для удобного создания AI-приложений

pip install -U leptonai

Особенности Lepton:
— Простые абстракции для запуска моделей, наподобие тех, что представлены на HuggingFace

— Готовые шаблоны для распространенных моделей, таких как Llama, SDXL, Whisper и других.

— Возможность для лёгкого разворачивания в облачной среде.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Dive into Deep Learning — свободная книга от исследователей Amazon: Zhang, Li и других

Мощная книга, которая на 1108 страницах подробно описывает реализацию алгоритмов ML и Deep Learning с помощью PyTorch, NumPy/MXNet, JAX и TensorFlow.

По этой книге читаются лекции в 500 университетах 70 стран.

🟡 Dive into Deep Learning
🟡 PDF
🖥 GitHub с кодом к книге

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 SDV — библиотека Python для генерации синтетических данных на основе предоставленного набора данных

pip install sdv

При этом сгенерированные данные будут иметь те же статистические параметры, что и предоставленный набор данных. SDV генерирует данные, применяя математические методы и разные ML-модели.

С помощью SVD можно генерировать данные, даже если исходный набор содержат несколько типов значений и отсутствующие значения.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ BitNet — масштабирование 1-битных трансформеров для LLM

pip install bitnet

Команда под руководством Furu Wei и Shuming Ma из исследовательского отдела Microsoft в Пекине, создала BitNet, первый 1-битный метод QAT для LLM.
И в этом репозитории представлена реализация BitNet на PyTorch.

Из интересного, модель BitNet 3B отвечает на разные текстовые запросы так же точно, как и LLaMA с тем же количеством параметров и временем обучения, но при этом BitNet в 2.71 раза быстрее, использует на 72% меньше GPU.

🖥 GitHub
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 NumPyro — библиотека Python для вероятностного программирования

pip install numpyro

NumPyro — это легкая библиотека для вероятностного программирования, которая добавляет возможности NumPy к библиотеке Pyro.
В процессе вероятностного программирования с NumPyro также используется JAX для автоматического дифференцирования и JIT-компиляции на GPU/CPU.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 SkyPilot — фреймворк для запуска LLM и AI-приложений в любом облаке

pip install "skypilot-nightly[aws,gcp,azure,oci,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,kubernetes]"


SkyPilot позволяет:

— управлять масштабированием: автоматическая постановка в очередь и запуск большого количества задач

— получать легкий доступ к хранилищам S3, GCS, R2

— сократить расходы на облако: 3-6-кратное уменьшение расходов при использовании отдельных ВМ с автоматическим восстановлением после падений

SkyPilot позволяет работать с GPU, TPU и CPU.

Поддерживаемые облака — AWS, GCP, Azure, OCI, Lambda Cloud, RunPod, Fluidstack, Cudo, IBM, Samsung, Cloudflare, VMware vSphere, любой кластер Kubernetes

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 Наконец-то кто-то создал leetcode для машинного обучения.


Этот сайт предлагает задачки разной сложности в категориях линейной алгебры, машинного и глубокого обучения, анализа данных.

Он полезен для всех, кто хочет углубить свои знания, улучшить навыки и попрактиковаться в машинном обучении. На сайте указаны уровни сложности, есть интерфейс для ввода своего решения и правильные ответы.

Только что выполнил первое упражнение: вычисление матрично-векторного произведения без каких-либо тензорных операций (разрешены только списки на python).

http://deep-ml.com

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Flair — мощная библиотека для NLP

pip install flair

Библиотека Flair была разработана Берлинским университетом как библиотека NLP с большими возможностями.
Flair позволяет проводить распознавание именованных сущностей (NER), анализ эмоциональной составляющей, тегирование части речи (PoS).
Помимо этого Flair может работать с биомедицинскими текстами.

Также Flair интегрируется с большим количеством других библиотек.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Marvin — open-source набор инструментов для ML-приложений

pip install marvin -U

Marvin — это легковесный набор инструментов на Python для создания ML-приложений;
позволяет решать задачи классификации текста, извлечения информации из неструктурированных данных, генерирования синтетических данных, преобразования текста в речь и наоборот.
Marvin даже может генерировать изображения

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 StreamingDataset — библиотека потоковой передачи данных для эффективного обучения нейронных сетей

pip install mosaicml-streaming

StreamingDataset — это библиотека Python, созданная, чтобы сделать обучение на больших наборах данных максимально быстрым, дешевым и масштабируемым.
StreamingDataset спроектирована для распределенного обучения больших ML-моделей — с максимальными гарантиями корректности, производительностью и простотой использования.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…
Subscribe to a channel