data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🌟 SDV — библиотека Python для генерации синтетических данных на основе предоставленного набора данных

pip install sdv

При этом сгенерированные данные будут иметь те же статистические параметры, что и предоставленный набор данных. SDV генерирует данные, применяя математические методы и разные ML-модели.

С помощью SVD можно генерировать данные, даже если исходный набор содержат несколько типов значений и отсутствующие значения.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ BitNet — масштабирование 1-битных трансформеров для LLM

pip install bitnet

Команда под руководством Furu Wei и Shuming Ma из исследовательского отдела Microsoft в Пекине, создала BitNet, первый 1-битный метод QAT для LLM.
И в этом репозитории представлена реализация BitNet на PyTorch.

Из интересного, модель BitNet 3B отвечает на разные текстовые запросы так же точно, как и LLaMA с тем же количеством параметров и временем обучения, но при этом BitNet в 2.71 раза быстрее, использует на 72% меньше GPU.

🖥 GitHub
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 NumPyro — библиотека Python для вероятностного программирования

pip install numpyro

NumPyro — это легкая библиотека для вероятностного программирования, которая добавляет возможности NumPy к библиотеке Pyro.
В процессе вероятностного программирования с NumPyro также используется JAX для автоматического дифференцирования и JIT-компиляции на GPU/CPU.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 SkyPilot — фреймворк для запуска LLM и AI-приложений в любом облаке

pip install "skypilot-nightly[aws,gcp,azure,oci,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,kubernetes]"


SkyPilot позволяет:

— управлять масштабированием: автоматическая постановка в очередь и запуск большого количества задач

— получать легкий доступ к хранилищам S3, GCS, R2

— сократить расходы на облако: 3-6-кратное уменьшение расходов при использовании отдельных ВМ с автоматическим восстановлением после падений

SkyPilot позволяет работать с GPU, TPU и CPU.

Поддерживаемые облака — AWS, GCP, Azure, OCI, Lambda Cloud, RunPod, Fluidstack, Cudo, IBM, Samsung, Cloudflare, VMware vSphere, любой кластер Kubernetes

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 Наконец-то кто-то создал leetcode для машинного обучения.


Этот сайт предлагает задачки разной сложности в категориях линейной алгебры, машинного и глубокого обучения, анализа данных.

Он полезен для всех, кто хочет углубить свои знания, улучшить навыки и попрактиковаться в машинном обучении. На сайте указаны уровни сложности, есть интерфейс для ввода своего решения и правильные ответы.

Только что выполнил первое упражнение: вычисление матрично-векторного произведения без каких-либо тензорных операций (разрешены только списки на python).

http://deep-ml.com

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Flair — мощная библиотека для NLP

pip install flair

Библиотека Flair была разработана Берлинским университетом как библиотека NLP с большими возможностями.
Flair позволяет проводить распознавание именованных сущностей (NER), анализ эмоциональной составляющей, тегирование части речи (PoS).
Помимо этого Flair может работать с биомедицинскими текстами.

Также Flair интегрируется с большим количеством других библиотек.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Marvin — open-source набор инструментов для ML-приложений

pip install marvin -U

Marvin — это легковесный набор инструментов на Python для создания ML-приложений;
позволяет решать задачи классификации текста, извлечения информации из неструктурированных данных, генерирования синтетических данных, преобразования текста в речь и наоборот.
Marvin даже может генерировать изображения

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 StreamingDataset — библиотека потоковой передачи данных для эффективного обучения нейронных сетей

pip install mosaicml-streaming

StreamingDataset — это библиотека Python, созданная, чтобы сделать обучение на больших наборах данных максимально быстрым, дешевым и масштабируемым.
StreamingDataset спроектирована для распределенного обучения больших ML-моделей — с максимальными гарантиями корректности, производительностью и простотой использования.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Лучший способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

C++ t.me/cpluspluc
Devops: t.me/devOPSitsec
Машинное обучение: t.me/ai_machinelearning_big_data
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C#: t.me/csharp_ci
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
C++ папка: /channel/addlist/CdBs5DLepLJmZjY6
C# папка: /channel/addlist/u15AMycxRMowZmRi
Java папка: /channel/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: /channel/addlist/mzMMG3RPZhY2M2Iy
Linux папка: /channel/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

🌟 «Баннерная крутилка» — сервис, позволяющий выбрать несколько релевантных документов из базы в миллиард объявлений за 200 миллисекунд

Сервис выдерживает 700 тысяч RPS и более.
Решения для построения систем ранжирования подробно описаны в статье «Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду».

🟡Habr

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Устали от скучных и статичных дашбордов?

👉🏻Хотите создавать интерактивные и визуально привлекательные дашборды, которые оживят ваши данные?

Тогда вам сюда!

На открытом уроке «Создание кастомных дэшбордов с помощью Plotly Dash» вы:
- познакомитесь с Plotly Dash — мощной библиотекой для создания интерактивных веб-приложений и дэшбордов;
- научитесь превращать сырые данные в понятные и красивые визуальные единицы;
- сможете создавать удобные и функциональные интерфейсы для взаимодействия с данными.

Присоединяйтесь 9 июля в 20:00 мск и станьте мастером визуализации в аналитике данных!

⚡️Регистрируйстесь сейчас по ссылке: https://otus.pw/3OSi/

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8K4Qbi

Читать полностью…

Анализ данных (Data analysis)

Станьте профессионалом в области Data Science и машинного обучения в магистратуре от Центрального университета!
Центральный университет — современный вуз, созданный при поддержке ведущих компаний России: Т-Банка, Авито и других.


Получите диплом магистра в области математики и компьютерных наук и обучайтесь на основе реальных кейсов ведущих ИТ-компаний у профессоров из МГУ, МФТИ, РЭШ и практиков из индустрии. Хорошая новость для тех, кто уже имеет опыт в Data Science и машинном обучении — вы можете пропустить базовое обучение и закончить магистратуру за 3 семестра.

У каждого студента будет:
- личный ментор по траектории обучения;
- доступ к карьерному центру с коучами и консультантами;
- опыт работы в проектах партнеров уже во время обучения.

Участвуйте в онлайн-отборе, чтобы выиграть грант на обучение до 1,2 млн рублей. Больше подробностей про университет и конкурс грантов по ссылке!
erid:2VtzqwTkpP2
Реклама, АНО ВО «Центральный университет», ИНН 7743418023

Читать полностью…

Анализ данных (Data analysis)

👨‍🎓Курс МФК МГУ "Нейронные сети и их применение в научных исследованиях"

Лекции:
- Новая суперспособность науки
- Как учить машины
- Линейные модели
- Сверточные сети
- Рекуррентные сети
- Трансформеры (часть 1)
- Трансформеры (часть 2). GPT
- Генеративные модели
- Обучение с подкреплением
- Нейрорендеринг
- Графовые сети
- Заключительная лекция

👉 Плейлист на Youtube

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Unstructured — библиотека Python для предобработки сырых данных

pip install "unstructured[all-docs]"

Unstructured предоставляет компоненты для предобработки изображений, текстовых документов; поддерживает многие форматы: PDF, HTML, Word docs и др.

Запустить библиотеку в контейнере:

docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest
docker exec -it unstructured bash


🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Ivy — open-source ML-фреймворк для использования модели, созданной при помощи одного фреймворка, в коде, написанном на другом фреймворке

pip install ivy

Ivy — ML-фреймворк, который позволяет:

— использовать ML-модели и/или функции в любом фреймворке, конвертируя любой код из одного фреймворка в другой с помощью ivy.transpile()

— преобразовывать модели и библиотеки ML для их использования в другом фреймворке с помощью ivy.source_to_source() (эта функция пока в закрытой бета-версии)

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Центральный университет приглашает на день открытых дверей всех интересующихся ИТ-программой в магистратуре!
На мероприятии расскажут больше про университет, в котором можно учиться одновременно с бакалавриатом и помогают попасть на работу в биг-тех, а преподаватели — топовые специалисты ИТ-компаний и профессора ведущих вузов. На мероприятии также будет:
— информация про направления обучения в университете;
— лекции от ведущих экспертов ИТ-индустрии;
— Q&A-сессии с магистрантами ЦУ и разбор задач отбора;
— прогулка по офису Т-Банка;
— знакомство со множеством классных людей и пицца.
А еще среди всех, кто зарегистрируется на ДОД и пройдет отбор в магистратуру до 16 июля, ЦУ разыграет новенький MacBook.
Начало 17 июля в 17:30. Вход свободный, но количество мест ограничено. Регистрация здесь.

erid:2VtzqwyThk5
Реклама, АНО ВО «Центральный университет», ИНН 7743418023

Читать полностью…

Анализ данных (Data analysis)

🖥 tslearn — библиотека Python для анализа временных рядов и решения подобных ML-задач

pip install tslearn

tslearn — это библиотека Python, которая предоставляет ML-инструменты для анализа временных рядов.
tslearn основана на библиотеках scikit-learn, numpy и scipy.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Систематизируете и углубите знания бэкенд-разработки на Python на курсе Яндекс Практикума за 6 месяцев.

Преимущества курса:

— актуальная программа, которая постоянно обновляется;
— много практики, лайвкодинг и хакатон;
— возможность совмещать с другой учёбой или работой;
— наставники из Яндекса и не только;
— помощь с трудоустройством.

◾️Погружайтесь в Python, нарабатывайте нужные навыки и осваивайте инструменты для работы. Начните курс бесплатно, а если понравится, платите как удобно: в рассрочку или целиком.

Начать бесплатно

Читать полностью…

Анализ данных (Data analysis)

Зачем искать удобный планировщик задач, когда его можно создать самостоятельно? А заодно — узнать, насколько вам интересно программирование.

Бесплатный курс «Основы Python: создаём телеграм-бота» — полезный и надёжный вариант для самоопределения. Там на примере Python вы узнаете, как устроены процессы разработки, самостоятельно создадите планировщик задач и бота-помощника и поймёте, подходит ли вам этот язык.

Доступ в чат с экспертами и однокурсниками для получения ответов на вопросы и помощи в практике, а также сертификат Нетологии после прохождения курса прилагаются → https://netolo.gy/dg7u
Реклама ООО “Нетология” 2VSb5yoBgEc

Читать полностью…

Анализ данных (Data analysis)

⚡️ Adversarial Robustness Toolbox — библиотека Python для обеспечения безопасности ML-приложений

pip install adversarial-robustness-toolbox

ART — это библиотека Python, которая предоставляет инструменты для оценивания, защиты и проверки моделей и ML-приложений на предмет разных угроз и уязвимостей.
ART поддерживает все популярные фреймворки машинного обучения (в т.ч. TensorFlow, Keras, PyTorch, MXNet, scikit-learn, XGBoost, LightGBM, CatBoost, GPy), все типы данных (изображения, таблицы, аудио, видео) и может использоваться для любых задачи ML (классификация, обнаружение объектов, генерация музыки, изображений и т. д.).

🖥 GitHub
🟡 Доки
🟡 Примеры атак и использования ART

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 ControlNet++ — улучшенная версия вспомогательной технологии для генерации изображений

ControlNet++ использует дискриминационные модели вознаграждения для оптимизации согласованности между входными условиями (изрбражение-референс) и результатами генерации за счет оптимизации последовательности циклов.

Согласно опубликованным бенчмаркам, ControlNet++ значительно улучшает управляемость процессом генерации.
Новый метод метод превосходит классический ControlNet:
- на 7.9% по mIoU;
- на 13.4% по SSIM;
- на 7.6% по RMSE.

Адаптации под UI для Stable Diffusion пока нет.
Еще круче то, что контролнеты++ успели упаковать в Controlnet Union и собрали в 1 модель.

Теперь можно разом делать 12 препроцессов с одной модели CN.

👉 Репозиторий https://huggingface.co/xinsir/controlnet-union-sdxl-1.0

Модель safetensors без конфига в папку с Контролнетом Автоматика1111 или ComfyUI.

Это все действия которые необходимо сделать)

А самое главное - больше не нужно качать тонну моделей и следить в UI что нужный препроцессор выбран.

Работает controlnet union на SDXL-моделях. Для SD3 свой контролнет, для SD1.5 -свой, этот работать не будет.

👉 Видео: https://www.youtube.com/watch?v=UBFEw1IUX_I

🖥 GitHub [ Stars: 274 | Issues: 2 | Forks: 11 ]
🟡 Страничка проекта ControlNet++
🟡 Arxiv
🟡 Демо на HF
🟡 Модели на HF

#ControlNet #Diffusers #Image2Image

@ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

One Day Offer для Центра робототехники 🤖

13 июля вы сможете пройти все этапы отбора, познакомиться с инновационной командой Сбера и получить оффер Middle/Senior Robotics или Backend Developer.

Наш Центр проводит исследования, создаёт роботов, применяя искусственный интеллект, и работает по направлениям: манипуляция, роботизация логистики и мобильные роботы.

Сейчас перед нами стоит по-настоящему амбициозная задача – разработать антропоморфного робота общего назначения.

В работе мы используем: ROS/ROS2, DDS, Python, PyTorch, JAX, Model-transformers, SOTA, C++, Isaac Sim / MuJoCo / PyBullet.

Какие задачи будут в вашем планере 👇

▪️ разработка алгоритмов и систем управления роботами (core, body, brain) и драйверов для различных устройств в виде ROS2 узлов
▪️ создание алгоритмов внутренней и внешней калибровки сенсоров (лидары, камеры, IMU), робототехнических сервисов на Behavior Trees / State Machines
▪️ работа с симуляторами на базе Isaac Sim / MuJoCo / PyBullet
▪️ проектирование архитектуры системы

Масштабные проекты и работа мечты ждут вас. Регистрируйтесь на One Day Offer 13 июля 😉

Читать полностью…

Анализ данных (Data analysis)

🌟 create-llama — самый простой способ создать приложение с помощью LlamaIndex

npx create-llama@latest
npm run dev


Create-llama позволяет создать мультиагентное full-stack приложение букально в 1 строчку кода.
Достаточно просто ввести npx create-llama, выбрать шаблон мультиагента и следовать инструкциям в файле README.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Lance — современный колоночный формат данных для ML-приложений, реализованный на Rust

pip install pylance

Lance идеально подходит для создания поисковых систем и хранилищ данных, для масштабного обучения ML-моделей, для хранения таких данных как облака точек.
Поддерживает конвертацию из Parquet в 2 строки кода, при этом он быстрее Parquet в 100 раз.
Lance можно без проблем использовать с pandas, DuckDB, Polars, pyarrow и не только.

🖥 GitHub
🟡 Примеры использования

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 RAGapp — простой способ использовать Agentic RAG

docker run -p 8000:8000 ragapp/ragapp

RAGapp позволяет легко использовать Agentic RAG в любом продакшене.
Так же прост в настройке, как и пользовательские GPT OpenAI, но в отличии от них RAGapp может быть развернут в вашей собственной облачной инфраструктуре с помощью Docker.
RAGapp создан с использованием LlamaIndex.

После запуска контейнера, нужно перейти на localhost:8000 и настроить RAGapp.
Можно подключить любые модели, в том числе и локальные (с помощью Ollama)

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Kubeflow — экосистема open-source проектов для решения задач на каждом этапе развития ML-системы

Kubeflow делает ML на Kubernetes простым, переносимым и масштабируемым.
Цель Kubeflow — облегчить оркестрацию рабочих нагрузок ML в Kubernetes и предоставить возможность развертывать лучшие в своем классе инструменты в любой облачной инфраструктуре.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 AutoGluon — библиотека Python, которая позволяет писать лаконичный код для задач ML

pip install autogluon

AutoGluon помогает несколькими строками кода обучать и использовать ML-модели;
позволяет решать задачи, связанные с изображениями, текстом, временными рядами и табличными данными.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Scikit-LLM — библиотека Python, призванная упростить разработку сложных и готовых к продакшену конвейеров NLP

pip install scikit-llm

Scikit-LLM может взаимодействовать с различными провайдерами LLM, независимо от того, работают ли они локально (например, GPT4All) или в облаке (включая Azure, OpenAI и Vertex AI).

Scikit-LLM поддерживает широкий спектр задач анализа текста, включая классификацию, анализ эмоциональной составляющей и т.д. Для сложных сценариев можно объединить несколько задач в конвейер scikit-learn.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Microsoft только что был опубликовали Graph RAG!

Проект Graph RAG - это пакет для обработки и преобразования данных открытым исходным кодом, предназначенный для извлечения структурированных данных из неструктурированного текста с использованием возможностей LLMs.

Эо методология использования структур памяти knowledge graph для улучшения работы LLM.

Github
Docs
Blog

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Nous Hermes 2 - Mistral 7B - DPO - GGUF

Это квантизованная версия модели Nous Hermes 2 Mistral 7B DPO; работает очень быстро и неплохо умеет в код

Сама исходная модель Nous Hermes 2 показала отличные результаты во всех бенчмарках — AGIEval, BigBench Reasoning, GPT4All и TruthfulQA;
была обучена на 1000000 пар промпт-ответ качества GPT-4 или выше, а также на других высококачественных наборах данных, доступных в teknium/OpenHermes-2.5.

🤗 Hugging Face

@data_analysis_ml

Читать полностью…
Subscribe to a channel