data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🐍 Если вы хотите быть в курсе того, что нового в PyTorch, у вас есть хорошие новости!

Видео с конференции PyTorch 2023 теперь доступны на YouTube.

Переговоры охватывают широкий спектр тем:
- Новые функции в PyTorch 2.1.
- TorchFix, инструмент, помогающий очистить ваш код PyTorch.
- Как ускорить вывод модели
- Советы по масштабному распределенному обучению
И многое другое.

📌 Смотреть

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Ловите крутейший data-форум сезона — Loginom Day 2023!

Уже 5 лет мы собираем руководителей, специалистов по данным и IT-шников на наш форум экспертов по low-code аналитике

Реальные кейсы, экспертиза и прямой диалог со спикерами, которые успешно используют платформу Loginom для задач бизнеса. Это событие для людей, которые хотят обогатить свой опыт в анализе данных и получить множество классных идей и новых знакомств

Когда? 2 ноября 2023 года в 13:00 гибрид (Москва, ВДНХ + онлайн-трансляция). Участие бесплатное

И если вы хотите узнать, почему мигрировать с SAS Marketing Automation нужно именно на Loginom, за счет чего retail-компании удалось повысить лояльность клиентов, а также как силами нескольких аналитиков построить систему поддержки принятия решений крупного банка, ждем по ссылке.

Реклама. ООО «Аналитические технологии», ИНН 6234023928
erid:
LjN8KWbgz

Читать полностью…

Анализ данных (Data analysis)

🖥 Обучаем нейросеть угадывать, что изображено на картинке при помощи TensorFlow

📌 Видео
📌 Код
📌 Урок

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как использовать машинное обучение для оптимизации производства?

Узнайте на примере реальных кейсов на бесплатном онлайн-митапе «Лучше практики MLOps в бизнесе. Опыт FinTech и Security индустрий» от OTUS.

После эфира вы сможете:
🔹 Найти и выстроить процессы, связанные с машинным обучением
🔹 Понять, как работать с эффективностью данных проектов
🔹 Избежать основных ошибок руководителя
🔹 Получить ответы на свои вопросы от опытного эксперта

Встречаемся в следующий вторник, 31 октября в 19:00 мск.

💻Эфир будет в формате конференции и после каждого блока вы сможете задать любые вопросы спикеру Павлу Филонову – ex-Kaspersky, ex-Positive technologies Data Science Manager с опытом в IT 15 лет.

👉Регистрируйтесь бесплатно прямо сейчас и забирайте чек-лист «Список технологий, нужный для MLOps» в подарок: https://otus.pw/mb2n/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8K3MdQ

Читать полностью…

Анализ данных (Data analysis)

Хочешь поступить в ШАД? Или, может быть, в магистратуру по Data Science?
Ищешь материалы и советы по подготовке?

Тогда подпишись на канал "Поступашки ШАД"!

Канал ведут преподаватели МГУ, ВШЭ и ШАД. Там тебя ждут:

🔺Подборки материалов по математике, алгоритмам, ML/DL;
🔺Советы, как поступить в ШАД, Ai masters или в магистратуры по Data Science;
🔺Инсайды и анонсы об актуальных стажировках, образовательных проектах и олимпиадах.

...и еще много полезного =)

Подписывайся и поступай вместе с нами ⬇️

@postypashki_old

Читать полностью…

Анализ данных (Data analysis)

🥇 The Most Comprehensive List of Kaggle Solutions and Ideas.

Этот репозиторий - настоящее золото для всех начинающих и практикующих специалистов в области Data Science, Machine Learning!

Просто зайдите и получите доступ практически ко всем лучшим решениям и идеям, которыми поделились топовые участники соревнований Kaggle.

Github
Сайт

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

☄️ Ray - это унифицированный фреймворк для масштабирования приложений ИИ и Python.

Ray состоит из ядра распределенной среды выполнения и набора библиотек ИИ.

На картинке пример кода, для динамического запуска очереди из 𝗡 заданий на 𝗞 GPU.

▪Github
▪Ray

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Skrub

Часто записи в одной таблице могут не соттветсвовать запясям в другой таблице. Например, в одной таблице может быть "Yemen", а в другой - "Yemen, Rep".

Функция 𝐟𝐮𝐳𝐳𝐲_𝐣𝐨𝐢𝐧() в skrub позволяет объединить эти таблицы с учетом различных вариаций полей.

pip install git+https://github.com/skrub-data/skrub.git

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Хотите выйти на новый уровень в анализе данных?
Уже используете А/В-тесты, но боитесь, что делаете это неправильно?

karpovꓸcourses сделали Симулятор A/B-тестов, где вы сможете освоить весь пайплайн проведения экспериментов, научитесь не допускать типичных ошибок и сможете избежать потери денег из-за неправильных выводов. Вы также узнаете, как определять, нужно ли вам вообще проводить A/B-тесты в вашем конкретном случае.

Если вы только знакомитесь с тестами, вы сможете работать с Google Sheets на уже готовой инфраструктуре, а если хотите узнать все технические детали А/В-тестирования и готовы писать код на питоне — у karpovꓸcourses есть продвинутая версия.

Привнесите культуру правильных А/B-тестов в ваши проекты

[Начать учиться]
P.S. По промокоду DAMLOCTOBER на курс действует скидка 5% до 31 октября

Реклама. ООО "Карпов Курсы". Erid: LjN8KaL7o

Читать полностью…

Анализ данных (Data analysis)

💥Прокачайтесь в машинном обучении на бесплатных Тренировках по ML от Яндекса

ML — новое направление Тренировок от Яндекса, которое посвящено классическому машинному обучению. Курс разработан совместно со Школой анализа данных и подойдёт для выпускников технических вузов и начинающих ML-специалистов.
Тренировки пройдут с 30 октября по 29 ноября.

Тренировки по ML — это отличная возможность прокачаться в теме, закрепить знания и подготовиться к отбору в IT-компанию. Здесь вас ждут лекции от экспертов Яндекса, домашние задания и еженедельные онлайн-разборы.

🏆 Участники, которые проявят себя лучше других, получат фаст-трек в Яндекс, а те, кто пройдёт больше половины курса — сертификат о прохождении, который украсит портфолио.

Как проходят Тренировки по ML

1️⃣ Регистрируетесь: участвовать могут все желающие бесплатно и без конкурсного отбора. Старт Тренировок 30 октября.
2️⃣ Смотрите лекции и самостоятельно решаете задачи, которые определяют ваше место в рейтинге участников
3️⃣ Проверяете себя на еженедельных онлайн-разборах
4️⃣ Получаете награды от Яндекса

Я в деле!

Если вы уже чувствуете себя уверенно в направлении ML, то скорее подавайте заявку на оплачиваемую стажировку.

Читать полностью…

Анализ данных (Data analysis)

🔥 Бесплатный вебинар: “Решаем тестовое задание на junior-аналитика в Банк Открытие”

Интересуетесь аналитикой данных? Хотите больше практиковаться на реальных задачах и кейсах?

Приходите на наш бесплатный вебинар, где мы в прямом эфире будем вместе решать настоящее тестовое задание на junior-аналитика в Банк Открытие.

📅 Дата: 25 октября
Время: 19:00 по Мск

Что предстоит сделать на вебинаре:

* Решить 4 задания по SQL: посчитаем метрику MoM
* Проанализировать ОТП-коды в разрезе категорий и времени
* Проанализировать активность клиентов с помощью Pandas
* Предложить 3 метрики первого уровня для интернет-банка

Мы подробно будем разбирать каждый шаг и будем много говорить о SQL, Python, продуктовых метриках 😉

А также каждого участника вебинара будут ждать несколько подарков, подборка лайфхаков и разбор самых частых ошибок 🤩

🔗 Регистрация на вебинар

Реклама. ООО "Айти Резюме". Erid: LjN8KSEf7

Читать полностью…

Анализ данных (Data analysis)

📑 𝐦𝐥𝐟𝐥𝐨𝐰.𝐚𝐮𝐭𝐨𝐥𝐨𝐠()

Сохранение параметров, метрик во время обучения позволяет воспроизводить эксперименты и выбирать наиболее эффективную модель. Однако написание множества записей в логах может быть обременительным.

Для автоматического логирования добавьте 𝐦𝐥𝐟𝐥𝐨𝐰.𝐚𝐮𝐭𝐨𝐥𝐨𝐠() перед вашим кодом обучения модели.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
Исследование рыночной корзины на основе данных розничной торговли в Стамбуле
Классификация текстов в spaCy: пошаговая инструкция
Как мы запустили автобиддер для управления рекламными кампаниями в Ozon?
Приглашаем на Ozon Tech Community ML&DS Meetup
Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?
Первое слово из нераспечатанного Геркуланумского папируса обнаружено 21-летним студентом факультета информатики
Построение ML модели для оценки текста языкового экзамена
Разметка данных при помощи GPT-4
Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин
От A/B-тестирования к Causal Inference в оффлайн ритейле
What was that commit? Searching GitHub with OpenAI embeddings
Simplifying the Fundamentals of Machine Learning
Data Cleaning with Pandas
Using machine learning to predict the selling price of a property
Engineering Practice for Real-time Feature Store in Decision-Making Machine Learning
What are biases in Machine Learning?
Hacktoberfest Machine Learning Projects for JS/TS Developers 🎃
Build a Text Summarization app using Reflex (Pure Python)
Diving Deep into AI with open-appsec: A Personal Journey of Discovery and Growth
AI-Powered Cybersecurity: The Future of Protection

Посмотреть:
🌐 Building a Data-Driven Workforce - Dominic Bohan (⏱ 32:52)
🌐 Enabling AI Transformation: MLOps Infrastructure, AI Command Centre & Data Science in Telecom (⏱ 33:08)
🌐 Пишем телеграм бота для скачивания #yotube видео (⏱ 20:41)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌳Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Деревья решений представляют собой семейство алгоритмов, которые естественным образом могут обрабатывать как категориальные, так и числовые функции.

Главные преимущества алгоритма: устойчивость к выбросам в данных, возможность использования данных разных типов и в разных масштабах без предварительной обработки или нормализации, и главное — ДОСТУПНОСТЬ ДЛЯ ПОНИМАНИЯ.

На самом деле используются одни и те же рассуждения, воплощенные в деревьях решений, неявно в повседневной жизни. Например, серия решений «да/нет», которые приводят к прогнозу будет ли тренировка на улице или нет.

Модель дерева решений сама “придумывает” эти развилки. Чем больше развилок, тем точнее модель будет работать на тренировочных данных, но на тестовых значениях она начнет чаще ошибаться. Необходим некоторый баланс, чтобы избежать этого явления, известного как переобучение.

## Случайные леса решений

Деревья решений обобщаются в более мощный алгоритм, называемый случайные леса. Случайные леса объединяют множество деревьев решений, чтобы снизить риск

переоснащения и обучения деревьев решений отдельно. Объединение прогнозов уменьшает дисперсию прогнозов, делает результирующую модель более обобщенной и повышает производительность на тестовых данных.

Подготовка данных

📌 Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Шпаргалка по различным базам данных в облачных сервисах и соответствующим им вариантам с открытым исходным кодом .

Выбор подходящей базы данных для своего проекта - сложная задача. Существует множество видов баз данных, каждая из которых подходит для разных случаев использования.

Данная шпаргалка поможет определить, какой сервис соответствует потребностям вашего проекта, и избежать возможных "подводных камней".

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👁 Замена Paint в задачах разметки графических данных

Модели машинного обучения компьютерного зрения являются крайне актуальной задачей в современном мире, поскольку компьютерные системы, способные “видеть”, могут применяться во многих областях жизни. Одной из самых популярных областей применения моделей компьютерного зрения является распознавание объектов на изображениях и видео.

Это может быть полезным, к примеру, для систем видеонаблюдения, автоматической сортировки на производстве, диагностирования медицинских изображений. Кроме того, модели машинного обучения используются при создании дополненной и виртуальной реальностях. Они позволяют создавать интерактивные пользовательские интерфейсы, а также обеспечивать визуализацию информации на основе видео и изображений.

В целом, актуальность машинного обучения моделей компьютерного зрения связана с возможностью автоматизации и оптимизации ряда процессов, улучшением точности, эффективности и прогнозирования в различных областях, что делает их незаменимыми средствами в современном техническом развитии.

Как же создать такую модель?

Читать

Читать полностью…

Анализ данных (Data analysis)

Ⓜ️Чтобы прокачать свой код с помощью LLM, попробуйте использовать magentic.

С помощью magentic вы можете использовать декоратор @𝐩𝐫𝐨𝐦𝐩𝐭 для создания функций, которые возвращают упорядоченные результаты LLM, сохраняя код аккуратным и читабельным. Библиотека позволяет ссмешивайть запросы LLM и обычный код Python для создания сложной логики.

Декоратор @𝐩𝐫𝐨𝐦𝐩𝐭 позволяет определить шаблон промпта Large Language Model (LLM) в виде функции Python. При вызове этой функции аргументы подставляются в шаблон, затем этот промпт отправляется в LLM и генерирует вывод функции.

pip install magentic

from magentic import prompt


@prompt('Add more "dude"ness to: {phrase}')
def dudeify(phrase: str) -> str:
... # No function body as this is never executed


dudeify("Hello, how are you?")
# "Hey, dude! What's up? How's it going, my man?"


🐱 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

По умолчанию трансформаторы #sklearn возвращают массив #NumPy.

Начиная с версии scikit-learn 1.3.2, можно использовать метод 𝐬𝐞𝐭_𝐨𝐮𝐭𝐩𝐮𝐭 для получения результатов в виде #pandas DataFrame.

Этот метод также может быть применен в рамках конвейера scikit-learn.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Как получить полезную информацию из своих категориальных признаков?
5 лучших функций создания массивов в Numpy для начинающих
Введение в data science: инструменты и методы анализа
Airflow в Kubernetes. Часть 1
WTH is Retrieval Augmented Generation (RAG)?
The Complete Guide to Time Series Models.
Uncovering Inventory Insights:Mintclassics (Coursera)
Data Analyst Roadmap: How to Go From Zero to Hero
Is Coding a Necessity for Data Analysts?
A Beginner's Guide to Data Visualization: Making Numbers Tell a Story
Choosing a Stream Processing System? This Article Has You Covered!
Logistic Regression made simple and what to look out for 🤔
Revolutionize Your E-Commerce Strategy with AI-Powered Amazon Price Scraping
How to Scrape Amazon PPC AD Data using Python

Посмотреть:
🌐 How to Get Ahead of 99% of Data Scientists (Tips from Tyler Richards) (⏱ 53:20)
🌐 Прогнозирование цены биткоина при помощи VAR, XGBoost, FB Prophet (⏱ 20:29)
🌐 Django настройка админки (⏱ 06:55)
🌐 Задача на палиндром строки на C++ (⏱ 00:59)
🌐 Django расширяем функционал! (⏱ 07:03)
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27)
🌐 NVIDIA’s New AI: 20% Faster Game Graphics! (⏱ 04:58)
🌐 DALL-E 3 Is Now Free For Everyone! (⏱ 05:10)

Хорошего дня!

Читать полностью…

Анализ данных (Data analysis)

🔥 Лучшие инструменты ИИ в Data Science:

Генерация кратких обзоров YouTube видео
https://eightify.app/sk2

ИИ для аналитики данных
https://rapidminer.com

Визуализация данных
https://tableau.com

Бизнес-аналитика
https://powerbi.microsoft.com

Аналитика, развертывание, масштабирование
https://knime.com

Бизнес-аналитика (BI)
https://akkio.com
https://polymersearch.com

Текстовая аналитика без кода
https://monkeylearn.com

Copilot
https://codium.ai

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🐆 Как исследовать снежных барсов с помощью нейросетей?

Студенты Школы анализа данных Яндекса вместе со специалистами Yandex Cloud разработали нейросеть, позволяющую определять на материалах с фотоловушек 10 видов животных, в том числе снежных барсов (ирбисов), внесённых в международную Красную книгу.

По оценкам экспертов, в России обитает не больше 90 ирбисов. Проект развернули в Республике Алтай, где исследователи обнаружили 44 особи, из которых 24 обитают на территории национального парка «Сайлюгемский».

Технология позволит учёным более эффективно изучать ирбисов в естественной среде обитания и понять, как можно защитить их популяцию. Если раньше поиски снежных барсов на тысячах снимков занимал дни и даже недели, то теперь на это уходят секунды.

🗣 Читайте больше о проекте по ссылке.

Реклама. ООО "Яндекс.Облако". ИНН 7704458262

Читать полностью…

Анализ данных (Data analysis)

🏆 Yandex Cup 2023 — открытый чемпионат для настоящих творцов

Разработчики — художники нового мира. Они создают смыслы, правила и законы, манифестируют идеи, творят миры и целые вселенные. И, если их предшественники делали это, используя слова, краски и звуки, то современные творцы создают новую реальность с помощью программного кода.

Искусство писать код

Тема чемпионата в этом году «Решаем искусство». Участников ждут нестандартные задачи на стыке IT и творчества, а лучшие встретятся лицом к лицу в финале, чтобы оживить арт-инсталляцию и разделить между собой 8 500 000 рублей.

Показать своё мастерство можно в 6 направлениях:

🔸 Фронтенд
🔸 Бэкенд
🔸 Мобильная разработка
🔸 Аналитика
🔸 Алгоритмы
🔸 Машинное обучение

Финал и церемония награждения пройдут офлайн в офисе Яндекса в Казахстане. Яндекс предоставит финалистам проезд и проживание в Алматы.

Регистрация открыта до 29 октября включительно:

👉 Участвую!

#Yandex_Cup23

Читать полностью…

Анализ данных (Data analysis)

🌐 ИИ с открытым исходным кодом захватывает мир.

Бесплатная книга с кодом, которая поможет вам идти в ногу со всем происходящим в мире AI:

State of Open Source AI Book - 2023 Edition

В книге рассматриваются следующие темы:
- ИИ Модели
- Файнтюниг
- Оценка моделей
- Векторные базы данных
- Инструментальные средства разработки
- Механизмы MLOps
и многое другое

И все это бесплатно.

📚 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

При просмотре кода на #GitHub навигация по файлам может быть неудобной. Попробуйте редактор GitHub.deb с интерфейсом, похожим на VSCode, для удобного просмотра и работы с проектами.

Этот редактор также отлично подходит для быстрых коммитов.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 Open Source AI Projects and Tools to Try in 2023

Существует множество инструментов искусственного интеллекта, и многие из них имеют открытый исходный код и бесплатны для использования.

Чтобы помочь вам узнать о некоторых полезных из них, представляем вам это подробное руководство для дата саентистов.

Он рассказывает о таких инструментах, как Tensorflow, Hugging Face Transformers, Fauxpilot и других.

https://www.freecodecamp.org/news/open-source-ai/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Визуализация стохастической модели пробоя диэлектрика (Ref: Fractal Dimension of Dielectric Breakdown

🖥 Код

#python, #numpy #matplotlib

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💸 Прогнозированию биткоина при помощи VAR (векторной авторегрессии), XGBoost и Facebook Prophet.

В этом ролике разобраны 3 метода прогнозирования: VAR, XGBoost, FB Prophet.


Видео
Код из видео

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

PlotAI 🎨🤖

PlotAI - ии инструмент для генерации графиков на Matplotlib.

— пользователь подает на вход датафрейм;
— PlotAI создаёт промт для LLM, который содержит первые пять записей и генерирует код Python;
— возвращенный код Python выполняется, и отображается график.

pip install plotai

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📒 GigaChat нового поколения.

Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.

Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).

Число уникальных пользователей GigaChat достигло 1 млн.

Попробовать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Build Web Apps in Jupyter Notebook

Если вы хотите создать веб-приложение в вашем #JupyterNotebook, попробуйте Mercury.

🖥 Github

@data_analysis_ml

Читать полностью…
Subscribe to a channel