data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода.

Все, что вам нужно сделать, это:
%load_ext cudf.pandas
import pandas as pd


Их библиотека RAPIDS автоматически определяет, работаете ли вы на GPU или CPU, и ускоряет обработку.

Попробовать можно здесь: https://colab.research.google.com/drive/12tCzP94zFG2BRduACucn5Q_OcX1TUKY3

Repo: https://github.com/rapidsai/cudf

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Vector Databases: from Embeddings to Applications

Векторные базы данных являются ключевой частью многих приложений LLM, в которых требуется поиск или извлечение данных, например, с помощью Retrieval Augmented Generation (RAG).

Узнайте, как они работают и как их использовать в новом бесплатном курсе на deeplearningai.

https://www.deeplearning.ai/short-courses/vector-databases-embeddings-applications/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Google выпустили AltUp - метод, использующий преимущества увеличения масштаба сетей трансформеров без увеличения стоимости вычислений - он прост в реализации, широко применим к архитектурам трансформеров, который требует минимальной настройки параметров.

Подробнееhttps://blog.research.google/2023/11/alternating-updates-for-efficient.html

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Горящая вакансия для аналитиков данных от Ozon🔥

Аналитик данных в команду аналитики поиска

Что по задачам:
• Разрабатывать KPI метрики для продуктов поиска и повышать прозрачность продукта внутри компании в целом.
• Собирать ETL процессы по обработке данных, дизайнить метрики и строить дашборды.
• Проводить A/B-тесты: дизайнить, анализировать их и принимать решения по итогам.
• Работать над методами повышения чувствительности для экспериментов ранжирования.
• Заниматься продуктовым ресерчем.
• Оптимизировать текущие процессы работы с данными.

Стек: Python, PySpark, ClickHouse, Vertica, PostgreSQL, Airflow, Grafana.

Ozon предлагает:
• Без скромности — делать классные продукты на рынке e-com.
• Удалёнку, гибрид или офис.
• Систему менторства, адаптации, обучения, ДМС (+стоматология).
• Скидки на спорт и изучение английского языка, корпоративные клубы (киберспорт, кино, рисование, настолки, спорт, etc).
• Сильное сообщество.

Откликнуться на вакансию

Читать полностью…

Анализ данных (Data analysis)

7 фреймворков для работы с LLM

1. vLLM
vLLM  —  быстрая и простая в использовании библиотека для вывода и поддержания LLM. Достигается 14-кратное  —  24-кратное увеличение производительности по сравнению с HuggingFace Transformers (HF) и 2,2-кратное  —  2,5-кратное по сравнению с HuggingFace Text Generation Inference (TGI).

2. Text Generation Inference
Text Generation Inference  —  сервер для вывода текстов, написанных на Rust, Python и gRPC. Используется в производстве в HuggingFace для управления виджетами API-вывода LLM.

3. CTranslate2
CTranslate2  —  это библиотека, написанная на языках C++ и Python, для эффективного вывода данных с помощью моделей-трансформеров.

4. DeepSpeed-MII
Благодаря DeepSpeed, MII обеспечивает вывод данных с низкой задержкой и высокой производительностью.

5. OpenLLM
OpenLLM  —  это открытая платформа для работы с большими языковыми моделями (LLM) в производственной среде.

6. Ray Serve
Ray Serve  —  это масштабируемая библиотека для создания API вывода в режиме онлайн. Serve не зависит от фреймворков, поэтому вы можете использовать один инструментарий для обслуживания любых моделей глубокого обучения.

7. MLC LLM
MLC LLM (Machine Learning Compilation LLM, компиляция машинного обучения для LLM)  —  это универсальное решение для развертывания, которое позволяет LLM эффективно работать на потребительских устройствах, используя нативное аппаратное ускорение.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Google представили новый алгоритм кластеризации, эффективно сочетающий преимущества масштабируемости моделей эмбедингов и качества моделей кросс-внимания для повышения эффективности и качества операций кластеризации. Посмотреть. →https://blog.research.google/2023/11/best-of-both-worlds-achieving.html

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🤩 Data scientist может всё!

Ну практически.

Специалистов по работе с данными много: администраторы баз данных, data-инженеры, аналитики данных. И, конечно, data scientist.

👻 Зарплаты в области растут: junior-специалист может получать от 50 000₽, senior — от 300 000₽ и больше.

👾 Data scientist требуются в бизнесе, науке, медицине, транспорте — везде, где необходимо анализировать большие объемны данных и строить выигрышные гипотезы.

🧑‍💻 Специалисты могут минимизировать затраты ресурсов по рутинным задачам и предложить автоматическое решение.

И всему этому вы сможете научиться на курсе Data Scientist от Слёрм. Его разработали два Senior Data Scientist:

— Иван Аникин, Team Lead Yandex.Edadeal;
— Владимир Бугаевский, Team Lead СберМаркет.

Они будут преподавать на потоке, который стартует 13 ноября! Иван и Владимир будут отвечать на вопросы студентов в чате и на онлайн-встречах, смотреть учебные проекты и давать по ним обратную связь — вы сможете положить итоговый проект в ваше портфолио.

Узнать больше о программе курса и записаться на поток вы можете на сайте по ссылке.

Реклама. ООО «Слёрм» г. Лиски, ОГРН 1193668020545 Erid: 2VtzqvQY8Yo

Читать полностью…

Анализ данных (Data analysis)

⚡️ Глубокое погружение в режим Copy-on-Write в pandas.
Часть 1

Как Copy-on-Write изменяет поведение pandas
Многие из вас наверняка знакомы со следующими предостережениями в pandas:
import pandas as pd

df = pd.DataFrame({"student_id": [1, 2, 3], "grade": ["A", "C", "D"]})

Выделим grade-столбец и перезапишем первую строку с "E".
grades = df["grade"]
grades.iloc[0] = "E"
df

student_id grade
0 1 E
1 2 C
2 3 D


К сожалению, при этом также обновляется df, а не только grades, что чревато появлением трудно обнаруживаемых ошибок. CoW запрещает такое поведение и обеспечивает обновление только df. Мы также видим ложноположительное предупреждение SettingWithCopyWarning, которое здесь нам не поможет.

Рассмотрим пример ChainedIndexing, в котором ничего не происходит:
df[df["student_id"] > 2]["grades"] = "F"
df

student_id grade
0 1 A
1 2 C
2 3 D


Снова получаем сообщение SettingWithCopyWarning, но в данном примере с df ничего не происходит. Все эти проблемы сводятся к правилам копий и представлений в NumPy, которые задействуются в pandas “под капотом”. Пользователи pandas должны знать эти правила и то, как они применяются к DataFrame pandas, чтобы понимать, почему похожие паттерны кода дают разные результаты.

CoW устраняет все эти несоответствия. В режиме CoW пользователи могут обновлять только один объект за раз. Например, в первом примере df не изменится, поскольку в это время обновляется только grades, а во втором примере, где прежде ничего не происходило, будет выдана ошибка ChainedAssignmentError. Как правило, обновить два объекта одновременно не удается: каждый объект ведет себя как копия предыдущего объекта.

Таких случаев гораздо больше, но их рассмотрение не входит в нашу задачу.

Как это работает
Углубимся в механизм Copy-on-Write и остановимся на некоторых фактах, которые полезно знать. Это основная часть статьи, и она будет носить достаточно технический характер.

📌 Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔋 A unified platform for Accelerated Computing

Covalent
- это Python синструмент для ученых, инженеров-программистов AI/ML и всех, кому необходимо проводить эксперименты на ограниченных или дорогих вычислительных ресурсах, включая квантовые компьютеры, кластеры HPC, мощные GPU и облачные сервисы.

Covalent позволяет исследователю выполнять вычислительные задачи на передовой аппаратной платформе - квантовом компьютере или бессерверном кластере HPC - с помощью нескольких строк кода.

pip install covalent

📌 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🐍 Если вы хотите быть в курсе того, что нового в PyTorch, у вас есть хорошие новости!

Видео с конференции PyTorch 2023 теперь доступны на YouTube.

Переговоры охватывают широкий спектр тем:
- Новые функции в PyTorch 2.1.
- TorchFix, инструмент, помогающий очистить ваш код PyTorch.
- Как ускорить вывод модели
- Советы по масштабному распределенному обучению
И многое другое.

📌 Смотреть

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Ловите крутейший data-форум сезона — Loginom Day 2023!

Уже 5 лет мы собираем руководителей, специалистов по данным и IT-шников на наш форум экспертов по low-code аналитике

Реальные кейсы, экспертиза и прямой диалог со спикерами, которые успешно используют платформу Loginom для задач бизнеса. Это событие для людей, которые хотят обогатить свой опыт в анализе данных и получить множество классных идей и новых знакомств

Когда? 2 ноября 2023 года в 13:00 гибрид (Москва, ВДНХ + онлайн-трансляция). Участие бесплатное

И если вы хотите узнать, почему мигрировать с SAS Marketing Automation нужно именно на Loginom, за счет чего retail-компании удалось повысить лояльность клиентов, а также как силами нескольких аналитиков построить систему поддержки принятия решений крупного банка, ждем по ссылке.

Реклама. ООО «Аналитические технологии», ИНН 6234023928
erid:
LjN8KWbgz

Читать полностью…

Анализ данных (Data analysis)

🖥 Обучаем нейросеть угадывать, что изображено на картинке при помощи TensorFlow

📌 Видео
📌 Код
📌 Урок

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как использовать машинное обучение для оптимизации производства?

Узнайте на примере реальных кейсов на бесплатном онлайн-митапе «Лучше практики MLOps в бизнесе. Опыт FinTech и Security индустрий» от OTUS.

После эфира вы сможете:
🔹 Найти и выстроить процессы, связанные с машинным обучением
🔹 Понять, как работать с эффективностью данных проектов
🔹 Избежать основных ошибок руководителя
🔹 Получить ответы на свои вопросы от опытного эксперта

Встречаемся в следующий вторник, 31 октября в 19:00 мск.

💻Эфир будет в формате конференции и после каждого блока вы сможете задать любые вопросы спикеру Павлу Филонову – ex-Kaspersky, ex-Positive technologies Data Science Manager с опытом в IT 15 лет.

👉Регистрируйтесь бесплатно прямо сейчас и забирайте чек-лист «Список технологий, нужный для MLOps» в подарок: https://otus.pw/mb2n/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8K3MdQ

Читать полностью…

Анализ данных (Data analysis)

Хочешь поступить в ШАД? Или, может быть, в магистратуру по Data Science?
Ищешь материалы и советы по подготовке?

Тогда подпишись на канал "Поступашки ШАД"!

Канал ведут преподаватели МГУ, ВШЭ и ШАД. Там тебя ждут:

🔺Подборки материалов по математике, алгоритмам, ML/DL;
🔺Советы, как поступить в ШАД, Ai masters или в магистратуры по Data Science;
🔺Инсайды и анонсы об актуальных стажировках, образовательных проектах и олимпиадах.

...и еще много полезного =)

Подписывайся и поступай вместе с нами ⬇️

@postypashki_old

Читать полностью…

Анализ данных (Data analysis)

🥇 The Most Comprehensive List of Kaggle Solutions and Ideas.

Этот репозиторий - настоящее золото для всех начинающих и практикующих специалистов в области Data Science, Machine Learning!

Просто зайдите и получите доступ практически ко всем лучшим решениям и идеям, которыми поделились топовые участники соревнований Kaggle.

Github
Сайт

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Заменит ли AI всех айтишников? Кто-то скажет НЕТ! Кто-то буркнет ДА!

Но в действительности повышая свою квалификацию ➜ вы повышаете свою ценность

Остается лишь только смириться с новым миром и начать работать с нейронкой

Гораздо легче начать это под крылом спецов, в бесплатном канале AI Университета

Ребята поделятся и курсами, и материалами для саморазвития. Подпишись: @ai_u

Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KRbSp

Читать полностью…

Анализ данных (Data analysis)

📱 В приложение ChatGPT для iOS добавлена поддержка расширенного анализа данных (ранее Code Interpreter).

Теперь специалист по анализу данных или аналитик данных у вас в кармане.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 pix2tex

- это библиотека #Python, позволяющая преобразовывать изображения уравнений в код LaTeX.

Это позволяет использовать уравнение из одного документа в другой документ, не переделывая его с нуля.

🐱 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💼 Y'ORG

Y'ORG объединяет большин языковые модель с Jupyter Notebook для выполнения различных задач.

Цель Y'ORG - предоставить удобный интерактивный способ (1) изучения кода, (2) составления планов и задач для работы, (3) написания кода и добавления новых функций. Он также помогает ученым и аналитикам (4) проводить анализ данных и (5) создавать полноценные отчеты.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 The-incredible-pytorch

В этом репозитории собраны лучшие учебники, проекты, библиотеки, видео, статьи, книги и все, что связано с невероятным PyTorch.

🔗 https://github.com/ritchieng/the-incredible-pytorch

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 SQL для Data Science Полный учебный план.

План рассчитан на 28 дней, в течение которых необходимо уделять не менее 1,5 часов в день.

Неделя 1: Основы SQL

День 1-3: Знакомство с синтаксисом SQL, операторами SELECT, фильтрацией и сортировкой.
Ресурсы: Курс Khan Academy "Intro to SQL" на YouTube.
📌Python и базы данных

День 4-5: Работа с несколькими таблицами с помощью операций JOIN.
Ресурс: Курс DataCamp "Объединение данных в SQL".

День 6-7: Агрегирование данных с помощью GROUP BY, HAVING и понимание подзапросов.
Ресурс: Специализация Coursera "SQL for Data Science".

Неделя 2: Углубляемся в SQL

День 8-10: Изучение запросов(INSERT, UPDATE, DELETE) и работа со значениями NULL.
Ресурсы: Плейлист YouTube Калеба Карри на тему "Самоучители SQL".

День 11-12: Погружение в нормализацию данных и принципы проектирования баз данных.
Ресурсы: Плейлист YouTube - Базовая концепция нормализации баз данных

День 13-14: Знакомство с оконными функциями для расширенного манипулирования данными.
Ресурс: Самоучитель SQL - оконные функции от BeardedDev

Неделя 3: Расширенные методы работы с SQL

День 15-17: Освоение подзапросов и коррелированных подзапросов.
Ресурс: курс techTFQ "Подзапросы в SQL".

День 18-20: Изучение индексов, оптимизации производительности и настройки запросов.
Ресурс: Настройка производительности SQL и оптимизация запросов

День 21-22: Понимание хранимых процедур, определяемых пользователем функций и триггеров.

Неделя 4: Применение SQL в реальных условиях и практика

День 23-24: Реализация задач анализа данных, таких как очистка, преобразование и визуализация данных с помощью SQL.

День 25-28: Итоговый проект: Решение сложной задачи с использованием SQL и презентация результатов.
Ресурсы: Наборы данных Kaggle с задачами, связанными с SQL.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💊 Определение диабета при помощи машинного обучения в 60 строк кода.

📌 Видео
📌 Код

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🍕 Для реализации модульного сложения нейронные сети иногда используют странный "алгоритм пиццы".

После публикации статьи об этом алгоритме многие читатели жаловались, что его нелегко понять.

Вот попытка визуализировать его надеемся, она будет полезной!

https://arxiv.org/abs/2306.17844

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Коллеги, не могу прийти на созвон. Мне страшно 😱

Такое может случиться, когда получаешь правки в 30-минутном голосовом сообщении. Что делать, если это не единичный случай и подобные ситуации происходят на работе изо дня в день? Вызывать экзорциста или пройти тест от БУДУ.

В нём ситуации, в которые вы могли попадать на протяжении карьеры. Они не уникальны и могут случиться с каждым. Главное, найти выход, а он маячит ярким огоньком надежды в конце теста.

Реклама. Рекламодатель

Читать полностью…

Анализ данных (Data analysis)

👁 Замена Paint в задачах разметки графических данных

Модели машинного обучения компьютерного зрения являются крайне актуальной задачей в современном мире, поскольку компьютерные системы, способные “видеть”, могут применяться во многих областях жизни. Одной из самых популярных областей применения моделей компьютерного зрения является распознавание объектов на изображениях и видео.

Это может быть полезным, к примеру, для систем видеонаблюдения, автоматической сортировки на производстве, диагностирования медицинских изображений. Кроме того, модели машинного обучения используются при создании дополненной и виртуальной реальностях. Они позволяют создавать интерактивные пользовательские интерфейсы, а также обеспечивать визуализацию информации на основе видео и изображений.

В целом, актуальность машинного обучения моделей компьютерного зрения связана с возможностью автоматизации и оптимизации ряда процессов, улучшением точности, эффективности и прогнозирования в различных областях, что делает их незаменимыми средствами в современном техническом развитии.

Как же создать такую модель?

Читать

Читать полностью…

Анализ данных (Data analysis)

Ⓜ️Чтобы прокачать свой код с помощью LLM, попробуйте использовать magentic.

С помощью magentic вы можете использовать декоратор @𝐩𝐫𝐨𝐦𝐩𝐭 для создания функций, которые возвращают упорядоченные результаты LLM, сохраняя код аккуратным и читабельным. Библиотека позволяет ссмешивайть запросы LLM и обычный код Python для создания сложной логики.

Декоратор @𝐩𝐫𝐨𝐦𝐩𝐭 позволяет определить шаблон промпта Large Language Model (LLM) в виде функции Python. При вызове этой функции аргументы подставляются в шаблон, затем этот промпт отправляется в LLM и генерирует вывод функции.

pip install magentic

from magentic import prompt


@prompt('Add more "dude"ness to: {phrase}')
def dudeify(phrase: str) -> str:
... # No function body as this is never executed


dudeify("Hello, how are you?")
# "Hey, dude! What's up? How's it going, my man?"


🐱 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

По умолчанию трансформаторы #sklearn возвращают массив #NumPy.

Начиная с версии scikit-learn 1.3.2, можно использовать метод 𝐬𝐞𝐭_𝐨𝐮𝐭𝐩𝐮𝐭 для получения результатов в виде #pandas DataFrame.

Этот метод также может быть применен в рамках конвейера scikit-learn.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Как получить полезную информацию из своих категориальных признаков?
5 лучших функций создания массивов в Numpy для начинающих
Введение в data science: инструменты и методы анализа
Airflow в Kubernetes. Часть 1
WTH is Retrieval Augmented Generation (RAG)?
The Complete Guide to Time Series Models.
Uncovering Inventory Insights:Mintclassics (Coursera)
Data Analyst Roadmap: How to Go From Zero to Hero
Is Coding a Necessity for Data Analysts?
A Beginner's Guide to Data Visualization: Making Numbers Tell a Story
Choosing a Stream Processing System? This Article Has You Covered!
Logistic Regression made simple and what to look out for 🤔
Revolutionize Your E-Commerce Strategy with AI-Powered Amazon Price Scraping
How to Scrape Amazon PPC AD Data using Python

Посмотреть:
🌐 How to Get Ahead of 99% of Data Scientists (Tips from Tyler Richards) (⏱ 53:20)
🌐 Прогнозирование цены биткоина при помощи VAR, XGBoost, FB Prophet (⏱ 20:29)
🌐 Django настройка админки (⏱ 06:55)
🌐 Задача на палиндром строки на C++ (⏱ 00:59)
🌐 Django расширяем функционал! (⏱ 07:03)
🌐 Making Private Data Open and Enhancing Decision-Making through Digital Atlases (⏱ 28:27)
🌐 NVIDIA’s New AI: 20% Faster Game Graphics! (⏱ 04:58)
🌐 DALL-E 3 Is Now Free For Everyone! (⏱ 05:10)

Хорошего дня!

Читать полностью…

Анализ данных (Data analysis)

🔥 Лучшие инструменты ИИ в Data Science:

Генерация кратких обзоров YouTube видео
https://eightify.app/sk2

ИИ для аналитики данных
https://rapidminer.com

Визуализация данных
https://tableau.com

Бизнес-аналитика
https://powerbi.microsoft.com

Аналитика, развертывание, масштабирование
https://knime.com

Бизнес-аналитика (BI)
https://akkio.com
https://polymersearch.com

Текстовая аналитика без кода
https://monkeylearn.com

Copilot
https://codium.ai

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🐆 Как исследовать снежных барсов с помощью нейросетей?

Студенты Школы анализа данных Яндекса вместе со специалистами Yandex Cloud разработали нейросеть, позволяющую определять на материалах с фотоловушек 10 видов животных, в том числе снежных барсов (ирбисов), внесённых в международную Красную книгу.

По оценкам экспертов, в России обитает не больше 90 ирбисов. Проект развернули в Республике Алтай, где исследователи обнаружили 44 особи, из которых 24 обитают на территории национального парка «Сайлюгемский».

Технология позволит учёным более эффективно изучать ирбисов в естественной среде обитания и понять, как можно защитить их популяцию. Если раньше поиски снежных барсов на тысячах снимков занимал дни и даже недели, то теперь на это уходят секунды.

🗣 Читайте больше о проекте по ссылке.

Реклама. ООО "Яндекс.Облако". ИНН 7704458262

Читать полностью…
Subscribe to a channel