data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🖥 Управление данными в масштабе: Кртакий взгляд на современные варианты баз данных

Будь то Twitter, показывающий посты для более чем миллиарда пользователей, или Netflix, отслеживающий историю просмотров для предоставления персонализированных рекомендаций, - для работы с огромными объемами данных веб-приложениям требуются специализированные базы данных.

Реляционные базы данных долгое время были стандартом для хранения структурированных данных. Однако появились новые типы баз данных, призванные удовлетворить растущие потребности в хранении данных.

Аналитические базы данных: Оптимизированы для сложных запросов бизнес-аналитики к большим массивам данных.

Модели хранения данных, ориентированные на столбцы, позволяют добиться высокого коэффициента сжатия и молниеносной скорости агрегирования. Благодаря хранению данных по столбцам, а не по строкам, аналитические базы данных могут выполнять быстрое сканирование для вычисления сумм, средних значений и других математических вычислений в огромных наборах записей.

Такое хранение данных по столбцам и оптимизированное агрегирование позволяет интерактивно запрашивать миллиарды строк для получения быстрых выводов.

Базы данных NoSQL: Обеспечивают гибкость, выходящую за рамки табличной реляционной модели. Различные базы данных NoSQL справляются с разными задачами:

- Графовая база данных – это систематический набор данных, в котором подчеркиваются взаимосвязи между различными сущностями данных. База данных NoSQL использует математическую теорию графов для отображения связей с данными. В отличие от реляционных баз данных, которые хранят данные в жестких табличных структурах, графовые базы данных хранят данные в виде сети сущностей и отношений. В результате такие базы данных часто обеспечивают более высокую производительность и гибкость, поскольку лучше подходят для моделирования реальных сценариев.
- Базы данных «ключ — значение» работают совершенно иначе, чем более известные реляционные базы данных (РБД). В РБД предварительно определяют структуру данных в базе данных как последовательность таблиц, содержащих поля с четко определёнными типами данных. Экспонирование типов данных в базе данных позволяет применить ряд оптимизаций. Напротив, системы «ключ — значение» обрабатывают данные как одну непрозрачную коллекцию, которая может иметь разные поля для каждой записи. Это обеспечивает значительную гибкость и более точно следует современным концепциям, таким как объектно-ориентированное программирование. Поскольку необязательные значения не представлены заполнителями или входными параметрами, как в большинстве РБД, базы данных «ключ
- База данных документов – это тип баз данных NoSQL, предназначенный для хранения и запроса данных в виде документов в формате, подобном JSON. JavaScript Object Notation (JSON) – это открытый формат обмена данными, который читается как человеком, так и машиной.
-Колоночные базы данных - это тип баз данных, где данные хранятся и организуются по колонкам, в отличие от традиционных реляционных баз данных, где данные хранятся по строкам. В колоночных базах данных каждая колонка содержит данные одного типа, и они компактно хранятся в сжатом формате.

Объектно-реляционное отображение (ORM): Обеспечивает связь между объектно-ориентированным кодом и реляционными базами данных путем автоматического преобразования между представлениями данных. Это избавляет от утомительного ручного управления данными. Однако уровень абстракции может увеличивать нагрзку при сложных операциях чтения и записи. Отладка также может быть затруднена и приводить к нагрузке на систему.

Главное - выбрать правильную базу данных, соответствующую вашим конкретнымзадачам и моделям данных. Типичное приложение может использовать комбинацию реляционных, NoSQL и ORM-технологий для достижения наилучшей производительности при масштабировании.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ SuperDuperDB: Добавьте искусственный интеллект в свою базу данных.

Проект, который позволяет интегрировать, обучать и управлять любыми моделями ИИ непосредственно для работы с базами данных и данными.

Поддерживает основные баы данных SQL и табличные форматы: PostgreSQL, MySQL, SQLite, DuckDB, Snowflake, BigQuery, ClickHouse, DataFusion, Druid, Impala, MSSQL, Oracle, pandas, Polars, PySpark и Trino (а также MongoDB).

Github
Project

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Ego-Exo4D - новый большой датасет и набор бенчмарков, ориентированных на квалифицированную человеческую деятельность, для поддержки исследований в области видеообучения и мультимодального восприятия.

Это крупнейший публичный набор данных такого рода.

🔥Dataset: https://ego-exo4d-data.org/

📚 Paper: https://ego-exo4d-data.org/paper/ego-exo4d.pdf

🌟 Project: https://www.projectaria.com/

🥩 Blog: https://ai.meta.com/blog/ego-exo4d-video-learning-perception

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🧠 Впервые ИИ смог восстановить изображения по активности мозга с точностью более 75%.

Японские исследователи совершили значительный прорыв в области создания изображений с помощью искусственного интеллекта, достигнув рекордной точности в 75 % при восстановлении изображений по активности мозга.

Это значительное улучшение по сравнению с предыдущими методами, которые достигали точности всего 50,4 %. Процесс включает в себя запись активности мозга испытуемых во время просмотра изображений и последующее восстановление этих изображений.

Используя нейронный транслятор сигналов и генеративный ИИ, исследователи смогли восстановить эти изображения с высокой точностью.

Эта технология открывает новые возможности для понимания человеческого разума и может привести к появлению новых форм невербальной коммуникации.

Почитать подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦾 Записанные хардкодом переменные без описания могут ухудшить читаемость кода.

Использование Enum в #Python позволяет присваивать переменным осмысленные имена, повышая читаемость кода.

from enum import Enum

# class syntax
class Color(Enum):
RED = 1
GREEN = 2
BLUE = 3

# functional syntax
Color = Enum('Color', ['RED', 'GREEN', 'BLUE'])

🔗Подробнее

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦾 Команда DeepSeek проделывает поистине выдающуюся работу.

Их последняя модель близка к GPT-4 по целому ряду эталонных бенчмарков и выглядит лучшим открытым вариантом.

DeepSeek LLM, продвинутая языковая модель, состоящую из 67 миллиардов параметров.

Github
Project

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🛠 Grist - это гибрид базы данных и электронной таблицы, то есть:

🔹 Столбцы работают так же, как и в базах данных: им присваиваются имена, и в них хранятся данные одного типа.
🔹Столбцы могут быть заполнены формулами в стиле электронных таблиц с автоматическим обновлением при изменении ссылающихся ячеек.

https://github.com/gristlabs/grist-core

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💡 Pandas - одна из наиболее важных библиотек для анализа данных.

Однако при работе с большими массивами данных она становится очень медленной и не хватает памяти!

Представляем Modin - библиотеку python, которая в 10 раз быстрее Pandas
Modin хорошо работает на больших массивах данных, там где pandas становится медленной или не хватает памяти.

Посмотрите на приведенный ниже пример: Pandas (слева) и Modin (справа) выполняют одни и те же операции pandas на наборе данных размером 2 ГБ.

Единственное различие между двумя примерами заключается в операторе import (картинки 1 и 2).

Как это возможно?

Pandas является однопоточным, что означает, что он не может задействовать несколько ядер вашей машины, в то время как Modin использует все ядра.

На 3 картинке вы можете посмотреть скорость работы различных функций в Pandas и Modin

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В реальных датасетах часто встречаются опечатки и ошибки, особенно в категориальных переменных, введенных вручную.

Чтобы объединить несколько вариантов одной и той же категории, используйте функцию deduplicate библиотеки skrub.

skrub - это библиотека Python, облегчающая подготовку таблиц для машинного обучения.

pip install git+https://github.com/skrub-data/skrub.git

📌 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🛠 Как создать первый проект по инженерии данных: инкрементный подход. Часть 1

При работе над реальным проектом вам дадут несколько месяцев обучаться всему, что необходимо для решения проблемы. Вы получите набор задач или формулировок проблемы. Проанализировав их, вы будете продумывать свои действия для их выполнения.

При таком подходе выражение “поди разберись, что к чему” часто становятся мантрой. Такова участь практически всех новичков.

Как часто вы чувствовали себя неуверенно даже после окончания курса? Вы были уверены в своих силах, пока следовали руководству, но как только получили набор задач, стали откладывать их выполнение?

Представляю метод инкрементной разработки проектов, который способен решить проблему снижения мотивации.

📌 Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦾 Обучение и развертывание ML REST API для прогнозирования цен на криптовалюты за 10 шагов

Хотите создать свое первое реальное ML-приложение?

Добро пожаловать на 𝗛𝗮𝗻𝗱𝘀-𝗼𝗻 𝗧𝗿𝗮𝗶𝗻 & 𝗗𝗲𝗽𝗹𝗼𝘆 𝗥𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝗠𝗟 𝗧𝘂𝘁𝗼𝗿𝗶𝗮𝗹!

В нем описана пошаговая инструкция по созданию REST API для прогнозирования цен на криптовалюты

✔️ 𝘁𝗿𝗮𝗶𝗻 создание прототипа ML модели
✔️ 𝗱𝗲𝗽𝗹𝗼𝘆 деплой модели в виде REST API
✔️ 𝗮𝘂𝘁𝗼𝗺𝗮𝘁𝗲 развертывание приложения с использованием GitHub и ML-моделей.

🐱 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 The Data Engineering Handbook бесплатно!

В этом справочнике собраны все ресурсы, необходимые для того, чтобы стать отличным инженером по данным!

В том числе проекты, которые вы сможете добавить в свое резюме.

📌Ссылка на справочник

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Если вы хотите усовершенствовать свои навыки в области машинного обучения, ознакомьтесь с этими репозиториями

1️⃣ Многомесячный учебный план по машинному обучению

2️⃣ План подготовки к собеседованиям по Machine Learning

3️⃣ Машинное обучение с Tensorflow

4️⃣ Список примеров машинного обучения

5️⃣ Список замечательных фреймворков и библиотек машинного обучения

6️⃣ ML для начинающих от Microsoft

7️⃣ Изучение основ машинного обучения с помощью интуитивно понятных объяснений, чистого кода и визуализаций.

8️⃣ Машинное обучение своими руками

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🪁Продвинутый Python: оператор dot

Казалось бы, что может быть тривиальнее оператора dot?

Большинство из вас многократно пользовались этим оператором, не задаваясь вопросом, как именно он действует. Этот оператор очень удобен для решения повседневных задач. Вы обращаетесь к нему практически каждый раз, когда используете Python для чего-то большего, чем “Hello World”.

Именно поэтому вам наверняка хочется копнуть глубже, и я готов стать вашим гидом.

Начнем с банального вопроса: что такое оператор dot?

Вот пример:
hello = 'Hello world!'

print(hello.upper())
# HELLO WORLD!


Конечно, это пример простейшего “Hello World”, хотя я с трудом представляю, что кто-то начнет учить Python именно с этого примера. В любом случае, оператор dot — это часть “.” в строке hello.upper(). Вот более сложный пример:

class Person:

num_of_persons = 0

def __init__(self, name):
self.name = name
def shout(self):
print(f"Hey! I'm {self.name}")

p = Person('John')
p.shout()
# Hey I'm John.

p.num_of_persons
# 0

p.name
# 'John'

Оператор dot может использоваться в нескольких случаях. Чтобы было легче представить общую картину, кратко опишем два случая его использования:

🟡для доступа к атрибутам объекта или класса;
🟡для доступа к функциям, заданным в определении класса.

Очевидно, что оба случая встречаются в нашем примере и кажутся интуитивно понятными и ожидаемыми. На самом деле все не так просто! Взгляните на этот пример повнимательнее:

📌 Смотреть

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Разработка алгоритмов обработки данных в реальном времени на Python
Как автоматизировать проверки данных в Airflow с Great Expectations
Нейронные сети для новичков и профи: топ бесплатных курсов по ИИ
5 уровней зрелости MLOps
Лучшие ресурсы чтобы выучить Git и Github
Парк юрского периода глазами нейросети: как развернуть Diffusers для генерации изображений за 10 минут
Как найти приватный ключ в бинарном коде от Bitcoin Lightning Wallet уязвимость в Quasar Framework
Использование Insightface для быстрого поиска и сравнения лиц на изображениях
OpenAI DevDay – ещё 5 видео про то, как работает компания, и как AI применять разработчикам
Understanding the Process of Running Metabase on Docker for the First Time 📊🐋
What is the data science?And Why it is important ?
Equipping yourself with Excel increase job opportunities
Simplifying Data Streaming
Mastering data formatting in excel
Applications of Data Science in Cybersecurity
Introducing NumPy, a hero in Pythonland
Debugging Python Code in Amazon SageMaker Locally Using Visual Studio Code and PyCharm: A Step-by-Step Guide
How to Scrape Walmart Prices Easily
Unraveling the Power of Random Forest Algorithm in Data Science

Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. (⏱ 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI (⏱ 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! (⏱ 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 AI Art: How is This Quality Even Possible? (⏱ 05:29)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦆 Традиционные системы баз данных часто требуют управления отдельным сервером СУБД, что вносит дополнительные сложности в рабочий процесс.

С помощью DuckDB вы можете эффективно выполнять SQL-запросы на pandas

DataFrames без необходимости управления отдельным сервером СУБД. DuckDB - это высокопроизводительная аналитическая система баз данных.

Она разработана как быстрый, надежный, переносимый и простая в использовании база данных. DuckDB предоставляет богатый синтаксис SQL.

https://github.com/duckdb/duckdb

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🍏 MLX - это новый фреймворк для машинного обучения на чипах Apple, разработанный специалистами Apple по машинному обучению.

Возможно, это самый большой шаг Apple в области ИИ с открытым исходным кодом на сегодняшний день.

Некоторые ключевые особенности MLX включают:

API: MLX имеет Python API, который в точности повторяет NumPy. MLX также имеет полнофункциональный API C++. В MLX есть пакеты более высокого уровня, такие как mlx.nn и mlx.optimizers с API, близкими к PyTorch, чтобы упростить построени сложных моделей.

Композитные преобразования функций: В MLX есть композитные преобразования функций для автоматического дифференцирования, автоматической векторизации и оптимизации вычислительных графов.

Динамическое построение графов: Графы вычислений в MLX строятся динамически. Изменение моделей быстро компиллируются, а отладка проста и интуитивно понятна.

Операции могут выполняться на любом из поддерживаемых устройств (в настоящее время это CPU и GPU).

Унифицированная память: Заметным отличием MLX от других фреймворков является унифицированная модель памяти. Массивы в MLX находятся в общей памяти. Операции над массивами MLX могут выполняться на любом из поддерживаемых типов устройств без перемещения данных.

pip install mlx

⚡️Код: https://github.com/ml-explore/mlx

📚 Документация: https://ml-explore.github.io/mlx/build/html/index.html

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦾 Отличный набор моделей диффузии текста в изображение, лучшие модели на данный момент (8 конвейеров.).

https://huggingface.co/collections/sayakpaul/assorted-text-to-image-diffusion-models-64f99f2b3ef7ea04c262c4b4

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Суммаризация текстов с использованием LLM и LangChain 🚀

Знаете ли вы, что можно создать собственное приложение для суммаризации текстов, используя huggingface модели и LangChainAI менее чем за 20 строк кода?

На картинке полный исходный код.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 gpt-fast

Одно из лучших репо-гайдов с тех пор, как
Karpathy выпустил туториал по minGPT🦾

GPT-Fast
: минималистичная реализация декодера на PyTorch с лучшими практиками: квантование int8/int4, декодирование, тензорный параллелизм и т.д. Увеличивает скорость LLM OS в 10 раз без изменения модели!

Нам нужно больше minGPT и GPT-Fasts в мире открытого кода! Туториал создан разработчикои cHHillee из команды PyTorch.

pip install sentencepiece huggingface_hub

Блог: https://pytorch.org/blog/accelerating-generative-ai-2/
Код: https://github.com/pytorch-labs/gpt-fast

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🗣️ Large Language Model Course

Выгла вторая версия бесплатного LLM курса.

Это пошаговое руководство с курируемыми ресурсами, разделенное на три части: основы LLM, наука больших языковых моделей и инженерия (W.I.P.).

Идеально подходит как для новичков, так и для экспертов в области ML.

🖥 GitHub: https://github.com/mlabonne/llm-course

🔍 Course: https://mlabonne.github.io/blog/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing
Обучение ИИ на синтетических данных: исследователи из MIT меняют правила игры
Как базы данных выполняют SQL-запросы?
Трюки и лайфхаки с Python кодом
Большие языковые модели (LLM) в задачах
DVC + Hydra: легко меняем и запускаем ML эксперименты
Распознавание русского жестового языка: распознаём до 3+ жестов в секунду на обычном ПК без видеокарты
Все, что нужно знать для разработки с использованием LLM
Генеративный ИИ — это просто «замыленный JPEG интернета», который убедительно косит под интеллект
ТОЛК: серия встреч про технологии будущего от red_mad_robot
Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform
Увядает ли ремесло программиста?
RAGLog: Log Anomaly Detection using Retrieval Augmented Generation
The Emergence of Autonomous Agents
Why OpenAI Assistants is a Big Win for LLM Evaluation
How to Use AI/ML Models for Your Projects
No Code Machine Learning for Business Decision-Making
Working through the fast.ai book in Rust - Part 5
Smart HR: Embracing Cloud and Machine Learning for Effective Talent Management
BakaLLM, part 12, 1 step backward, 4 steps forward: starting new experiment
Markov Decision Processes(MDP) basic concept
⚡️⚡️ 7 Machine Learning repos used by the TOP 1% of Python developers 🐉

Посмотреть:
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:57)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:10)
🌐 ODSC Webinar | Enhanced Fine-tuning of Open Source Pre-trained LLMs for Q&A and Summarization Tasks (⏱ 47:04)
🌐 Building an Optimized ML Pipeline: The builders behind Superbet’s profanity detection use case (⏱ 25:23)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

☑️Колаб Google SDV (Stable Diffusion Image To Video) доступен здесь для тех, кто хочет поиграть с ним.

https://colab.research.google.com/github/mkshing/notebooks/blob/main/stable_video_diffusion_img2vid.ipynb

Генерирует 3 секунды видео примерно за 30 секунд с помощью графического процессора A100 на Colab+.

Генерация видео не контролируется никаким образом (пока), но, судя по всему, модель может самостоятельно применять разные творческие стили.

Прикрепляем сгенерированное видео.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Каждый аналитик данных когда-то не имел опыта и почти каждый испытывал трудности при поиске первой работы

Если сейчас вам не хватает реального опыта, приходите на бесплатный вебинар от karpovꓸcourses «Как получить реальный опыт в анализе данных за шесть недель?»

На вебинары вы:
- поймете, что хотят от джунов-аналитиков
- узнаете о новых способах получить опыт, если без него найти работу не получается

Также выпускники курса Симулятор аналитика поделятся своими историями поиска работы аналитиком, что поможет вам заранее учесть все возможные трудности и справиться с этой задачей быстрее.

Вебинар проведет Анатолий Карпов — тот самый автор курсов на степике, которые обучили статистике более 200 тыс. человек. Анатолий руководил командой аналитики в отделе бизнеса и рекламы ВКонтакте, а сейчас является основателем школы karpovꓸcourses.

Ждём вас 28 ноября в 19:00!

Регистрируйтесь, чтобы попасть на вебинар

Читать полностью…

Анализ данных (Data analysis)

Уже в четвертый раз прошла конференция о людях и технологиях в образовании от Яндекса. Yet another Conference on Education собрала ведущих IT-экспертов, в том числе из ШАДа, представителей бизнеса и университетов, а также AI-тренеры.

Главными темами конференции стали искусственный интеллект, взаимодействие между вузами и бизнесом, а также новые возможности в IT. Спикеры обсудили востребованные скиллы, влияние ИИ на развитие отрасли, а также мотивацию и профессиональное развитие.

Интересно? Переходи по ссылке и новая бесплатная информация откроется тебе.

Читать полностью…

Анализ данных (Data analysis)

📈Профессиональное интервью: как успешно пройти собеседование на позицию аналитика?

Авито выпустили видео с полезными советами для всех, кто собирается проходить собеседование на аналитика в digital-сфере. Ира, руководитель аналитики в IT и недвижимости в Авито, поделится ценными советами и деталями самого процесса собеседования, а также расскажет, как успешно пройти его и получить желаемую должность.

Что будет в видео:

🔹Этапы отбора: Ира расскажет о многоэтапном отборочном процессе в компании. Важные шаги, начиная с репрезентации через резюме и до последующих технических интервью и встреч с командами.

🔹Ключевые аспекты резюме: Что должно присутствовать в резюме аналитика? Почему важно указать стек используемых инструментов и рассказать, как решения конкретных задач повлияло на работу в предыдущей компании.

🔹Вопросы HR-специалисту: О чем нужно не забыть спросить и как это поможет принять решение о дальнейшем устройстве и деятельности на новом месте.

🔹Технический скоринг: Как подготовиться, какие вопросы задают кандидаты, почему стоит вспомнить матстат и теорию вероятности.

🔹Кейсы и открытые задачи: A/B эксперименты, решения сложных кейсов и как заранее потренироваться их решать.

Рекомендуем к просмотру всем желающим углубиться в процесс найма и ознакомиться с ключевыми моментами.

Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: 2SDnjd5yksa

Читать полностью…

Анализ данных (Data analysis)

🔥 Live-интенсив: разбираем тестовое задание в OZON на junior-аналитика!

📣 Всем привет! Хотим пригласить вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание в OZON на аналитика данных!

Нам предстоит провести аналитику продаж и доставок с помощью Pandas в Python, а также проиллюстрировать это все графиками.

📅 Дата: 22 ноября
🕘 Время: 19:00 по Мск

Что будем делать на интенсиве:

◾️ Проанализируем заказы пользователей по retention, времени доставки, сумме заказа т.д.
◾️ Научимся легко генерировать большой DataFrame с синтетическими данными
◾️ Посчитаем описательные статистики
◾️ Изучим полезные фичи Pandas: apply, map, pct_change и др.
◾️ Построим интерактивные графики с помощью Plotly
◾️ Научимся строить и читать необычные графики - например, violinplot

Интенсив подойдет всем — от новичков до тех, кто уже знаком с Python.

В прямом эфире мы также расскажем о частых ошибках новичков и поделимся лайфхаками — как достойно пройти собеседование и удивить ревьюера крутыми фишками 🤩

А вы готовы бустануть свои знания и скиллы в аналитике?

👉🏻 Зарегистрироваться на интенсив


Реклама. ООО "Айти Резюме". ИНН 4025460134. Erid:LjN8KZJ9q

Читать полностью…

Анализ данных (Data analysis)

В Авито работают более 230 аналитиков, и число команд постоянно растет. Искать тимлидов с нужными для компании качествами и навыками — сложный, дорогой и долгий процесс.

Чтобы решить этот вопрос, в Авито открыли школу Analytics Manager School и начали самостоятельно готовить тимлидов. О том, с чего все начиналось, рассказал руководитель направления аналитики в Авито Недвижимости Стас Косилов.

✅Сперва собрали команду и разработали программу обучения. В нее включили вебинары, теорию и практику — это помогает ученикам понять, что значит быть тимлидом. Чтобы обучение можно было поставить на поток, программу нужно было тщательно продумать.

✅Затем нашли учеников, составили расписание занятий и начали учебу. Обучение шло три месяца: за это время в школе подготовили 15 будущих руководителей.

✅После завершения обучения оценили результаты: трое исполняющих обязанности тимлида стали тимлидами, четверо senior-аналитиков стали acting тимлидами.

Проводить школу тимлидов решили два раза в год. А всем выпускникам предложили поддержку и консультации по карьерному росту.

Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: 2SDnjcnJHQt

Читать полностью…

Анализ данных (Data analysis)

🔥 Используйте MLlib для решения задач распределенного машинного обучения и работы с большими массивами данных.

MLlib предоставляет инструменты для:
🔹 Классификации, регрессии, кластеризации и коллаборативной фильтрации
🔹 Извлечения, преобразования данных и методы отбора признаков
🔹 Построение и настройка конвейеров ML
и многое другое

📌 MLlib: https://spark.apache.org/docs/latest/ml-guide.html

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

LangChain + Streamlit + LlaMA: установка диалогового бота с ИИ на локальный компьютер

LLM — это модели машинного обучения, способные создавать тексты на языке, близком к человеческому, и воспринимать промпты (запросы) естественным образом. Эти модели проходят обучение на обширных массивах данных, включающих книги, статьи, сайты и другие источники. Выявляя в предоставляемых данных статистические закономерности, LLM предсказывают наиболее вероятные слова и фразы, которые должны следовать за введенным текстом.

LangChain — это фреймворк, находящийся в свободном доступе. Он помогает разработчикам создавать приложения на основе языковых моделей, в частности LLM.

В данной статье мы рассмотрим пошаговый процесс создания с нуля личного помощника по работе с документами. Будем использовать LLaMA 7b и Langchain, библиотеку с открытым исходным кодом, специально разработанную для бесшовной интеграции с LLM.

📌 Читать

@data_analysis_ml

Читать полностью…
Subscribe to a channel