data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

Крутая олимпиада по анализу данных DANO.

Открыта регистрация на олимпиаду по анализу данных от Тинькофф и НИУ ВШЭ где победители и призеры получат дополнительные преимущества при поступлении в различные высшие учебные заведения по всей стране. Например, в НИУ ВШЭ, УрФУ, Университет Иннополис, РЭШ, ИТМО и АГУ. Десять участников, набравших наибольшее количество баллов, также будут иметь возможность обучаться в Центральном университете, за счет выделенных грантов, которые покроют 100% стоимости обучения. Зарегестрироваться можно до 4 октября.

Этапы олимпиады

Первый (отборочный) этап. Направлен на проверку базовых знаний математики и логики. Открыт для всех желающих.

Второй (отборочный) этап. Направлен на проверку умения анализировать данные. Открыт только для школьников, победивших или занявших призовое место в предыдущем этапе.

Заключительный этап состоит из двух туров: сначала участники решают задачи продвинутого уровня по анализу данных, а во втором туре работают над реальным командным исследовательским проектом совместно с экспертами. Второй тур пройдет офлайн — с выездом на неделю в Подмосковье.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💫 Создай, оформи, опубликуй. Sphinx — незаменимый помощник в мире Python документации

Sphinx — это профессиональный инструмент для создания обширной и качественной документации. Он изначально был создан для написания документации к языку Python, но со временем стал популярным выбором среди разработчиков различных языков программирования.

Sphinx использует простой в разметке текстовый формат reStructuredText (reST) для создания документации, и способен компилировать эту разметку в различные форматы, такие как HTML, PDF, ePub, Texinfo, и другие.

С помощью Sphinx, мы можем создавать структурированную и красиво оформленную документацию, которая может включать в себя автоматически генерируемые разделы.

Где используется Sphinx?
▪️Для документации ваших собственных проектов
Sphinx является превосходным инструментом для документирования любого проекта, будь то небольшой проект с открытым исходным кодом или крупномасштабное корпоративное приложение. Благодаря его гибкости и функциональности, Sphinx обеспечивает все необходимые инструменты для создания качественной, структурированной и доступной документации. Кроме того, Sphinx обеспечивает поддержку международной локализации, что позволяет создавать документацию на разных языках. Расширяемость Sphinx через модули также позволяет адаптировать процесс создания документации под конкретные потребности проекта. Все эти функции делают Sphinx отличным выбором для документации вашего проекта, независимо от его масштаба и сложности.
▪️Python Documentation
Как уже было сказано выше, Sphinx первоначально был создан для документирования самого языка Python, и по‑прежнему используется на официальном сайте Python для предоставления документации по языку и стандартным библиотекам.
▪️Read the Docs
Это популярная платформа для хостинга документации, которая тесно интегрирована с Sphinx. Она позволяет автоматически собирать и публиковать документацию из репозиториев на GitHub, GitLab и других сервисах. Read the Docs поддерживает формат reStructuredText и предоставляет множество дополнительных функций для улучшения качества документации.

Проекты с открытым исходным кодом, корпоративные и научные проекты.

Множество проектов с открытым исходным кодом используют Sphinx для создания их документации. Некоторые из них включают:

Django
Это высокоуровневый веб‑фреймворк Python, который следует принципу «Не изобретай велосипед». Документация Django, известная своим высоким качеством и полнотой, написана с использованием Sphinx. Это включает подробные справочные материалы, руководства по разработке, и руководства по API. Использование Sphinx в таком масштабном и влиятельном проекте, как Django, является отличным подтверждением его надежности и эффективности.
The Linux Kernel
Sphinx используется для документирования ядра Linux, одного из самых значимых и сложных проектов с открытым исходным кодом в мире.
TensorFlow
Платформа от Google для машинного обучения. Документация TensorFlow, которая включает в себя описания API, руководства и учебные материалы, создана с использованием Sphinx.
Pandas
Библиотека Python для обработки и анализа данных, которая использует Sphinx для создания своей обширной документации, включающей справочные материалы, руководства и учебные пособия.
NumPy
Библиотека для научных вычислений на Python, которая широко использует Sphinx для создания своей документации. Это подтверждает статус Sphinx как стандартного инструмента для документации в научной и академической среде Python.

Инициализация Sphinx в нашем проекте
Где скачать Sphinx?
Sphinx – это программное обеспечение с открытым исходным кодом, и его можно легко установить с помощью пакетного менеджера Python — pip. Для установки Sphinx, выполним следующую команду в терминале:
$ pip install Sphinx

Также можно посетить официальный сайт Sphinx для получения дополнительной информации.

После того, как мы установили Sphinx, мы можем начать использовать его для создания документации.
Рассмотрим, как инициализировать Sphinx в нашем проекте.

Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 7 малоизвестных инструментов визуализации данных, которые заслуживают вашего внимания

1. Vega-Lite: https://github.com/vega/vega-lite

2. RawGraphs: https://github.com/rawgraphs/raw

3. Superset: https://github.com/apache/superset

4. Metabase: https://github.com/metabase/metabase

5. Visidata: https://github.com/saulpw/visidata

6. Chart.js: https://github.com/chartjs/Chart.js

7. C3.js: https://github.com/c3js/c3

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📈📊 Визуализация распределений вероятностей в Python.


📌 Другие виды распределения

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👋 Генерация синтетических изображений с использованием диффузионно-трансформерной модели (DiT)

На практике в машинном обучении, особенно при работе с нейронными сетями, часто сталкиваются с проблемой нехватки данных для обучения модели или получения стабильных результатов.
Мы оказались в подобной ситуации, решая задачу компьютерного зрения связанную с анализом нарушений в помещениях закрытого типа. Недостаточно изображений для качественной модели, а аугментация и спарсить изображения из Интернета невозможно.

Поэтому нам понадобился синтетический датасет, состоящий из похожих на имеющиеся изображений. Мы решили использовать модель DiT (Diffusion Transformer) от Facebook Research. DiT обучалась на ImageNet и имеет 4 модели разных размеров.

Таблица размерностей DiT моделей в изображении.

📌Читать статью

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💬 Flowise - Build LLM Apps Easily

Если вы хотите использовать drag-and-drop UI для создания своего LLM потока, попробуйте Flowise.

UI с открытым исходным кодом для построения LLM модели с использованием LangchainJS, написанный на Node Typescript/Javascript

git clone https://github.com/FlowiseAI/Flowise.git

Github
Примеры

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓🏆 Вышли новые лекции бесплатного курса: Stanford CS224N: Natural Language Processing with Deep Learning

Курс Stanford NLP является, пожалуй, одним из лучших курсов по Deep NLP в Интернете. Сейчас в открытом доступе находятся новые лекции 2023 года.

Курс охватывает фундаментальные методы и темы, связанные с глубоким обучением, применяемым в NLP.

От архитектур (RNNs, LSTMs, трансформров), предварительного обучения, генерации NLP кода, до новых тем, таких как промпи-инжиниринг, RLHF, мультимодальные агенты и многое другое.

Лекции
Курс

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

"BI в мессенджере для менеджеров продаж: кейс ГК Самолет"

Приглашаем на вебинар, на котором поговорим о том, как сделать бизнес-аналитику доступной каждому сотруднику, даже если он работает «в полях» или у него нет времени разбираться со сложным интерфейсом.

А также обсудим, как AI позволяет получать аналитические данные прямо в мессенджер за доли секунды.

Что будет на вебинаре:

👉🏻 Easy Report: BI в мессенджере. Обзор системы и кейсы применения.
👉🏻 Быстрый доступ к данным для коммерческого блока через BI в мессенджере: кейс ГК Самолет.
👉🏻 Демонстрация работы решения.

Спикеры:

Юрий Ефаров
- CEO Easy Report, генеральный директор Sapiens solutions (в ТОП-15 поставщиков аналитических решений в РФ)

Павел Сухоруков - руководитель группы формирования отчетности, ГК Самолет.

Игорь Пантелеев - Соучредитель и CTO Easy Report.

Регистрируйтесь по ссылке.

🗓 28 сентября, 11:00 мск • Онлайн

Реклама.ООО "САПИЕНС" ИНН 7731438804 erid: LjN8KWF4k

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
Обслуживание моделей PyTorch с помощью TorchServe
Нейростроительное MVP или Почему иногда стоит возрождать проекты
Microsoft предлагает БЕСПЛАТНЫЕ онлайн курсы с сертификацией
7 шагов по контейнеризации Python-приложений
MySQL в Google Colab: Бесшовная интеграция
Как выбрать лучшую ИИ-систему?
Усы, лапы и QR-код – вот мои документы. Заменит ли цифровой паспорт бумажный и чем это обернется для компаний?
Как мы сделали свою ChatGPT Plus с голосовым вводом, чтением PDF, Youtube, и т.д
Использование технологий машинного обучения в аудите: примеры эффективного применения
20 проектов по аналитике данных для новичков в 2023 году
Кентавры и киборги: как консультанты BCG стали решать задачи на 25% быстрее с помощью ИИ
От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению
Как мы в Just AI создавали и тестировали собственную LLM JustGPT — третью большую языковую модель в России
Conquer MS-101: Dumpsarena Offers Reliable Study Materials
How to Easily Try Out boto3 Interactively in AWS CloudShell
Kafka Ease: Simplifying Kafka Topic and ACL Management
A Python script to see my most watched YouTube videos
No One Expects the self._spanish_inquisition (Because it’s protected)
My Experience learning Python and SQL
Lovely Silk
My first contribution to other open source project
Data Science Essentials: Your Path to Effective Dataframe Joins with Pandas
Customizing RAG Pipelines to Summarize Latest Hacker News Posts with Haystack 2.0 Preview

Посмотреть:
🌐 Языки программирования, чей исходный код похож на что-то другое #программирование (⏱ 00:42)
🌐 Python Matplotlib. Визуализация данных на PRO уровне. (⏱ 24:43)
🌐 Устраиваемся на работу. Решаем тестовое задание на позицию Python Junior. (⏱ 20:28)
🌐 Уроки Golang с нуля /#29 - Дженерики/обобщения (⏱ 10:52)
🌐 Уроки Golang с нуля /#30 - Горутины (⏱ 08:09)
🌐 Lightning Interview "Risk and Reward: Unraveling Machine Learning for High-Risk Applications" (⏱ 52:37)
🌐 Framework and Lessons Learned from Building a Generative AI Application - Jason Tan (⏱ 24:08)
🌐 Generative AI for Biomedical Insights: Solutions through OpenBIOML and BIO GP - Bidyut Sarkar (⏱ 30:40)
🌐 Как защитить телеграм бота от атак и перегрузок.

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Что лучше — нанять тимлида из сторонней компании или вырастить самостоятельно? Как правильно выбрать подходящего на эту роль сотрудника?

На эти и другие важные вопросы отвечает руководитель аналитики в Авито Глеб Белогорцев. В своем гайде он подробно рассказывает, как понять, какой именно тимлид нужен компании, как распознать потенциального руководителя в числе сотрудников и кого точно не нужно брать на роль тимлида.

Если вы хотите найти тимлида, который сможет качественно управлять командой, вам просто необходима эта инструкция! Переходите по ссылке и узнавайте уникальную информацию от опытного специалиста!

Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: Kra23e76V

Читать полностью…

Анализ данных (Data analysis)

💻 Как создать простой агент с Guidance и локальной моделью LLM

Guidance  — это инструмент от Microsoft, представляющий собой “язык, организующий управление LLM”. Он позволяет управлять выводом LLM, что облегчает выполнение инструкций.

Что касается GPT 3.5–4, то он успешно работает с большинством инструкций.
Но небольшие локальные модели, такие как LLaMa и ее разновидности (Alpca, WizardML), не всегда выдают правильный ответ. А это большая проблема. Некоторые фреймворки, такие как ReAct, требуют определенного формата инструкций для ответа. Кроме того, работу усложняет тот факт, что LLM иногда предоставляет данные в формате JSON с синтаксической ошибкой.

Пример:
valid_dish = ["Pizza", "Noodles", "Pho"]

# определение текстовой подсказки
order_maker = guidance("""The following is a order in JSON format.
```json
{
"name": "{{name}}",
"age": {{gen 'age' pattern='[0-9]+' stop=','}},
"delivery": "{{#select 'delivery'}}Yes{{or}}No{{/select}}",
"order": "{{select 'order' options=valid_dish}}",
"amount": {{gen 'amount' pattern='[0-9]+' stop=','}}
}```""")

# генерация имени заказчика доставки
order_maker(
name="Alex",
valid_dish=valid_dish
)
**Вывод**
The following is a order in JSON format.
```json
{
"name": "Alex",
"age": 25,
"delivery": "Yes",
"order": "Noodles",
"amount": 10
}```

Как видно, мы легко составили текстовую подсказку, предварительно определили несколько пунктов и добились от LLM точного их выполнения. Скорректировали регулярное выражение для поля age с помощью {{gen ‘age’ pattern=’[0–9]+’ stop=’,’}}.
Это значит, что оно принимает только цифры и заканчивается на ,. Кроме того, используя valid_dish, ограничили тип заказанной еды с помощью “{{select ‘order’ options=valid_dish}}”. Более подробная информация предоставлена по официальной ссылке на GitHub.

Агент ReAct с Guidance и Wizard-Mega-13B-GPTQ
Примечание. С кодом данного раздела можно ознакомиться по ссылке.

Перед запуском необходимо разместить LLM на локальном ПК. В данном случае для этой цели применяется wizard-mega-13B-GPTQ. Вы можете выбрать и другие модели. Сначала загружаем модель и позволяем Guidance ее использовать:

model_para = 'YOUR_MODEL_DIR'
checkpoint_para = 'YOUR_MODEL_FILE'
model = load_quant(model_para, checkpoint_para, 4, 128)
model.to(DEV)
tokenizer = AutoTokenizer.from_pretrained(model_para)

llama = guidance.llms.Transformers(model=model, tokenizer=tokenizer, device=0)
guidance.llm = llama

Испытаем на простой текстовой подсказке. С помощью формата ReAct проверяем, насколько корректно работает модель.

📌 Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Когда data driven подход не работает

Сейчас многие используют А/B-тесты в своей работе, но часто делают это неправильно и не учитывают всех нюансов, чтобы data driven подход сработал.

Например, если вы запускаете А/В-тестирование новой фичи и пытаетесь принять окончательное решение на неполных данных. Или не учитываете праздники в дизайне эксперимента, если ваш А/В-тест выпал и на такие дни.

В общем, есть много нюансов, о которых нужно знать, поэтому у меня есть рекомендация для вас.

karpovꓸcourses сделали «Симулятор A/B-тестов», где вы сможете освоить весь пайплайн проведения экспериментов, научитесь не допускать типичных ошибок и сможете избежать потери денег из-за неправильных выводов. Вы также научитесь определять, нужно ли вам вообще проводить A/B-тесты в вашем конкретном случае.

Make A/B tests great again: https://karpov.courses/simulator-ab

Реклама. ООО "Карпов Курсы". Erid: LjN8JwHjv

Читать полностью…

Анализ данных (Data analysis)

Выпущен DALL·E 3

https://openai.com/dall-e-3

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🟩 Бесплатные курсы Data Science с сертификатами:

❯ Python
http://freecodecamp.org/learn/scientific-computing-with-python/

❯ SQL
http://openclassrooms.com/courses/2071486-retrieve-data-using-sql

Специализация Python Scripting for DevOps
https://www.coursera.org/specializations/python-scripting-devops

❯ R
http://mygreatlearning.com/academy/learn-for-free/courses/r-for-data-science

❯ Excel
http://simplilearn.com/learn-business-analytics-excel-fundamentals-skillup

❯ PowerBI
http://openclassrooms.com/courses/7434291-create-dashboards-with-powerbi

❯ Tableau
http://openclassrooms.com/courses/5873606-create-dashboards-with-tableau

❯ Mathematics & Statistics
http://matlabacademy.mathworks.com

❯ Probability
http://mygreatlearning.com/academy/learn-for-free/courses/probability-for-data-science

❯ Data Analysis
http://cognitiveclass.ai/courses/data-analysis-python

❯ Data Visualization
http://cognitiveclass.ai/courses/data-visualization-python

❯ Data Cleaning
http://kaggle.com/learn/data-cleaning

❯ Machine Learning
http://simplilearn.com/learn-machine-learning-algorithms-free-course-skillup

❯ Deep Learning
http://kaggle.com/learn/intro-to-deep-learning

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊Python Matplotlib. Визуализация данных на PRO уровне.

📌 Видео
📌 Код и полезные ресурсы

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📈 Awesome Machine Learning Demos Awesome

Примеры с кодом и интерактивные визуализации мл моделей.

Вероятностные модели
Код | Демо
Код | Демо
TensorFlow neural network playground
Код | Демо
Convolutional neural networks
Код | Демо
Код | Демо
Демо
Unsupervised learning and preprocessing
K-means clustering

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В волшебную школу вы так и не поступили, но некоторые всё-таки считают, что вы практикуете магию 🦉

Вместо палочки и заклинаний — шорткаты, вместо тайной комнаты — запылившийся бэклог, а вместо Волан-де-Морта — непобедимый синдром самозванца.

Если это про вас, тогда предлагаем перестать ждать сову из Хогвартса и отправиться учиться в Alfa Campus.

Но перед этим нужно решить, какой факультет вам подходит. Для этого мы создали распределяющего бота 🪄

Ответьте на серию простых вопросов и узнайте, где ваши навыки найдут своё лучшее применение: /channel/contactday_bot

Реклама. АО "АЛЬФА-БАНК". ИНН 7728168971. erid: LjN8KYsGM

Читать полностью…

Анализ данных (Data analysis)

Сбер расширяет географию своих ивентов: 10 октября в Стамбуле состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨‍💻

На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о:

✔️ Технологических трендах в области искусственного интеллекта и машинного обучения.

✔️ Устройстве современных стримингов компаний-партнёров Сбера.

Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 10 октября в 18:30 по адресу: Стамбул, «Енидоган Махаллеси», Эрджиес Сокак №7 34030 Байрампаша 💚

Читать полностью…

Анализ данных (Data analysis)

Сбер расширяет географию своих ивентов: 6 октября в Тбилиси состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨‍💻

На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о:

✔️ Технологических трендах в области искусственного интеллекта и машинного обучения.

✔️ Устройстве современных стримингов компаний-партнёров Сбера.

Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 6 октября в 18:30 по адресу: Тбилиси, Ресторан на 6 этаже отеля «Golden Palace», переулок Агмашенебели 62 💚

Читать полностью…

Анализ данных (Data analysis)

Снижаем трудозатраты на разработку и поддержку ETL процессов с помощью open source фреймворка для базы данных Greenplum и ее коммерческой сборки Arenadata DB

Приглашаем на вебинар, на котором разберем подходы и кейсы использования фреймворка, выполняющего следующие задачи:

➡️ стандартизация ETL процессов,
➡️ загрузка и расчет данных с помощью метаданных и минимального объема разработок.

Фреймворк был разработан экспертами компании Sapiens solutions и доступен на GitHub как Open source по лицензии Apache 2.0

Вебинар будет полезен компаниям, которые планируют использовать хранилище данных на платформе Arenadata DB / Greenplum и проектов миграции хранилищ данных с проприетарных DB (SAP HANA, Oracle, Teradata и др.)

Рассмотрим вопросы:
- Проблемы в процессах ETL
- Подходы к загрузке в Greenplum
- Преимущества ETL фреймворка
- Компоненты фреймворка
- Развертывание и использование
- Продуктивные кейсы

📌Всем зарегистрированным будет отправлена запись вебинара.


Спикеры:

Юрий Ефаров
- Основатель и CEO Sapiens solutions (в ТОП-15 поставщиков аналитических решений в РФ)

Дмитрий Исмаилов - Архитектор хранилищ данных, эксперт в вопросах миграции на Greenplum.

Регистрируйтесь по ссылке.

🗓 03 октября, 11:00 мск • Онлайн

Реклама. ООО "Сапиенс". ИНН 7731438804 erid:LjN8K45rx

Читать полностью…

Анализ данных (Data analysis)

Многие хотят стать аналитиками данных, но не у многих получается

Мы не понаслышке знаем, как трудно ворваться на рынок труда и хотим поделиться нашими советами на бесплатном вебинаре.

Вы узнаете:
- Какие навыки нужны для старта карьеры, и что изменилось за последние годы
- Как найти первую работу или стажировку?
- Обязательно ли профильное высшее образование для работы аналитиком?
- Можно ли начать карьеру после 30?

Вебинар проведёт Анатолий Карпов — тот самый автор курсов на степике, которые обучили основам анализа данных более 200 тыс. человек. Анатолий руководил командой аналитики в отделе бизнеса и рекламы ВКонтакте, а сейчас является основателем школы karpovꓸcourses.

🕖Вебинар пройдет 28 сентября в 19:00
Регистрируйтесь по ссылке

Реклама. ООО "Карпов Курсы". Erid: LjN8KVcA4

Читать полностью…

Анализ данных (Data analysis)

👨‍🎓 Бесплатный курс : Python and Statistics for Financial Analysis

Python и статистика для финансового анализа.

К концу курса вы сможете решать следующие задачи с использованием языка python:

Импортировать, предварительно обрабатывать, сохранять и визуализировать финансовые данные в pandas Dataframe
Манипулировать финансовыми данными
Применять важные статистические функции (частота, распределение, популяция и выборка, доверительный интервал, линейная регрессия и др. ) в финансовых задачах.
Строить торговые модели с использованием
Оценивать эффективность торговых стратегий с помощью различных инвестиционных индикаторов

В платформе курса настроена среда Jupyter Notebook, позволяющая практиковаться в коде на python без установки каких-либо приложений.

📌 Курс

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👨‍🎓 Бесплатный курс от University of London: Foundations of Data Science: K-Means Clustering in Python

Вы рассмотрите фундаментальные понятия науки о данных на примере задачи кластеризации данных и на практике освоите базовые навыки программирования.

В ходе курса необходимо выполнить ряд упражнений по математике и программированию, а также небольшой проект по кластеризации данных для заданного набора данных.

📌Курс

🔥Наберем 50 бустов и мы выложим список из 25 бесплатных курсов по NLP и 25 курсов по математике для Дата сайентиста.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥Актуальные плейлисты и руководства для дата сайентистов.

1. Полный плейлист по аналитике данных и науки о данных на Python
Python на английском языке
Плейлист на русском

2. Полный плейлист по статистике для аналитики данных и науки о данных
Лекции и семинары по курсу "Математическая статистика" на русском
. Статистика на английском языке
Плейлист статистики на английском языке

3. Полный SQL для аналитики и науки о данных
Полный плейлист по SQl на английском языке
Базовый курс по SQL для аналитиков и менеджеров на русском

4. Учебники по Git и Github
Учебники по Git и Github на английском языке
Git курс

5. EDA и Feature Engineering и Feature Selection
Плейлист по Feature Engineering
Выбор функций

6. Плейлист по машинному обучению
Плейлист курс ML на английском языке
Новый плейлист куос ML 2023 на английском языке.
Машинное обучение на английском языке:
Машинное обучение на русском

7. Полный плейлист по глубокому обучению и NLP
NLP плейлист
Полный плейлист NLP Live на английском языке

8. Важные фреймворки для производственных развертываний
Подробный плейлист по Flask на английском языке
BentoML Tutorial
Gradio Crash Course

9. Полный комплект инструментов AWS Sagemaker и Sagemaker Studio
Плейлист Sagemaker

10. Полное руководство по MLOPS
Полный комплект Dockers In One Shot Английский язык
Учебные пособия MLFLOW с развертыванием
Мониторинг модели Evidently AI

11. Конечные проекты ML, DL и NLP - весь жизненный цикл до развертывания с использованием инструментов с открытым исходным кодом
Плейлист End To End ML Projects на английском языке

12. Генеративный ИИ и открытый ИИ Плейлист
OPENAI Playlist English(In Progress)
Langchain Playlist(In Progress)

13. Полное руководство по Pyspark
Плейлист Pyspark

14. Полный список вопросов для собеседования по науке о данных, машинному обучению и глубокому обучению

/channel/data_analysis_ml?boost - поддержите нас голосом, а мы подготовим вам больше полезных подборок

Читать полностью…

Анализ данных (Data analysis)

У каналов в Телеграме теперь есть уровни и за них можно голосовать пользователям с премиум аккаунтами.

С первым уровнем откроются истории в канале.

Версия телеграм должна быть последней, работает только с премиум подписчиками.

Проголосовать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🐼Как устроен Pandas: взгляд изнутри

Структура данных Pandas
Как правило, датафрейм поддерживается каким-нибудь массивом, например NumPy или Pandas ExtensionArray. Эти массивы хранят данные датафрейма. pandas добавляет промежуточный слой Block и BlockManager. Он управляет этими массивами, обеспечивая максимальную эффективность операций. Это одна из причин, почему в Pandas методы, работающие с несколькими столбцами, могут быть очень быстрыми. Далее более подробно рассмотрим упомянутые слои.

Массивы
Фактические данные датафрейма могут храниться в наборе массивов NumPy или Pandas ExtensionArray. Этот слой обычно направляет к базовой реализации, например использует NumPy API при условии хранения данных в массивах NumPy. Pandas хранит в них данные и вызывает свои методы без расширения интерфейса.

Массивы NumPy обычно являются двумерными и дают ряд преимуществ в производительности, о которых речь пойдет далее. На данный момент Pandas ExtensionArray в основном представляют собой одномерные структуры данных, благодаря чему операции становятся предсказуемыми.
Однако не обошлось и без недостатков: в ряде случаев страдает производительность.

ExtensionArray допускает применение датафреймов, которые поддерживаются массивами PyArrow и другими типами данных Pandas.

Block

Датафрейм обычно состоит из столбцов, представленных по крайней мере одним массивом. Как правило, имеется коллекция массивов, так как один массив может хранить только один определенный тип данных. Эти массивы хранят данные, но не владеют информацией о том, какие столбцы они представляют. Каждый массив из датафрейма обернут соответствующим блоком Block.
Block добавляет дополнительную информацию в массивы, например расположение представленных им столбцов.
Block служит слоем вокруг фактических массивов с возможностью расширения вспомогательными методами, необходимыми для операций Pandas.
✔ При выполнении фактической операции с датафреймом Block гарантирует, что метод направляется в базовый массив. Например, при вызове astype он убедится, что эта операция вызывается в массиве.

Данный слой не располагает информацией о других столбцах в датафрейме, являясь автономным объектом.

BlockManager
Как следует из названия, BlockManager управляет всеми Block, связанными с одним датафреймом. Он содержит сами Block и информацию об осях датафрейма, например имена столбцов и метки Index.
И самое главное в том, что он направляет большинство операций к фактическим Block:

df.replace(...)

BlockManager гарантирует, что replace выполняется для каждого Block.

Понятие консолидированного датафрейма
Мы исходим из того, что датафреймы поддерживаются типами данных NumPy, например их данные могут храниться в двумерных массивах.

При создании датафрейма Pandas гарантирует, что на каждый тип данных приходится только один Block:

df = pd.DataFrame(
{
"a": [1, 2, 3],
"b": [1.5, 2.5, 3.5],
"c": [10, 11, 12],
"d": [10.5, 11.5, 12.5],
}
)

У этого датафрейма есть 4 столбца, представленные двумя массивами: один из них хранит целочисленный тип данных, а другой — числа с плавающей точкой. Это и есть консолидированный датафрейм.

Добавим новый столбец к этому датафрейму:
df["new"] = 100

У него такой же тип данных, как и у существующих столбцов "a" и "c". Рассмотрим 2 возможных варианта дальнейших действий:

1. Добавление нового столбца в существующий массив, содержащий целочисленные столбцы.
2. Создание нового массива только для хранения нового столбца.

◾️ Первый вариант предусматривает добавление нового столбца в существующий массив. Для этого требуется скопировать данные, поскольку NumPy не поддерживает эту операцию без копирования. В итоге добавление одного столбца оборачивается слишком большими затратами.

◾️ Второй вариант

📌 Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👆7 бесплатных онлайн-курсов по дата-инжинирингу.

1. Become a Data Engineer - Udacity

2. Data Engineering, Big Data, and Machine Learning on GCP Specialization - Coursera

3. Become a Data Engineer - Coursera

4. Data Engineer with Python - Datacamp

5. Big Data Specialization - Coursera

6. Data Engineering with Google Cloud Professional Certificate - Coursera

7. Data Warehousing for Business Intelligence Specialization - Coursera

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 𝐄𝐱𝐜𝐢𝐭𝐢𝐧𝐠 𝐀𝐧𝐧𝐨𝐮𝐧𝐜𝐞𝐦𝐞𝐧𝐭: 𝐈𝐧𝐭𝐫𝐨𝐝𝐮𝐜𝐢𝐧𝐠 𝐃𝐞𝐜𝐢𝐃𝐢𝐟𝐟𝐮𝐬𝐢𝐨𝐧 𝟏.𝟎 - 𝐑𝐞𝐯𝐨𝐥𝐮𝐭𝐢𝐨𝐧𝐢𝐳𝐢𝐧𝐠 𝐓𝐞𝐱𝐭-𝐭𝐨-𝐈𝐦𝐚𝐠𝐞 𝐆𝐞𝐧𝐞𝐫𝐚𝐭𝐢𝐨𝐧!✨

DeciDiffusion 1.0, новая модель диффузии текста в изображение.

Имея впечатляющие 820 млн. параметров, она достигает такого же исключительного качества, как и модель Stable Diffusion v1.5 с 860 млн. параметров, но за 40% меньшее количество итераций.

🔹 Высочайшая эффективность вычислений: на 40% меньше итераций и в 3 раза быстрее, чем в Stable Diffusion v1.5, что привело к снижению затрат почти на 66%.

pip install diffusers --upgrade
pip install invisible_watermark transformers accelerate safetensors


Colab
Model
Demo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

SmartDev 2023 — большая конференция про технологии от Сбера

21 сентября в кинотеатре «Октябрь» пройдет технологическая конференция SmartDev 2023, организованная Сбером. На одной площадке соберутся ведущие инженеры и разработчики из Сбера, VK, Яндекса, Kaspersky и других компаний, чтобы обменяться опытом создания лучших технологических решений в мире.

Основные темы конференции:
– Машинное обучение и искусственный интеллект
– Архитектура программных решений
– DevOps
– Работа с большими данными
– Безопасность приложений
– Инновации и стратегии в разработке ПО

Помимо этого впервые в России можно услышать выступление генерального директора Gitee, китайского аналога GitHub.Yong Xu.
Также участники конференции смогут задать вопросы создателям нашумевших проектов от Сбера — сервиса GigaChat и нейросети Kandinsky.

Конференция соберёт 1500 участников в офлайне и несколько тысяч зрителей в онлайне.
Участие бесплатное, подробности и регистрация — на сайте конференции.

Читать полностью…

Анализ данных (Data analysis)

🟥 Как автоматизировать создание контента для YouTube и блога с помощью LangChain и OpenAI

Часть 1. Базовые настройки
Шаг 1. Настройка среды
Прежде чем начать, нужно убедиться, что у нас установлены все необходимые пакеты.

🔴LangChain: фреймворк, упрощающий использование больших языковых моделей.
🔴OpenAI: большая языковая модель, которую мы будем использовать.
🔴Streamlit: фреймворк для создания веб-приложений на Python.
🔴Python-dotenv: пакет для управления переменными окружения.
Чтобы установить эти пакеты, откройте терминал и запустите:
pip install langchain openai streamlit python-dotenv

Шаг 2. Получение API-ключа OpenAI
Далее вам необходимо получить API-ключ OpenAI. Это уникальный ключ, открывающий доступ к модели GPT-3 (GPT-3.5/ChatGPT, GPT-4). После регистрации учетной записи в OpenAI вы найдете API-ключ на дашборде.

Полученный ключ нужно надежно сохранить в файле .env. В каталоге проекта создайте файл .env и добавьте в него следующую строку:
OPENAI_API_KEY=ваш_ключ_openai

Замените ваш_ключ_openai на свой действительный ключ OpenAI. Этот файл будет использоваться для безопасного хранения API-ключа.

Шаг 3. Настройка файла app.py и импорт библиотек
Создадим главный файл Python, app.py. В нем и будем разрабатывать маркетингового ИИ-помощника.

Начнем с импорта необходимых библиотек и загрузки переменных среды:

from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain, SimpleSequentialChain, SequentialChain
import os
from dotenv import load_dotenv
load_dotenv()


В этих строках кода импортируется класс OpenAI из модуля langchain.llms, который позволяет взаимодействовать с моделью GPT. Кроме того, импортируются классы PromptTemplate и LLMChain, которые будут использоваться для создания промптов и цепочек.

Функция load_dotenv() загружает переменные среды OPENAI_API_KEY из файла .env.

Часть 2. Компоновочные блоки LangChain
Шаг 4. Обзор основных компонентов
Прежде чем приступить к написанию кода, сделаем краткий обзор компонентов, которые будем использовать.

🔵Большая языковая модель (LLM): экземпляр модели GPT-3.
🔵Шаблон промптов (Prompt Template): простая инструкция для LLM. Она принимает входные переменные и использует их в шаблоне.
🔵Цепочка (Chain): комбинация LLM и шаблона промптов. Она является самой малой рабочей единицей в LangChain.

Эти три компонента будут использованы для разработки генератора публикаций в блоге.

Шаг 5. Создание первой LLMChain
Чтобы создать первую цепочку, нужно инициализировать LLM, разработать шаблон промптов, а затем объединить их в цепочку.

Настройте LLM и первый шаблон промптов:

# Пример LLMChain

# Модель
llm = OpenAI(temperature=0.9)

# Промпт
blog_prompt_template = PromptTemplate(
input_variables = ['product_description'],
template = 'Write a blog post on {product_description}'
)

# Цепочка
blog_chain = LLMChain(llm=llm, prompt=blog_prompt_template, verbose=True)

# Запуск
product_description = 'best eco-friendly coffee'
blog_chain.run(product_description)


СОВЕТ: ПАРАМЕТР TEMPERATURE УПРАВЛЯЕТ РАНДОМНОСТЬЮ ВЫХОДНЫХ ДАННЫХ МОДЕЛИ. ОН ПРИНИМАЕТ ЗНАЧЕНИЯ ОТ 0 ДО 1, ГДЕ МЫ УСТАНОВИЛИ ЗНАЧЕНИЕ 0,9, ПОСКОЛЬКУ ХОТИМ ПОЛУЧИТЬ МНОГО НОВЫХ ИДЕЙ, В ТО ВРЕМЯ КАК МЕНЬШЕЕ ЗНАЧЕНИЕ, НАПРИМЕР 0, ДЕЛАЕТ МОДЕЛЬ БОЛЕЕ ДЕТЕРМИНИРОВАННОЙ.

В приведенном выше коде настраивается LLM и создается шаблон промптов, который принимает описание продукта и генерирует в блоге публикацию о нем. Затем эти два шаблона объединяются, чтобы сформировать цепочку. Потом запускается LLMChain с product_description.

Часть 3. Освоение основ цепочек в LangChain
Шаг 6. Создание SimpleSequentialChain

📌Читать

@data_analysis_ml

Читать полностью…
Subscribe to a channel