🎓🏆 Вышли новые лекции бесплатного курса: Stanford CS224N: Natural Language Processing with Deep Learning
Курс Stanford NLP является, пожалуй, одним из лучших курсов по Deep NLP в Интернете. Сейчас в открытом доступе находятся новые лекции 2023 года.
Курс охватывает фундаментальные методы и темы, связанные с глубоким обучением, применяемым в NLP.
От архитектур (RNNs, LSTMs, трансформров), предварительного обучения, генерации NLP кода, до новых тем, таких как промпи-инжиниринг, RLHF, мультимодальные агенты и многое другое.
• Лекции
• Курс
@data_analysis_ml
"BI в мессенджере для менеджеров продаж: кейс ГК Самолет"
Приглашаем на вебинар, на котором поговорим о том, как сделать бизнес-аналитику доступной каждому сотруднику, даже если он работает «в полях» или у него нет времени разбираться со сложным интерфейсом.
А также обсудим, как AI позволяет получать аналитические данные прямо в мессенджер за доли секунды.
Что будет на вебинаре:
👉🏻 Easy Report: BI в мессенджере. Обзор системы и кейсы применения.
👉🏻 Быстрый доступ к данным для коммерческого блока через BI в мессенджере: кейс ГК Самолет.
👉🏻 Демонстрация работы решения.
Спикеры:
Юрий Ефаров - CEO Easy Report, генеральный директор Sapiens solutions (в ТОП-15 поставщиков аналитических решений в РФ)
Павел Сухоруков - руководитель группы формирования отчетности, ГК Самолет.
Игорь Пантелеев - Соучредитель и CTO Easy Report.
Регистрируйтесь по ссылке.
🗓 28 сентября, 11:00 мск • Онлайн
Реклама.ООО "САПИЕНС" ИНН 7731438804 erid: LjN8KWF4k
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Почитать:
— Обслуживание моделей PyTorch с помощью TorchServe
— Нейростроительное MVP или Почему иногда стоит возрождать проекты
— Microsoft предлагает БЕСПЛАТНЫЕ онлайн курсы с сертификацией
— 7 шагов по контейнеризации Python-приложений
— MySQL в Google Colab: Бесшовная интеграция
— Как выбрать лучшую ИИ-систему?
— Усы, лапы и QR-код – вот мои документы. Заменит ли цифровой паспорт бумажный и чем это обернется для компаний?
— Как мы сделали свою ChatGPT Plus с голосовым вводом, чтением PDF, Youtube, и т.д
— Использование технологий машинного обучения в аудите: примеры эффективного применения
— 20 проектов по аналитике данных для новичков в 2023 году
— Кентавры и киборги: как консультанты BCG стали решать задачи на 25% быстрее с помощью ИИ
— От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению
— Как мы в Just AI создавали и тестировали собственную LLM JustGPT — третью большую языковую модель в России
— Conquer MS-101: Dumpsarena Offers Reliable Study Materials
— How to Easily Try Out boto3 Interactively in AWS CloudShell
— Kafka Ease: Simplifying Kafka Topic and ACL Management
— A Python script to see my most watched YouTube videos
— No One Expects the self._spanish_inquisition (Because it’s protected)
— My Experience learning Python and SQL
— Lovely Silk
— My first contribution to other open source project
— Data Science Essentials: Your Path to Effective Dataframe Joins with Pandas
— Customizing RAG Pipelines to Summarize Latest Hacker News Posts with Haystack 2.0 Preview
Посмотреть:
🌐 Языки программирования, чей исходный код похож на что-то другое #программирование (⏱ 00:42)
🌐 Python Matplotlib. Визуализация данных на PRO уровне. (⏱ 24:43)
🌐 Устраиваемся на работу. Решаем тестовое задание на позицию Python Junior. (⏱ 20:28)
🌐 Уроки Golang с нуля /#29 - Дженерики/обобщения (⏱ 10:52)
🌐 Уроки Golang с нуля /#30 - Горутины (⏱ 08:09)
🌐 Lightning Interview "Risk and Reward: Unraveling Machine Learning for High-Risk Applications" (⏱ 52:37)
🌐 Framework and Lessons Learned from Building a Generative AI Application - Jason Tan (⏱ 24:08)
🌐 Generative AI for Biomedical Insights: Solutions through OpenBIOML and BIO GP - Bidyut Sarkar (⏱ 30:40)
🌐 Как защитить телеграм бота от атак и перегрузок.
Хорошего дня!
@data_analysis_ml
Что лучше — нанять тимлида из сторонней компании или вырастить самостоятельно? Как правильно выбрать подходящего на эту роль сотрудника?
На эти и другие важные вопросы отвечает руководитель аналитики в Авито Глеб Белогорцев. В своем гайде он подробно рассказывает, как понять, какой именно тимлид нужен компании, как распознать потенциального руководителя в числе сотрудников и кого точно не нужно брать на роль тимлида.
Если вы хотите найти тимлида, который сможет качественно управлять командой, вам просто необходима эта инструкция! Переходите по ссылке и узнавайте уникальную информацию от опытного специалиста!
Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: Kra23e76V
💻 Как создать простой агент с Guidance и локальной моделью LLM
Guidance — это инструмент от Microsoft, представляющий собой “язык, организующий управление LLM”. Он позволяет управлять выводом LLM, что облегчает выполнение инструкций.
Что касается GPT 3.5–4, то он успешно работает с большинством инструкций.
Но небольшие локальные модели, такие как LLaMa и ее разновидности (Alpca, WizardML), не всегда выдают правильный ответ. А это большая проблема. Некоторые фреймворки, такие как ReAct, требуют определенного формата инструкций для ответа. Кроме того, работу усложняет тот факт, что LLM иногда предоставляет данные в формате JSON с синтаксической ошибкой.
Пример:valid_dish = ["Pizza", "Noodles", "Pho"]
# определение текстовой подсказки
order_maker = guidance("""The following is a order in JSON format.
```json
{
"name": "{{name}}",
"age": {{gen 'age' pattern='[0-9]+' stop=','}},
"delivery": "{{#select 'delivery'}}Yes{{or}}No{{/select}}",
"order": "{{select 'order' options=valid_dish}}",
"amount": {{gen 'amount' pattern='[0-9]+' stop=','}}
}```""")
# генерация имени заказчика доставки
order_maker(
name="Alex",
valid_dish=valid_dish
)
**Вывод**
The following is a order in JSON format.
```json
{
"name": "Alex",
"age": 25,
"delivery": "Yes",
"order": "Noodles",
"amount": 10
}```
Как видно, мы легко составили текстовую подсказку, предварительно определили несколько пунктов и добились от LLM точного их выполнения. Скорректировали регулярное выражение для поля age с помощью {{gen ‘age’ pattern=’[0–9]+’ stop=’,’}}.
Это значит, что оно принимает только цифры и заканчивается на ,. Кроме того, используя valid_dish, ограничили тип заказанной еды с помощью “{{select ‘order’ options=valid_dish}}”. Более подробная информация предоставлена по официальной ссылке на GitHub.
Агент ReAct с Guidance и Wizard-Mega-13B-GPTQ
Примечание. С кодом данного раздела можно ознакомиться по ссылке.
Перед запуском необходимо разместить LLM на локальном ПК. В данном случае для этой цели применяется wizard-mega-13B-GPTQ. Вы можете выбрать и другие модели. Сначала загружаем модель и позволяем Guidance ее использовать: model_para = 'YOUR_MODEL_DIR'
checkpoint_para = 'YOUR_MODEL_FILE'
model = load_quant(model_para, checkpoint_para, 4, 128)
model.to(DEV)
tokenizer = AutoTokenizer.from_pretrained(model_para)
llama = guidance.llms.Transformers(model=model, tokenizer=tokenizer, device=0)
guidance.llm = llama
Испытаем на простой текстовой подсказке. С помощью формата ReAct проверяем, насколько корректно работает модель.
📌 Читать
@data_analysis_ml
Когда data driven подход не работает
Сейчас многие используют А/B-тесты в своей работе, но часто делают это неправильно и не учитывают всех нюансов, чтобы data driven подход сработал.
Например, если вы запускаете А/В-тестирование новой фичи и пытаетесь принять окончательное решение на неполных данных. Или не учитываете праздники в дизайне эксперимента, если ваш А/В-тест выпал и на такие дни.
В общем, есть много нюансов, о которых нужно знать, поэтому у меня есть рекомендация для вас.
karpovꓸcourses сделали «Симулятор A/B-тестов», где вы сможете освоить весь пайплайн проведения экспериментов, научитесь не допускать типичных ошибок и сможете избежать потери денег из-за неправильных выводов. Вы также научитесь определять, нужно ли вам вообще проводить A/B-тесты в вашем конкретном случае.
Make A/B tests great again: https://karpov.courses/simulator-ab
Реклама. ООО "Карпов Курсы". Erid: LjN8JwHjv
🟩 Бесплатные курсы Data Science с сертификатами:
❯ Python
http://freecodecamp.org/learn/scientific-computing-with-python/
❯ SQL
http://openclassrooms.com/courses/2071486-retrieve-data-using-sql
❯ Специализация Python Scripting for DevOps
https://www.coursera.org/specializations/python-scripting-devops
❯ R
http://mygreatlearning.com/academy/learn-for-free/courses/r-for-data-science
❯ Excel
http://simplilearn.com/learn-business-analytics-excel-fundamentals-skillup
❯ PowerBI
http://openclassrooms.com/courses/7434291-create-dashboards-with-powerbi
❯ Tableau
http://openclassrooms.com/courses/5873606-create-dashboards-with-tableau
❯ Mathematics & Statistics
http://matlabacademy.mathworks.com
❯ Probability
http://mygreatlearning.com/academy/learn-for-free/courses/probability-for-data-science
❯ Data Analysis
http://cognitiveclass.ai/courses/data-analysis-python
❯ Data Visualization
http://cognitiveclass.ai/courses/data-visualization-python
❯ Data Cleaning
http://kaggle.com/learn/data-cleaning
❯ Machine Learning
http://simplilearn.com/learn-machine-learning-algorithms-free-course-skillup
❯ Deep Learning
http://kaggle.com/learn/intro-to-deep-learning
@data_analysis_ml
📊Python Matplotlib. Визуализация данных на PRO уровне.
📌 Видео
📌 Код и полезные ресурсы
@data_analysis_ml
🎞 Полезные плейлисты YouTube по науке о данных:
❯ Основы машинного обучения 2023, майнор ИАД
https://www.youtube.com/playlist?list=PLEwK9wdS5g0oCRxBzxsq9lkJkzMgzWiyg
❯ Tableau
https://www.youtube.com/playlist?list=PLgG9iJlSBmTe4n8doaYFkzLU-dEbb2XGn
❯ Парсинг на Python
https://www.youtube.com/playlist?list=PLysMDSbb9HcwWWhs1Cm9EF1sv0fo8kII5
❯ SQL
https://www.youtube.com/playlist?list=PLBheEHDcG7-k1Y_Uy04Dj2ylWhcfSfqoF
❯ Наука о данных
https://www.youtube.com/playlist?list=PLysMDSbb9HcwIpPPBR72Qe7CMCgx-D9Ob
❯ Python и базы данных
https://www.youtube.com/playlist?list=PLysMDSbb9HcxdvtQSkYoO7xaF3SvGUD8n
❯ Numpy полный курс
https://www.youtube.com/playlist?list=PLysMDSbb9Hcz3Gdi9oV-btohZ9zhths-r
❯ R
http://youtube.com/playlist?list=PL6gx4Cwl9DGCzVMGCPi1kwvABu7eWv08P
❯ PowerBI
http://youtube.com/playlist?list=PLv2BtOtLblH13vCbf99BptWWk-EWx7QQG
❯ Линейная алгебра и аналитическая геометрия
https://www.youtube.com/playlist?list=PLaX3n04-uUZoTu4DcD2Eqgq-h5wimh_uT
❯ Python
https://www.youtube.com/playlist?list=PLV0FNhq3XMOKljD7POtuWVAZn8wXcn4-L
❯ Excel
https://www.youtube.com/playlist?list=PLzilK6a-UuVl5FP-QY1ks_c--3CrYU3MX
❯ Data Analysis
http://youtube.com/playlist?list=PLrRPvpgDmw0ks5W7U5NmDCU2ydSnNZA_1
❯ Data Analyst
http://youtube.com/playlist?list=PLUaB-1hjhk8FE_XZ87vPPSfHqb6OcM0cF
❯ Linear Algebra
http://youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab
❯ Calculus
http://youtube.com/playlist?list=PLZHQObOWTQDMsr9K-rj53DwVRMYO3t5Yr
❯ Statistics
http://youtube.com/playlist?list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9
❯ Machine Learning
http://youtube.com/playlist?list=PLQVvvaa0QuDfKTOs3Keq_kaG2P55YRn5v
❯ Deep Learning
http://youtube.com/playlist?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI
❯ Deep Learning
http://youtube.com/playlist?list=PLblh5JKOoLUIxGDQs4LFFD--41Vzf-ME1
❯ Excel Power Query
http://youtube.com/playlist?list=PLmHVyfmcRKyyKV86N7i0q9TfYNN8bBjX-
❯ Microsoft Excel
http://youtube.com/playlist?list=PLmHVyfmcRKyx1KSoobwukzf1Nf-Y97Rw0
👇Делитесь полезными DS плейлистами в комментариях
@data_analysis_ml
🔥 Дайджест полезных материалов из мира : Data Science за неделю
Почитать:
— Как мы решили вопрос нехватки кадров, обучив соискателей работе с Apache Spark
— Создание приложения для потоковой передачи видео с физическими элементами управления
— Пять подходов к созданию ad-hoc-датафреймов в PySpark
— Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]
— 7 аргументов почему UUID лучше, чем автоинкрементные идентификаторы
— Тестирование производительности на Python: Пошаговое руководство с Flask
— Boosting Resiliency with ML-Based Telemetry Analytics Architecture
— Dominando a função WITH: Criando Consultas Temporárias no SQL
— The Secret Sauce of Success: Soft Skills Every data Scientist needs
— What AI-driven analytics tools aid in data-driven decision-making for businesses?
— Unlocking Computational Efficiency in Event Analysis Through Centroids and Blocks: A Conceptual Exploration
— How can AI-driven cybersecurity tools protect businesses from daily threats and breaches?
— SQL Roadmap for Data Analysts[Step-by-Step]
— Dataviz accessibility review: what we can learn from the Norwegian 2023 election graphs
— Data Science Mentorship in Ahmedabad Learning from the Best
— 7-Stage Roadmap for Data Science
Посмотреть:
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 Невероятная нейросеть переводит любое видео на другие языки с сохранением оригинального голоса. (⏱ 00:55)
🌐 Python анализ данных с Pandas. PandaSQL (⏱ 12:13)
🌐 Python анализ данных с Pandas. Join, merge, concat в Pandas (⏱ 19:25)
🌐 Python+SQL часть2 создание таблиц. (⏱ 05:15)
🌐 Управление жестами всегда было в ваших часах, просто его нужно было активировать. (⏱ 00:11)
🌐 Уроки Golang с нуля /#28 - Встраивание типов (⏱ 06:16)
🌐 Уроки Golang с нуля /#27 - Bufio. Чтение и запись (⏱ 10:35)
🌐 Python анализ данных с Pandas. (⏱ 17:04)
🌐 ODSC Webinar | A Path to Insights Starts with Trusted Data (⏱ 23:23)
🌐 Not Just Deep Fakes: Apps of Visual Generative Models in Pharma Manufacturing - Guglielmo Iozzia (⏱ 01:18:40)
🌐 Lightning Interview “Beyond the Code: How AI Is Disrupting the Programmer's Role” (⏱ 58:40)
🌐 AI Reads Minds of 29 Patients! (⏱ 06:01)
🌐 OpenAI’s ChatGPT Nails 150+ Difficult Tasks! (⏱ 05:54)
Хорошего дня!
@data_analysis_ml
Знаете основы анализа данных и хотите получить заветный оффер?
Наберитесь опыта, поработав над реальными рабочими задачами на Симуляторе аналитика.
Симулятор аналитика — это практически настоящая стажировка, где под руководством ведущих аналитиков с опытом работы в Яндексе, ВКонтакте и JetBrains вы будете сами проводить A/B-тесты, автоматизировать отчётность, создавать дашборды с продуктовыми метриками и разбираться с другими важными бизнес-задачами.
Будет непросто, но с опытом решения кейсов, доступных в симуляторе, вас будут ждать в любой компании!
Записывайтесь на следующий поток: https://karpov.courses/simulator
Кстати, по промокоду DATA23ML для вас действует скидка 5% до 27 сентября
Реклама. ООО "Карпов Курсы". Erid: LjN8KWWWj
📢 Внимание, продуктовые аналитики! Приглашаем принять участие в осенних конкурсах Карьерного цеха 📢
Это отличная возможность проверить свои профессиональные навыки, решая реальные кейсы от ведущих компаний.
🔹 Что вас ждет:
Практические кейсы по аналитике двух уровней сложности. Задания станут доступны всем зарегистрировавшимся с 25 сентября.
Возможность продемонстрировать свои навыки работы с данными, знание метрик, a/b тестов и многое другое
Прямой эфир с экспертами, которые разберут несколько работ и дадут ценные комментарии.
🔹 Бонусы для участников:
Сертификат об участии на русском и английском языке.
Возможность по результатам конкурса получить работу в компании HH.ru
🔹Полное описание конкурса и регистрация на сайте Карьерного цеха.
Приглашайте друзей и коллег поучаствовать вместе с вами!
Подписывайтесь на канал аналитиков Карьерного Цеха, где публикуют всю важную информацию о конкурсах.🔥
Присоединяйтесь к вебинару livecoding и обучайте модель Machine Learning в режиме реального времени.
Когда: 15 сентября в 19:00.
Тема: "Прогнозирование цен на автомобили с помощью машинного обучения”
Длительность: около 2 часов.
Кто обучает: эксперт в Data Science с 10-летним практическим опытом
Что будет на вебинаре:
✅Пошаговая разборка ML-процесса
✅Практические задания с доступом к реальным данным и среде
✅Интерактивное обучение и обсуждение
Вместе мы сделаем сложное простым и достигнем результатов с минимальными усилиями 💪
Бесплатное участие только для первых 30 записавшихся человек.
👉 Записаться на вебинар
Реклама: ИП Кравченко Николай Васильевич LjN8KYXZ9
🖥 Python анализ данных с Pandas. Join, merge, concat в Pandas
• Видео
• Код из видео
• Часть 1
• Часть 2
@data_analysis_ml
👨🎓 Бесплатный курс : Python and Statistics for Financial Analysis
Python и статистика для финансового анализа.
К концу курса вы сможете решать следующие задачи с использованием языка python:
• Импортировать, предварительно обрабатывать, сохранять и визуализировать финансовые данные в pandas Dataframe
• Манипулировать финансовыми данными
• Применять важные статистические функции (частота, распределение, популяция и выборка, доверительный интервал, линейная регрессия и др. ) в финансовых задачах.
• Строить торговые модели с использованием
• Оценивать эффективность торговых стратегий с помощью различных инвестиционных индикаторов
В платформе курса настроена среда Jupyter Notebook, позволяющая практиковаться в коде на python без установки каких-либо приложений.
📌 Курс
@data_analysis_ml
👨🎓 Бесплатный курс от University of London: Foundations of Data Science: K-Means Clustering in Python
Вы рассмотрите фундаментальные понятия науки о данных на примере задачи кластеризации данных и на практике освоите базовые навыки программирования.
В ходе курса необходимо выполнить ряд упражнений по математике и программированию, а также небольшой проект по кластеризации данных для заданного набора данных.
📌Курс
🔥Наберем 50 бустов и мы выложим список из 25 бесплатных курсов по NLP и 25 курсов по математике для Дата сайентиста.
@data_analysis_ml
🔥Актуальные плейлисты и руководства для дата сайентистов.
1. Полный плейлист по аналитике данных и науки о данных на Python
• Python на английском языке
• Плейлист на русском
2. Полный плейлист по статистике для аналитики данных и науки о данных
• Лекции и семинары по курсу "Математическая статистика" на русском
•. Статистика на английском языке
• Плейлист статистики на английском языке
3. Полный SQL для аналитики и науки о данных
• Полный плейлист по SQl на английском языке
• Базовый курс по SQL для аналитиков и менеджеров на русском
4. Учебники по Git и Github
• Учебники по Git и Github на английском языке
• Git курс
5. EDA и Feature Engineering и Feature Selection
• Плейлист по Feature Engineering
• Выбор функций
6. Плейлист по машинному обучению
• Плейлист курс ML на английском языке
• Новый плейлист куос ML 2023 на английском языке.
• Машинное обучение на английском языке:
• Машинное обучение на русском
7. Полный плейлист по глубокому обучению и NLP
• NLP плейлист
• Полный плейлист NLP Live на английском языке
8. Важные фреймворки для производственных развертываний
• Подробный плейлист по Flask на английском языке
• BentoML Tutorial
• Gradio Crash Course
9. Полный комплект инструментов AWS Sagemaker и Sagemaker Studio
• Плейлист Sagemaker
10. Полное руководство по MLOPS
• Полный комплект Dockers In One Shot Английский язык
• Учебные пособия MLFLOW с развертыванием
• Мониторинг модели Evidently AI
11. Конечные проекты ML, DL и NLP - весь жизненный цикл до развертывания с использованием инструментов с открытым исходным кодом
• Плейлист End To End ML Projects на английском языке
12. Генеративный ИИ и открытый ИИ Плейлист
• OPENAI Playlist English(In Progress)
• Langchain Playlist(In Progress)
13. Полное руководство по Pyspark
• Плейлист Pyspark
14. Полный список вопросов для собеседования по науке о данных, машинному обучению и глубокому обучению
/channel/data_analysis_ml?boost - поддержите нас голосом, а мы подготовим вам больше полезных подборок
У каналов в Телеграме теперь есть уровни и за них можно голосовать пользователям с премиум аккаунтами.
С первым уровнем откроются истории в канале.
Версия телеграм должна быть последней, работает только с премиум подписчиками.
Проголосовать
@data_analysis_ml
🐼Как устроен Pandas: взгляд изнутри
Структура данных Pandas
Как правило, датафрейм поддерживается каким-нибудь массивом, например NumPy или Pandas ExtensionArray. Эти массивы хранят данные датафрейма. pandas
добавляет промежуточный слой Block и BlockManager. Он управляет этими массивами, обеспечивая максимальную эффективность операций. Это одна из причин, почему в Pandas методы, работающие с несколькими столбцами, могут быть очень быстрыми. Далее более подробно рассмотрим упомянутые слои.
Массивы
Фактические данные датафрейма могут храниться в наборе массивов NumPy или Pandas ExtensionArray. Этот слой обычно направляет к базовой реализации, например использует NumPy API при условии хранения данных в массивах NumPy. Pandas хранит в них данные и вызывает свои методы без расширения интерфейса.
Массивы NumPy обычно являются двумерными и дают ряд преимуществ в производительности, о которых речь пойдет далее. На данный момент Pandas ExtensionArray в основном представляют собой одномерные структуры данных, благодаря чему операции становятся предсказуемыми.
Однако не обошлось и без недостатков: в ряде случаев страдает производительность.
ExtensionArray допускает применение датафреймов, которые поддерживаются массивами PyArrow и другими типами данных Pandas.
Block
Датафрейм обычно состоит из столбцов, представленных по крайней мере одним массивом. Как правило, имеется коллекция массивов, так как один массив может хранить только один определенный тип данных. Эти массивы хранят данные, но не владеют информацией о том, какие столбцы они представляют. Каждый массив из датафрейма обернут соответствующим блоком Block.
✔ Block добавляет дополнительную информацию в массивы, например расположение представленных им столбцов.
✔Block служит слоем вокруг фактических массивов с возможностью расширения вспомогательными методами, необходимыми для операций Pandas.
✔ При выполнении фактической операции с датафреймом Block гарантирует, что метод направляется в базовый массив. Например, при вызове astype он убедится, что эта операция вызывается в массиве.
Данный слой не располагает информацией о других столбцах в датафрейме, являясь автономным объектом.
BlockManager
Как следует из названия, BlockManager управляет всеми Block, связанными с одним датафреймом. Он содержит сами Block и информацию об осях датафрейма, например имена столбцов и метки Index.
И самое главное в том, что он направляет большинство операций к фактическим Block:df.replace(...)
BlockManager гарантирует, что replace выполняется для каждого Block.
Понятие консолидированного датафрейма
Мы исходим из того, что датафреймы поддерживаются типами данных NumPy, например их данные могут храниться в двумерных массивах.
При создании датафрейма Pandas гарантирует, что на каждый тип данных приходится только один Block:df = pd.DataFrame(
{
"a": [1, 2, 3],
"b": [1.5, 2.5, 3.5],
"c": [10, 11, 12],
"d": [10.5, 11.5, 12.5],
}
)
У этого датафрейма есть 4 столбца, представленные двумя массивами: один из них хранит целочисленный тип данных, а другой — числа с плавающей точкой. Это и есть консолидированный датафрейм.
Добавим новый столбец к этому датафрейму: df["new"] = 100
У него такой же тип данных, как и у существующих столбцов "a" и "c". Рассмотрим 2 возможных варианта дальнейших действий:
1. Добавление нового столбца в существующий массив, содержащий целочисленные столбцы.
2. Создание нового массива только для хранения нового столбца.
◾️ Первый вариант предусматривает добавление нового столбца в существующий массив. Для этого требуется скопировать данные, поскольку NumPy не поддерживает эту операцию без копирования. В итоге добавление одного столбца оборачивается слишком большими затратами.
◾️ Второй вариант
📌 Читать
@data_analysis_ml
👆7 бесплатных онлайн-курсов по дата-инжинирингу.
1. Become a Data Engineer - Udacity
2. Data Engineering, Big Data, and Machine Learning on GCP Specialization - Coursera
3. Become a Data Engineer - Coursera
4. Data Engineer with Python - Datacamp
5. Big Data Specialization - Coursera
6. Data Engineering with Google Cloud Professional Certificate - Coursera
7. Data Warehousing for Business Intelligence Specialization - Coursera
@data_analysis_ml
🚀 𝐄𝐱𝐜𝐢𝐭𝐢𝐧𝐠 𝐀𝐧𝐧𝐨𝐮𝐧𝐜𝐞𝐦𝐞𝐧𝐭: 𝐈𝐧𝐭𝐫𝐨𝐝𝐮𝐜𝐢𝐧𝐠 𝐃𝐞𝐜𝐢𝐃𝐢𝐟𝐟𝐮𝐬𝐢𝐨𝐧 𝟏.𝟎 - 𝐑𝐞𝐯𝐨𝐥𝐮𝐭𝐢𝐨𝐧𝐢𝐳𝐢𝐧𝐠 𝐓𝐞𝐱𝐭-𝐭𝐨-𝐈𝐦𝐚𝐠𝐞 𝐆𝐞𝐧𝐞𝐫𝐚𝐭𝐢𝐨𝐧!✨
DeciDiffusion 1.0, новая модель диффузии текста в изображение.
Имея впечатляющие 820 млн. параметров, она достигает такого же исключительного качества, как и модель Stable Diffusion v1.5 с 860 млн. параметров, но за 40%
меньшее количество итераций.
🔹 Высочайшая эффективность вычислений: на 40% меньше итераций и в 3 раза быстрее, чем в Stable Diffusion v1.5, что привело к снижению затрат почти на 66%.pip install diffusers --upgrade
pip install invisible_watermark transformers accelerate safetensors
▪Colab
▪Model
▪Demo
@data_analysis_ml
SmartDev 2023 — большая конференция про технологии от Сбера
21 сентября в кинотеатре «Октябрь» пройдет технологическая конференция SmartDev 2023, организованная Сбером. На одной площадке соберутся ведущие инженеры и разработчики из Сбера, VK, Яндекса, Kaspersky и других компаний, чтобы обменяться опытом создания лучших технологических решений в мире.
Основные темы конференции:
– Машинное обучение и искусственный интеллект
– Архитектура программных решений
– DevOps
– Работа с большими данными
– Безопасность приложений
– Инновации и стратегии в разработке ПО
Помимо этого впервые в России можно услышать выступление генерального директора Gitee, китайского аналога GitHub.Yong Xu.
Также участники конференции смогут задать вопросы создателям нашумевших проектов от Сбера — сервиса GigaChat и нейросети Kandinsky.
Конференция соберёт 1500 участников в офлайне и несколько тысяч зрителей в онлайне.
Участие бесплатное, подробности и регистрация — на сайте конференции.
🟥 Как автоматизировать создание контента для YouTube и блога с помощью LangChain и OpenAI
Часть 1. Базовые настройки
Шаг 1. Настройка среды
Прежде чем начать, нужно убедиться, что у нас установлены все необходимые пакеты.
🔴LangChain: фреймворк, упрощающий использование больших языковых моделей.
🔴OpenAI: большая языковая модель, которую мы будем использовать.
🔴Streamlit: фреймворк для создания веб-приложений на Python.
🔴Python-dotenv: пакет для управления переменными окружения.
Чтобы установить эти пакеты, откройте терминал и запустите:
pip install langchain openai streamlit python-dotenv
Шаг 2. Получение API-ключа OpenAI
Далее вам необходимо получить API-ключ OpenAI. Это уникальный ключ, открывающий доступ к модели GPT-3 (GPT-3.5/ChatGPT, GPT-4). После регистрации учетной записи в OpenAI вы найдете API-ключ на дашборде.
Полученный ключ нужно надежно сохранить в файле .env. В каталоге проекта создайте файл .env и добавьте в него следующую строку:OPENAI_API_KEY=ваш_ключ_openai
Замените ваш_ключ_openai на свой действительный ключ OpenAI. Этот файл будет использоваться для безопасного хранения API-ключа.
Шаг 3. Настройка файла app.py и импорт библиотек
Создадим главный файл Python, app.py. В нем и будем разрабатывать маркетингового ИИ-помощника.
Начнем с импорта необходимых библиотек и загрузки переменных среды:from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain, SimpleSequentialChain, SequentialChain
import os
from dotenv import load_dotenv
load_dotenv()
В этих строках кода импортируется класс OpenAI из модуля langchain.llms, который позволяет взаимодействовать с моделью GPT. Кроме того, импортируются классы PromptTemplate и LLMChain, которые будут использоваться для создания промптов и цепочек.
Функция load_dotenv() загружает переменные среды OPENAI_API_KEY из файла .env.
Часть 2. Компоновочные блоки LangChain
Шаг 4. Обзор основных компонентов
Прежде чем приступить к написанию кода, сделаем краткий обзор компонентов, которые будем использовать.
🔵Большая языковая модель (LLM): экземпляр модели GPT-3.
🔵Шаблон промптов (Prompt Template): простая инструкция для LLM. Она принимает входные переменные и использует их в шаблоне.
🔵Цепочка (Chain): комбинация LLM и шаблона промптов. Она является самой малой рабочей единицей в LangChain.
Эти три компонента будут использованы для разработки генератора публикаций в блоге.
Шаг 5. Создание первой LLMChain
Чтобы создать первую цепочку, нужно инициализировать LLM, разработать шаблон промптов, а затем объединить их в цепочку.
Настройте LLM и первый шаблон промптов:# Пример LLMChain
# Модель
llm = OpenAI(temperature=0.9)
# Промпт
blog_prompt_template = PromptTemplate(
input_variables = ['product_description'],
template = 'Write a blog post on {product_description}'
)
# Цепочка
blog_chain = LLMChain(llm=llm, prompt=blog_prompt_template, verbose=True)
# Запуск
product_description = 'best eco-friendly coffee'
blog_chain.run(product_description)
СОВЕТ: ПАРАМЕТР TEMPERATURE УПРАВЛЯЕТ РАНДОМНОСТЬЮ ВЫХОДНЫХ ДАННЫХ МОДЕЛИ. ОН ПРИНИМАЕТ ЗНАЧЕНИЯ ОТ 0 ДО 1, ГДЕ МЫ УСТАНОВИЛИ ЗНАЧЕНИЕ 0,9, ПОСКОЛЬКУ ХОТИМ ПОЛУЧИТЬ МНОГО НОВЫХ ИДЕЙ, В ТО ВРЕМЯ КАК МЕНЬШЕЕ ЗНАЧЕНИЕ, НАПРИМЕР 0, ДЕЛАЕТ МОДЕЛЬ БОЛЕЕ ДЕТЕРМИНИРОВАННОЙ.
В приведенном выше коде настраивается LLM и создается шаблон промптов, который принимает описание продукта и генерирует в блоге публикацию о нем. Затем эти два шаблона объединяются, чтобы сформировать цепочку. Потом запускается LLMChain с product_description.
Часть 3. Освоение основ цепочек в LangChain
Шаг 6. Создание SimpleSequentialChain
📌Читать
@data_analysis_ml
🚀 Гарвардский университет предлагает БЕСПЛАТНОЕ образование мирового класса в области Data Science!
Курсы охватывают:
- Python
- Визуализация данных
- Вероятность
- Статистика
- Машинное обучение
- Наука о данных: Capstone
▪Курс
@data_analysis_ml
💻 Принципы SOLID в инженерии данных.
Как принципы SOLID трансформируются в функциональном программировании?
▪️Принцип единственной ответственности: у каждой функции должно быть одно назначение, то есть возможно несколько задач, но одна достигаемая цель.
▪️Принцип открытости/закрытости: исходный код каждой функции открыт для расширения, но закрыт для модификации.
▪️Принцип подстановки Лисков: каждая функция заменяется на другую с той же сигнатурой без изменения поведения программы.
▪️Принцип разделения интерфейса: каждая функция не зависит от ненужных ей функций.
▪️Принцип инверсии зависимостей: все функции зависят от входных аргументов, а не жестко заданного в функции поведения.
Интерпретация принципов SOLID: ООП против функционального программирования (в изображении)
Нарушение и соблюдение принципов SOLID на примерах
1. Принцип единственной ответственности
Согласно этому принципу, функция должна меняться только по одной причине. То есть у нее может быть несколько задач, но лишь одна цель в большой единице работы. Именно здесь осуществляется разделение обязанностей, когда каждой частью программы выполняется только одна задача, и выполняется хорошо.
Например, если единственная причина изменений конвейера данных для обслуживания команды — ускорение обработки, занятый улучшением производительности код отделяется от частей программы с другими задачами.
🔘 Примеры
🔘 Часть 1.
🔘 Часть 2.
@data_analysis_ml
🤖 Как использовать агенты Hugging Face для решения задач NLP
Hugging Face — ИИ-сообщество с открытым исходным кодом для практиков машинного обучения — недавно интегрировало концепцию инструментов и агентов в свою популярную библиотеку Transformers.
Если вы уже использовали Hugging Face для решения задач обработки естественного языка (NLP), компьютерного зрения и работой над аудио/речью, вам будет интересно узнать о дополнительных возможностях Transformers.
Агент Transformers: реализация
В этом разделе я использовал документацию Hugging Face об агентах и реализовал их на собственных примерах.
Шаг 1. Требования
Начнем с импорта нескольких библиотек, которые будем использовать. Обратите внимание: я включил версии этих библиотек в результаты, чтобы вы могли создать идентичную среду.import transformers, huggingface_hub, diffusers, torch
from platform import python_version
print(f'python: {python_version()}')
print(f'transformers: {transformers.__version__}')
print(f'huggingface_hub: {huggingface_hub.__version__}')
print(f'diffusers: {diffusers.__version__}')
print(f'torch: {torch.__version__}')
Результаты:
📌 Продолжение
@data_analysis_ml
Yachay AI — открытое сообщество по машинному обучению
Проект предназначен для поддержки разработчиков в создании и обучении собственных моделей геотеггинга.
Представленная здесь архитектура моделей геотаггинга позволяет настраивать и обучать их. Кроме того проект содержит даатсеты, которые хорошо подходят для обучения в различных сценариях определения геолокации.
Из интересного: сообщество также разработало инструмент для определения геолокации
• Github
• Проект
• Датасеты
@data_analysis_ml
🌝 Крутые data science проекты с исходным кодом
1. Создание чат-ботов:
https://dzone.com/articles/python-chatbot-project-build-your-first-python-pro
2. Обнаружение мошенничества с кредитными картами:
https://kaggle.com/renjithmadhavan/credit-card-fraud-detection-using-python
3. Обнаружение фальшивых новостей
https://data-flair.training/blogs/advanced-python-project-detecting-fake-news/
4. Определение сонливости водителя
https://data-flair.training/blogs/python-project-driver-drowsiness-detection-system/
5. Рекомендательные системы (рекомендация фильмов)
https://data-flair.training/blogs/data-science-r-movie-recommendation/
6. Анализ настроений
https://data-flair.training/blogs/data-science-r-sentiment-analysis-project/
7. Определение пола и прогнозирование возраста
https://pyimagesearch.com/2020/04/13/opencv-age-detection-with-deep-learning/
@data_analysis_ml
📌esProc SPL - это скриптовый язык для обработки данных, с хорошо продуманными богатыми функциями и мощным синтаксисом, который может исполняться в Java-программе через интерфейс JDBC и вычисляться независимо.
• Github
• Документация
@data_analysis_ml