Сборник наиболее интересных Python материалов. https://pythondigest.ru/ Сделать донат - https://boosty.to/pydigest Блог автора - @whydaily Рекомендуем хостинг https://firstvds.ru/?from=421453
[Видео] Алексей Смирнов, CodeScoring. PyPI сегодня — радости статистики и печали безопасности
https://www.youtube.com/watch?v=n7oWW9Np2s4
В докладе рассматривается текущее состояние PyPI: от статистики по пакетам и отдельным характеристикам хранимых артефактов, до трактовки тенденций в python-сообществе на сегодня. Нельзя обойти стороной и (как никогда!) актуальный вопрос безопасности компонентной базы и цепочки поставки в целом, поговорим про: typosquatting, dependency confusion и malware в пакетах и средствах предотвращения угрозы. Доклад рассчитан на dev, devops, devsecops, (+pm?) Слушатели: -узнают, что происходит с пайтон пакетами сегодня, интересные статистики и картиночки -получат понимание инфраструктуры пакетного индекса и сообщества, его окружающего -подкуются в базовых принципах безопасной разработки (devsecops)
[Видео] Иван Канашов, Тинькофф. Удобное тестирование ETL процессов Apache Airflow
https://www.youtube.com/watch?v=yQcJtct4FaQ
Данные — это актив, они имеют реальную ценность, необходимо уметь ими управлять и защищать их. Мы в Тинькофф строим свою систему типа Data Catalog. Эта система собирает в себе все метаданные о таблицах, отчетах и бог знает чём еще в рамках предприятия и предоставляет инструменты для простого управления метаданными и самостоятельного поиска по ним. Я расскажу о том, как мы наполняем наш Data Catalog метаданными из более чем 25 источников, используя Apache Airflow. Как мы придумали подход, а затем и создали небольшой фреймворк.
[Видео] Дмитрий Легчиков, Ксения Вергелес, ЦИАН. Объединение данных компании с помощью графа знаний
https://www.youtube.com/watch?v=D1Bkj_tvEvo
Графы знаний активно применяются для улучшения пользовательских рекомендаций (амазон, нетфликс), для анализа фондового рынка (goldman sachs), поиска (яндекс, гугл) и даже для поиска новых молекул. Также это может быть удобным корпоративным инструментом, который объединяет и связывает данные внутри компании из разных источников. Это помогает исследователям, аналитикам и дата саентистам.
[Видео] Ольга Филиппова, Evidently AI. Мониторинг ML-моделей в production
https://www.youtube.com/watch?v=3pIbEwMYANI
Поговорим про мониторинг ML-моделей в production: о том, зачем и как это делать, что такое data drift и как его измерить. Также расскажу о том, почему выбор "правильной" метрики для data drift — одно из главных решений в мониторинге, и поделюсь результатами исследования пяти популярных статтестов, которое мы недавно провели в Evidently. На примерах покажу, как ведут себя разные метрики в зависимости от объема данных и размера data drift. Слушатели смогут сформировать интуицию о том, как ведут себя различные статтесты для определения data drift, и подобрать подходящую метрику под свою задачу и "сценарий" использования.
[Видео] Артем Приходько, Avito. Python vs multiprocessing
https://www.youtube.com/watch?v=sFb7T3T1GO8
Мультипроцессинг в питоне вещь актуальная, особенно если вы занимаетесь ML сервисами. Но если вы попытаетесь использовать его в ваших сервисах — вы непременно наткнетесь на ряд подводных камней, которые почти нигде не обсуждается. В докладе я бы хотел рассказать про наш опыт использования мультипроцессинга, с какими проблемами можно столкнуться, затаскивая его в реальные продакшн сервисы. Из этого доклада можно будет узнать: В каких случаях нужно использовать shared memory и как корректно и эффективно с ней работать. Расскажу про атомарные счетчики ссылок как альтернативу стандартным методам контроля над шареной памятью в питоне. Скрытые баги в стандартных питоновских очередях. Мультипроцессорные очереди в питоне ведут себя контринтуитивно (например, говорить, что очередь пуста, когда в ней на самом деле лежит куча тасков), плюс они не совсем кроссплатформенные. Эти вещи мало где обсуждаются, а проблемы, связанные с ними, напрямую аффектят сервисы. При этом сходу не понятно, что произошло не так и как можно это исправить.
Всё, что вам нужно знать о звёздочках в Python
pythontalk/python_asteriks" rel="nofollow">https://teletype.in/@pythontalk/python_asteriks
Большинство разработчиков знают символ звёздочки как оператор умножения в Python: product = 4 * 2 # 8 Однако, звёздочка имеет особое значение для сложных структур данных, например списка или словаря.
#python #pydigest
Сборник Python новостей уже перед вами.
В выпуске Python Дайджест вы найдете:
- Умные субтитры
- Оптимизируем дерево отрезков, делаем из него куст o_O
- Руководство по subplots в matplotlib
- Как собирать статистику по pytest-прогонам в Test IT
- Python на максималках: расширения на языках Rust и Cython
- Как компьютерное зрение помогает определить координаты спутниковых снимков
- [Видео] Доклады с PyCon Russia
Заходите в гости - https://pythondigest.ru/issue/463/
Присылайте интересные новости через форму на сайте.
Руководство по MicroPython MQTT на базе Raspberry Pi
https://habr.com/ru/post/697318/?utm_campaign=697318&utm_source=habrahabr&utm_medium=rss
Сегодня рассказываем как написать простой MQTT-клиент на Raspberry Pi при помощи MicroPython и реализовать функции подключения, отправки сообщений и подписки между клиентом и брокером MQTT-сообщений.
Как мы строили самую большую модель кредитного скоринга в сегменте МСБ
https://habr.com/ru/post/696226/?utm_campaign=696226&utm_source=habrahabr&utm_medium=rss
Рано или поздно у любого банка появляется желание выдавать кредиты: максимально быстро, эффективно и с контролируемыми рисками. Для этой задачи нужна развитая система риск-менеджмента и как важная часть системы — модель кредитного скоринга. В статье речь пойдет о том, как это всё устроено в Точке.
Топ-30 онлайн-ресурсов для обучения детей основам программирования на Python
https://habr.com/ru/post/696634/?utm_campaign=696634&utm_source=habrahabr&utm_medium=rss
Владение языком Python станет прекрасным активом будущего программиста. Если ваш ребенок увлекается программированием, то процесс обучения можно разнообразить с помощью полезных видео, обучающих игр, вступления в тематические сообщества и многого другого. В этой статье мы собрали полезные ресурсы по Python и поделили их по категориям.
Как компьютерное зрение помогает определить координаты спутниковых снимков
https://habr.com/ru/post/696422/?utm_campaign=696422&utm_source=habrahabr&utm_medium=rss
В этой статье расскажу о том, как я занял второе место в конкурсе «Цифровой прорыв» с решением по автоматизации привязки фотографии к географическому положению. Главный инсайт — базовые решения не всегда хороши и проверены. Спойлер — самодеятельность и использование современных подходов помогают победить :) Расскажу на своем опыте, как не сделать свое решение хуже базового и проанализирую подходы других участников.
Как собирать статистику по pytest-прогонам в Test IT
https://habr.com/ru/post/695814/?utm_campaign=695814&utm_source=habrahabr&utm_medium=rss
Как известно, основной проблемой в тестировании является отчетность по прогонам. Некоторые компании собирают данные в отдельном хранилище. Вместо того, чтобы вручную организовывать хранение, было решено сохранять их в Test IT. Такие данные как: исход, время выполнения и количество автоматизированных кейсов позволяют разделить тесты на выборки и дать оценку покрытия автотестами.
Что делать, если твой временной ряд растёт вширь
https://habr.com/ru/post/696336/?utm_campaign=696336&utm_source=habrahabr&utm_medium=rss
Есть мнение, что прогнозирование временных рядов - сложная задача. Но не будем расстраиваться, ведь есть и плюсы - существует ещё большое количество задач, когда рядов сразу несколько, и такие задачи ещё сложнее! Когда начинаем сравнивать, понимаем, что прогнозировать одномерные временные ряды не так уж и сложно. А вот что делать с ситуацией, когда временной ряд обрастает параллельно идущими с ним последовательностями других параметров (многомерный ряд), какие методы и алгоритмы использовать, и что делать, если задача прогнозировать такие ряды есть, а опыта не очень много (спойлер - используйте AutoML, а пока он работает восполните пробел прочитав пару статей по теме).
#python #pydigest
Сборник Python новостей уже перед вами.
В выпуске Python Дайджест вы найдете:
- Ищем значение числа Пи используя генератор случайных значений
- Что делать, если твой временной ряд растёт вширь
- [Python Intermediate] Урок 2. Docker и docker-compose
- Squish для QT глазами разработчика
- Как автоматизировать рутинные операции с помощью Jupyter, Python и Selenium
- Бот для определения болезней собак. Улучшаем систему опроса
- Практическая обработка изображения линии горизонта с помощью Python
- Книга «Создание приложений машинного обучения: от идеи к продукту»
Заходите в гости - https://pythondigest.ru/issue/462/
Присылайте интересные новости через форму на сайте.
Как мы “побеждали” в хакатоне по машинному обучению Data Product Hack
https://habr.com/ru/post/696056/?utm_campaign=696056&utm_source=habrahabr&utm_medium=rss
В статье я поделюсь опытом, как нам удалось всего за 5 дней собрать команду, придумать идею проекта, создать с нуля работающий прототип продукта, который решает реальную проблему на данных, и параллельно с этим посетить 12 встреч с ML-экспертами из ведущих AI компаний. Надеюсь, мой опыт поможет тебе подготовиться к твоему первому хакатону!
[Видео] Сергей Васечко, Точка. Менеджер распределённых заданий на кролике без celery
https://www.youtube.com/watch?v=jrzxAsHFvtI
В докладе поговорим о том, как использование стандартных возможностей уже готовых инструментов делает проект проще, как избавиться от лишних зависимостей и не потерять, а иногда и приобрести в функционале. Рассмотрим, как маршрутизация на кролике дает то, что не всегда может дать сторонний инструмент. Заглянем в то, как правильно заданный вопрос "почему и зачем" уменьшает количество проблем на проде. И конечно обсудим, на какие грабли мы наступили сами и какие встретятся, если выкинуть внешние зависимости.
[Видео] Никита Дмитриев, Катбуст. Как мы переизобретали эксель для MLops'а
https://www.youtube.com/watch?v=g2h8kJPywSE
В современном мире уже никого не удивить машинным обучением. Наиболее важно обеспечивать высокое качество и надежность моделей и, как следствие, бурно развиваются MLOps инструменты, которые позволяют управлять всем жизненным циклом машинного обучения. Мы в Яндексе, конечно, тоже делаем такой инструмент для внутренних пользователей. Один из его элементов — инструмент для пообъектного сравнения, позволяющий понять на каких объектах разные модели ведут себя лучше, а на каких хуже. Проблема заключается в том, что общий объем данных для сравнения может быть довольно большим. Кроме того, необходимо предоставить пользователю удобные средства сортировки и фильтрации для анализа полученного сравнения. В своем докладе я расскажу, как мы такой инструмент строили, развивали, и к чему в итоге пришли. Доклад будет интересен Data инженерам, разработчикам ETL процессов, специалистам по качеству и анализу данных.
[Видео] Олег Пригода, Лаборатория Касперского. Пилим питона на конструктор. Как мы кастомизировали PyTest
https://www.youtube.com/watch?v=r8vwPReLAeM
В докладе расскажем о том, как мы разрабатывали инструмент для запуска разнородных тестов на разнородном железе. Доклад рассчитан на разработчиков, тестировщиков, билд-инженеров и менеджеров, которые: планируют построить систему CI/CD, включающую прогон тестов на железе и эмуляторах; хотят иметь единый подход к запуску тестов; хотят, чтобы в их проектах была трассируемость результатов выполнения тестов в требования; имеют большой зоопарк разнородного железа, на котором нужно прогонять тесты.
[Видео] Юрий Кацер. Поиск точек изменения состояния (changepoint detection) на python
https://www.youtube.com/watch?v=MywHZ7bfDS4
Общая задача обнаружения аномалий во временных рядах часто разделяется на две отдельные задачи: обнаружение выбросов или бинарная классификация (для точечных аномалий) и обнаружение точек изменения состояния (changepoint detection, для коллективных аномалий). В докладе подробно рассмотрена задача changepoint detection, методы для обнаружения точек изменения состояния, библиотеки на python, с помощью которых можно решать эту задачу. Также в докладе продемонстрирована реализация на python одного из самых распространенных подходов к решению задачи (генерация невязки сигнала) без применения специализированных библиотек.
[Видео] Денис Усачёв, Сбердевайсы. Как мы один pet-project масштабировали
https://www.youtube.com/watch?v=ptry3AH75lo
Во время работы над сложными проектами, например, такими как виртуальные ассистенты, возникают нетиповые задачи, для решения которых нет подходящего инструмента или фреймворка. Иногда такие задачи кажутся маленькими и незначительными, поэтому один разработчик-энтузиаст за два дня пишет на коленке маленький Python сервис и делится им с коллегами. Но как быть, если маленький наколенный проект с 2 RPS, предназначенный для использования несколькими людьми, выстреливает, и его накрывает волна фича реквестов и пользователей из десятков команд? В своём докладе я расскажу, как развивался наш внутренний инструмент UnionPortal, предназначенный для поддержки NLP задач, про его эволюцию, начиная с маленького наколенного проекта и заканчивая большим отказоустойчивым сервисом со всеми правилами хорошего тона enterprise сервиса. Мы затронем такие интересные вопросы как масштабирование, бесшовный вывод из и ввод в эксплуатацию, сокращение стоимости разработки и внедрение единого архитектурного стандарта.
Руководство по subplots в matplotlib
pythontalk/matplotlib_subplot_tutorial" rel="nofollow">https://teletype.in/@pythontalk/matplotlib_subplot_tutorial
Если вы полезли в аналитику, то, вероятно, обнаружили, что там много, ну ОЧЕНЬ МНОГО графиков. Иногда хватает одного, и тогда всё отлично. А если нужно два? А если пять? И рядом. Тут поможет matplotlib.
10 итераторов, о которых вы могли не знать
https://habr.com/ru/post/697390/?utm_campaign=697390&utm_source=habrahabr&utm_medium=rss
Одним из главных достоинств Python является выразительность кода. Не последнюю роль в этом играет возможность удобной работы с коллекциями и последовательностями различного вида: перебор элементов списка по одному, чтение файла по строкам, обработка всех ключей и значений в словаре. Эти и многие другие подобные задачи в Python помогает решить так называемый протокол итераторов (Iterator protocol). Именно этот протокол обеспечивает работу цикла for, устанавливает по каким объектам можно итерироваться, а по каким нет. Как мы увидим далее, сам язык и стандартная библиотека очень широко используют возможности протокола. В этой статье попробуем отыскать не самые известные, но от этого не менее интересные примеры итераторов и итерируемых объектов, которые предлагает Python.
Python на максималках: расширения на языках Rust и Cython
https://habr.com/ru/post/697034/?utm_campaign=697034&utm_source=habrahabr&utm_medium=rss
В этой статье мы попробуем решить несколько простых задач, используя чистый Python и два языка расширения: Rust и Cython. Чтобы сравнить два этих подхода, мы оценим трудоемкость каждого из них, а также рассмотрим случаи, в которых следует попробовать что-то другое. Начнем с установки и с простых приложений, а затем перейдем к более сложным экспериментам.
[Видео] Moscow Python Podcast. Грабли на пути джуна (level: all)
https://www.youtube.com/watch?v=UgueMfGdbvI
Thermal Vision: Night Object Detection with PyTorch and YOLOv5 (real project)
https://pyimagesearch.com/2022/10/31/thermal-vision-night-object-detection-with-pytorch-and-yolov5-real-project/
Небанальные правила чистого Python. Часть 1
https://habr.com/ru/post/693668/?utm_campaign=693668&utm_source=habrahabr&utm_medium=rss
Большинство питонистов не раз слышали о таких правилах как «функции должны быть глаголами» или «не наследуйтесь явно от object в Python 3». В этой статье мы рассмотрим не такие банальные, но полезные правила чистого кода в Python.
Multiple Instance Learning (MIL) для классификации наборов гистологических изображений со светлоклеточным раком почки
https://habr.com/ru/post/696270/?utm_campaign=696270&utm_source=habrahabr&utm_medium=rss
С учётом актуальности Multiple Instance Learning (далее: MIL) и, в частности, наличия преимуществ данного метода для анализа гистологических изображений, решил попробовать обучить модели с целью классификации наборов данных, на те, которые содержат только нормальные ткани и те, в которых встречаются изображения со светлоклеточным раком почки.
Ищем значение числа Пи используя генератор случайных значений
https://habr.com/ru/post/696244/?utm_campaign=696244&utm_source=habrahabr&utm_medium=rss
Представьте, что у вас есть функция random(), которая генерируют случайным образом значения в промежутке от 0 до 1. Вычислите значение числа Пи.
Это задачка с реального собеседования, будем разбираться! Читать далее
Создание 3D-сетки из изображения с помощью Python
https://habr.com/ru/post/693338/?utm_campaign=693338&utm_source=habrahabr&utm_medium=rss
Несколько лет назад генерация 3D-сетки из единственного двумерного изображения была сложной задачей. Но сегодня благодаря продвижению глубокого обучения разработано множество монокулярных моделей оценки глубины, дающих точную оценку карты глубины изображения. С помощью этой карты, выполнив реконструкцию поверхности, можно создать сетку.
От джуна до тимлида. Должен ли тимлид писать хороший код, чем хорош planning poker и другие интересности
https://habr.com/ru/post/695800/?utm_campaign=695800&utm_source=habrahabr&utm_medium=rss
Когда-то Юрий Орлов решил перейти из врачей в программисты. В 2018 году он устроился в Genix джуном, а сейчас он — тимлид VK Group. Начало истории вы можете послушать (https://www.youtube.com/watch?v=s_ZNqjIW3ZA&ab_channel=MoscowPython) здесь, а в статье мы обсудим перипетии тимлидства — как опыт работы врачом помогает находить общий язык с людьми, должен ли тимлид писать код лучше членов команды, как работает Planning poker и что самое сложное в задачах тимлида.