Дерево решений (CART). От теоретических основ до продвинутых техник и реализации с нуля на Python
https://ift.tt/7CshMkl
Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов, которые входят в число самых мощных алгоритмов машинного обучения на сегодняшний день. Деревья также могут быть не бинарными в зависимости от реализации. К другим популярным реализациям решающего дерева относятся следующие: ID3, C4.5, C5.0.
А/Б тестирование на маленьких выборках. Построение собственного критерия
https://ift.tt/ayzrbMs
Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим данным. Обсудим плюсы и минусы такого подхода.
Model-View-Controller (MVC) in Python Web Apps: Explained With Lego
https://ift.tt/BbnI3gE
This tutorial conceptually explains the Model-View-Controller (MVC) pattern in Python web apps using Lego bricks. Finally understand this important architecture to streamline your web development process.
Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации
https://ift.tt/rNoy8gn
В предыдущих статьях статья 1, статья 2, статья 3 мы рассмотрели основные подводные камни автоматизации и анализу АБ тестов, привели подробный обзор статей по этой теме, а так же рассмотрели типичные задачи аналитика данных. В контексте АБ-тестов одним из ключевых аспектов является механизм разделения на группы, который в терминологии специалистов часто называется сплитовалкой.
Валидируйте это немедленно
https://ift.tt/4mWbZMg
Валидация данных является контрактом – этаким камнем в фундаменте бизнес-логики программы.
Предварительная обработка данных для машинного обучения
https://ift.tt/BxjiPM6
В данной статье рассмотрим пример предобработки данных для дальнейшего исследования, например, использование метода кластеризации. Но для начала проясним, что из себя представляет машинное обучение и из каких этапов оно состоит.
Основные типы распределений вероятностей в примерах
https://ift.tt/hINx5y9
Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением.
#python #pydigest
IT-новости про Python перед вами.
Часть материалов из выпуска Python Дайджест:
- Краткий обзор токенизаторов: что это такое и зачем это надо?
- Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности
- Ограничения в телеграм-бот (Bot API), о которых никто не расскажет
- Пишем чат-бот для работы с PDF
- [Видео] Практическая сторона тестов
- [Видео] Переход от Statsd к Prometheus
- whenever - Strict, Predictable, and Typed Datetimes
- hatchet - A distributed, fault-tolerant task queue
Заходите в гости - https://pythondigest.ru/issue/535/
Краткий обзор токенизаторов: что это такое и зачем это надо?
https://ift.tt/JxI4y6T
Представьте себе, что вы читаете книгу и хотите найти все места, где упоминается слово «кот». Не знаю, зачем вам это, но пока остановимся на том, что вы это хотите. Вот очень надо.Так как это сделать?
Упорядочиваем закладки
https://ift.tt/PFlz5Wa
У меня много статей в закладках. Многие из них я добавил, чтобы прочитать позже. Эта статья не про то, почему так произошло и как с этим бороться, а про то, как выбрать статью для удаления чтения. Давайте найдем самые лучшие статьи. Критериями могут быть, например, рейтинг, просмотры и т.д. И красиво оформим в виде HTML-файла.
botasaurus - The All in One Framework to build Awesome Scrapers
https://ift.tt/zdsP9ig
Talk Python to Me: #453: uv - The Next Evolution in Python Packages?
https://ift.tt/e9Pxt6A
Audio
Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM)
https://ift.tt/dQoJTuK
На сегодняшний день градиентный бустинг (gradient boosting machine) является одним из основных production-решений при работе с табличными, неоднородными данными, поскольку обладает высокой производительностью и точностью, а если быть точнее, то его модификации, речь о которых пойдёт чуть позже.
Wunjo AI - дипфейки, клонирование речи
https://ift.tt/eMkt3gD
Сегодня мы рассмотрим проект с открытым исходным кодом, позволяющий создавать дипфейки, клонировать речь, генерировать видео, удалять текст и объекты, а также получать изображения без фона, прямо на вашем компьютере. Поговорим о Wunjo AI и его возможностях для тех, кто еще не в курсе.
Telegram bot для наших bmw G серии часть 3
https://ift.tt/8Xa3SjZ
В завершающей 3 части постараюсь вкратце объяснить как запустить телеграм бота на VPS. Предыдущие части доступны здесь и здесь .
GIL в Python: как его будут отключать
https://ift.tt/ja2yEY8
Python-разработчики, как правило, хорошо знают, что такое и для чего нужен GIL, вопросы по нему встречаются на большинстве собеседований, я и сам люблю их задавать. Но в CPython его скоро не будет. Да, core-разработчики CPython взяли курс на его удаление.Разберём основные концепции того, как это будет произведено, с обзором соответствующего PEP 703.
Бэггинг и случайный лес. Ключевые особенности и реализация с нуля на Python
https://ift.tt/HtwhWqS
Далее пойдёт речь про бэггинг и мой самый любимый алгоритм — случайный лес. Не смотря на то, что это одни из самых первых алгоритмов среди семейства ансамблей, они до сих пор пользуются большой популярностью за счёт своей простоты и эффективности, зачастую не уступая бустингам в плане точности.
Две новых книги по Python от американского и российского авторов с промокодом
https://ift.tt/bY758vi
Начнем рубрику, пожалуй, с пары новых книг про Python, которые вышли за последний месяц. Ревью книг — не копия текста с сайта издательства, а сугубо наше мнение, после прочтения.
Open Source спутниковая интерферометрия PyGMTSAR (Python InSAR)
https://ift.tt/7im6gyG
Сегодня PyGMTSAR представляет собой наиболее мощный инструмент среди всех открытых InSAR
Классификация экзопланет (часть I обработка данных)
https://ift.tt/wgy3mz4
В машинном обучении есть один неоспоримый плюс- возможность заниматься чем угодно, если об это 'что угодно', есть данные. В данной статье мы обработаем данные с орбитального телескопа Kepler, сделаем отбор признаков и построим ml модель для классификации экзопланет. Это первая часть статьи с этими данным.
Сводка от pythonz net 10.03.2024 — 17.03.2024
https://ift.tt/IroXsdx
А теперь о том, что происходило в последнее время на других ресурсах.
Алгоритмы AdaBoost (SAMME & R2). Принцип работы и реализация с нуля на Python
https://ift.tt/zESqgpi
Следующим мощным алгоритмом машинного обучения является AdaBoost (adaptive boosting), в основе которого лежит концепция бустинга, когда слабые базовые модели последовательно объединяются в одну сильную, исправляя ошибки предшественников.
Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности
https://ift.tt/OE2t0kh
Была классическая задача: по табличным данным предсказать некое событие — случится или нет. И как бы я к этим данным ни подбирался, с какого ракурса ни смотрел, результат, увы, не впечатлял. Данных было мало, а то, что было, обладало слабой предсказательной силой. Хотя казалось, что что-то вытащить все-таки можно.
adinhodovic/django-admin-shellx - A Django Admin Web Shell using Xterm.js and Django Channels
https://ift.tt/VgqmvOQ
django-prose-editor – Prose-editing component for the Django admin
https://ift.tt/y8ZUnJf
coverage - 7.4.4
https://ift.tt/ZbJC0zH
Утилита позволяющая измерить процент покрытия тестами. Скачать можно по ссылке: https://pypi.python.org/pypi/coverage/