data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

⚡️ 7 признаков того, что вы стали продвинутым пользователем Sklearn

Вы узнаете о семи неоспоримых признаках того, что стали продвинутым пользователем Sklearn, о чем, возможно, и не подозревали. А поскольку Sklearn — самая популярная МО-библиотека, можете считать эти признаки подтверждением своего профессионализма в области машинного обучения.

Начнем!

0. Разделение на три набора
Почти все, что вы делаете в машинном обучении, направлено на избежание чрезмерной подгонки. Один из лучших способов борьбы с этим явлением — разделение данных не на два, а на три набора!

Кэсси Козырьков, руководительница отдела интеллектуальных решений в Google, считает: разделение данных — самая мощная идея в машинном обучении.

Вы знаете, что переподгонка может произойти не только на обучающей, но и на контрольной выборке. Вы замечали, что использование одного и того же набора для тестирования и настройки гиперпараметров часто приводит к утечке данных, которую трудно обнаружить.

При постоянном подстраивании гиперпараметров на основе производительности модели на конкретном тестовом наборе возникает риск переподгонки модели под этот конкретный набор.

Итак, вы обучаете выбранную модель, используя 50% имеющихся данных.
Затем проводите тонкую настройку и оценку модели на отдельном контрольном наборе, содержащем 25% данных. И наконец, когда baby-модель уже готова к внедрению, тестируете ее в последний раз, используя совершенно нетронутый (то есть вы даже не просматривали первые пять строк) тестовый набор.

Помня вышеупомянутое правило, вы сохраняете этот фрагмент кода на своем рабочем столе, чтобы скопировать/вставить его в любое время:

from sklearn.model_selection import train_test_split

def split_dataset(data, target, train_size=0.5, random_state=42):
# Разделение датасета на обучающий набор и остальные данные
X_train, remaining_data, y_train, remaining_target = train_test_split(
data, target, train_size=train_size, random_state=random_state
)

# Разделение оставшихся данных поровну на тестовый и валидационный наборы
X_val, X_test, y_val, y_test = train_test_split(
remaining_data, remaining_target, test_size=0.5, random_state=random_state
)

return X_train, X_val, X_test, y_train, y_val, y_test


1. Установление общепринятой базовой оценки
Как понять, вносят ли вклад в конечный продукт — идеальную модель — ваши действия в МО-проекте?

Подход “могу определить навскидку” не годится. Здесь нужна путеводная звезда — некий ориентир, на который всегда можно опереться, чтобы понять, может ли только что подготовленная модель пройти хотя бы простейшие тесты.

Как вы неоднократно убеждались на опыте своих проектов, эта путеводная звезда является общепринятой базовой эффективностью.

После идентификации задачи машинного обучения, выбора характеристик и определения целевой переменной вы устанавливаете либо DummyRegressor, либо DummyClassifier, чтобы оценить эффективность модели случайного угадывания для конкретной задачи. Эта оценка служит базовой, и все последующие эксперименты направлены на улучшение этого начального результата.

from sklearn.dummy import DummyClassifier

clf = DummyRegressor().fit(X_train, y_train)
clf.score(X_test, y_test)
Вы не устаете рекомендовать эту практику другим, включая вашего лучшего друга.

Однажды по глупости он перепробовал все подходящие для задачи классификации изображений Sklearn-модели и все более сложные архитектуры глубокого обучения, пытаясь выяснить, почему все его эксперименты не дают результата выше определенного порога.

Когда вы напомнили ему о базовой оценке, он попробовал DummyClassifier и понял: задача в принципе была неразрешима и все его усилия оказались пустой тратой времени, потому что ни один из его экспериментов не смог превзойти модель случайного угадывания. Ему пришлось искать новый набор данных.

Ничто не сравнится с ужасом перед оверинжинирингом (чрезмерным инжинирингом), когда модель, казавшаяся исключительной, оказалась совершенно неэффективной.

📌 Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
Есть ли жизнь после Nvidia?
Откройте свое будущее: Изучите 15 бесплатных курсов IBM прямо сейчас
Перевод трактата по демонологии при помощи GPT-4 и Claude
Откройте свое будущее: Изучите 15 бесплатных курсов IBM прямо сейчас
SAGE: коррекция орфографии с помощью языковых моделей
Python, Go или… готовим сырой видеопоток с полсотни камер
Как мы используем NLP в банке
Нейронные сети для планирования движения беспилотных автомобилей
Организация GPU-вычислений для машинного обучения в компании: проблемы и трудности
Детекция дефектов дорожного покрытия без размеченных данных: Хакатон, LiDAR, RANSAC, ICP и 44 бесcонных часов
Чат GPT-4V, который видит — что он умеет
Feature engineering и кластерный анализ клиентов на PySpark
Trabaje con sus datos en tiempo real usando Langchain
BakaLLM, part 3: it's testing time, it's testing time
Enabling Language Models to Implicitly Learn Self-Improvement
Introdução ao Aprendizado de Máquina Online
Why Python is a first choice for Data scientist
Mastering Machine Learning: Your Path to Excellence with UpSkill Certifications
Data Science for Beginners: 2023-2024 Edition
Data Science for beginners, complete roadmap.
Data Science Beginner's guide.
The Ultimate Guide to Getting a Data Scientist Job in 2023 (Even If You're a Beginner)

Посмотреть:
🌐 Разбор задачи с собеседования Data Science. Подготовка на практике (⏱ 26:12)
🌐 Cобеседование #Python топовый банк Goldman Sachs Associate на 12000 $ #задача #программирование (⏱ 01:00)
🌐 Interview: "Large Language Model Operations: The Next Frontier in MLOps" (⏱ 59:18)
🌐 Exploring the Generative AI Landscape: From Basics to Hands-on Applications - Raghav Bali (⏱ 32:54)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

No Black Box Machine Learning Course – Learn Without Libraries

Как насчет курса по машинному обучению, который не опирается на библиотеки?

В этом курсе "без черного ящика" алгоритмы изучаются с нуля.

Вы узнаете, как они работают и создадите несколько интересных DS проектов таких, как приложение для рисования, визуализатор данных и многое другое.

Video
Github
Course

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Оптимизация хранения данных в СУБД Greenplum

Greenplum — это open source MPP СУБД, основанная на PostgreSQL.

Архитектура СУБД укрупненно представляет собой систему, состоящую из n-го количества Segment Host — процессов/серверов, на которых производится хранение и обработка данных, и одного Master Host – процесса/сервера, являющегося точкой входа клиента, который также хранит внутри себя метаданные таблиц и распределяет обработку данных между сегментами.

Вопрос выбора способа хранения данных для меня встал достаточно остро из-за относительно большого объема анализируемых данных. Кратко опишу набор таблиц витрины и примерное количество строк в них на данный момент:

1. Таблица с пользователями маркетплейса (более 4 млн.);
2. Корзина товаров (более 150 млн.);
3. Покупки пользователей в маркетплейсе (более 40 млн.);
4. Таблица с начислениями бонусов за покупки (более 20 млн.)
5. И т.д. (суммарно еще около 5-10 млн. строк уходят на перечень продаваемых товаров, различные справочники и другую сопутствующую информацию)

Аналитические запросы, в особенности с объединением этих таблиц, занимают достаточно большое количество времени и ресурсов, что негативно складывается на работе СУБД, коллег и меня в частности.

В связи с этим, оптимизация хранения таблиц является одним из основных вариантов оптимизации запросов (вкупе с объяснением того, как эти оптимальные запросы строить, но это уже совсем другая история).

Рассмотрим задачу выбора оптимального способа хранения данных подробнее. 👇

📌Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ bhosmer

PyTorch только что выпустил крутой инструмент для визуализации умножения матриц!

Внутри: Визуализация умножения матриц, операций на ними и много других интересных функций.

Запустите его в браузере: http://bhosmer.github.io/mm/.

Подробнее читайте в блоге👇
http://pytorch.org/blog/inside-the-matrix/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⭐️ 9 лучших бесплатных курсов университета MIT по программной инженерии и науке о данных.

Эти курсы - ваш билет к совершенству.

Возможность получить актуальные знания бесплатно от одного из лучших учебных заведений мира.


Ознакомьтесь с ними ниже:

1. Введение в информатику и программирование на языке Python
https://www.edx.org/learn/computer-programming/massachusetts-institute-of-technology-introduction-to-computer-science-and-programming-7

2. Foundations Of Software Engineering.
https://ocw.mit.edu/courses/1-124j-foundations-of-software-engineering-fall-2000/

3. Компьютерные алгоритмы в системной инженерии.
https://ocw.mit.edu/courses/1-204-computer-algorithms-in-systems-engineering-spring-2010/

4 Integrating ESystems & Global Information Systems.
https://ocw.mit.edu/courses/15-565j-integrating-esystems-global-information-systems-spring-2002/

5. Оптимизация проектирования мультидисциплинарных систем.
https://ocw.mit.edu/courses/ids-338j-multidisciplinary-system-design-optimization-spring-2010/

6. Статистическое мышление и анализ данных.
https://ocw.mit.edu/courses/15-075j-statistical-thinking-and-data-analysis-fall-2011/

7. Вычисления и анализ данных.
https://ocw.mit.edu/courses/1-017-computing-and-data-analysis-for-environmental-applications-fall-2003/

8. Концепции программной инженерии.
https://ocw.mit.edu/courses/16-355j-software-engineering-concepts-fall-2005/

9. Анализ данных для социологов
https://mitxonline.mit.edu/courses/course-v1:MITxT+14.310x/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🐍Как Snowflake повышает эффективность dbt-моделей на Python

dbt — это инструмент, помогающий управлять всеми трансформациями данных, которые выполняются в базах данных с использованием SQL.

Допустим, у вас есть таблица с общим числом клиентских заказов, и нужно подсчитать, сколько из них пришлось на праздничные дни. Выполнить эту задачу можно с помощью двух SQL-запросов.

1. Добавить столбец is_holiday в таблицу sf100_orders, объединив ее с all_holidays. Назвать полученную таблицу sf100_orders_annotated.
2. Подсчитать строки, для которых is_holiday=true в таблице sf100_orders_annotated.

Эти два шага объединяют исходные данные, визуализированные с помощью dbt: в изображении.

Производный граф: из двух исходных таблиц составляется таблица count_holidays

Используя dbt, можно записать эти две трансформации в виде “dbt-моделей”, которые представляют собой файлы, содержащие SQL и некоторую конфигурацию dbt (при необходимости):
-- sf100_orders_annotated.sql
{{ config(materialized='table') }}

select a.*, b.date is not null is_holiday
from {{ref('sf100_orders')}} a
left join {{ref('all_holidays')}} b
on a.o_orderdate = b.date
-- count_holidays.sql
{{config(materialized='table')}}

select count(*) total_days
, count_if(is_holiday) holiday_count
, holiday_count/total_days ratio
from {{ref('sf100_orders_annotated')}}


Эти два файла выглядят как типичный SQL, но с некоторым отличием. Вместо ссылок на таблицы dbt позволяет ссылаться на другие “модели” с помощью аннотаций {{ref(‘sf100_orders_annotated’)}}. Таким образом, dbt определяет связь и зависимости между всеми трансформациями, через которые проходят данные.

Продолжение

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔪 Jackknife+: «швейцарский нож» в конформном прогнозировании для регрессии

Jackknife+ — это эффективный метод конформного прогнозирования, разработанный ведущими исследователями в области машинного обучения из Чикагского университета, Стэнфордского университета, Университета Карнеги-Меллона и Калифорнийского университета в Беркли.

Наша задача — построить функцию регрессии с помощью обучающих данных, которые включают пары признаков (Xi, Yi). Нам нужно предсказать выход Yn+1 для нового вектора признаков Xn+1=x и создать соответствующий интервал погрешности для этого предсказания. Предположительно данный интервал будет включать истинное значение Yn+1 с заранее определенной вероятностью охвата.

Прямой подход может заключаться в подгонке базовой регрессионной модели к обучающим данным, вычислении остатков и использовании этих остатков для оценки квантиля. Этот квантиль затем может быть использован для определения ширины интервала прогнозирования для новой тестовой точки.

Однако такой подход имеет тенденцию недооценивать фактическую погрешность из-за чрезмерной подгонки: остатки, полученные из обучающего множества, обычно меньше, чем те, которые можно было бы получить на основе неизвестных тестовых данных.

📌Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
TechArena Ireland: как готовился хакатон
Визуализация распределений вероятностей в Python.
Построение пайплайна обработки данных в реальном времени с использованием Python
Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика
Как мы создавали self-service функционал проверки качества данных для ML-моделей
Становясь Пангеей: будущее современного стека для анализа данных
Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами
Как оценить объем работ по миграции хранилища данных на Arenadata DB / Greenplum: методика и пример
Data Science for Beginners: 2023 - 2024 Complete Roadmap
A Beginner's Guide to Data Analytics: Understanding the Fundamentals
The Start of My Year-long Journey into AI: From Novice to Engineer
Data Science for Beginners: 2023–2024 Complete Roadmap
Data Science for Beginners: 2023 - 2024 Complete Roadmap
Data Science Roadmap.
How can Ed-tech companies adopt AI, and what ways will it help in revenue generation and in work Operations?
Matplotlib Tutorial: Let’s Take Your Country Maps to Another Level
Data Analysis with SQL
Autoscout24 SQL Analysis

Посмотреть:
🌐 Large Language Models Are Not (Necessarily) Generative Ai - Karin Verspoor, PhD (⏱ 29:59)
🌐 Django начало работы. (⏱ 08:18)
🌐 Популярная задача с собеседования в Яндекс #python #задача #программирование #собеседование (⏱ 01:00)
🌐 Новые функции в IOS 17 (⏱ 00:29)
🌐 TokenFlow редактирование видео с помощью текстового описания (⏱ 00:22)
🌐 Парсер телеграм каналов на Python. Гайд по написанию мощного бота. (⏱ 11:58)
🌐 Задача из Собеседования в Яндекс с зарплатой 85000 рублей #python #собеседование #задача #yandex (⏱ 00:59)
🌐 Асинхронный парсинг сайтов на Python (⏱ 22:06)
🌐 Evolving Trends in Prompt Engineering for LLMs with Built-in Responsible AI Practices (⏱ 33:21)
🌐 OpenAI’s ChatGPT Has Been Supercharged! (⏱ 06:48)
🌐 Evolving Trends in Prompt Engineering for LLMs with Built-in Responsible AI Practices (⏱ 33:21)
🌐 OpenAI’s ChatGPT Has Been Supercharged! (⏱ 06:48)
🌐 New AI Listened To 20,000 Hours Of Music. What Did It Learn? (⏱ 07:33)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Крутая олимпиада по анализу данных DANO.

Открыта регистрация на олимпиаду по анализу данных от Тинькофф и НИУ ВШЭ где победители и призеры получат дополнительные преимущества при поступлении в различные высшие учебные заведения по всей стране. Например, в НИУ ВШЭ, УрФУ, Университет Иннополис, РЭШ, ИТМО и АГУ. Десять участников, набравших наибольшее количество баллов, также будут иметь возможность обучаться в Центральном университете, за счет выделенных грантов, которые покроют 100% стоимости обучения. Зарегестрироваться можно до 4 октября.

Этапы олимпиады

Первый (отборочный) этап. Направлен на проверку базовых знаний математики и логики. Открыт для всех желающих.

Второй (отборочный) этап. Направлен на проверку умения анализировать данные. Открыт только для школьников, победивших или занявших призовое место в предыдущем этапе.

Заключительный этап состоит из двух туров: сначала участники решают задачи продвинутого уровня по анализу данных, а во втором туре работают над реальным командным исследовательским проектом совместно с экспертами. Второй тур пройдет офлайн — с выездом на неделю в Подмосковье.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💫 Создай, оформи, опубликуй. Sphinx — незаменимый помощник в мире Python документации

Sphinx — это профессиональный инструмент для создания обширной и качественной документации. Он изначально был создан для написания документации к языку Python, но со временем стал популярным выбором среди разработчиков различных языков программирования.

Sphinx использует простой в разметке текстовый формат reStructuredText (reST) для создания документации, и способен компилировать эту разметку в различные форматы, такие как HTML, PDF, ePub, Texinfo, и другие.

С помощью Sphinx, мы можем создавать структурированную и красиво оформленную документацию, которая может включать в себя автоматически генерируемые разделы.

Где используется Sphinx?
▪️Для документации ваших собственных проектов
Sphinx является превосходным инструментом для документирования любого проекта, будь то небольшой проект с открытым исходным кодом или крупномасштабное корпоративное приложение. Благодаря его гибкости и функциональности, Sphinx обеспечивает все необходимые инструменты для создания качественной, структурированной и доступной документации. Кроме того, Sphinx обеспечивает поддержку международной локализации, что позволяет создавать документацию на разных языках. Расширяемость Sphinx через модули также позволяет адаптировать процесс создания документации под конкретные потребности проекта. Все эти функции делают Sphinx отличным выбором для документации вашего проекта, независимо от его масштаба и сложности.
▪️Python Documentation
Как уже было сказано выше, Sphinx первоначально был создан для документирования самого языка Python, и по‑прежнему используется на официальном сайте Python для предоставления документации по языку и стандартным библиотекам.
▪️Read the Docs
Это популярная платформа для хостинга документации, которая тесно интегрирована с Sphinx. Она позволяет автоматически собирать и публиковать документацию из репозиториев на GitHub, GitLab и других сервисах. Read the Docs поддерживает формат reStructuredText и предоставляет множество дополнительных функций для улучшения качества документации.

Проекты с открытым исходным кодом, корпоративные и научные проекты.

Множество проектов с открытым исходным кодом используют Sphinx для создания их документации. Некоторые из них включают:

Django
Это высокоуровневый веб‑фреймворк Python, который следует принципу «Не изобретай велосипед». Документация Django, известная своим высоким качеством и полнотой, написана с использованием Sphinx. Это включает подробные справочные материалы, руководства по разработке, и руководства по API. Использование Sphinx в таком масштабном и влиятельном проекте, как Django, является отличным подтверждением его надежности и эффективности.
The Linux Kernel
Sphinx используется для документирования ядра Linux, одного из самых значимых и сложных проектов с открытым исходным кодом в мире.
TensorFlow
Платформа от Google для машинного обучения. Документация TensorFlow, которая включает в себя описания API, руководства и учебные материалы, создана с использованием Sphinx.
Pandas
Библиотека Python для обработки и анализа данных, которая использует Sphinx для создания своей обширной документации, включающей справочные материалы, руководства и учебные пособия.
NumPy
Библиотека для научных вычислений на Python, которая широко использует Sphinx для создания своей документации. Это подтверждает статус Sphinx как стандартного инструмента для документации в научной и академической среде Python.

Инициализация Sphinx в нашем проекте
Где скачать Sphinx?
Sphinx – это программное обеспечение с открытым исходным кодом, и его можно легко установить с помощью пакетного менеджера Python — pip. Для установки Sphinx, выполним следующую команду в терминале:
$ pip install Sphinx

Также можно посетить официальный сайт Sphinx для получения дополнительной информации.

После того, как мы установили Sphinx, мы можем начать использовать его для создания документации.
Рассмотрим, как инициализировать Sphinx в нашем проекте.

Читать дальше

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 7 малоизвестных инструментов визуализации данных, которые заслуживают вашего внимания

1. Vega-Lite: https://github.com/vega/vega-lite

2. RawGraphs: https://github.com/rawgraphs/raw

3. Superset: https://github.com/apache/superset

4. Metabase: https://github.com/metabase/metabase

5. Visidata: https://github.com/saulpw/visidata

6. Chart.js: https://github.com/chartjs/Chart.js

7. C3.js: https://github.com/c3js/c3

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📈📊 Визуализация распределений вероятностей в Python.


📌 Другие виды распределения

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👋 Генерация синтетических изображений с использованием диффузионно-трансформерной модели (DiT)

На практике в машинном обучении, особенно при работе с нейронными сетями, часто сталкиваются с проблемой нехватки данных для обучения модели или получения стабильных результатов.
Мы оказались в подобной ситуации, решая задачу компьютерного зрения связанную с анализом нарушений в помещениях закрытого типа. Недостаточно изображений для качественной модели, а аугментация и спарсить изображения из Интернета невозможно.

Поэтому нам понадобился синтетический датасет, состоящий из похожих на имеющиеся изображений. Мы решили использовать модель DiT (Diffusion Transformer) от Facebook Research. DiT обучалась на ImageNet и имеет 4 модели разных размеров.

Таблица размерностей DiT моделей в изображении.

📌Читать статью

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💬 Flowise - Build LLM Apps Easily

Если вы хотите использовать drag-and-drop UI для создания своего LLM потока, попробуйте Flowise.

UI с открытым исходным кодом для построения LLM модели с использованием LangchainJS, написанный на Node Typescript/Javascript

git clone https://github.com/FlowiseAI/Flowise.git

Github
Примеры

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Сбер расширяет географию своих ивентов: 19 октября в Алматы состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨‍💻

На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о:

✔️ Технологических трендах в области искусственного интеллекта и машинного обучения.

✔️ Устройстве современных стримингов компаний-партнёров Сбера.

Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 19 октября в 18:00 по адресу: Алматы, Лофт 1205, 2 этаж, Restopark, проспект Сейфуллина 617 💚

Читать полностью…

Анализ данных (Data analysis)

🖥 В больших проектах #SQL-запросы могут становиться сложными.

Документирование помогает прояснить функциональность каждого запроса для других членов команды.

С помощью #dbt вы можете легко документировать свои запросы с помощью команды 𝐝𝐛𝐭 𝐝𝐨𝐜𝐬 𝐠𝐞𝐧𝐞𝐫𝐚𝐭𝐞.

📌 Что такое dbt
📌 Больше примеров

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Загружай данные в 113 раз быстрее.

При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.

Для повышения скорости выполнения запросов следует переместить фильтры в движок PyArrow, чтобы использовать оптимизацию обработки PyArrow.

В приведенном ниже коде фильтрация набора данных из 100 млн строк с помощью PyArrow выполняется примерно в 113 раз быстрее, чем при использовании pandas.

📌 Смотреть код

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦙 Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads

Попробуйте модель, которая ускоряет в генерацию текста 2 раза: Medusa упрощает и ускоряет большие языковые модели.

Ваша исходная модель остается нетронутой, а в процессе обучения производится только тонкая настройка новых функций. В процессе генерации каждая из этих функций выдает несколько вероятных слов для соответствующей позиции. Затем эти варианты комбинируются и обрабатываются с помощью механизма внимания, древовидной структуры. Затем, выбираются наиболее правдоподобные генерации для дальнейшего декодирования.

pip install medusa-llm

Github
Как работает модель

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В начале сентября прошла Practical ML Conf, а сейчас Яндекс опубликовал плейлист с записями докладов, в которых ведущие инженеры ВТБ, Авито, Сбера и самого Яндекса рассказывают о своем опыте применения практического машинного обучения.

Из запоминающегося:

Алексей Морозов из Поиска поделился кейсом модернизации нейронных сетей, которая позволяет ML-инженерам и исследователям не беспокоиться о работоспособности инфраструктуры и автоматически масштабироваться в процессе работы.

Руководитель группы компьютерного зрения и робототехники, Валерий Ильин, рассказал о том, как компьютерное зрение используется в роботах на складах Яндекс Маркета.

Записи этих докладов и всех остальных можно найти здесь.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 Vizro

Если вы хотите использовать модульный и простой код для создания красивых дашбордов, рекомендуем попробовать библиотеку vizro.

С помощью нескольких строк кода и простой конфигурации можно создавать сложные дашборды, которые автоматически генерируются на основе Plotly и Dash.

pip install vizro

Github
Документация
Примеры с кодом

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

#карьерные_форумы #junior #intern # IT

🖥 Дайджест дней карьеры для начинающих IT-специалистов

На форуме “Найти IT” Сбер, Росатом, Kaspersky и 40+ топовых компаний завалят вас предложениями о работе!

📍 Где и когда:
— Москва: 3 октября
— Санкт-Петербург: 7 октября
— Новосибирск: 26 октября

💥 Участников ждут мастер-классы и кейсы от крутых компаний, предварительные собеседования и Q&A, мерч, призы и вкусная еда.

И все это бесплатно 😲 Нужно только прийти!

🔗 Регистрация

Реклама. ООО "ФТ". ИНН 7731611424. erid: LjN8KXdey

Читать полностью…

Анализ данных (Data analysis)

Считаете ребенку недостаточно школьной программы?

Опрос 200 тысяч школьников в России показал, что 60% из них мечтают построить карьеру в IT.

Школа не может помочь реализовать все мечты ребёнка, а IT-кружки рядом с домом часто дают поверхностную информацию без учёта его способностей и интересов: он теряется, опускает руки и бросает своё увлечение.

Главная задача Московской школы программистов — не только дать фундаментальные знания в IT, но и сохранить у ребёнка интерес к профессии. Мы берём ответственность за успеваемость и прогресс каждого ученика.

Ребёнок что-то не понял? Объясним через простую игровую практику. Много пропустил из-за болезни? Проведём дополнительные бесплатные занятия. Мы находим подход к каждому ребёнку.

Регистрируйтесь и начните путь к программированию!

Реклама. ЧУ ДО "МОСКОВСКАЯ ШКОЛА ПРОГРАММИСТОВ". ИНН 9715290128. erid: LjN8KGBxd

Читать полностью…

Анализ данных (Data analysis)

🖥 GIF

Если вы хотите без особых усилий анимировать график matplotlib в Python, используйте библиотеку gif.

Следующая анимация создана с помощью gif.

pip install gif

import gif
from random import randint
from matplotlib import pyplot as plt

x = [randint(0, 100) for _ in range(100)]
y = [randint(0, 100) for _ in range(100)]

# (Optional) Set the dots per inch resolution to 300
gif.options.matplotlib["dpi"] = 300

# Decorate a plot function with @gif.frame
@gif.frame
def plot(i):
xi = x[i*10:(i+1)*10]
yi = y[i*10:(i+1)*10]
plt.scatter(xi, yi)
plt.xlim((0, 100))
plt.ylim((0, 100))

# Construct "frames"
frames = [plot(i) for i in range(10)]

# Save "frames" to gif with a specified duration (milliseconds) between each frame
gif.save(frames, 'example.gif', duration=50)

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📈 Awesome Machine Learning Demos Awesome

Примеры с кодом и интерактивные визуализации мл моделей.

Вероятностные модели
Код | Демо
Код | Демо
TensorFlow neural network playground
Код | Демо
Convolutional neural networks
Код | Демо
Код | Демо
Демо
Unsupervised learning and preprocessing
K-means clustering

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В волшебную школу вы так и не поступили, но некоторые всё-таки считают, что вы практикуете магию 🦉

Вместо палочки и заклинаний — шорткаты, вместо тайной комнаты — запылившийся бэклог, а вместо Волан-де-Морта — непобедимый синдром самозванца.

Если это про вас, тогда предлагаем перестать ждать сову из Хогвартса и отправиться учиться в Alfa Campus.

Но перед этим нужно решить, какой факультет вам подходит. Для этого мы создали распределяющего бота 🪄

Ответьте на серию простых вопросов и узнайте, где ваши навыки найдут своё лучшее применение: /channel/contactday_bot

Реклама. АО "АЛЬФА-БАНК". ИНН 7728168971. erid: LjN8KYsGM

Читать полностью…

Анализ данных (Data analysis)

Сбер расширяет географию своих ивентов: 10 октября в Стамбуле состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨‍💻

На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о:

✔️ Технологических трендах в области искусственного интеллекта и машинного обучения.

✔️ Устройстве современных стримингов компаний-партнёров Сбера.

Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 10 октября в 18:30 по адресу: Стамбул, «Енидоган Махаллеси», Эрджиес Сокак №7 34030 Байрампаша 💚

Читать полностью…

Анализ данных (Data analysis)

Сбер расширяет географию своих ивентов: 6 октября в Тбилиси состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨‍💻

На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о:

✔️ Технологических трендах в области искусственного интеллекта и машинного обучения.

✔️ Устройстве современных стримингов компаний-партнёров Сбера.

Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 6 октября в 18:30 по адресу: Тбилиси, Ресторан на 6 этаже отеля «Golden Palace», переулок Агмашенебели 62 💚

Читать полностью…

Анализ данных (Data analysis)

Снижаем трудозатраты на разработку и поддержку ETL процессов с помощью open source фреймворка для базы данных Greenplum и ее коммерческой сборки Arenadata DB

Приглашаем на вебинар, на котором разберем подходы и кейсы использования фреймворка, выполняющего следующие задачи:

➡️ стандартизация ETL процессов,
➡️ загрузка и расчет данных с помощью метаданных и минимального объема разработок.

Фреймворк был разработан экспертами компании Sapiens solutions и доступен на GitHub как Open source по лицензии Apache 2.0

Вебинар будет полезен компаниям, которые планируют использовать хранилище данных на платформе Arenadata DB / Greenplum и проектов миграции хранилищ данных с проприетарных DB (SAP HANA, Oracle, Teradata и др.)

Рассмотрим вопросы:
- Проблемы в процессах ETL
- Подходы к загрузке в Greenplum
- Преимущества ETL фреймворка
- Компоненты фреймворка
- Развертывание и использование
- Продуктивные кейсы

📌Всем зарегистрированным будет отправлена запись вебинара.


Спикеры:

Юрий Ефаров
- Основатель и CEO Sapiens solutions (в ТОП-15 поставщиков аналитических решений в РФ)

Дмитрий Исмаилов - Архитектор хранилищ данных, эксперт в вопросах миграции на Greenplum.

Регистрируйтесь по ссылке.

🗓 03 октября, 11:00 мск • Онлайн

Реклама. ООО "Сапиенс". ИНН 7731438804 erid:LjN8K45rx

Читать полностью…

Анализ данных (Data analysis)

Многие хотят стать аналитиками данных, но не у многих получается

Мы не понаслышке знаем, как трудно ворваться на рынок труда и хотим поделиться нашими советами на бесплатном вебинаре.

Вы узнаете:
- Какие навыки нужны для старта карьеры, и что изменилось за последние годы
- Как найти первую работу или стажировку?
- Обязательно ли профильное высшее образование для работы аналитиком?
- Можно ли начать карьеру после 30?

Вебинар проведёт Анатолий Карпов — тот самый автор курсов на степике, которые обучили основам анализа данных более 200 тыс. человек. Анатолий руководил командой аналитики в отделе бизнеса и рекламы ВКонтакте, а сейчас является основателем школы karpovꓸcourses.

🕖Вебинар пройдет 28 сентября в 19:00
Регистрируйтесь по ссылке

Реклама. ООО "Карпов Курсы". Erid: LjN8KVcA4

Читать полностью…
Subscribe to a channel