data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

Присоединяйтесь к GitVerse – сервису для быстрого создания исходного кода с AI-помощником

Разработчики получили доступ к GitVerse – платформе для совместной разработки и хостинга кода от СберТеха. Она позволяет создавать проекты с открытым и закрытым кодом, приглашать новых участников, переносить репозитории с популярных мировых ресурсов в один клик и общаться с единомышленниками в ИТ-сообществе.

Первые пользователи, зарегистрировавшиеся на GitVerse, смогут присоединиться к открытому тестированию персонального AI-ассистента разработчика (AI, artificial intelligence — искусственный интеллект) — сервису GigaCode. Он ускоряет и упрощает программирование, генерируя варианты завершения кода непосредственно в среде разработки в режиме реального времени.

В рамках акции пользователям доступен бесплатный годовой пакет облачных сервисов, с ним можно размещать разработанные приложения в облаке с использованием технологий распределённого хранения и вычислений.

Подробности и правила акции, а также регистрация на сайте платформы.

Читать полностью…

Анализ данных (Data analysis)

Всем привет!

Владелец продукта ИТ-компании изучает потребности и пожелания участников процесса работы с даннымии аналитикой. 

У вас есть уникальная возможность поделиться опытом, дать рекомендации и подсветить проблемы используемых систем.

Переходите по ссылке и делитесь бесценным опытом😉

Читать полностью…

Анализ данных (Data analysis)

Работаешь с данными и чувствуешь, что из них можно получить больше? В DataWorkshop расскажут как это сделать.

5 дней практики в Data Science на реальных данных магазина из Великобритании.

1-2 часа в день и самостоятельно создаешь модели машинного обучения.

Старт - 4 марта. Обучаешься под руководством эксперта в своем темпе, в удобное время.

6000+ человек из разных стран мира уже приняли участие в данном интенсиве.

15 лет практического опыта у автора интенсива, поэтому полученные знания можно сразу применять в рабочих проектах.

Обучают с 2017 года.

Предоставляем готовое окружение - ничего устанавливать и настраивать не нужно.

Участие бесплатно только для первых 100 записавшихся человек.
Успевайте записаться по 👉 ЭТОЙ ССЫЛКЕ

А еще много полезной информации о том, как начать работать в сфере Data Science в их канале.

Реклама: ИП Кравченко Николай Васильевич LjN8KCNbP

Читать полностью…

Анализ данных (Data analysis)

IT-индустрия и проекты с каждым годом становятся все сложнее. Все больше технологий, сложной инфраструктуры и массивов данных. Для управления этими махинами привычного продуктового подхода больше недостаточно.

Топ-менеджеры крупнейших IT-компаний говорят о том, что продактам нужны новые компетенции для навыки, чтобы строить продукты на больших данных. Ассоциация Больших Данных вместе с топами из Сбера, Яндекса, ВК и Сколково разработали образовательную программу Big Data Product Owner.

Курс ориентирован на junior и middle-специалистов и учит создавать из хаотичных данных прибыльные бизнесы. Студенты совмещают hard-скиллы с важными навыками переговоров и менеджерскими навыками. По результатам обучения выдается диплом государственного образца.

👉До 29 февраля включительно можно зафиксировать стоимость с 20% скидкой
👉 Первый урок доступен бесплатно по ссылке

Реклама. ООО "АБД". ИНН 9703042787.

Читать полностью…

Анализ данных (Data analysis)

🕒 datefinder: Инструмент автоматического поиска дат и времени в строках Python

Если вы хотите автоматически искать дату и время с различными форматами в строках Python, попробуйте использовать datefinder.

В приведенном коде показано, как использовать datefinder.

pip install datefinder

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Запуск локального кода в облаке без настройки серверов и кластеров

Yandex DataSphere Jobs позволяет запускать любую программу на Python или shell-скрипт в облаке без всяких изменений. Для запуска скрипта не нужно модифицировать исходный код, самостоятельно развёртывать кластер и собирать окружение — это происходит автоматически при запуске скрипта.

Преимущества DataSphere Jobs:

Быстрый запуск вычислений в облаке с доступом ко всем его ресурсам, включая GPU без настройки виртуальных машин и кластеров.

Безопасность — Yandex Cloud выполняет все требования безопасности информации и работы с персональными данными. После исполнения вычислений DataSphere Jobs удалит весь код и данные.

Экономия затрат на развёртывание кластеров, их обслуживание и DevOps.

🗣 Подробнее смотрите в видео.

Реклама. ООО «Яндекс.Облако» ИНН 7704458262

Читать полностью…

Анализ данных (Data analysis)

Avito Analytics meetup #12 — онлайн-ивент для аналитиков 🔥

Эксперты из AvitoTech и других крупных компаний разберут кейсы аналитической поддержки при создании нового продукта, а также расскажут как и зачем анализируют обратную связь о товарах в ритейле и не только.

Темы докладов:
👉 Аналитика нового продукта «под ключ»;
👉 Обратная связь в «Пятёрочке»: как работают с оценками товаров;
⚡️ Секретный доклад.

Встречаемся онлайн 6 марта в 18:00 по Москве.
Регистрируйтесь по ссылке, и до встречи!

Читать полностью…

Анализ данных (Data analysis)

🔥 Планы на неделю: прокачать Pandas в Python!

Завтра в 19:00 по Мск пройдет бесплатный интенсив по теме: “RFM-анализ клиентской базы с помощью Pandas в Python”.

Мы проводили такой интенсив в прошлом месяце, но многие не успели на него записаться, а очень хотели — поэтому мы решили, почему бы не провести его еще раз 🥰
А еще он очень понравился участникам, и мы собрали много положительного фидбека
⭐️

Что будем делать на интенсиве:


◾️ Проанализируем реальную клиентскую базу аптечной сети
◾️ Проведем EDA с помощью Pandas
◾️ Напишем скрипт для проведения RFM-анализа
◾️ Изучим несколько классных фишек Pandas
◾️ Сформулируем конкретные бизнес-выводы и предложения на основании проведенного анализа

Мы также расскажем о частых ошибках новичков и поделимся лайфхаками — как достойно пройти собеседование и удивить ревьюера крутыми фишками 🤩

Любой рекрутер, увидев RFM-анализ в вашем портфолио, скажет: «О, круто, мы тоже такое делаем - классно, что кандидат это уже умеет!». И ваши шансы найти работу аналитиком кратно возрастут.

А вы готовы бустануть свои знания и скиллы в аналитике?

🔗Регистрируйтесь на интенсив 👈

Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134. Erid: LjN8KNZ3z

Читать полностью…

Анализ данных (Data analysis)

Автостопом по галактике ML🌠

С 2021 года Selectel проводит конференции для ML-специалистов. На недавнем митапе обсуждали инфраструктуру для ML и AI, виды дрифтов ML-моделей и Computer Vision в животноводстве.

Эксперты из Neoflex, Контур AI, Selectel и Русагро поделились опытом. А в Академии Selectel вышел материал, в котором удобно выбрать интересующий доклад и углубиться в тему ML.

В материале вас ждут:
— видео четырех докладов и одной дискуссии по ML,
— тексты по работе с ML-моделями,
— ссылка на бесплатный курс по работе с ML,
— приглашение в сообщество из 2700 специалистов по ML в Telegram.

Изучите конспект с последнего митапа по ML 👀

Реклама ООО «Селектел» erid 2VtzqwWGwmk

Читать полностью…

Анализ данных (Data analysis)

👉Трансформеры для глубокого обучения. Лекции от Стэнфорда.

Изучите детали того, как работают трансформеры, и изучите их различные виды с этим плейлистом. 25 лекций, последняя вышла 4 недели назад.

🔗 Смотреть

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Так уж складывается в мире данных, что Data Scientist’у порой приходится закрывать задачи сразу нескольких специалистов. К примеру, сбор данных, выявление закономерностей и формирование отчетов — это задача аналитика данных.⠀

А что делает Data Scientist?

Этот специалист может:⠀

🫖 Собрать требования к бизнес-задаче и предложить математическое решение;
🫖 Подготовить данные, с помощью которых эту задачу можно решить;
🫖 Создать модель машинного обучения;
🫖Проверить модель и её работоспособность.

И всему этому мы учим на курсе Data Scientist. Его разработали два эксперта области:

— Иван Аникин, Team Lead Yandex.Edadeal;
— Владимир Бугаевский, Team Lead СберМаркет.

Они же будут преподавать на потоке, который стартует 29 марта! Иван и Владимир будут отвечать на вопросы студентов в чате и на онлайн-встречах, смотреть учебные проекты и давать по ним обратную связь.⠀

Узнать больше о программе курса и записаться на поток вы можете на нашем сайте по ссылке.

Реклама. ООО «Слёрм» г. Лиски, ИНН 3652901451

Читать полностью…

Анализ данных (Data analysis)

erid: LjN8KEPQY

Специалисты ITFB Group подготовили подборку книг, которая поможет развить свои скиллы в бизнес-анализе 😉

👉 Можно и не подписываться, но вдруг пропустишь что-то интересное 

Читать полностью…

Анализ данных (Data analysis)

🎓 Бесплатный курс по работе с Managed Service for Greenplum®

За последние четыре года в России число вакансий в области аналитики данных увеличилось в 10 раз — такие данные приводит HeadHunter. Узнайте больше о том, как работать с одним из самых востребованных инструментов для работы с данными — сервисом для управления кластерами СУБД Greenplum в инфраструктуре Yandex Cloud.

На курсе вы научитесь:

создавать облачную инсталляцию Greenplum и работать с ней;
писать и оптимизировать запросы с учётом специфики Greenplum;
проектировать оптимальную физическую модель данных.

Обучение будет полезно дата-архитекторам, DevOps-инженерам, разработчикам и администраторам баз данных. Узнайте больше о курсе по ссылке.

Читать полностью…

Анализ данных (Data analysis)

💥 Прими участие в онлайн-хакатоне HomeHack от Хоум Банка и Sk Fintech Hub с 1 по 6 марта 2024 и поборись за призовой фонд в 1 000 000 рублей. Регистрируйся до 29 февраля по ссылке: https://cnrlink.com/hhdataanalysis

👤 К индивидуальному участию в мероприятии приглашаются системные аналитики, аналитики данных и разработчики Oracle любого уровня подготовки со всей России.

🎯 Участникам предстоит создать решение в одном из двух треков:

1. Эффективное управление клиентской документацией: предложи решение для реализации новой системы хранения и обработки данных для оптимизации пространства и обеспечения безопасности;

2. SQL Сhallenge: покажи свои навыки SQL и PL/SQL! Решай захватывающие задачи и докажи, что ты настоящий мастер в работе с данными.

🏆 Регистрируйся, побеждай, обменивайся опытом с экспертами, получи кейс в портфолио и стань членом команды Хоум Банк.

👉 Успей подать заявку на участие до 29 февраля на онлайн-платформе Codenrock: https://cnrlink.com/hhdataanalysis

Реклама. ООО "ХКФ БАНК". ИНН 7735057951. erid: LjN8KMqCP

Читать полностью…

Анализ данных (Data analysis)

Интересуетесь аналитикой данных? Узнайте, как стать BI-аналитиком и развиваться в этой перспективной сфере

Начните с бесплатного практического урока «Два принципа построения качественной базы данных» от OTUS.

📅 Приходите на бесплатный открытый урок 27 февраля в 20:00 мск в рамках старта курса «BI-аналитика». После занятия вы сможете записаться на курс, в том числе в рассрочку.

На вебинаре рассмотрим:
- введение в теорию БД и обзор видов БД
- архитектурные принципы качественного хранения данных в реляционной БД
- практический кейс

Вебинар проведёт Александра Мёрзлая, опытный аналитик из крупного банка.

👉 Регистрируйтесь чтобы посетить бесплатный урок: https://otus.pw/d1Xch/?erid=LjN8Kcdz3

Читать полностью…

Анализ данных (Data analysis)

⚡️ Топ подборка полезных нейросетей.
226 AI-сервисов и приложений на все случаи жизни, от известных MGIE, Perplexity, Gemini, Groq до совсем свежих и малознакомых

Эти нейросети помогут вам:
управлять движением объектов на видео

повысить качество записанного аудио

исправить грамматику в любом приложении

генерировать аудио, видео, изображения

апскейлить изображение

и ещё помогут с миллионом других задач

🔗 Каталог

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ StarCoder2: открытые веса, датасеты, обучающие скрипты, топ лидерборда HF.

StarCoder2 - это семейство открытых LLM для генерации кода, в трех различных размерах с параметрами 3B, 7B и 15B.

StarCoder2-15B обучен на более чем 4 триллионах лексем и 600+ языках программирования из The Stack v2.

Все модели используют Grouped Query Attention, контекстное окно из 16 384 лексем.

StarCoder2 предлагает три размера модели: модель на 3 миллиарда параметров, обученная ServiceNow, модель на 7 миллиардов параметров, обученная Hugging Face, и модель на 15 миллиардов параметров, обученная NVIDIA с помощью NVIDIA NeMo и ускоренной инфраструктуры NVIDIA:

StarCoder2-3B был обучен на 17 языках программирования из The Stack v2 на 3+ триллионах токенов.
StarCoder2-7B обучался на 17 языках программирования из The Stack v2 на 3,5+ триллионах токенов.
StarCoder2-15B был обучен на 600+ языках программирования из The Stack v2 на 4+ триллионах токенов.

StarCoder2-15B является лучшим в своем классе и по многим показателям превосходит модели 33B+.

📌HF
📌Github
📌Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 3 лучших инструмента для автоматизации устранения SQL инъекций!

SQL-инъекция (SQLi) - это уязвимость веб-безопасности, которая позволяет злоумышленнику вмешиваться в запросы, которые приложение делает к своей базе данных. Как правило, это позволяет просматривать данные, которые он обычно не может получить. Это могут быть других пользователей, или любые другие данные, доступ к которым имеет само приложение. Во многих случаях злоумышленник может изменять или удалять эти данные, вызывая постоянные изменения в содержимом или поведении приложения.

1⃣ SQLMap
Вы, вероятно, уже знаете о первом инструменте.
SQLMap - самый популярный сканер уязвимостей SQL Injection, полностью открытый!

2⃣ Ghauri
Ghauri - это продвинутый инструмент, позволяющий легко автоматизировать обнаружение и эксплуатацию уязвимостей SQL Injection!

Ghauri также имеет открытый исходный код и доступен на GitHub!

3⃣ SQLiv
Обнаруживает уязвимости SQL-инъекций в веб-приложениях с помощью методов автоматического сканирования. Этот инструмент способен найти в Google определенную цель, просмотреть ее и просканировать несколько URL-адресов на наличие SQL-инъекций.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀🧙🏼‍♂️Представляем OpenHermesPreferences: крупнейший открытый набор данных для RLHF и DPO

OpenHermesPreferences - это набор данных из ~1 миллиона прдпочтений ИИ, полученных из его ответов.

Датасет объединяет ответы от моделей, Mixtral-8x7B-Instruct-v0.1 и Nous-Hermes-2-Yi-34B.

https://huggingface.co/datasets/argilla/OpenHermesPreferences

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎉 Выпущены JupyterLab 4.1 и Jupyter Notebook 7.1!

В новых релизах добавлена поддержка диаграмм Mermaid, добавлена автоматическая генерация, добавлен ряд улучшений и исправлено более 100 ошибок.

Обновления

▪jupyterlab.readthedocs.io/

▪jupyter-notebook.readthedocs.io/


@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 Vega-Altair - это декларативная библиотека визуализации на Python.

Приемущества
1. Декларативный подход: Altair предлагает декларативный подход к созданию графиков, что означает, что вы описываете, какие данные вы хотите визуализировать и как, а библиотека заботится о деталях.
2. Простота использования: Altair позволяет генерировать красивые графики с минимальным количеством кода. Это делает его отличным выбором для быстрого создания визуализаций.
3. Легкая Интеграция: Altair хорошо интегрируется с Pandas, Jupyter Notebook и JupyterLab для , что упрощает работу с данными.
4.Интерактивность: Позволяет создавать интерактивные графики без усилий.


Недостатки
1. Ограниченные возможности настройки:
В сравнении с Matplotlib, Altair предоставляет меньше возможностей для настройки графиков.
2. Ограниченная документация: Altair не обладает богатой документацией.

pip install altair

Github
Docs
Colab
Примеры

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Шпаргалка по ML

Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:
❯ метод понижения размерности PCA
❯ ложноположительные, ложноотрицательные ошибки
❯ наивный Байесовский классификатор
❯ регрессионный анализ
❯ регуляризация
❯ архитектура, устройство, известные реализации нейронных сетей CNN
❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево

Поможет без проблем подготовиться к собесу и освежить знания

📁 PDF

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

😺 Awesome CatBoost

Кураторский список ресурсов, обучающих матералов, репозиториев с открытым исходным кодом, руководств, блогов для работы с Catboost.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Как нейросети помогли нам сократить нагрузку на операторов контакт-центра и сэкономить 396 человеко-часов
40 Полезных инструментов Дата Саентиста
Вакуумируй это: сбор и удаление мусора в базе данных Greenplum
Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
На что стоит рассчитывать на первой работе: путь стажера (data engineer)
Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов
Сила хакатонов: почему Middle и Senior Engineers должны в них участвовать
📊 Logistic Regression in a Nutshell
Introduction to dbt
FiftyOne Computer Vision Tips and Tricks - Feb 23, 2024
Why Python and SQL are Must-Have Skills for Marketing Analysts in the Age of Big Data
Gráfico de Halteres [R-ggplot2]
"Day 32 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -11)
High Frequency Data Analysis: Converting High-frequency Signals to Discrete Buy/Sell Signals
Evaluating LLM Models for Production Systems: Methods and Practices
Amazon Forecast Overview
Turn Text Into Structured Data Using JavaScript & OpenAI's GPT

Полезные инструменты:

Взаимодействуйте с новейшими современными API моделей ИИ с NVIDIA, прямо из браузера.
▪Gemma - это семейство легких, современных открытых моделей, созданных на основе исследований и технологий, использованных при создании моделей Google Gemini.
Stable Diffusion 3
▪MotionCtrl

Посмотреть:
🌐 Лучшие бесплатные курсы и книги по Python в 2024 год. (⏱ 08:28)
🌐 Golang: Шпаргалка для алгособеса. Алгоритмы сортировки (⏱ 19:18)
🌐 Interview "No-Code and Low-Code AI: The New Era of Inclusive Tech Development" (⏱ 46:59)
🌐 Stable Video AI Just Got Supercharged! - For Free! (⏱ 07:42)
🌐 DeepMind Gemini 1.5 - An AI That Remembers! (⏱ 08:34)
🌐 OpenAI Sora: A Closer Look!

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎯Высокопроизводительная модель INT4 Mistral-7B доступна для всех.

Intel Neural Compressor (превосходящая GPTQ и AWQ) и эффективно инференцированная Intel Extension for Transformers!

🤗 Модель: https://huggingface.co/Intel/Mistral-7B-v0.1-int4-inc
🌟https://github.com/intel/neural-compressor

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💫 The Tokenizer Playground

После просмотра новой лекии от Карпати, если вы хотите узнать больше о том, как различные LLM модели (например, GPT4, Llama, T5, BERT) токенизируют текст, посмотрите "The Tokenizer Playground": веб-приложение, которое создана на базе 🤗 Transformers.js, с которым вы сможете поиграться с токенизацией разных моделей на практике!

🔗 https://huggingface.co/spaces/Xenova/the-tokenizer-playground

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Вот это да. Google только что выпустила Gemma, самый мощный открытый LLM.

Открытый для коммерческого использования, он превосходит Mistral AI 7B и LLaMa 2 в тестах Human Eval и MMLU.

Это первый открытый LLM, основанный на Gemini.


Подробности:
- Поставляется в двух вариантах: 2B и 7B.
- Превосходит Mistral 7B, DeciLM 7B и Qwen1.5 7B.
- Модели в вариантах 2B и 7B.
- 8192 Контекстное окно по умолчанию.
- Оценка MMLU 64,56, средняя оценка в таблице лидеров 63,75 для 7B.
Модель -2B, совместимая с мобильными телефонами.

Доступна на HuggingFace, Kaggle и Vertex AI.

HF: https://huggingface.co/google/gemma-2b-it
Project: ai.google.dev/gemma

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎉 Андрей Карпати снова в деле!

Только что вышел новый двухчасовой туториал по созданию GPT Tokenizer.

В этой лекции вы с нуля построите свой токенизатор, используемый в GPT от OpenAI.

В процессе вы увидите, что многие странные поведения и проблемы LLM на самом деле связаны именно с токенизацией.

В лекции рассматривается ряд этих проблем, и обсуждается, почему именно токенизация виновата в них, и почему в идеале кто-то должен найти способ полностью удалить этот этап.

Video:
https://www.youtube.com/watch?v=zduSFxRajkE

Colab:
https://colab.research.google.com/drive/1y0KnCFZvGVf_odSfcNAws6kcDD7HsI0L?usp=sharing

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Лучшие бесплатные курсы по искусственному интеллекту в 2024 году.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Log-based testing 🪵

logot
позволяет легко проверить, правильно ли ваш код ведет журнал.

Правильное логированеи гарантирует, что ваш код можно отладить во время выполнения, но зачем вообще анализировать логи?

Иногда проверка логов - это единственный разумный способ убедиться в том, что ваш код действительно работает правильно! Особенно это касается многопоточного или асинхронного кода.

Github
Docs

@data_analysis_ml

Читать полностью…
Subscribe to a channel