data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

⚡️ReviewNB

Интерфейс #Jupyter_notebook на #GitHub имеет ограничения, в том числе невозможность отображения интерактивных графиков, математических выражений и открытия больших ноутбуков.

Интеграция ReviewNB с GitHub снимает все эти ограничения.

https://www.reviewnb.com

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🦆 Оптимизатор запросов Duckdb объединяет фильтры и агрегации в одну операцию, считывая только релевантные столбцы.

Эта оптимизация делает DuckDB эффективнее для агрегаций данных по сравнению с pandas.

📌 DuckDb

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Годный сайт, описывающий реализации нейросетей

Нереально полезный сайт, тут содержится много полезностей по ML и DS, например, реализация различных нейронных сетей.
На скрине показана имплементация LSTM, каждый шаг подробно описан со всеми нужными формулами.
Если нажать на название переменной, то она подсветится везде, что тоже очень удобно

📎 Сайт

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 Uniplot

Uniplot легковесная библиотека, которая генерирует графики в терминале.

Эта библиотека была нужна для того, чтобы использовать графики как часть вашего конвейера CI / cd для анализа данных / машинного обучения - всякий раз, когда что-то идет не так, вы получаете не только ошибку и трассировку, но и графики, которые показывают, в чем заключалась проблема.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Открытая книга для специалистов в области AI и ML

Книга состоит из 3 глав.

Глава 1: Освоение OpenAI API
Первая глава знакомит читателей с API ChatGPT. Предоставлена дорожная карта для понимания ключевых стратегий, включая модерацию, Machine Reasoning и Prompt Chaining.

Глава 2: LangChain
Вторая глава посвящена практике использования LangChain. Описан процесс разработки, от настройки среды до внедрения передовых методик извлечения информации (Document Loaders, Text Splitters, Semantic Search, RAG Systems).

Глава 3: ML Ops для LLMs, или LLMOps
Третья глава представляет собой руководство по интеграции LLM в рабочие процессы.
Описываются ключевые этапы от выбора модели до ее развертывания и мониторинга.

Стоит учитывать, что книга не может охватить много аспектов, по-большей части всё вокруг прикручивания готового чат-бота для своих целей
Но при всё при этом можно найти для себя много всего полезного

📎 Книга

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌐 Хочешь быть в числе крутых аналитиков данных?

Тогда присоединяйся к онлайн-соревнованию Data Fusion Contest 2024 от ВТБ и Т1 и покажи лучшим экспертам отрасли, на что ты способен! Более 1000 аналитиков уже приняли вызов и вступили в борьбу за призовой фонд в 2 млн рублей.

📈💡Используй новые ML/DS подходы и решай задачи по геоаналитике и по моделям оттока клиентов. Ты в деле?

Не упусти возможность применить в работе самые передовые технологии для анализа данных. Участвуй в онлайн-встречах и обменивайся ценным опытом с единомышленниками.

Соревнование уже началось, но ты еще успеваешь запрыгнуть в последний вагон. Регистрируйся по ссылке — https://vk.cc/cvlpkk

*ML - машинное обучение
*DS - анализ данных

Читать полностью…

Анализ данных (Data analysis)

Привет!
Это команда Концепт-Разработка. Мы занимаемся развитием и внедрением продуктов в сфере больших данных, корпоративных хранилищ данных, BI и систем управления данными. У себя в канале развиваем сообщество бизнес и системных аналитиков, разработчиков и data-инженеров.
+ Актуальные вакансии;
+ Интересные разработки;
+ Проекты федеральных заказчиков;
+ Новости индустрии и многое другое.

Подписывайся на канал, мы будем рады и экспертам, и начинающим специалистам.

Реклама. ООО "КОНЦЕПТ РАЗРАБОТКА". ИНН 7703471165. erid: LjN8KPCGN

Читать полностью…

Анализ данных (Data analysis)

🚀 GPM AdTech Challenge 
от «Газпром-Медиа» и Getintent
Когда: 18-30 марта
Формат: гибридный
Призовой фонд: 1 000 000 рублей
Ты можешь стать победителем независимо от своего технического бэкграунда. Выбирай один из трех треков, создавай прототип и выигрывай 1 000 000 рублей.
Регистрация до 13 марта: https://cnrlink.com/gpmdataa

🎙 Frontend Мeetup от Росбанка
Когда: 22 марта
Формат: очный, Казань
Вас ждут доклады специалистов Росбанка, СберМаркета и VK Добра. 
Авторы лучших вопросов получат мерч. 
Регистрация до 18 марта: https://cnrlink.com/rbkazandataa

💢 «Халява, приди!»‎ от Codenrock
Когда: весь март
Формат: онлайн
Реши несложные, но увлекательные задачи по программированию и получи возможность стать обладателем промокода на любой маркетплейс. Это ли не халява?
Регистрация до 20 марта: https://cnrlink.com/halyavadataa

Реклама. ООО "ЦУКЕР СТУДИЯ". ИНН 7751071015. erid: LjN8JxK2o

Читать полностью…

Анализ данных (Data analysis)

🚀 Датасет Amazon Reviews получил четвертое обновление!

Amazon Reviews, один из крупнейших и наиболее широко используемых наборов данных отзывов, насчитывающий более 500 миллионов отзывов пользователей, более 48 миллионов товаров, более 60 миллионов токенов, из 33 категорий.

https://amazon-reviews-2023.github.io

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Программа бакалавриата в Центральном университете от Тинькофф с грантом до 100% для сильных и мотивированных абитуриентов!

Грант можно получить на одно из направлений бакалавриата по искусственному интеллекту, разработке и бизнес-аналитике. Помимо диплома и практико-ориентированного образования студенты получат:
- Персонализацию учебной траектории;
- Стажировку в одной из лучших ИТ-компании страны;
- Личного ментора на все время обучения;
- Доступ к современному кампусу в центре Москвы.

Получить полную информацию и оставить заявку можно здесь.

erid:2VtzqxQJgCq
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673

Читать полностью…

Анализ данных (Data analysis)

🌌 Galactic

Если вы хотите, изучить,, подготовить, очистить или создать эмбединги из больших наборов неструктурированных текстовых данных, попробуйте Galatic.

Он отдлично подходит для файнтюнинга данных, создания документов для RAG. Инструмент поможет выполнить полную подготовку неструктурированных датасетов для работы с LLM.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Сверхполезная статья от профи Data Science

Здесь обсуждается и показывается, как производить конкатенацию, сегментацию данных, объединять данные — и ещё очень много насущных вещей DS
Годно)

Клик

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🏆 Чтобы получить новые знания, опыт совместной работы и общение с лучшими экспертами, пройдите предварительную регистрацию в Летних школах Яндекса 2024!

Больше 50% выпускников становятся стажёрами и сотрудниками Яндекса💪

В этом году будет запущено больше школ:
🔸 Школа бэкенд-разработки;
🔸 Школа разработки интерфейсов;
🔸 Школа мобильной разработки;
🔸 Школа менеджеров Яндекса;
🔸 Школа аналитиков-разработчиков.

После лекций в онлайне будет практика в офисах Яндекса в Москве, Санкт-Петербурге и Екатеринбурге. Вам оплатят проезд и проживание, если вы из другого города📍

👉Подать заявку

Читать полностью…

Анализ данных (Data analysis)

🚗 Gemini 1.5 создает структурированный JSON из видео

На вход подается видео с классическими автомобилями и запрос с просьбой указать марку, производителя, год выпуска, цвет и описание авто - Gemini удалось проделать довольно приличную работу!

Привожу часть ответа ниже (полный json на картинке):

[
{
"make": "Cadillac Eldorado",
"manufacturer": "General Motors",
"year": 1953,
"color": "Blue",
"description": "The Cadillac Eldorado was a luxury convertible that was known for its stylish design and powerful engine."
},
{
"make": "Chevrolet Corvette",
"manufacturer": "General Motors",
"year": 1953,
"color": "Red",
"description": "The Chevrolet Corvette was a sports car that was known for its sleek design and impressive performance."
},

]

Шикарный результат!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 45+ IT-компаний ищут стажёров и джунов 

Карьерные форумы "Найти IT" — это шанс пообщаться с топовыми компаниями и получить оффер. Среди работодателей будут Сбер, Яндекс, Kaspersky, Avito и многие другие.

Что вас ждёт:
🔹 Мастер-классы, кейсы и Q&A-сессии.
🔹 Розыгрыш призов среди участников.
🔹 Обширное пространство для общения и обмена опытом.
🔹 Карьерные консультации от HR-ов.

Участие бесплатное! 

Выбирайте город и регистрируйтесь👇🏻
📍 Москва — 6 марта
📍 Санкт-Петербург — 6 апреля
📍 Новосибирск — 10 апреля

Читать полностью…

Анализ данных (Data analysis)

Кто круче нейросети?
Только тот, кто ее обучает.

Примите участие в бесплатном интенсиве «Погружение в Data Science: обучите свою первую нейросеть за два дня» от онлайн-школы Skillfactory.

С 19 по 20 марта будете знакомиться с:
– сферой Data Science и ее направлениями;
– элементарным анализом данных на Python;
– алгоритмами машинного обучения.

А за лучшее решение домашнего задания вы сможете получить подарок — мини-курс по аналитическому мышлению.

Регистрируйтесь: https://go.skillfactory.ru/&erid=2VtzqxZU1vB

Реклама. ООО «Скилфэктори», ИНН: 9702009530

Читать полностью…

Анализ данных (Data analysis)

Как организовать безоблачное долгосрочное хранение неструктурированных данных на серверах компании?

⏰ 21 марта в 16:00 МСК
⚡️ Регистрация: https://bit.ly/49Qu1tS

Обсудим реализацию архитектуры растянутого хранилища на несколько ЦОДов на примере продукта Cloud Storage. Рассмотрим кейс миграции более 150 ТБ хранимых данных в объектное хранилище от VK, в контуре компании, с протоколом доступа S3 API. Расскажем:

🔹Как обеспечить надежность хранения данных и удовлетворить требованиям регуляторов,
🔹Какие есть плюсы, минусы и подводные камни существующих типов систем хранения данных,
🔹Какие варианты хранения доступны в текущих условиях и как выбрать наиболее подходящий.

Регистрация: https://bit.ly/49Qu1tS

Читать полностью…

Анализ данных (Data analysis)

У Тинькофф открылась стипендиальная программа для студентов на 2024 год!

В отборе могут участвовать студенты бакалавриата, специалитета и магистратуры (кроме выпускного курса) из всех городов и ВУЗов.

Стипендия выдаётся на один учебный год и составляет 25 000 ₽ в месяц.
Кроме этого:
— доступ к лекциям;
— общение с менторами;
— отложенный оффер на стажировку или работу в Тинькофф.

Более подробная информация и форма подачи заявки 👉 по ссылке
Переходите и подавайте заявку на одну из крупнейших в стране частных стипендий для студентов!

erid:2VtzqwmWK5n
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673

Читать полностью…

Анализ данных (Data analysis)

Екатеринбург, 21 марта приглашаем на митап IT Talk by Sber! 😉


Поговорим о том, как сделать правильную анимацию в браузере, обсудим управление UI через backend и узнаем о проблемах наследования кода. А после — ответим на все вопросы, пообщаемся и просто отлично проведём время.

Спикеры и темы:

- Михаил Прядун, Frontend Developer, «Правильная анимация и хороший CSS»
- Алексей Кардашов, Java Developer, «Управление UI через backend в стеке jvm с использованием composite screen platform»
- Ирина Шахтарина, аналитик, «Это всё, что останется после меня: проблемы наследования кода и передачи права на него»
Встречаемся 21 марта в 18:30 в Технохабе Сбера по адресу ул. Розы Люксембург, 56а.

Ждём всех крутых разработчиков Урала! Регистрируйтесь по ссылке 💚

Читать полностью…

Анализ данных (Data analysis)

📌Годная статья по кластеризации в Machine Learning

Что освещается в статье?
• Алгоритмы кластеризации — K-means, Spectral Clustering и DBSCAN

• На чём основан K-means

• О работе Spectral Clustering, как он работает с нелинейно разделимыми данными, устойчив ли к выбросам

• Как DBSCAN группирует точки на основе плотности и самостоятельно определяет количество кластеров.

• Как работает Affinity Propagation; соотношение между данными и выбором репрезентативных образцов

• Подводные камни алгоритмов кластеризации, такие как выбор оптимальных параметров и высокая вычислительная сложность

📎 Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⭐️Что такое алгоритм ADD-DEL и где используется?

Алгоритм ADD-DEL используется для определения наиболее значимых признаков и улучшения производительности модели.
ADD-DEL является одним из методов отбора признаков, основанных на пошаговом поиске. Он работает так:

Начальная точка: Начальное множество признаков пустое.

Добавление признаков (ADD): Алгоритм просматривает все признаки, которые еще не были добавлены в множество, и добавляет тот признак, который приводит к наибольшему увеличению критерия оценки. Этот процесс повторяется, пока добавление новых признаков не перестанет улучшать критерий оценки.

Удаление признаков (DEL): После того, как невозможно улучшить критерий оценки путем добавления новых признаков, алгоритм начинает удалять признаки. Он просматривает все признаки, которые уже были добавлены в множество, и удаляет тот признак, который приводит к наименьшему ухудшению критерия оценки. Этот процесс повторяется, пока удаление признаков не перестанет улучшать критерий оценки.

Процесс продолжается до достижения определенного критерия остановки, например, до достижения определенного числа признаков или улучшения производительности модели.

В целом алгоритм ADD-DEL используется довольно часто, для подробного ознакомления вот ниже полезные ссылки
🖥 Код с объяснением алгоритма
📎 Лекции МГУ
📎 Лекция Воронцова К.В.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔺 Полезные ссылки для специалиста по Data Science

Эти источники помогут освежить знания по DS, особенно полезно будет полистать перед собеседованием

Изучение основ Python
Питонтьютор — понятный и удобный курс для освоения базы. Там много задач для практики, которые попадаются на собеседованиях.
Основы Python-разработки — ещё один бесплатный курс: за 20 часов вы изучите основы и напишете простой код.
Основы программирования и анализа данных на Python — короткий видеокурс. Особенно рекомендую лекции 7—10 про полезные библиотеки Pandas, NumPy, Matplotlib и Seaborn.

Основы SQL
Интерактивный тренажёр по SQL — курс с множеством практических заданий на создание SQL-запросов. Рекомендую начать с него.
Основы работы с базами данных и SQL — ещё один курс с интерактивным тренажёром.
Упражнения на SQL-EX — тренажёр написания запросов SELECT. Регулярно решайте задачи, чтобы уверенно чувствовать себя на собеседованиях.

Библиотеки Python
Python PANDAS, полный курс для начинающих — библиотека Pandas помогает удобно работать с табличными данными и похожа логикой на SQL. Основные операции стоит знать наизусть: чтение таблиц, редактирование, работа с пропусками, изменение типов данных. После изучения теории возьмите какой-нибудь датасет и вручную «покрутите» его в Jupyter Notebook
Основы NumPy — библиотека NumPy помогает быстро и удобно производить математические операции. Она используется во многих других библиотеках. Необязательно знать все операции наизусть, главное — уметь быстро в них сориентироваться при необходимости.
Matplotlib — библиотеки для визуализации данных. В Seaborn графики выглядят красивее, а Matplotlib гибко настраивается. Заучивать все функции и методы необязательно.
50 оттенков Matplotlib — статья с примерами графиков, чтобы построить что-то подобное для своих данных.

Алгоритмы и структуры данных
Тренировки по алгоритмам — лекции с теорией, домашними заданиями и разборами. Сдавайте задания вовремя, чтобы получить сертификат. Лучших участников готовят к прохождению алгоритмических собеседований.
LeetCode — сайт с задачами для подготовки к собеседованиям. Решайте уровни Easy и Medium перед интервью.

Математика для анализа данных
Бесплатный курс «Основы математики для цифровых профессий» поможет закрыть пробелы в базовой математике, чтобы перейти к более сложным темам.
Теория вероятностей поможет проанализировать данные и отличить случайности от закономерностей. Смотрите лекции от МФТИ и других крутых универов по теорверу на YouTube.
Основы математической статистики — курс связан с теорвером, и с его помощью можно научиться делать достаточно точные выводы о данных по их выборке.
Курс ведёт Анатолий Карпов — ex-тимлид команды аналитики в отделе бизнеса и рекламы VK. Он крутой специалист, рекомендую его вебинары на YouTube

Продуктовая аналитика
Публичное собеседование по продуктовой аналитике
ML для оптимизации цен на основе эластичности по цене
Как мы не сделали рекомендательную систему в банке
Этого должно быть вполне достаточно, чтобы начать проходить собеседования по чистой продуктовой аналитике.

Используйте все эти ресурсы по максимуму 🔥

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔅Секреты успешного анализа данных: 10 принципов, которые работают

Эти 10 принципов — подборка практических и довольно очевидных правил, главное — придерживаться их. Начнём!

1️⃣Определите цель анализа данных.
Подумайте о том, что для вас на данный момент важнее всего: выявить скрытые закономерности в данных, предсказать будущие тренды или что-то другое.

2️⃣Обеспечьте качество данных.
Подготовка данных к анализу - это ваш первый шаг к созданию шедевра аналитики.

3️⃣Применяйте разнообразные методы анализа.
Уверенность в владении разнообразными методами анализа поможет вам принимать обоснованные решения и открывать новые перспективы.

4️⃣Используйте современные инструменты для обработки данных.
Открывайте новые горизонты современных технологий, обогащайте свои навыки и возможности в области обработки данных и становитесь настоящим профи данных.

5️⃣Создавайте эффективные модели прогнозирования.
Используя эффективные модели прогнозирования, вы вооружаетесь сильным инструментом, позволяющим вам принимать осознанные решения и идти впереди конкурентов.

6️⃣Осуществляйте визуализацию данных для наглядного представления информации.
Визуализация делает данные живыми и наглядными, что поможет вам принимать обоснованные решения.

7️⃣Учитывайте контекст и особенности данных.
Это позволит вам строить глубокие и точные модели, учитывая все нюансы и особенности, что помогает принимать обоснованные и эффективные решения.

8️⃣Используйте машинное обучение и искусственный интеллект.
ML и AI — это ваш мощный арсенал в битве за понимание и прогнозирование данных.

9️⃣Проводите регулярную проверку и обновление данных.
Это поможет вам принимать обоснованные решения, опираясь на достоверные и актуальные факты.

0️⃣Извлекайте практическую пользу из результатов анализа.
Это поможет вам использовать данные не только как информацию, но и как мощный инструмент для достижения целей и реализации задач.

В общем, данные — это не просто цифры и факты, это ключ к принятию обоснованных решений. Используйте их на полную!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🤗 Новый курс "Модели с открытым исходным кодом на Hugging face".

huggingface изменил правила игры, позволив разработчикам легко использовать любую из сотен тысяч уже готовых моделей с открытым исходным кодом для сборки в своих проектах.

Этот курс научит вас лучшим практикам работы с hf, в том числе поиску и выбору моделей.

Вы научитесь пользоваться библиотекой Transformers и познакомитесь с несколькими моделями обработки текста, аудио и изображений, включая сегментацию изображений с нулевым кадром, классификацию аудио с нулевым кадром и распознавание речи.

Вы также научитесь использовать мультимодальные модели для визуального ответа на вопросы, поиска изображений и подписи к изображениям. Наконец вы поработаете с Gradio и Hugging Face Spaces.

https://deeplearning.ai/short-courses/open-source-models-hugging-face/

Читать полностью…

Анализ данных (Data analysis)

⚡️Вышло обновление Automatic 1111 до версии 1.8.0

Обновился Automatic 1111 — самый популярный интерфейс для генерации изображений с помощью нейросетей Stable Diffusion

🟠Soft инпеинтинг с дополнительным размытием краев позволяет добиться невероятного качества изменения. Переходы теперь идеальные между оригиналом и инпеинтингом. Особенно если использовать модель для инпеинтинга SDXL, поддержка которых теперь доступна из коробки, просто скачайте модель как обычно.

🟠Поменялся интерфейс в меню экстрасетей (модели, лоры, эмбединги), теперь навигация представлена деревом каталогов и это наконец-то стало удобно.

🟠Добавлена нативная поддержка апскейлеров формата DAT, попробуйте скачать 4xLSDIRDAT в папку stable-diffusion-webui\models\DAT, не страшно если её нет, можете создать, она появится при попытке активировать DAT апскейлер на вкладке Extras.

🟠В txt2img теперь есть кнопка, которая позволяет сделать Hires. fix на уже готовой картинке, при этом сразу начинается апскейл экономя время.

🟠Крутых обновлений целая гора, вот список на изображении

Тестите, пишите как оно)

🖥 Automatic1111

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💎 Дата-сайентист — сравнительно молодая профессия. Спрос на таких специалистов растёт гораздо быстрее, чем увеличивается количество самих аналитиков. Если тебе нравится работать с большими данными и находить в них закономерности, пройди обучение от Слёрм и получи профессию будущего!

На курсе Data Scientist ты поймешь, как работают алгоритмы машинного обучения, и научишься применять их в проектах на реальных данных.

Курс подойдёт:
✔️ Разработчикам, которые работают вместе с дата-сайентистами и хотят лучше понимать коллег;
✔️ Software Engineer, Data Engineer, DevOps Engineer уровня Middle, готовым перейти в смежную профессиональную область;
✔️ Программистам на Python, которые хотят освоить новое перспективное направление.

Курс состоит на 30% из теории и на 70% из практики.

За 96 часов обучения ты освоишь:
⚡️ Алгоритмы и теорию машинного обучения;
⚡️ Базовые подходы и популярный фреймворк для построения нейросетей;
⚡️ Машинное обучение для выполнения бизнес-задач;
⚡️ Способы анализа и визуализации больших объёмов данных разных типов;
⚡️ Библиотеки для анализа данных.


Присоединяйся! Скачай презентацию курса и получи демо-доступ на 7 дней, чтобы убедиться, что курс тебе подходит.

Реклама. ООО «Слёрм» г. Лиски, ИНН 3652901451

Читать полностью…

Анализ данных (Data analysis)

➡️Совсем свежий 4-часовой курс по ML от freeCodeCamp.org

В этом ролике затронуты самые важные понятия ML и смежных областей, помимо теории, есть много кода и практических заданий (например, прогнозирование стоимости жилья)

Что есть в курсе?
🟢Дорожная карта ML на 2024 год
🟢Необходимый набор навыков для карьеры в области ML
🟢Основные карьерные пути
🟢Основы ML
🟢Bias-Variance Trade-Off
🟢Overfitting и регуляризация
🟢Основы линейной регрессии
🟢Теория моделей линейной регрессии
🟢Теория моделей логистической регрессии
🟢Пример с линейной регрессией
🟢Загрузка и исследование данных
🟢Определение независимых и зависимых переменных
🟢Очистка и предварительная обработка данных
🟢Описательная статистика и визуализация данных
🟢Межквантильный диапазон для обнаружения выбросов
🟢Корреляционный анализ
🟢Разделение данных на Train/Test с помощью sklearn
🟢Запуск линейной регрессии - причинно-следственный анализ
🟢Проверка допущений OLS в модели линейной регрессии
🟢Запуск линейной регрессии для прогнозной аналитики

➡️ Youtube

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻 Вредоносные Deep Learning модели

На платформе Hugging Face обнаружено не менее 100 вредоносных Deep Learning моделей, некоторые из которых могут выполнять код на машине жертвы, предоставляя злоумышленникам постоянный бэкдор.

Специалисты компании JFrog разработали и развернули продвинутую систему сканирования для проверки моделей PyTorch и Tensorflow Keras, размещенных на Hugging Face.
Малварь проникла в Hugging Face несмотря на все меры безопасности, включая сканирование на наличие малвари, а также тщательное изучение функциональности моделей для обнаружения такого поведения, как небезопасная десериализация.

Одним из примеров стала модель PyTorch, загруженная недавно пользователем под ником baller423 и уже удаленная с HuggingFace. Она содержала полезную нагрузку, которая позволяла создать реверс-шелл на указанный хост (210.117.212.93). Вредоносная полезная нагрузка использовала метод __reduce__ модуля pickle для выполнения произвольного кода при загрузке файла модели PyTorch, при этом избегая обнаружения за счет встраивания малвари в доверенный процесс сериализации.

В JFrog обнаружили, что та же полезная нагрузка связывалась и с другими IP-адресами, что позволяет предположить, что ее операторы все же являются ИИ- и ИБ-исследователями, а не хакерами. Однако такие эксперименты в JFrog все равно называют слишком рискованными, учитывая, что опасные модели были общедоступны.

Пытаясь определить истинные намерения операторов вредоноса, аналитики развернули приманку для привлечения активности и ее анализа. Им удалось установить соединение с сервером потенциальных злоумышленников, однако не удалось перехватить ни одной команды за время поддержания соединения.

@linuxkalii

Читать полностью…

Анализ данных (Data analysis)

📈 Если вы хотите преобразить свои графики #matplotlib попробуйте LovelyPlots

Чтобы красивые графики, просто добавьте одну строку кода к существующему коду matplotlib.

📉 Lovely Plots - это инструмент, содержащий таблицы стилей matplotlib для легкого форматирования графиков для научных статей, проектов и презентаций.

Библиотека сохраняет их полностью редактируемыми в Adobe Illustrator.

Кроме того, параметры экспорта .svg позволяют автоматически адаптировать шрифт рисунков к шрифту вашего документа.

Например, рисунки в формате .svg, импортированные в файл .tex, будут автоматически сгенерированы с использованием текстового шрифта, используемого в вашем файле .tex.

pip install LovelyPlots

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

По умолчанию преобразователи #scikit-learn возвращают массив NumPy. Это может быть проблемой, если для последующих этапов обработки данных вам нужен датафрейм pandas.

К счастью, начиная с scikit-learn версии 1.3.2, вы можете использовать метод set_output для получения результатов в формате датафреймов pandas.

@data_analysis_ml

Читать полностью…
Subscribe to a channel