Telegram-канал sqlhub - Data Science. SQL hub: Unsorted - каталог телеграмм

sqlhub | Unsorted

Subscribe to a channel

Telegram-канал sqlhub - Data Science. SQL hub

32899

По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo

Subscribe to a channel

Data Science. SQL hub

26 Jul 2025 13:01

⚡️ Replibyte — реалистичные данные для разработки без рисков. Инструмент для безопасного копирования продакшен-данных в тестовые окружения. Поддерживает PostgreSQL, MySQL и MongoDB, автоматически заменяя конфиденциальную информацию на правдоподобные фейковые значения.

Инструмент умеет работать с большими БД (10+ ГБ), сжимать и шифровать данные на лету, а также масштабировать данные до разумного размера. Всё в одном бинарном файле без серверных компонентов.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

25 Jul 2025 20:00

🦆 DuckDB vs 🐼 pandas: кто быстрее разберётся с «капризным» CSV?

📊 Сценарий
1. pandas read_csv("flight_data.csv") → весь файл свалился в одну колонку
2. DuckDB SELECT * FROM read_csv('flight_data.csv') → автоматически подхватил разделитель и выдал аккуратные столбцы

💡 Вывод
Если работаете с CSV с нестандартным delimiter’ом, попробуйте прочитать его через DuckDB: детектирует разделители сам и экономит ваше время на ручной настройке.

@sqlhub

Читать полностью…

Data Science. SQL hub

24 Jul 2025 12:22

🖥 Продвинутый SQL-трюк: как найти строки, отличающиеся только одним символом

Иногда нужно найти пары строк, которые почти совпадают — например, из-за опечатки в одной букве. Такой кейс часто встречается при поиске дублей в именах, email или товарах.

С помощью функции levenshtein() из расширения pg_trgm в PostgreSQL, можно находить строки, отличающиеся ровно на 1 символ. Это удобно для очистки данных, поиска дублей и реализации "умного" поиска в интерфейсе.


-- Убедись, что pg_trgm расширение включено
CREATE EXTENSION IF NOT EXISTS pg_trgm;

-- Найдём строки из таблицы users, у которых name отличается на 1 символ
SELECT a.name AS name1, b.name AS name2
FROM users a
JOIN users b ON a.id < b.id
WHERE levenshtein(a.name, b.name) = 1;

-- Пример: найдёт пары вроде ('Anna', 'Anya') или ('John', 'Joan')

📌Больше видео

@sqlhub

Читать полностью…

Data Science. SQL hub

21 Jul 2025 17:18

🔥 Nhost — свежий взгляд на backend-разработку с открытым исходным кодом. Этот проект предлагает готовую облачную платформу или возможность самому развернуть альтернативу Firebase, но с GraphQL и PostgreSQL под капотом. Вместо NoSQL — привычный SQL, вместо REST — мощный GraphQL API на базе Hasura, а также встроенные аутентификация, хранилище и serverless-функции.

При этом Nhost не привязывает разработчика к конкретному фронтенд-фреймворку. Один и тот же SDK работает с React, Vue, Next.js и даже Flutter. Локальная разработка упрощена благодаря CLI, а для продакшна можно выбрать как managed-решение от создателей, так и развернуть всё на своих серверах через Docker.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

21 Jul 2025 12:02

🔑 Oracle выпустила масштабные обновления безопасности для своих ключевых продуктов. В июльском патче устранено 309 уязвимостей разной степени критичности, затрагивающих популярные решения компании.

Наибольшую опасность представляли 9 уязвимостей в Java SE, позволяющих удалённое выполнение кода без аутентификации. Серьёзные проблемы обнаружены и в VirtualBox — три критические уязвимости дают возможность скомпрометировать гипервизор из гостевой системы. Обновления уже доступны для всех поддерживаемых версий затронутых продуктов.

🔗 Ссылка - *клик*

@sqlhub

Читать полностью…

Data Science. SQL hub

19 Jul 2025 14:43

😈 Немного токсичности — на пользу?

В финальном обзоре от команды AI VK с ICML 2025 — работа, в которой добавление умеренно токсичных текстов в обучающую выборку помогает улучшить ответы LLM, не повышая при этом токсичность. Всё дело в согласованной настройке данных, обучения и инференса (prompting & steering).

💡 Результат — +10% к объёму датасета, рост качества по MMLU и управляемая токсичность за счёт лучшего подавления нежелательных паттернов на инференсе.

Читать полностью…

Data Science. SQL hub

18 Jul 2025 11:02

🦉 Tonbo — новый игрок в мире embedded-баз данных. В отличие от традиционных key-value хранилищ, использует LSM-дерево поверх Apache Arrow/Parquet, что открывает интересные возможности для аналитических запросов с pushdown-оптимизациями.

Проект находится в активной разработке, но уже примечателен type-safe API через derive-макросы и поддержкой транзакций. Интересно наблюдать, как он будет развивать интеграцию с экосистемой Arrow (DataFusion) в будущих версиях.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

17 Jul 2025 09:01

От аналитики до AI — онлайн-магистратура УрФУ

Спрогнозировать погоду, диагностировать болезни по снимкам или создать умную рекомендательную систему — для ML-инженеров нет ничего невозможного. Онлайн-магистратура УрФУ и Нетологии «Инженерия машинного обучения» поможет освоить востребованную профессию.

За 2 года обучения вы:
— Освоите создание ML-моделей и автоматизацию процессов;
— Научитесь работать с Big Data, проектировать архитектуру для хранения данных и настраивать ETL-процессы;
— Получите практический опыт на реальных проектах, сможете участвовать в Kaggle-соревнованиях и хакатонах;
— Пройдёте полный цикл разработки систем ИИ — от математических основ до продакшена;
— Получите два диплома: государственного образца от УрФУ и дополнительный от Нетологии.

Гибкий онлайн-формат обучения позволит совмещать учёбу с работой, а карьеру строить уже во время магистратуры.
👉 Подробнее о магистратуре - https://netolo.gy/ef2e

Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5wX4r9v

Читать полностью…

Data Science. SQL hub

15 Jul 2025 11:50

🧠 Как оценивать качество RAG-систем: метрики и MLflow в действии

Retrieval-Augmented Generation (RAG) — мощная архитектура, но её тонко настраивать сложно. Ответы могут казаться "разумными", даже если они на самом деле некорректны. Как понять, работает ли ваша система так, как надо?

В свежем гайде от CodeCut показано, как системно оценивать качество RAG-моделей, а не надеяться на «на глаз»:

🔹 Метрики качества:
- Context Precision / Recall — насколько релевантны и достаточны извлечённые документы
- Faithfulness — насколько ответ действительно основан на контексте, а не «галлюцинирует»
- Answer Relevance — насколько сам ответ полезен и по теме

🔹 Интеграция с MLflow:
Можно логировать не только метрики, но и:
- Извлечённые документы
- Ответы модели
- Ground truth (если есть)
- Скриншоты или HTML-рендеринг всей цепочки

🔹 Автоматическая разметка:
Используется GPT/Claude для автоматического суждения о faithfulness и relevance — удобно при отсутствии human-annotators.

📌 Вывод:
Если вы строите RAG-решения, важно думать не только о качестве retrieval и LLM по отдельности, но и о том, как оценивать весь pipeline.

Метрики + MLflow дают структуру, чтобы сравнивать улучшения и принимать обоснованные решения.

#RAG #MLflow #LLM #Evaluation #AIProduct

@sqlhub

Читать полностью…

Data Science. SQL hub

14 Jul 2025 11:01

🛠️ AI + SQL = мгновенный доступ к данным в базе

На картинке — простой пример, как с помощью FastMCP и SQLAlchemy можно подключить инструмент к базе данных, который по человеческому запросу выводит список всех таблиц.

📦 Что происходит:
1. Человек пишет: *"Show me all tables in the ecommerce database"*
2. AI вызывает list_tables(), получает список через SQLAlchemy
3. Возвращается JSON и сгенерированный ответ на естественном языке

⚙️ Используемые технологии:
- FastMCP — для регистрации инструментов и взаимодействия с агентами
- @mcp.tool — декоратор, позволяющий превращать функции в доступные действия для ИИ
- inspect() из SQLAlchemy — безопасный способ получить метаданные БД

🧠 Это база для создания умных ботов-помощников, которые умеют работать с реальными базами данных и выдавать ответы, понятные человеку.

Интерфейс будущего уже здесь — не SQL-запрос, а обычный вопрос на английском.

@sqlhub

Читать полностью…

Data Science. SQL hub

11 Jul 2025 12:32

▶️ Для Claude Code выпустили фреймворк, который превращает одну нейросеть в полноценную команду ИИ-разработчиков.

Система готова из коробки и может сразу писать проекты любой сложности.

Что внутри:

• ИИ-агенты с разными ролями — один пишет код, другой проверяет, третий ищет уязвимости и передаёт задачи дальше по цепочке
• Генератор структуры проекта — помогает агентам понимать архитектуру и держать весь контекст
• Интеграция с MCP — ИИ использует только актуальные спецификации и документацию

🔧 Установка и подробности — по ссылке: https://github.com/peterkrueck/Claude-Code-Development-Kit

Читать полностью…

Data Science. SQL hub

10 Jul 2025 20:02

🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней

У вас есть таблица purchases:


purchases (
  id SERIAL PRIMARY KEY,
  customer_id INT,
  purchase_date DATE,
  amount NUMERIC
)

Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.

Показать:

- customer_id
- first_purchase_date
- second_purchase_date

✅ Решение:


WITH ordered_purchases AS (
  SELECT
    customer_id,
    purchase_date,
    ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
  FROM purchases
),

first_second_purchases AS (
  SELECT
    p1.customer_id,
    p1.purchase_date AS first_purchase_date,
    p2.purchase_date AS second_purchase_date
  FROM ordered_purchases p1
  JOIN ordered_purchases p2
    ON p1.customer_id = p2.customer_id
   AND p1.rn = 1
   AND p2.rn = 2
)

SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';

🔍 Пояснение:

- ROW_NUMBER() присваивает каждой покупке порядковый номер в рамках клиента.
- Через self-join соединяем первую и вторую покупку клиента.
- Далее фильтруем, оставляя только те, у кого вторая покупка была не позднее 7 дней после первой.

⚠️ Важно:

- Клиенты с одной покупкой исключаются — у них нет второй.
- Мы не ищем любые две покупки в пределах 7 дней, а только первую и вторую по порядку.
- INTERVAL '7 days' обеспечивает корректное сравнение дат.

@sqlhub

Читать полностью…

Data Science. SQL hub

10 Jul 2025 13:44

🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней

У вас есть таблица purchases:


purchases (
  id SERIAL PRIMARY KEY,
  customer_id INT,
  purchase_date DATE,
  amount NUMERIC
)

Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.

Показать:

- customer_id
- first_purchase_date
- second_purchase_date

✅ Решение:


WITH ordered_purchases AS (
  SELECT
    customer_id,
    purchase_date,
    ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
  FROM purchases
),

first_second_purchases AS (
  SELECT
    p1.customer_id,
    p1.purchase_date AS first_purchase_date,
    p2.purchase_date AS second_purchase_date
  FROM ordered_purchases p1
  JOIN ordered_purchases p2
    ON p1.customer_id = p2.customer_id
   AND p1.rn = 1
   AND p2.rn = 2
)

SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';

🔍 Пояснение:

- ROW_NUMBER() присваивает каждой покупке номер в пределах одного клиента.
- Мы соединяем первую и вторую покупки клиента через self-join.
- В финальном SELECT фильтруем только те пары, где разница между датами ≤ 7 дней.

⚠️ Важно:

- Клиенты с одной покупкой отфильтруются (у них нет второй).
- Сравнение выполняется через INTERVAL '7 days', чтобы корректно обрабатывать даты.
- Это не поиск любых двух покупок в пределах 7 дней, а именно проверка интервала между первой и второй.

@sqlhub

Читать полностью…

Data Science. SQL hub

10 Jul 2025 08:40

⚡Крутейший релиз от Anthropic — парни выпустили собственные бесплатные курсы!

Вы нижете десятки лекций, тесты и даже сертификаты по различным темам: от Anthropic API до MCP и лучших практик Claude Code. Всё с реальными примерами от разработчиков.

Забираем здесь.

Читать полностью…

Data Science. SQL hub

09 Jul 2025 16:14

🤖 Reachy Mini — первый доступный робот от Hugging face

Reachy Mini — это выразительный и полностью open-source робот, созданный для взаимодействия с человеком, коммуникации и экспериментов с ИИ.

🧠 Что делает его особенным?
- Все ПО открыто и написано на Python, а скоро будет достнуо — и на JavaScript и Scratch
- Базовая версия стоит $299, еще доступна wireless-версия за $449
- Открытая архитектура и SDK — идеален для экспериментов с LLM, аудио- и визуальными агентами

С ним можно разрабатывать, тестировать, запускать и делиться реальными ИИ-приложениями — на базе современных LLM-моделей.

Технические характеристики

- Высота: 28 см, в режиме сна — 23 см
- Ширина: 16 см, вес: 1.5 кг
- Поставляется в виде конструктора:
- Lite-версия — базовый функционал
- Полноценная версия — автономная версия с Raspberry 5 внутри, встроенным питанием, Wi‑Fi, микрофонами и камерой

🎤 Датчики и интерфейсы
- Микрофоны: Lite — 2, Wireless — 4 встроенных микрофонов
hyper.ai
- Камера: широкоугольная фронтальная камера (в wireless-версии)
- Акселерометр: встроен в Wireless-версию

🔗 Подробнее: http://hf.co/blog/reachy-mini

@ai_machinelearning_big_data

#huggingface #Reachy #opensource #Python

Читать полностью…

Data Science. SQL hub

26 Jul 2025 11:44

⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Devops: t.me/DevOPSitsec
Базы данных: t.me/sqlhub
Мл собес t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
МЛ: t.me/machinelearning_ru
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/java_library
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Физика: t.me/fizmat
SQL: t.me/databases_tg
Базы данных: t.me/sql_lib

Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot -

📕Ит-книги: /channel/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.me/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!

Читать полностью…

Data Science. SQL hub

25 Jul 2025 18:58

Андрей Рыбинцев стал управляющим директором по ИИ в Авито — позицию ввели на уровне правления в рамках стратегии масштабного внедрения искусственного интеллекта.

Под его управлением будет команда из 900 специалистов, несколько департаментов, в том числе новый кластер AI Experience. Среди приоритетов: развитие ассистентов на базе генеративных моделей, масштабирование A-Vibe и A-Vision, агентский ИИ, интеграция технологий ИИ в максимальное количество сервисов платформы.

Рыбинцев работает в компании более 10 лет. Под его руководством развивались ключевые технологии: антифрод, автоматическая модерация, индикатор рыночной цены (IMV), собственные генеративные решения. По оценкам компании, GenAI может принести Авито более 21 млрд ₽ допвыручки к 2028 году.

Читать полностью…

Data Science. SQL hub

22 Jul 2025 10:14

📊 Argilla — инструмент для создания качественных датасетов под AI. Проект помогает разработчикам и экспертам совместно работать над разметкой данных для NLP, LLM и мультимодальных моделей.

Платформа предлагает удобный интерфейс для аннотирования с фильтрами, семантическим поиском и AI-подсказками. Argilla используют в Red Cross и других организациях для задач классификации, RAG и тонкой настройки моделей.

🖥 Github

@sqlhub

Читать полностью…

Data Science. SQL hub

21 Jul 2025 16:16

🎁 РАЗЫГРЫВАЕМ MacBook Air!

Разыгрываем шикарный 13-дюймовый MacBook Air! Отличная рабочая машинка!

Условия участия максимально простые:

🔸Подписаться на телеграм-канал: @sqlhub
🔸Подписаться на телеграм-канал: @ai_machinelearning_big_data
🔸Нажать кнопку "Участвовать" ниже.

ВСЁ! Вы участник! Бот выберет одного человека, которому мы подарим этот MacBook. Доставка по зоне СДЭК.

Итоги подведём 14 августа.

Всем удачи! Пусть победит самый приятный человек!

⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвую».

Читать полностью…

Data Science. SQL hub

20 Jul 2025 13:24

🧠 HASH — открытая база данных с элементами ИИ, которая самостоятельно структурирует информацию и проверяет её достоверность. Проект объединяет данные из разных источников в реальном времени, предлагая удобные инструменты для работы с ними даже не-техническим пользователям.

HASH имеет автономных агентов, которые автоматически дополняют и очищают данные, а в будущем система превратится в полноценную рабочую среду с AI-интерфейсами. Для старта можно использовать облачную версию или развернуть локально.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

19 Jul 2025 13:02

🖥 Нашли кладезь знаний из 800+ SQL-вопросов с задачами — идеально для подготовки к собеседованиям.

Подойдёт, чтобы:
— прокачать SQL-навыки с нуля до продвинутого уровня
— быстро освежить синтаксис перед интервью
— попрактиковаться на реальных задачах

Полезно как джунам, так и мидлам. Отличный способ проверить себя и закрыть пробелы.

Читать полностью…

Data Science. SQL hub

17 Jul 2025 11:01

🚀 Amazon запускает S3 Vectors — и это может перевернуть рынок векторных БД

На первый взгляд — просто новый сервис. На деле — возможно, главная новость для AI-инфраструктуры в 2024.

Когда Amazon представил S3 в 2006, он навсегда изменил подход к хранению данных: больше не нужно думать о дисках — только API и бесконечное масштабирование. S3 Vectors может сделать то же самое с векторными БД.

💡 Почему это важно

1️⃣ Резкое удешевление

- $0.06/GB за хранение, $0.004/TB за запросы
- В 10–400 раз дешевле, чем популярные векторные хостинги
- Подходит для стартапов, особенно с бесплатными AWS-кредитами

2️⃣ Масштабируемость без DevOps

- Храни миллиарды векторов
- Запросы — за сотни миллисекунд
- Без серверов: просто создаёшь *vector bucket* и используешь API

3️⃣ Глубокая интеграция с AWS-экосистемой

- Bedrock (RAG-приложения)
- OpenSearch (tiered storage)
- SageMaker и другие сервисы
- Всё подключается "из коробки"

🛠️ Что можно делать

- Масштабируемый RAG с низкой ценой
- Поиск по смыслу в документах, видео, медизображениях, коду
- Долгосрочная память для AI-агентов
- Семантический корпоративный поиск

📈 Сообщество уже тестирует: среднее время запроса — ~250 мс. Preview-доступ открыт в регионах US East/West, Frankfurt и Sydney.

🔗 https://aws.amazon.com/blogs/aws/introducing-amazon-s3-vectors-first-cloud-storage-with-native-vector-support-at-scale/

Если пробуете — делитесь результатами. Это может быть началом нового стандарта.

@sqlhub

Читать полностью…

Data Science. SQL hub

16 Jul 2025 13:03

Огромная Python-шпаргалка с удобной навигацией!

В репозитории собраны шпаргалки (на русском) по Python и не только, разделённые по категориям. Каждая ссылка ведёт к PDF с нужной темой.

🗂 Кроме Python, есть материалы по Git, CORS, Docker, API, SQL, CI/CD, Kubernetes и другим темам разработки.

👉 https://github.com/Dv-nn/Cheat-Sheet-Python

#Python #Программирование #Шпаргалки

@sqlhub

Читать полностью…

Data Science. SQL hub

14 Jul 2025 14:03

🧠 Исследователь OpenAI Ноам Браун заявил:

"Все эти модные AI-системы с роутерами, обвязками и агентами смоет масштабом.

Будущее — за моделями, которые просто работают хорошо из коробки."

Что это значит?

▪ GPT‑5, похоже, не будет использовать роутеры — то есть, не будет выбирать отдельную подмодель под каждый запрос.
▪ Вместо этого — одна большая универсальная модель, способная справляться со всем сразу.

Но возникает важный вопрос:
Как они собираются держать цену инференса низкой?
Без роутера даже на простой вопрос будет отвечать вся огромная модель — это дорого.

Если OpenAI реально решила эту задачу, это будет революция:
▪ Без костылей
▪ Без сборок из агентов
▪ Просто умная, быстрая и универсальная модель

Следим внимательно. Это может многое изменить.

Читать полностью…

Data Science. SQL hub

11 Jul 2025 22:52

🔥 Китай выпускает новую опенсорс модель: Kimi K2 — llm уровня Claude 4, которая обходит DeepSeek v3, Qwen и даже GPT-4.1

Размер — 1 триллион параметров, при этом:

📊 В бенчмарках:
- 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1
- Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам
- Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны.

Также доступна через API:

- $0.15 за миллион входных токенов (при попадании в кэш)
- $0.60 за миллион входных токенов (если кэш не сработал)
- $2.50 за миллион выходных токенов

Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro!

🟡 Github

@ai_machinelearning_big_data

#kimi #china #llm #ml #ai

Читать полностью…

Data Science. SQL hub

11 Jul 2025 10:27

🔥 Дата-инженеры, встречаемся на митапе ЮMoney

Приходите на митап High SQL — он пройдёт 15 июля в 19:00 (по мск) офлайн в Санкт-Петербурге и онлайн из любой точки мира. Вот о чём поговорим со спикерами из ЮMoney и приглашённым экспертом Дмитрием Аношиным:

🟣101 Performance Tuning: невредные советы. Проверяем и анализируем самые популярные советы по оптимизации хранилищ на основе реляционных баз данных.

🟣Качество данных: от осознания до реализации. Если вы тоже сталкивались с ошибками в отчётах, дублированием данных и недоверием к аналитике, этот доклад для вас.

🟣Обзор фреймворка DBT и примеры его использования. Почему он стал таким популярным? Рассмотрим основные возможности DBT, альтернативы и как DBT используют в дата-командах.

✅ Участие бесплатное, но нужно зарегистрироваться на сайте.

Читать полностью…

Data Science. SQL hub

10 Jul 2025 18:02

Курс с углублённым изучением профессии аналитика данных.

Станьте незаменимым специалистом на рынке труда с курсом от Нетологии.

Преподаватели курса — эксперты из крупных компаний: Сбера, Яндекса, Gett, Работы.ру и других.

Вы изучите:

- продвинутые инструменты — A/B-тестирование, аналитику больших данных, SQL и Python;
- современные российские BI-решения — AW BI и DataLens;
- нейросети, которые можно использовать при анализе.

А ещё все студенты получат доступ к профессиональному комьюнити с еженедельными офлайн и онлайн-митапами. На них разбираем актуальные инструменты и делимся опытом.

До конца июля на курс действует сразу 2 скидки: летняя — 40%, и дополнительная — 10 000 рублей по промокоду DATA10.

➡️ Посмотреть программу курса

Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5wZyTuJ

Читать полностью…

Data Science. SQL hub

10 Jul 2025 11:44

Как начать в Data Science, когда все вокруг уже сеньоры?

В Вышке открыт набор на онлайн-магистратуру «Магистр по наукам о данных». Поступить можно даже без технического бэкграунда, а учиться — в удобном формате.

Уже сейчас идет марафон подготовки к вступительным испытаниям, после которого вы сможете успешно поступить на программу.

За 4 встречи вы
— Разберетесь в математике
— Попрактикуетесь на задачах вступительных испытаний
— Познакомитесь с преподавателями и магистратурой
— Получите доступ в чат комьюнити

Когда: 9-14 июля, 18:00 (МСК)
Где: онлайн

📎 Зарегистрироваться и начать карьеру в DS

Читать полностью…

Data Science. SQL hub

09 Jul 2025 18:14

🌊 OceanBase — распределённая СУБД от Ant Group с поддержкой векторного поиска. Это необычная opensource-база данных, сочетающая реляционную модель с возможностями векторного поиска для AI-сценариев. Изначально создавалась для обработки финансовых транзакций Alibaba, но теперь доступна всем.

OceanBase имеет архитектуру на основе Paxos-протокола, обеспечивающая нулевую потерю данных (RPO=0) и восстановление за 8 секунд. Опробовать её можно в Docker или развернуть кластер в Kubernetes через ob-operator.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

08 Jul 2025 11:55

🧠 Хитрая SQL-задача с подвохом: «Найди самого преданного клиента»

У тебя есть таблица purchases со следующей структурой:


purchases (
  id SERIAL PRIMARY KEY,
  user_id INT,
  item_id INT,
  amount DECIMAL,
  purchase_date DATE
)

Задача: Найти user_id пользователя, который совершал покупки в каждый календарный месяц хотя бы один раз за последние 2 года.

Но есть подвох:

пользователь должен был купить в каждый месяц (например, март 2024, апрель 2024, ..., июль 2025 — всего 24 месяца)

пропуски даже в одном месяце — дисквалификация

использовать GROUP BY, FILTER, GENERATE_SERIES, LEFT JOIN и другие техники разрешено

📌 Подумай:

- как сгенерировать список всех нужных месяцев?

- как сопоставить их с месяцами, в которых были покупки у каждого пользователя?

- как убедиться, что пользователь не пропустил ни одного?

🧩 Подсказка: решение можно построить с generate_series() по месяцам и LEFT JOIN к сгруппированным user_id + month.

@sqlhub

Читать полностью…

Subscribe to a channel