sqlhub | Unsorted

Telegram-канал sqlhub - Data Science. SQL hub

36043

По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo

Subscribe to a channel

Data Science. SQL hub

🚀 SQLite, у которой недавно вышел новый релиз, имеет один из самых необычных Code of Ethics во всей индустрии.

История появления документа довольно забавная. Некоторым компаниям, использующим SQLite, требовалось указывать ссылку на Code of Conduct в своих внутренних политиках. Тогда разработчики SQLite просто решили сделать собственный кодекс, но очень нестандартным способом.

Вместо привычного корпоративного CoC они взяли «Правило святого Бенедикта» - монашеский свод принципов VI века и сделали его основой своего кодекса.

Вот несколько первых пунктов:

- Прежде всего возлюби Господа Бога всем своим сердцем, всей душой и всей силой
- Затем возлюби ближнего своего как самого себя
- Не убивай
- Не прелюбодействуй
- Не кради
- Не желай чужого
- Не лжесвидетельствуй
- Почитай всех людей
- Не делай другим того, чего не хотел бы для себя

Всего таких правил - 72, и читаются они скорее как философские или духовные принципы, чем как стандартный документ для open-source проекта.

И важная деталь:
этот кодекс — обещание самих разработчиков SQLite, а не требования к пользователям или сообществу. То есть разработчики просто говорят: *мы будем придерживаться этих принципов в работе с вами*.

В мире, где Code of Conduct обычно выглядит как длинный юридический документ, SQLite выбрала… правила монастыря VI века.

sqlite.org/codeofethics.html

Читать полностью…

Data Science. SQL hub

🔥 Zero-cost поиск для AI-приложений — идея из turbopuffer

Большинство систем поиска и векторных БД сегодня очень дорогие.
Причина простая, они хранят данные в RAM или реплицированных SSD, где стоимость может доходить до $600–$3600 за TB в месяц.

Но turbopuffer предлагает другой подход.

Хранить данные не в памяти серверов, а в object storage (например S3 или GCS).

Стоимость:

- RAM + SSD инфраструктура - до $3600/TB
- SSD-кластеры - около $600/TB
- Object storage (S3) - примерно $20/TB
-
Разница может достигать до 100× дешевле для холодных данных.

📌 Архитектура turbopuffer:

Client

Query layer

SSD / memory cache (горячие данные)

Object storage (источник истины)

То есть:

- холодные данные хранятся дешево в object storage
- часто используемые попадают в SSD или RAM cache
- запросы остаются быстрыми (<100ms), но стоимость инфраструктуры падает на порядок

Vector search становится ключевой частью AI-систем:

- RAG
- AI-ассистенты
- semantic search
- recommendation systems

Но именно retrieval слой часто становится самой дорогой частью AI-инфраструктуры.

Архитектура turbopuffer показывает, что:
> дешевый storage + умный cache
> может заменить дорогие memory-based search системы.

Будущее AI-поиска может выглядеть так:

- object storage как источник данных
- stateless compute
- дешёвый storage
- кэш для hot data

И тогда поиск по миллиардам документов становится почти “zero-cost” инфраструктурой.

Подробнее:
https://turbopuffer.com/blog/zero-cost

Читать полностью…

Data Science. SQL hub

ReadySet — это прозрачный кэш базы данных для Postgres и MySQL, который обеспечивает производительность и масштабируемость хранилища «ключ-значение» в оперативной памяти, не требуя от вас переписывать приложение или вручную обрабатывать аннулирование кэша.

https://github.com/readysettech/readyset

Читать полностью…

Data Science. SQL hub

UPDATE без WHERE -
самый быстрый способ обновить резюме.

@sqlhub

Читать полностью…

Data Science. SQL hub

Как правильно установить и использовать браузер в Linux.

Если браузер работает медленно или ломается после обновлений - проблема часто не в Linux, а в установке. Многие ставят браузер из случайных источников или вручную скачивают архивы, из-за чего нет автообновлений, слетают зависимости и появляются ошибки.

Правильный подход - устанавливать браузер из официального репозитория или через пакетный менеджер системы. Тогда вы получаете:
• автоматические обновления безопасности
• корректные зависимости
• стабильную работу
• удобный запуск из системы

Для примера установим Google Chrome официальным способом.


Установка Google Chrome (Ubuntu / Debian)
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo apt install -y ./google-chrome-stable_current_amd64.deb

Запуск браузера
google-chrome

Обновление системы (включая браузер)
sudo apt update && sudo apt upgrade -y

Проверка версии
google-chrome --version

Читать полностью…

Data Science. SQL hub

📊 Real-time SQL Traffic Viewer

sql-tap — это прокси-демон, который перехватывает SQL-запросы между вашим приложением и базой данных (PostgreSQL или MySQL), отображая их в интерактивном терминальном интерфейсе. Позволяет анализировать запросы и транзакции без изменения кода приложения.

🚀Основные моменты:
- Перехват SQL-запросов в реальном времени
- Поддержка PostgreSQL и MySQL
- Интерактивный интерфейс для анализа запросов
- Возможность использования EXPLAIN для оптимизации запросов

📌 GitHub: https://github.com/mickamy/sql-tap

#go

Читать полностью…

Data Science. SQL hub

🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/

Читать полностью…

Data Science. SQL hub

🎯Продвинутая миграция в SQL, которая спасает продакшен от падения

Самая частая проблема при миграциях - блокировки.

Обычный CREATE INDEX или ALTER TABLE на большой таблице может:
остановить записи
заморозить сервис
создать очередь запросов
и положить базу.

Продвинутый подход - выполнять изменения без блокировки.

В PostgreSQL для этого есть режим CONCURRENTLY.

Он создаёт индекс в фоне,
не блокирует INSERT и UPDATE,
и позволяет делать миграции без даунтайма.

Если таблица большая - это не оптимизация.
Это обязательная практика.

-- Создание индекса без блокировки таблицы
CREATE INDEX CONCURRENTLY idx_payments_user_id
ON payments(user_id);

-- Удаление индекса без блокировки
DROP INDEX CONCURRENTLY idx_payments_user_id;

Читать полностью…

Data Science. SQL hub

📌 EXISTS РАБОТАЕТ БЫСТРЕЕ COUNT

SQL-совет: перестаньте считать всё через COUNT(*)

Многие пишут так:

SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

Чтобы проверить — есть ли записи.

Проблема:
COUNT(*) считает все строки, даже если нужна просто проверка существования.
На больших таблицах это лишняя нагрузка и медленный запрос.

Правильнее использовать EXISTS.

Почему это лучше:
- База останавливается на первой найденной строке
- Меньше чтения данных
- Быстрее на больших таблицах
- Использует индексы эффективнее

Пример:


-- Плохо
SELECT COUNT(*)
FROM orders
WHERE user_id = 123;

-- Хорошо
SELECT EXISTS (
SELECT 1
FROM orders
WHERE user_id = 123
);

-- Или в условии
SELECT *
FROM users u
WHERE EXISTS (
SELECT 1
FROM orders o
WHERE o.user_id = u.id
);

Читать полностью…

Data Science. SQL hub

📌 UI-TARS-desktop — открытое приложение-агент с GUI, которое превращает ваш компьютер в **интерактивного AI-ассистента** с визуальным восприятием и управлением интерфейсом.

Что это и зачем:

🤖 AI-агент, который видит и кликает
Проект основан на модели UI-TARS (User Interface — Task Automation & Reasoning System). Агент реально *видит экран*, распознаёт элементы интерфейса и может управлять мышью, клавиатурой и браузером по простым естественным командам.

🖥️ Контроль компьютера на естественном языке
Вместо интеграций через API вы пишете команды, а модель сама ищет кнопки, поля ввода и прочие UI-элементы, затем *выполняет действия*. Это работает с приложениями, браузером и элементами рабочего стола.

⚙️ Open-source и кросс-платформа
Проект распространяется под Apache-лицензией, есть релизы, активная история версий и документация для запуска на Windows и macOS. :

📦 Цели проекта
UI-TARS-desktop — это не просто демонстрация: это полноценный мультимодальный AI-агентный стек, который можно использовать для автоматизации повседневных задач без ручного вмешательства.

Страница репозитория: github.com/bytedance/UI-TARS-desktop

Читать полностью…

Data Science. SQL hub

Импортозамещение СУБД: как не прогадать и выбрать подходящую отечественную платформу?

При миграции на российскую СУБД очень важно выбрать решение, которое не просто подходит по определенным критериям, а действительно впишется в вашу инфраструктуру и не подведет в долгосрочной перспективе.

Команда K2Тех поучаствовала в исследовании рынка СУБД, организованном аналитическим порталом «ИТ-инфраструктура». На портале вы найдете таблицы сравнения ключевых отечественных СУБД по 30+ критически важным параметрам, в том числе:
Надежность и High Availability
Производительность
Управление и мониторинг
Особенности эксплуатации

Таблицы позволят сопоставить решения по архитектурным и эксплуатационным характеристикам и станут основой для технической оценки перед пилотом.
🔗 Получите доступ к материалам портала «ИТ-инфраструктура» для первичного анализа решений по ссылке

Читать полностью…

Data Science. SQL hub

Oracle на самом деле ушел из России? И может ли PostgreSQL заменить его в корпоративных системах? Обсуждаем в первом выпуске подкаста «Слон в IT-лавке» с генеральным директором Postgres Professional Иваном Панченко и Марком Ривкиным.

Марк много лет работал в Oracle и был одним из авторов внутреннего документа «Почему PostgreSQL никогда не заменит Oracle». Сейчас он руководит отделом технического консалтинга Postgres Professional.

Postgres Professional — российская компания-разработчик СУБД Postgres Pro и решений на базе PostgreSQL для бизнеса и государства.

В подкасте: 

Разберем, что изменилось после ухода Oracle: офис, техподдержка и облачные сервисы, и почему Oracle как СУБД продолжает жить в ряде компаний.

Обсудим, когда PostgreSQL и Postgres Pro могут заменить Oracle, а когда все упирается в масштаб, архитектуру и требования к системе.

Поговорим про зависимость от Oracle и про переход на PostgreSQL и Postgres Pro. Коротко пройдемся по этапам миграции и местам, где чаще всего возникают сложности.

За час узнаете, что именно Oracle обрубил в России, где он все еще незаменим и почему. И услышите взгляд человека, который много лет продвигал Oracle, а теперь помогает компаниям переходить на Postgres Pro.

Смотрите подкаст на VK Видео.

Реклама ООО «ППГ» Инн: 7707083893 Erid: 2VtzqvsViVa

Читать полностью…

Data Science. SQL hub

Последний шанс подать доклад на PGConf.Russia 2026

Прием заявок закрывается уже сегодня!

Если хотите выступить на PGConf.Russia 2026 — присылайте тему и тезисы: программный комитет рассмотрит заявку, свяжется с вами и поможет подготовиться.

🐘 PGConf.Russia 2026 — крупнейшая российская конференция по PostgreSQL и решениям на ее основе, главная встреча сообщества в России.

📍 23-24 марта, онлайн и офлайн в Москве: обсудим новые фичи СУБД, обменяемся практикой, идеями и опытом эксплуатации. Будут доклады ведущих российских специалистов, практические мастер-классы и демо-стенды разработчиков Postgres Pro.

Будет более 40 докладов на разные темы:

✔️ Новости PostgreSQL

✔️ Оптимизация запросов, мониторинг, отказоустойчивость и безопасность

✔️ Облегченная миграция с Oracle, Microsoft SQL Server и других систем

✔️ Искусственный интеллект в СУБД

✔️ Масштабируемость, шардирование и секционирование

✔️ Совместимость PostgreSQL с другим ПО

✔️ И другие темы

Подайте доклад до 16 февраля: поделитесь опытом и сделайте вклад в сообщество.

Если не планируете выступать, а хотите прийти послушать — регистрируйтесь до 28 февраля со скидкой 15%.

Реклама ООО «ППГ» Инн: 7707083893 Erid: 2Vtzqw9iCtU

Читать полностью…

Data Science. SQL hub

🌟 Zvec: встраиваемая векторная база данных для RAG без внешних сервисов.

Alibaba открыла исходный код Zvec - встраиваемой векторной СУБД, которую авторы называют «SQLite для векторных баз данных».

Проект заточен на локальные RAG-пайплайны, семантический поиск и агентские сценарии на ноутбуках, мобильных устройствах или другом edge-железе.

Идея в том, что разворачивать отдельный сервер ради векторного поиска и фильтрации по метаданным избыточно. Zvec встраивается в процесс Python-приложения и не требует ни отдельного демона, ни сетевых вызовов.

Существующие решения не подходят для маломощных устройств: Faiss дает только ANN-индекс без скалярного хранилища и крэш-рекавери; DuckDB-VSS ограничен в опциях индексирования; Milvus и облачные векторные хранилища требуют сеть.


Под капотом - Proxima, векторный движок продакшен-уровня, который Alibaba сама использует в собственных сервисах. Поверх него сделали лаконичный Python API:

🟢полный CRUD и поддержка схем;

🟢поиск по нескольким векторам для комбинации разных эмбеддинг-моделей;

🟢встроенный реранкер с weighted и RRF;

🟢гибридный поиск (векторный + фильтры по скалярным полям) с инвертированными индексами.

Это позволяет собирать локальных ассистентов, которые одновременно используют семантический поиск, множественную фильтрацию и несколько эмбеддинг-моделей - все в одном движке.

По производительности Zvec заявляет победу на бенче VectorDBBench с датасетом Cohere 10M - более 8 000 QPS при сопоставимом реколле. Это вдвое больше, чем у лидера ZillizCloud и с более быстрым построением индекса.

Авторы объясняют успех глубокой оптимизацией под CPU: SIMD, кэш-эффективные структуры, многопоточность и prefetching.

Пока платформенная поддержка ограничена (Windows отсутствует), но для Linux x86/ARM64 и macOS Zvec уже готов к экспериментам на Python 3.10–3.12.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VDB #ZVEC #Alibaba

Читать полностью…

Data Science. SQL hub

Мошенники использовали данные ФССП для незаконного взыскания долга: разбор схемы🧐

Специалисты вскрыли изощренную схему, где преступники, используя технологии социальной инженерии, представились судебными приставами.
Цель — запугать жертву и вынудить к «срочному» платежу.
В ходе расследования был детально разобран случай, когда сотрудник компании-клиента получил SMS от «пристава» с угрозой немедленного ареста имущества за долг родственницы.

Злоумышленники, владея информацией о реальных сотрудниках ФССП и процедурах, создали психологическое давление. Жертве передавалась ссылка на оплату, ведущая на поддомен сайта МФО.

Эксперты Securizor провели цифровую верификацию, оперативно выявили предлог совместно с настоящими приставами и установили связь мошенников с коллекторами.
Данный кейс — не просто история о мошенничестве. Он демонстрирует важность социальной инженерии как инструмента кибератаки и необходимость проактивного аудита информационной безопасности для сотрудников.
❗️Читайте полный разбор расследования по ссылке

Реклама. ООО "Секьюризор", ОРГН 1247700543694
Erid: 2W5zFFzBkTs

Читать полностью…

Data Science. SQL hub

В основе любого сильного проекта стоит сильный специалист.

В IT-мире сложно представить востребованного специалиста, который не разбирается в том, как работают: архитектура, API, базы данных, алгоритмы.

Без этого никуда.

И не страшно, если вы пока плохо разбираетесь в каких-то современных системах. Хуже, если продолжаете игнорировать свои пробелы в hard skills.

Начните с бесплатных уроков по архитектуре и интеграциям:

▪️мощный инструмент — SOAP UI
▪️подробное описание процесса загрузки сайта
▪️модель TCP/IP и устройства
▪️XML — это вам не ХSD

Присоединяйтесь в чат-боте по ссылке:
👇
@studyit_help_bot

🚀 Скидка на полный курс от канала — 1 500 ₽ на Stepik по промокоду SQLHUB до конца февраля.

Читать полностью…

Data Science. SQL hub

Модель с триллионом параметров буквально «удалила половину своего мозга» и стала умнее.

Yuan3.0 Ultra**-— новая open-source мультимодальная **MoE-модель от Yuan Lab.
Всего 1010 млрд параметров, но при инференсе активны только 68.8 млрд.

На бенчмарках RAG она обошла GPT-5.2, Gemini 3.1 Pro и Claude Opus 4.6 с заметным отрывом.

Например:

- 67.4% на Docmatix против 56.8% у GPT-4o

Что умеет модель:

- Enterprise RAG - 68.2% средней точности на 10 задачах поиска
- Анализ сложных таблиц - 62.3% на бенчмарке MMTab
- Text-to-SQL - 83.9% на Spider 1.0
- Мультимодальный анализ документов с контекстом 64K

Ключевая инновация — Layer-Adaptive Expert Pruning (LAEP).

Во время предобучения у MoE возникает сильный дисбаланс:
некоторые эксперты получают в 500 раз больше токенов, чем другие.

LAEP постепенно удаляет малоиспользуемых экспертов слой за слоем,
что позволяет:

- сократить 33% параметров
- увеличить эффективность обучения на 49%

Также исследователи улучшили метод “fast-thinking” RL.

Теперь система больше награждает ответы, которые:

- правильные
- используют меньше шагов рассуждения

Это позволило:

- уменьшить количество выходных токенов на 14.38%
- повысить точность на 16.33%

Главный сигнал из этого исследования:

MoE-модели начинают сжимать себя прямо во время обучения, а не после.

Если pruning станет частью pretraining, стоимость обучения триллионных моделей может резко снизиться.

https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra

Читать полностью…

Data Science. SQL hub

Redis и Valkey изучите секреты самых популярных open source key-value СУБД

В высоко-нагруженных сервисах Redis — не просто кэш, а важная подсистема, на которой строится значимая часть бизнес-логики. От его стабильности, масштабируемости и отказоустойчивости зависит производительность всего сервиса. Valkey - это современный производительный форк Redis с открытым исходным кодом, поддерживаемый сообществом и рядом крупных компаний. Valkey набирает популярность, поддержан крупными облачными провайдерами, и вполне возможно потеснит или вовсе заменит Redis со временем.

Наш курс — для тех, кто хочет держать свой стэк и знания актуальными и глубоко разбираться, как устроен Redis и Valkey.

🌐 В программе курса:

🤩 Как эффективно использовать базовые и продвинутые структуры данных: HyperLogLog, Bitmaps и Bisields, Streams, Geospatial-индексы, Bloom Filters
🤩 Как проектировать in-memory системы, которые не разваливаются под нагрузкой, что влияет на отказоустойчивость и как её добиться
🤩 Как работает репликация и кластеризация на практике (режимы Sentinel и Cluster)
🤩 Как встроить Redis/Valkey в реальный прод с учётом безопасности, интеграций и современных практик мониторинга.

Кто мы: R&D-центр Devhands, основатель школы Алексей Рыбак. Автор курса — Константин Ратвин, преподаватель МФТИ на кафедре БИТ (совместно со СберТех), эксперт по распределённым системам и банковским ИТ, автор курсов по СУБД и инфраструктуре, спикер HighLoad++ и PGConf.

🗓 Старт курса: 10 марта, 6 недель обучения.
Изучить программу и записаться можно здесь.

Ждем вас!

Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2VtzqwiAH9N

Читать полностью…

Data Science. SQL hub

👣 Большинство изучают Go ради синтаксиса.

Ты научишься писать сервисы, которые работают в продакшене.

Это не про «Hello, World» и горутины ради галочки.
Это про бэкенд на Go, который:

* выдерживает нагрузку
* обрабатывает тысячи запросов одновременно
* работает быстро и стабильно
* легко масштабируется
* выглядит как реальный сервис, а не учебный проект

Ты начнёшь видеть Go не как язык, а как инструмент для построения систем.

В итоге ты сможешь:

* писать высоконагруженные API
* создавать микросервисы
* работать с базами данных и очередями
* разбираться в конкурентности и производительности
* брать коммерческие backend-проекты

Это навык, который ценится на рынке.
Не «знаю Go», а умею делать быстрые и надёжные сервисы.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/274119/

Читать полностью…

Data Science. SQL hub

Устали от бесконечных миграций схемы под каждый новый атрибут в логах? Выбираете между скоростью запросов и гибкостью хранения динамических JSON?

На живом примере разберем стратегии работы с полуструктурированными данными в ClickHouse:

✅Schema-on-Read vs Schema-on-Write: Когда и какой подход выбрать для баланса скорости, гибкости и стоимости.
✅Гибридные модели и Native JSON: Практическое использование современных возможностей ClickHouse.
✅Настройка и типичные запросы: Пишем DDL и сравниваем производительность разных подходов на реальных данных.

Спикер — Никита Елисеев, Senior Data Engineer. Узнайте из первых рук, как строить эффективные решения, а не костыли.

Зарегистрируйтесь, чтобы получить работающие решения и перестать «ломать» данные под базу: регистрация

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Data Science. SQL hub

Создатель Linux
— обычный стол, минимум техники, ничего лишнего.

Обычный «тех-бро»
— три монитора, RGB, мощный ПК, студийный свет, полный сетап.

Иногда разница между «легендой» и «тех-инфлюенсером» - не в железе, а в том, что у тебя в голове.

Читать полностью…

Data Science. SQL hub

DeepSeek готовится выпустить новую модель V4 - релиз ожидается в ближайшее время (по данным CNBC).

И рынок уже нервничает.

NASDAQ находится под давлением — инвесторы закладывают сценарий, при котором новый релиз может резко усилить конкуренцию и изменить расклад в AI-индустрии.

Почему такая реакция?


DeepSeek V4, по слухам, должен стать серьёзным скачком вперёд:
- более сильное reasoning
- лучшая эффективность
- более низкая стоимость

Если это подтвердится, давление на американские AI-компании и их оценки может усилиться.

Контекст становится ещё интереснее на фоне недавнего заявления Anthropic, где компания сообщила о масштабных попытках distillation через API.

Во времени это выглядит как совпадение:
- готовится крупный релиз DeepSeek
- рынок нервничает
- и одновременно звучат обвинения в копировании возможностей моделей

Если V4 действительно окажется сильным, это может означать новую фазу AI-гонки.

Ответ узнаем очень скоро.

Следующий релиз может повлиять не только на технологии -
но и на рынок.

https://www.cnbc.com/2026/02/23/deepseek-to-release-new-ai-model-a-rough-period-for-nasdaq-stocks-could-follow.html

Читать полностью…

Data Science. SQL hub

В Python 3.14 появилось решение, которое помогает избавиться от SQL-инъекций - t-strings 🔒

Проблема

Когда вы используете f-strings для SQL:


query = f"SELECT * FROM users WHERE name = '{user_input}'"

пользовательский ввод напрямую попадает в запрос.

Если злоумышленник передаст:


admin'; DROP TABLE users; --

— база выполнит вредоносную команду.

Это классическая SQL injection.

Почему это неудобно сейчас

Безопасный способ — параметризованные запросы:


cursor.execute(
"SELECT * FROM users WHERE name = %s",
(user_input,)
)

Но приходится:

• запускать шаблон отдельно
• передавать значения отдельно
• поддерживать две структуры

Что изменилось в Python 3.14

Появились template string literals (t-strings).

В отличие от f-strings, они:

• не возвращают готовую строку

• возвращают объект Template

• отдельно хранят текст и подставленные значения

Пример:

query = t"SELECT * FROM users WHERE name = {user_input}"


Теперь можно:

• получить все интерполяции
• проверить значения
• экранировать или валидировать их
• и только потом собрать финальный SQL


safe = safe_sql(query)

Результат:

• вредоносный ввод очищается
• SQL-инъекции блокируются
• таблицы остаются на месте

Почему это важно

f-strings - быстрые, но опасные для SQL.

t-strings позволяют сохранить удобство шаблонов и добавить контроль безопасности.

Python движется к безопасным шаблонам по умолчанию, меньше ручной защиты, меньше уязвимостей в продакшене.

Читать полностью…

Data Science. SQL hub

Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙

Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».

60+ актуальных сессий, докладов, кейсов, дискуссий по теме анализа данных/ DS/ ML. Среди тем – ИИ-агенты, RL, CV, NLP, Open Source, Embodied AI и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, AI+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!).

Конференция объединит лидов ML-команд, DS-специалистов, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы.

Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии.

Все мы любим конференции не только ради знаний, но и, конечно, ради нетворкинга и новых знакомств! Живое общение в кругу коллег, друзей и единомышленников – важная часть Data Fusion!

Не пропустите, регистрируйтесь.

*Data Fusion — Объединение данных
Информация о рекламодателе

Читать полностью…

Data Science. SQL hub

🖥 Большие таблицы в SQL - сначала план, потом запрос

Самый полезный апгрейд, который реально экономит часы: не "оптимизировать запрос на глаз", а заставить базу самой показать, что она делает.

На больших таблицах скорость почти всегда решают 3 вещи: правильный индекс, правильная форма запроса и правильный JOIN-порядок.

Железное правило: прежде чем трогать код, запускают EXPLAIN ANALYZE и смотрят две красные зоны - Seq Scan на большой таблице и огромные строки после JOIN. Если видишь Seq Scan - значит фильтр не поддержан индексом или условие написано так, что индекс не используется. Если после JOIN получаются миллионы строк - значит нужно сначала отфильтровать и/или агрегировать, а потом соединять.

Самый мощный прием для больших таблиц: сначала выбрать маленький набор ключей (CTE или подзапрос), и только потом JOIN к тяжелой таблице. Это резко уменьшает работу базы, потому что она перестает "перемножать" всё со всем.



ПЛОХО: тяжелый JOIN сразу, база тащит миллионы строк
SELECT u.id, COUNT(e.*) AS events_30d
FROM users u
JOIN events e ON e.user_id = u.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
AND u.country = 'TH'
GROUP BY u.id;

-- ХОРОШО: сначала сузить пользователей до маленького набора, потом JOIN
WITH target_users AS (
SELECT id
FROM users
WHERE country = 'TH'
)
SELECT tu.id, COUNT(*) AS events_30d
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

-- Индексы, которые реально помогают этому паттерну
CREATE INDEX IF NOT EXISTS idx_users_country_id ON users (country, id);
CREATE INDEX IF NOT EXISTS idx_events_user_time ON events (user_id, created_at);

-- Всегда проверяй, что база использует индекс, а не Seq Scan
EXPLAIN (ANALYZE, BUFFERS)
WITH target_users AS (
SELECT id FROM users WHERE country = 'TH'
)
SELECT tu.id, COUNT(*)
FROM target_users tu
JOIN events e ON e.user_id = tu.id
WHERE e.created_at >= NOW() - INTERVAL '30 days'
GROUP BY tu.id;

Читать полностью…

Data Science. SQL hub

⚡ Anthropic выложили 6 полноценных курсов по ИИ - бесплатно.

По уровню это легко заменяет обучение на десятки или даже сотни тысяч рублей.

Внутри:
- сотни уроков и практики
- интерактивные задания и квизы
- реальные кейсы работы с Claude
- сертификаты после прохождения

Если работаешь с AI, агентами или API - это база, которую сейчас проходят разработчики в топ-компаниях.

Что можно изучить:

• Работа с Claude API
https://anthropic.skilljar.com/claude-with-the-anthropic-api

• Введение в Model Context Protocol (MCP)
https://anthropic.skilljar.com/introduction-to-model-context-protocol

• Claude в Amazon Bedrock
https://anthropic.skilljar.com/claude-in-amazon-bedrock

• Claude в Google Cloud (Vertex AI)
https://anthropic.skilljar.com/claude-with-google-vertex

• Продвинутый MCP
https://anthropic.skilljar.com/model-context-protocol-advanced-topics

• Claude Code на практике
https://anthropic.skilljar.com/claude-code-in-action

Это не «обзорные лекции».
Это реальные навыки для тех, кто хочет строить AI-продукты, агентов и автоматизацию.

Читать полностью…

Data Science. SQL hub

🌟 Топ-10 open-source AI-моделей на февраль 2026.

Открытые модели больше не «облегчённая версия».

Сегодня многие из них уже конкурируют с коммерческими решениями и подходят для реальных продуктов, агентов и локального запуска.

Вот модели, на которые стоит обратить внимание:

1. GLM-5 — автономная разработка и создание приложений
https://github.com/THUDM/GLM-5

2. MiniMax M2.5 — мощная модель для кодинга (80%+ на SWE-bench)
https://github.com/MiniMax-AI

3. Kimi K2.5 — мультимодальность, код и продвинутое reasoning
https://github.com/MoonshotAI

4. DeepSeek V3.2 — эффективная sparse-архитектура, конкурент GPT-уровня
https://github.com/deepseek-ai

5. Qwen 3 — сильная логика и отличная поддержка множества языков
https://github.com/QwenLM

6. MiMo V2 Flash — высокая эффективность и низкая стоимость инференса
https://github.com/MiMo-AI

7. Mistral Large 3 — большой контекст и удобная коммерческая лицензия
https://github.com/mistralai

8. LongCat Flash Chat — для сверхдлинных диалогов и памяти контекста
https://github.com/LongCatAI

9. Gemma 3 — открытая модель от Google с хорошим качеством диалогов
https://github.com/google/gemma

10. INTELLECT-3 — полностью открытый стек обучения модели
https://github.com/IntellectAI

Почему это важно:

- open-weights ≈ уровень топ-моделей
- можно запускать локально
- полный контроль над данными
- база для своих AI-агентов и продуктов
- экономия на API при масштабировании

Читать полностью…

Data Science. SQL hub

⚡️ Могут ли LLM переводить код Polars в SQL?

Да - и это начинает менять то, как мы работаем с данными.

Идея простая, но мощная: большие языковые модели могут переводить натуральный язык и выражения из Polars DataFrame API в эквивалентный SQL. Это мост между Python-подходом к анализу данных и миром аналитических баз.

Что это даёт на практике:

Пишешь трансформации в стиле Polars - быстро, in-memory, удобно для Python-разработчика

LLM превращает логику в SQL - можно запускать в DWH, BI-системах, дата-платформах

Не нужно вручную переписывать логику из DataFrame-цепочек в SELECT, JOIN, GROUP BY

Особенно полезно, когда:

прототип делается локально в Polars, а прод работает на SQL-движке

аналитики думают SQL, а инженеры - DataFrame API

нужно быстро объяснить, что делает код, в виде SQL-запроса

Комбинация Polars (скорость и удобство in-memory) + LLM (понимание семантики кода) позволяет использовать знакомые SQL-паттерны, даже если ты изначально не писал сырой SQL.

Это не просто перевод синтаксиса. Модель восстанавливает семантику трансформаций - фильтры, агрегации, группировки, оконные операции - и выражает их в терминах SQL.

По сути LLM становится слоем совместимости между DataFrame-мышлением и SQL-мышлением. И это серьёзный сдвиг для аналитических пайплайнов.

https://labs.quansight.org/blog/llm_polars_to_sql

Читать полностью…

Data Science. SQL hub

Postgres: best practices для AI-агентов (и почему это важно)

Supabase выпустили Postgres Best Practices - набор правил/“скиллов” для AI coding agents (Claude Code, Cursor, Copilot и т.д.), чтобы они писали не просто рабочий SQL, а нормальный продовый Postgres.

Потому что классическая проблема такая:
агент сгенерит “правильный” запрос, тесты пройдут,
а через 2 недели это превратится в:
- медленные JOIN’ы
- seq scan на миллионы строк
- взрыв коннектов
- блокировки
- RLS, которая внезапно тормозит всё

Что внутри “Postgres Best Practices”
Это структурированный набор правил по 8 темам (от самых критичных к менее критичным):

- Query Performance (Critical) - как писать запросы, чтобы не убивать базу
- Connection Management (Critical) - пулы, лимиты, правильная работа с коннектами
- Schema Design (High) - индексы, типы, ключи, нормальные схемы
- Concurrency & Locking (Medium-High) - как не словить дедлоки и долгие locks
- Security & RLS (Medium-High) - RLS без боли и сюрпризов
- Data Access Patterns (Medium) - как правильно читать/писать данные в приложении
- Monitoring & Diagnostics (Low-Medium) - что мониторить и как дебажить
- Advanced Features (Low) - продвинутые приёмы

Самое полезное:
это не “статья”, а готовый набор инструкций, который агент может автоматически применять, когда он:
- пишет SQL
- проектирует схему
- предлагает индексы
- оптимизирует запросы
- настраивает RLS / connection pooling

То есть агент начинает думать ближе к DBA, а не как генератор SQL.

https://supabase.com/blog/postgres-best-practices-for-ai-agents

Читать полностью…

Data Science. SQL hub

🖥 Хотите освоить SQL и PostgreSQL без курсов и подписок? Есть мощный бесплатный репозиторий, который проведёт вас от нуля до уверенного уровня всего за пару месяцев.

Это полноценный учебник + практика в одном месте.

Что внутри:

- База без воды
SELECT, WHERE, ORDER BY, LIMIT, условия и логика запросов

- Продвинутые темы
агрегатные функции, GROUP BY, HAVING, подзапросы, JOIN’ы

- Много практики
упражнения и задачи, чтобы довести работу с БД до автоматизма

- Подробные объяснения
материал подойдёт даже тем, кто никогда не работал с базами данных

Почему это полезно:

SQL — один из самых универсальных навыков в IT.
Он нужен разработчикам, аналитикам, data-инженерам и всем, кто работает с данными.

Этот репозиторий даёт именно то, что нужно для реальной работы:
- понимание, как устроены запросы
- уверенную работу с данными
- базу для перехода к аналитике или backend-разработке

GitHub: https://github.com/dwyl/learn-postgresql

Читать полностью…
Subscribe to a channel