36043
По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo
⚡Открытая трансляция главного зала HighLoad++ 2025!
🖐️ Подключайтесь и слушайте доклады от спикеров MTС Web Services (MWS), VK Tech, Яндекса, Т-Банка, СберТеха и других компаний.
HighLoad++ 2025 — это конференция, которая определяет будущее высоконагруженных систем.
📍6 и 7 ноября все желающие могут бесплатно посмотреть онлайн-трансляцию главного зала. Открытую трансляцию мы организовали совместно с генеральным партнером конференции — МТС Web Services (MWS).
МТС Web Services (MWS) — бигтех-компания, предоставляющая облачные и Al-сервисы, а также платформенные решения под задачи бизнеса: от работы с данными до разработки продуктов и оптимизации бизнес-процессов.
Как всегда, в главном зале — топовые эксперты и самые актуальные темы.
✅ Подробности и расписание на сайте
🖥 Шардирование в базах данных: обзор концепции
Шардирование или шардинг - это принцип проектирования базы данных, при котором данные разбиваются на части и размещаются на разных шардах.
Интерактивный лонгрид по шардированию баз данных.
В нем разобрано все - от принципов работы шардов и причин, зачем это вообще нужно, до тонкостей проектирования и типовых ошибок.
Каждый раздел сопровождается интерактивными диаграммами, с которыми можно экспериментировать прямо в статье.
Отличный материал, чтобы прокачать понимание распределённых БД на выходных 💡
Статья: https://planetscale.com/blog/database-sharding
Видео: https://www.youtube.com/watch?v=R2ML2jLs3_U
🤖 Авито готовит к запуску собственного ИИ-ассистента «Ави»
Технологическая платформа Авито подала заявку на регистрацию товарного знака для своего интеллектуального ассистента — «Ави», сообщает «Коммерсант».
🧩 Что умеет
«Ави» построен на базе большой языковой модели и умеет вести живой диалог с пользователем. Он не просто отвечает на вопросы — ассистент помогает разобраться в деталях покупки, уточняет цели и критерии выбора, советует подходящие предложения и объясняет различия между ними. Фактически, это персональный консультант внутри платформы, который знает рынок лучше любого менеджера.
💡 Почему это важно
Крупные компании одна за другой внедряют собственные ИИ-решения — это уже не эксперимент, а стратегия. Такие ассистенты позволяют:
• собирать контекст из разговоров с пользователями,
• повышать вовлеченность и лояльность,
• увеличивать продажи.
Эксперты оценивают вложения в проект примерно в 500 млн рублей. Но для Авито эти траты — часть планомерного развития: компания уже заявляла о планах инвестировать в развитие генеративного ИИ около 12 млрд рублей и к 2028 году заработать более 21 млрд на новых технологиях.
Собственные модели компании уже можно оценить в деле — Авито выпустила две нейросети:
• A-Vibe — текстовая LLM,
• A-Vision — мультимодальная модель, работающая с текстом и изображениями.
Их успех говорит сам за себя: A-Vibe за первую неделю собрала 1400+ скачиваний и попала в топ трендовых моделей на Hugging Face.
🚀 Что дальше
Сейчас «Ави» проходит тесты в разных категориях площадки. В планах — уже в следующем году запустить универсальную версию, которая сможет работать во всех вертикалях Авито.
⚡️ Вышел pgbalancer 1.0 - интеллектуальный балансировщик нагрузки для PostgreSQL
Представлен первый стабильный релиз pgbalancer 1.0 — балансировщика нагрузки для PostgreSQL, построенного на основе pgpool-II с существенными доработками.
Проект позиционируется как решение с элементами адаптивной маршрутизации запросов, управляемое через REST API и поддерживающее MQTT для потоковой передачи событий в реальном времени.
Ключевые особенности:
• Управление пулом соединений и распределение нагрузки между репликами PostgreSQL;
•Поддержка HTTP/REST для конфигурации и мониторинга;
• Интеграция с MQTT для стриминга метрик и событий;
• Реализация на языке C с сохранением производительности оригинального pgpool-II;
• Распространяется под открытой лицензией PostgreSQL.
https://www.pgelephant.com/pgbalancer
Для многих разработчиков моменты, когда они пишут код не по работе, а для профессионального вызова, становятся ключевыми в их росте. Именно таким вызовом может стать Yandex Cup 2025 — чемпионат, где встречаются сильнейшие разработчики, и один из треков которого посвящён машинному обучению.
Здесь реальные задачи, близкие к тому, с чем сталкиваются инженеры в продакшне: ограничения по ресурсам, шумные данные, необходимость найти баланс между скоростью и качеством.
Участие — способ не просто проверить свои навыки, но и заявить о себе в профессиональном сообществе. Лучшие участники получают приглашения на упрощённый отбор в команды Яндекса.
🚀 Современный ORM и генератор SQL для C++20
sqlgen — это типобезопасный ORM и генератор SQL, вдохновленный SQLAlchemy и Diesel. Он обеспечивает компоновку запросов с проверкой типов на этапе компиляции и защитой от SQL-инъекций, что делает его идеальным для создания надежных ETL-пайплайнов.
🚀Основные моменты:
- 🔒 Компиляция с проверкой схем таблиц и запросов
- 🛡️ Защита от SQL-инъекций с параметризованными запросами
- 🔄 Удобный интерфейс для составления сложных запросов
- 🚀 Высокая производительность с пакетными операциями
- 📦 Поддержка PostgreSQL и SQLite
📌 GitHub: https://github.com/getml/sqlgen
#cpp
⚡️ Pytest совет: экономим время на тестах с большими данными
Если в тестах используется тяжёлый датасет, важно правильно выбрать scope для фикстуры.
❌ По умолчанию (`scope="function"`) данные будут загружаться заново для каждого теста. Это тратит ресурсы и замедляет выполнение.
✅ С scope="session" датасет загружается один раз и переиспользуется во всех тестах. Это ускоряет процесс и снижает нагрузку.
Используйте session scope для больших и неизменяемых данных, чтобы тесты работали быстрее и стабильнее.
🔥 no-code база данных, которая сама превращает SQL в Airtable-стиль интерфейс
Что умеет:
- Подключается к MySQL, Postgres, SQLite, MSSQL и сразу показывает данные в виде удобных таблиц
- Делает представления: таблицы, календари, канбан, формы, Гантт
- Генерирует готовые REST и GraphQL API прямо поверх базы
- Делится видами: публично или под паролем, поддерживает загрузку файлов и картинок
- Настраивает роли и доступ до уровня отдельного столбца
Плюс интеграции со Slack, Discord, мессенджерами, почтой и десятками сервисов.
По сути — Airtable, но напрямую поверх твоей базы.
https://github.com/nocodb/nocodb
Твой шанс прокачаться в ИТ, получить карьерный буст и побороться за призовой фонд 10 250 000 рублей 💰 Успей зарегистрироваться до 20 октября.
МТС приглашает на True Tech Champ — всероссийский чемпионат по программированию. Соревнование будет проходить в двух треках.
Трек 1. Алгоритмический. Индивидуальный зачет [призовой фонд 2 750 000 рублей]
Реши задачи, которые помогут прокачаться в работе с алгоритмами и структурами данных. Похожие задания встречаются на собеседованиях в МТС и других крупных компаниях. До 240 лучших участников попадут в финал и сразятся в лайв-кодинге.
Трек 2. Программирование роботов. Командный формат [призовой фонд 7 500 000 рублей]
Проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы. Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.
📍 Зрелищный шоу-финал с ИИ-технологиями, кодерскими челленджами и выступлениями международных и российских спикеров пройдет 21 ноября в МТС Live Холл.
🎁 Регистрация участников до 20 октября на сайте.
💡 SQL trick: уникальные значения прямо в агрегатах
Иногда нужно посчитать уникальные значения по каждому пользователю.
Мало кто знает, что для этого есть COUNT(DISTINCT ...).
SELECT
customer_id,
COUNT(DISTINCT product_id) AS unique_products
FROM orders
GROUP BY customer_id;
COUNT(), но и с SUM(DISTINCT ...) или AVG(DISTINCT ...).
🖥 Новый курс на Stepik - PostgreSQL для разработчиков: от основ к созданию API
Здесь на пальцах объясняют не только как писать SQL-запросы, а строить настоящие backend-сервисы с базой данных как у профи.
В этом курсе ты шаг за шагом создашь REST API на FastAPI + PostgreSQL:
от установки среды и первых таблиц - до масштабируемого приложения с безопасностью и CRUD-операциями.
🔹 На практике разберете:
• SQL-запросы, фильтры, агрегаты и подзапросы
• Связи между таблицами и нормализацию БД
• Взаимодействие Python и PostgreSQL
• Реализацию REST API и подключение базы
• Оптимизацию и разбор реальных задач с собеседований
⚡ После курса у вас будет свой работающий API-проект и реальные навыки работы с PostgreSQL в продакшене.
🎁 Сегодня –30% от цены!
🚀 Прокачаю свои знания: https://stepik.org/course/255542/
Новое техношоу о фейлах на дата-платформах
Все упало, все сломалось, бизнес в панике. Для дата-инженеров это обычный вторник, а для шоу «Дропнуто» — повод снять свежий выпуск.
«Дропнуто» превращает фейлы дата-платформ в истории, которые полезно услышать каждому, кто работает с данными. В центре каждого эпизода — один герой и одна яркая история фейла, развернутое обсуждение архитектуры и процессов, а также немного самоиронии.
Анонсы и ссылки на прямые эфиры появятся в телеграм-боте проекта.
Подписывайтесь, чтобы узнавать о премьерах первыми.
🖥 Практический гайд по автоматизации процессов на Python
Перед вами подробный практический гайд по автоматизации процессов на Python для продвинутых разработчиков. Он фокусируется на промышленном уровне качества: архитектура, надёжность, наблюдаемость, упаковка и деплой. В каждом разделе - конкретные паттерны и готовые фрагменты кода.
✔️ Подробнее
Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).
Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:
Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
https://github.com/karpathy/nn-zero-to-hero/
⚠️ SQL-инъекция через f-string
Если подставлять значения прямо в SQL через f-string, злоумышленник может выполнить любой код в базе:
name = "Alice'; DROP TABLE accounts; --"
query = f"SELECT * FROM accounts WHERE name = '{name}'"
conn.sql(query)
name = "Alice'; DROP TABLE accounts; --"
query = "SELECT * FROM accounts WHERE name = ?"
conn.sql(query, params=(name,))
🖥 Инструмент для мониторинга активности PostgreSQL
Следит за запросами, блокировками, использованием памяти и CPU - помогает мгновенно понять, что происходит с базой в реальном времени.
💻 Устанавливается одной командой:sudo apt install pg-activity
Работает как локально, так и по сети.
Если запускать от postgres или root, открывается полная статистика - системные процессы, временные файлы и всё, что нужно для анализа нагрузки.
https://github.com/dalibo/pg_activity
🖥 Полный гайд: защита от SQL-инъекций для разработчиков
SQL-инъекции остаются одной из самых частых и опасных уязвимостей в веб-приложениях. Ошибка в одном запросе — и злоумышленник получает доступ к базе данных, паролям и пользовательским данным.
В этом материале — полный практический разбор:
как именно происходят SQL-инъекции, какие ошибки разработчиков к ним приводят, как их распознать в коде и главное — как защититься.
Разберём реальные примеры на Python, PHP и Go, посмотрим, как атакующий «взламывает» запрос, и научимся писать безопасный код с параметризованными запросами и ORM.
Это не теория, а руководство, которое поможет понять уязвимость изнутри и навсегда закрыть её в своих проектах.
👉 Читать гайд
Не пропустите! 05 ноября в 20:00 пройдет бесплатный урок по теме “PostgreSQL для администраторов и разработчиков” по теме “Работа с json в PostgreSQL: давно не просто текст.” Запись: https://otus.pw/9EAE/
JSON в PostgreSQL — это не временное хак-решение, это инструмент, который меняет подход к хранению данных. Он позволяет хранить гибкие, меняющиеся структуры прямо в таблице и при этом использовать мощь SQL: фильтрацию, индексы и транзакции.
На уроке вы увидите, как использовать JSON/JSONB так, чтобы не терять скорость и предсказуемость, но объединять удобство JSON-формата с производительностью и гарантиями PostgreSQL.
Рассмотрим:
- работу с типами данных JSON и JSONB в PostgreSQL.
- изучим операторы и функции для работы с JSON-документами. - определим применение индексов и функций для повышения производительности при работе с JSONB.
Какие результаты на выходе:
- научитесь выбирать между реляционной моделью и использованием JSON в конкретном кейсе;
- получите готовые примеры и шаблоны запросов для использования в проектах.
Записывайтесь на вебинар и получит спец. предложение на обучение:
https://otus.pw/9EAE/?erid=2W5zFGUaPy2
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🪄 Открытая альтернатива Firebase — на стероидах PostgreSQL
Платформа, которая даёт всё, чтобы собрать современное веб-, мобильное или AI-приложение — без проприетарных SDK и боли.
Что внутри:
⚙️ Хостинг Postgres с realtime-синхронизацией
🧩 Автогенерация REST и GraphQL API
🔐 Аутентификация и авторизация через JWT
⚡ Edge-функции и серверные триггеры
📦 Хранилище файлов с поддержкой S3
🧠 AI-инструменты: векторные индексы, эмбеддинги, семантический поиск
🪶 Всё open source и доступно для self-host.
По сути это Firebase-опыт, но построенный на «взрослых» open-source технологиях:
PostgreSQL, Elixir, GoTrue, PostgREST, pg_graphql.
Платформа, где можно запустить идею, вырастить продукт и не упереться в чьи-то закрытые лимиты.
#Postgres #OpenSource #Backend #AI #GraphQL #Realtime #FirebaseAlternative
https://github.com/supabase/supabase
🚀 Удобный инструмент для миграции схем PostgreSQL
pgschema — это CLI утилита, которая упрощает процесс миграции схем в PostgreSQL, используя декларативный подход, похожий на Terraform. Она позволяет создавать, редактировать и применять изменения к схемам, обеспечивая контроль над миграциями без необходимости в дополнительных таблицах.
🚀 Основные моменты:
- Декларативное управление схемами PostgreSQL
- Поддержка всех основных объектов и версий PostgreSQL
- Генерация плана миграции с предварительным просмотром изменений
- Прямое взаимодействие с файлами схем и базой данных без временных БД
📌 GitHub: https://github.com/pgschema/pgschema
#go
🖥 pg_flo — библиотека для работы с PostgreSQL, которая упрощает создание и выполнение потоковых операций в базе данных! Она также предоставляет удобный интерфейс для выполнения операций с данными, что может быть полезно для задач, требующих последовательной обработки данных.
🔐 Лицензия: Apache-2.0
🖥 Github
@sqlhub
🔍 Marker — инструмент от Datalab.to, который быстро и точно превращает документы в Markdown + JSON
Что умеет Marker:
- Поддержка PDF, изображений, PPTX, DOCX, XLSX, HTML, EPUB и др.
- Форматирует таблицы, формы, уравнения, математические выражения, ссылки, кодовые блоки.
- Извлекает изображения из документов.
- Убирает колонтитулы, заголовки, другие артефакты форматирования.
- Есть бета-версия для “структурированного извлечения” на основе схемы JSON.
- Можно включить LLM-модуль, чтобы повысить точность в сложных местах (например, объединение таблиц, корректное форматирование).
Преимущества:
- Быстрота + точность по сравнению с конкурентами (Mathpix, Llamaparse и др.).
- Работает и без LLM, но с флагом --use_llm становится ещё лучше.
- Можно запускать локально, на серверах, GPU / CPU, использовать параллельную обработку.
Ограничения и нюансы:
- Сложные макеты и вложенные таблицы / формы ещё не всегда обрабатываются идеально.
- Иногда требуется OCR, особенно если PDF плохо “разложен” на текст.
Кому полезно:
- Тем, кто работает с научными статьями, отчётами, бухгалтерскими документами, презентациями и хочет автоматизировать преобразование в читаемый формат.
- Для RAG-pipelines, документации и любых задач, где надо извлечь структуру и контент.
https://github.com/datalab-to/marker
🧩 SQL полезный приём
Нужно выбрать из таблицы записи с максимальным или минимальным значением по группе?
Вместо вложенных подзапросов удобно использовать оконные функции.
Пример: найти для каждого пользователя его последний заказ.
WITH ranked AS (
SELECT
user_id,
order_id,
order_date,
ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_date DESC) AS rn
FROM orders
)
SELECT user_id, order_id, order_date
FROM ranked
WHERE rn = 1;
🖥 Гайд по PostgreSQL для продвинутых разработчиков
PostgreSQL – одна из самых мощных СУБД с открытым исходным кодом. Этот гайд подробно охватывает ключевые аспекты PostgreSQL: от внутренней архитектуры до приёмов оптимизации. Мы рассмотрим администрирование, производительность, расширения, инструменты, а также сравним популярные ORM для Python и Go. В конце приведён список продвинутых вопросов, часто встречающихся на собеседованиях.
🟠Гайд
@sqlhub
Нужен один «топ-элемент» на группу без оконных функций и лишних джойнов?
В PostgreSQL есть недооценённый приём: DISTINCT ON. Он берёт первую строку в каждой группе по указанным полям, какую именно, ты задаёшь через ORDER BY.
Так за один проход можно выбрать, например, последний заказ клиента, самую дорогую позицию в категории или актуальную запись по состоянию. Важно: в ORDER BY сначала идут поля из DISTINCT ON, а следом — критерий «топа» (например, created_at DESC).
Для скорости добавь составной индекс в том же порядке (ключи группировки → поле сортировки).
-- Возьмём по 1 строке на группу (g1, g2), выбирая «лучшую» по metric DESC
SELECT DISTINCT ON (g1, g2) *
FROM some_table
ORDER BY g1, g2, metric DESC;
-- Пример: последний заказ каждого пользователя
SELECT DISTINCT ON (o.user_id)
o.user_id, o.id AS order_id, o.created_at, o.total
FROM orders o
ORDER BY o.user_id, o.created_at DESC;
-- Рекомендуемый индекс для скорости (соответствует ORDER BY)
CREATE INDEX ON orders (user_id, created_at DESC);
-- Ещё пример: самая дорогая товарная позиция в категории
SELECT DISTINCT ON (p.category_id)
p.category_id, p.id, p.price
FROM products p
ORDER BY p.category_id, p.price DESC;
-- Индекс под этот запрос
CREATE INDEX ON products (category_id, price DESC);
💾 Зачем нужен Delta Lake, если есть Parquet
Обычный Parquet хранит только одно состояние таблицы.
Если вы сохранили отфильтрованный DataFrame, то старые данные исчезли навсегда.
❌ Отката (rollback) нет → потеряли 10 000 строк, осталось только 3 500.
⚡ Delta Lake работает иначе:
- каждый раз создаётся новая версия данных
- можно вернуться к любой версии в прошлом
- данные всегда под контролем и без потерь
📌 Пример:
- Parquet → фильтр → оригинал стёрт
- Delta Lake → версия 0 (10 000 строк) + версия 1 (3 500 строк) → всегда можно вернуться к версии 0
✅ Итог: с Delta Lake данные становятся версионируемыми и надёжными.
#datalake #parquet #bigdata #delta
🌐 OrbitDB — распределённая serverless P2P-база данных для децентрализованных приложений
OrbitDB создана для веба без централизованных серверов: блокчейн-систем, локальных оффлайн-сценариев и P2P-приложений.
⚙️ Основные принципы:
- IPFS — хранение данных.
- Libp2p Pubsub — репликация и синхронизация между узлами.
- Merkle-CRDT — гарантирует бесконфликтные записи и объединение данных в условиях многоверсионности.
📊 Типы БД:
- Журнал событий (append-only log)
- Key-Value store
- Документная база
- Индексируемые коллекции
Все они построены на иммутабельном OpLog, который обеспечивает eventual consistency без выделенного сервера.
📌 Github
PostgreSQL 17: архитектура и тюнинг SQL-запросов
Погрузись в архитектуру и прокачай оптимизацию запросов одной из самых популярных open source СУБД – PostgreSQL.
🌐 В программе курса:
🤩 Разберем, как работают СУБД вообще и PostgreSQL в частности: что такое MVCC, ACID, WAL, LRU, PPC/TPC и другие фундаментальные понятия архитектуры баз данных
🤩 Получите свой собственный выделенный облачный PostgreSQL-сервер (8 vCPU, 12G RAM, 100G NVMe) – БЕСПЛАТНО на время обучения предоставляется
🤩 Получите теорию и практику EXPLAIN и EXPLAIN ANALYZE на разных типа запросов
🤩 Изучите архитектуру хранения данных в PostgreSQL, типы и особенности индексов, а также получите полезные советы и трюки оптимизации БД
Кто мы: R&D-центр Devhands, основатель школы Алексей Рыбак. Автор курса — Николай Ихалайнен, эксперт по СУБД (ex-Percona), со-основатель MyDB, энтузиаст открытого ПО.
🗓 Старт курса: 16 октября, 5 недель обучения.
Изучить программу и записаться можно здесь.
Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2VtzquiQ76e
Знали ли вы, что у SQLite есть векторное расширение? 🧮
SQLite - самая используемая база данных в мире, работает практически на любом устройстве.
Теперь можно легко строить AI-приложения с помощью SQLite-vec и новой Embedding Gemma прямо на устройстве, без интернета.
На скрине - простой пример с Python + SQLite и Ollama. SQLite-vec совместим с WASM и запускается где угодно. Пример можно адаптировать почти под любой язык: Swift, Kotlin, Java, JavaScript…
🟢Script: https://github.com/philschmid/gemini-samples/blob/main/scripts/embeddinggemma-sqlite-ollama.py
🟢Sqlite-vec: https://alexgarcia.xyz/sqlite-vec/
🟢EmbeddingGemma: https://developers.googleblog.com/en/introducing-embeddinggemma/
@sqlhub
⁉️ Как понять и улучшить архитектуру IT-системы? Archimate помогает увидеть полную картину, связывая бизнес-цели и технические решения в одну целостную модель.
На курсе «Archimate» мы научим вас моделировать архитектуру на 3 уровнях: бизнес-уровне, программном и технологическом. Вы освоите стратегическое планирование, сможете выявлять «узкие места» и эффективно проектировать IT-решения. Мы научим вас анализировать требования бизнеса и моделировать архитектуру, которая соответствует этим требованиям.
Этот курс поможет архитекторам, аналитикам и тимлидам углубить знания и научиться стратегически мыслить, создавая решения, которые действительно работают. Реальные кейсы, подробные примеры и практика моделирования на Archimate — всё это ждёт вас.
➡️ Старт уже 30 сентября! Оставьте заявку, чтобы получить скидку по промокоду ArchiSept: https://tglink.io/5086a78f95a5?erid=2W5zFHYd6fa
#реклама
О рекламодателе