Telegram-канал sqlhub - Data Science. SQL hub: Unsorted - каталог телеграмм

sqlhub | Unsorted

Subscribe to a channel

Telegram-канал sqlhub - Data Science. SQL hub

36043

По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo

Subscribe to a channel

Data Science. SQL hub

01 April 2026 20:26

Oracle массово режет штат - до 30 000 человек за один день.

По разным оценкам уволили от 10 000 до 30 000 сотрудников

Письма пришли в 6 утра - без предупреждений от менеджеров и HR • День получения письма сразу стал последним рабочим днём • В отдельных командах сокращения доходят до 30%+

Формулировка классическая: «организационные изменения»

Компани перераспределяет деньги в ИИ и облачную инфраструктуру.

В 2025 компания столкнулась с резким ростом расходов • Огромный кассовый разрыв из-за инвестиций в инфраструктуру •

Аналитики оценивают экономию от сокращений в $8–10 млрд Но есть нюанс:Даже если все деньги уйдут в ИИ, окупаемость ожидается только к 2030 году

Ирония 2026:Мы думали, нас заменит ИИ, потому что он умнее и дешевле А оказалось - нас увольняют, потому что он слишком дорогой и пока ещё не настолько эффективны.

https://vc.ru/ai/2844412-oracle-uvolila-do-30000-sotrudnikov-iz-za-investitsiy-v-ii

Читать полностью…

Data Science. SQL hub

31 March 2026 13:53

Папка .claude: полный разбор того, что внутри

Большинство разработчиков, работающих с Claude Code, смотрят на папку .claude как на черный ящик. Знают, что она есть. Видели, как она появляется в корне проекта. Но никогда не открывали и уж точно не понимали, что там лежит и зачем.

А зря. Папка .claude – это центр управления поведением Claude в вашем проекте. Здесь хранятся инструкции, кастомные команды, правила доступа и даже память модели между сессиями. Разберемся с каждым файлом и папкой по порядку.

https://uproger.com/papka-claude-polnyj-razbor-togo-chto-vnutri/

Читать полностью…

Data Science. SQL hub

31 March 2026 09:50

МосХаб.Сколково — точка сборки ИТ-сообщества и пространство для открытого диалога отрасли, города и общества. Здесь обсуждения превращаются в решения и реальные проекты.

Рассказываем о мероприятиях, прошедших на площадке за последнее время.

🔴 VI Международный форум «Умный город — безопасная среда» и первая Национальная премия «Безопасный город». Москва взяла Гран-при и две награды: Mos.Hub победил в номинации «Сделано в России», городская система видеоаналитики в Москве — в «Технологиях будущего».

🔴Конференция издания «Компьютерра», которая была посвящена практическому применению ИИ в бизнесе: участники обсуждали реальные кейсы внедрения, барьеры и переход от пилотов к системным решениям. Логичным продолжением стала презентация второго номера издания и церемония премии «Герои нового энтерпрайза».

🔴Финальный этап отбора на стажировку «ИТ-город» в Правительстве Москвы. Участники работали в двух потоках: по направлению «Аналитика данных» решали задачи с использованием SQL, а в треке «Машинное обучение» — анализировали датасеты и обучали модели, загружая решения в облачный репозиторий Mos.Hub.

🔴 Встреча клуба «Цифровые лидеры бизнеса». Дискуссию о технологических трендах и развитии умных городов открыл Дмитрий Онтоев, который представил подход города к адаптации глобальных практик. Участники также обсудили применение ИИ, больших данных и кибербезопасности в бизнесе и городской среде.

🔴 Хакатон SkillOut — два дня интенсивной работы, где команды за 24 часа создавали AI-видеоролики по рекламным брифам. Процесс был выстроен как открытое шоу: с рабочими сессиями, лекциями и живым общением, а также прямым эфиром с площадки, позволяющим следить за происходящим в реальном времени.

Впереди новые события и форматы.

Читать полностью…

Data Science. SQL hub

29 March 2026 11:36

⚡️ Anthropic на конференции показали, как Claude сам находит zero-day уязвимости.

Взяли не абы что, а Ghost - проект, у которого за всё время не было ни одной критической дыры.

Claude понадобилось ~90 минут, чтобы найти SQL-инъекцию и добраться до админского API.

И на этом он не остановился.

Дальше - тот же подход применили к ядру Linux.

Это уже не “помощник разработчика”.
Это автономный инструмент для поиска уязвимостей.

https://github.com/tryghost/Ghost

Читать полностью…

Data Science. SQL hub

25 March 2026 06:06

⚡️ Alibaba DAMO Academy (лаборатория, которая создала Qwen) открыла исходный код AgentScope - Python-фреймворка для построения систем из нескольких AI-агентов.

Чем он отличается от остальных:
Вы описываете задачу - система строит архитектуру сама. Планировщик, исследователь, программист, критик - каждый агент получает свои инструменты, память и логику рассуждений.

Они работают в связке и возвращают готовый результат.

Что внутри из коробки:
• Визуальный конструктор агентов, проектируете систему до написания кода
• Поддержка MCP-инструментов - подключаете любые внешние сервисы напрямую
• Встроенная память - агенты помнят контекст, решения и историю между сессиями
• RAG-конвейер - подключаете свои документы и базы знаний
• Модули рассуждений - агенты планируют, рефлексируют и исправляют ошибки без участия человека

Это фреймворк, где агент - первичная единица мышления с самого начала проектирования.

Лицензия: Apache 2.0. Полностью бесплатно.

https://github.com/agentscope-ai/agentscope

🎯Полезные ресурсы 🚀 Max

@sqlhub

Читать полностью…

Data Science. SQL hub

23 March 2026 19:05

🌟 Лучшие GitHub-репозитории для Claude Code, которые могут увеличить эффективность твоего следующего проекта:

1. Superpowers
https://github.com/obra/superpowers
→ Набор “супер-скиллов” для Claude: готовые промпты и инструменты, которые расширяют возможности агента (автоматизация, генерация кода, workflow).

2. Awesome Claude Code
https://github.com/hesreallyhim/awesome-claude-code
→ Кураторский список всего полезного вокруг Claude Code: гайды, тулзы, примеры, лучшие практики.

3. GSD (Get Shit Done)
https://github.com/gsd-build/get-shit-done
→ Фреймворк для реального продакшн-использования агентов: ставишь задачи - агент разбивает их и доводит до результата.

4. Claude Mem
https://github.com/thedotmack/claude-mem
→ Система памяти для Claude: позволяет агенту “помнить” контекст, прошлые действия и работать как долгоживущий ассистент.

5. UI UX Pro Max
https://github.com/nextlevelbuilder/ui-ux-pro-max-skill
→ Набор навыков для генерации интерфейсов: помогает Claude делать более качественные UI/UX решения и дизайн.

6. n8n-MCP
https://github.com/czlonkowski/n8n-mcp
→ Интеграция Claude с n8n: можно подключать агента к автоматизациям, API и workflow без кучи кода.

7. Obsidian Skills
https://github.com/kepano/obsidian-skills
→ Навыки для работы с Obsidian: управление заметками, knowledge base и личной базой знаний через Claude.

8. LightRAG
https://github.com/hkuds/lightrag
→ Лёгкая реализация RAG (Retrieval-Augmented Generation): быстро подключаешь свою базу данных к модели для более точных ответов.

9. Everything Claude Code
https://github.com/affaan-m/everything-claude-code
→ Универсальный сборник: шаблоны, примеры, инструменты - всё, чтобы быстро стартовать и прокачать Claude Code.

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

Читать полностью…

Data Science. SQL hub

22 March 2026 10:25

🔥 Очень любопытный проект: Supermemory показал 99% на SOTA-бенчмарке памяти

• Supermemory набрал ~99% на LongMemEval_s с использованием экспериментальной техники ASMR (Agentic Search and Memory Retrieval)

• Вместо классического vector search и embeddings используется система параллельных агентов-наблюдателей, которые извлекают структурированные знания из истории взаимодействий сразу по нескольким направлениям

• Используются специализированные поисковые агенты:
→ для точных фактов
→ для связанного контекста
→ для восстановления временной последовательности

• И самое интересное, никакой векторной базы данных не требуется

🚀 Проект станет open-source уже через 11 дней, следим:

https://x.com/DhravyaShah/status/2035517012647272689

🎯Полезные Мл-ресурсы 🚀 Max

@sqlhub

Читать полностью…

Data Science. SQL hub

21 March 2026 08:32

🔥 Полезная подборка каналов только код, практика и самые передовые инструменты, которые используют разработчики прямо сейчас.👇

🖥 ИИ: t.me/ai_machinelearning_big_data

🖥 Python: t.me/pythonl

🖥 Linux: t.me/linuxacademiya

🖥 C++ t.me/cpluspluc

🖥 Docker: t.me/DevopsDocker

🖥 Хакинг: t.me/linuxkalii

🖥 Devops: t.me/DevOPSitsec

👣 Golang: t.me/Golang_google

🖥 Аналитика: t.me/data_analysis_ml

🖥 Javascript: t.me/javascriptv

🖥 C#: t.me/csharp_ci

🖥 Java: t.me/javatg

🖥 Базы данных: t.me/databases_tg

👣 Rust: t.me/rust_code

🤖 Технологии: t.me/vistehno

💰 Экономика и инвестиции в ИИ t.me/financeStable

💼 Актуальные вакансии: t.me/addlist/_zyy_jQ_QUsyM2Vi

🖥Подборка по Golang: /channel/addlist/MUtJEeJSxeY2YTFi
⚡️ Лучшие ИИ ресурсы: /channel/addlist/2Ls-snqEeytkMDgy

Max ИИ: https://max.ru/ai_machinelearning_big_data
Max Ml: https://max.ru/vistehno
Max python: https://max.ru/pythonl
Max Go: https://max.ru/Golang_google
Max Linux: https://max.ru/linuxkalii
Max Java: https://max.ru/javatg
Max Sql: https://max.ru/sqlhub
Max Devops: https://max.ru/DevOPSitsec
Анализ данных: https://max.ru/data_analysis_ml
C++ : https://max.ru/cpluspluc
C#: https://max.ru/csharp_ci

🖥 Chatgpt бот в тг: t.me/Chatgpturbobot
📚 Бесплатные ит-книги: /channel/addlist/HwywK4fErd8wYzQy

Читать полностью…

Data Science. SQL hub

18 March 2026 13:01

🌶 Базы данных за 30 секунд 🧠

🗄️ Реляционные базы данных (SQL)
• Данные хранятся в таблицах
• Фиксированная схема
• Поддержка ACID-транзакций
Примеры → PostgreSQL, MySQL

📦 NoSQL базы данных
• Гибкая схема данных
• Созданы для горизонтального масштабирования
Примеры → MongoDB, DynamoDB

⚡ Key-Value хранилища
• Простая модель: ключ → значение
• Очень высокая скорость работы
Примеры → Redis, etcd

🧱 Wide-Column базы данных
• Данные хранятся в семействах колонок
• Подходят для огромных объёмов данных
Примеры → Cassandra, HBase

🕸️ Графовые базы данных
• Основной фокус — связи между данными
• Идеальны для связанных структур
Примеры → Neo4j

📈 Time-Series базы данных
• Данные индексируются по времени
• Используются для метрик и мониторинга
Примеры → Prometheus, InfluxDB

🎯 Базу данных выбирают
по задаче, а не по тренду.

https://www.youtube.com/shorts/6mpZyksUTdg

Читать полностью…

Data Science. SQL hub

16 March 2026 17:45

📌 Андрей Карпаты выложил новый проект - karpathy/jobs.

Он взял данные по 342 профессиям из статистики BLS (≈143 млн работников в США) и с помощью LLM оценил, насколько каждая из них подвержена влиянию AI по шкале 0–10.

Результат он визуализировал в виде treemap.

Средний показатель по всем профессиям: 5.3 / 10.

Примеры:

• разработчики ПО: 8–9
• кровельщики: 0–1
• специалисты по расшифровке медицинских записей: 10 / 10 💀💀

Паттерн довольно простой.

Если вся работа происходит за экраном, риск автоматизации высокий.

Если она требует физического труда и непредсказуемой среды, вы гораздо безопаснее.

По оценке Карпати, около 57 млн работников в США - почти 40% всей рабочей силы - находятся в зоне высокого риска изменений из-за AI.

https://karpathy.ai/jobs/

@ai_machinelearning_big_data

#ai #ml #future #jobs #llm

Читать полностью…

Data Science. SQL hub

16 March 2026 13:02

🖥 ByteDance только что open-sourced OpenViking, и этот проект показывает, что именно не так с тем, как сегодня строят память для AI-агентов.

Вот где большинство агент-фреймворков ошибаются:

Память хранится в одном месте.
Ресурсы — в другом.
Навыки разбросаны по системе.

Когда агенту нужен контекст, обычно делают плоский векторный поиск и просто надеются на лучший результат.

Именно это и проблема. OpenViking решает её одной идеей:
рассматривать контекст агента как файловую систему.

Всё работает через единый протокол:

viking://

Память, ресурсы и навыки организованы как директории с уникальными URI.
Агент может ls, find и навигировать по контексту, как разработчик в терминале.

Главный прорыв — многоуровневая загрузка контекста:

- L0 — одно предложение для быстрого поиска
- L1 — обзор ~2000 токенов для принятия решений
- L2 — полные детали, загружаются только когда действительно нужны

Большинство агентов просто загружает всё в контекст и надеется на лучшее.

OpenViking загружает только нужные данные и только в нужный момент.

Результат:

- меньше расходов на токены
- выше точность
- быстрее работа агентов

Retrieval теперь тоже работает логичнее.

Вместо одного плоского семантического поиска:

1. сначала происходит позиционирование на уровне директорий
2. затем рекурсивный поиск внутри наиболее релевантных директорий

Можно буквально видеть траекторию поиска — это больше не чёрный ящик.

Есть и механизм самоэволюции агента.

В конце каждой сессии система автоматически:

- извлекает новые знания
- обновляет память агента
- обновляет память пользователя

То есть агент становится умнее с каждым использованием.

Проект уже имеет:

- 9K звёзд на GitHub
- 13 контрибьюторов

Разработан командой ByteDance Viking, которая строит инфраструктуру векторного поиска с 2019 года.

Проект полностью open-source под лицензией Apache 2.0.

https://github.com/volcengine/OpenViking

Читать полностью…

Data Science. SQL hub

13 March 2026 20:05

Трюк дня. Сравнение с предыдущим. Решение.

Решение: использование DATEDIFF DATEDIFF: эта функция вычисляет разницу между двумя датами. Она используется для того, чтобы обеспечить сравнение именно «сегодняшних» и «вчерашних» температур.

Если сформулировать обычным языком следующий запрос, то окажется, что он выражает следующую идею: нужно выбрать такие идентификаторы, чтобы температура, соответствующая представляемым ими датам, была бы больше, чем температура на «вчерашние» по отношению к ним даты.

SELECT DISTINCT a.Id
FROM Weather a, Weather b
WHERE a.Temperature > b.Temperature
AND DATEDIFF(a.Recorddate, b.Recorddate) = 1

#tips

Читать полностью…

Data Science. SQL hub

13 March 2026 14:36

🐘 Бесплатная конференция по PostgreSQL — Москва, 19 марта

PG BootCamp Russia 2026 — комьюнити-конференция российского сообщества PostgreSQL с подтвержденным официальным международным статусом.

Мероприятие бесплатное, онлайн+офлайн, ориентировано на администраторов БД, разработчиков, инженеров, аналитиков, архитекторов.

Эксперты из Tantor, Яндекс, СберТех, Тензор, Хи-квадрат, Luxms BI и других компаний выступят по темам, связанным с разработкой, эксплуатацией и взаимодействием PostgreSQL с другими системами.

В предварительной программе:

📎Решение застарелых архитектурных проблем PostgreSQL для современных нагрузок и масштабирования
📎Временные таблицы для Postgres. Почему это важно для платформы 1С и что можно улучшить?
📎Разделение Compute и Storage: архитектурный прорыв для PostgreSQL в облаке
📎Опыт вынесения OLAP-нагрузки на реплику
📎Highload "из ниоткуда": когда проблема не в СУБД, а в клиентской архитектуре
📎Опыт эксплуатации, проблемы и производительность PostgreSQL на Эльбрус, Baikal-S, Loongson, Repka Pi, x86
📎Поиск проблем планирования запросов до их воздействия на производительность
📎Тестирование, баги и уроки работы с патчем 64-битного счетчика транзакций PostgreSQL
📎Работа с логами PostgreSQL
📎…и другие (всего 25 выступлений)

🗓 19 марта
📍 Москва, офлайн + онлайн

➡️ БЕСПЛАТНАЯ РЕГИСТРАЦИЯ

Читать полностью…

Data Science. SQL hub

12 March 2026 11:06

Ваши дашборды грузятся по минуте? SQL-запросы «падают» на продакшене, а бизнес требует отчеты «еще вчера»?

Руководители команд аналитики и senior-разработчики знают: узкое место — не мощность сервера, а эффективность кода и архитектуры запросов.

Прокачайте скорость - получите бесплатно урок «Аналитика без тормозов» от Георгия Семенова, руководителя команды Analytics Engineering в Яндексе с 14-летним опытом (экс-VK, Wildberries, ВТБ).

Вы узнаете:
🔸Тактические и стратегические методы ускорения запросов и дашбордов, применимые к любой СУБД
🔸Специфические нюансы оптимизации, которые отличают middle от senior.

Но это не всё. Мы понимаем: результат дает прокачка всей команды и внедрение знаний в конкретные рабочие задачи.

Для руководителей отделов аналитики: хотите масштабировать этот эффект?
Симулейтив предлагает корпоративное обучение под ключ:

🔸Преподаватели-практики из “биг-теха” адаптируют программу под ваши бизнес-задачи
🔸Индивидуальный итоговый проект каждого сотрудника строится на его реальной рабочей задаче
🔸Бессрочная поддержка преподавателей и доступ к закрытым мастер-классам
🔸Выгода до 30% при пакетном обучении команды

Примените практику из бесплатного урока уже сегодня, а затем внедрите её в работу всего отдела аналитики - сделайте шаг, чтобы ваши процессы полетели: ТРЕНИНГ ПО SQL

Читать полностью…

Data Science. SQL hub

10 March 2026 11:35

В основе любого сильного проекта стоит сильный специалист.

В IT-мире сложно представить востребованного специалиста, который не разбирается в том, как работают: архитектура, API, базы данных, алгоритмы.

Без этого никуда.

И не страшно, если вы пока плохо разбираетесь в каких-то современных системах. Хуже, если продолжаете игнорировать свои пробелы в hard skills.

Начните с бесплатных уроков по архитектуре и интеграциям:

▪️мощный инструмент — SOAP UI
▪️подробное описание процесса загрузки сайта
▪️модель TCP/IP и устройства
▪️XML — это вам не ХSD

Присоединяйтесь в чат-боте по ссылке:
👇
@studyit_help_bot

🚀 Скидка на полный курс от канала — 1 500 ₽ на Stepik по промокоду SQLHUB до конца февраля.

Читать полностью…

Data Science. SQL hub

31 March 2026 14:42

Одна из самых долгих и ресурсоемких частей в создании аналитических систем - это подготовка базовой инфраструктуры.

Stackland, выпущенный Yandex B2B Tech, как раз решает эту задачу: средства хранения и обработки данных, как и управляемые СУБД от Yandex Cloud уже встроены в платформу и разворачиваются из коробки вместе с необходимым слоем управления. И разворачивается платформа во внутреннем безопасном контуре.

Получаешь готовый data-фундамент с управлением доступами, мониторингом и масштабированием. И можешь сразу идти в разработку.

Запросить демо платформы, а также записаться на индивидуальную консультацию с архитекторами платформы можно по ссылке.

Читать полностью…

Data Science. SQL hub

31 March 2026 11:01

✔️ Anthropic планирует выйти на IPO в октябре 2026 года.

Anthropic начала подготовку к первичному размещению акций и ведет предварительные переговоры с ключевыми игроками Уолл-стрит: Goldman Sachs, JPMorgan и Morgan Stanley, чтобы выбрать организаторов листинга.

Ожидается, что в ходе IPO стартап сможет привлечь более $60 млрд. Размещению предшествовал крупный раунд финансирования, прошедший в феврале этого года. В рамках этого раунда консорциум инвесторов во главе с фондами GIC и Coatue вложил в компанию $30 млрд, что подняло общую капитализацию Anthropic до $380 млрд.

Финансовый рынок уже отреагировал на новости: эмитенты ETF начали подавать заявки на регистрацию маржинальных фондов, привязанных к котировкам будущих акций компании.
bloomberg.com

✔️ Microsoft опенсорснула семейство эмбеддингов Harrier.

Harrier-OSS-v1 - линейка мультиязычных моделей для векторизации текста. Они используются для информационного поиска, кластеризации, классификации текстов и оценки семантической близости. Семейство выбило SOTA-рекорд в бенчмарке Multilingual MTEB v2.

Флагманская модель на 27 млрд. параметров и компактная на 270 млн. построены на архитектуре Gemma 3, а средняя версия на 600 млн. параметров использует базу Qwen 3. Модели поддерживают контекстное окно до 32 тыс. токенов и работают с более чем 94 языками, включая русский.

Семейство открыто под лицензией MIT и интегрированы в sentence-transformers, LangChain и LlamaIndex.
huggingface.co

✔️ Видеогенератор Sora закрылся из-за убытков.

После громкого релиза аудитория сервиса быстро сократилась с миллиона до 500 тысяч человек, при этом поддержание работы видеогенератора обходилось OpenAI примерно в $1 млн. ежедневно. В итоге проект оказался для компании обузой.

К финансовым потерям добавились проблемы с авторскими правами и опасения, что создание низкокачественных роликов вредит репутации бренда. Обучение новых видеомоделей уже полностью остановлено.

Под давлением конкуренции со стороны Anthropic руководство OpenAI решило перенаправить вычислительные мощности на более маржинальные направления: разработку ИИ-агентов, генерацию кода и корпоративные продукты. Команду Sora перевели на создание моделей мира для робототехники.
wsj.com

✔️ Microsoft расширила возможности Copilot.

В рамках обновления Microsoft 365 Copilot компания добавила новые инструменты для автоматизации рабочих процессов и глубокого поиска. Во главе апдейта - агент Researcher с функцией Critique, которая задействует 2 модели: одну для черновика, а другую - в роли проверяющего редактора, комбинируя возможности моделей от OpenAI и Anthropic. Microsoft говорит, что агент опережает Perplexity на базе Claude Opus 4.6 на 7 пунктов.

Вторая часть - это функция Model Council, которая выводит на один экран ответы от разных ИИ-моделей для наглядного сравнения их выводов и поиска расхождений.

Попутно Microsoft расширила доступ к Copilot Cowork по программе Frontier. Система научилась брать на себя многоэтапные задачи: она самостоятельно взаимодействует с рабочими файлами, планирует расписание в календаре и формирует ежедневные брифинги.
microsoft.com

✔️ GitHub Copilot вставлял рекламу прямо в пулл-реквесты.

Независимый разработчик Зак Мэнсон обнаружил , что при автокоррекции опечаток в PR Copilot добавляла рекламный текст. Поиск по GitHub подтвердил, что десятки тысяч PR уже успели получить навязчивое предложение использовать утилиту Raycast для запуска Copilot на macOS и Windows.

Представитель Copilot подтвердил инцидент и сообщил, что функцию оперативно отключили, признав ее внедрение ошибкой. Однако случившееся серьезно подорвало доверие сообщества разработчиков.

На фоне этого пользователи начали сообщать о переносе приватных репозиториев с GitHub на альтернативные открытые площадки: Forgejo, Gitea, Codeberg и собственные self-hosted решения.
news.ycombinator.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Data Science. SQL hub

30 March 2026 09:09

🚀 Выложили в open source крупнейшую базу интеграций для AI-агентов.

- 47 000 действий для агентов в 250+ приложениях
- Подключения к Slack, GitHub, Gmail, Stripe, Discord, Google Sheets и другим сервисам
- Все действия проверены, агент больше не «галлюцинирует» API
- Разворачивается одной CLI-командой: подключил один раз — используешь везде

Это тот самый слой интеграций, которого агентам давно не хватало.

https://github.com/withoneai/cli

Читать полностью…

Data Science. SQL hub

26 March 2026 16:16

Сколько времени обычно уходит на сборку полноценной data-архитектуры? Дни, недели или даже месяцы?

2 апреля команда Yandex Cloud покажет, как развернуть Lakehouse по клику и получить рабочую аналитическую архитектуру без долгой интеграции разрозненных инструментов.

В основе — единый стек:
raw-данные в Object Storage (S3);
табличный слой на Iceberg;
обработка через Trino и Spark;
интерактив — витрины в ClickHouse и BI.

✅ Зачем приходить

— Поймёте, как выглядит целевая архитектура «от данных до BI» и как собрать её без лишней ручной интеграции

— Получите практические ответы «как делать правильно»: Iceberg, ingestion, метаданные и доступы

— Услышите опыт крупного бизнеса: где «чистый Lakehouse» достаточен, а где нужен слой витрин (Magnit Tech, F&R, десятки петабайт)

— Разберёте паттерны для низкой латентности и потоковых сценариев: витрины, ClickHouse + Kafka, интеграции с BI

— Узнаете, что дальше по roadmap: Iceberg REST Catalog (управляемость/контроль доступа) + AI‑агенты для работы с кодом и пайплайнами + как попасть в лист ожидания

— В конце — Q&A и сбор заявок на воркшопы/пилоты после митапа

Бонусом вас ждут практические рекомендации по производительности и развитие платформы, включая AI-ускорение ETL/ELT. Для команд, которые строят или модернизируют DWH/Lakehouse и хотят сократить время, это маст!

Всё бесплатно, регистрируйтесь тут.

Читать полностью…

Data Science. SQL hub

24 March 2026 09:12

🚀 Cursor сделал regex-поиск мгновенным

Instant Grep ищет по миллионам файлов за миллисекунды
16.8 сек → 13 мс

И главное:
они не ускоряли regex
они убрали лишний поиск

🧠 Как это работает

- создаётся индекс: куски текста → файлы
- используются триграммы (fil, ile, le_)
- сначала ищутся кандидаты
- потом запускается regex

👉 большинство файлов вообще не открывается

🔥 Ключевая идея - sparse n-grams

- индексируются не все куски
- только самые «полезные»
- редкие символы имеют больший вес

💾 Всё локально

- индекс хранится у тебя
- привязан к Git
- быстрый доступ через memory map

Скорость даёт не regex
а умный отбор файлов до поиска.

https://x.com/cursor_ai/status/2036122609931165985

Читать полностью…

Data Science. SQL hub

23 March 2026 17:05

На Stepik вышел курс
ML Engineer / Data Scientist: табличные модели в продакшн

Практический курс по табличному ML для тех, кто хочет прокачаться в сторону ML Engineer / Data Scientist и увереннее чувствовать себя в реальных задачах на табличных данных.

Внутри:
— CatBoost / LightGBM
— feature engineering (генерация признаков)
— корректная валидация
— анти-leakage
— тюнинг через Optuna
— SHAP
— batch inference
— REST API для предсказаний

Акцент курса — не только на качестве модели, но и на том, как собрать вменяемый и цельный ML-пайплайн для практических задач.

В течение 48 часов после публикации действует скидка 25%.

Записаться на курс можно здесь

Ип Малышкин А.А.
ИНН: 402571325199, Erid: 2Vtzqv1KLw7

Читать полностью…

Data Science. SQL hub

21 March 2026 10:28

🖥 SQL-концепции, которые реально нужно знать:

• CRUD → SELECT, INSERT, UPDATE, DELETE
• Ключи → PRIMARY KEY, FOREIGN KEY
• Ограничения → NOT NULL, UNIQUE, CHECK, DEFAULT
• JOIN’ы → INNER JOIN, LEFT JOIN, RIGHT JOIN
• Агрегации → COUNT, SUM, AVG, MIN, MAX
• Группировка → GROUP BY, HAVING
• Фильтрация → WHERE, BETWEEN, IN, LIKE
• Сортировка → ORDER BY
• Подзапросы → SELECT (SELECT …)
• Индексы → CREATE INDEX
• Представления → CREATE VIEW
• Транзакции → BEGIN, COMMIT, ROLLBACK
• Пагинация → LIMIT, OFFSET
• Оптимизация → EXPLAIN

Читать полностью…

Data Science. SQL hub

20 March 2026 13:04

🚀 Умный помощник для Claude Code

gstack превращает Claude Code в команду специалистов, доступных по запросу. Он предлагает восемь навыков для управления рабочими процессами, включая планирование, ревью кода и автоматизацию браузера, все через удобные команды.

🚀 Основные моменты:
- Многофункциональные команды для разных ролей (CEO, инженер, QA).
- Интеграция с Conductor для параллельной работы.
- Полная автоматизация тестирования и ревью.

📌 GitHub: https://github.com/garrytan/gstack

Читать полностью…

Data Science. SQL hub

18 March 2026 08:06

Парень рассказал, что Claude удалил его базу данных, хотя понимал, что это нужно сделать только после загрузки на прод.

После удаления модель ответила:

«Это моя ошибка. Сейчас восстановить неоткуда. Прости.»

Читать полностью…

Data Science. SQL hub

16 March 2026 15:43

🔥Есть план на 27 марта

Мы узнали, что AvitoTech собирает Database meetup, и решили, что мимо такого проходить нельзя. Тематика — самая что ни на есть хайповая: базы данных, масштабирование, безопасность.

Что обещают организаторы:
— Никита Жига поделится чек-листом по защите чувствительных данных на DBaaS и расскажет, как она устроена в Авито
— Роман Ананьев покажет различия и преимущества FoundationDB и Cassandra 5 на практике
— Игорь Конев проведёт по пути масштабирования S3, который отличается от других подходов в бигтехе
Встречаемся в офисе коллег в последнюю пятницу месяца. Если вдруг будете не в городе или просто лень выходить из дома — включайте онлайн-трансляцию.

Осталось только зарегистрироваться, оставляем ссылку

Читать полностью…

Data Science. SQL hub

15 March 2026 07:38

Типичная работа с ИИ?

— Зачем ты удалил продакшн-базу данных?

— Ты абсолютно прав!

🚀 Полезный ресурсы по БД⚡️ Max

Читать полностью…

Data Science. SQL hub

13 March 2026 18:06

Как ROSTIC'S ускорили аналитику в 3 раза: кейс от Яндекса

Yandex B2B Tech выпустила «Техно на прокачку» — шоу, где показывают работу платформы данных на примере сети ROSTIC'S.

Суть проекта:
• Еженедельно рестораны генерируют больше 100 Гб данных: чеки, транзакции, история заказов
• Чтобы бизнес получал аналитику без задержек, внедрили платформу данных от Яндекса
• Отчеты теперь загружаются в 3 раза быстрее

В шоу разобрали архитектуру решения: от интеграции касс и терминалов до managed-сервисов для опенсорсных баз данных. А комик Егор Кукса в роли «гуру успеха» проверяет инженеров на прочность и предлагает свои надежные, но не очень технологичные решения, от мотивационных речей до флешки деверя.

Посмотреть как это было уже можно на YouTube, VK Видео или Кинопоиске.

Читать полностью…

Data Science. SQL hub

12 March 2026 13:10

🌟 Nemotron-Terminal: небольшое семейство для терминальных задач.

NVIDIA обучила семейство моделей Nemotron-Terminal для автономной работы в терминале Linux: устанавливать зависимости, писать и запускать код, отлаживать окружения и выполнять сквозные инженерные задачи без участия человека.

Семейство построено на базе Qwen3 и специально собранном датасете Terminal-Corpus. И фишка не в архитектуре, а в данных.

🟡NVIDIA собрала пайплайн Terminal-Task-Gen с 2 потоками.

Первый адаптирует готовые датасеты по математике, коду и SWE-задачам под терминальный формат (без участия LLM в процессе адаптации).

Второй генерирует синтетику 2 методами: seed-based (LLM создает новые задачи на основе существующих задач из смежных областей) и skill-based (LLM комбинирует до пяти примитивных навыков из таксономии по 9 доменам: Security, Data Science, System Administration и другим).

🟡В открытый релиз вошли все три модели на 8B, 14B, 32B параметров и 2 датасета:

Terminal-Corpus: около 366K траекторий выполнения задач, разбитых на два потока: ~226K адаптированных примеров из Math/Code/SWE и ~140K синтетических задач на основе skill-таксономии.

Synthetic-Tasks: задачи в стандартизированном формате: инструкция, Docker-окружение из 9 преднастроенных образов и верификационный набор на pytest.

🟡Результаты прогонов на бенчах.

На Terminal-Bench 2.0 все 3 модели показали кратный рост относительно базовой Qwen3: 8B - с 2.5% до 13%, 14B - с 4% до 20.2%, 32B - с 3.4% до 27.4%.

Для сравнения: Qwen3-Coder на 480B параметров набирает 23.9%, GPT-5-Mini - 24.0%, Grok 4 - 23.1%. Nemotron-Terminal-32B превосходит или вплотную конкурирует с ними всеми при разнице в размере на порядок.

🟡Несколько внезапных выводов из абляции.

Фильтрация неудачных траекторий вредит. Модель, обученная на всех траекториях включая ошибочные, набирает 12.4% против 5.06% у варианта только с успешными.

Curriculum learning (сначала простые данные, потом сложные) не дал преимуществ перед простым смешанным обучением.

Увеличение контекстного окна с 32K до 65K токенов также не помогло, длинные траектории оказались шумнее.

📌Лицензирование моделей: NVIDIA Open Model License

📌Лицензирование датасетов : CC-BY-4.0 License.

🟡Набор моделей
🟡Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #NemotronTerminal #NVIDIA

Читать полностью…

Data Science. SQL hub

10 March 2026 13:35

🚀 SQLite, у которой недавно вышел новый релиз, имеет один из самых необычных Code of Ethics во всей индустрии.

История появления документа довольно забавная. Некоторым компаниям, использующим SQLite, требовалось указывать ссылку на Code of Conduct в своих внутренних политиках. Тогда разработчики SQLite просто решили сделать собственный кодекс, но очень нестандартным способом.

Вместо привычного корпоративного CoC они взяли «Правило святого Бенедикта» - монашеский свод принципов VI века и сделали его основой своего кодекса.

Вот несколько первых пунктов:

- Прежде всего возлюби Господа Бога всем своим сердцем, всей душой и всей силой
- Затем возлюби ближнего своего как самого себя
- Не убивай
- Не прелюбодействуй
- Не кради
- Не желай чужого
- Не лжесвидетельствуй
- Почитай всех людей
- Не делай другим того, чего не хотел бы для себя

Всего таких правил - 72, и читаются они скорее как философские или духовные принципы, чем как стандартный документ для open-source проекта.

И важная деталь:
этот кодекс — обещание самих разработчиков SQLite, а не требования к пользователям или сообществу. То есть разработчики просто говорят: *мы будем придерживаться этих принципов в работе с вами*.

В мире, где Code of Conduct обычно выглядит как длинный юридический документ, SQLite выбрала… правила монастыря VI века.

sqlite.org/codeofethics.html

Читать полностью…

Data Science. SQL hub

07 March 2026 13:02

🔥 Zero-cost поиск для AI-приложений — идея из turbopuffer

Большинство систем поиска и векторных БД сегодня очень дорогие.
Причина простая, они хранят данные в RAM или реплицированных SSD, где стоимость может доходить до $600–$3600 за TB в месяц.

Но turbopuffer предлагает другой подход.

Хранить данные не в памяти серверов, а в object storage (например S3 или GCS).

Стоимость:

- RAM + SSD инфраструктура - до $3600/TB
- SSD-кластеры - около $600/TB
- Object storage (S3) - примерно $20/TB
-
Разница может достигать до 100× дешевле для холодных данных.

📌 Архитектура turbopuffer:

Client ↓ Query layer ↓ SSD / memory cache (горячие данные) ↓ Object storage (источник истины)
То есть:

- холодные данные хранятся дешево в object storage
- часто используемые попадают в SSD или RAM cache
- запросы остаются быстрыми (<100ms), но стоимость инфраструктуры падает на порядок

Vector search становится ключевой частью AI-систем:

- RAG
- AI-ассистенты
- semantic search
- recommendation systems

Но именно retrieval слой часто становится самой дорогой частью AI-инфраструктуры.

Архитектура turbopuffer показывает, что:
> дешевый storage + умный cache
> может заменить дорогие memory-based search системы.

Будущее AI-поиска может выглядеть так:

- object storage как источник данных
- stateless compute
- дешёвый storage
- кэш для hot data

И тогда поиск по миллиардам документов становится почти “zero-cost” инфраструктурой.

Подробнее:
https://turbopuffer.com/blog/zero-cost

Читать полностью…

Subscribe to a channel