sqlhub | Unsorted

Telegram-канал sqlhub - Data Science. SQL hub

36043

По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo

Subscribe to a channel

Data Science. SQL hub

🚀 Amazon запускает S3 Vectors — и это может перевернуть рынок векторных БД

На первый взгляд — просто новый сервис. На деле — возможно, главная новость для AI-инфраструктуры в 2024.

Когда Amazon представил S3 в 2006, он навсегда изменил подход к хранению данных: больше не нужно думать о дисках — только API и бесконечное масштабирование. S3 Vectors может сделать то же самое с векторными БД.

💡 Почему это важно

1️⃣ Резкое удешевление

- $0.06/GB за хранение, $0.004/TB за запросы
- В 10–400 раз дешевле, чем популярные векторные хостинги
- Подходит для стартапов, особенно с бесплатными AWS-кредитами

2️⃣ Масштабируемость без DevOps

- Храни миллиарды векторов
- Запросы — за сотни миллисекунд
- Без серверов: просто создаёшь *vector bucket* и используешь API

3️⃣ Глубокая интеграция с AWS-экосистемой

- Bedrock (RAG-приложения)
- OpenSearch (tiered storage)
- SageMaker и другие сервисы
- Всё подключается "из коробки"

🛠️ Что можно делать

- Масштабируемый RAG с низкой ценой
- Поиск по смыслу в документах, видео, медизображениях, коду
- Долгосрочная память для AI-агентов
- Семантический корпоративный поиск

📈 Сообщество уже тестирует: среднее время запроса — ~250 мс. Preview-доступ открыт в регионах US East/West, Frankfurt и Sydney.

🔗 https://aws.amazon.com/blogs/aws/introducing-amazon-s3-vectors-first-cloud-storage-with-native-vector-support-at-scale/

Если пробуете — делитесь результатами. Это может быть началом нового стандарта.

@sqlhub

Читать полностью…

Data Science. SQL hub

Огромная Python-шпаргалка с удобной навигацией!

В репозитории собраны шпаргалки (на русском) по Python и не только, разделённые по категориям. Каждая ссылка ведёт к PDF с нужной темой.

🗂 Кроме Python, есть материалы по Git, CORS, Docker, API, SQL, CI/CD, Kubernetes и другим темам разработки.

👉 https://github.com/Dv-nn/Cheat-Sheet-Python

#Python #Программирование #Шпаргалки

@sqlhub

Читать полностью…

Data Science. SQL hub

🧠 Исследователь OpenAI Ноам Браун заявил:

"Все эти модные AI-системы с роутерами, обвязками и агентами смоет масштабом.

Будущее — за моделями, которые просто работают хорошо из коробки."

Что это значит?

▪ GPT‑5, похоже, не будет использовать роутеры — то есть, не будет выбирать отдельную подмодель под каждый запрос.
▪ Вместо этого — одна большая универсальная модель, способная справляться со всем сразу.

Но возникает важный вопрос:
Как они собираются держать цену инференса низкой?
Без роутера даже на простой вопрос будет отвечать вся огромная модель — это дорого.

Если OpenAI реально решила эту задачу, это будет революция:
▪ Без костылей
▪ Без сборок из агентов
▪ Просто умная, быстрая и универсальная модель

Следим внимательно. Это может многое изменить.

Читать полностью…

Data Science. SQL hub

🔥 Китай выпускает новую опенсорс модель: Kimi K2 — llm уровня Claude 4, которая обходит DeepSeek v3, Qwen и даже GPT-4.1

Размер — 1 триллион параметров, при этом:

📊 В бенчмарках:
- 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1
- Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам
- Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны.

Также доступна через API:

- $0.15 за миллион входных токенов (при попадании в кэш)
- $0.60 за миллион входных токенов (если кэш не сработал)
- $2.50 за миллион выходных токенов

Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro!

🟡 Github

@ai_machinelearning_big_data


#kimi #china #llm #ml #ai

Читать полностью…

Data Science. SQL hub

🔥 Дата-инженеры, встречаемся на митапе ЮMoney

Приходите на митап High SQL — он пройдёт 15 июля в 19:00 (по мск) офлайн в Санкт-Петербурге и онлайн из любой точки мира. Вот о чём поговорим со спикерами из ЮMoney и приглашённым экспертом Дмитрием Аношиным:

🟣101 Performance Tuning: невредные советы. Проверяем и анализируем самые популярные советы по оптимизации хранилищ на основе реляционных баз данных.

🟣Качество данных: от осознания до реализации. Если вы тоже сталкивались с ошибками в отчётах, дублированием данных и недоверием к аналитике, этот доклад для вас.

🟣Обзор фреймворка DBT и примеры его использования. Почему он стал таким популярным? Рассмотрим основные возможности DBT, альтернативы и как DBT используют в дата-командах.

Участие бесплатное, но нужно зарегистрироваться на сайте.

Читать полностью…

Data Science. SQL hub

Курс с углублённым изучением профессии аналитика данных.

Станьте незаменимым специалистом на рынке труда с курсом от Нетологии.

Преподаватели курса — эксперты из крупных компаний: Сбера, Яндекса, Gett, Работы.ру и других.

Вы изучите:

- продвинутые инструменты — A/B-тестирование, аналитику больших данных, SQL и Python;
- современные российские BI-решения — AW BI и DataLens;
- нейросети, которые можно использовать при анализе.

А ещё все студенты получат доступ к профессиональному комьюнити с еженедельными офлайн и онлайн-митапами. На них разбираем актуальные инструменты и делимся опытом.

До конца июля на курс действует сразу 2 скидки: летняя — 40%, и дополнительная — 10 000 рублей по промокоду DATA10.

➡️ Посмотреть программу курса

Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5wZyTuJ

Читать полностью…

Data Science. SQL hub

Как начать в Data Science, когда все вокруг уже сеньоры?

В Вышке открыт набор на онлайн-магистратуру «Магистр по наукам о данных». Поступить можно даже без технического бэкграунда, а учиться — в удобном формате.

Уже сейчас идет марафон подготовки к вступительным испытаниям, после которого вы сможете успешно поступить на программу.

За 4 встречи вы
— Разберетесь в математике
— Попрактикуетесь на задачах вступительных испытаний
— Познакомитесь с преподавателями и магистратурой
— Получите доступ в чат комьюнити

Когда: 9-14 июля, 18:00 (МСК)
Где: онлайн

📎 Зарегистрироваться и начать карьеру в DS

Читать полностью…

Data Science. SQL hub

🌊 OceanBase — распределённая СУБД от Ant Group с поддержкой векторного поиска. Это необычная opensource-база данных, сочетающая реляционную модель с возможностями векторного поиска для AI-сценариев. Изначально создавалась для обработки финансовых транзакций Alibaba, но теперь доступна всем.

OceanBase имеет архитектуру на основе Paxos-протокола, обеспечивающая нулевую потерю данных (RPO=0) и восстановление за 8 секунд. Опробовать её можно в Docker или развернуть кластер в Kubernetes через ob-operator.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

🧠 Хитрая SQL-задача с подвохом: «Найди самого преданного клиента»

У тебя есть таблица purchases со следующей структурой:


purchases (
id SERIAL PRIMARY KEY,
user_id INT,
item_id INT,
amount DECIMAL,
purchase_date DATE
)


Задача: Найти user_id пользователя, который совершал покупки в каждый календарный месяц хотя бы один раз за последние 2 года.

Но есть подвох:

пользователь должен был купить в каждый месяц (например, март 2024, апрель 2024, ..., июль 2025 — всего 24 месяца)

пропуски даже в одном месяце — дисквалификация

использовать GROUP BY, FILTER, GENERATE_SERIES, LEFT JOIN и другие техники разрешено

📌 Подумай:

- как сгенерировать список всех нужных месяцев?

- как сопоставить их с месяцами, в которых были покупки у каждого пользователя?

- как убедиться, что пользователь не пропустил ни одного?

🧩 Подсказка: решение можно построить с generate_series() по месяцам и LEFT JOIN к сгруппированным user_id + month.

@sqlhub

Читать полностью…

Data Science. SQL hub

🍉 WatermelonDB — гибкая база данных для React. Эта СУБД предлагает необычный подход к работе с данными в React-приложениях. Вместо загрузки всей информации при старте, она подгружает только то, что действительно нужно пользователю прямо сейчас.

Инструмент обладает гибридной архитектурой: SQLite на низком уровне обеспечивает надежность, а прослойка на React автоматически обновляет интерфейс при изменениях. Например, новое сообщение в чате мгновенно появится во всех открытых списках без ручного обновления.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

🌺 LotusDB — гибридный key-value движок на Go. Этот проект объединяет лучшее из двух миров — скорость чтения B+-деревьев и эффективность записи LSM-деревьев. Инструмент позиционируется как альтернатива Badger и BBolt, но с меньшими накладными расходами на чтение и дисковое пространство.

Проект поражает простотой интеграции: достаточно импортировать пакет и указать путь для хранения данных. LotusDB активно развивается, а в Slack-чате уже собирается сообщество энтузиастов.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

Не уверены, что у вас на сервере Postgres установлен правильный набор расширений?
Удивляетесь, что сервер ваших коллег умеет больше, чем ваш?

Присоединяйтесь к нашему вебинару «Особенности реализации запросов в PostgreSQL» и узнайте, как сделать все правильно!

Практика: Создание собственных решений на основании самых полезных расширений Postgres, которые ставятся на большинство производственных серверов

📌Регистрируйтесь на урок, чтобы сделать ваш сервер Postgres лучше!
https://tglink.io/96dee17b0f8c?erid=2W5zFHPyF52

#реклама
О рекламодателе

Читать полностью…

Data Science. SQL hub

🌌 SlateDB — хранилище нового поколения, где облако становится диском. Этот проект переосмысливает классические LSM-движки, перенося данные не на локальный SSD, а прямо в объектные хранилища вроде S3 или MinIO. За счет этого SlateDB предлагает почти безграничную емкость и встроенную репликацию, жертвуя лишь долями секунд задержки.

Разработчики добавили множество полезных фич для борьбы с лаг-проблемами: батчинг записей, кэширование блоков и bloom-фильтры превращают работу с облаком в почти локальный опыт. Интеграция через object_store позволяет подключать даже кастомные хранилища.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

🐘 Medoo — минималистичный PHP-фреймворк для работы с базами данных, упакованный в один файл. Этот инструмент особенно понравится тем, кто ценит простоту: подключение к MySQL, PostgreSQL или SQLite требует всего несколько строк кода, а синтаксис напоминает обычный массив PHP.

Несмотря на лёгкость, фреймворк умеет строить сложные запросы, защищает от SQL-инъекций и работает с Laravel, Yii и другими популярными фреймворками. Установка через Composer занимает секунды, а MIT-лицензия позволяет использовать его даже в коммерческих проектах.

🤖 GitHub

@sqlhub

Читать полностью…

Data Science. SQL hub

⚡️Качество данных: почему это также важно для аналитика как Python и SQL

Аналитик данных — это специалист, который добывает ценную информацию из достоверных данных, чтобы бизнес мог принимать обоснованные решения.
Для этого используются те же инструменты, что и для самого анализа — Python, SQL, математическая статистика и автоматизация процессов.

Присоединяйтесь к нашему вебинару, где разберём:
🟠Как качество данных влияет на принятие решений и карьеру аналитика;
🟠Метрики качества данных: актуальность, допустимость, полнота и другие;
🟠Частые причины проблем с качеством данных;
🟠Методы повышения качества данных: определение требований к КД, мониторинг КД, решение инцидентов.

Спикер: Павел Беляев, руководитель группы дата-аналитиков в компании Яндекс eLama.

📅 Встречаемся 24 июня в 18:30 по МСК

😶Зарегистрироваться на бесплатный вебинар

Читать полностью…

Data Science. SQL hub

От аналитики до AI — онлайн-магистратура УрФУ

Спрогнозировать погоду, диагностировать болезни по снимкам или создать умную рекомендательную систему — для ML-инженеров нет ничего невозможного. Онлайн-магистратура УрФУ и Нетологии «Инженерия машинного обучения» поможет освоить востребованную профессию.

За 2 года обучения вы:
— Освоите создание ML-моделей и автоматизацию процессов;
— Научитесь работать с Big Data, проектировать архитектуру для хранения данных и настраивать ETL-процессы;
— Получите практический опыт на реальных проектах, сможете участвовать в Kaggle-соревнованиях и хакатонах;
— Пройдёте полный цикл разработки систем ИИ — от математических основ до продакшена;
— Получите два диплома: государственного образца от УрФУ и дополнительный от Нетологии.

Гибкий онлайн-формат обучения позволит совмещать учёбу с работой, а карьеру строить уже во время магистратуры.
👉 Подробнее о магистратуре - https://netolo.gy/ef2e

Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5wX4r9v

Читать полностью…

Data Science. SQL hub

🧠 Как оценивать качество RAG-систем: метрики и MLflow в действии

Retrieval-Augmented Generation (RAG) — мощная архитектура, но её тонко настраивать сложно. Ответы могут казаться "разумными", даже если они на самом деле некорректны. Как понять, работает ли ваша система так, как надо?

В свежем гайде от CodeCut показано, как системно оценивать качество RAG-моделей, а не надеяться на «на глаз»:

🔹 Метрики качества:
- Context Precision / Recall — насколько релевантны и достаточны извлечённые документы
- Faithfulness — насколько ответ действительно основан на контексте, а не «галлюцинирует»
- Answer Relevance — насколько сам ответ полезен и по теме

🔹 Интеграция с MLflow:
Можно логировать не только метрики, но и:
- Извлечённые документы
- Ответы модели
- Ground truth (если есть)
- Скриншоты или HTML-рендеринг всей цепочки

🔹 Автоматическая разметка:
Используется GPT/Claude для автоматического суждения о faithfulness и relevance — удобно при отсутствии human-annotators.


📌 Вывод:
Если вы строите RAG-решения, важно думать не только о качестве retrieval и LLM по отдельности, но и о том, как оценивать весь pipeline.

Метрики + MLflow дают структуру, чтобы сравнивать улучшения и принимать обоснованные решения.


#RAG #MLflow #LLM #Evaluation #AIProduct

@sqlhub

Читать полностью…

Data Science. SQL hub

🛠️ AI + SQL = мгновенный доступ к данным в базе

На картинке — простой пример, как с помощью FastMCP и SQLAlchemy можно подключить инструмент к базе данных, который по человеческому запросу выводит список всех таблиц.

📦 Что происходит:
1. Человек пишет: *"Show me all tables in the ecommerce database"*
2. AI вызывает list_tables(), получает список через SQLAlchemy
3. Возвращается JSON и сгенерированный ответ на естественном языке

⚙️ Используемые технологии:
- FastMCP — для регистрации инструментов и взаимодействия с агентами
- @mcp.tool — декоратор, позволяющий превращать функции в доступные действия для ИИ
- inspect() из SQLAlchemy — безопасный способ получить метаданные БД

🧠 Это база для создания умных ботов-помощников, которые умеют работать с реальными базами данных и выдавать ответы, понятные человеку.

Интерфейс будущего уже здесь — не SQL-запрос, а обычный вопрос на английском.

@sqlhub

Читать полностью…

Data Science. SQL hub

▶️ Для Claude Code выпустили фреймворк, который превращает одну нейросеть в полноценную команду ИИ-разработчиков.

Система готова из коробки и может сразу писать проекты любой сложности.

Что внутри:

• ИИ-агенты с разными ролями — один пишет код, другой проверяет, третий ищет уязвимости и передаёт задачи дальше по цепочке
• Генератор структуры проекта — помогает агентам понимать архитектуру и держать весь контекст
• Интеграция с MCP — ИИ использует только актуальные спецификации и документацию

🔧 Установка и подробности — по ссылке: https://github.com/peterkrueck/Claude-Code-Development-Kit

Читать полностью…

Data Science. SQL hub

🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней

У вас есть таблица purchases:


purchases (
id SERIAL PRIMARY KEY,
customer_id INT,
purchase_date DATE,
amount NUMERIC
)


Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.

Показать:

- customer_id
- first_purchase_date
- second_purchase_date

✅ Решение:


WITH ordered_purchases AS (
SELECT
customer_id,
purchase_date,
ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
FROM purchases
),

first_second_purchases AS (
SELECT
p1.customer_id,
p1.purchase_date AS first_purchase_date,
p2.purchase_date AS second_purchase_date
FROM ordered_purchases p1
JOIN ordered_purchases p2
ON p1.customer_id = p2.customer_id
AND p1.rn = 1
AND p2.rn = 2
)

SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';


🔍 Пояснение:

- ROW_NUMBER() присваивает каждой покупке порядковый номер в рамках клиента.
- Через self-join соединяем первую и вторую покупку клиента.
- Далее фильтруем, оставляя только те, у кого вторая покупка была не позднее 7 дней после первой.

⚠️ Важно:

- Клиенты с одной покупкой исключаются — у них нет второй.
- Мы не ищем любые две покупки в пределах 7 дней, а только первую и вторую по порядку.
- INTERVAL '7 days' обеспечивает корректное сравнение дат.

@sqlhub

Читать полностью…

Data Science. SQL hub

🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней

У вас есть таблица purchases:


purchases (
id SERIAL PRIMARY KEY,
customer_id INT,
purchase_date DATE,
amount NUMERIC
)


Задача:
Найти всех клиентов, у которых вторая покупка произошла не позднее, чем через 7 дней после первой.

Показать:

- customer_id
- first_purchase_date
- second_purchase_date

✅ Решение:


WITH ordered_purchases AS (
SELECT
customer_id,
purchase_date,
ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
FROM purchases
),

first_second_purchases AS (
SELECT
p1.customer_id,
p1.purchase_date AS first_purchase_date,
p2.purchase_date AS second_purchase_date
FROM ordered_purchases p1
JOIN ordered_purchases p2
ON p1.customer_id = p2.customer_id
AND p1.rn = 1
AND p2.rn = 2
)

SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';


🔍 Пояснение:

- ROW_NUMBER() присваивает каждой покупке номер в пределах одного клиента.
- Мы соединяем первую и вторую покупки клиента через self-join.
- В финальном SELECT фильтруем только те пары, где разница между датами ≤ 7 дней.

⚠️ Важно:

- Клиенты с одной покупкой отфильтруются (у них нет второй).
- Сравнение выполняется через INTERVAL '7 days', чтобы корректно обрабатывать даты.
- Это не поиск любых двух покупок в пределах 7 дней, а именно проверка интервала между первой и второй.

@sqlhub

Читать полностью…

Data Science. SQL hub

⚡Крутейший релиз от Anthropic — парни выпустили собственные бесплатные курсы!

Вы нижете десятки лекций, тесты и даже сертификаты по различным темам: от Anthropic API до MCP и лучших практик Claude Code. Всё с реальными примерами от разработчиков.

Забираем здесь.

Читать полностью…

Data Science. SQL hub

🤖 Reachy Mini — первый доступный робот от Hugging face

Reachy Mini — это выразительный и полностью open-source робот, созданный для взаимодействия с человеком, коммуникации и экспериментов с ИИ.

🧠 Что делает его особенным?
- Все ПО открыто и написано на Python, а скоро будет достнуо — и на JavaScript и Scratch
- Базовая версия стоит $299, еще доступна wireless-версия за $449
- Открытая архитектура и SDK — идеален для экспериментов с LLM, аудио- и визуальными агентами

С ним можно разрабатывать, тестировать, запускать и делиться реальными ИИ-приложениями — на базе современных LLM-моделей.

Технические характеристики

- Высота: 28 см, в режиме сна — 23 см
- Ширина: 16 см, вес: 1.5 кг
- Поставляется в виде конструктора:
- Lite-версия — базовый функционал
- Полноценная версия — автономная версия с Raspberry 5 внутри, встроенным питанием, Wi‑Fi, микрофонами и камерой

🎤 Датчики и интерфейсы
- Микрофоны: Lite — 2, Wireless — 4 встроенных микрофонов
hyper.ai
- Камера: широкоугольная фронтальная камера (в wireless-версии)
- Акселерометр: встроен в Wireless-версию

🔗 Подробнее: http://hf.co/blog/reachy-mini

@ai_machinelearning_big_data

#huggingface #Reachy #opensource #Python

Читать полностью…

Data Science. SQL hub

🧠 MCP сервер для баз данных от Google

Он выступает прослойкой между вашим агентом (например, LangChain, LlamaIndex, VertexAI) и базой данных, упрощая работу с базой, подключение, управление, безопасность и мониторинг.,

Подходит для разработки AI-агентов, которые могут создавать и управлять в реальными БД.

Особенности:
✔️ Подключение к БД за < 10 строк Python
✔️ Встроенный pooling и аутентификация
✔️ Простая интеграция в агентов (LangChain, Autogen, и т.д.)
✔️100% open-source
✔️Поддержка разных БД: PostgreSQL, MySQL, SQLite, SQL Server, AlloyDB, Cloud SQL, Spanner, BigQuery, Bigtable, Couchbase, Dgraph, Redis, Neo4j и др.
✔️Удобная конфигурация : простой синтаксис YAML для описания функций и запросов.


Если делаете агентов, которые работают с SQL/PostgreSQL/MySQL — точно стоит попробовать.

GitHub: https://github.com/googleapis/genai-toolbox

@ai_machinelearning_big_data


#AI #ML #aiagent #opensource #MCP #databases #genai

Читать полностью…

Data Science. SQL hub

⚡️ Почему лучшие разработчики всегда на шаг впереди?

Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.

ИИ: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Мл собес t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
МЛ: t.me/machinelearning_ru
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/java_library
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Физика: t.me/fizmat
SQL: t.me/databases_tg

Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🖥 Chatgpt для кода в тг: @Chatgpturbobot

📕Ит-книги: /channel/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.me/addlist/_zyy_jQ_QUsyM2Vi

Подпишись, чтобы всегда знать, куда двигаться дальше!

Читать полностью…

Data Science. SQL hub

«Идейные победят наёмников» — Альтмана снова качает

Пока Альтман рассказывает сотрудникам OpenAI, что "важны идеи, а не деньги", рынок переманивает его ключевых ресерчеров пачками. Гонка за мозги выглядит всё жёстче — и всё прозрачнее.

🚀 Цукерберг собрал новое AGI-подразделение: 12 человек, многие из которых — бывшие сотрудники OpenAI.
Из них 8 — с азиатскими фамилиями. Совпадение? Вряд ли.

💰 Инсайды про $100M signing bonus пока разнятся: то ли вброс, то ли реальность. Но для контекста:
CEO Apple и Microsoft за 2024 получили меньше $80 млн за весь год.

📊 Конкуренты тоже не дремлют:
- Thinking Machines Миры Мурати — $500K+ в год
- Anthropic — $400K
- OpenAI — $300K, но “с душой”

Вчера Альтман заявил команде, что "идейные победят наёмников". Похоже, он всё ещё не понял, как работает рынок, особенно когда GPU у Су и Хуанга раскупаются быстрее, чем стартапы успевают написать README.

🔥 Сегодняшняя гонка AGI — это не просто про интеллект. Это про то, кто сможет купить больше китайских исследователей, больше графических карт и времени больше не терять.

🐉 Китайцы в Китае уже почти догнали китайцев в США.

@sqlhub

Читать полностью…

Data Science. SQL hub

🐳 Oracle Database 23.8 Free: мультиплатформенные контейнеры уже доступны!

Gerald Venzl сообщил, что новые образы Oracle Database 23.8 Free теперь доступны на Docker Hub и GitHub Container Registry:

- docker.io/gvenzl/oracle-free
- ghcr.io/gvenzl/oracle-free

💡 Что нового:

✅ Автоплаг PDB:
Если вы заранее подготовили .pdb`-файлы, просто поместите их в `/pdb-plug и укажите нужные имена через переменную ORACLE_DATABASE. Контейнер сам подключит их как полноценные базы, минуя процесс создания с нуля.

✅ Новый механизм healthcheck-кодов:
Контейнер теперь возвращает коды от 0 до 5, показывая текущую стадию запуска:
- 0 — база данных полностью готова
- 1 — база ещё не готова
- 2 — контейнер инициализируется
- 3 — происходит подключение/создание PDB
- 4 — выполняются init-скрипты
- 5 — выполняются пользовательские startup-скрипты

✅ Новые возможности в самой Oracle Database 23.8:
- Поддержка векторных операций и пользовательских функций расстояния
- Расширенная работа с JSON-типами и массивами
- Dynamic Statistics для PL/SQL
- Elastic Vector Memory
- Ограниченное выполнение JavaScript в БД (Restricted Execution Contexts)

📦 Пример запуска:


docker pull gvenzl/oracle-free:23.8-full
docker run --name oracle \
-e ORACLE_DATABASE="mydb" \
-v $(pwd)/mydb.pdb:/pdb-plug/mydb.pdb \
gvenzl/oracle-free:23.8-full


📌 Подробнее

@sqlhub

Читать полностью…

Data Science. SQL hub

Customer Orders — пример схемы базы данных от Oracle

Примерная схема Customer Orders (CO) моделирует систему управления заказами в розничной торговле. Подходит для обучения, тестов и демонстрации возможностей Oracle Database.

🔹 Основные особенности:
• Хранение товаров с описанием в JSON
• Учёт заказов, клиентов, магазинов и отправок
• Поддержка офлайн и онлайн-продаж
• Использование современных SQL-возможностей

🔹 Таблицы:
products — товары, цены, JSON-описание и изображения
customers — покупатели с ID, именем и email
orders — заказы с датой, статусом и привязкой к магазину
order_items — позиции в заказе, количество, цена, доставка
stores — физические и онлайн-точки продаж
shipments — информация об отправке товара

📦 Схема отражает типичный розничный бизнес-процесс и показывает, как можно сочетать структурированные данные и JSON в Oracle DB.

📌 Github

@sqlhub

Читать полностью…

Data Science. SQL hub

🧠 Oracle SQL — продвинутый приём: `MERGE` вместо `UPDATE` + `INSERT`

Если ты сначала пытаешься обновить строку, а если её нет — вставляешь новую, не пиши две команды. Используй MERGE — это быстрее, чище и атомарно.

🔧 Пример:


MERGE INTO employees e
USING (SELECT 101 AS emp_id, 'Alice' AS name FROM dual) src
ON (e.emp_id = src.emp_id)
WHEN MATCHED THEN
UPDATE SET e.name = src.name
WHEN NOT MATCHED THEN
INSERT (emp_id, name)
VALUES (src.emp_id, src.name);


📌 Что делает:
• Ищет по ключу (`ON`)
• Если запись есть — обновляет
• Если нет — вставляет
• Всё за один проход, без гонок и лишних проверок

⚡ Почему это важно:
• Меньше round-trip'ов между приложением и БД
• Атомарная логика — MERGE гарантирует целостность
• Лучше подходит для ETL, синхронизации, загрузки внешних данных

🧠 Вывод: если пишешь IF EXISTS THEN UPDATE ELSE INSERT — ты уже проиграл.
Пиши MERGE, и база всё сделает за тебя.

Читать полностью…

Data Science. SQL hub

🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень

Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).

Вот как это работает и почему важно:
Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными

Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.

“Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения

Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей

Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений

Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами

• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры


Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.


Blog post: https://hkunlp.github.io/blog/2025/Polaris
Model: https://huggingface.co/POLARIS-Project
Code: https://github.com/ChenxinAn-fdu/POLARIS
Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1

@ai_machinelearning_big_data

#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM

Читать полностью…
Subscribe to a channel