36043
По всем вопросам- @workakkk @itchannels_telegram - 🔥лучшие ит-каналы @ai_machinelearning_big_data - Machine learning @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚 РКН: https://vk.cc/cIi9vo
🚀 Amazon запускает S3 Vectors — и это может перевернуть рынок векторных БД
На первый взгляд — просто новый сервис. На деле — возможно, главная новость для AI-инфраструктуры в 2024.
Когда Amazon представил S3 в 2006, он навсегда изменил подход к хранению данных: больше не нужно думать о дисках — только API и бесконечное масштабирование. S3 Vectors может сделать то же самое с векторными БД.
💡 Почему это важно
1️⃣ Резкое удешевление
- $0.06/GB за хранение, $0.004/TB за запросы
- В 10–400 раз дешевле, чем популярные векторные хостинги
- Подходит для стартапов, особенно с бесплатными AWS-кредитами
2️⃣ Масштабируемость без DevOps
- Храни миллиарды векторов
- Запросы — за сотни миллисекунд
- Без серверов: просто создаёшь *vector bucket* и используешь API
3️⃣ Глубокая интеграция с AWS-экосистемой
- Bedrock (RAG-приложения)
- OpenSearch (tiered storage)
- SageMaker и другие сервисы
- Всё подключается "из коробки"
🛠️ Что можно делать
- Масштабируемый RAG с низкой ценой
- Поиск по смыслу в документах, видео, медизображениях, коду
- Долгосрочная память для AI-агентов
- Семантический корпоративный поиск
📈 Сообщество уже тестирует: среднее время запроса — ~250 мс. Preview-доступ открыт в регионах US East/West, Frankfurt и Sydney.
🔗 https://aws.amazon.com/blogs/aws/introducing-amazon-s3-vectors-first-cloud-storage-with-native-vector-support-at-scale/
Если пробуете — делитесь результатами. Это может быть началом нового стандарта.
@sqlhub
Огромная Python-шпаргалка с удобной навигацией!
В репозитории собраны шпаргалки (на русском) по Python и не только, разделённые по категориям. Каждая ссылка ведёт к PDF с нужной темой.
🗂 Кроме Python, есть материалы по Git, CORS, Docker, API, SQL, CI/CD, Kubernetes и другим темам разработки.
👉 https://github.com/Dv-nn/Cheat-Sheet-Python
#Python #Программирование #Шпаргалки
@sqlhub
🧠 Исследователь OpenAI Ноам Браун заявил:
"Все эти модные AI-системы с роутерами, обвязками и агентами смоет масштабом.
Будущее — за моделями, которые просто работают хорошо из коробки."
Что это значит?
▪ GPT‑5, похоже, не будет использовать роутеры — то есть, не будет выбирать отдельную подмодель под каждый запрос.
▪ Вместо этого — одна большая универсальная модель, способная справляться со всем сразу.
Но возникает важный вопрос:
Как они собираются держать цену инференса низкой?
Без роутера даже на простой вопрос будет отвечать вся огромная модель — это дорого.
Если OpenAI реально решила эту задачу, это будет революция:
▪ Без костылей
▪ Без сборок из агентов
▪ Просто умная, быстрая и универсальная модель
Следим внимательно. Это может многое изменить.
🔥 Китай выпускает новую опенсорс модель: Kimi K2 — llm уровня Claude 4, которая обходит DeepSeek v3, Qwen и даже GPT-4.1
Размер — 1 триллион параметров, при этом:
📊 В бенчмарках:
- 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1
- Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам
- Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны.
Также доступна через API:
- $0.15 за миллион входных токенов (при попадании в кэш)
- $0.60 за миллион входных токенов (если кэш не сработал)
- $2.50 за миллион выходных токенов
Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro!
🟡 Github
@ai_machinelearning_big_data
#kimi #china #llm #ml #ai
🔥 Дата-инженеры, встречаемся на митапе ЮMoney
Приходите на митап High SQL — он пройдёт 15 июля в 19:00 (по мск) офлайн в Санкт-Петербурге и онлайн из любой точки мира. Вот о чём поговорим со спикерами из ЮMoney и приглашённым экспертом Дмитрием Аношиным:
🟣101 Performance Tuning: невредные советы. Проверяем и анализируем самые популярные советы по оптимизации хранилищ на основе реляционных баз данных.
🟣Качество данных: от осознания до реализации. Если вы тоже сталкивались с ошибками в отчётах, дублированием данных и недоверием к аналитике, этот доклад для вас.
🟣Обзор фреймворка DBT и примеры его использования. Почему он стал таким популярным? Рассмотрим основные возможности DBT, альтернативы и как DBT используют в дата-командах.
✅ Участие бесплатное, но нужно зарегистрироваться на сайте.
Курс с углублённым изучением профессии аналитика данных.
Станьте незаменимым специалистом на рынке труда с курсом от Нетологии.
Преподаватели курса — эксперты из крупных компаний: Сбера, Яндекса, Gett, Работы.ру и других.
Вы изучите:
- продвинутые инструменты — A/B-тестирование, аналитику больших данных, SQL и Python;
- современные российские BI-решения — AW BI и DataLens;
- нейросети, которые можно использовать при анализе.
А ещё все студенты получат доступ к профессиональному комьюнити с еженедельными офлайн и онлайн-митапами. На них разбираем актуальные инструменты и делимся опытом.
До конца июля на курс действует сразу 2 скидки: летняя — 40%, и дополнительная — 10 000 рублей по промокоду DATA10.
➡️ Посмотреть программу курса
Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5wZyTuJ
Как начать в Data Science, когда все вокруг уже сеньоры?
В Вышке открыт набор на онлайн-магистратуру «Магистр по наукам о данных». Поступить можно даже без технического бэкграунда, а учиться — в удобном формате.
Уже сейчас идет марафон подготовки к вступительным испытаниям, после которого вы сможете успешно поступить на программу.
За 4 встречи вы
— Разберетесь в математике
— Попрактикуетесь на задачах вступительных испытаний
— Познакомитесь с преподавателями и магистратурой
— Получите доступ в чат комьюнити
Когда: 9-14 июля, 18:00 (МСК)
Где: онлайн
📎 Зарегистрироваться и начать карьеру в DS
🌊 OceanBase — распределённая СУБД от Ant Group с поддержкой векторного поиска. Это необычная opensource-база данных, сочетающая реляционную модель с возможностями векторного поиска для AI-сценариев. Изначально создавалась для обработки финансовых транзакций Alibaba, но теперь доступна всем.
OceanBase имеет архитектуру на основе Paxos-протокола, обеспечивающая нулевую потерю данных (RPO=0) и восстановление за 8 секунд. Опробовать её можно в Docker или развернуть кластер в Kubernetes через ob-operator.
🤖 GitHub
@sqlhub
🧠 Хитрая SQL-задача с подвохом: «Найди самого преданного клиента»
У тебя есть таблица purchases со следующей структурой:
purchases (
id SERIAL PRIMARY KEY,
user_id INT,
item_id INT,
amount DECIMAL,
purchase_date DATE
)
🍉 WatermelonDB — гибкая база данных для React. Эта СУБД предлагает необычный подход к работе с данными в React-приложениях. Вместо загрузки всей информации при старте, она подгружает только то, что действительно нужно пользователю прямо сейчас.
Инструмент обладает гибридной архитектурой: SQLite на низком уровне обеспечивает надежность, а прослойка на React автоматически обновляет интерфейс при изменениях. Например, новое сообщение в чате мгновенно появится во всех открытых списках без ручного обновления.
🤖 GitHub
@sqlhub
🌺 LotusDB — гибридный key-value движок на Go. Этот проект объединяет лучшее из двух миров — скорость чтения B+-деревьев и эффективность записи LSM-деревьев. Инструмент позиционируется как альтернатива Badger и BBolt, но с меньшими накладными расходами на чтение и дисковое пространство.
Проект поражает простотой интеграции: достаточно импортировать пакет и указать путь для хранения данных. LotusDB активно развивается, а в Slack-чате уже собирается сообщество энтузиастов.
🤖 GitHub
@sqlhub
Не уверены, что у вас на сервере Postgres установлен правильный набор расширений?
Удивляетесь, что сервер ваших коллег умеет больше, чем ваш?
Присоединяйтесь к нашему вебинару «Особенности реализации запросов в PostgreSQL» и узнайте, как сделать все правильно!
✅ Практика: Создание собственных решений на основании самых полезных расширений Postgres, которые ставятся на большинство производственных серверов
📌Регистрируйтесь на урок, чтобы сделать ваш сервер Postgres лучше!
https://tglink.io/96dee17b0f8c?erid=2W5zFHPyF52
#реклама
О рекламодателе
🌌 SlateDB — хранилище нового поколения, где облако становится диском. Этот проект переосмысливает классические LSM-движки, перенося данные не на локальный SSD, а прямо в объектные хранилища вроде S3 или MinIO. За счет этого SlateDB предлагает почти безграничную емкость и встроенную репликацию, жертвуя лишь долями секунд задержки.
Разработчики добавили множество полезных фич для борьбы с лаг-проблемами: батчинг записей, кэширование блоков и bloom-фильтры превращают работу с облаком в почти локальный опыт. Интеграция через object_store позволяет подключать даже кастомные хранилища.
🤖 GitHub
@sqlhub
🐘 Medoo — минималистичный PHP-фреймворк для работы с базами данных, упакованный в один файл. Этот инструмент особенно понравится тем, кто ценит простоту: подключение к MySQL, PostgreSQL или SQLite требует всего несколько строк кода, а синтаксис напоминает обычный массив PHP.
Несмотря на лёгкость, фреймворк умеет строить сложные запросы, защищает от SQL-инъекций и работает с Laravel, Yii и другими популярными фреймворками. Установка через Composer занимает секунды, а MIT-лицензия позволяет использовать его даже в коммерческих проектах.
🤖 GitHub
@sqlhub
⚡️Качество данных: почему это также важно для аналитика как Python и SQL
Аналитик данных — это специалист, который добывает ценную информацию из достоверных данных, чтобы бизнес мог принимать обоснованные решения.
Для этого используются те же инструменты, что и для самого анализа — Python, SQL, математическая статистика и автоматизация процессов.
Присоединяйтесь к нашему вебинару, где разберём:
🟠Как качество данных влияет на принятие решений и карьеру аналитика;
🟠Метрики качества данных: актуальность, допустимость, полнота и другие;
🟠Частые причины проблем с качеством данных;
🟠Методы повышения качества данных: определение требований к КД, мониторинг КД, решение инцидентов.
Спикер: Павел Беляев, руководитель группы дата-аналитиков в компании Яндекс eLama.
📅 Встречаемся 24 июня в 18:30 по МСК
😶Зарегистрироваться на бесплатный вебинар
От аналитики до AI — онлайн-магистратура УрФУ
Спрогнозировать погоду, диагностировать болезни по снимкам или создать умную рекомендательную систему — для ML-инженеров нет ничего невозможного. Онлайн-магистратура УрФУ и Нетологии «Инженерия машинного обучения» поможет освоить востребованную профессию.
За 2 года обучения вы:
— Освоите создание ML-моделей и автоматизацию процессов;
— Научитесь работать с Big Data, проектировать архитектуру для хранения данных и настраивать ETL-процессы;
— Получите практический опыт на реальных проектах, сможете участвовать в Kaggle-соревнованиях и хакатонах;
— Пройдёте полный цикл разработки систем ИИ — от математических основ до продакшена;
— Получите два диплома: государственного образца от УрФУ и дополнительный от Нетологии.
Гибкий онлайн-формат обучения позволит совмещать учёбу с работой, а карьеру строить уже во время магистратуры.
👉 Подробнее о магистратуре - https://netolo.gy/ef2e
Реклама. ООО "Нетология". ИНН 7726464125 Erid: 2VSb5wX4r9v
🧠 Как оценивать качество RAG-систем: метрики и MLflow в действии
Retrieval-Augmented Generation (RAG) — мощная архитектура, но её тонко настраивать сложно. Ответы могут казаться "разумными", даже если они на самом деле некорректны. Как понять, работает ли ваша система так, как надо?
В свежем гайде от CodeCut показано, как системно оценивать качество RAG-моделей, а не надеяться на «на глаз»:
🔹 Метрики качества:
- Context Precision / Recall — насколько релевантны и достаточны извлечённые документы
- Faithfulness — насколько ответ действительно основан на контексте, а не «галлюцинирует»
- Answer Relevance — насколько сам ответ полезен и по теме
🔹 Интеграция с MLflow:
Можно логировать не только метрики, но и:
- Извлечённые документы
- Ответы модели
- Ground truth (если есть)
- Скриншоты или HTML-рендеринг всей цепочки
🔹 Автоматическая разметка:
Используется GPT/Claude для автоматического суждения о faithfulness и relevance — удобно при отсутствии human-annotators.
📌 Вывод:
Если вы строите RAG-решения, важно думать не только о качестве retrieval и LLM по отдельности, но и о том, как оценивать весь pipeline.
Метрики + MLflow дают структуру, чтобы сравнивать улучшения и принимать обоснованные решения.
#RAG #MLflow #LLM #Evaluation #AIProduct
@sqlhub
🛠️ AI + SQL = мгновенный доступ к данным в базе
На картинке — простой пример, как с помощью FastMCP и SQLAlchemy можно подключить инструмент к базе данных, который по человеческому запросу выводит список всех таблиц.
📦 Что происходит:
1. Человек пишет: *"Show me all tables in the ecommerce database"*
2. AI вызывает list_tables(), получает список через SQLAlchemy
3. Возвращается JSON и сгенерированный ответ на естественном языке
⚙️ Используемые технологии:
- FastMCP — для регистрации инструментов и взаимодействия с агентами
- @mcp.tool — декоратор, позволяющий превращать функции в доступные действия для ИИ
- inspect() из SQLAlchemy — безопасный способ получить метаданные БД
🧠 Это база для создания умных ботов-помощников, которые умеют работать с реальными базами данных и выдавать ответы, понятные человеку.
Интерфейс будущего уже здесь — не SQL-запрос, а обычный вопрос на английском.
@sqlhub
▶️ Для Claude Code выпустили фреймворк, который превращает одну нейросеть в полноценную команду ИИ-разработчиков.
Система готова из коробки и может сразу писать проекты любой сложности.
Что внутри:
• ИИ-агенты с разными ролями — один пишет код, другой проверяет, третий ищет уязвимости и передаёт задачи дальше по цепочке
• Генератор структуры проекта — помогает агентам понимать архитектуру и держать весь контекст
• Интеграция с MCP — ИИ использует только актуальные спецификации и документацию
🔧 Установка и подробности — по ссылке: https://github.com/peterkrueck/Claude-Code-Development-Kit
🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней
У вас есть таблица purchases:
purchases (
id SERIAL PRIMARY KEY,
customer_id INT,
purchase_date DATE,
amount NUMERIC
)
customer_idfirst_purchase_datesecond_purchase_date
WITH ordered_purchases AS (
SELECT
customer_id,
purchase_date,
ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
FROM purchases
),
first_second_purchases AS (
SELECT
p1.customer_id,
p1.purchase_date AS first_purchase_date,
p2.purchase_date AS second_purchase_date
FROM ordered_purchases p1
JOIN ordered_purchases p2
ON p1.customer_id = p2.customer_id
AND p1.rn = 1
AND p2.rn = 2
)
SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';
ROW_NUMBER() присваивает каждой покупке порядковый номер в рамках клиента.INTERVAL '7 days' обеспечивает корректное сравнение дат.
🧠 Хитрая SQL-задача: вторая покупка в течение 7 дней
У вас есть таблица purchases:
purchases (
id SERIAL PRIMARY KEY,
customer_id INT,
purchase_date DATE,
amount NUMERIC
)
customer_idfirst_purchase_datesecond_purchase_date
WITH ordered_purchases AS (
SELECT
customer_id,
purchase_date,
ROW_NUMBER() OVER (PARTITION BY customer_id ORDER BY purchase_date) AS rn
FROM purchases
),
first_second_purchases AS (
SELECT
p1.customer_id,
p1.purchase_date AS first_purchase_date,
p2.purchase_date AS second_purchase_date
FROM ordered_purchases p1
JOIN ordered_purchases p2
ON p1.customer_id = p2.customer_id
AND p1.rn = 1
AND p2.rn = 2
)
SELECT *
FROM first_second_purchases
WHERE second_purchase_date <= first_purchase_date + INTERVAL '7 days';
ROW_NUMBER() присваивает каждой покупке номер в пределах одного клиента.SELECT фильтруем только те пары, где разница между датами ≤ 7 дней.INTERVAL '7 days', чтобы корректно обрабатывать даты.
⚡Крутейший релиз от Anthropic — парни выпустили собственные бесплатные курсы!
Вы нижете десятки лекций, тесты и даже сертификаты по различным темам: от Anthropic API до MCP и лучших практик Claude Code. Всё с реальными примерами от разработчиков.
Забираем здесь.
🤖 Reachy Mini — первый доступный робот от Hugging face
Reachy Mini — это выразительный и полностью open-source робот, созданный для взаимодействия с человеком, коммуникации и экспериментов с ИИ.
🧠 Что делает его особенным?
- Все ПО открыто и написано на Python, а скоро будет достнуо — и на JavaScript и Scratch
- Базовая версия стоит $299, еще доступна wireless-версия за $449
- Открытая архитектура и SDK — идеален для экспериментов с LLM, аудио- и визуальными агентами
С ним можно разрабатывать, тестировать, запускать и делиться реальными ИИ-приложениями — на базе современных LLM-моделей.
Технические характеристики
- Высота: 28 см, в режиме сна — 23 см
- Ширина: 16 см, вес: 1.5 кг
- Поставляется в виде конструктора:
- Lite-версия — базовый функционал
- Полноценная версия — автономная версия с Raspberry 5 внутри, встроенным питанием, Wi‑Fi, микрофонами и камерой
🎤 Датчики и интерфейсы
- Микрофоны: Lite — 2, Wireless — 4 встроенных микрофонов
hyper.ai
- Камера: широкоугольная фронтальная камера (в wireless-версии)
- Акселерометр: встроен в Wireless-версию
🔗 Подробнее: http://hf.co/blog/reachy-mini
@ai_machinelearning_big_data
#huggingface #Reachy #opensource #Python
🧠 MCP сервер для баз данных от Google
Он выступает прослойкой между вашим агентом (например, LangChain, LlamaIndex, VertexAI) и базой данных, упрощая работу с базой, подключение, управление, безопасность и мониторинг.,
Подходит для разработки AI-агентов, которые могут создавать и управлять в реальными БД.
Особенности:
✔️ Подключение к БД за < 10 строк Python
✔️ Встроенный pooling и аутентификация
✔️ Простая интеграция в агентов (LangChain, Autogen, и т.д.)
✔️100% open-source
✔️Поддержка разных БД: PostgreSQL, MySQL, SQLite, SQL Server, AlloyDB, Cloud SQL, Spanner, BigQuery, Bigtable, Couchbase, Dgraph, Redis, Neo4j и др.
✔️Удобная конфигурация : простой синтаксис YAML для описания функций и запросов.
Если делаете агентов, которые работают с SQL/PostgreSQL/MySQL — точно стоит попробовать.
▪ GitHub: https://github.com/googleapis/genai-toolbox
@ai_machinelearning_big_data
#AI #ML #aiagent #opensource #MCP #databases #genai
⚡️ Почему лучшие разработчики всегда на шаг впереди?
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Мл собес t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
МЛ: t.me/machinelearning_ru
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/java_library
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Физика: t.me/fizmat
SQL: t.me/databases_tg
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🖥 Chatgpt для кода в тг: @Chatgpturbobot
📕Ит-книги: /channel/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.me/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
«Идейные победят наёмников» — Альтмана снова качает
Пока Альтман рассказывает сотрудникам OpenAI, что "важны идеи, а не деньги", рынок переманивает его ключевых ресерчеров пачками. Гонка за мозги выглядит всё жёстче — и всё прозрачнее.
🚀 Цукерберг собрал новое AGI-подразделение: 12 человек, многие из которых — бывшие сотрудники OpenAI.
Из них 8 — с азиатскими фамилиями. Совпадение? Вряд ли.
💰 Инсайды про $100M signing bonus пока разнятся: то ли вброс, то ли реальность. Но для контекста:
CEO Apple и Microsoft за 2024 получили меньше $80 млн за весь год.
📊 Конкуренты тоже не дремлют:
- Thinking Machines Миры Мурати — $500K+ в год
- Anthropic — $400K
- OpenAI — $300K, но “с душой”
Вчера Альтман заявил команде, что "идейные победят наёмников". Похоже, он всё ещё не понял, как работает рынок, особенно когда GPU у Су и Хуанга раскупаются быстрее, чем стартапы успевают написать README.
🔥 Сегодняшняя гонка AGI — это не просто про интеллект. Это про то, кто сможет купить больше китайских исследователей, больше графических карт и времени больше не терять.
🐉 Китайцы в Китае уже почти догнали китайцев в США.
@sqlhub
🐳 Oracle Database 23.8 Free: мультиплатформенные контейнеры уже доступны!
Gerald Venzl сообщил, что новые образы Oracle Database 23.8 Free теперь доступны на Docker Hub и GitHub Container Registry:
- docker.io/gvenzl/oracle-free
- ghcr.io/gvenzl/oracle-free
💡 Что нового:
✅ Автоплаг PDB:
Если вы заранее подготовили .pdb`-файлы, просто поместите их в `/pdb-plug и укажите нужные имена через переменную ORACLE_DATABASE. Контейнер сам подключит их как полноценные базы, минуя процесс создания с нуля.
✅ Новый механизм healthcheck-кодов:
Контейнер теперь возвращает коды от 0 до 5, показывая текущую стадию запуска:
- 0 — база данных полностью готова
- 1 — база ещё не готова
- 2 — контейнер инициализируется
- 3 — происходит подключение/создание PDB
- 4 — выполняются init-скрипты
- 5 — выполняются пользовательские startup-скрипты
✅ Новые возможности в самой Oracle Database 23.8:
- Поддержка векторных операций и пользовательских функций расстояния
- Расширенная работа с JSON-типами и массивами
- Dynamic Statistics для PL/SQL
- Elastic Vector Memory
- Ограниченное выполнение JavaScript в БД (Restricted Execution Contexts)
📦 Пример запуска:
docker pull gvenzl/oracle-free:23.8-full
docker run --name oracle \
-e ORACLE_DATABASE="mydb" \
-v $(pwd)/mydb.pdb:/pdb-plug/mydb.pdb \
gvenzl/oracle-free:23.8-full
Customer Orders — пример схемы базы данных от Oracle
Примерная схема Customer Orders (CO) моделирует систему управления заказами в розничной торговле. Подходит для обучения, тестов и демонстрации возможностей Oracle Database.
🔹 Основные особенности:
• Хранение товаров с описанием в JSON
• Учёт заказов, клиентов, магазинов и отправок
• Поддержка офлайн и онлайн-продаж
• Использование современных SQL-возможностей
🔹 Таблицы:
• products — товары, цены, JSON-описание и изображения
• customers — покупатели с ID, именем и email
• orders — заказы с датой, статусом и привязкой к магазину
• order_items — позиции в заказе, количество, цена, доставка
• stores — физические и онлайн-точки продаж
• shipments — информация об отправке товара
📦 Схема отражает типичный розничный бизнес-процесс и показывает, как можно сочетать структурированные данные и JSON в Oracle DB.
📌 Github
@sqlhub
🧠 Oracle SQL — продвинутый приём: `MERGE` вместо `UPDATE` + `INSERT`
Если ты сначала пытаешься обновить строку, а если её нет — вставляешь новую, не пиши две команды. Используй MERGE — это быстрее, чище и атомарно.
🔧 Пример:
MERGE INTO employees e
USING (SELECT 101 AS emp_id, 'Alice' AS name FROM dual) src
ON (e.emp_id = src.emp_id)
WHEN MATCHED THEN
UPDATE SET e.name = src.name
WHEN NOT MATCHED THEN
INSERT (emp_id, name)
VALUES (src.emp_id, src.name);
MERGE гарантирует целостность IF EXISTS THEN UPDATE ELSE INSERT — ты уже проиграл. MERGE, и база всё сделает за тебя.
Читать полностью…
🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM