rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

Короче я все понял, как надо хайповать в Linkedin.

Вот вам мой Playbook.

Сценарий 1 - я пишу, что AI заменит всех вендоров и что код писать больше не надо. Ко мне сразу бежит народ доказывать, что я ничего не понимаю (мягко сказано) и начинают говорить как нужно. (У меня мысль всегда одна, если ты такой умный, то чего такой бедный🤑)

Сценарий 2 - тегаем Зака 🤴, говорим, что он красавчик, дописываем пару своих мыслей, НО не добавляем ссылку на его пост. Все начинают переживать, как же так, я цитирую самого Зака но ссылку не добавил…Потом приходит Зак и говорит, что надо бы ссылку добавить… Я ссылку добавляю и отвечаю на 40 комментариев. Мир LinkedIn спасен!


Охваты, лайки, шеры и тп. Вот это я понимаю шоу бизнес. А писать умные вещи про архитектуры, дизайны это все сложно и лениво.

Я это еще понял, когда на яхте (не в ту дверь вошел) кружок записал, надо больше 💅 наваливать, тогда все будет! 🔥

Читать полностью…

Инжиниринг Данных

Databricks is no longer about tuning knobs - отличную тему поднял Zach. Это тот Зак, который уже млн 3$ заработал на курсах по Data Engineering. Его bootcamp стоит 1500$ с носа + подписка и онлайн курсы. Вот что значит есть аудитория.

Зак утверждает, что Databricks постепенно отходит от дата-инженеров в сторону аналитиков и менее технических пользователей. Три ключевых аргумента:

Физическое моделирование данных больше не нужно — Databricks заменил ручное партиционирование, сортировку и бакетирование автоматическими инструментами (Liquid Clustering, Predictive Optimization), лишив инженеров контроля.

Покупка Tabular за $1B+ замедлила развитие Iceberg — управляемые Iceberg-таблицы в Databricks урезаны: нет скрытого партиционирования, ручной компактификации файлов, управления снапшотами. Всё подталкивает к «магии Databricks» вместо явного контроля.

Бизнесу не нужны дата-инженеры — ему нужен результат — компании хотят быстрые дашборды, работающие модели и дешёвые пайплайны, а не споры о стратегиях партиционирования. AI + платформа заменяют дорогих специалистов.

Вывод: рынок вознаграждает абстракцию, а не контроль. Маятник качнулся в сторону аналитиков, близких к бизнесу, а экспертам по распределённым системам становится всё сложнее найти своё место.

Про iceberg и Tabular реально обидно. Вообще, все используют Delta на Databricks и не сильно заморачиваются про Iceberg.

Я тоже считаю, что учиться надо на реальных вещах - партиции, компрессия и тп. Это классно, когда вендор может сделать magic, но лучше понимать, что происходит под капотом.

На собеседовании вас это именно и спросят.

Читать полностью…

Инжиниринг Данных

Сейчас мой типичный workflow выглядит так:

1. У меня появляется вопрос или идея
2. Я открываю Claude Code CLI
3. Прошу сделать research на заданную тему и сохранить в Markdown
4. Открываю Google Doc -> Paste from Markdown
И получаю хороший документ.

Я скидывал про курс по Claude Code, которого будет достаточно, чтобы начать и привыкнуть к CLI и интерфейсу.

Сегодня посмотрел очень хорошее видео - How I use Claude Code (Meta Staff Engineer Tips), там 50 tips по использованию Claude Code в CLI, многие достаточно удобные и полезные. Очень рекомендую.

PS Не знаю это хорошо или плохо, но я написал 0 строчек кода с начала года. Будем считать, что иду в ногу со временем. И даже PR я уже сам не делаю, использую CLI утилитку gh для GitHub. Она может и PR писать, и GitHub Actions запускать. У каждого инструмента есть свой CLI.

А что мне остается?
• Архитектура решения
• Принятия решения
• Выбор инструментов
• Создание framework/pattern, в котором AI агент может делать простые задачки

Поэтому инвестиция в Claude Code это прям лучшая трата денег.

Хотя есть одна область, где прям совсем все плохо - попросил придумать MonteCarlo Monitors (проверка качества данных) - тут очевидно все плохо, не может понять, что проверять, зачем и как. Да я и сам не знаю.

PPS Общался с руководителем аналитики в РФ компании, он всем своим аналитикам оплачивает Claude Code. Раньше был Cursor, но переехали. Вот это уровень!


Чтобы учиться, я тоже теперь использую Claude Code. Например, хочу сделать проекты по Kafka/Flink и тп. Попросил Claude Code создать курс end-to-end. Очевидно, будет много проблем, но походу прохождения курса, все проблемы решаться.

Читать полностью…

Инжиниринг Данных

Пример сравнения платформа данных в РФ. Насколько соответствует действительности?

Читать полностью…

Инжиниринг Данных

Замечательно, согласно мужичкам из All-In подкаста, уже сейчас токены становятся дороже инженеров. Они сжигаются очень быстро и очень много, а результат не всегда предсказуемый и правильный. Хотя сейчас в целом мало кто пользуется агентами, в основном инженеры, но не большинство.

Дополнительно AI агенты едят токены сами по себе на разных псевдо полезных интеграциях.

Прямо сейчас у меня открыт AI gateway Requestly.io который пропускает весь трафик Claude code и считает токены, заодно хранит мою переписку с AI (менеджерам на заметку).

И я вижу сколько долларов я сжег пока гонял Get Shit Done из прошлого поста, чтобы придумать как заменить Montecarlo из позапрошлого поста💰

Пора пойти сделать, что-то полезное за день🎮

Читать полностью…

Инжиниринг Данных

В последние несколько дней мне попались несколько интересных примеров/вопросов, которые могут возникнуть в любой компании.

1️⃣ Мы платим Montecarlo 100k$ в год за всякие data quality, observability. Dbt tests не работают, так как нужен UI, чтобы не технические пользователи смогли сами все сделать. Нужно взять Claude Code и создать агентов, чтобы они сами все проверяли и писали SQL и если нужно, можно это все где-то хостить и добавить красивый UI.

Я подумал, ну реально дураки, платят 100к в год вендору, а Claude Code все на раз-два завайбкодит. Заодно можно попросить отвайбкодить Snowflake, HighTouch, Airflow, Fivetran и другое=)

В этой ситуации видны хотелки менеджеров. Вам Claude, не чтобы за вас работу делать, а чтобы вы заменили вендоров. Это же AI, он все может….


2️⃣ PM кто кайфует от Claude Code и уже сам может делать end-to-end одноразовые дашборды поверх google sheets, заявил, что нам бы надо использовать Make .com или Zappier .com, чтобы накрутить всякие там автоматизации, и все быстренько работало, но то есть куяк-куяк и в продакшн, то есть надо быть AI-first + serverless. А я вот со своим традиционным дата инжинирингом замедляю прогресс.

А то, что половина его хотелок уже давно в дашбордах, это уже не принципиально. Негоже современному продукт менеджеру пользоваться технологиями из прошлого.

И вот непонятно, неужели data engineering уже такой bottle neck для бизнеса. По мне чувак вообще одноразовую фигню какую-то придумал.

3️⃣Последний пример был не про AI, и он больше как открытый вопрос. Возьмем любой стартап, у кого еще аналитика в начальной стадии. Как бы я сделал - добавил Airflow, dbt и там уже по ходу смотрел, где чего добавить. Все просто и понятно, любой человек без опыта научится за несколько месяцев.

Но у этой истории есть альтернатива - взять managed Kubernetes на облаке и туда вставить open source Kafka и все остальное, чтобы данные летали в real time, и все было по взрослому и на долгую перспективу. Нужно или не нужно это не самое главное, главное, что теоретически в будущем когда компания вырастит, будет круто иметь все в real-time и можно всякие интеграции бизнесовые делать.

Этот кейс интересный, ведь когда компания выбирает для себя путь, особенно если у нее есть возможность использовать западный стек, от первоначального выбора будет зависеть очень много.

Мой подход был всегда использовать такие решения для конкретных кейсов, но технически реально сразу его использовать для всего, только вопрос, стоит ли это того или нет.

Читать полностью…

Инжиниринг Данных

Заметил как народ сейчас начал активно впаривать курсы по Claude Code и AI разработке за дорого и решил сделать бесплатный курс и добавил на dataengineer.ru - Claude Code 101

Так как проект dataengineer.ru сидит в GitHub repo, то он полностью открыт и можно вносить изменения в курс всем желающим.

Курс получился простой и легкий. Последняя глава про возможность использовать Claude Code с бесплатными моделями. Я сам так не делал, но поискал информацию про это.

Читать полностью…

Инжиниринг Данных

А вот мой Fivetran - 20 аквтиных подключений и пример Snowflake (январь 2026), который еще не только обрабатывает Fivetran 20 источников, а еще есть Azure Data Factory и там очень много данных из Azure SQL и CosmosDB.

Это лишь один из Fivetran и Snowflake, просто тут я знаю всю от и до.

Перекинуть все на dlt или даже написать Python можно, но это время и никак не повлияет на меня.

Главное преимущество Fivetran - это сервис. Он сам все делает, я вообще туда не захожу.

С Airbyte и Meltano OS я работал, это было вечное ковыряние в коде и куча багов (еще до AI мира).

Читать полностью…

Инжиниринг Данных

На OpenClaw я не решился из-за безопасности и решил по старинке N8N.

Теперь-то можно все на outsource отдавать агентам.

Как в песне - Не могу остановиться.

Читать полностью…

Инжиниринг Данных

Ну вы поняли ;)

#aidev

Читать полностью…

Инжиниринг Данных

А как у всех настрой с мессенджером MAX? 😫

/channel/groks/4932

Читать полностью…

Инжиниринг Данных

Автор известного блога про AI factory - Gas Town (не путать с районом Ванкувера) написал книгу Vibe Coding.

«Vibe Coding» — Стив Йегге и Джин Ким

Книга о том, как генеративный ИИ радикально меняет разработку ПО. Авторы — ветераны индустрии (Йегге работал в Google, Amazon; Ким — автор бестселлера The Phoenix Project) — описывают новый подход, при котором программист не пишет код вручную, а описывает свои намерения ИИ-помощнику и наблюдает, как тот генерирует результат.

Ключевые идеи:
• Вместо синтаксиса — намерение. Разработка превращается в диалог с ИИ: вы объясняете, что хотите, а не как это реализовать.
• Кратный рост продуктивности. Один человек может делать то, для чего раньше требовалась целая команда.
• Свобода от ограничений. Можно уверенно работать с незнакомыми языками и фреймворками.
• Качество сохраняется. Авторы дают практические стратегии, как применять подход и на маленьких проектах, и в масштабах предприятия, не жертвуя инженерной культурой.

Для кого:
• Опытные разработчики, желающие не отстать от ИИ-революции
• Технические лидеры, ведущие команды через трансформацию
• Бывшие программисты, возвращающиеся в профессию
• Новички в разработке

Главный посыл: вайб-кодинг — самый большой сдвиг в индустрии со времён интернета, и книга служит практическим руководством, чтобы в нём преуспеть.


Так же он встретился с Pragmatic Engineer, где обсудили влияние AI на инженеров:

1. Конец ручного кодирования и S-кривая
Йегге признаёт, что поначалу был скептиком, но после знакомства с Claude Code полностью изменил мнение. Он убеждён, что индустрия находится на крутом участке экспоненциальной кривой, и каждая новая модель значительно превосходит предыдущую. Цикл выхода моделей сократился с ~4 месяцев до ~2.

2. «Ручка на 50%» — массовые сокращения
Йегге предсказывает, что крупные компании уволят до 50% инженеров, чтобы оплатить ИИ-инструменты для оставшихся. Это будет масштабнее, чем сокращения эпохи пандемии. При этом снизу будет расти волна инноваций от маленьких ИИ-усиленных команд.

3. Восемь уровней принятия ИИ
Йегге описывает спектр — от «без ИИ» (уровень 1) до «строишь собственный оркестратор агентов» (уровень 8). Промежуточные этапы: использование агента в IDE → режим YOLO → отказ от ревью диффов → работа с несколькими агентами параллельно → 10+ агентов вручную.

4. «Эффект Дракулы» — истощение от ИИ
Вайб-кодинг на полной скорости физически выматывает. Йегге и его знакомые стартаперы начали засыпать днём. Его вывод: от инженера разумно ожидать не более 3 часов продуктивной работы с ИИ в день — но эти 3 часа дают в 100 раз больше результата.
5. Крупные компании обречены
Инновации в больших корпорациях фактически мертвы — они не могут «переварить» возросшую продуктивность инженеров. Настоящие прорывы будут приходить от маленьких команд, как это было с появлением облаков. Крупные компании — «уже мертвы, просто ещё не знают об этом».
6. Ценности, которые устарели
«Инженеры — особенные» — больше не работает. Умение писать код вручную перестало быть уникальным навыком, потому что ИИ делает это за нас. Но спрос на софт будет только расти, а роль инженера смещается к сотворчеству с ИИ.

Главный посыл: ИИ — не замена инженерам, а усиление. Но те, кто застрянет на нижних уровнях принятия, рискуют остаться за бортом.

PS ну все, вы в теме всего движа в AI разработке ;)

Читать полностью…

Инжиниринг Данных

Написал про самый простой и самый популярный стек для Северной Америки, где SR DE получают по 200к$ (без шуток)

https://blog.surfalytics.com/p/your-first-data-engineering-project

Этим мы и пользуемся в Surfalytics🏴‍☠️

Читать полностью…

Инжиниринг Данных

Снова инсайты про зарплаты.

Неизвестный банк ищет CDO с зп от 600т рублей. То есть человека, который будет сидеть на митингах, поддерживать tech debt и legacy, нанимать инженеров и аналитиков за 200т и тп.

Зарплата говорит о многом, если компания экономит на сотрудниках, то она экономит на всем и всех и скорей всего коллектив токсичный. По крайней мере так 100% в Северной Америке. Так как крутые люди знают себе цену и хотят работать с хорошим стеком.

Я всегда хотел думать, что CDO в уважаемой компании получает миллионы, ну хотя бы в месяц 1 млн на руки, а в год млн 20-30, даже на себя примерял такую зарплату. А тут 600т, лучше уже не публиковать вилку и держать ее в секрете.

А вот Яндекс наоборот удивил- 680т, хоть и Гросс. Как-то был еще сбер с зарплатой 600т на старшего инженера.

Как там по зарплатам в 2026 году?

Читать полностью…

Инжиниринг Данных

Написал блог пост про AI agents fleet https://blog.surfalytics.com/p/fleet-of-ai-agents-built-my-azure

Читать полностью…

Инжиниринг Данных

Все для работы с AI — со скидками до 40% 

Cloud.ru предлагает выгодные условия на ключевые сервисы для AI-инфраструктуры:

😶‍🌫️Evolution Bare Metal — скидка до 40%
Выделенные физические серверы с полным доступом и управлением только для вас

😶‍🌫️Evolution ML Inference — скидка до 15%
Запуск и развертывание AI- и LLM-моделей

😶‍🌫️Аренда GPU — скидка до 30%
Виртуальные машины, серверы и ML-сервисы с графическими ускорителями
Количество участников ограничено: успейте подключиться и сократить расходы на вычисления без потери производительности

Читать полностью…

Инжиниринг Данных

Норм движ там у Anthropic. Они воруют данные, чтобы обучать модели. А китайские ребята уже воруют у антропика их результат💰

А как отечественные модели делают? Они пылесосят запрещенку или уже готовый результат берут?))

Читать полностью…

Инжиниринг Данных

Who will be the first CIO fired for AI agent havoc? - с таким заголовоком вышла статья на CIO издательстве.

Вот как AI заменит руководителей в прямом смысле…

Краткое содержание статьи

Статья посвящена рискам неконтролируемого внедрения ИИ-агентов в крупных компаниях и угрозе увольнения CIO (ИТ-директоров) из-за последствий их работы.

Ключевые тезисы:
• Прогноз IDC: К 2030 году до 20% из 1,000 крупнейших компаний столкнутся с судебными исками, регуляторными штрафами или увольнением CIO из-за сбоев, вызванных неуправляемыми ИИ-агентами.
• Проблема каскадных ошибок: Когда несколько ИИ-агентов работают совместно, ошибка одного может лавинообразно усиливаться — остальные агенты действуют на основе ошибочного результата, создавая «бесконечный цикл».
• FOMO как драйвер: Многие компании спешат внедрять ИИ-агентов из страха отстать от конкурентов, не уделяя должного внимания управлению и контролю.
• Юридические последствия: Для исков не нужны новые законы об ИИ — существующие правовые нормы (например, HIPAA) уже применимы. ЕС будет активно штрафовать за нарушения приватности, штаты США тоже могут принять регулирование.
• Угроза для CIO лично: Совету директоров достаточно задать один вопрос — «Что именно делают наши ИИ-агенты?» — и если CIO не может ответить, его карьере конец. Потеря доверия совета происходит за секунды, в отличие от судебных процессов, которые тянутся годами.

Рекомендации:
• Вести полный реестр работающих агентов
• Обеспечить аудит-трейл от действия агента до бизнес-результата
• Включать человека в контур для чувствительных задач
• Добавлять «трение» для необратимых действий
• Проводить учения и заранее определять «красные линии»
• Делать процессы управления максимально прозрачными

Главный вывод:
Агентный ИИ не создаёт новых принципов управления — он лишь резко повышает цену их игнорирования. CIO, который сможет показать чёткие контроли и журналы аудита, будет в гораздо лучшем положении, чем тот, кто скажет «это система сделала сама».

Здесь не поспоришь, кому-то надо будет отвечать за vibe-coding, за утечку данных и другие прелести быстрой разработки.

Open AI и Antropic должны выпустить отметку, что это только не компетентные CIO уйдут, их заменит AI, а компании станут лучше, ведь, что вас не убьет - сделает сильней.

Читать полностью…

Инжиниринг Данных

Года два назад я писал про глобальную экспансию - increase global presence. Тогда я застал это в Microsoft и в Okta, когда менеджеры говорили открыто, что задание нанять 2х индусов, вместо одного Американца, так как дешевле.

Походу сейчас тренд меняется, в одно большой публичной компании закрыли офис в Индии и сократили всех разработчиков. Офис оказался неэффективным и одна из проблем была, что большая текучка кадров, то есть приходят, работают, но условия плохие и увольняется. И в целом оказалась, дешевая рабочая сила не сильно помогла компании.

PS наверно едут в Москву дворниками.

Читать полностью…

Инжиниринг Данных

Познакомился сегодня с библиотекой Get Shit Done


Это лёгкая и мощная система мета-промптинга, контекстной инженерии и спецификационно-ориентированной разработки для Claude Code, OpenCode и Gemini CLI.

Какую проблему решает?
GSD решает проблему «context rot» — деградации качества ответов ИИ по мере заполнения контекстного окна. Когда вы описываете задачу ИИ и он генерирует код, результат часто получается нестабильным и разваливается при масштабировании. GSD выступает прослойкой контекстной инженерии, которая делает Claude Code надёжным.

Как это работает?
Рабочий процесс состоит из цикла:
Инициализация проекта (⁠/gsd:new-project) — описываете идею, система извлекает всё необходимое, создаёт ⁠PROJECT.md, ⁠REQUIREMENTS.md, ⁠ROADMAP.md, ⁠STATE.md
Обсуждение фазы (⁠/gsd:discuss-phase) — система выявляет «серые зоны» и уточняет ваше видение, формируя ⁠CONTEXT.md
Планирование (⁠/gsd:plan-phase) — исследование и создание планов, каждый достаточно маленький для выполнения в свежем контекстном окне
Выполнение (⁠/gsd:execute-phase) — параллельное выполнение планов «волнами» (waves) с учётом зависимостей, атомарные git-коммиты
Верификация (⁠/gsd:verify-work) — автоматическая проверка + ваша ручная приёмка (UAT)
Повтор — цикл повторяется до завершения всех фаз, затем ⁠/gsd:complete-milestone

Ключевые особенности
Мульти-агентная оркестрация — тонкий оркестратор порождает специализированных подагентов, основное контекстное окно остаётся на 30–40%
XML-форматирование промптов — оптимизировано под Claude
Атомарные git-коммиты — каждая задача = отдельный коммит, удобно для ⁠git bisect и отката
Quick Mode — для мелких задач (баг-фиксы, конфиги) без полного цикла планирования
Поддержка brownfield — команда ⁠/gsd:map-codebase анализирует существующий код перед началом работы

Ради интереса попробую использовать для какой-нибудь задачи.

Может кто уже использовал? И какие еще есть хорошие варианты для планирования задач агентов?

Читать полностью…

Инжиниринг Данных

Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙

Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».

60+ актуальных сессий, докладов, кейсов, дискуссий по теме анализа данных/ DS/ ML. Среди тем – ИИ-агенты, RL, CV, NLP, Open Source, Embodied AI и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, AI+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!).

Конференция объединит лидов ML-команд, DS-специалистов, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы.

Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии.

Все мы любим конференции не только ради знаний, но и, конечно, ради нетворкинга и новых знакомств! Живое общение в кругу коллег, друзей и единомышленников – важная часть Data Fusion!

Не пропустите, регистрируйтесь.

*Data Fusion — Объединение данных
Информация о рекламодателе

Читать полностью…

Инжиниринг Данных

Вчера еще была статья в комментах про то, как команда выкинула нафиг весь код и open source и людей, которые писали этот корявый код (и не важно с AI или без).

reliabledataengineering/dbt-databricks-the-combo-that-cut-our-data-team-from-12-to-5-engineers-be97e83fa7cb" rel="nofollow">https://medium.com/@reliabledataengineering/dbt-databricks-the-combo-that-cut-our-data-team-from-12-to-5-engineers-be97e83fa7cb

Очень интересный сценарий, на заметку боссам и CDO. Но в РФ реалиях это не работает.

Я кстати вспомнил, что в прошлом году общался с VK и там была позиция на Max типа CTO/CDO платформы, но надо было закрыть ее в декабре.

Вообще место хорошее, ведь этот человек может реально попробовать повлиять на качество сервиса и пилить самую современную дата платформу и заодно модернизировать VK Cloud и развивать их любимый Lakehouse + Iceberg. Думаю так все ок с бюджетами.

Но я бы хотел смотреть в сторону managed DuckLake или пилить аналог Databricks (Compute + Notebooks + Data ingesting + ML + pipelines) и все это с интерфейсом в YML.

Читать полностью…

Инжиниринг Данных

Очень классная презентация про миграция с Fivetran на Airbyte и потом на dlt.

У меня есть один Fivetran и он дороже Snowflake, вот думаю с AI я смогу его на easy эмигрировать. Как у вас опыт с dlt и Airbyte?

Claude слайды прям в сердечко=)

https://docs.google.com/presentation/d/e/2PACX-1vQvJapgEkJxgpsWqoMlmEw-ctV3gZe0LLc5oZBHaJNezBGAYKYoyir1aQi-37tO37SjFGaYjmQJhi_r/pub?start=false&loop=false&delayms=3000&slide=id.g175a817e68e_3_932

Читать полностью…

Инжиниринг Данных

Как же круто Opus 4.6 в исполнение Claude Code при поддержки dbt и MCP делает сравнение и проверки. Да еще, сам предложит улучшения.

Раньше делали всякие кривые data diff и тп инструменты, а теперь просто просим сравнить Prod и измененный Dev.

Если надо и док сгенерит и письмо напишет с объяснениями.

Но как все замечают с AI вы работаете намного больше, вы просто не можете остановиться, ведь все ваши идеи и задачи превращаются в реальный результат.

Читать полностью…

Инжиниринг Данных

Запись вебинара про Tengri от Николая.

Вебинар представляет Tengri Data Platform — корпоративную аналитическую платформу класса LakeHouse от Николая Голова, который ранее проектировал решения на Snowflake и Databricks.

Суть платформы: Tengri объединяет загрузку, хранение, трансформацию, аналитику и визуализацию данных в одном месте. Из коробки доступны SQL, Python и AI-агенты. Архитектура построена на разделении вычислений и хранения (Compute & Storage), используется формат Iceberg поверх S3-совместимых хранилищ (MinIO, Ceph, AWS, Yandex, VK) с поддержкой ACID-транзакций.

Проблема, которую решает: компании вынуждены собирать «зоопарк» из ETL, BI, ML-инструментов, а облачные платформы вроде Snowflake имеют ограничения — привязка к облаку, стоимость, невозможность держать данные у себя. Tengri — это альтернатива, которую можно развернуть on-prem, в облаке или гибридно, от одного сервера до кластера.
Отличия от конкурентов: в отличие от ClickHouse, Greenplum, Trino+Spark и классических DWH, Tengri — это единая платформа, а не отдельный компонент. Не нужно искать редких специалистов, минимальное администрирование, встроенные RBAC, аудит и контроль доступа.

AI-агенты встроены в платформу и помогают аналитикам и бизнесу автоматизировать работу с данными.
Целевая аудитория: те, кто ищет замену Snowflake/Databricks, хочет держать данные на своей инфраструктуре, строит LakeHouse или устал от сложной интеграции множества инструментов.



https://youtu.be/B377-Dvn_xc?si=gAKy2PPQFXufLY-p

Читать полностью…

Инжиниринг Данных

И в подтверждение всего вышесказанного расскажу, что мне удалось сделать вчера. На базе Surfalytics я могу экспериментировать, и у меня были в команде UX/UI-дизайнеры, SDE, маркетинговые эксперты, reels-мейкеры и т.п. У каждого была возможность за мой счёт реализовать их же идеи 🍪🍪

Остановлюсь на примере SDE, а именно — разработке backend/frontend. Мы решили мигрировать с GitHub Pages и Zapier на Netlify (хостинг) и Supabase (бэк). Идея была простая — добавить личный кабинет и в нём сделать roadmap и множество других фич.
Supabase оказался очень крутым продуктом — по сути это Postgres и множество фич: аутентификация, возможность запускать функции (как AWS Lambda) и т.п. Можно создавать новые таблицы и трекать разные активности.

Товарищ смог справиться с миграцией as is, но дальше пока у нас не очень хорошо шло. Я решил поэкспериментировать. С помощью Claude Code я запустил сайт локально с подключением к Supabase prod и начал добавлять фичи и менять структуру Supabase и страницы сайта. У меня не было много времени, но я прифигел от результата. Даже мой SDE офигел от результата и попросил его научить.

Я смог добавить визуализацию как у GitHub, которая показывает вашу активность. Пока это только логины в кабинет, но потом я смогу подключить активность в Discord.
Но самое крутое — это как AI начал решать задачу вместе со мной для создания Roadmap. Мне нужно было сделать конфигуратор задач с описанием и возможностью сохранять результат в Supabase БД, и он справился.

Я добавил несколько скринов.

Параллельно с этим локально я развернул Airflow 3.1, чтобы выгрузить всю историю сообщений из Discord с 2023 года — там самый сок. Я знал про DuckLake, но не использовал. Ну как я? Claude Code постарался, учит меня родной.

Я сделал себе DuckLake:
• сторадж в S3 (копейки)
• каталог в Neon Postgres (бесплатно)

Я ещё экспериментировал с Open Source BI — долго пытался завести Evidence, но не сработало, переключился на Cube.js.

Далее я подвяжу мой DuckLake на бэк и смогу обновить график активности. И сделать AI-интеграцию:
• на базе всех сообщений сделать RAG и подвязать его к боту, который будет помогать в Discord и отвечать на базе прошлых сообщений
• автоматически создавать Weekly Newsletter на базе переписок и статей, которые мы шарим (делать выжимку из статей)

То есть задача — максимально мотивировать участников сообщества, чтобы не ленились и не расслаблялись. В целом наличие всего это никак не влияет на успех сообщества, но хочется реализовать свои идеи.

И всё это возможно благодаря AI-разработке, где мне лишь достаточно иметь намерение.

Читать полностью…

Инжиниринг Данных

Написал пост про Python. Типа, что нужно знать в Python, чтобы работать с данными и как лучше его начать изучать. Как обычно, никакого hardcore.

В модуле 0 Surfalytics есть такой же урок. А то все думают, что нельзя начать работу пока не станут экспертом по Python.


https://blog.surfalytics.com/p/just-enough-python-for-data-roles


PS в РФ конечно все наоборот, но если у вас есть Claude Code на работе, то вы не пропадете😊

PPS расскажите как вы учили питон и какие ресурсы помогли? Если будет ссылка, то шарьте как код или цитата

Читать полностью…

Инжиниринг Данных

Читая о том, как у чувака сломался ноутбук и он 3 года судился с магазином и все бесполезно сразу вспоминаю свой опыт с техникой, когда покупаешь кота в мешке, хоть и нового, и если повезет проблем не будет, а если будет, то шансы поменять или вернуть деньги практически нет. Да что там с техникой, мне кажется с одеждой и продуктами сложно. Вот принесете штаны возвращать, а их будут нюхать на кассе. Может быть сейчас уже по-другому.

Первое время в Канаде мне казалось, что вернуть что-то в магазин — это целый подвиг. Но теперь я понимаю, насколько это просто. Здесь можно купить практически что угодно — даже машину — и вернуть, если не понравится. Некоторые покупают снаряжение для похода, используют его, а потом спокойно сдают обратно. И так во всём. Иногда доходит до абсурда: люди возвращают продукты — вскрытые упаковки — спустя месяцы. А Amazon Prime и вовсе забирает всё прямо из дома. Клиент всегда прав.

Благодаря такой культуре возвратов есть отличный способ экономить — покупать товары категории Renewed/Refurbished со скидкой до 50%, включая технику Apple. Например, ноутбук Lenovo с процессором Core i7, 16 GB оперативной памяти и SSD на 512 GB обойдётся примерно в 450 CAD (около 28 тысяч рублей), тогда как в Москве аналог стоил бы, наверное, 100–150 тысяч. Идеальный вариант для работы. То же самое касается смартфонов на Android, iPhone, iPad, телевизоров и даже мебели. И всё это тоже можно вернуть. Однажды у меня не работал Google Pixel 7 — забрали без единого вопроса.

А как обстоят дела с возвратами в других странах?

Читать полностью…

Инжиниринг Данных

Меня попросили написать документ про AI инструменты для разработки в компании, где был только Teams Copilot. Я написал документ и конвертнул его в блог пост https://blog.surfalytics.com/p/ai-tools-for-data-engineers-and-data

Читать полностью…

Инжиниринг Данных

Последняя глава нашей книги Data engineering with Azure Databricks 🥇

Читать полностью…
Subscribe to a channel