rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

Собрал материал про AI workloads и видео карты на спутниках https://blog.playeronespace.com/p/brains-in-orbit-a-complete-guide

Решил, что IoT спутниковая сеть это очень банально. Узнал про LEO PNT - gps на низкой орбите с точностью до см. Очень круто и дорого. А вот Edge AI интересный кейс и можно начать с небольшого, если просто сфокусироваться на сам спутник, который будет делать расчеты на борту.

Читать полностью…

Инжиниринг Данных

Отличный аргумент, что AI не заменит нас!

А вы умеете кушать готовить?👀

Читать полностью…

Инжиниринг Данных

Добавил секцию блога к сайту. Начнем с базы, что такое спутник 🛰🛰

https://blog.playeronespace.com/p/what-is-a-satellite

Читать полностью…

Инжиниринг Данных

Microsoft Fabric сложил все туториалы в одном месте https://community.fabric.microsoft.com/t5/Fabric-Updates-Blog/Fabric-Jumpstart-Discover-what-s-possible-with-Microsoft-Fabric/ba-p/5182277

Мне так и не довелось с ним поработать глубоко, а вам?

Читать полностью…

Инжиниринг Данных

Уважаемая команда по найму,

Благодарю вас за интерес к отклонению моей заявки.

Я ознакомился с вашим письмом об отказе и был впечатлён вашим процессом принятия решений и стремлением двигаться вперёд с другими кандидатами.

Однако в этом году я получил уже немало писем с отказами. Поэтому, после тщательного рассмотрения, я принял решение не принимать ваш отказ на данном этапе.
Ещё раз выражаю восхищение вашей смелостью отказать мне и желаю всяческих успехов в отклонении других кандидатов.

С нетерпением жду возможности присоединиться к команде в ближайшее время.

С уважением,

🏆

Читать полностью…

Инжиниринг Данных

Как эффективно построить потоковый конвейер данных на базе Evolution Data Platform ⤵️

Когда отчеты собираются часами, а решения принимаются по вчерашним данным, бизнес теряет скорость реагирования — а значит, и деньги. Все потому, что традиционные ETL-процессы с ежедневными запусками уже не успевают за реальным темпом рынка.
На вебинаре 21 мая эксперт Cloud․ru покажет, как создать отказоустойчивый конвейер с латентностью в минуты вместо часов — без сложной работы с инфраструктурой и лишних затрат.

В программе:
▶️в чем особенность проектирования архитектуры конвейера, обрабатывающего данные в режиме, близком к реальному времени: когда использовать микробатчинг в Managed Spark Streaming, а когда — классический батч-подход;

▶️зачем использовать Managed Trino для единого слоя запросов к «горячим» (в процессе обработки) и «холодным» (архивным) данным без дублирования логики;

▶️как организовать хранение слоев данных в Object Storage с партиционированием по времени для ускорения запросов;

▶️почему стоит использовать метаданные в реальном времени через Managed Metastore для поддержки изменяющейся структуры потоков;

▶️как эффективно визуализировать данные в Managed BI и настроить автообновление дашбордов и алерты на отклонения;

▶️какие способы оценки и контроля латентности конвейера существуют: от генерации события до отображения на дашборде.
Зарегистрироваться

Читать полностью…

Инжиниринг Данных

📌 Что вы делаете, когда классические A/B-тесты невозможны?

Коллеги из Trisigma зовут на онлайн-митап как раз по таким ситуациям. 21 мая в 18:30 три спикера (из Авито, Finom и ex. Ozon Tech и Lamoda Tech) расскажут про свои нестандартные кейсы из практики:

⚡️Как проводить офлайн-эксперименты с AI-агентами и измерять качество, когда всё недетерминировано.
⚡️Когда и какими нестандартными инструментами можно заменить A/B.
⚡️ Можно ли сделать рабочую связку PSM, фейкдоров и оценки эластичности.

Регистрация на стрим по ссылке!

Читать полностью…

Инжиниринг Данных

Сейчас в такое время живем, что вечером готовишься к встрече, которая должна быть рано утром из-за того, что часть команды в Израиле, а на следующий день офис в Израиле закрывают, сотни человек на улице, митинг отменяется.

PS цена акции не выросла:( Не работают старые методы.

Кстати про акции, месяца 1-2 назад я спросил AI, какие акции космических компаний и компаний по оперативке можно купить. Результат 2x. Так же добавил новый stop-loss - 7% trailing - авто продажа, если акции потеряла 7% в моменте. (Это база, но я не использовал раньше)

Читать полностью…

Инжиниринг Данных

Робот готов! А вы говорите бесполезный generative AI

Читать полностью…

Инжиниринг Данных

10 готовых шаблонов дашбордов для разных C-level ролей от Cloud.ru 🌐

В новом практическом руководстве эксперты Cloud.ru отвечают на вопрос, как руководителю принимать решения быстрее.

Помимо этого в руководстве:

▶️набор ключевых бизнес-метрик и формулы их расчета

▶️понятная интерпретация показателей

▶️рекомендации по визуализации


Руководство поможет выстроить единую систему показателей, чтобы принимать решения быстрее, точнее и на основе объективных данных.

А еще — выявлять риски и находить новые точки роста бизнеса.

👉Получить бесплатное руководство👈

Читать полностью…

Инжиниринг Данных

Уверен, что меня читает много студентов с разных направлений, а у этих читателей скорее всего еще и широкий круг общения.

Поэтому этот пост для вас!
Образовательный центр СИРИУС в г. Сочи запускает набор стажировок на летнюю июльскую проектную программу «Большие вызовы».
Я сам прошел все вехи этой программы: участвовал там и в роли школьника, затем стажера и наконец, руководителя проектов (в проекте по космическим технологиям).

Программа покрывает практически все расходы и предоставляет жилье и питание.

Очень рекомендую подаваться и ехать, опыт и яркие эмоции обеспечены!

Стажировки для студентов-выпускников (заявки до 11 мая):
1) (ассистенты руководителей проектов и методистов): https://sochisirius.ru/obuchenie/graduates-events/smena2361/10830
2) Центр робототехники: https://sochisirius.ru/obuchenie/graduates-events/smena2373/10891
3) Пресс-служба: https://sochisirius.ru/obuchenie/graduates-events/smena2362/10833
4) ЦОПП (внеучебная деятельность): https://sochisirius.ru/obuchenie/graduates-events/smena2375/10894

Стажировка для педагогов РЦ (заявки до 27 мая):
https://sochisirius.ru/obuchenie/pedagogam/smena2376/10902

Инженерная комната
Рамиль Гайнутдинов

Читать полностью…

Инжиниринг Данных

Hightouch получил новый раунд инвестиций, на эти деньги они уже сняли офис в San Francisco и начали хайрить куча людей. Все-таки с помощью vibe-coding reverse ETL не так гладко работает. У нас 2х местах его выпиливают, в обоих местах компании из списка S&P500 - причина в высокой цене.

Читать полностью…

Инжиниринг Данных

🟢

На вакансии отвлекаться - не мешки ворочить не прокачиваться на pet проектах и mock собеседованиях.

Читать полностью…

Инжиниринг Данных

Лето планируется busy, я попросил Gemini создать постер для всех событий, ведь это же business events (expenses)👉

Локально в BC:
• 11 - 14 июня заплыв в лесах Британской Колумбии на каное, как первопроходцы (с детьми)
• 3 - 7 июня заплыв на Paddle Board, настоящая экспедиция с профессионалами, старт в Tofino, BC - и плавать будет вокруг Vargas Islands
• 11 - 17 июля заезд на велосипедах по горам Словении, Австрии и Италии. Очень интересный ивент, где собираются бизнесмены из разных стран. Главный sales point - “Если кольт уровнял людей, то электро велосипед уровнял людей, которые крутят педали по горам”, так что для меня будет самое то чилить на электро велосипеде и смотреть по сторонам и сына старшего можно взять (14 лет)

Читать полностью…

Инжиниринг Данных

Добавил 3ю часть Data Ingestions Pattern - рассмотрели AWS Step Functions, EventBridge. Рассмотрели, что, когда и как использовать (AWS Batch, Lambda, ECS/ECR, Step Functions)

https://youtu.be/JjJ-Dszz1Co

Дальше добавим Glue, Athena, Redshift Serverless и потом Streaming.

Читать полностью…

Инжиниринг Данных

Добавил пост про то, как и где учить Databricks https://blog.surfalytics.com/p/navigating-databricks-learning-a

Читать полностью…

Инжиниринг Данных

Офер в Яндекс за выходные: 6–7 июня

Если вы продуктовый, дата-аналитик или датасаентист с опытом на Python от 3 лет, участвуйте в Weekend Offer Analytics*.

Как всё устроено:

🔵 до 27 мая — регистрация;

🔵 6 июня — две технические секции, вместо трёх в обычном найме;

🔵 7 июня — знакомство с командами и офер.

В мероприятии участвуют команды: R&D, Автономный транспорт, Алиса и Умные устройства, Поиск и Суперапп, Независимый Ecom и другие. Вы сможете пообщаться с нанимающими менеджерами и выбрать проект, который покажется самым интересным.

Все подробности и полезные ссылкина сайте. После регистрации с вами свяжется рекрутер и договорится об удобном времени для интервью.

Читать полностью…

Инжиниринг Данных

За последнее время мне удалось пообщаться со многими компаниями Enterprise-уровня, и у всех одна и та же проблема — криво внедренный Databricks.

Что значит криво? Значит неудобно и неинтуитивно.

Почему так? Потому что «а кто ж его знает, как надо».

Добавим сюда, что Databricks в такие конторы внедряется подрядчиками, которые ездят по ушам VP-уровню и другому персоналу, который уже мастер спорта по митингам и презентациям, но у которого есть сложности с технической составляющей организации, в которой они работают годами.

Вот и получается: хотели как лучше, а получилось как всегда.

Зато таких картин нет в историях со Snowflake.

Что бы там ни говорили про цены, производительность и другие особенности платформ, я ни разу не видел косячного внедрения Snowflake.

Ну, максимум ценник выше, чем должен быть, но люди работают, пишут запросы, и вопросов, как получить доступ к данным, не возникает.

У всех всё понятно: dbt, Airflow, GitHub. Всё работает как и должно, легко найти специалиста, легко подключить Claude Code.

А как у вас дела?

PS фото с paddle board, скоро будет экспедиция на 5 дней, тренируюсь.

Читать полностью…

Инжиниринг Данных

Пример coding задачек для собеседования, но уже можно решать с AI. Пример от Staff Engineer из Meta.

То есть, вам нужно общаться с агентом и рассказывать, как вы думаете, как решаете задачу. Раньше можно было выучить типовые задачки и постараться, чтобы ответ прошел verification. А теперь, задачки по коду превратились в системный дизайн, где нужно все проговаривать.

Хорошая новость для тех, кто не любит секции leetcode! Но это в передовых компаниях уже так делают, думаю большинство такое не грозит.

https://youtu.be/A1kX8fJx53c?si=Mu3l-TppeqXxxnCV

У кого-то были уже такие примеры на собеседованиях?

Читать полностью…

Инжиниринг Данных

Приглашаем вас на совместный вебинар AXENIX и вендора BR Systems, посвященный XLTable — OLAP‑системе с широким функционалом для работы с данными ClickHouse и Trino и поддержкой протокола XMLA в Excel.

Эксперты подробно расскажут об XLTable и его основных преимуществах: быстроте внедрения, отсутствии дублирования данных, снижении затрат на TCO, бессрочной лицензии и других.

В рамках вебинара вас ждет:

🔸Обзор рынка OLAP-систем
🔸Демо системы XL Table от BR Systems
🔸Разбор реальных кейсов крупных компаний

Также у вас будет возможность задать свои вопросы.

Для участия необходимо зарегистрироваться на сайте. На указанную вами почту придет ссылка на вебинар. Подключайтесь к нам 21 мая в 16:00.

До встречи!

XLTable: Telegram | Сайт

Читать полностью…

Инжиниринг Данных

Сегодня столкнулся с интересным кейсом по Azure Databricks.

Что дано:
• 3 Azure Subscriptions Dev/Test/Prod
• 3 Azure Databricks Workspaces

Все четко и понятно.

Databricks уже давно использует Unity Catalog вместо обычного Hive. Кстати он есть open source.

Unity Catalog — это централизованный каталог и система управления данными от Databricks.

Представь, что в компании есть десятки таблиц, файлов, ML-моделей, разбросанных по разным облакам и воркспейсам. Unity Catalog — это единое место, где всё это зарегистрировано, где видно кто к чему имеет доступ, откуда пришли данные и куда они идут.

Он решает три главных вопроса:

Кто может видеть данные? — можно задавать права вплоть до отдельных строк и столбцов таблицы.

Откуда эти данные и можно ли им доверять? — автоматически строится граф происхождения данных (lineage): от источника до дашборда.

Как найти нужные данные? — есть поисковый интерфейс с описаниями, тегами и метаданными.

Всё это работает единообразно для любого воркспейса в аккаунте Databricks, что и делает его «единым» (Unity).


Оказалось спустя почти года разработки, оказалось, что Metastore находится в Dev подписке.

Metastore — это хранилище метаданных, то есть место, где Unity Catalog держит всю информацию о данных, но не сами данные.

Проще говоря, metastore знает: какие таблицы существуют, где физически лежат их файлы в облаке, какая у них схема (столбцы и типы), кто имеет к ним доступ и т.д. Это как оглавление книги — само содержимое страниц хранится отдельно, но оглавление говорит тебе, где что искать.

В контексте Unity Catalog metastore — это верхний уровень иерархии. Внутри него живут каталоги (catalogs), внутри каталогов — схемы (schemas), а внутри схем уже таблицы и прочие объекты. На один аккаунт Databricks в одном регионе обычно один metastore, и все воркспейсы в этом регионе к нему подключаются и видят одни и те же метаданные.


У metastore есть особенность, о которой мы узнали только сегодня - можно только иметь один на целый Azure регион. А как вы знаете, очень важно, чтобы все ресурсы были всегда в одном регионе (в одном дата центре).

Из-за этого исторически так получилось, что все 3 workspaces привязаны к одному metastore и все ресурсы Azure завязаны на один и тот же регион.

Это прям ахиллесова пята Databricks.

Оказалось, что спустя почти год внедрения нашли этот косяк и решили мигрировать. Хранить все метаданные в dev совсем не комильфо. Databricks стал очень metadata driven, то есть все его Declarative Jobs, Autoloader и тп - все находится в каталоге. И весь ваш прогресс тоже завязан на каталог.

Сегодня мы пытались создать новый каталог в prod подписке. А из-за того, чтобы один metastore на регион, у нас ничего не получилось. При этом подготовка к этому перформансу заняла больше месяца у подрядчика. И это они же запили сердце databricks в dev. И теперь они готовились 2 месяца, чтобы узнать об ограничении региона.

Я как мог их поддерживал шутками и прибаутками, даже взял на себя ответственность расшарить экран и мышкой кликать.

PS проблему пока не решили в лоб.

Вот так, век живи, век учись!

Читать полностью…

Инжиниринг Данных

Скоро учебники будут такие

Читать полностью…

Инжиниринг Данных

22 мая в Москве пройдёт уже седьмая конференция АНА'26 для тех, кто работает с AI, ML и данными.

Отличный повод:
🤝 познакомиться с людьми из индустрии
🎯 послушать живые use cases от команд Яндекса, Сбера, Авито, Wildberries, ВкусВилла и десятков других
🎁 собрать подарочки от спонсоров
☕️ просто хорошо провести день среди своих

В программе — полный цикл data & AI: MLOps, LLM в продуктах, AI-агенты, архитектура, экономика масштабирования и многое другое.

Форматы:
→ Офлайн — 39 900 ₽
→ Онлайн — 19 900 ₽
→ Команды от 3 человек — скидки до 10%

Программа и билеты — на сайте конференции.

PS это не рекламный пост, это я вам рекомендую сходить, особенно, если ваша компанию вам покроет расходы. Вы узнаете много нового и примените новые знания на работе, а может быть и работу найдете:)

Читать полностью…

Инжиниринг Данных

2 картинки, одна про пост 2025 год, в котором говорится “покажи свой код” и другая свежая с take home assignment. И там и там идея в том, что сам код уже не важен. Важно уметь пользоваться современными инструментами и решать проблемы. Сейчас это ИИ агенты.


Идеально подходит выражение - «Хочешь делать работу — сначала наточи инструменты»

В случае ИИ агентов - это контекст, правила, модель, MCP, план.

Читать полностью…

Инжиниринг Данных

Альтернатива Claude Code - Pi agent.

Читать полностью…

Инжиниринг Данных

В сведенной статье от Pragmatic Engineer - The Pulse: token spend breaks budgets – what next? (Расходы на AI-токены выходят из-под контроля) рассказывают насколько проблема токенов становиться острой.

Расходы на токены у многих компаний выросли до 10 раз за последние месяцы. Автор опросил сотрудников 15 компаний и выявил два лагеря:
1. ”Let it rip and measure" — дать командам использовать AI без ограничений, потом смотреть на метрики. Так чаще поступают крупные компании, где операционная гибкость важнее экономии.
2. ”Curbing spending" — активное управление расходами и оптимизация использования токенов. Этим занимаются небольшие компании, которые либо оптимизируют потребление, либо закладывают больший бюджет.

Общий консенсус: рост продуктивности оправдывает расходы, даже если они высоки. Среди популярных способов оптимизации — переключение на более дешёвые модели для рутинных задач, кэширование промптов и лимиты на уровне команд.

По сути, статья фиксирует момент, когда AI из "эксперимента" превратился в реальную статью операционных расходов, с которой инженерные и финансовые команды пока не очень умеют работать.


Я вижу такие паттерны:
1. Условно безлистный Claude Code с моделями Opus и Sonnet. Иногда использую сторонний Gateway, чтобы контролировать расходы.
2. Полный запрем на Code Assist. И тут происходит несколько сценариев:
• Без AI люди пытаются что-то гуглить, что-то сами делать, что-то в Teams Copilot, бесплатном ChatGPT. Все очень медленно и плохого качества. Мне лично кажется это проблема людей, у них вообще нет мотивации учить что-то новое, как говорится - и так сойдет.
• Люди полностью поддерживают запрет на AI, ведь не безопасно же, но при этом сами урвали себе за 20$ AI и что-то лепят втихушку, как будто без AI, но по факту с AI.
• Использование AI на максималках, окольными путями завести модели антропика черех API ключ, и фигачат в режиме YOLO. Без AI уже как без интернета, можно не работать.
3. Есть еще промежуточный вариант, он как правило всегда с Microsoft Teams. Мне вообще кажется, если компании используют Microsoft Teams это дно для инженера, ведь стек будет соответствующий. В данном случае у вас будет бесплатный и бесполезный copilot.

В целом полностью согласен - AI токены дорого. Особенно, когда это корпоративный план и там уже квоты работают по другому.

Читать полностью…

Инжиниринг Данных

Уже скоро можно перестать платить за токены.

Читать полностью…

Инжиниринг Данных

Поделюсь своим недавним изменением в настройке рабочего пространства.

1. У меня было 2 больших монитора 32”, я понял, что я теряюсь в них. И каждый раз, когда выдергиваю USB-C у меня все окна перемешиваются. И два таких дисплея заставляет меня крутить голову, и там можно заблудиться.

Я оставил один 32” и сбоку Mac 16”. Наконец-то купил подставку для него, чтобы экран был на уровне глаз. Пора думаю о здоровье шеи. В кафе теперь тоже ношу подставку.

Поставил Hammerspoon, на вайбкодил настройку и теперь у меня окна Chrome и VSCode/Cursor знают свое место на 32” (50/50), а на Mac 1/3 Notion Calendar, 2/3 Slack.

У меня 7 активных дисплеев на 32” и 1 на 16”.

2. Как правило я работаю в VSCode/Cursor и для каждого репо я открывал свое окно. И вместе с пунктом 1 у меня был всегда mess. Поэтому я перешел на новый подход, у меня для конкретной работы есть папка и там все репозитории и я открываю их всех сразу, а в терминале я


cd Repo 1
Claude или Agent (Cursor CLI


Для многих это покажется банальностью, но я раньше об этом не думал и всегда работал с кучей открытых окон. Теперь у меня есть в каждом репо свой Claude.md и в родительской папке тоже есть Claude.md.

А как вы организовали свое рабочее пространство и своих агентов?

Читать полностью…

Инжиниринг Данных

Вроде все встает на свои места в дата командах.

Чтобы хайпануть на AI, и получить ответ на все бизнес вопросы нужен не еще один дашборд, а chatgpt интерфейс, который не просто гоняет ваш MCP сервер и пытается угадать, как написать запрос, а использует семантический слой.

А семантический слой это ваша модель данных в хранилище данных.

Стандартный кейс из 90х - концептуальная модель, логическая модель, физическая.

Связи между бизнес сущностями.

Для этого нужно понять как работает бизнес и как устроены процессы.

С помощью AI легче записать встречи со stakeholders и создать концептуальную и логическую модель.

То есть, мы пришли к тому, что без качественной модели данных не будет качественного AI в аналитике.

Тут важно понимать, что это не про слои, а про взаимосвязь бизнес сущностей. Например, клиент оформил заказ. Заказ создался и отправлялся со складу к клиенту и тп.

Сегодня в одной компании как раз про это я проводил лекцию для топов, и все все поняли и все со всем согласились.

А как у вас?

Читать полностью…

Инжиниринг Данных

Отдельно прикрепляю дерево папок

Читать полностью…
Subscribe to a channel