rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

22 мая в Москве пройдёт уже седьмая конференция АНА'26 для тех, кто работает с AI, ML и данными.

Отличный повод:
🤝 познакомиться с людьми из индустрии
🎯 послушать живые use cases от команд Яндекса, Сбера, Авито, Wildberries, ВкусВилла и десятков других
🎁 собрать подарочки от спонсоров
☕️ просто хорошо провести день среди своих

В программе — полный цикл data & AI: MLOps, LLM в продуктах, AI-агенты, архитектура, экономика масштабирования и многое другое.

Форматы:
→ Офлайн — 39 900 ₽
→ Онлайн — 19 900 ₽
→ Команды от 3 человек — скидки до 10%

Программа и билеты — на сайте конференции.

PS это не рекламный пост, это я вам рекомендую сходить, особенно, если ваша компанию вам покроет расходы. Вы узнаете много нового и примените новые знания на работе, а может быть и работу найдете:)

Читать полностью…

Инжиниринг Данных

2 картинки, одна про пост 2025 год, в котором говорится “покажи свой код” и другая свежая с take home assignment. И там и там идея в том, что сам код уже не важен. Важно уметь пользоваться современными инструментами и решать проблемы. Сейчас это ИИ агенты.


Идеально подходит выражение - «Хочешь делать работу — сначала наточи инструменты»

В случае ИИ агентов - это контекст, правила, модель, MCP, план.

Читать полностью…

Инжиниринг Данных

Альтернатива Claude Code - Pi agent.

Читать полностью…

Инжиниринг Данных

В сведенной статье от Pragmatic Engineer - The Pulse: token spend breaks budgets – what next? (Расходы на AI-токены выходят из-под контроля) рассказывают насколько проблема токенов становиться острой.

Расходы на токены у многих компаний выросли до 10 раз за последние месяцы. Автор опросил сотрудников 15 компаний и выявил два лагеря:
1. ”Let it rip and measure" — дать командам использовать AI без ограничений, потом смотреть на метрики. Так чаще поступают крупные компании, где операционная гибкость важнее экономии.
2. ”Curbing spending" — активное управление расходами и оптимизация использования токенов. Этим занимаются небольшие компании, которые либо оптимизируют потребление, либо закладывают больший бюджет.

Общий консенсус: рост продуктивности оправдывает расходы, даже если они высоки. Среди популярных способов оптимизации — переключение на более дешёвые модели для рутинных задач, кэширование промптов и лимиты на уровне команд.

По сути, статья фиксирует момент, когда AI из "эксперимента" превратился в реальную статью операционных расходов, с которой инженерные и финансовые команды пока не очень умеют работать.


Я вижу такие паттерны:
1. Условно безлистный Claude Code с моделями Opus и Sonnet. Иногда использую сторонний Gateway, чтобы контролировать расходы.
2. Полный запрем на Code Assist. И тут происходит несколько сценариев:
• Без AI люди пытаются что-то гуглить, что-то сами делать, что-то в Teams Copilot, бесплатном ChatGPT. Все очень медленно и плохого качества. Мне лично кажется это проблема людей, у них вообще нет мотивации учить что-то новое, как говорится - и так сойдет.
• Люди полностью поддерживают запрет на AI, ведь не безопасно же, но при этом сами урвали себе за 20$ AI и что-то лепят втихушку, как будто без AI, но по факту с AI.
• Использование AI на максималках, окольными путями завести модели антропика черех API ключ, и фигачат в режиме YOLO. Без AI уже как без интернета, можно не работать.
3. Есть еще промежуточный вариант, он как правило всегда с Microsoft Teams. Мне вообще кажется, если компании используют Microsoft Teams это дно для инженера, ведь стек будет соответствующий. В данном случае у вас будет бесплатный и бесполезный copilot.

В целом полностью согласен - AI токены дорого. Особенно, когда это корпоративный план и там уже квоты работают по другому.

Читать полностью…

Инжиниринг Данных

Уже скоро можно перестать платить за токены.

Читать полностью…

Инжиниринг Данных

Поделюсь своим недавним изменением в настройке рабочего пространства.

1. У меня было 2 больших монитора 32”, я понял, что я теряюсь в них. И каждый раз, когда выдергиваю USB-C у меня все окна перемешиваются. И два таких дисплея заставляет меня крутить голову, и там можно заблудиться.

Я оставил один 32” и сбоку Mac 16”. Наконец-то купил подставку для него, чтобы экран был на уровне глаз. Пора думаю о здоровье шеи. В кафе теперь тоже ношу подставку.

Поставил Hammerspoon, на вайбкодил настройку и теперь у меня окна Chrome и VSCode/Cursor знают свое место на 32” (50/50), а на Mac 1/3 Notion Calendar, 2/3 Slack.

У меня 7 активных дисплеев на 32” и 1 на 16”.

2. Как правило я работаю в VSCode/Cursor и для каждого репо я открывал свое окно. И вместе с пунктом 1 у меня был всегда mess. Поэтому я перешел на новый подход, у меня для конкретной работы есть папка и там все репозитории и я открываю их всех сразу, а в терминале я


cd Repo 1
Claude или Agent (Cursor CLI


Для многих это покажется банальностью, но я раньше об этом не думал и всегда работал с кучей открытых окон. Теперь у меня есть в каждом репо свой Claude.md и в родительской папке тоже есть Claude.md.

А как вы организовали свое рабочее пространство и своих агентов?

Читать полностью…

Инжиниринг Данных

Вроде все встает на свои места в дата командах.

Чтобы хайпануть на AI, и получить ответ на все бизнес вопросы нужен не еще один дашборд, а chatgpt интерфейс, который не просто гоняет ваш MCP сервер и пытается угадать, как написать запрос, а использует семантический слой.

А семантический слой это ваша модель данных в хранилище данных.

Стандартный кейс из 90х - концептуальная модель, логическая модель, физическая.

Связи между бизнес сущностями.

Для этого нужно понять как работает бизнес и как устроены процессы.

С помощью AI легче записать встречи со stakeholders и создать концептуальную и логическую модель.

То есть, мы пришли к тому, что без качественной модели данных не будет качественного AI в аналитике.

Тут важно понимать, что это не про слои, а про взаимосвязь бизнес сущностей. Например, клиент оформил заказ. Заказ создался и отправлялся со складу к клиенту и тп.

Сегодня в одной компании как раз про это я проводил лекцию для топов, и все все поняли и все со всем согласились.

А как у вас?

Читать полностью…

Инжиниринг Данных

Отдельно прикрепляю дерево папок

Читать полностью…

Инжиниринг Данных

Изучаем машинное обучение всё лето: Яндекс приглашает в Летний кампус ML-Академии

Познакомьтесь с трендами ML‑индустрии и получите прикладной опыт в московском офисе Яндекса.

3 месяца студенты и начинающие ML-спецы будут работать совместно с экспертами из Яндекса над задачами по компьютерному зрению, обработке естественного языка, рекомендательным системам, LLM и другим ML-направлениям. В конце обучения участников ждет выпускной.

Обучение бесплатное, участникам из других городов Яндекс оплачивает переезд и проживание. А еще это хороший шанс начать карьеру: лучших выпускников Академии пригласят на стажировку.

Подать заявку можно тут.

Читать полностью…

Инжиниринг Данных

Последние несколько недель я познакомил пару человек с Claude Code. До этого они использовали AI на уровне “спросить ChatGPT”. Так как они далеки от традиционного ИТ, для них это было большим открытием и они смогли быстро реализовать свои идеи.

Делюсь видео от товарища, которое он мне скинул на днях. Он талантливый инженер и изобретатель и в его руках Claude Code это мощь.

Читать полностью…

Инжиниринг Данных

Еще одно преимущество использования git и строить аналитические решения как код. То есть сохранять в репо все изменения. Даже если вы делаете ad-hoc вещи и отчеты.

Пример - к вам приходит босс и говорит, напиши мне, что ты сделал в Q1 и что будешь делать в Q2.

Я могу попросить AI агента (Claude, cursor, и тп) посмотреть историю комитов и написать, что я делал и зачем(придумать с поправкой на бизнес смысл). Дополнительно мы можем через MCP сходить в Jira, Confluence и тп, и найти наши тикеты, документы и тп. Мало? Можно в MCP slack пойти, и взять всю переписку.

Читать полностью…

Инжиниринг Данных

Классный бесплатный курс https://opencode.school/

Читать полностью…

Инжиниринг Данных

Лучший способ экономить на токенах. Да еще можно людям помочь карьеру устроить.

Объединяйтесь против машин и берите на работу junior!

Читать полностью…

Инжиниринг Данных

Я провел следующую часть воркшопа про Data Ingestion Patterns | Part 2- в нем добавил другой метод создания AWS Lambda, рассмотрели AWS Batch, AWS ECR (container registry) и AWS ECS (Container Service). Как обычно использовали Claude Code и Infra as a Code с AWS Cloud Formation. Много рассуждение про использование этих решений на реальных проектах.

Концепт очень простой - у нас есть Python файл, который скачивает данные по GitHub API и мы его переиспользуем разными методами. План рассмотреть все возможности AWS для batch и streaming и потом повторить для Azure и GCP.

Первая часть - Data Ingestions Patterns | Part 1 - я начал серию видео для System Design DE по подходу от простому к сложному, где мы загружаем данные из API в базу 10ью разными способами. Пока только 1/7 покрыл, потратил много времени на разговоры про security, infra as a code, evn variables и как сразу делать правильно. Сразу гонял Cursor Agent и Claude и видно насколько Cursor тупее Claude, зато дешевле.

Читать полностью…

Инжиниринг Данных

23 апреля в Санкт-Петербурге пройдет вечерний митап для аналитиков — Analytics Party.

Присоединяйтесь, чтобы вместе с экспертами поговорить о решениях сложных продуктовых и исследовательских задач — от оценки безопасности автопилота до экспериментов без A/B-тестов.

В программе докладов:
«Сакральные тайны сбора датасетов для симуляции автономного транспорта». Елмурат Темиргалиев (команда автономного транспорта, Яндекс) расскажет, как они объединяют реальные и синтетические данные, чтобы получать доверительные выводы о безопасности.
«На что способны ИИ-агенты в аналитике». Иван Меренков (Data AI Lab, Яндекс) покажет, как собрать систему из ИИ-агентов под свои задачи.
«Propensity score matching: как строить аналоги A/B-тестов, когда эксперименты невозможны». Николай Олигеров (Яндекс Путешествия) разберет статистический метод Propensity Score Matching.

Зарегистрироваться и посмотреть полную программу выступлений можно на сайте.

Читать полностью…

Инжиниринг Данных

Робот готов! А вы говорите бесполезный generative AI

Читать полностью…

Инжиниринг Данных

10 готовых шаблонов дашбордов для разных C-level ролей от Cloud.ru 🌐

В новом практическом руководстве эксперты Cloud.ru отвечают на вопрос, как руководителю принимать решения быстрее.

Помимо этого в руководстве:

▶️набор ключевых бизнес-метрик и формулы их расчета

▶️понятная интерпретация показателей

▶️рекомендации по визуализации


Руководство поможет выстроить единую систему показателей, чтобы принимать решения быстрее, точнее и на основе объективных данных.

А еще — выявлять риски и находить новые точки роста бизнеса.

👉Получить бесплатное руководство👈

Читать полностью…

Инжиниринг Данных

Уверен, что меня читает много студентов с разных направлений, а у этих читателей скорее всего еще и широкий круг общения.

Поэтому этот пост для вас!
Образовательный центр СИРИУС в г. Сочи запускает набор стажировок на летнюю июльскую проектную программу «Большие вызовы».
Я сам прошел все вехи этой программы: участвовал там и в роли школьника, затем стажера и наконец, руководителя проектов (в проекте по космическим технологиям).

Программа покрывает практически все расходы и предоставляет жилье и питание.

Очень рекомендую подаваться и ехать, опыт и яркие эмоции обеспечены!

Стажировки для студентов-выпускников (заявки до 11 мая):
1) (ассистенты руководителей проектов и методистов): https://sochisirius.ru/obuchenie/graduates-events/smena2361/10830
2) Центр робототехники: https://sochisirius.ru/obuchenie/graduates-events/smena2373/10891
3) Пресс-служба: https://sochisirius.ru/obuchenie/graduates-events/smena2362/10833
4) ЦОПП (внеучебная деятельность): https://sochisirius.ru/obuchenie/graduates-events/smena2375/10894

Стажировка для педагогов РЦ (заявки до 27 мая):
https://sochisirius.ru/obuchenie/pedagogam/smena2376/10902

Инженерная комната
Рамиль Гайнутдинов

Читать полностью…

Инжиниринг Данных

Hightouch получил новый раунд инвестиций, на эти деньги они уже сняли офис в San Francisco и начали хайрить куча людей. Все-таки с помощью vibe-coding reverse ETL не так гладко работает. У нас 2х местах его выпиливают, в обоих местах компании из списка S&P500 - причина в высокой цене.

Читать полностью…

Инжиниринг Данных

🟢

На вакансии отвлекаться - не мешки ворочить не прокачиваться на pet проектах и mock собеседованиях.

Читать полностью…

Инжиниринг Данных

Лето планируется busy, я попросил Gemini создать постер для всех событий, ведь это же business events (expenses)👉

Локально в BC:
• 11 - 14 июня заплыв в лесах Британской Колумбии на каное, как первопроходцы (с детьми)
• 3 - 7 июня заплыв на Paddle Board, настоящая экспедиция с профессионалами, старт в Tofino, BC - и плавать будет вокруг Vargas Islands
• 11 - 17 июля заезд на велосипедах по горам Словении, Австрии и Италии. Очень интересный ивент, где собираются бизнесмены из разных стран. Главный sales point - “Если кольт уровнял людей, то электро велосипед уровнял людей, которые крутят педали по горам”, так что для меня будет самое то чилить на электро велосипеде и смотреть по сторонам и сына старшего можно взять (14 лет)

Читать полностью…

Инжиниринг Данных

Добавил 3ю часть Data Ingestions Pattern - рассмотрели AWS Step Functions, EventBridge. Рассмотрели, что, когда и как использовать (AWS Batch, Lambda, ECS/ECR, Step Functions)

https://youtu.be/JjJ-Dszz1Co

Дальше добавим Glue, Athena, Redshift Serverless и потом Streaming.

Читать полностью…

Инжиниринг Данных

Пока еще не придумали ничего лучше и проще dbt фреймворка для SQL трансформаций в хранилище данных. Из ближайших sqlmesh, но это learning curve.

Всегда возникает вопрос в naming standards. Недавно подсмотрел отличный и понятный пример название папок и моделей в dbt.



## dbt Model Conventions
- Staging dbt models select from data sources.
- Generally, dbt models in the Integration layer or Warehouse layer select from dbt models in a lower layer.
- A warehouse layer model can select directly from the staging layer if an integration model is not necessary.
- Integration models generally join other models to enrich data.

The diagram below illustrates when to use staging, integration, fact, dimension and XA models
![Model Selection](resources/model_selection.png)

## dbt Model configuration
- Model-specific attributes (like unique keys and partitioning) should be specified in the model config.
- Include a description of the model in the config to help developers.
- Global configurations such as materialisation are specified in the dbt_project.yml. If a particular configuration applies to all models in a directory, please add it to the `dbt_project.yml`.
- Warehouses should always be configured as tables
- Other layers should generally prefer using a view or CTE materialization

## Testing
- We use an open source tool called droughty to auto-generate the dbt schema (droughty_schema.yml) for consistency and to reduce manual work. Separate dbt schema files do not need to be created. However, droughty is only maintained to work with BigQuery and may not work with other data warehouses. If droughty does not work with your data warehouse, please create dbt schema files manually and ensure they are kept up to date.

## Naming and field conventions
- Rename columns to business-friendly, snake_case names, following the naming conventions in the coding conventions (e.g., natural keys, suffixes for timestamps, booleans, etc.)
- Source system IDs should be renamed `<descriptive name>_natural_key` e.g. `subscription_natural_key`
- Primary keys must use the suffix '_pk' e.g. 'subscription_pk'
- Foreign keys must use the suffix '_fk' e.g. 'subsription_fk'
- Both '_pk' and '_fk' columns must use the dbt_utils.generate_surrogate_key macro.
- Timestamp columns must use the suffix '_ts', e.g. `created_ts`. If a timzone is not in UTC, this should be indicated, e.g `created_cet_ts`.
- Booleans should use '_is_' or '_has_' or '_was_'
- Revenue columns should include the '_amount' and '_currency' suffixes
- Always use dbt macros (e.g., dbt.type_string(), dbt.type_numeric(), dbt.type_boolean(), dbt.type_timestamp() ) for all type casting in SQL models, as shown in the project coding conventions
- Order columns in the output as: keys, attributes, indexes/ranks, metrics, booleans, temporal data types.

## CTEs
- All `{{ ref('...') }}` statements should be placed in CTEs at the top of the file and the CTE name prefixed with 's_'
- Where performance permits, CTEs should perform a single, logical unit of work.
- CTE names should convey what they do
- CTEs with confusing or notable logic should be commented
- The final CTE in a model should be named `final` which makes it easier to debug code within a model (without having to comment out code!)

Читать полностью…

Инжиниринг Данных

На рынке BI инструментов появился новый игрок про который я слышу все чаще Omni. У них как раз уже был раунд.

Использовали? У нас хотят в одном месте с Sigma BI на Omni пересесть, авось проблема с subscription metrics решиться там сама собой:)

Читать полностью…

Инжиниринг Данных

Так как компании активно бросились на внедрение AI, то ушлые менеджеры решили, что надо отслеживать KPI - потребление токенов.

Есть такое явление - «Эффект Кобры» (Cobra Effect) или Закон Гудхарта: «Когда метрика становится целью, она перестаёт быть хорошей метрикой».

Есть даже яркие примеры из истории (спасибо ИИ):

Кобры в Индии (Британская колония)
Правительство предложило вознаграждение за каждую убитую кобру. Местные жители начали разводить кобр ради денег. Когда программу отменили — бreeders выпустили всех змей на волю. Популяция кобр выросла.

Советская плановая экономика
Классический масштабный пример. Заводам давали план в тоннах — делали максимально тяжёлые изделия. Давали план в штуках — делали максимально маленькие и лёгкие. Менеджеры занижали реальные мощности, чтобы получить выполнимый план, и скрывали запасы. Экономист Янош Корнаи в книге Economics of Shortage (1980) детально описал, как вся система планирования систематически порождала поведение, которое выполняло метрику, но разрушало реальную цель.

Колл-центры
Классика корпоративного мира: KPI на количество обработанных звонков в час → сотрудники начинают сбрасывать сложные звонки, чтобы брать больше простых. Или звонок «принимается» мгновенно (метрика выполнена), но клиент 10 минут слушает музыку в ожидании.

Wells Fargo (2002–2016)
Сотрудникам банка ставили KPI на количество открытых счетов на одного клиента (cross-sell ratio). Под угрозой увольнения они открыли ~3.5 миллиона фиктивных счетов без ведома клиентов. Метрика показывала рост — реальные отношения с клиентами разрушались. Банк выплатил штрафов на $3 млрд, CEO ушёл в отставку.


Таких примеров много в корпоративном мире. Руководство любит придумать новые метрики эффективности, и сотрудники быстро адаптируются и фокусируются на этих метриках. Очевидно, они никак не влияют на качество и на конечный результат.

Вот сейчас мы активно переживаем фазу внедрения ИИ эффективности. История с месенджарами точно такая же, как и история про альтернативные методы подключения к интернету🏴‍☠️.

Возвращаемся к ИИ. Термин называется tokenmaxxing - это практика, при которой разработчики искусственно раздувают потребление токенов (единиц обработки данных в AI-моделях) ради карьерных выгод: попадания в рейтинги, признания или защиты своей должности.

Хотя большинство все равно еще не используют ИИ🛌

Читать полностью…

Инжиниринг Данных

Иногда обучение — это первый шаг к уровню, где тебя зовут в топовые компании

Школа анализа данных от Яндекса — двухлетняя бесплатная программа по ML, Data Science, ИИ и большим данным.
Фундаментальная подготовка и задачи из индустрии.

Что получишь:

→ Глубокую теорию + практику на реальных задачах Яндекса
→ Обучение у экспертов, которые делают продукты, а не читают слайды
→ Сильное комьюнити

Два трека поступления: классический (3 этапа) и альтернативный — для тех, у кого уже есть опыт. Форматы: офлайн, гибрид и онлайн.

Подать заявку можно по ссылке до 3 мая

Читать полностью…

Инжиниринг Данных

Как понять, что в компании, где вы работаете проблема?

Достаточно просто:
• Начинают отслеживать вашу активность, сколько часов вы онлайн, сколько митингов провели и тп
• Каждую неделю каждая команда должна писать детальный отчет о том, что было сделано
• Вы перестаёте понимать, как ваша работа влияет на успех компании - и никто вокруг тоже не понимает.
• Инженерные задачки оторваны от потребностей бизнеса (миграции, новый инструменты и подходы)
• Постоянные реорганизации и смена приоритетов каждые 2–3 месяца
• Митинги ради митингов - встречи без повестки и без итогов
• Решения принимаются месяцами, но никто не несёт за них ответственности
• Культура страха - никто не говорит о проблемах вслух
• Технический долг растёт, но на него никогда нет времени

Такое чаще в больших компаниях. Как правило раз в год компании нужна свежая кровь, поэтому есть раунды увольнений. Но главную причину никогда не решают.

В стартапах тоже такое бывает, но там сложней долго создавать видимость, ведь run time короткий. Из-за этого все может быть еще хуже.

Все это ведет к выгорянию, отсутствую job security, стрессу. Ведь проблемы в компании и в культуре компании будут влиять на вашу эффективность. Поэтому всегда нужно шопиться на рынке вакансий и компаний, чтобы найти то место, где вам будет комфортно.

Читать полностью…

Инжиниринг Данных

Аналитика, DWH и OLAP-нагрузки растут, и базы начинают упираться в дисковую подсистему…

Для таких задач Selectel добавили новую конфигурацию Mega в базы данных на выделенных облачных серверах. Это кластер объёмом до 27,1 ТБ, приватной сетью 10 Гбит/с и производительностью до 1,5 млн IOPS.

Хороший вариант для высоконагруженных и масштабируемых систем, где важна физическая изоляция данных. По стоимости выходит до 47% дешевле, чем стандартные DBaaS-решения.

Протестируйте бесплатно, до 30 000 бонусных рублей на запуск — по ссылке: https://slc.tl/xwc1h

Реклама. АО "Селектел". erid:2W5zFGj3Mkd

Читать полностью…

Инжиниринг Данных

Исследование про облачную инфраструктуру в работе с данными

Apple Hills Digital проводит опрос среди data engineers, аналитиков и специалистов, работающих с данными.

Цель — понять, как сегодня выстраивается инфраструктура под data-задачи:

— какие облачные платформы и сервисы используются (хранилища, compute, managed DB)
— как организованы пайплайны и обработка данных
— как оцениваются производительность, масштабируемость и надежность решений

Заполните анкету* — участие также дает шанс выиграть iPhone

* Принимая участие в опросе Вы становитесь участником розыгрыша под наименованием «Если ты работаешь в IT, пройди опрос и выиграй iPhone 17 Pro». Информация об организаторе розыгрыша, сроках проведения, правилах проведения розыгрыша, количестве призов, сроках, месте, порядке получения призов размещена по ссылке

Читать полностью…

Инжиниринг Данных

Самое любимое в процессе книго-писания - это получить обложку со своим именем. Коллег писателей поздравляю.

Я даже не знаю какая эта книга по счету - 9ая? 10ая?

Как говориться больше 2х уже не имеет значение.

Я думаю это последняя книга у меня. И в целом технические книги проигрывают AI ассистентам.

Все еще ценны советы экспертов и видео уроки, где можно понять общую идею (system design) и дальше уже раскрутить ее с AI и понять как построить.

Все-таки на человека приятней смотреть и слушать.

Дальше, уже нужно получать патенты в области космических изобретений😎

Читать полностью…
Subscribe to a channel