Telegram-канал rockyourdata - Инжиниринг Данных: Unsorted - каталог телеграмм

rockyourdata | Unsorted

Subscribe to a channel

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

15 October 2025 08:59

Как сэкономить на миграции в S3?
При реорганизации инфраструктуры компании часто платят за перенос данных дважды — за исходное хранилище и трафик, запросы и новое хранилище.

👉Selectel запустил «миграционные каникулы» для S3. 30 дней без оплаты хранения и входящих запросов, чтобы вы смогли подготовить инфраструктуру и спокойно перенести данные без лишних трат.

S3 от Selectel:
📦 Подходит для хранения бэкапов, данных приложений, ML-датасетов и работы с аналитикой;
💸Помогает сэкономить до 30% бюджета благодаря разным классам хранилища;
📍Катастрофоустойчиво засчет работы на базе дата-центров в Москве и Санкт-Петербурге.
Оформляйте заявку и пользуйтесь S3 от Selectel бесплатно в течение 30 дней:
https://slc.tl/91p1b

Реклама. АО "Селектел".erid:2W5zFJrHVXN

Читать полностью…

Инжиниринг Данных

14 October 2025 08:59

Snowflake умеет делать маркетинг - DATA ENGINEERING SCHOOL

Читать полностью…

Инжиниринг Данных

13 October 2025 18:58

Все таки Fivetran купил dbt Labs.

Мне кажется, они это сделали, потому что сам dbt Labs не вывозил, и экономика у них не очень сходилась.

https://www.reuters.com/business/a16z-backed-data-firms-fivetran-dbt-labs-merge-all-stock-deal-2025-10-13/

Читать полностью…

Инжиниринг Данных

11 October 2025 00:54

Сегодня дискуссия про запятые вызвала бурю эмоций и комментов.

Вы где ставите запятую?

PS а мой комент про predefined Best Practices:

I agree about opinions, our best practices are just a set of defined opinions and we blindly follow them to make sure the old code matches the new one. Either way, the result of SQL output remains the same

Задел чувства и ранил прямо в сердечко моих хрупких коллег. Не политкорректно.😌

Читать полностью…

Инжиниринг Данных

10 October 2025 03:11

Если вы вдруг заботитесь об окужайщей среде, переживаете за выбросы CO2, стараетесь не летать на самолетах, не ездить на вредных электрокарах и самокатах, то для вас Google Cloud предлагает эко френдли дата центры с Low CO2.

Такого нет ни у AWS, ни у Azure, ни даже у VK Cloud.

Читать полностью…

Инжиниринг Данных

07 October 2025 23:58

Пример современного аналитического решения с duckdb.

Читать полностью…

Инжиниринг Данных

05 October 2025 04:40

Слышали про FDE (Forward Deployed Engineer)?

Суть проста - инженер не сидит в офисе, а встраивается прямо в процессы заказчика, работает рядом с пользователями продукта, наблюдает реальные боли, находит обходные пути и сразу же превращает их в фичи. Так рождается инженерия на границе — между продуктом и пользователем, между R&D и реальным миром.

В мире сложных систем, AI-инфраструктуры, кастомного железа и сверхскоростных релизов «просто быть вендором» уже недостаточно. Побеждают те, кто становится партнёром и работает рядом с клиентом как часть его команды.

The FDE Playbook for AI Startups with Bob McGrew от YC Combinator.

Видео «The FDE Playbook for AI Startups» - это разговор с Бобом МакГрю (Palantir, OpenAI), где он объясняет, что такое Forward Deployed Engineer (FDE) и почему эта модель особенно важна для AI-стартапов.

📌 Основные тезисы:
- FDE соединяет продукт, инженерию и клиента - делает то, что «не масштабируется», но именно это помогает понять рынок.
- Модель родилась в Palantir, где инженеры создавали решения прямо «в поле».
- В AI-стартапах такая роль особенно важна, потому что у клиентов нет готовых шаблонов - всё приходится изобретать вместе.
- Главная сложность - не скатиться в консалтинг и вовремя превращать кастомные решения в продукт.

Читать полностью…

Инжиниринг Данных

04 October 2025 17:24

Новая книга про Iceberg - Architecting an Apache Iceberg Lakehouse (еще в процессе создания)

Читать полностью…

Инжиниринг Данных

03 October 2025 20:47

Увидел интересное репо, в котором автор собрал локальный опенсорсный стек:

Data Forge includes a complete modern data stack with industry-standard tools:

🗄️ Storage & Catalog
- MinIO → S3-compatible object storage for data lakes
- Hive Metastore → Centralized metadata catalog for tables and schemas
⚡ Compute Engines
- Trino → Interactive SQL query engine for federated analytics
- Apache Spark → Distributed processing for batch and streaming workloads
🌊 Streaming & CDC
- Apache Kafka → Event streaming platform
- Schema Registry → Schema evolution and compatibility
- Debezium → Change data capture from databases
🗃️ Databases
- PostgreSQL → Primary OLTP database (source system)
- ClickHouse → Columnar analytics database (sink)
🔄 Orchestration
- Apache Airflow 3 → Workflow orchestration
📊 Visualization & Exploration
- Apache Superset → Modern BI and data visualization
- JupyterLab → Interactive data science environment

Идеальный стек для отечественного (СНГ) дата инженера.

PS автору если интересно, может и вебинарчик провести для нас.

Читать полностью…

Инжиниринг Данных

01 October 2025 09:04

🔥 Ваши данные стоят слишком дорого, чтобы ими рисковать

Positive Technologies 8 октября запустит новый продукт — PT Data Security*. Он создан, чтобы вовремя выявлять угрозы и предотвращать утечки, пока они не привели к кризису.

На онлайн-трансляции вы первыми узнаете:

— Какие задачи и риски сегодня определяют настоящее и будущее рынка защиты данных.
— Какие вызовы стоят перед компаниями на рынке защиты данных.
— Почему Positive Technologies выходит на рынок защиты данных с новым подходом.

🕒 15:00 мск
📍 Онлайн
👉 Регистрация

*Защита данных

Читать полностью…

Инжиниринг Данных

27 September 2025 23:11

Выходные всегда самое продуктивное время работать или учиться🤩

Смотрю курс cursor - https://cursor.com/learn, очень интересно и качественно.

Сейчас уже все разработчики разделились на тех, кто с Cursor, тех кто с Claude code, и всех остальных. Чтобы получить максимальную пользу от инструмента важно узнать как он работает из 1х рук.

Так же на картинке монитор dell 49inch curved. Обожаю его, хотя он не 4к. Дома у меня 2 монитора dell 4k 32”, но этот я люблю больше.

А на wallpaper у меня пшеничные поля из села Тарутино 🥰! Я переодически меняю пейзажы из этого села, ведь там прошло мое детство, а мой прадед построил музей посвященный Великой Отечественной войне и Войне 1812 года. Всего 90км от Москвы. В планах у меня сделать сайт для музея, именно для этого и делались эти фотографии:
- Тарутино Пейзажи
- Тарутино Коллажи
- Тарутино Храм
- Тарутино музей экспозиция
- Тарутино музей территория

Спасибо супер талантливому фотографу Екатерине Советкиной. Кстати наш митап по Инжинирингу Данных, который был зимой в Т-Банк, тоже ее работа.

Читать полностью…

Инжиниринг Данных

26 September 2025 21:40

Последни года полтора у меня была подписка на Audible - сервис Amazon, с онлайн книгами. Классный сервис, книги часто читают сами авторы. Обычно я слушаю книги в машине и часто с детьми, пока развожу на тренировки.

Несмотря на то, что в Audible есть все книги, по факту у меня была проблема, что в среднем книги это 12-20 часов аудио, и чтобы прослушать одну книгу, уходило очень много времени. Дома я не слушаю аудио книги, в машине я часто после работы и устаю. Детям еще сложней держать в голове контекст.

Поэтому я отменил подписку на audible и пришел к выводу, что большие книги должны быть художественные или технические (где много hands-on). А в бизнес книги будет намного удобней использовать краткое содержание и основные идеи и выводы. Моя логика простая - я могу слушать 2-3 месяца книгу на 20 часов и узнать что-то новое, но пропустить часть важных идей, или могу за 2-3 месяца послушать 15-25 кратких содержаний. Концентрация идей будет выше, детям будет интересней, ведь теперь я могу успевать слушать не только бизнес, но и про природу, эволюцию, развитие, подростков и тп.

Вот пример двух последних книг:
- Тайная жизнь деревьев, Петер Вольлебен - узнали много интересного про деревья.
- Умные родители - гениальный ребенок, Тони Бьюзен - очень весело было слушать с детьми и обсуждать как они будут воспитывать своих детей и сравнивать как мы их воспитываем

На картинке мой список summarу, который накидал на ближайшее время.

Сервис и качество мне очень понравился и есть возможность купить бессрочный тариф. Это не реклама, а именно мой личный опыт, возможно кому-то будет интересно.

https://smartreading.ru

Заодно я знаю создателя сервиса, поэтому рад поддержать хороший продукт. На сайте у них еще множество интересных книг и инфографик, которые команда Smart Reading создают на базе summaries, возможно я предложу в будущем издать такую книгу про Дата Инжиниринг.

Читать полностью…

Инжиниринг Данных

25 September 2025 17:30

Интересное обновление на стороне потребления данных. С 24 сентября для всех открывается доступ к Нейроаналитику в BI-платформе DataLens — ИИ-агенту, который умеет "читать" дашборды и генерировать по ним инсайты и даже код.

Фишка в том, что теперь бизнес-пользователи могут напрямую спрашивать у данных: «почему упали продажи?» или «какой канал лучше работает?». Без того, чтобы дергать аналитика за каждую мелочь.

Инженеры тоже выигрывают: агент сам пишет код для кастомных визуализаций и ускоряет доработку отчётов. То есть результаты вашей работы начинают анализироваться ИИ напрямую, без лишних шагов.

Данные перестают быть «табличками для отчёта» и начинают отвечать сами.

Читать полностью…

Инжиниринг Данных

24 September 2025 17:26

Вы управляете процессами, продуктами и людьми?

Тогда вам точно на avito.tech.conf! Авито Тех (это ИТ-команда Авито) анонсировал свою первую конференцию для лидов и менеджеров, которая пройдет 17 октября в Москве и онлайн.

В программе:
- Доклады про лучшие практики управления от менеджеров Авито;

- Возможности для нетворка с менеджерами топовых IT-компаний;

- Воркшопы и интерактивные зоны для прокачки навыков.

Все доклады и спикеры — уже на сайте!

Что сказать, продано! Уже пошли регистрироваться по ссылке (говорят, количество мест ограничено, а попасть хочется очень!)

Реклама. ООО «Авито Тех» Erid 2VtzqvyAyJL

Читать полностью…

Инжиниринг Данных

23 September 2025 06:20

«Съешьте лягушку!» (англ. Eat That Frog!) - короткая, но очень полезная книга. Брайн Трейси там изложил базу, как нужно делать карьеру.

🔫😊🔫

Сегодня я услышал классную идею: лидер ― это человек, которому не нужен постоянный надзор и контроль сверху.

Тему лидерства затерли до дыр. Когда мы слышим про лидеров, мы представляем каких-то очень крутых людей, которые успешные, эффективные, мыслят стратегически и далее по списку.

А всего-то нужно:
-> Самостоятельно ставить цели и двигаться к ним без внешнего давления.
-> Брать ответственность за результаты, а не перекладывать её на руководителя или обстоятельства.
-> Самомотивироваться и мотивировать других, не ожидая, что кто-то будет «подгонять».
-> Дисциплинированно работать, даже если рядом начальника.

Важно конечно не только теорию знать, но и применять ее на практике.

PS после этой книги, emojis с Pepe приобретают новый смысл! 👀

Читать полностью…

Инжиниринг Данных

14 October 2025 18:03

DuckDB поддерживает стриминг?!

В статье они выделяют 3 архитектурных паттерна стриминга (потоковой аналитики)

🧱 Паттерн материализованного представления (Materialized View Pattern)
Часто реализуется с помощью облачных хранилищ данных, поддерживающих материализованные представления (например, BigQuery или Snowflake).
Поток событий записывается в «сырую» таблицу, а поверх неё создаётся материализованное представление.
Этот подход обычно имеет более высокую задержку обновления по сравнению со следующими двумя, хотя точных сравнений пока немного.

⚙️ Паттерн потокового движка (Streaming Engine Pattern)
Здесь используется классический ETL-подход.
Отдельный процесс (потоковый движок) читает сообщения из источника, выполняет запросы «на лету» и сохраняет результаты в постоянной таблице.
Типичные движки — Spark Streaming, Flink, Kafka Streams и более новый Arroyo.
Такой подход часто сопровождается сложностями: управление «водяными знаками» (watermarks), состоянием, потреблением памяти при бесконечных запросах и т.п.

🗄 Паттерн потоковой базы данных (Streaming Database Pattern)
Похож на предыдущий по задержке, но значительно проще в использовании.
Потоковые базы данных вроде RisingWave или Materialize могут напрямую читать поток данных и обновлять материализованное представление «на лету».
Они стремятся сохранять ACID-консистентность и позволяют клиентам выполнять запросы через PostgreSQL-совместимый протокол.

Согласно статье, DuckDB поддерживает 1й и 2й вариант. Так же можно напрямую писать запросы к Кафке через Tributary Extension.

Читать полностью…

Инжиниринг Данных

13 October 2025 21:06

Один из самых ценных скилов работы с другими это уметь письменно излагать свои мысли и идеи.

«Если ты думаешь, не записывая, ты только думаешь, что думаешь.»

https://yewjin.substack.com/p/on-discovering-writing

Читать полностью…

Инжиниринг Данных

12 October 2025 10:04

Присоединяйся к команде Сбера 😎

Сбер ищет исполнительного директора (CLTV) с опытом работы в банковской аналитике.

Что будешь делать:
➖ внедрять и интегрировать CLTV в стратегии маркетинга, продаж и CRM,
➖ анализировать эффективность подходов к управлению клиентскими базами и внедрять новые решения для повышения прибыльности,
➖ создавать инструменты и методологии оценки жизненного цикла клиентов.

С первого дня ДМС, корпоративное обучение, льготная ипотека и скидки от партнёров.

Смотри вакансию и откликайся 💚

Читать полностью…

Инжиниринг Данных

10 October 2025 21:07

8 июля я написал, что мне нужно инвестировать в акции Аренадата, потому что у меня канал про Инжиниринг Данных и купил 1000 акций. Делюсь успехами. Хорошо, что не миллион купил.

Make Arenadata Great Again! Через 6 месяцев проверим, как там дела.

Читать полностью…

Инжиниринг Данных

09 October 2025 18:36

В свежей статье - State of the software engineering jobs market, 2025: what hiring managers see

Observations by 30+ hiring managers and tech recruiters about what’s happening: a flood of inbound applications means more selective hiring, there’s increased demand for product engineers, and more

Основные тезисы:

Наводнение откликов. Более 1000 кандидатов на одну вакансию — не редкость. LinkedIn Jobs стал местом для низкокачественных входящих заявок, из-за чего некоторые компании отказываются от его использования.

Мало наймов через входящие заявки. Несмотря на огромное количество откликов, большинство инженеров компании нанимают через прямые обращения и рекомендации.
Сложно найти действительно сильных кандидатов. Хотя заявок много, выдающиеся инженеры редки и часто выбирают из нескольких предложений.

Удалённая работа: больше конкуренции, меньше зарплаты? Компании, нанимающие удалённо, могут позволить себе нанимать лучших инженеров на 10–15% дешевле, чем раньше.

Фейковые кандидаты и ИИ — растущая проблема. Полностью удалённые и крипто-стартапы страдают от поддельных соискателей, которые скрывают своё местоположение и обманывают рекрутеров. Также всё чаще кандидаты жульничают на собеседованиях, используя ИИ-инструменты.

Высокий спрос на инженеров-основателей и продуктовых инженеров. В Великобритании инженерам-основателям предлагают до £200 000 ($270 000) в год плюс долю в компании. Стартапы в сфере ИИ поднимают уровень зарплат для продуктовых инженеров по всему рынку.

Ранняя стадия стартапов — свои сложности. Привлечь опытных инженеров из известных компаний по-прежнему трудно, а лучшие кандидаты часто имеют несколько конкурентных офферов.

Я почему-то думал, что на каждую вакансию - 500 кандидатов, но ставки растут. И абсолютно согласен, что среди 1000 кандидатов, может не оказаться ни одного нормального.

Читать полностью…

Инжиниринг Данных

06 October 2025 09:17

Давно была идея собрать все вместе про Data Engineering System Design собеседование. Они простые, если понимать фреймворк. Для себя я придумал 6 слоев, задачка за 45-55 минут рассказать красивую историю, где одно плавно переходит в другое. System Design моя самая любимая часть в собеседованиях, а вот leetcode☠️

🎯Ultimate cheatsheet for Data Engineering System Design interview.

PS если есть возможность, то с вас like в Linkedin.

Читать полностью…

Инжиниринг Данных

04 October 2025 20:24

Если закончим книгу по Azure Databricks до конца года, то у меня будет супер коллекция технологий: Snowflake и Databricks - два абсолютных лидера на мировой арене аналитических систем.

Все мои книги тут: https://www.amazon.ca/stores/author/B01A5PVT2M

Читать полностью…

Инжиниринг Данных

04 October 2025 03:18

Нашел замечательный сервис для проверки ваших Key-Pair - https://isanybodyusingthisprivatekey.com

Просто скопируйте ваш private key и убедитесь, что он порядке😌

PS но лучше не надо, на то он и private key🤗

Читать полностью…

Инжиниринг Данных

03 October 2025 07:03

Попался пост чувака, кто стал L7 в amazon (Principal DE) после 6 лет как L6 (Sr DE). Это крутой результат, но читая его promo summary (скрин приложил) звучит уж совсем банально и просто (относительно просто).

Мне кажется, так про себя может любой написать, про пользователей, про ТБы данных, про выступления на конференциях, и про конкурсы с плакатами и тп. Все это bullshit.

Что на самом деле работает - в Амазоне много больших и маленьких команд, многие из них это как страртапы.

Вот придумал продукт менеджер идею и получил на нее бюджет и хедкаунт.

Дальше по классике берет SDE, DE, DS, BI и погнали.
М
ного проектов загибаются, а какие-то вырастают в большие организации, как Amazon Flex (даже не знаю что это).

Поэтому как часто это бывает, нужно оказаться в правильной команде, в правильное время. Если вы первый инженер и строите простое хранилище для внутреннего пользования и ваша организация растет, то вы растете вместе с ней. Выше риск, выше награда.

Есть много примеров, когда такие организации закрывались и были сокращения и все ТБы данных шли в топку.

Из его истории видно, что он провтыкал 3 года в одной команде без результата и начал с почти 0 в другой. Там-то карта и поперла) Ну еще надо с менеджером и скип менеджером дружить.

Я видел много мего-умных людей, кто годами тащил на себе проекты и в итоге ничего.

Поэтому есть более эффективные и доступные способы растить свой доход без burnout😇

Читать полностью…

Инжиниринг Данных

29 September 2025 07:32

⚡️Fivetran хочет купить еще и dbt Labs, после недавний покупки sqlMesh.

Как думаете купит или не купит?

Читать полностью…

Инжиниринг Данных

27 September 2025 18:57

Мы сейчас пишем книгу по Azure Databricks. У меня одна из глав будет про Spark Streaming на Databrikcs. Накидайте ваши любимые сценарии по стримингу на Spark.

У меня пока такие:
- real-time CDC (Azure SQL -> Events Hubs -> Databricks -> Delta Lake)
- IoT sensor analytics (IoT Hub -> Databricks -> BI)
- real-time scoring (Event Hubs (Kafka endpoint) -> Databricks -> ML Model -> Alerts)
- Databricks Auto Loader (Event Hubs Capture → Bronze/Silver)

Интересно узнать как вы используете Spark streaming на AWS/GCP/Azure или on-prem.

Читать полностью…

Инжиниринг Данных

26 September 2025 05:28

Все чаще использую MCP в IDE. В моем случае cursor.

Подключаюсь к Snowflake, BigQuery.

Примеры:
- Вот табличка в snowflake, сделай dbt model для нее
- Можешь взять несколько ID и проверить логику в big query
- Я хочу дать доступ в snowflake terraform, можешь написать запрос и посмотреть права
- dbt test упал, почему?

А если тему развивать, то можно уже делать по другому - prod pipeline упал - нужно разобраться почему и написать возможный путь mitigation.

То есть MCP просто дает возможность подключаться к другим инструментом и самостоятельно изучать данные, сохраняя вам время.

Пример MCP для BigQuery:


{
  "mcpServers": {
    "bigquery": {
      "command": "/opt/homebrew/bin/toolbox",
      "args": ["--prebuilt","bigquery","--stdio"],
      "env": {
        "BIGQUERY_PROJECT": "data-1"
      }
    }
  }
}

Еще нужно добавить правило в репозитория agents.md, где написать инструкции, и все будет в разы удобней.

Есть и другой пример. В AWS, я просто использовал AWS CLI клиент, и он может обращаться к облаку и находить нужную информацию. Но вчера я немного встрял. Точнее встрял сегодня😵.

AI инструменты очень хорошо помогают с неизвестными репозиториями, и вы можете быстро разобраться, что за чем, и для чего. Через AWS CLI я смог найти все нужные AWS ресурсы, и понял, что один из API ключей испортился. Я его обновил руками. Но в какой-то момент AI решило заменить production ключи (удалить их все) на новый пустой key pair. Узнал я об этом сегодня, когд инженеры сказали, что все интеграции в Segment/Braze не работают. Было немного стыдно😳

Поэтому спешка с AI, точно не к чему. Еще и по слухам, инструменты стали хуже работать (cost reduction?)

Читать полностью…

Инжиниринг Данных

25 September 2025 00:45

Airbyte выпустил версию 2.0. Теперь это end-to-end платформа (data ingestion, data transformation, reverse ETL).

Keynote from CEO

Почти все компании не хотят заморачиваться с интеграцией источников данных и использую Fivetran. Затем узнаю ценообразование и офигевают от Monthly Active Rows (MAR) - за каждую загруженную строчку нужно платить. Получается дорого.

И тут уже начинаются разговоры про альтернативы:
- Airflow + Python
- Metano
- Airbyte
- dltHub
- другие инструменты

Как обычно tradeoff - цена/скорость.

Бесплатный Airbyte был всегда проблемным. Облачный (managed) - работает достойно, по слухам. Отличный вариант для небольших компаний.

Расскажите, как у вас дела с Airbyte?

Читать полностью…

Инжиниринг Данных

23 September 2025 16:11

Оживи робота своим алгоритмом и поборись за призовой фонд в 10 250 000 рублей на True Tech Champ 2025.

True Tech Champ 2025 — это третий всероссийский чемпионат по программированию от МТС с онлайн-этапами отбора и грандиозным шоу-финалом в Москве.

Тебя ждут два трека — выбирай:

I. Алгоритмический [призовой фонд 2 750 000 рублей].

Если классический олимпиадный формат — твоя стихия, этот трек для тебя. Блесни математическими навыками, покажи скилы в работе со структурами данных и написании алгоритмов — и окажись выше соперников в турнирной таблице.

II. Программирование роботов [призовой фонд 7 500 000 рублей].

Запрограммируй робота на скоростное прохождение лабиринта в симуляторе и пройди в финал. На финале участники встретятся офлайн и сразятся на четырех уровнях с полосой препятствий, вспышками света, лазерами и другими препятствиями.

Трек будет интересен начинающим и опытным разработчикам: С++, Go, Python, JS, Java, C# и не только.

Подробности на сайте. Регистрация открыта до 20 октября.

Читать полностью…

Инжиниринг Данных

23 September 2025 02:02

DuckDB быстрей Spark 🦆

В посте DuckDB benchmarked against Spark сравнили Spark и DuckDB на локальном MacBook Pro, и утка показала отличный результат.

Поэтому если мало данных, можно смело пользоваться уткой. Зависит от вашего сервера, на котором запускается duckdb.

Есть прикольные кейсы, когда Pandas заменяют DuckDB и распаралеливуют процессы, например через lambda или чтобы экономить дорогой Snowflake compute.

Читать полностью…

Subscribe to a channel