rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

Новое видео на Data Learn - ОБЗОР РФ ВАКАНСИЙ DATA ENGINEER/BI РАЗРАБОТЧИК/АНАЛИКИ ДАННЫХ/ETL РАЗРАБОТЧИК (YouTube) | RuTube

Вот исправленный текст с устранением грамматических ошибок:

В этом видео я изучил отечественный рынок вакансий на позиции:

📈Аналитик данных
📊BI-разработчик
🧰 Инженер данных
🔨 ETL-разработчик
🔩 DWH-разработчик

Краткое резюме:

• Зарплаты варьируются от 250 тыс. до 450 тыс. рублей для специалистов по данным. Конечно, есть предложения и от 100 тыс. рублей, но в целом средний диапазон — это 250–300 тыс. рублей. Если у вас меньше, вы знаете, к чему стремиться и что нужно делать. В целом зарплаты распределены равномерно.

• Для всех аналитиков требуется знание SQL, Python, часто A/B-тесты и один BI-инструмент (Power BI, Qlik, Datalens, Fine). Часто хотят аналитика, а в описании Data Scientist (если вообще такую роль уместно использовать).

• Для BI-разработчика Python не обязателен, но требуется взаимодействие с хранилищем данных (DWH), администрирование BI и, возможно, выполнение ETL.

• ETL-разработчик, Data Engineer и DWH-разработчик — теперь это одно и то же. Требования очень похожи у всех: Greenplum, Clickhouse, Airflow, Python, SQL. Если упоминается Hadoop (еще пугают Java/Scala), то это HDFS, Hive, Spark, Trino. Иногда встречается наш любимый dbt (любимый, потому что простой и эффективный). Думаю, задачи очень однотипные. Вакансии действительно похожи по требованиям (наверное, копируют друг у друга).

• Практически все вакансии требуют навыков в CI/CD, DevOps, контейнерах, системах контроля версий (Git) и командной строке — это важный навык, за который я давно ратую.

• Есть вакансии с западным стеком: Azure, AWS, GCP, Tableau. Как я понимаю, они предполагают удаленную работу или релокацию.

• Если перевести 350 тыс. рублей в доллары США, то это будет примерно 3 620 $. За границей на такую сумму не разгуляешься, а вот в России на 350 тыс., как я понимаю, можно жить очень комфортно.

• Среди компаний много крупных и небольших интеграторов (консалтинг).


Если взять текущий data learn, то в нем не хватает:
- dbt
- CI/CD для data pipelines
- контейнеров (Docker, Kubernetes)
- Airflow
- Trino, Hive
- Greenplum, Clickhouse

Со всем из списка (кроме последних 2х), я работаю каждый день и в планах добавить контент на русском и на английском.

Кстати, пока делал обзор не увидел про:
- DuckDB (возможная замена Clickhouse)
- Iceberg Lakehouse (если Hadoop и BigData)

Читать полностью…

Инжиниринг Данных

Вчера был интересный разговор с менеджером в Microsoft, он мне рассказал, что у него есть открытые позиции, но берут в Индии, потому что за цену одного инженера в США можно взять 3х индусов.

Прошлым летом уже писал про глобальное расширение компаний. То есть компании не косты режут, а просто вот решили в индии офис открыть.

А когда-то Vancouver был cheap engineering. Хотя вот сегодня увидел, что «Европа это новая Мексика для США».

Читать полностью…

Инжиниринг Данных

6 секунд на проверку резюме? Чтобы лучше понимать как откликаться, нужно смотреть как работают рекрутеры:)

Рекрутеры, если вы тут, напишите в комментах, как вы смотрите резюме!

Читать полностью…

Инжиниринг Данных

Чтобы много успевать - надо быть продуктивным. А чтобы быть продуктивным, нужен четкий план на день, на неделю, на месяц и тп. Я не буду вдаваться в подробности в эффективность и time management, просто поделюсь с вами моими любимыми ресурсами.

Я сам еще далек от совершенства, но борюсь с собой, чтобы быть более собранным и эффективным.

Концепт джедайский техник мне очень понравился. Он включает в себя лучшие мировые практики и адаптирует для нас.

🐒Книга - Джедайские техники. Как воспитать свою обезьяну, опустошить инбокс и сберечь мыслетопливо

🐒Одна из основных идей джедайских техник - Why Procrastinators Procrastinate (тут очень хорошо написано почему мы так мало успеваем)

🐒Марафон на 60 дней - я его уже начал второй раз проходить.

🐒Notion для личных дел - дополнение с примером использования Notion для ведения личных дел.

Вы можете начать использовать шаблон прямо сегодня. Вчера я настроил входящие через Telegram Bot используя сервис Make. Если Notion сложный, можно использовать Microsoft To Do или его аналоги.

В целом подход хороший, но очень сложно следовать простым правилам, например:
- формировать список задач на день
- не добавлять новые (срочные) задачи в текущий лист задач на день
- чистить список каждую неделю
- не реагировать на якобы срочные 2х минутные задачи (все бросить и бежать их делать)

Читать полностью…

Инжиниринг Данных

7 и 8 ноября в Москве пройдет Матемаркетинг — большая ежегодная конференция по маркетинговой и продуктовой аналитике для аналитиков, продакт-менеджеров, ML-специалистов и дата-инженеров

Я был только на самой первой конференции Матемаркетинг и с тех пор конференция стала круче. На ней можно узнать как топовые компании используют аналитики и данные, как создают и управляют аналитическими командами, множество реальных кейсов применения аналитики, инжиниринга данных и машинного обучения.

Вот доклад, с которым я выступал - Роль BI-систем и DWH в маркетинге. Архитектура и кейсы, и заодно сделал workshop по Snowflake + Tableau. И это было еще до того, как Snowflake стал mainstream.

Еще из интересного, именно на этой конференции я создал этот телеграмм канал, и если отмотать в самое начало, то там будет ссылка на Snowflake workshop. Уже после конференции, у меня было 600+ подписчиков. Поэтому, я вам точного говорю - отличная конференция, отличный нетворкинг, отличный опыт!

Программа: https://matemarketing.ru/program

Место проведения: МГУ, кластер «Ломоносов», Раменский бульвар 1.

Читать полностью…

Инжиниринг Данных

Яндекс Игры пришли к нам с запросом:


SELECT *
FROM subscribers
WHERE 1=1
AND channel_name = ‘rockyourdata’
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens')
AND data_driven_approach = true
AND analytical_mindset = true
AND years_of_experience >= 2;

Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать.

ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта.

Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах.

Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1

Читать полностью…

Инжиниринг Данных

Что помогло больше всего:
Rock Your Data. Дима позволил указать его компанию в качестве последнего место работы, что добавило в мое резюме опыт настоящей канадской компании из Ванкувера. Киллер-фича.
Подавался на разные специальности: Data Analyst, Business Analyst, Marketing Manager, Product Manager, Product Owner, Project Manager, Scrum Master. Под каждую свое резюме.
Английский для аналитиков в Skyeng. Английский с хорошими преподавателями в Инглекс. Английский по 5 часов в день 4 раза в неделю офлайн в Ванкувере с канадским нейтивом в ISSofBC.
ChatGPT. Пишет cover letter, адаптирует резюме под вакансию, учит разным непонятным навыкам из вакансии для собеседования.
Референсы от товарищей и хороших людей из Surfalytics. В Канаде рекомендация скорее всего приведет к тому, что на ваше резюме таки взглянет человек.
Скорость. Очень важна. Мощные референсы и классно заточенные резюме пропадали из-за промедления в несколько дней. Кто первый - того и рассмотрят, а на остальных времени может не остаться.
Проекты в Surfalytics. Особенно очные в офисе. В плане хард скилов помогло не так сильно, потому что я все время сталкивался с какими-то сложностями (как будто уникальными для моего ноута). Но поддержка и общение с единомышленниками, понимание, что есть к кому обратиться за помощью, обучением, прожаркой резюме - это все бесценно и нигде больше не встретишь.
SQL курс на Data Learn. Нравится 🙂

Что теперь. Есть еще несколько собеседований, которые надо допройти (Deloitte, Hootsuite). Несколько подач по референсам, которые обычно долго реагируют (Google, Amazon, Appryse, Microsoft). Все же охота и в IT, и на зп повыше. И должность продакта манит.

А если все это не срастется, то тогда надо будет принести реально большую пользу той единственной компании, от которой я пока получил оффер, и которой я очень благодарен за это. Надо 3-5 миллинов, говорите?


#testimmonial

Читать полностью…

Инжиниринг Данных

«Я всегда верил, что главное “попасть” куда-то, зацепиться, а там уже пробиваться наверх»

В гостях Дмитрий Аношин — автор канала Инжиниринг Данных и основатель проектов Datalearn, Surfalytics, Rock Your Data.

О чем мы поговорили?
🔵 О планах поработать инженером-конструктором на немецком заводе.
🔵 Об отсутствии финансовых перспектив в машиностроении.
🔵 О лучшем способе «зайти в Data»
🔵 О классных проектам в Amazon и Microsoft.

🔜 Подробности — в канале Карьера в Data | LEFT JOIN

Читать полностью…

Инжиниринг Данных

Недавно, я написал статья для блога Анастасии Кузнецовой про работы с GitHub, CI/CD на пример SQL файлов. А сегодня Настя написал статья для моего блога Surfalytics:

Just Enough Data Viz for Data Professionals
Master the 20% of Techniques That Drive 80% of Dashboard Impact

Мне хотелось собрать все самое необходимое связанное с визуализацией данных и дашбордами, такой своего рода cheatsheet для новичков в data или уже опытных инженеров (которые не про data viz и BI), получилось МЕГА КРУТО! 🔥

PS не забудьте подписаться на ее телеграмм канал Настенька и Графики.

Читать полностью…

Инжиниринг Данных

Вы как пользуетесь chatgpt на собесах или все «сами с усами»?

Главный навык это научиться решать задачки не привлекая внимания интервьюера. Собеседование теперь как охота на признаки «списывания», поэтому надо уже тренировать не leetcode, а навыки пользования всякими сервисами «без палево». Это я в своем discord предложил прокачивать такой навык:)

Как у вас собесы? Палите кандидатов? И сами пытаетесь списать?

Читать полностью…

Инжиниринг Данных

Друзья, у нас на DataLearn вебинар!
Тема: Как эффективно выстраивать ETL процессы с помощью low-code платформы


📅 Дата: [17 октября в 20:00 по МСК]

📍 Ссылка: [https://youtube.com/live/lLZ7jhsfflE?feature=share]

📌 Спикер: Алексей Арустамов

📊 О чем поговорим:
На предстоящем вебинаре мы расскажем, как с помощью платформы Loginom можно автоматизировать работу с данными без программирования и упростить сложные ETL процессы. Участники узнают, как объединять данные из различных источников, таких как Excel, 1С и Яндекс.Метрика, для полноценного анализа. В процессе будут рассчитаны дополнительные показатели, которые помогут более точно оценивать эффективность рекламных кампаний.

📌 Мы также поделимся практическими кейсами компаний и покажем, как они используют Loginom для решения задач в сфере аналитики.

🔍 Вебинар включает живую демонстрацию работы платформы — на примере вы сможете увидеть, как происходит автоматизация сбора и анализа данных.


🔗Ссылка на платформу: https://loginom.ru/

Также платформа проводит бесплатную конференцию по аналитике данных, где приглашает: аналитиков, IT-специалистов, руководителей и директоров (для тех кто хочет обогатить свой опыт в анализе данных и завести новые знакомства
РЕГИСТРАЦИЯ НА МЕРОПРИЯТИЕ


💼 Присоединяйтесь, чтобы узнать больше о современных подходах к аналитике и оптимизации бизнес-стратегий!

#вебинар #datalearn

Читать полностью…

Инжиниринг Данных

Для меня последние несколько лет использование CI/CD в аналитических проектах это must have, хотя до этого во всех компаниях в РФ мы никогда не использовали.

5 лет в Амазоне тоже обходился без CI/CD. В целом можно было использовать внутренний framework для этого, но совсем было непонятно с чего начинать.

А теперь на всех проектах, где я работаю, обычно первые 2 месяца уходят на создание правильного CI/CD framework или улучшения существующего.

С чего начать, если никогда не работали?

1. Понять GitHub на уровне создания branch, Pull request, Code review, Merge. (Module 0 Surfalytics)

2. Понять для каких задач это подойдет, а для каких нет. Например хранить XLS или Tableau Workbooks не самый лучший способ.

3. Внедрить pre-commit, linting для локальной разработки.

4. Добавить автоматические проверки в CI, начиная с linting/pre-commit и заканчиваю unit tests. Вы можете запускать в CI dbt, spark, pytest и использовать dummy данные или реальные.

У разных продуктов, есть разные способы проверки, например у Looker популярен Spectacles, у AWS Glue есть возможность использовать Glue Spark в контейнере, контейнер с Databricks.

5. Если код деплоится, добавить шаг CD и tags/releases.

Так же можно и для инфраструктуры с использованием Terraform, Helm Values и тп. Например, для Terraform часто используется Atlantis.

И все эти истории всегда killer features для собеседования на дата инженера!

Читать полностью…

Инжиниринг Данных

Как это знакомо…

Все больше встречаю постов от опытных инженеров, что Co-Pilot/ChatGPT не очень то уж и помогают, а часто даже вредят работе.

Как у вас?

Читать полностью…

Инжиниринг Данных

⚙️ От Postgres к Data Lake

Интересная статья с верхнеуровневым описанием эволюции внутренностей сервиса.

Notions - крутой органайзер с разнообразным функционалом.
Текстовые заметки, картинки, страницы, ... - представлены в виде "блока" в Postgres.

📶 До 2021 - все блоки хранились в 1 инстансе Postgres.
В 2021 стало 20 млн блоков.
Сейчас их 200 млрд. Как они хранятся?

🔡 Данные разбиты на 480 логических шардов, распределенных на 96 инстанцев Postgres.
БД обслуживала разнообразные запросы:
1) пользовательский траффик онлайн
2) оффлайн аналитику
3) машинное обучение

Было решено вынести от Postgres нагрузку 2), 3).

🔀 Воспользовались ETL:
Postgres -> connector -> Debezium -> Kafka -> S3 <- ...аналитика

⏺ Проффит:
1) Сэкономленный бюджет
2) Быстрая обработка
3) Новые возможности. Решение помогло быстрее внедрять AI функционал.

Подробности в статье:
https://blog.det.life/how-does-notion-handle-200-billion-data-entities-919b238c2846

Мой перевод на хабре:
https://habr.com/ru/articles/845446/

▶️ А у Вас есть проект с ETL? Какие видите в нём преимущества?

Читать полностью…

Инжиниринг Данных

Должна быть интересная дискуссия - Beyond Lakehouse Table Formats
The original creators of Delta Lake and Apache Iceberg™ take on interoperability formats


Хоть посмотрите на людей, кто придумал новый формат таблиц для озера данных и теперь они оба работают в Databricks и мечтают о прекрасном будущем для lakehouse.

Читать полностью…

Инжиниринг Данных

В моем списке нетехнических книг, которые я хотел бы прочитать есть The Engineering Executive’s path, которую написал Will Larson. Я уже писал про его другую книгу - Staff Engineer, которая очень релевантна для Senior инженеров, кому нравится оставаться в роли контрибьютера и дальше писать код и развивать технические направления. Не всем же руководить людьми.

А новая книга как раз для менеджеров и технических руководителей. Книга отлично подойдет тем, кто хочет выбрать для себя путь управленца или уже работает на позиции руководителя.

As an engineering manager, you almost always have someone in your company to turn to for advice: a peer on another team, your manager, or even the head of engineering. But who do you turn to if you're the head of engineering? Engineering executives have a challenging learning curve, and many folks excitedly start their first executive role only to leave frustrated within the first 18 months.

In this book, author Will Larson shows you ways to obtain your first executive job and quickly ramp up to meet the challenges you may not have encountered in non-executive roles: measuring engineering for both engineers and the CEO, company-scoped headcount planning, communicating successfully across a growing organization, and figuring out what people actually mean when they keep asking for a "technology strategy."


Совсем недавно увидел обзор книги в канале Книжный Клуб от Александра Поломодова, где он вкратце рассказывает про каждую главу:

Главы 1 - 4
Главы 5 - 6

Про Staff Engineer там тоже есть обзор 2х книг:
- Обзор книги "The Staff Engineer's Path", Tanya Reilly
- Обзор книги “Staff Engineer”, Will Larson

Несмотря на то, что книги про Staff изначально написано для Software Engineering, они идеально подходят и для Data Engineering, потому что на уровне Staff уже нужны другие компетенции.

Читать полностью…

Инжиниринг Данных

Последние время удалось потрогать множество проектов по инжинирингу данных. Все проекты и задачи я могу разделить на две большие категории. Одна категория это классический DE, такой вот, почти как pet проекты по инструкции:
- Слой хранения данных - Snowflake (или его ближайший аналог)
- Слой трансформации данных - dbt (аналогов вот нет, чтобы так просто и в SQL)
- Слой загрузки данных в слой в слой хранения (Fivetran, Airbyte, или просто Python)
- Система оркестрации данными – Airflow, Azure Data Factory
- Слой визуализации и отчетности – Looker, Tableau, Power BI и другие

Сами инструменты могут быть разными и хоститься на разных публичных облаках. Может быть полегче – SaaS, PaaS (это cloud service models, основа основ облачных вычислений, надо знать термины), а может быть посложней с использованием контейнеров. Так же всегда есть выбор – ковырять открытое ПО или использовать коммерческий продукт.

Но всегда смысл решения будет один и тот же, и таких решений большинство. Опытный инженер может достаточно быстро въехать в требования, понять, что нужно сделать, ну и сделать это. Еще и время останется.

А есть другая категория проектов, которые прям «каждый раз, как в первый раз». Ранжироваться может от ML до Software Engineering, от DevOps до Backend Engineer. Ну в смысле вообще не предсказуемо. И тут вам уже не поможет, ни ChatGPT, ни google. Потому что в такие вещи за 5 минут не въехать. Покрайней мере мне не удается это делать быстро.

Например, задачка – добавить новые продуктовые события в отчет. Казалось бы, как просто. Разбираемся. Откуда приходят данные? Данные пишет Kafka в S3. Схема JSON описана в protobuf. Данные изначально генерятся в backend, который написан на Node JS. То есть, когда случается событие, создается payload и отправляется в Kafka topic, там он как-то пересекается с protobuf, потом еще данные маскируются и все это дело уже складывается в S3. Вроде звучит просто, но у меня заняло время это понять, и еще займет много времени, прежде чем я смогу добавить два новых поля в backend.

Другой пример – event driven озеро данных на EMR+Spark. И часть джобов уже использует EMR Serverless (что дешевле и быстрей, традиционного, EMR. Надеюсь, у отечественных облаков уже тоже все сервисы доступны как Serverless). Для этого написал большой фреймворк на Python с множеством конфигурационных файлов в YAML. Задача у меня была обновить JDBC jars (драйвера) для Snowflake и Spark. Система настолько громоздкая и неповоротливая, что вообще не понятно где подступить.

Я не хочу вдаваться в подробности своих задачек, что как и почему. Мой поинт заключается в том, что есть два типа задачек, простые и не очень. Все программы обучения заточены на простые сценарии, отличаются лишь набором инструментов. И действительно в 80% случаях этого будет достаточно, чтобы найти работу. Я это уже проверил много раз на сообществе Surfalytics. И сам ни раз отдавал свои реальные задачи ребятам и сообщества, где они могли на реальных примерах что-то поковырять. А вот, чтобы решить остальные 20% задач уже нужны годы опыта. Тут уже мало что поможет.

Читать полностью…

Инжиниринг Данных

Ищем автора эталонного кода! 💎

Если вы уверены, что вашему коду подходит звание «Эталонный», а вам — звание «Автор самого красивого кода», то приглашаем принять участие в Конкурсе красоты кода 2.0 и выиграть классные призы от Сбера: iPhone 16 и умную колонку SberBoom.

Опытные эксперты определят победителей в пяти категориях: Backend, Frontend, DevOps, AI и Mobile, — а награждение пройдёт на ключевом IT-событии HighLoad в Москве, 2 и 3 декабря.

Больше 40 участников прошлого конкурса стали частью команды Сбера. Возможно, следующим станете именно вы — переходите по ссылке и изучайте подробности!

Читать полностью…

Инжиниринг Данных

Классика от фаундера - всем спасибо, все молодцы, мы старались как могли, но обстоятельства не сложились, все свободны.

Хотя получили прилично инвестиций - Data startup Cybersyn raises $63 mln in Snowflake-led funding round. Промотали все за 2 года.

Теперь фаундер может смело получить новые инвестиции и продолжить строить новый стартап, став серийным стартап-фаундером!

В целом для основателей стартапа это круто, и не так важно, что окажется на выходе. Ведь это опыт, и чем больше провалов, тем ближе успех. Инвесторы закладывают в риски, и если кто-то промотает 100+/- млн баксов, это нормально. Главное — не тратить эти деньги на роскошные вещи.

На второй картинке показана интересная статистика о выходе стартапов на IPO. Из нее видно, что топовые компании могут ожидать выхода на IPO около 15 лет.

Теперь если взять всю эту информацию, то есть очевидные факты:

1) Если у вас есть мечта создать стартап, и вы располагаете необходимыми ресурсами, то какой-нибудь YC может предоставить вам seed-инвестиции, если вам удастся туда попасть. (У меня даже есть идея по фану пройти YC в качестве некоего саббатикала, поехать в Сан-Франциско и попробовать поработать над стартапом вместе со студентами, раньше я хотел саббатикал в MBA MIT)

2) Если вы предпочитаете стабильную работу, и вам важно обеспечивать семью, то для вас более важны job security и стабильный растущий доход. Работать в стартапах, даже тех, что находятся на поздних стадиях и готовятся к IPO, становится все менее выгодно, особенно в последние годы. Опцион может стоить вам денег, а вы вынуждены ждать IPO. Кроме того, вас у вас нет бонусов или RSU, а иногда могут и уволить, ссылаясь на ‘тяжелую экономическую ситуацию’.

У меня был пример. Отработал 2 года в стартапе. При мне он получил 2 раунда, 2й был 600млн. Когда я уходил, мне предложили выкупить опцион за 60т CAD. Лучше эти 60к положить на S&P500 или классические активы с дивидендами.

3) Получается идеальный вариант это такой микс full time (бенефиты, страховка, зарплата по расписанию) и contract (контракт на какой-нибудь стартап). Можно и наоборот — работать в стартапе full-time, а в крупной компании по контракту. Вообще вариаций много. При этом налогообложение может стать интересной темой, если есть возможность совмещать проекты в разных странах.

Но прежде, чем думать про эти 3 пункта, надо стать хорошим и востребованным специалистом в какой-то области. Поэтому всему свое время, всем grow mindset!

Читать полностью…

Инжиниринг Данных

Новая книга на O’Reilly - Data Visualization with Microsoft Power BI.

The sheer volume of business data has reached an all-time high. Using visualizations to transform this data into useful and understandable information can facilitate better decision-making. This practical book shows data analysts as well as professionals in finance, sales, and marketing how to quickly create visualizations and build savvy dashboards.

Alex Kolokolov from Data2Speak and Maxim Zelensky from Intelligent Business explain in simple and clear language how to create brilliant charts with Microsoft Power BI and follow best practices for corporate reporting. No technical background is required. Step-by-step guides help you set up any chart in a few clicks and avoid common mistakes. Also, experienced data analysts will find tips and tricks on how to enrich their reports with advanced visuals.

Внутри 25 глав про различные диаграммы и пошаговые примеры реализации в Power BI.

Well done! С Алексеем я лично знаком и рад поддержать книгу!

Читать полностью…

Инжиниринг Данных

Все хотят хорошее качество данных! На собеседованиях вас обязательно спросят про качество данных.

Уже спрашивает чаще, чем про моделирование данных.

И вот книжка - Data Quality Fundamentals

Do your product dashboards look funky? Are your quarterly reports stale? Is the data set you're using broken or just plain wrong? These problems affect almost every team, yet they're usually addressed on an ad hoc basis and in a reactive manner. If you answered yes to these questions, this book is for you.

Many data engineering teams today face the "good pipelines, bad data" problem. It doesn't matter how advanced your data infrastructure is if the data you're piping is bad. In this book, Barr Moses, Lior Gavish, and Molly Vorwerck, from the data observability company Monte Carlo, explain how to tackle data quality and trust at scale by leveraging best practices and technologies used by some of the world's most innovative companies.

Build more trustworthy and reliable data pipelines

Write scripts to make data checks and identify broken pipelines with data observability
Learn how to set and maintain data SLAs, SLIs, and SLOs

Develop and lead data quality initiatives at your company

Learn how to treat data services and systems with the diligence of production software

Automate data lineage graphs across your data ecosystem

Build anomaly detectors for your critical data assets

Судя по описание хорошо подходит для инженера данных.

Читать полностью…

Инжиниринг Данных

Еще один отзыв о Surfalytics. Очень рад за товарища, что он нашел свою первую работу на позиции Senior BA в Ванкувере. Зарплата оказалась ниже, чем мы рассчитывали (100к-120к CAD), но, как видно из текста ниже, трудность была связана с английским языком. От себя могу добавить, что одной из трудностей была частая смена фокуса — то аналитик, то продакт-менеджер, и, возможно, перерывы в обучении. Очень важно выбрать одну профессию или роль и к ней готовиться, а также крайне важно не делать перерывов в обучении. В целом, все отлично, и цели достигаются!

Как-то так получилось, что я захотел переехать в Канаду и стать дата инженером примерно одновременно. Готовился переезжать по Express Entry. А Data учил с помощью Data Learn. И то и другое весьма вяленько. Было это до войны.

А когда она грянула, мы таки смогли переехать в лучший город мира. Ванкувер.

Целый год я работал на старой работе, в маркетинге, и учил английский. В Ванкувере ппц дорого, мы платили за 2 bedroom 3800 канадских баксов (на треть меньше баксов США). Но пока была старая работа, кэшфлоу был позитивный благодаря своему небольшому бизнесу по продвижению сайтов.

Потом, спустя год, я понял, что совсем мало времени получается уделять поиску новой работы в Канаде и решил уйти со старой. Говорят же - меняй или должность (в рамках своей компании), или компанию, или домен. Или язык, на котором работаешь, видимо. А я хотел сразу поменять все: перейти из маркетолога в русскоязычной EdTech компании в data аналитика в канадской IT компании. Для такого надо дохрена времени на всякое:
Обучение
Подготовка резюме
Подготовка к собеседованиям
Английский язык
Нетворкинг

Короче, ушел со старой работы и понеслось. Кэш начал потихоньку таять (хотя запас приличный, но чувство ппц неприятное). А работа не торопилась находиться. Вообще. Было так себе. Все эти сокращения в IT вывалили на рынок труда кучу высококачественных профи. А компании наоборот, поубавили аппетиты в плане найма.

Только Surfalytics радовал. Классное комьюнити позитивных людей с ну ооочень активной жизненной позицией. Как говорят, стремитесь быть в комнате, где чувствуете себя самым глупым. Значит вы в правильном месте. Так у меня было на наших сходках аналитиков и инженеров. Кайф. Без сарказма.

В итоге работу я нашел ровно спустя год после ухода.

Должность Senior Business Analyst. Компания e-commerce, а не IT, к сожалению. По большей части в отделе маркетинга. 76000 CAD в год с повышением до 80000 CAD через 3-6 месяцев. Owner говорит, чтобы окупить эти деньги, я должен увеличить доход на лям $. Но он верит, что я смогу увеличить на все 3-5 миллионов. Посмотрим 🙂

Из классного - это кайф, когда ты можешь подаваться в dream companies типа Google, Microsoft, Deloitte, Stripe и даже получать какой-то отклик.

Читать полностью…

Инжиниринг Данных

Привет!

Мы сделали лендинг для начинающих аналитиков данных: https://surfalytics.com/pages/data-analyst-landing/

Страница рассчитана на тех, кто только начинает свой путь в аналитике и ищет первую работу в этой области.

Буду рад вашим отзывам в комментариях — насколько всё понятно, и что, возможно, стоит доработать.

В будущем планирую добавить похожие страницы для BI-разработчиков, инженеров по аналитике и инженеров данных.

Читать полностью…

Инжиниринг Данных

через 5 минут начинаем))

Читать полностью…

Инжиниринг Данных

Недавно мы тут говорил о качестве Co-Pilot, ChatGPT и других инструментов. Из комментариев я понял, что более менее это Cursor + Claude AI.

Я сам ни разу не использовал Cursor и даже не понял, что это такое. Я посмотрел, что это и расскажу в вкратце.

Cursor - это IDE наподобие VSCode, он сразу может все настройки импортировать из существующего VSCode. Дальше, открываем чат и выбираем AI модель, с которой будем работать, как на картинке. По идее он должен понимать ваш code base и ему не надо все copy-paste для контекста.

Мне еще предстоит понять все преимущества и недостатки, но начало хорошее. Возможно придется купить платный Cursor и Claude для максимальной эффективности.

Ссылки:
- Cursor AI IDE
- Claude AI 3.5
- статья Claude vs. Cursor AI: Creating an Intuitive To-Do Web App to See Which Works Better

Поделитесь вашим опытом с IDE + AI ⬇️

Читать полностью…

Инжиниринг Данных

Мы тут обсуждали, что chatGPT не всегда помогает с кодом, зато мне вот помог с пельменями!

Читать полностью…

Инжиниринг Данных

Хороших выходных, элита.

Читать полностью…

Инжиниринг Данных

У меня давно была идея скопировать Data Learn из YouTube (или правильней запрещенная сеть?) в RUTUBE или VK Video.

Оказывается RUTUBE сделал космическую фичу - полностью копировать канал из YouTube, все видео и описания. Жалко, что обложки не копирует =/

Поэтому, чтобы посмотреть видео Data Learn или просто узнать, что такое аналитика и понять нужно вам это или нет совершенно бесплатно, теперь вам не нужен VPN, можете посмотреть на Rutube https://rutube.ru/channel/46386964/ (обязательно подпишитесь!)

В планах добавлять обзоры вакансий РФ по аналитическим профессиям и продолжать Data Learn. Может еще надо GitHub импорто заменить?

PS вопрос к знатокам, какой VPN самый лучший в РФ и какой аналог GitHub используется?

Читать полностью…

Инжиниринг Данных

Кто такой CDO и что он делает?

Chief Data Officer (CDO) — это руководитель, который отвечает за управление и использование данных в организации. Основная роль CDO заключается в том, чтобы создавать и реализовывать стратегию работы с данными, помогая компании эффективно собирать, анализировать, хранить и использовать данные для принятия бизнес-решений.

Основные обязанности CDO:

Разработка стратегии данных: CDO определяет, как данные будут использоваться в организации для поддержки бизнес-целей. Это включает выбор инструментов, технологий и методов для работы с данными.

Управление данными: CDO отвечает за качество, безопасность и управление данными, включая защиту данных и обеспечение соответствия регуляторным требованиям.

Инновации с данными: CDO исследует, как организация может использовать данные для создания новых продуктов или услуг, улучшения процессов или получения конкурентного преимущества.

Аналитика данных: CDO управляет процессами анализа данных для извлечения ценности из них, включая машинное обучение и искусственный интеллект.

Координация с другими отделами: CDO тесно сотрудничает с IT, маркетингом, финансами и другими департаментами, чтобы обеспечить единое понимание и использование данных.

Обеспечение соблюдения законов: CDO следит за соблюдением требований в области конфиденциальности данных и защиты персональной информации.

CDO помогает трансформировать данные в активы компании, которые могут увеличить её ценность и помочь поставленных стратегических целей.

Одно время CDO было очень популярно, потом сошло на нет.

В каждой компании свой подход. Где-то можно встретить CDO (обычно в более традиционных индустриях как финансы), а где-то их нет. Вместо них VP по аналитике, директора по инжинирингу (Software Engineering), CPO (chief product officer).

Мне нравится, что картинка передает суть, что есть два мира и их нужно кем-то соединить, а как роль называется не важно. Главное, чтобы к данным и аналитике был продуктовый подход, и цели для команд аналитики ставились в зависимости от целей организации. В этом плане отлично работают OKR (Objective Key Results).

Как лучше наладить согласованность и сотрудничество между бизнесом и миром данных? И решение не в покупке новых инструментов или программного обеспечения. Необходимо сочетать 50% технических навыков и 50% навыков донесения информации на уровне C-suite.

У кого есть в компании CDO? А если нет, то кто рулит данными?

Читать полностью…

Инжиниринг Данных

Новая книга - Building Medallion Architectures

In today's data-driven world, organizations must manage and analyze vast amounts of information to deliver the insights that give them a competitive advantage. Many turn to the medallion architecture because it's a proven and well-known design. Yet implementing a robust data pipeline can be difficult, particularly when it comes to using the medallion architecture's bronze, silver, and gold layers—done wrong, it can hamper your ability to make data-driven decisions. This practical guide helps you build a medallion architecture the right way with Azure Databricks and Microsoft Fabric.

Drawing on hands-on experience from the field, Piethein Strengholt demystifies common assumptions and complex problems you'll face when embarking on a new data architecture. Architects and engineers of all stripes will find answers to the most typical questions along with insights from real organizations about what's worked, what hasn't, and why.


Согласно описанию, книга будет посвящена примерам на базе Azure Databricks и Microsoft Fabric.

Я могу сказать, как это работает в Databricks. По факту, если вы строите озеро данных (data lake) или его улучшенную версию lake house (используете формат таблиц Delta, Iceberg), то вы разделяете хранение по уровням хранения данных:

- raw/bronze - может быть просто папка с blob storage, в которую вы грузите/копируете сырые данные и создаете таблицы, то есть абстракции в каталоге (Hive, Unity).

В случае dbt, это будет dbt source. Но dbt и databricks это какое-то modern data извращение.

- staging/silver - вы используете уже таблички из bronze, и делаете трансформации, но все еще данные raw (без агрегации), можете еще добавить joins.

- business/fact/dw/gold слой - там где у вас уже таблицы фактов/витрины/метрики, вы агрегируете данные и используете аналитические функции.

На второй картинке я привел свое решение на основе Microsoft Gaming. Я еще делал решение на Trino/dbt/Iceberg.

То есть medallion architecture просто подразумевает, что у вас есть несколько слоев в хранилище данных, и 30 лет назад когда делали хранилище даже и не догадывались, что они использовали архитектуру миньенчиков.

Читать полностью…
Subscribe to a channel