rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

Иногда такие фидбеки бывают!😎 (ЦАО это центр Москвы)

Читать полностью…

Инжиниринг Данных

Сидишь такой в четверг вечером и думаешь, что уже день прошел, а работа не сделана и все выбираешь, что сделать:

- Зафорсить Airflow DAG и сделать новый для Reverse ETL
- Поковыряться в Snowflake чужой команды, чтобы интегрировать через data share со своим
- Почитать best practices для Open Metadata
- Пофиксить косяки для EMR Serverless
- Узнать почему же у товарищей упал dbt поверх Databricks и помочь им его починить
- И еще надо бы люстру прикрутить
- И конечно закончить налоги!!!

В общем пока я думал, мне в Surfalytics прислали описание вакансий в Open AI:
- Data Engineer - 245k-390k
- Analytics Engineer- 210k-250k

Вакансии в SF.

Что используют:
- Hadoop на AWS, как я понимаю EMR + Spark, и предпочтение отдают Scala
- Tableau/Looker для BI
- упомянули про хранилище данных, но не сказали какой
- для оркестрации что-то из Airflow/Prefect/Dagster

Как понимаю есть и dbt, и обязательно будет классическое хранилище, не удивлюсь если по умолчанию Redshift. Оно и понятно, они не хотят вовлекать вендора, чтобы никто не хайповал, что у них клиент Open AI.

Ну я решил сразу хайпануть и записать обзор - Decoding Careers at OpenAI: Overview of Data & Analytics Engineer Opportunities

Читать полностью…

Инжиниринг Данных

Попался price рекрутера из Ванкувера, кто может вам сделать резюме.

1850 USD за резюме + Linkedin, при условии, что вы опытный специалист.

Сэм знает себе цену! Он тоже в Ванкувере, я хотел с ним на кофе сходить, но он сказал мне, что у него бизнес тут, и ему некогда на кофе с кем попало ходить.

PS Делаете услуги про резюму? Теперь вы знаете правильны расценки - от 150$ за 15 минут))

Читать полностью…

Инжиниринг Данных

Пример современного решения на Azure Databricks, и даже умудрились использовать dbt.

Сама статья больше про data quality проекта (качество данных) - Data Quality within Lakehouses

Читать полностью…

Инжиниринг Данных

Если вдруг интересно чего по чем там в Австралии https://www.youtube.com/watch?v=R2plum6sLT4

PS Нашел много Azure, Dataricks, и чего-то не так много Snowflake и dbt, может не там искал=) Зарплаты на уровне Канады, например Staff DE - 220к, Head of Data/Director - 250к в год в австралийских тубриках до налогов. Зимой планирую на месяц в Австралию и там попробовать сделать Surfalytics Bootcamp 🏄‍♂️

Читать полностью…

Инжиниринг Данных

Отличный совет для наших детей, что нужно учить в будущем. И получается Computer Science и Coding не очень вписываются в будущее https://youtu.be/BD6xQsk0ewQ?si=b-sPx1XOf3fgWtrU

Читать полностью…

Инжиниринг Данных

Не секрет, что нейросеть можно обучить чему угодно. Тут коллеги по ремеслу из Яндекса поделились в статье как они обучали свою LLMку YandexGPT пересказывать видео.

За основу взяли модельку, которая уже могла делать саммари статей внутри браузера. И начали по полной качать LoRA адаптер. Главное преимущество именно этого метода – он позволяет быстро экспериментировать и проверять огромное количество гипотез. А это необходимо при условии, что моделька обучалась на 20 000 суммаризаций (которые прошли ручную разметку!).

К тому же используя LoRA можно улучшить устойчивость модели к шуму, что может быть полезно в случаях, когда данные не идеальны. И что немаловажно – спасти от promt injections. Эти инъекции могут быть коварны – они могут привести модель к переобучению, что может снести весь текущий прогресс.

Читать полностью…

Инжиниринг Данных

Как искать работу зарубежом?

Канал Connectable Jobs собирает вакансии в международных стартапах с русскоязычными фаундерами и командами, публикует информацию о бэкграунде фаундеров, размере команды и инвестициях, а также делится прямыми контактами HR для отклика. Вот несколько актуальных вакансий:

Data Analyst в Rarible (Лиссабон/EU)
Product Analyst (L2 & ZK) в P2P.org (remote)
Senior Data Engineer в Exness (Кипр)

Еще у ребят есть платный канал только для продактов, аналитиков и маркетологов, где вакансии с прямыми контактами публикуются каждый день.

Подписывайтесь и развивайте карьеру в будущем единороге!

Читать полностью…

Инжиниринг Данных

Наконец-то попалась новость, которая говорит о движениях в индустрии. Ничего принципиально нового, но уже достаточно четкий тренд.

Как было раньше?

У вас или Хранилище Данных, у которого свой собственный storage, или у вас Озеро Данных, где storage отдельно от compute.

Потом появился Snowflake, и там вроде и хранилище, но по факту данные хранятся отдельно (в закрытом формате), и назвали это Lakehouse. Databricks тренд подхватил.

Open source community создало 3 продукта - Delta, Hudi, Iceberg, которые позволяют любому желающему сделать Lakehouse “бесплатно”.

Поэтому большие вендоры не смогли пройти мимо, и теперь мы видим как Snowflake выпустил Managed Iceberg Tables. Amazon Athena тоже поддерживает Iceberg. И можно у любого вендора найти историю про интеграцию.

Аналитические БД Clickhouse, DuckDb используются как SQL engine поверх файлов в озере данных, то есть тот-же Lakehouse.

BigQuеry тоже работает с Iceberg - Announcing Apache Iceberg support for BigLake

То есть если традиционно каждый продукт был отдельной единицей и можно было выбирать - Serverless, Open Source, Data Lake, Data Warehouse, то теперь все это интегрируется в единую экосистему, и благодаря открытым форматам данных уже сложней сделать Vendor Lock.

Читать полностью…

Инжиниринг Данных

Так выглядит модуль 1 Data Learn в 2024 году, 90% совпадает с тем что было 3 года назад, то есть фундаментально ничего не поменялось, и думаю еще долго не поменяется

Читать полностью…

Инжиниринг Данных

🫥 Конференция UNION ALL: объединяем экспертов и дата-технологии

📆 20 марта, онлайн и офлайн (Москва, «Синема Парк Мосфильм»)

Большая конференция, на которой поговорим о работе с данными и о цифровой трансформации.
Приглашённые эксперты отрасли поделятся практическим опытом построения [ТХ1] дата-проектов в облаке — от создания корпоративных хранилищ данных в облаке до построения систем скоростной аналитики.

Также обсудим:


возможности работы с YandexGPT и запуск собственных ML-моделей;
безопасное хранение данных в облаке;
актуальные новости о сервисе для визуализации данных DataLens.

А ещё будет секретный доклад, зоны для нетворкинга, чат-бот для бизнес-знакомств, стильный мерч и афтепати.

Можно участвовать онлайн и офлайн.

📌 Участвую

Читать полностью…

Инжиниринг Данных

Эх последний день отпуска, Фиджи очень понравился! Из Канады и США отличное направление. Из Австралии и НЗ вообще 3 часа.

Читать полностью…

Инжиниринг Данных

Нашу новую книжку оффициально опубликовали и ее можно заказать https://www.amazon.com/gp/aw/d/1803246596/ref=tmm_pap_swatch_0?link_from_packtlink=yes

Для меня это уже 7я книга, я обязательно напишу блог про написание книг!

Читать полностью…

Инжиниринг Данных

Добавил недостающий модуль к Data Learn, правда теперь на английском и уже к Surfalytics.

Module 00 - Prerequisites Engineering Tools for Data roles

Тут 5 видео:
- Module 0.1: Choosing the Best Laptop, Monitor, Chair, and Lighting for Data Professionals
- Module 0.2: Getting Started with VSCode IDE
- Module 0.3: Just Enough CLI
- Module 0.4: Just Enough GitHub
- Module 0.5: Just Enough Docker

Я немного изменил фокус и теперь хочу, чтобы все студенты были on the same page, у всех были правильные ожидания от их рабочего компьютера, был аккаунт в GitHub, базовые навыки работы с командной строкой и хороший IDE, ну и как бонус базовые знания про контейнеры.

Даже если ничего не понятно, это не страшно, главное практиковаться.

Зато, когда вы присоединетесь к компании, то вам будет легче разобраться, что происходит, быстро соеринтироваться в code base и у вас отпадут вопросы, что такое .pre-commit.yaml, и другие файлики, которые живут в репозитории.

Мне реально не хватало этих навыков и самому приходилось до всего доходить окольными путями, а теперь вот я записал это для вас.

Must have для всех кто учится и не знает что-нибудь из этого, будет ваше competitive advantage.

Можете подписаться на youtube: https://www.youtube.com/channel/UCnO5iETX7Q72PCvafzlsoOg

Читать полностью…

Инжиниринг Данных

Должен быть топчик от создателя dbt и мужичка, кто делаю лучший слайд с лого всего и вся DATA - Is the Modern Data Stack Dead?

Читать полностью…

Инжиниринг Данных

Как у вас там с эмпатией? Новый навык в резюме добавили в 2024?! В прошлом году мы добавляли DuckDB, Snowpark, Iceberg, и вычеркнули Firebolt. Ничего не забыл?

Инженер с высоким уровнем эмпатии, готов отнестись с понимаем к плохой архитектуре, кривым данных, и отсутствию документации и далее по списку!

Читать полностью…

Инжиниринг Данных

А есть кто из New York?

Планирую там быть 18-21 апреля, можно будет какой-нибудь митапчик сделать 🗽

А Seattle 17-19 мая.🍩

Читать полностью…

Инжиниринг Данных

Поговорим про деньги в IT?

Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные офферы.

Пройти опрос можно здесь

Читать полностью…

Инжиниринг Данных

Сегодня в Surfalytics мы изучали конкурента dbt labs - paradime.io. Честно говоря до сегодняшенего дня я не знал о существовании этой компании и было интересно послушать и понять в чем же их главное отличие от dbt cloud.

Никита участвовал в dbt челлендже который они устраивали и запилил проект на Modern Data Stack используя как раз paradime для dbt, ну и пару других инструментов таких как Hex и Sigma. Кстати приз за первое место $1500 USD - хорошая мотивация для тех кто изучает новые технологии.

Про paradime сложилось впечатление что ребята просто взяли dbt core и запили платную версию с интерфейсом как в VSCode с уже встроенными расширениями и job scheduler.

Но самое главное, что Никита сделал с нуля проект, изучил новый интрумент и поделился своим опытом со всеми участниками коммьюнити. Это отличный пример для тех кто учится и развивает свою карьеру. Очень рад что Surfalytics помогает в этом.

Пост от Никиты по итогам сегодняшнего воркшопа:
https://www.linkedin.com/posts/nikita-volynets_a-few-weeks-ago-i-discovered-a-new-dbt-workspace-activity-7172345289188470784-UNj-

Можно поддержать лайком, чтобы было больше шансов на победу!

PS там ссылка на GitHub и проект с dbt, snowflake, sigma, hex - все что нужно для analytics engineer

Читать полностью…

Инжиниринг Данных

Я немножко запоздал, но в Канаде только утро 8 марта.

Девушки с в 8 марта! Успехов вам, побольше путешествий и качественных данных!

PS источник фото https://katerinasov.ru/disk/8-marta-bh3jz4 (там еще много открыток)

Читать полностью…

Инжиниринг Данных

Пипец зарплаты на рынки с AI, такого не было раньше🍿

Недавно бывший VP Amazon (из Seattle) написал, что его годовой comp был 900к$ и в хороший год доходил до 2х млн$, а тут после универа и Phd можно сразу на такие деньги залететь.

Забавна, как несколько лет назад никто особо не смотрел в эту сторону, а теперь блогеры, которые успели запрыгнуть в ChatGPT контент (стали как бы экспертами) тоже неплохо крутятся.

Возможности приходят и уходят и кому-то удается максимально их реализовать.

Ну что, учите AI, LLMs, GenAi, Cuda?

Читать полностью…

Инжиниринг Данных

У Илона все ок с чувством юмора🚣

Читать полностью…

Инжиниринг Данных

От Автора вебинаров:

Хороший аналитик думает быстро и думает правильно.

Об этом в DataLearn провел два вебинара:
Развитие аналитического мышления -
https://www.youtube.com/live/7qVJO0-XdL4

Проекты и продукты: взболтать, но не смешивать -
https://www.youtube.com/live/6SaRpBoZ5Go

Эти вебинары, а особенно вопросы и обратная связь от аудитории стали основой для понимания элементов аналитического мышления и того, как они связаны между собой. В итоге всё удалось объединить в краткий, сжатый, очень плотный курс по тому, как развивать аналитическое мышление -
https://stepik.org/a/187981

Первая половина курса доступна бесплатно, чтобы понять, насколько вам это нужно.

Для подписчиков до 7 апреля 2024 по промокоду DATALEARN скидка 25%

Читать полностью…

Инжиниринг Данных

Извините за офтоп и еще не первое апреля, но не смог удержаться при просмотре сего шедевра особенно в связи последних комментариев про денГи под постом о Стафф инженерах.

Читать полностью…

Инжиниринг Данных

Я прочитал отличную книгу - Staff Engineer: Leadership beyond the management track, которую написал
Will Larson, сейчас он работает CTO Carta, это сервис который управляет опционами компаний, которые еще не вышли на IPO, возможно там и другие продукты из этой же категории.

У меня даже есть аккаунт Carta с опционом на 20k USD, который сгорит через 30 дней. Сначала я хотел выкупить его, потом подумал, что цена будет для меня почти 60k CAD (я считаю деньги до налогов), и я не уверен, что акции этой компании вырастут, даже если он выйдут на IPO в ближайшие 2 года.

Книга состоит из интервью Staff+ инженеров и выжимки основных идей, там даже есть интервью одной Staff DE из Mailchimp.

В целом книга хорошая, там четко прослеживается алгоритм действий для карьерного роста, даже с middle на senior. Очень много примеров и информации по стилю работы, который ожидается от Staff DE. Лично я на одном проекте являюсь Staff DE уже 1,5 года, и со всем полностью согласен.

Например, вещи которые осели в голове
Есть несколько архетипов Staff+ инженеров: Тим лид, Архитектор, Solver, Right Hands (Advisors).
Staff+ инженеры тратят много времени на менторство
Для Staff+ инженеров наличие “staff project” не является ключевым
Staff+ инженеры пишут мало кода и часто из обязанности пересекаются с обязанностью менеджеров, но только без performance reviews
Staff+ инженеры очень часто выступают в роли “клея” и взаимодействуют с разными командами и организовывают работу, задают техническое направление
Staff+ инженеры пишут много документов и конечно у них отличные Soft Skills
Иногда Staff+ инженеры решают hard problems

В книге собрано огромное кол-во ссылок на топ книги и статьи! А еще честно написано в каких случаях нужно менять работу или менеджера.

Если я буду анализировать свои 1,5 года в роли Staff, то на ум приходит:
Менторство (за год я вырастил 3 data engineer из смежных профессий, все были в моей команде)
“Клей”: очень много времени потратил на взаимодействие с product подразделениями внутри организации, и с помощью различных документов синхронизировал людей и техническое направление
Кода я писал очень много + инфрастуктурные вещи (это потому что в этой организации Staff+ прежде всего hands-on)
Мне приходилось быть одновременно: Тим лид, Архитектор, Solver


Главное, что нужно знать, что в 90% случаев Sr Engineer это потолок и от вас никто не ждет, что вы станете менеджером или Staff инженером. Но такая возможность существует, и если вам не хочется руководить людьми, то Staff+ лучший вариант. Например, я нашел компанию, где мне дали Staff на входе.

——
Теперь традиционно мое мнение про индустрию. Как я сказал, написано все красиво и классно. Но когда я читал книгу, у меня был какой-то внутренний диссонанс.

Меня мучали вопросы - сколько каждый инженер зарабатывает? А есть ли у них ипотека? А на какой машине ездят? А сколько детей? И тп. Потому что все эти карьерные истории напоминают мне аквариум, и они очень интересны и мотивирующие пока мы сами находимся в этом аквариуме и не подразумеваем, что существует целый океан за пределами нашего аквариума. Но это мой опыт и мой bias к происходящему.🤦‍♂️

Другой момент, мне напомнил про MBA программы, которые учат нас на кейсах 10ти летней давности. И очевидно, что работало 10 лет назад уже не работает, поэтому, возможно, некоторые красивые истории уже не сработают в будущем, ведь книга была написана в течении 2021 года на материалах 2020 года, еще до начала всех увольнений, бума AI, и других изменений индустрии.

Читать полностью…

Инжиниринг Данных

Snowflake отлично продает свои сервисы. Про Databricks мы обычно не слышим и не видим информации о продажах, доходах, а вот у снежинки наоборот, всегд информации на поверхности и ее любят шарить data (snowflake) influencers.

Лично для меня, Snowflake это про простоту и SQL.

Databricks я считаю более серьезных продуктом, и с ним легче оптимизировать цену.

Работаю и с тем и с тем последние лет 5. Но это больше как holly war, что лучше или что больше нравится, не стоит тратить время на обсуждение и споры.

CEO срубил бабла и уже 2й раз на пенсию=)

Читать полностью…

Инжиниринг Данных

Я записал видео про обзор вакансий Новой Зеландии и стоимость жилья и примерный расскалд по зарплатам.

Почему Новая Зеландия? Потому что единственный сидр, который был в отеле, был из NZ.

Следующий выпуск будет про автралийский сидр и рынок Австралии.

Мне было лень переводить мой пост на русский и я перевел с ChatGpt:

В этом эпизоде "Тестирование сидра Surfalytics" я погружусь во вкусы Новой Зеландии с дегустацией сидра Isaac 🍏 и исследую работу в области данных, технологический стек и популярные инструменты данных, специфичные для этого региона.

Также я рассмотрю средние цены на дома 🏠 и чистый доход 💰 для должностей в области данных, опираясь на информацию, доступную в описаниях вакансий.

Кроме того, я оценю общее качество этих описаний вакансий и поделюсь важными советами для специалистов по кадрам и рекрутингу о том, как составлять привлекательные объявления о вакансиях, чтобы привлечь подходящих кандидатов.

Некоторые выводы:
- Большинство вакансий в НЗ предполагают работу в офисе или гибридный формат 🔄
- Малое количество вакансий в области данных, с минимальной конкуренцией 📉
- Заметное присутствие рекрутинговых компаний и агентств-посредников 🕵️‍♂️, которые, похоже, перепродают инженеров
- Многие государственные работодатели предлагают хорошие льготы, некоторые из которых предлагают достойные технологические стеки 🏛️
- Среди описаний вакансий не увидел ни одной компании из MAANG или других крупных технологических компаний

Основные технологии:
- Преобладание технологий на месте, с лидерством SQL Server и стека Microsoft 🖥️
- Многие компании рассматривают переход на Azure, особенно на Synapse ☁️
- Power BI является самым популярным инструментом BI, в то время как Snowflake и DBT пользуются популярностью среди современных компаний ❄️🛠️
- Диапазоны зарплат часто не раскрываются или низки по сравнению с такими странами, как Канада 🇨🇦
- Высоко ценятся навыки инженерной совершенности и DevOps, включая инфраструктуру как код, CI/CD и контейнеры 🚀
- Azure и AWS являются главными выборами публичных облаков, GCP не упоминается ☁️

Информация о зарплатах:
- Инженеры по данным получают около 7-8к, в то время как аналитики данных получают около 4-6к 💵
- Налоги ниже, чем в Канаде 🍁

Информация о жилье:
- Средняя стоимость трехкомнатного дома превышает 1 миллион 💸
- Локации дальше от Окленда дешевле, но с преобладанием гибридной и офисной работы это часто не имеет значения 🌆


https://youtu.be/CcWbvDklXTI

Читать полностью…

Инжиниринг Данных

How Netflix builds a culture of excellence | Elizabeth Stone (CTO)

Читать полностью…

Инжиниринг Данных

Как использовать Базы данных для анализа данных на максимум?

Как быстро освоить ключевые навыки на практике, зачем использовать NOSQL, почему вам стоит использовать векторные базы данных и какие тренды стоит изучать в 2024 году.

А если вы не хотите терять время на бесполезные материалы и гайды — читайте канал: SQL Data Science, здесь вы за пару месяцев, а не за пару лет научитесь проектирвоать базы данных для проектов любого масштаба.

Разбор реальных практических задач с собеседований крупнейших компаний и новейшие тренды в работе с базами данных.

Для вас мы собрали маст-хэв папку для всех, кто работает с данными.

Подписывайтесь, такие знания в 2024-м году на вес золота: @sqlhub

Читать полностью…

Инжиниринг Данных

🌋 Нейросеть Яндекса поможет отслеживать распространение вулканического пепла

Пеплопад — опасное природное явление. Ежегодно сотни населённых пунктов по всему миру накрывает пеплом, останавливается авиасообщение. Нельзя предотвратить моменты выброса пепла, но можно заранее определить, на какую территорию он будет распространяться.

Для этого Yandex Cloud, Яндекс Погода и Школа анализа данных (ШАД) Яндекса вместе разработали специальный сервис в виде интерактивной карты. С его помощью спасательные, городские службы и учёные-геофизики смогут быстрее оповещать международную авиацию, жителей и туристов о распространении пепла и эффективнее устранять последствия выбросов. Сервис можно адаптировать для прогноза распространения выбросов пепла в любой точке мира. Сейчас технология уже помогает следить за пеплопадом на Камчатке.

💬 Читать подробнее о проекте.

Читать полностью…
Subscribe to a channel