Telegram-канал rockyourdata - Инжиниринг Данных: Unsorted - каталог телеграмм

rockyourdata | Unsorted

Subscribe to a channel

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

14 November 2024 21:07

Идея FIRE (Financial Independence, Retire Early) уже не новая. FIRE с детьми и без - это очень большая разница. Есть еще semi-FIRE.

Вот 3 топ статьи на эту тему:

- An ex-Meta employee calculated that his family of 3 needs $5.6 million to retire in San Francisco. Here's the formula he used and how he plans to hit his 'enough number.'
- FIRE Lessons From ex-AMZN Director Dave Anderson
- Your Neighbors Are Retiring in Their 30s. Why Can’t You?

Интересно, кто-нибудь из подписчиков на пути к FIRE?

Лично у меня не получается. Возможно, причина в том, что в молодости всегда был дефицит, и поэтому постоянно хотелось «хороших и дорогих вещей, путешествий и тп». Когда начинаешь зарабатывать, появляется желание купить всё и сразу. Возможно, вам знакомо такое чувство. Лучше всего сначала купить то, что хочется, а потом уже думать, как быть дальше.

Про FIRE я даже не думаю, а вот semi-FIRE — это хорошая цель. Главное преимущество — не зависеть на 100% от работы. Например, вас сократят, а вам всё равно: у вас есть альтернативные источники дохода или сбережения.

Читать полностью…

Инжиниринг Данных

13 November 2024 17:42

Добавил видео о NoSQL базах данных в контексте аналитики, а именно об их использовании в качестве ИСТОЧНИКА данных для аналитических решений. В качестве примера выбрал документ-ориентированную базу данных MongoDB.

После обзора стандартной архитектуры аналитического решения, возможных use cases и обсуждения особенностей MongoDB и ее структуры, перешел к практическим упражнениям:

- установка MongoDB через Docker Compose;
- создание облачной (бесплатной) версии MongoDB Atlas;
- написание запросов к базе данных.

В завершение рассмотрел основные способы извлечения данных из MongoDB:

- low-code/no-code: Matillion, Fivetran;
- code-based: Meltano, AirByte, Python, Airflow.

Не затронул только стриминг данных с помощью Kafka Connect или Debezium.

Ссылка на видео: https://youtu.be/bzTfn7WI5h8?si=W9jnt6cwqi8vhqQH

00:19 Welcome Message
01:00 NoSQL use cases for Data Professionals
07:31 Amazon Oracle Migration
00:12:08 MongoDB is a bad choice for data warehouse
00:13:21 MongoDB introduction
00:18:49 MongoDB elements
00:21:17 JSON, JSON Object, JS Object, BSON
23:41 MongoDB Installation
25:07 MongoDB Atlas Cluster Overview
25:28 MongoDB Charts Overview
30:40 Running MongoDB in Docker Compose
35:00 MongoDB GUIs Overview
38:49 Connect MongoDB Atlas with CLI
42:42 Query MongoDB collections
51:15 Data Integration with MongoDB using Low Code Applications, Python and Airflow

Ссылка текст и код: https://github.com/surfalytics/analytics-course/blob/main/02_getting_started_with_databases/06_nosql_databases/mongodb/readme.md

Читать полностью…

Инжиниринг Данных

12 November 2024 17:02

Как подготовиться к публичному выступлению? Даже бывалые спикеры мандражируют перед своей речью, что уж говорить о новичках.

Поэтому хорошо, когда есть план, которому следуешь. Такой, например, уже прописали HR из Яндекса в посте у себя в канале. Актуально не только для крупных профессиональных конференций, но и для рабочих встреч, где вы, например, питчите проект. Вот три самых важных момента:

1. Изучите аудиторию. Нужно подобрать формат выступления, основываясь на степени экспертности и заинтересованности ЦА.
2. Определите ключевые месседжи. Это главное, что слушатели запомнят и вынесут из вашего выступления.
3. Обходитесь без зубрежки. И не прописывайте все фразы на слайдах. Органичнее будет выглядеть свободная речь, словно разговор в кругу знакомых.

И бонусом еще советы от профи, которые готовят спикеров: прогоните выступление перед друзьями, запишите вашу репетицию на видео или аудио и не забывайте анализировать свой опыт.

Читать полностью…

Инжиниринг Данных

09 November 2024 05:05

В Surfalytics у нас сегодня был проект с DuckDB. Для многих это была первая возможность попробовать эту технологию.

Вот несколько классных вариантов использования для аналитики и инженерии данных:

- Запросы к локальным файлам с помощью SQL
- Исследование данных, хранящихся удалённо в S3, Azure или GCP
- Использование DuckDB как альтернативы обычному Postgres в качестве хранилища данных
- Удобно работать с dbt для чтения внешних таблиц/файлов и преобразования их в source модели dbt и уже строить модели внутри базы
- Работа с современными lakehouse форматами, такими как Iceberg и Delta
- Альтернатива Spark DataFrames при обработке небольших данных
- Эффективное преобразование данных из CSV в Parquet или другие форматы
- Запись результатов напрямую в Markdown для pull-запросов или код-ревью
- Удобно при работе с API - связка Python + DuckDB

Этот список можно продолжать!

Вот само упражнение, можете повторить и все будет понятно: https://github.com/surfalytics/analytics-course/tree/main/02_getting_started_with_databases/07_duckdb

Завтра у нас будет BigQuery + dbt на GCP - большой проект. Прошлый был про Redshift Serverless + Lambda + AWS Step Functions - делали ETL по извлечению из API.

Читать полностью…

Инжиниринг Данных

08 November 2024 17:58

Статья про внутрянку Amazon - Amazon’s Exabyte-Scale Migration from Apache Spark to Ray on Amazon EC2.

Все началось в 2016 году, когда Амазон начал мигрировать с Oracle on-premise на AWS. Как раз имея этот опыт миграции on-premise в cloud я придумал делать консалтинг Rock Your Data. Миграцию закончили в 2018.

Далее уже стали строить внутреннее озеро данных с использованием AWS EMR (Hadoop), Spark, Redshift, Glue и тп.

Spark стал главным инструментом для пользователей, чтобы извлекать из центрально озера данных.

Amazon’s petabyte-scale data catalog had grown to exabyte-scale, and their Apache Spark compactor was also starting to show some signs of its age. Compacting all in-scope tables in their catalog was becoming too expensive. Manual job tuning was required to successfully compact their largest tables, compaction jobs were exceeding their expected completion times, and they had limited options to resolve performance issues due to Apache Spark successfully (and unfortunately in this case) abstracting away most of the low-level data processing details.

В 2020 году они сделали PoC по Ray - 12X larger datasets than Apache Spark, improve cost efficiency by 91%, and process 13X more data per hour

Сейчас у них классные результаты:

During the first quarter of 2024, BDT used Ray to compact over 1.5EiB of input Apache Parquet data from Amazon S3, which translates to merging and slicing up over 4EiB of corresponding in-memory Apache Arrow data. Processing this volume of data required over 10,000 years of Amazon EC2 vCPU computing time on Ray clusters containing up to 26,846 vCPUs and 210TiB of RAM each.

What’s more impressive, is that Ray has been able to do all this with 82% better cost efficiency than Apache Spark per GiB of S3 input data compacted. For BDT, this efficiency gain translates to an annual saving of over 220,000 years of EC2 vCPU computing time. From the typical Amazon EC2 customer’s perspective, this translates to saving over $120MM/year on Amazon EC2 on-demand R5 instance charges.

Кто-нибудь использовал Ray? Опыт может подойти компаниям с огромными данными Pb+. А Tb мы можем и в Snowflake/Databricks гонять)

Читать полностью…

Инжиниринг Данных

06 November 2024 19:45

Я всегда использую draw.io как бесплатный инструмент для диаграмм, оказывается есть plugin для VSCode.

Читать полностью…

Инжиниринг Данных

06 November 2024 09:05

Слышали про duckdb?! Вот быстренький туториал https://motherduck.com/blog/duckdb-tutorial-for-beginners/ можете пройти и пощупать руками.

Можно даже в браузере запустить: https://shell.duckdb.org/

Например удобный способ почитать Parquet файл, вместо Parquet CLI-утилит.

Одна из интересных фич “Larger-Than-Memory Workloads (Out-of-Core Processing)”

В целом большинство сценариев про локальное чтение файлов или чтение из S3/GCP/Azure Storage.

Пока не очень понятно как использовать DuckDB для реального распределенного озера данных (lakehouse, data lake). Вот в этой статье - Okta's Multi-Engine Data Stack, Jake рассказывает как они съехали со Snowflake на DuckDb для их security сценариев. (Я его хорошо знаю). Там и ссылка на его доклад.

В целом я отношу сие изделие к разряду fancy. Есть категория разработчиков, кто любит всякие такие штуки использовать, пока другие ~~стучат молотком~~ работают с Databricks, Snowflake, BigQuery и тп.

Статьи по теме:
Build a poor man’s data lake from scratch with DuckDB
Process Hundreds of GB of Data with DuckDB in the Cloud
🦆 vs ❄️ ... 💸 ?

Читать полностью…

Инжиниринг Данных

05 November 2024 06:13

Вот вы все любите про А/Б тесты. А есть же еще А/А тесты.

Перевод:

A/A-тест — это эксперимент, в котором оцениваются два идентичных варианта: это как A/B-тест, но без различий между вариантами.

Вот примеры, как A/A-тесты могут быть полезны:

1. Обучение и выявление наших предубеждений. На занятиях по обучению экспериментам опишите какую-то функцию и попросите участников решить, запускать её или нет, исходя из оценочной карты для A/A-теста. Вы будете поражены тем, какие причины люди придумают! Реальный случай: во время обсуждения эксперимента у нас разгорелся горячий спор о ценности функции, сегментов и т.д. В какой-то момент кто-то заметил, что в названии эксперимента была опечатка (код использует название для выполнения различных действий), и оказалось, что это был A/A-тест. Весьма отрезвляюще. Мы добавили функцию в нашу платформу экспериментов, которая предупреждает, если оценочная карта эксперимента похожа на A/A.

2. Небольшой размер выборки в первые дни. Когда начальник спрашивает, как идут дела через день после запуска, хотя запланированная длительность эксперимента — две недели, отправьте ему две оценочные карты: одну для A/A-теста (убедитесь, что ключевая метрика положительна, или поменяйте значения для A/A), другую — для реального A/B-теста. Скажите, что одна из них реальная, а другая — A/B, и попросите угадать, какая из них какая. Это действительно отрезвляет и наглядно показывает, что на ранних этапах результаты выглядят случайными.

3. Валидация платформы. Запустите 500 A/A-экспериментов и проверьте, что примерно у 5% p-значение < 0.05. Если это не так, значит, в вашей платформе экспериментов есть ошибка. Лучше всего, чтобы распределение p-значений было равномерным.

Источник: https://experimentguide.com/

Мне кажется можно под шумок вместо А/Б тестов запускать А/А, потом слушать как аналитики рассказывают почему один вариант лучше другого, а потом рассказать им, что это было одно и тоже🎅

Читать полностью…

Инжиниринг Данных

04 November 2024 00:58

Попался сервис Unstuck AI - позволяет по ссылке в YouTube получить Summary, Key points.

Читать полностью…

Инжиниринг Данных

03 November 2024 03:36

Pro tip: поставьте рабочую почту и Slack (или аналог) на Mute. Удалите с телефона рабочие аккаунты — и будет вам счастье. Так работаю уже последние лет пять.

99% коммуникации — это FYI. Почту можно проверять раз в день. Очень часто срочность у нас в голове, и нам кажется, что, если мы не ответим на сообщение, то про нас подумают, что мы не работаем.

Исключение — это алерты о сбоях production. Здесь, наоборот, важно не пропустить. И, конечно, важно не пропускать встречи, но, как правило, для IC-ролей расписание встреч +/- устоявшееся.

Данный tip подходят для разработчиков и инженеров;)

Читать полностью…

Инжиниринг Данных

01 November 2024 18:10

Статистику AppMetrica теперь можно получить за пару кликов

Партнеры РСЯ и AdFox могут получить доступ к расширенной аналитике всего в несколько действий, так как процесс теперь автоматизирован и не нужно тратить время на написание кода. Чтобы воспользоваться этой возможностью, выполните следующие шаги:

1. Зарегистрируйтесь в AppMetrica под своим логином в РСЯ или Adfox.
2. Заполните профиль и свяжите с AppMetrica приложения, которые монетизируются через РСЯ.
3. Подтвердите свое согласие на передачу данных.

Таким образом клиенты РСЯ и AdFox смогут получить расширенные данные сервиса

Если вы уже работали с AppMetrica, то вас достаточно добавить в интерфейсе сервиса связь с приложение Yandex Mobile Ads в «Синхронизации Ads SDK».

Читать полностью…

Инжиниринг Данных

31 October 2024 19:00

Перед тем, как вернуться к дальнейшему разбору многосерийной саги «Как быть и что делать с рынком состояния хуже некуда» , предлагаю стряхнуть пыль со своего ютуба , ведь уже завтра мы встретимся с
Димой Аношиным - экспертом по дата инжинирингу, ex-Amazon и Microsoft , а также автором DataLearn и Surfalytics.

Начнем эфир завтра, 31 октября в 21:00 по московскому времени на ProductAnalytix">моем канале. Что обсудим:
- опыт в FAANG и как там оказаться
- ужасы текущего рынка и какие навыки в ходу
- поговорим о забуграх и что делать, чтобы преуспеть
- свои проекты VS найм и сподвигли ли свои проекты по-новому взглянуть на рынок кандидатов
- чему учить и чему учиться 📚

Ваши вопросы в комментариях категорически приветствуются !

До встречи 👋

Читать полностью…

Инжиниринг Данных

30 October 2024 07:59

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.

Зарегистрироваться

Читать полностью…

Инжиниринг Данных

29 October 2024 11:31

Еще один мощный отзыв про Datalearn/Surfalytics. С человеком даже виделся в New York весной.

Когда я приехала в США в конце 2019 года, я знала, что найти работу по специальности будет непросто. Обновила LinkedIn, но не имела полного представления о том, как вообще искать работу на западном рынке. Рекрутеры иногда писали и звонили мне в LinkedIn, но обычно всё заканчивалось после первого контакта. Отсутствие разрешения на работу только добавляло проблем.

Не помню, как именно наткнулась на сообщество Datalearn, но вступила туда и почувствовала себя в окружении единомышленников. Смотря назад, думаю, почему же я тогда не делала всё, что рекомендовал Дима?! Я смотрела бесплатные видеоуроки на YouTube, которые другие продавали бы за огромные деньги — они помогли мне прокачать и систематизировать навыки. Но, если честно, я не так активно использовала весь потенциал, который Datalearn предлагал на тот момент.

Время шло, и по совету школьной подруги я поступила в магистратуру в 2021 году. Помимо местного диплома, университет предоставлял разрешение на работу во время учёбы (CPT). Потом в 2022 году мне повезло получить свой первый офер в США. Рекрутер нашла меня в LinkedIn, и после трёх этапов интервью, где в основном спрашивали о моём опыте и задавали поведенческие вопросы, мне сделали предложение. На тот момент рынок труда был более доступным — не было ни лайв-кодинга, ни семи этапов собеседований, как сейчас. Думаю, мне повезло, так как я не искала работу активно и не отправляла по 200-300 заявок.
К сожалению, в декабре 2023 года мне пришлось покинуть компанию, так как истёк срок действия моего разрешения на работу(СРТ). Я планировала вернуться в январе с новым пермитом, но компания объявила о банкротстве и заморозила найм. Я снова оказалась без работы и, честно говоря, немного потерялась. Первые три месяца я ничего не предпринимала и деградировала, но в марте 2024 года узнала, что Дима запустил англоязычное сообщество Surfalytics.

Surfalytics оказался настоящей находкой. Это сообщество с доступом к Discord-каналу за символическую подписку, в котором собрались профессионалы со всего мира. Здесь есть разные каналы по темам, клубы для целей “200-300-500” и множество практик — от мок-интервью с лайв-кодингом до живых проектов. На практике SQL мок-интервью я осознала, что стрессовая обстановка влияет на меня сильнее, чем я думала. Решать задачи перед интервьюером — это совсем не то же самое, что делать это в одиночку! Но наблюдая за другими, я поняла, что это навык, который можно улучшать.

Все видеоуроки на YouTube — бесплатные. Лично я после урока Just Enough GitHub на канале Surfalytics отлично разобралась с Git и GitHub, а асинхронные пет-проекты помогли закрепить знания. Я, конечно, не самый активный участник и не довела все проекты до конца, еще есть чему учиться.

В Surfalytics также проходят проекты в прямом эфире. Иногда я забываю ставить уведомления и опаздываю подключиться, но даже просто наблюдать за процессом — бесценно. Формат асинхронных проектов мне подходит идеально: в спокойной обстановке я усваиваю больше и не забываю изученный материал. В асинхронных проектах Дима даёт и описывает задачи по неделям и направляет, где и что почитать, чтобы выполнить, а все вопросы обсуждаем в чате.

Каждую неделю каждый пишет о своём прогрессе в поиске работы, многие делятся вопросами из интервью, рассказывают, что изучают и какие у них планы на неделю. Такая среда амбициозных людей держит тебя в тонусе и не даёт расслабляться. Я, конечно, довольно пассивный участник и редко пишу о своём прогрессе 🙂

Surfalytics — это не просто база знаний. Это сообщество, где любой вопрос находит ответ, а поддержка помогает расти как профессионально, так и лично. Спасибо, Дима, за то, что собрал всех нас и делишься своим опытом. Моя карьера меняется и продолжает расти благодаря Surfalytics! Используя минимум того, что даёт это сообщество, я смогла войти в клуб “200-300-500”, где гросс-доход составляет от 200к$ до 300к$.

Ну и вкратце, из точки 0 до 200k$-300к$ с помощью Surfalytics. Дальше — больше!

#testimmonial

Читать полностью…

Инжиниринг Данных

29 October 2024 00:18

Недавно мне попались какие-то рилсы про ИТ на русском, там столько новых слов узнал и решил поискать побольше про модные термины:

В российском ИТ-сленге есть много интересных терминов, которые часто встречаются среди разработчиков, аналитиков и администраторов. Вот некоторые из самых популярных и их значения, какие-то привычные, а какие-то совсем неожиданные, например “плов” 😞

Я обратился к ~~коллеге~~ ChatGPT и вот что он мне поведал:

1. Балалайка — чаще всего так называют сложные или плохо настроенные системы или проекты, которые работают, но требуют постоянного внимания и доработок. “Балалайка” передаёт идею “неуправляемости”.
2. Плов — термин, который действительно часто используют для обозначения Apache Airflow, популярного инструмента для организации пайплайнов данных.
3. Пингвин — обозначение для операционной системы Linux. Название идёт от талисмана Linux — Tux, изображающего пингвина.
4. Креветка — процесс с высокой нагрузкой на ресурсы, которые “жрут” процессор и память. Иногда говорят про тяжёлый сервис или приложение, нагружающее сервер.
5. Мок — сокращение от английского слова mock, используется для обозначения имитации реальных данных или функций при тестировании, так называемые “заглушки”.
6. Прод или продакшен — сокращение от “production”, т.е. рабочая среда, где работают реальные пользователи и данные.
7. Тачка — означает компьютер или сервер, обычно в контексте “рабочей машины”.
8. Фрейм — термин, который часто применяется в контексте фреймворков (frameworks) и реже как укороченное название для экранных кадров (frames), например, в веб-разработке или создании интерфейсов.
9. Геморрой/гемор — проблемная задача, часто используемая в контексте особенно сложных багов или неудачных решений, которые сложно реализовать.
10. Костыль — временное решение или workaround, которое исправляет проблему, но не решает её полностью и может создавать новые сложности в будущем.
11. Забить гвоздь — закоммитить небольшой правку или выполнить быстрый фикс, даже если он временный.
12. Хомяк — junior-специалист или стажёр, который только учится и делает простые задачи, иногда с не самыми эффективными решениями.
13. Джавасруль или JavaScript — шутливые названия для JavaScript, часто встречаются среди тех, кто с иронией относится к этому языку.
14. Зоопарк — среда, где собрано много различных технологий и фреймворков, создающих сложный ландшафт, который сложно поддерживать.
15. Снегирь — разработчик, предпочитающий фронтенд-разработку, т.е. создание пользовательских интерфейсов и визуальных элементов.
16. Кликер — человек или скрипт, создающий большое количество нажатий, например, в аналитике для искусственного увеличения показателей.
17. Девопсить — заниматься задачами, связанными с DevOps, обеспечением автоматизации, развертыванием и поддержкой инфраструктуры.
18. Лапша — плохо написанный или очень сложный код, который сложно читать или поддерживать (аналог “spaghetti code” в английском).
19. Огурец — Cucumber, популярный инструмент для тестирования, особенно для BDD-тестов.
20. Залипуха — запутанная ситуация или особенно сложная задача, которая требует много времени на разбор.
21. Накатить — значит применить обновления, изменения или новую версию кода на систему, которая уже работает. Это может быть как разовая установка, так и регулярные патчи. Например, “накатить новый релиз” означает применить новую версию приложения или системы.
22. Раскатать — обычно означает развернуть или разослать обновление, начиная с тестовой среды до полного внедрения на продакшен. Часто под раскаткой подразумевают постепенное развёртывание на несколько серверов или регионов. Это снижает риски, поскольку если где-то что-то пойдёт не так, можно откатить изменения на отдельных частях системы.
23. Бьютифай — делать данные или визуализацию “красивыми” и удобными для восприятия. Это может включать корректировку графиков, выбор цветовой схемы и общую стилизацию отчётов и дашбордов.
24. Растрескать данные — разделить большой массив данных на несколько частей для параллельной обработки или более удобного анализа.

Читать полностью…

Инжиниринг Данных

14 November 2024 07:44

Бесплатные курсы по Snowflake на Coursera:

- Intro to Snowflake for Devs, Data Scientists, Data Engineers
- Introduction to Modern Data Engineering with Snowflake

⛄️

Читать полностью…

Инжиниринг Данных

12 November 2024 20:41

Товарищи эксперты, филологи, отличники и отличницы, знатоки русского языка, как вы считаете, как правильно писать дата инженер на дореволюционной орфографии?
- дата инженеръ
- дата инжѣнѣръ
- дата инжѣнѣр

(Слово дата оставим как есть, его все равно не было)

Источники:
- Немного о дореволюционной орфографии. Лебедев.
- БУКВА "ЯТЬ"
- Конвертер в старославянский

Читать полностью…

Инжиниринг Данных

10 November 2024 07:17

Товарищ решил провести бесплатный bootcamp по DE, обычно он за 1500$ продает, а потом пишет в блоге как млн заработал🦯

💯 маркетинговый ход, но если есть время, то почему бы и нет?! Можно и английский подтянуть вместо сериальчиков👉

Читать полностью…

Инжиниринг Данных

09 November 2024 04:19

LinkedIn продолжает пестрить разочарованием в прошедших выборах. Некая Бренда заявила, что больше не будет качать Community, Кейт ее поддержала. И таких постов много.

Пока одни ноют другие ищут возможности. Вот теперь кто-нибудь может забрать сообществе себе, нет желающих?))

В Канаде все просто, тут могут помочь 👻 всем желающим, кому тяжело жить. Не знаю как там в штатах с помощью.

Читать полностью…

Инжиниринг Данных

07 November 2024 23:52

Apache Airflow очень популярный инструмент для оркестрации наших джобов по загрузке и трансформации данных. В РФ это по-моему просто number one инструмент для аналитика-инженера.

Появилась новая книга Apache Airflow Best Practices от Packt Publishing.

With practical approach and detailed examples, this book covers newest features of Apache Airflow 2.x and it's potential for workflow orchestration, operational best practices, and data engineering

This book covers the following exciting features:

- Explore the new features and improvements in Apache Airflow 2.0
- Design and build data pipelines using DAGs
- Implement ETL pipelines, ML workflows, and other advanced use cases
- Develop and deploy custom plugins and UI extensions
- Deploy and manage Apache Airflow in cloud environments such as AWS, GCP, and Azure
- Describe a path for the scaling of your environment over time
- Apply best practices for monitoring and maintaining Airflow

Книга про 2ю версию, хотя уже скоро будет версия 3.0.

Есть книга Data Pipelines with Apache Airflow

Ближайшие бесплатные аналоги - Prefect, Dagster, Luigi. Есть еще другие SaaS инструменты.

Есть еще на русском хороший вебинар на datalearn - ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW от Дмитрий Браженко. Я с ним виделся на нашем митапе в Seattle и он теперь важный ML инженер в Microsoft и пилит Copilot.

Расскажите, кто что использует?

Читать полностью…

Инжиниринг Данных

06 November 2024 16:53

Спасибо, что отдали голос за правильного кандидата🍾😝

PS я тут скинул в Slack в Американской-Европейской компании S&P500 такое же и там гробовая тишина, походу одни демократы. У нас с ними всегда не сходились мнения что делать с homeless и другим nonsense в городах Северной Америки😵 (это вообще мои главные вопросы к местным, чтобы понять с ними можно выпить или нет🍷)

PPS Еще оказывается Симпсоны были не правы первый раз😂

Читать полностью…

Инжиниринг Данных

05 November 2024 08:21

Парочка свежих отзывов, вот кайф такое читать и радоваться за других!🍸

Моей заслуги тут нет, девушки молодцы, много работали, учились, собеседовались, проваливали собеседования. Я лишь пытаюсь создать эффективную среду, в которой больше шансов достичь результата за меньшее кол-во времени.

Читать полностью…

Инжиниринг Данных

04 November 2024 17:57

Самое время ~~вмешиваться в американские выборы~~ хайповать и строить интерактивные визуализации!

Этот пример был создан на Power BI. Есть и на Tableau и других инструментах. И не забудьте отдать свой голос за правильного кандидата! 😎

Читать полностью…

Инжиниринг Данных

03 November 2024 22:44

Еще одна причина менять работу раз в 1-2 года — «технический долг» (первая причина — рост зарплаты и карьерный рост).

Этот совет подходит для разработчиков уровня от junior до senior, потому что у сеньоров могут возникнуть другие проблемы: выгорание (burnout), проблемы с психическим здоровьем (mental health issues) и другие трудности, связанные с нереализованными мечтами, карьерными планами и ограничениями в компенсации.

Читать полностью…

Инжиниринг Данных

02 November 2024 01:45

Очень классный мини сериал про качество продукта

What is quality? It seems hard to describe and even harder to measure, but you can feel it when it’s there. You know it when you experience it. This is a series of conversations with those who seek to create products of this undefinable quality. And an attempt to answer the central question: How do things of quality get built?

Про качество вам расскажут топовые CEO, Founders и Product Managers.

Читать полностью…

Инжиниринг Данных

31 October 2024 19:07

Можете присоединяться к стриму и задавать вопросы:)

https://www.youtube.com/watch?v=Rv1PVpX2Yv8

Читать полностью…

Инжиниринг Данных

30 October 2024 16:10

Билл Инмон один из отцов основателей хранилищ данных все еще пишет посты в Linkedin, время от времени. Его последний пост был посвящен книге от Snowflake – Облачное Хранилище для Чайников (Cloud Data Warehousing for Dummies). Довольно известная серия, у меня даже в детстве были такие книги про Microsoft Office.

Как обычно Билл категоричен – “They should have renamed the book Data warehouse by dummies, not for dummies”.

Он назвал две причины:

1. Отсутствие информации об интеграции данных: Интеграция данных — это суть любого хранилища данных, составляющая 90% работы над проектом. Однако в книге, по его словам, этот аспект либо проигнорирован, либо упомянут без должного внимания.
2. Отсутствие текста как данных: Текстовые данные играют важную роль в современных хранилищах данных, зачастую не менее значимую, чем структурированные данные. Он критикует авторов за недостаток понимания того, как включать, хранить и использовать текстовую информацию в хранилище данных.

Для меня эти причины не показались настолько весомыми. Я понимаю, что цель книги было прорекламировать Snowflake, поэтому книга бесплатно распространяется. В ней много маркетинга и воды, но и аргументы Билла об использовании текста тоже не очень понятны. Я знаю, что он раньше работал над решением для хранения и обработки текста – Text Analytics Simplified.

Может он сам тут рекламируют свои идеи?

Я бы лучше почитал Ральфа Кимбала по теме хранилищ данных, его Dimensional Modelling как-то ближе и родней.

Читать полностью…

Инжиниринг Данных

29 October 2024 16:06

Уже 2ой раз вижу похожую новость - misused денег, которые дают сотрудник на покупку еды, обустройства home office. В Facebook чувак купи на свои купоны, что-то не то.

Вот другая похожая новость - Fidelity fires more than 200 over alleged misuse of reimbursement programs

Так что аккуратней там с expenses.

Читать полностью…

Инжиниринг Данных

29 October 2024 00:18

Даже пример мне выдал:

“Пришлось откатить гипотезу, когда мы попытались накрутить костыльные метрики, а в итоге утопили данные и чуть не сломали дашборд, пиленный всю ночь — теперь сидим, клеим таблицы, санитизируем прокси-фичи и мечтаем, чтобы холодный старт не поджёг нашу балалайку.”

Кто в теме, расскажите какие еще термины используете каждый день?

Читать полностью…

Инжиниринг Данных

28 October 2024 15:53

Поговорим про деньги в IT?

Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы.

Пройти опрос можно здесь

Читать полностью…

Subscribe to a channel