Telegram-канал rockyourdata - Инжиниринг Данных: Unsorted

Инжиниринг Данных

12 Jan 2025 10:49

Завтра у нас вкусные завтраки в Т Банк, сбор уже в 9 утра, но нужно записаться https://meetup.tbank.ru/event/data-zavtrak/

Читать полностью…

Инжиниринг Данных

06 Jan 2025 07:32

Всем доброе утро! Мы начинаю 2ю часть!

Читать полностью…

Инжиниринг Данных

05 Jan 2025 07:33

Всем доброе утро, мы решили стримить в телеграмм вместо YouTube.

В YouTube стрима не будет.

Вот ссылка на презентацию: https://docs.google.com/presentation/d/1jJYyzUTtv6Z-Hu-udGCR-iGp-jLuSh_M-ix2fRiZQt8/edit?usp=sharing

Ссылка на то, что будем делать: https://github.com/surfalytics/data-projects/tree/main/de-projects/18_dbt_intro

И на мой конечный результат: https://github.com/dimoobraznii1986/dbt_workshop

Читать полностью…

Инжиниринг Данных

03 Jan 2025 16:17

Анонс небольшого вебинара из 2х частей про dbt на русском. Чуть позже пришлю ссылку на стрим.

Мероприятие будет 5,6 января в 9:30 утра.

Всю информацию пришлю и все необходимые ресурсы.

Читать полностью…

Инжиниринг Данных

31 Dec 2024 11:54

С наступающим Новым годом! 🎅

Читать полностью…

Инжиниринг Данных

30 Dec 2024 07:08

Всем привет!

В перерывах между прогулками по нарядной Москве я готовлюсь к выступлению на Data завтрак 13 января, которые мы проведем в Т-Банк.

Data завтрак: свежий старт для данных и идей!

Врываемся в 2025 год содержательно! Приглашаем вас 13 января на Data завтрак: полезные блюда помогут восстановиться после «салатной комы», а свежие Data-темы зарядят новыми знаниями о ключевых аспектах работы с данными.

Для кого это мероприятие:

Для аналитиков, инженеров данных, разработчиков и всех, кто интересуется современными подходами к работе с данными и платформами.

Что в программе:

- Дмитрий Аношин, основатель консалтинговой компании Rock Your Data в Северной Америке, специализирующейся на современной облачной аналитике. Дмитрий поделится обзором аналитических решений, инструментов и команд. Узнаем, как строить команды, справляться со сложностями и разрабатывать архитектуры аналитических решений.

- Валерий Поляков, CDO в Т-Банке: расскажет о тернистом пути платформы данных в Т-Банке — от централизованного вендорского решения до сложной экосистемы open-source компонентов. Валерий с 2011 года работает с данными в разных ролях — строил отчетность, хранилища данных, платформы данных, различные аналитические продукты на основе данных. В Т-Банке работал с 2012 по 2019 год и затем вновь в Т с 2022 года.
Нетворкинг за завтраком.

В конце мы разыграем подарки, которые я привез (на фотографии).

PS Спасибо за помощь в организации Александру Поломодову, Техническому Директору Т-Банк, автору канала Книжний Клуб @book_cube и Александре Пановой за организацию мероприятия.

Александр мне уже устроил экскурсию по шикарному офису Т-Банка. Не пропустите возможность заглянуть и познакомиться!

Читать полностью…

Инжиниринг Данных

26 Dec 2024 04:06

Финальный отзыв в этом году. Рад, что у нас получилось дожать. Когда идут отказы или еще хуже, вы прошли все собеседования и компания замораживает позицию, то очень сложно продолжать. Поэтому нужно помнить, стакан наполовину полон, а не наполовину пуст.

“Ура, я получил job offer!” - Как эта фраза много значит для меня, вы наверно сможете меня понять, прочитав мою историю.

Когда-то давно я услышал пословицу: “Под лежачий камень вода не течёт”. По-английский она звучит так: “No song, no supper”. Это про меня. Я хочу управлять своей жизнью.

Мне кажется это стало гимном моего поиска работы в качестве Sr Data Engineer в Канаде.

Немного предыстории: я по образованию врач-хирург, закончил в РФ Мед Академию и 1 год отработал в больнице. Параллельно у меня всегда была тяга к IT технологиям, после появления у меня ПК в 1997 году, мой пытливый ум никогда не оставлял его.

После работы врачом я ушел на 8 лет в фармацевтический бизнес и вот тогда понял, что нужно что-то менять, мигрировать в другую страну. Я решил самостоятельно перейти в IT сектор.

Шел 2018 год. За полгода-год самостоятельного обучения фронтенду я смог устроиться на свою первую работу Frontend инженером. С этой работой в 2022 я переехал в Ванкувер, Канаду. Устроился в местную ванкуверскую компанию FE инженером. Сразу быстро стал понимать, что этого уровня недостаточно, для комфортного существования в третьем городе в мире по стоимости жилья/средней ЗП.

Захотел пойти в Data, это направление меня давно интересовало, на сегодняшний очень востребовано и с достойным уровнем компенсации труда. Стал искать больше материалов и реальные успешные истории - нашел дата сообщество Surfalytics. С ценностями, которые мне по душе - прокачка в Дате и здоровый образ жизни.

6 месяцев безостановочного стука во все двери, редактирование и рассылка резюме, мониторинг вакансий, собеседования, обучение, проекты, воркшопы, домашние задания, технические собеседования, проявление инициативы, задавание правильных вопросов. C августа 2024 мое приложение для записи собеседований (Limitless) насчитало 39 собеседований и там явно не все учтено. С января 2025 я выхожу на работу Sr Data Engineer в компанию Electronic Arts. Лучший новогодний подарок, я считаю.

Surfalytics сообщество мне дало понимание следующих вещей:

- Сориентировали по актуальным зарплатам в год или в час на контрактной основе, какие есть вилки для разных типов специалистов.
- Дали понимание, какой стек технологий актуальный сейчас на рынке и владение какими инструментами обычно хотят видеть работодатели от кандидатов в Северной Америке. Количество огромное, за что браться, что осваивать и в каком порядке - чтобы получить 80% результата при 20% фокуса на навыках.
- Кроме технических скилов (hard skills), много внимания уделяется Job Interviews Skills, Business Domain и в целом идет упор на общение с hiring manager и закрытие его pain points на примере своих “pet” проектов, которые очень приближены к реальным задачам.

Как я благодарен своему наставнику и проводнику по этому тернистому пути Дмитрию Аношину! Дмитрий создал дата комьюнити и благоприятные условия для обучения, возможностью делиться ценным опытом, помогать друг другу на этом нелегком пути. Порой когда уже теряешь веру, ты видишь на реальных примерах как у участников сообщества получается достигать результатов, прокачиваться, улучшать свои навыки как хард так и софт. Я уверен, что для нас всех стресс проходить собеседования и быть оцененным. Это опыт, который нужно пройти и получить. Но награда того стоит. Тем более для участников сообщества есть материалы, поддержка, 15 летний опыт Дмитрия в этом бизнесе.

Дальше больше! Всех обнял.

#testimmonial

Читать полностью…

Инжиниринг Данных

24 Dec 2024 08:59

Как ML помогает ритейлу

В продуктовом ритейле автоматизировано множество процессов, и даже у банки сгущенки есть свой цифровой след. О том, как торговые сети прогнозируют предпраздничный ажиотаж, оптимизируют HR-процессы и принимают решения о внедрении ИИ, в подкасте «Деньги любят техно» рассказали директор по управлению данными X5 Tech Тигран Саркисов и директор по развитию искусственного интеллекта Х5 Tech Михаил Неверов.

Ведущий эпизода, начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев, обсудил с гостями подходы к построению команд и процессов, роли дата-инженеров и дальнейшие перспективы развития сервисов с ИИ, актуальных для ритейла.

В предновогоднем выпуске также подвели итоги года в Data Science и попробовали заглянуть в будущее.

Рекомендуем посмотреть эпизод или послушать его в аудиоверсии.

Читать полностью…

Инжиниринг Данных

23 Dec 2024 06:04

В продолжение прошлого поста - Why DataOps is a new DevOps.

Читать полностью…

Инжиниринг Данных

20 Dec 2024 18:43

Дмитрий Аношин про разницу между туризмом и иммиграцией, выгорание в Amazon и work-life balance
Работа в корпорации с громким названием вроде Microsoft или Amazon для кого-то может выглядеть, как мечта — ведь это большая зарплата, стабильность, интересные проекты. Но иногда реальность разочаровывает, и перестают мотивировать что статус, что деньги.

И как быть?
В новом выпуске LEFT JOIN Partners дата-инженер Дмитрий Аношин (вы наверняка знаете его по его проектам вроде Surfanalytics и курсам на Data Learn), рассказал о переезде в Канаду, работе в Amazon и Microsoft и борьбе с выгоранием.

Обсудили не только трудности.
🔵 Как сегодня переехать в Северную Америку и найти работу в IT?
🔵 Сколько платят дата-инженерам в Amazon?
🔵 Что нужно, чтобы стать востребованным специалистом и построить карьеру в IT на западе?

🔜 YouTube
🔜 VK

Читать полностью…

Инжиниринг Данных

19 Dec 2024 17:23

Стартап Databricks, который представляет собой аналитическую платформу на базе Apache Spark поднял $10 млрд при оценке в $62 млрд (около 25 годовых выручек), что стало крупнейшим венчурным раундом в истории. Кажется, новый пузырь созрел для того, чтобы начать о нём говорить.

https://techcrunch.com/2024/12/17/databricks-raises-10b-as-it-barrels-toward-an-ipo/

Читать полностью…

Инжиниринг Данных

18 Dec 2024 18:10

Наконец привел в порядок папочку, где были решения для домашнего задания с собеседований https://github.com/dimoobraznii1986/Assignments

Тут 3 проекты/задания

1. Для EPIC (Создатели Unreal Engine) - я расписал как я бы создавал решение для Game Analytics. (Результат: мимо)
2. Для Alpaca Markets (API для трейдинга) - набор docker с dbt, airflow, Jupyter, Postgres. (Результат: работал почти год и сам ушел)
3. Для Zappier (No-code решения для автоматизации) - end-to-end решение на Databricks. Нужно было с API по футболу забирать данные и построить Delta Lake. Там же есть их фидбек. (Результат: мимо). Попросили на задачу потратить 3 часа, я потратил 15 часов минимум.

Примерно такие проекты мне нравится делать на Surfalytics, где можно использовать какой-нибудь стек и создать end-to-end решение и обосновать выбор каждого элемента.

Кстати если интересно узнать про собеседования для DE (настоящие): https://www.youtube.com/playlist?list=PLNCDg7zJiXhM5Gshe5_Q2HAZM5vIOLpI1
Про аналитика и BI и SQL mock, которые мы проводим внутри Surfalytics: https://www.youtube.com/watch?v=qUwbpgbEymE&list=PLNCDg7zJiXhPD0ethFHC-1V1pkvWhc633

Читать полностью…

Инжиниринг Данных

18 Dec 2024 03:09

Clickhouse strong💪

Читать полностью…

Инжиниринг Данных

17 Dec 2024 18:30

Databricks is Raising $10B Series J Investment at $62B Valuation - мощно!

Today’s announcement comes on the heels of Databricks’ recent momentum which includes:

Growing over 60% year-over-year in the third quarter ended October 31, 2024
Expecting to cross $3 billion revenue run-rate and be free cash flow positive in the fourth quarter ending January 31, 2025
Continuing to achieve non-GAAP subscription gross margins above 80%
Having 500+ customers consuming at over $1 million annual revenue run-rate
Achieving $600 million revenue run rate for Databricks SQL, the company’s intelligent data warehousing product, up more than 150% year-over-year

Мне кажется сотрудники Databricks уже устали ждать IPO🏃‍♂️

Читать полностью…

Инжиниринг Данных

15 Dec 2024 03:34

Дата все! Озвучили мысль, что данных больше нет для тренировки AI, и не предвидится. Синтетические не в счет.

Читать полностью…

Инжиниринг Данных

08 Jan 2025 15:21

Если вы делали проект в vk cloud, не забудьте удалить БД, а то она будет кушать кредиты

Читать полностью…

Инжиниринг Данных

05 Jan 2025 09:32

Запись трансляции
🧠 dbt: С ЧЕГО НАЧАТЬ? | Вебинар с Дмитрием Аношиным 🚀

Читать полностью…

Инжиниринг Данных

03 Jan 2025 18:49

Роман Пономарев по классике подготовил обложку и описание:

🧠 dbt: С ЧЕГО НАЧАТЬ? | Вебинар с Дмитрием Аношиным 🚀

👋 Привет, будущие мастера данных!

Если вы хотите не просто «что-то там понимать» в dbt, а реально строить аналитические хранилища по-взрослому — добро пожаловать!

🛠 Что будет на вебинаре:
✅ Простое и понятное введение в dbt core
✅ Развёртывание базы данных Postgres 16 в VK Cloud
✅ Настройка SQL-клиента для подключения (например, DBeaver)
✅ Создание staging-схем и подготовка данных
✅ Разработка первых моделей и знакомство с best practices
✅ Практика на каждом этапе

⚡️ Ключевая идея вебинара:
Вы не просто послушаете. Вы сделаете. У вас всё получится.

🎁 Для кого этот вебинар?
✔️Для тех, кто хочет начать работать с dbt 🛠
✔️Для аналитиков, инженеров данных и всех, кто работает с SQL и хранилищами 📊
✔️Для тех, кто хочет научиться проектировать данные, а не просто писать запросы 🧑‍💻

🎯 Почему стоит прийти?
✔️ Это не теория. Это практика с нуля до результата.
✔️ Всё объясним простыми словами, но по делу.
✔️ Дмитрий Аношин — не просто эксперт, а человек, который делал это много раз и умеет учить.

📅 Дата: 2025-05-01
🕒 Время: 9:30 утра по мск

👉 Ссылка на ютуб
#datalearn #вебинар

PS мне кажется лучший вариант и посмотреть и послушать и потом попытаться повторить самостоятельно так как будет очень много материала. Моя главная задача показать что такое dbt, и что в нем нет ничего сложного, он совершенно бесплатный и очень полезный.

Чтобы вам было удобней запустить базу данных мы будем использовать Vk Cloud, но вы можете использовать и свою базу данных Postgres или любую другую.

Заодно VK Cloud быстренько расскажут какие у них есть аналитические сервисы (мне самому интересно послушать).

По окончанию первой части у вас будет весь день впереди попробовать все сделать самостоятельно.

Что вам понадобится:
1) зарегистрироваться в VK Cloud. Если у вас есть корпоративная почта, вам дадут 3к рублей на счет. Если личная почта и вдруг нет кредитов, оставьте вашу почту здесь до конца завтрашнего дня и вамначислят кредиты.

2) мы будем использовать Visual Studio Code или при желании вы можете использовать GitHub Codespace (бесплатная виртуальная IDE)
3) обязательно нужен GitHub аккаунт, где вы можете создать новый репозиторий для нашего проекта с пустым файликом Readme
4) Для windows вам нужно скачать Git и он вам позволит использовать Git bash вместо Power Shell. Аналог это Ubuntu на windows. На macos все и так работает.
5) мы будем использовать командную строку CLI
6) на компьютере должен быть python, чтобы использовать виртуальную среду venv.
7) если будет время посмотри на dbt в docker и CI/CD во 2й части.

Я постараюсь рассказать, что и зачем используется.

Если чего-то не знаете не страшно, но если вы работаете с аналитикой это всенеплохо знать. На английском я сделал модуль 0, где рассказал и показал все эти вещи, может посмотреть короткие видео и повторить.

Если вы гуляете на праздниках, ничего страшного посмотрите как вернётесь ! Мне больше интересно отследить насколько полезным будет материал.

Всем хорошего вечера!

Читать полностью…

Инжиниринг Данных

01 Jan 2025 20:31

Сегодня показали классное место в центре (Чистые Пруды) с крафтовым пивом, узнаю у них на днях как забукать этаж и можно будет собраться. Создал чатик для координации /channel/+ZRjFRVrMm445ZjIx по датам выберу в диапазоне 5-8 января как будет место. Каждый купить себе дринк и потрещим за дату

Читать полностью…

Инжиниринг Данных

30 Dec 2024 07:12

Сылка для регистрации https://meetup.tbank.ru/event/data-zavtrak/

Читать полностью…

Инжиниринг Данных

27 Dec 2024 08:00

Предлагаем немного отвлечься от предновогодней суеты, отключиться от рабочей рутины и понастальгировать!

Играйте в СберЗмейку – пройдите уровни и соберите звездочки⭐️, чтобы украсить новогоднюю ёлку 🎄

Правила такие же, как и в знакомой всем игре 😉

Начинаем!💫💫💫

Читать полностью…

Инжиниринг Данных

24 Dec 2024 20:25

Сервис Cleve AI сделали прикольную штуку - мы даем ей ссылку на LinkedIn, а она нам создает summary за целый год.

Мне кажется я постил в этом году больше чем нас 5 лет в сумме, но когда увидел сколько другие постят (1000-1500) постов в год, понимаю, что я еще noob.

Из 3х самых популярных постов 2 было про семью и детей.

Мне кажется сейчас все стали блогерами и генерят контент и ценность LinkedIn очень сильно размывается.

Если я задам себе вопрос, чтобы изменилось, если бы не было LinkedIn? Мне кажется ничего, работу я искал через сайты для поиска работы, нетворкинг там что есть, что нет. Но альтернативы для “профессиональной” сети нет.

Читать полностью…

Инжиниринг Данных

23 Dec 2024 18:44

Вчера написал пост как можно быстро пофиксить резюме. Через меня достаточно много проходит резюме и мы коллективно докручиваем резюме, чтобы оно было Ок и с ним можно было уже откликаться.

В статье я указал основные моменты, на которые обращаем внимание. И оно обязательно к прочтению для всех кто планирует искать работу на рынке с высокой конкуренцией (США, Канада, Европа, Австралия и тп), где на каждую вакансию по 500-1000 откликов и рекруты тратят по 5-10 секунд на ваш профиль.

В РФ все проще, можно иметь профайл на HH, в котором есть SQL, Python, Airflow, Clickhosue/Greenplum и несколько лет опыта.

Читать полностью…

Инжиниринг Данных

22 Dec 2024 23:05

Закончил 2ю половину workshop по CI/CD на примере контейнера с DuckDB и 1м SQL файлом.

Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.

Вы можете самостоятельно все проделать.

Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd

Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project

Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro

Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE

Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.

Читать полностью…

Инжиниринг Данных

20 Dec 2024 02:25

Как выглядит busy день инженера данных в рассвете сил:
1. Опубликовал новую версию Airflow Dag, которые делает feature engineering в dbt, запускает ML модель в S3 (модель от команды).
2. Использую terraform и permifrost создал новые объекты (базы данных, пользователей, роли) и раздал всем права
3. Создал OAuth 2.0 security integration в Snowflake для для внешнего подключения
4. Ревью несколько PR и backfill Azure Data Factory pipeline
5. Несколько митингов
6. Создал интеграцию Braze и Snowflake
7. Через Fivetran подключил Gladly, Zoom, Zendesk, Wallmart
8. Задеплоили и проектировали Cloud Watch Alerts и Pager Duty интеграцию для on-call
9. Troubleshooting для Azure Databricks
10. Собеседование с VP Engineering на Staff DE - отвечал на все вопросы по книжки Staff Engineer:)
11. Обсудил с Колей из @leftjoin про консалтинг в РФ и балет Щелкунчик
12. Обсудил с Андроном из @andron_233 про популярность Apache Spark и Databricks
13. Еще будет встреча с VK сегодня, чтобы попросить бесплатных кредитов для бесплатного воркшопа по на русском;)
14. Скоро будет местный балет Щелкунчик, где моя дочь выступает
15. И перед сном нужно закончить 2ою часть CI/CD workshop

PS с одной стороны это большой список, особенно для ДЕ задач. Каждая задача в отдельности сложная. Но если я потратил несколько недель на создание качественного фреймворка, то итерации будут уже очень быстрые. Например по permifrost и terraform я потратил недели 2-3 и даже грохнул прод. По OAuth2.0 я потратил неделю, чтобы понять как это работает. Зато когда pattern установлен, становится все легко и быстро. И главное более качественно.

Читать полностью…

Инжиниринг Данных

19 Dec 2024 02:19

Performance Optimization в Apache Spark это лес дремучий! Но оказывается есть супер видео, которое прям хорошо объясняет: https://youtu.be/daXEp4HmS-E?feature=shared

PS Спасибо Юре, который поделился в Surfalytics Discord.

Читать полностью…

Инжиниринг Данных

18 Dec 2024 08:39

❤️‍🩹 Пост поддержки — Кристине Уласович из нашего маленького датавиз / дата журналистского сообщества нужна помощь.

Если у вас есть связи в системе здравоохранения Москвы — напишите ей @ave_kirsten

Совместный проект Кристины и Марии Хомутовой в прошлом году вошел в шортлист Information is Beautiful Awards, на церемонии награждения которой мы и познакомились.

Ниже привожу текст от Кристины:

«Дорогие все.

Так случилось, что в моей семье ужасное горе - мама заболела раком, IV стадия.
Не передать словами, насколько ужасный был месяц: 3 недели в реанимации, опасная для жизни операция, ТЭЛА.

Она сейчас в состоянии средней тяжести после всего пережитого — у нее пневмония, нарушены двигательные функции, кислородотерапия. Но есть положительная динамика по восстановлению.

В таком состоянии, как у нее сейчас, химию делать нельзя. А ей она нужна, потому что есть метастазы. Единственный наш шанс — это чтобы мама долечилась и прошла реабилитацию. Однако наша больница долечивать ее не очень хочет и настаивает на паллиативе, но остановиться на полпути, сдать ее в хоспис и опустить руки сердце мне не позволяет.

Я обычно стараюсь все вытянуть сама, но тут мне просто не хватает собственной мощи. Если вы знаете кого-то, кто мог бы помочь в этой ситуации - может быть, маму удастся перевести лечиться в другую больницу, в реабилитационный центр, где ей можно будет дать шанс восстановиться - или знаете, что можно ещё сделать, то напишите мне или просто поделитесь моей историей.

Скоро Новый год, и моей семье очень нужно чудо. Я уже потеряла папу в 2018 году, и я должна попытаться сделать все, чтобы не потерять еще и маму.

P. S. Если вы или ваши родители знакомы с моей мамой, то пока что ей не пишите, пожалуйста. Она не знает всю полноту диагноза, сейчас ей это не нужно — иначе страх застопорит прогресс.»

Читать полностью…

Инжиниринг Данных

17 Dec 2024 19:43

Вот еще одна стратегия быть в +. Если Databricks реально создает Инновационный, надежный продукт, в котором есть все, что нужно для data engineering, machine learning, AI, data analytics, то Microstrategy просто скупает биткойны💪

MicroStrategy обанкротится только если астероид ударит по Земле.

За 15 лет цена биткоина никогда не опускалась ниже базовой стоимости долгосрочных держателей, которая сейчас составляет $30K.

Долг MicroStrategy составляет $7 млрд, а их запасы BTC оцениваются в $46 млрд.

Основываясь только на BTC, цена ликвидации составляет $16.5K.

Не понимаю, почему 1С не скупает биткойны, вот бы хайпанули на мировом рынке)

Читать полностью…

Инжиниринг Данных

16 Dec 2024 19:50

В продолжение прошлого поста:

Внезапная смерть Сучира Балажи, известного критика OpenAI, потрясла технический мир на фоне ожесточённых дискуссий о законах об ИИ и авторских правах. За несколько месяцев до своей смерти Балажи раскрыл серьёзные этические и правовые проблемы.

Он в частности критиковал то, как компании, такие как OpenAI, собирают огромные объёмы данных из интернета для обучения своих ИИ-моделей, ставя под сомнение законность и этичность этих практик в рамках действующего законодательства об авторских правах.

Открытые данные кончаются, надо брать закрытие. Кто не согласен погибает.

Вроде с боенгом уже разобрались, претензий ни у кого не осталось. Думаю скоро на Open AI претензии тоже иссякнут🔫

Читать полностью…

Инжиниринг Данных

13 Dec 2024 17:39

Работают над проектом в Surfalytics, чтобы научить базовым вещам в CI/CD, DevOps для аналитиков и инженеров данных. Первая половина готова: https://github.com/surfalytics/data-projects/blob/main/dataops-projects/01_git_and_ci_cd/readme.md

Пока это совсем простой пример, где у нас даже нет Python, всего лишь SQL файлик + DuckDB и Docker контейнер.

План такой:
- все делаем на локальной машине
- все делаем внутри Docker
- добавляем локальную проверку с Pre-commit (Yaml, SQLfmt)
- добавляем PR шаблон
- добавляем makefile
- добавляем .gitignore, .dockerignore
- добавляем шаг CI через GitHub Actions - запуск Pre-commit удаленно
- добавляем шаг Integration test в CI. Будем сверять SQL результат, что наша логика не поменялась.

На этом закончится первая половина. На следующей неделе добавлю часть про CD, tags, Release, может быть попробую blue-green deployment.

В readme все очень хорошо описано. Создаете новый GitHub репозитория и погнали. Ну или к нам присоединяйтесь, тогда уже все вам на пальцах расскажут:

- Data Analyst Role landing
- Data Engineer Role Landing
- Analytics Engineer Role Landing
- BI Engineer Role Landing

На большинство проектов, где я работал даже таких базовых вещей не было, поэтому классно разобраться в этом и на собеседования рассказывать или уже идти и внедрять к себе сразу.

Читать полностью…