rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

Интересное обновление на стороне потребления данных. С 24 сентября для всех открывается доступ к Нейроаналитику в BI-платформе DataLens — ИИ-агенту, который умеет "читать" дашборды и генерировать по ним инсайты и даже код.

Фишка в том, что теперь бизнес-пользователи могут напрямую спрашивать у данных: «почему упали продажи?» или «какой канал лучше работает?». Без того, чтобы дергать аналитика за каждую мелочь.

Инженеры тоже выигрывают: агент сам пишет код для кастомных визуализаций и ускоряет доработку отчётов. То есть результаты вашей работы начинают анализироваться ИИ напрямую, без лишних шагов.

Данные перестают быть «табличками для отчёта» и начинают отвечать сами.

Читать полностью…

Инжиниринг Данных

Вы управляете процессами, продуктами и людьми?

Тогда вам точно на avito.tech.conf! Авито Тех (это ИТ-команда Авито) анонсировал свою первую конференцию для лидов и менеджеров, которая пройдет 17 октября в Москве и онлайн.

В программе:
- Доклады про лучшие практики управления от менеджеров Авито;

- Возможности для нетворка с менеджерами топовых IT-компаний;

- Воркшопы и интерактивные зоны для прокачки навыков.

Все доклады и спикеры — уже на сайте!

Что сказать, продано! Уже пошли регистрироваться по ссылке (говорят, количество мест ограничено, а попасть хочется очень!)

Реклама. ООО «Авито Тех» Erid 2VtzqvyAyJL

Читать полностью…

Инжиниринг Данных

«Съешьте лягушку!» (англ. Eat That Frog!) - короткая, но очень полезная книга. Брайн Трейси там изложил базу, как нужно делать карьеру.

🔫😊🔫

Сегодня я услышал классную идею: лидер ― это человек, которому не нужен постоянный надзор и контроль сверху.

Тему лидерства затерли до дыр. Когда мы слышим про лидеров, мы представляем каких-то очень крутых людей, которые успешные, эффективные, мыслят стратегически и далее по списку.

А всего-то нужно:
-> Самостоятельно ставить цели и двигаться к ним без внешнего давления.
-> Брать ответственность за результаты, а не перекладывать её на руководителя или обстоятельства.
-> Самомотивироваться и мотивировать других, не ожидая, что кто-то будет «подгонять».
-> Дисциплинированно работать, даже если рядом начальника.

Важно конечно не только теорию знать, но и применять ее на практике.

PS после этой книги, emojis с Pepe приобретают новый смысл! 👀

Читать полностью…

Инжиниринг Данных

Если раньше хороший инженер умел писать хороший код, то теперь AI может писать код за нас. Конечно, его нужно проверять, но как мы выше писал -

would encourage us to bias for speed over accuracy, ship it

То получается, все таки время у нас не так много, на написания кода. Я спорить не буду с экспертами, кто будет доказывать, что ❌уйн😮 ваш AI и ничего он не понимает в написании кода😇

Лучше расскажу другую идея, что системный дизайн сейчас очень важен, так как AI (еще) не способен понять бизнес контекст и ему все равно, что там будет Batch или Streaming. С poker face он вам будет доказывать, что Batch лучше, streaming. А если ему сказать, что он не прав, он вам точно также расскажет, что Streaming лучше Batch.

Для меня сейчас самое ценное это System Design. Его намного сложней “списать” и “придумать” на собеседовании, если не было реального опыта. Далее был бы data modelling, но без него можно существовать, а вот без правильной архитектуры совсем сложно.

Для любого собеседования на ML, DE - system design must have. Ну и самим было бы классно разбираться, что зачем и почему. Так что качайте системный дизайн для аналитических и ML систем, и там обязательно должно быть место для GenAI.

Читать полностью…

Инжиниринг Данных

👩‍💻👨‍💻 Хочешь узнать, как AI реально меняет работу инженеров в России?

Александр, автор канала Книжный Куб рассказал про исследование в Т-Банке: они собирают данные о том, как компании применяют AI, что работает, а что — просто хайп.

Пройти можно здесь 👉 Ссылка на опрос (≈30 минут).

А в январе–феврале будут результаты + отчёт по методологии.

PS в РФ паттерн использования AI инструментов отличается от того, что я вижу в Северной Америке, поэтому мне будет тоже интересно узнать его результаты.

Читать полностью…

Инжиниринг Данных

Приглашаем на единственную в России специализированную конференцию по инженерии данных

SmartData 2025 пройдет 5–6 октября в Санкт-Петербурге. Трансляция тоже будет.

Программа конференции охватывает все стороны работы с данными — от Analytical до Data и ML Engineering, Data Governance и Data Quality, от старых добрых Airflow и Hadoop до Bleeding Edge «в лице» StarRocks и DataFusion Comet. От классических пайплайнов до самых новых технологий.

SmartData — не про «ценность данных для бизнеса». Это площадка, где обсуждают, как устроены реальные системы.

Подробности и билеты — на сайте конференции.
С промокодом ROCKYOURDATA персональные билеты дешевле.

Реклама. ООО «Джуг Ру Груп». ИНН 7801341446

Читать полностью…

Инжиниринг Данных

High SQL: практики, которые стоит забрать себе 😉

Делимся записью докладов с митапа ЮMoney о работе с базами данных.

Илья, разработчик ЮMoney и один из спикеров события, поделился, что для него главный критерий успешности доклада — новизна. Даже пересказ чужого опыта в инфотейнмент-формате не заходит так, как решение актуальных проблем отрасли.

«Судя по отклику зала, особенно зашёл доклад Миши про DG. И было интересно взглянуть на актуальный опыт ”а как у них“ от Димы», — делится Илья.

Инсайты с выступлений, которые участники унесли с собой:

🟣 Data-agnostic-подход DBT позволяет мигрировать между разными хранилищами без переписывания SQL-логики, сохраняя версионность и автоматизацию через Git и CI/CD.
🟣 Производительность БД зависит от множества факторов: выбирайте эффективные ключи, проектируйте секционирование, не стремитесь покрыть индексами все запросы и подбирайте оптимальные сценарии загрузки данных.
🟣 Контроль качества данных эффективен только при комплексном подходе: собственная система с UI/API, интеграция с каталогом и «светофором» для метрик актуальности, точности и согласованности, а также вовлечение владельцев данных, инженеров и бизнес-заказчиков.

Смотрите записи докладов на YouTube и ВКонтакте, а фотографии лежат в альбоме ™️

Читать полностью…

Инжиниринг Данных

Великий день для Oracle DBA, конечно если владеете акциями Oracle.

Вот коллеги из Oracle в США точно могут открывать шампанское 🥇

Читать полностью…

Инжиниринг Данных

Data Driven: Превращаем данные в двигатель бизнеса. Практическая конференция для аналитиков.

20 сентября приглашаем опытных аналитиков на конференцию Data Driven. Разговоров о теории не будет — только о том, как с помощью данных находить точки роста и напрямую влиять на ключевые бизнес-метрики.

Ваш практический план на день:
1. Знания: Выберите свой трек
-Трек для продуктовых аналитиков, data-аналитиков и data scientists.
-Трек для data-инженеров, системных и BI-аналитиков.

2. Опыт: Нетворкинг без купюр
-Дискуссии и обмен опытом с коллегами.
-Личные встречи 1:1 с руководителями направлений аналитики.
-Диалоги с экспертами Поиска и Рекламных технологий.
-Карьерные консультации от наших HR-экспертов.

3. Практика: Игры с пользой
-Квиз — проверим не только знания, но и смекалку.
-Квест-комната — решите реальные рабочие кейсы и сразу же обсудите решения с нашими экспертами. А победителей ждут крутые призы: радиоуправляемый робот, станции с Алисой и многое другое.

4. Отдых: Афтепати
Закрепим успех в неформальной обстановке за фуршетом и под хорошую музыку.

Где? Москва + онлайн-трансляция для тех, кто не в городе.
Регистрация уже открыта здесь, ждем вас!


Реклама. ООО "Яндекс". ИНН 7736207543

Читать полностью…

Инжиниринг Данных

Concurrency (конкурентность )- одна из самых важные характеристик в базе данных. Что будет, если несколько процессов будут писать в одну таблицу? Традиционные базы данных уже научились это делать, а вот с озером данных или гибридным озером данных (lake house), не так все просто.

Когда несколько процессов одновременно пытаются записать данные в одну и ту же таблицу, это может привести к серьезным проблемам:
- Потерянные обновления (Lost Updates): Один процесс записывает данные, а второй тут же их перезаписывает, не зная о предыдущей операции.
- Несогласованные данные (Inconsistent Data): Данные могут оказаться в некорректном или неполном состоянии.
- Гонки данных (Race Conditions): Результат операции зависит от того, какой из процессов завершится первым, что делает результат непредсказуемым.

Традиционные реляционные базы данных, такие как PostgreSQL, MySQL и SQL Server, давно решили эту проблему. У них есть встроенные механизмы, которые гарантируют надежность транзакций по принципу ACID (Atomicity, Consistency, Isolation, Durability).

Они используют:
- Блокировки (Locking): Процессы временно блокируют доступ к данным, пока не завершат свою операцию.
- Управление параллельным доступом с помощью версий (MVCC): Вместо блокировки база данных создает разные версии данных. Это позволяет читателям видеть старую версию, пока новый процесс записывает новую.

Архитектура Data Lake и Lakehouse принципиально отличается. Они построены на распределенных файловых системах (HDFS, Amazon S3, Azure Blob Storage), которые изначально созданы для хранения огромных объемов данных, а не для поддержки транзакций.

Основные проблемы:
- Нет встроенной поддержки ACID: Файловые системы не поддерживают атомарные транзакции. Если запись прервется на полпути, файл может остаться поврежденным.
- Работа с файлами, а не со строками: Изменение одной строки данных может потребовать перезаписи всего большого файла, что крайне неэффективно и опасно.

Чтобы решить эти проблемы, появились транзакционные фреймворки, которые добавляют уровень управления транзакциями поверх озер данных. Самые известные из них:

- Delta Lake
- Apache Hudi
- Apache Iceberg

Эти фреймворки создают слой метаданных, который ведет журнал всех изменений, обеспечивая атомарность операций и изоляцию снапшотов. Это позволяет им работать с данными в озерах так же надежно, как и традиционные базы данных.

В статье shahsoumil519/can-10-spark-writers-perform-concurrent-appends-to-an-iceberg-table-simultaneously-774bccc030c7">Can 10 Spark Writers Perform Concurrent Appends to an Iceberg Table Simultaneously? автор проверил, могут ли 10 одновременных процессов Spark успешно записывать (добавлять) данные в одну и ту же таблицу Apache Iceberg.


Тест 10 параллельных Spark‑записей (`MERGE INTO`) в разные партиции Iceberg‑таблицы на S3.

Проверяется, как система справляется с одновременными обновлениями: выполняется 10 Spark‑джобов, каждый таргетит отдельную партицию, и анализируются успехи и неудачи операций.

Основные настройки Iceberg для надёжной параллельной записи:
- `commit.retry.num-retries = 20` — попыток на случай конфликтов,
- `commit.retry.min-wait-ms = 30000` — минимальная задержка между попытками,
- `write.merge.isolation-level = snapshot` — слой изоляции, гарантирующий консистентность снимков.

Результат: несмотря на возникающие ошибки во время выполнения, автоматические ретраи и snapshot‑изоляция позволяют успешно завершить все `MERGE INTO` операции, сохранив целостность данных.

Читать полностью…

Инжиниринг Данных

Дельный карьерный совет - всегда обещайте поменьше, а делайте побольше (на 10%).

А не наоборот, как обычно бывает!

Читать полностью…

Инжиниринг Данных

Snowflake опубликовал paper - Workload Insights From The Snowflake Data Cloud: What Do Production Analytic Queries Really Look Like?

Что сделали
✅ Проанализировали ~667 млн продакшен-запросов из популярных BI-инструментов к Snowflake (в одном облачном регионе за неделю в октябре 2024).
✅ Смотрели тексты SQL и планы выполнения: фильтры, джоины, агрегации, ORDER BY/LIMIT, UNION ALL, глубину выражений.
✅ Сопоставили с TPC-DS и указали, где бенчмарк не эффективен.

Результаты:

1. Общая картина нагрузки
Read-heavy нагрузка: SELECT (47%) + SHOW (31%) = 78% всех запросов.
DDL-операций (4%) в 2 раза больше, чем DML (2%).
Соотношение чтение/запись ≈ 25:1.

2. Характеристики SQL
ORDER BY (54%) и GROUP BY (55%) — более чем в половине запросов.
JOIN встречается в 46% запросов.
CTE в 25%, оконные функции — в 11%.
LIMIT в 25% случаев, но в реальности часто ограничение идёт на миллионы строк (из-за дефолтов BI-клиентов).

3. Операторы и ресурсы
По частоте операторов: Projection (44%), Filter (16%), Aggregate (14%), Table Scan (10%), Join (10%).
По CPU: Table Scan + Filter ≈ 48%, Join ≈16%, Aggregate ≈15%, Projection ≈10%.
Основная нагрузка на чтение и джойны.

4. Джойны
20% JOIN-запросов содержат 10+ джойнов, отдельные доходят до 1000+.
Типы: Inner 59%, Outer 37%, Semi/Anti ~4%.
Ключи: ~46% текстовые, ~41% числовые, ~11% даты/время.
Поведение: 70% preserving, 16% exploding (результат больше входа), 13% filtering.

5. Агрегации
Лидер — any_value (58%), затем sum (15%), count (12%), max (11%), min (5%).
Много агрегаций по текстовым колонкам (34%), а не только по числам (49%).
В TPC-DS почти нет текстовых агрегатов (98% numeric).

6. Фильтры
Фильтрация в основном по тексту (58%), числовые только 25%.
Популярные предикаты: = (22%), IS NOT NULL (17%), логические связки (15%), CONTAINS (3%).
15% фильтров имеют вложенность >5 уровней.
Селективность сильно варьируется: 13% обнуляют выборку, 19% не фильтруют ничего, 46% — высокоселективные.

7. LIMIT и UNION ALL
LIMIT часто используется BI-системами для выгрузки миллионов строк (71% без ORDER BY возвращают 1M–10M строк).
UNION ALL в большинстве случаев ≤10, но есть хвост с сотнями инпутов.

8. Отличия от TPC-DS
В реальных BI-нагрузках есть:
Метаданные-запросы (SHOW, SESSION) — в бенчмарках отсутствуют.
Текстовые ключи и фильтры.
Outer joins.
Глубокие выражения и длинные графы джойнов.
Большие LIMIT-ы и нестандартные агрегации (any_value).


В целом такой обзор показывает, что традиционные benchmarks на базе TPC-DS далек от того, что происходит в реальности. BI инструментам вообще все-равно на качество запроса и плана, что приводит к излишним расходам. Возможно такой анализ был бы полезен вендорам, которые хотят улучшить эффективность работы BI и Snowflake.

Читать полностью…

Инжиниринг Данных

Good point, как говорится. Автор сообщает, что компании консолидируются в unified платформы, и наш любимый modern data stack уже скоро не будет состоять из маленьких разрозненных кусочков и нам придется работать с большими платформами, в которых будет все необходимое для аналитики и инжиниринга данных.

Зато проекты по миграции выйдут на новый уровень по трудозатратам и стоимости, а vendor lock заиграет новыми красками💰

Читать полностью…

Инжиниринг Данных

Dimensional Modelling и Slowly Change Dimension на западе это не шутка! Уверен в ГосУслугах таких трудностей у архитекторов и инженеров нет😊

Читать полностью…

Инжиниринг Данных

Уверен, что абсолютно все команды у кого есть Snowflake сейчас занимаются примерно одним и тем же - улучшают безопасность. И это в принудительном порядке.

Snowflake всех обязал усилить безопасность пользователей, что очень логично и важно абсолютно для любого решения, но как правило такие действиях уходят в backlog и todo.

Что же предлагает Snowflake?

1. Разделить всех пользователей на Person и Service.
2. Для каждого person активировать MFA или passkey.
3. Для каждого service удалить пароль и добавить Key Pair.
4. Для service добавить IP whitelist.

Это такой минимум, который поможет вашему решению стать более безопасным. В идеале такие шаги можно делать в любой платформе.

PS На любом собеседования и system design можно рассказывать про кейс безопасности, использую набор из 4х пунктов выше.

Вообще тема безопасности одна из самых скучных в DE, там же и вопросы про персональные данные и encryption. Но зато, за них всегда четкий reward и recognition.

Читать полностью…

Инжиниринг Данных

Airbyte выпустил версию 2.0. Теперь это end-to-end платформа (data ingestion, data transformation, reverse ETL).

Keynote from CEO

Почти все компании не хотят заморачиваться с интеграцией источников данных и использую Fivetran. Затем узнаю ценообразование и офигевают от Monthly Active Rows (MAR) - за каждую загруженную строчку нужно платить. Получается дорого.

И тут уже начинаются разговоры про альтернативы:
- Airflow + Python
- Metano
- Airbyte
- dltHub
- другие инструменты

Как обычно tradeoff - цена/скорость.

Бесплатный Airbyte был всегда проблемным. Облачный (managed) - работает достойно, по слухам. Отличный вариант для небольших компаний.

Расскажите, как у вас дела с Airbyte?

Читать полностью…

Инжиниринг Данных

Оживи робота своим алгоритмом и поборись за призовой фонд в 10 250 000 рублей на True Tech Champ 2025.

True Tech Champ 2025 — это третий всероссийский чемпионат по программированию от МТС с онлайн-этапами отбора и грандиозным шоу-финалом в Москве.

Тебя ждут два трека — выбирай:

I. Алгоритмический [призовой фонд 2 750 000 рублей].

Если классический олимпиадный формат — твоя стихия, этот трек для тебя. Блесни математическими навыками, покажи скилы в работе со структурами данных и написании алгоритмов — и окажись выше соперников в турнирной таблице.

II. Программирование роботов [призовой фонд 7 500 000 рублей].

Запрограммируй робота на скоростное прохождение лабиринта в симуляторе и пройди в финал. На финале участники встретятся офлайн и сразятся на четырех уровнях с полосой препятствий, вспышками света, лазерами и другими препятствиями.

Трек будет интересен начинающим и опытным разработчикам: С++, Go, Python, JS, Java, C# и не только.

Подробности на сайте. Регистрация открыта до 20 октября.

Читать полностью…

Инжиниринг Данных

DuckDB быстрей Spark 🦆

В посте DuckDB benchmarked against Spark сравнили Spark и DuckDB на локальном MacBook Pro, и утка показала отличный результат.

Поэтому если мало данных, можно смело пользоваться уткой. Зависит от вашего сервера, на котором запускается duckdb.

Есть прикольные кейсы, когда Pandas заменяют DuckDB и распаралеливуют процессы, например через lambda или чтобы экономить дорогой Snowflake compute.

Читать полностью…

Инжиниринг Данных

Как появляется технический долг? (Technical debt)

Все очень просто - ушлые ребята менеджеры топят за скорость в ущерб качеству.

Вот свежий пример:

would encourage us to bias for speed over accuracy, ship it (Нужно скорее фокусироваться на скорости, чем на точности, и выкатывать)


Это нормально, иногда “срезать” углы, но когда организация сдвигается в сторону скорости, со временем создаются множество проблемных зон, которые никогда не будут решены и могут замедлить рост.

А как у вас со “speed over accuracy”?

Читать полностью…

Инжиниринг Данных

По инженерным командам заметил определенные patterns.

Например, по размеру команды и поведению.

Я могу разделить команды на две большие группы.

1) маленькая команда 1-3 человека, где все делают все достаточно быстро, помогают друг другу. Это не обязательно стартап, это может быть большая компания, но команды там маленькие и автономные. Инженеры чувствуют свободу и занимаются тем, что нравится.

2) большая команда до 10 человек и выше. Тут уже полная неразбериха, каждые пилит что-то свое, старенькие инженеры не хотят помогать новеньким. Решения принимаются либо очень долго, либо очень быстро и непрозрачно, часто кулуарно. Эксперты становятся bottle neck и могут быть токсичными для всей команды. Особенно их бесит, когда берут новых инженеров с зарплатой на 30% выше, чем у них.

Если с маленькими командами все понятно и проблем обычно не бывает, за исключением отсутствия документации и риска потерять человека и вместе с ним всю экспертизу, то с большими командами вечные проблемы.

->Согласно закону Брукса, каждая “добавленная голова” повышает стоимость координации (n(n-1)/2).

->Согласно эффекту Рингельмана, с ростом группы падает индивидуальный вклад.

->Согласно закону Конуэя, система копирует структуру коммуникаций. Если оргуструктура запутана, продукт тоже будет фрагментирован.

Так же появляется проблемы связанные с “психологической безопасностью”, команда перестает учиться и делиться знаниями.

Как диагностировать проблему?

- Время принятия решения и кол-во решения принятых без обсуждений с командой. Иначе говоря, отсутствия технических документов - tech spec, RAPID, etc
- Задержка с Code Review и очередь к “экспертам”
- Низкие оценки в опросах про эффективность команды (опросы важный элемент для больших команд)
- Четкие сигналы о проблемах на встречать 1:1
- Отсутствие ownership и инициативы от команды

А как у вас обстоят дела с инженерными командами? Вы эксперт bottle neck? Страдаете от закрытости коллег? Не знаете как расшевелить ваши команды?

Читать полностью…

Инжиниринг Данных

Можно бесплатно получить книгу https://buf.build/resources/data-engineering-design-patterns

В комментариях я скачал для вас.

Читать полностью…

Инжиниринг Данных

Вчера все поздравляли Larry… Когда я слышу Larry то почему-то вспоминаю игру Leisure Suit Larry: Love for Sail!, но тут другое….

А сегодня народ стал обсуждать интересные моменты:
- У OpenAI нет 300 миллиардов долларов.
- У них даже близко нет 300 миллиардов долларов.
- Согласно их собственным (и, вероятно, оптимистичным) прогнозам, они не выйдут на прибыль до 2030 года.
- И всё это от компании, которая считала (или заявляла), что GPT-5 будет равнозначен ИИ уровня AGI (спойлер: нет, не стал).
- К слову, у Oracle нет чипов, которые нужны для выполнения контрактов, и даже денег, чтобы их купить.

Сама статья - Peak bubble, автор Gary Marcus сравнивает AI пузырь с тюльпаноманией.

Гэри когнитивный психолог и нейроучёный, профессор в NYU. Известен как критик “чистой” масштабируемой модели ИИ, часто подчёркивающий её ограничения, и сторонник гибридных (нейро-символических) подходов.

Реально Ларри там кому-то нормально откатил, что бы так залететь на пик😌

Читать полностью…

Инжиниринг Данных

Заметил новый pattern, все аналитики (Excel, BI, SQL), которые не знали куда им деваться, и что делать - учить дата инжиниринг или data science, наконец определились и стали AI инженерами.

Возможно хороший pivot🤑

Читать полностью…

Инжиниринг Данных

Норм идея - малышам не давать AI ассистента, а то совсем разучатся соображать.

Или не норм, мы же живем в мире AI, все движется со скоростью света, кто не успел, тот опоздал.

Читать полностью…

Инжиниринг Данных

big tech night — это «ночь музеев» в мире IT, где Яндекс, Сбер, X5, Т-Банк и Lamoda впервые приглашают за кулисы.

Формат, придуманный в Яндексе, для тех, кто уже в IT или только стремится туда попасть. Здесь можно увидеть, как создаются технологии, меняющие окружающую среду, познакомиться с коллегами, обменяться опытом, задать неудобные вопросы и почувствовать себя частью комьюнити.

Вас ждут доклады, иммерсивные экскурсии и атмосфера IT-андеграунда. А если вы не в Москве, подключайтесь к онлайн-студии с двумя потоками — от серьезных дискуссий для гиков до лампового ночного шоу с историями из жизни.

Когда: 12 сентября.
Где: Москва или онлайн.
Регистрация - здесь.

Читать полностью…

Инжиниринг Данных

Я писал выше про свой опыт продажи недвижимости. Так сложилось, что в Канаде я был очень bias towards покупки недвижимости, был воодушевлен низкой ставкой и ростом 10% в год. После 8 месяцев на рынке, платя 3 ипотеки и не имея дохода от сдачи жилья (решил больше не быть landlord) мне удалось продать 2/3 всего. Сумарно я потерял тысяч 300-400+ на этих 2х недвижимостях, и это не считая сил, нервов и времени. Можно считать, что это цена свободы от банковской кабалы.

Поэтому пост от Andre мне очен заходит, ведь если math doesn’t math, тогда не стоит в это дело ввязываться, а лучше арендовать, там где нравится и удобно, чем платить ипотеку банку, где 85% всех ваших денег, это лишь проценты по ипотеке.

Хотя если вы мечтаете иметь свой дом в Северной Америке, сейчас лучшее время покупать, но ужасное время продавать.

PS я уже писал про курс - Ace the Business Expenses. Теперь еще можно курсов добавить про Ace the 1st time Real Estate purchase, Ace the running Airbnb and long-term renting.

Читать полностью…

Инжиниринг Данных

Microsoft опубликовал большой курс по Generative AI.

https://github.com/microsoft/generative-ai-for-beginners/tree/main

Снизу по ссылке будут дополнительные ссылки на другие курсы.

Самые горячие кейсы по GenAI, с которыми сталкиваюсь:

- Text to Insights (уже несколько проектов по Snowflake + Cortex Analyst и один по BigQuery + TextQL). Такие проекты для больших компаний (enterprise), больше похоже на продажу AI на уровне директора/VP аналитики другим директорам/VP бизнес подразделений, ну типа мы AI driven

- Developer Performance с использование Cursor или Claude Code. GitHub CoPilot пока не дотягивает. Компания покупают лицензии и дают своим инженерам. В репозиториях обязательно файлы с правилами для GenAI.

- PR reviews, часто с Claude Code и Cursor. Опять же можно добавить правила (best practices) для PR review, чтобы фиксить согласно заданным требованиям (правилам)

- RAG - компании строят чат боты по внутренней и внешней документации и базе знаний, чтобы клиенту было проще найти ответ на свой вопрос.

- MCP интеграции, например DataHub (дата каталог) может ходить в Snowflake (хранилище данных), Cursor может писать запросы и на базе них создавать dbt модели.

Это прям, что мои команды используют. Все сходятся на позиции, что prompt (context) engineering очень важен, и нужно знать основы и следовать рекомендациям вендоров.

PS и конечно это все идет в мою любимую рубрику - увлекательные истории для вашего будущего собеседования:)

Читать полностью…

Инжиниринг Данных

Как сделать парсер цен конкурентов (и еще много чего), если ты менеджер, а не Python-разработчик ?

Идея не нова - написать бота, который будет ходить по нужным сайтам, автоматически собирать оттуда информацию и присылать вам, разложенную по полочкам.


Затык в том, что для этого нужен технарь, а ему нужно четкое ТЗ, да еще и деньги. А вам потом выяснять, где он перепутал, переделывать, тратить время и нервы.

В такие моменты думаешь - быстрее было бы разобраться и сделать самому 😡

А теперь, в эпоху AI, это и правда возможно! За 5 минут сгенерить код с ChatGPT и запустить скрипт на Python.

Не верите?
Пройдите по 5 шагам этого гайда и сделайте свой парсер цен на Python, даже если никогда в жизни не программировали.

Кто попробовал - ставьте 🔥и делитесь гайдом с коллегами!

Читать полностью…

Инжиниринг Данных

Вот так неожиданно - Fivetran покупает sqlMesh. 1-го мая я писал о покупки Census.

Про sqlMesh у нас были и посты и вебинары - это такая современная альтернатива dbt. Лично для меня после такого приобретения sqlMesh становится менее привлекательным, так как они могут пойти по пути убийства open source продукта.

Раньше я думал, что Tobico еще очень молодая и маленькая компания. В истории я вижу только seed (4.5m) и Series A (17.3m). Несмотря на размер, Fivetran увидел для себя ценность и съел купил.

Про dbt недавно узнал, что они внедряют новую pricing model для их dbt fusion cloud - credit based. Я уже писал о таких изменения в Dagster, когда flat fee заменили на credit based и цена выросла в 10-20 раз для маленькой команды. Сейчас такое же делает dbt cloud.

Некоторые команды еще держатся на dbt cloud и платят только за один license seat, а вся разработка на dbt core, но вендор подпирает и скоро лишит всех такой возможности.

Читать полностью…

Инжиниринг Данных

А может есть народ в Salt Lake City? Буду там 29 сентября по 2 октября.

Из последних встреч, особо никого не получилось собрать:
- Во Франции (Париж и побережье) нет никого, я даже написал в 5-6 сообществ на meetup.com, чтобы выступить и рассказать про проекты, но не получил ответа.
- В Чикаго был один человек, кстати!, не заметил прогресса карьерного 😜
- В Денвере никого не встретил, кроме своего бывшего коллеги, американца итальянского происхождения, который сделал настоящую пиццу на дровах и разрешил пострелять из его пушек.

В Сиэтле несколько ребят пришло, познакомился с E7 Data Scientist (из вежливости не спросил про зарплату, но потом погуглил 🤗, знакомая с парочкой работ в US компаниях и data начальница в Stripe. Как обычно сравнили жизнь в Канаде и США, погрустили над низкими доходами в Канаде.

Читать полностью…
Subscribe to a channel