23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Дата с Димой - Эпизод 1
«Дата с Димой» срез актуальных новостей из мира данных, бигтеха и аналитики как в России, так и за рубежом. Дмитрий обсуждает как технические обновления и интеграции продуктов, так и вопросы карьерного роста, менторства, рынка труда и инвестиций в IT-сфере.
Вот основные моменты:
🎙️ Запуск новой программы: Первый эпизод «Дата с Димой», где обсуждаются тренды в мире данных и аналитики.
🛠️ Обзор инструментов и вендоров: Новости об обновлениях и приобретениях продуктов (например, dbt, SDF, Clickhouse, DuckDb, Iceberg, Databricks, Confluent, SAP и другие), которые влияют на скорость и качество работы с данными.
🚀 Инновационные интеграции и миграции: Обсуждение ускорения компиляции кода, миграционных решений (например, Blade Bridge) и интеграций с потоковыми системами.
🔍 Контроль качества данных и best practices: Роль open-source библиотек и новых подходов для проверки качества данных, а также рекомендации по построению надежных data pipelines.
💡 Менторство и карьерный рост: Важность поиска хорошего ментора и следования его рекомендациям для профессионального развития.
📈 Инвестиции и динамика рынка: Обзор новостей о падении акций, массовых увольнениях в крупных компаниях (например, Meta) и переходе экспертов к Databricks.
💰 Рынок труда и зарплатные тренды: Рост зарплат опытных дата-инженеров, изменение требований к кандидатам (отказ от джуниоров в пользу специалистов) и влияние автоматизации на рынок.
🎓 Образовательные ресурсы и курсы: Новые курсы от Snowflake и другие обучающие проекты, помогающие подготовиться к работе как в России, так и за рубежом.
🌍 Глобальные тренды и удалённая работа: Обсуждение возможностей работы на международном уровне, мультизанятости и перехода на удалённые контракты («валютные удалёнки»).
🤖 Телеграм-бот Getmanch: Отмечается удобство работы с ботом от Getmanch, который помогает находить вакансии с персонализированными предложениями.
И многое другое, enjoy! 😉
С развитием AI, теперь любой может стать разработчиком. Я и сам столько всего сделал, о чем раньше даже и мечтать не мог.
Недавно на радостях купил себе Cursor AI подписку и поставил Augment Code.
Но так как у меня есть хоть какой-то опыт в ИТ, я примерно понимаю как нужно работать с code repo, есть понимания безопасности (где и как хранить секреты), знаю о рисках потери персональных данных и тп.
А вот новоиспеченные ИТышники еще не знакомы, и вообще можно базу проскочить и сразу по красоте @уяк @уяк и в продакшн!
А потом такие красивые истории всплывают - Cursor f*ck up my 4 months of works. Там сразу ответ предложили - “А git не пробовали?”.
Думаю нас ждет еще много таких интересных историй.
ИИ уже меняет мир, и каждый может стать частью этих перемен. Если и вы хотите создавать прорывные технологии, а не просто наблюдать за ними. Для того, чтобы преуспеть нужен крепкий фундамент – качественное образование.
Этот выбор – инвестиция в востребованность в стремительно развивающейся сфере.
Чтобы не тратить время и разбираться в чём разница между топовыми школами ИИ, присоединяйся к вебинару "Где изучать искусственный интеллект: ШАД, AI Masters, Центральный Университет?".
Лекторы:
- Юрий Дорн, к.т.н., академический руководитель AI Masters.
- Александр Дьяконов, д.ф.-м.н., профессор РАН, академический руководитель направления Data Science в Центральном Университете.
Не смотри как поезд уходит!
Записывайся по ссылке!
GetMatch — это сервис, который помогает IT-специалистам находить работу, а компаниям — закрывать вакансии. В отличие от классических job-бордов, GetMatch сразу показывает зарплатные вилки.
Идея «просто» автоматизировать парсер вакансий зародилась у нас с Сашей Варламовым (канал Саши @data_bar) – как часто бывает, слово «просто» стало началом чего-то действительно масштабного. Сейчас у нас есть полноценная автоматизированная система, которая ежедневно парсит вакансии с GetMatch, загружает их в PostgreSQL, тянет курс рубля и доллара, отправляет отчеты в Telegram и полностью автоматизирует ETL-процесс для аналитики в дашборде.
Поднял Airflow в docker-compose на Timeweb (не реклама, просто нравится админка), чтобы DAG’и можно было запускать и мониторить централизованно. Добавил CI/CD на GitHub Actions, чтобы больше не заходить на виртуалку вручную — всё деплоится автоматически. Был парсер getmatch, но я его переписал под Airflow с Taskflow API. Разделил задачи, сделал их атомарными и настроил on_failure_callback, который отправляет сообщения об ошибках в Telegram-канал. Теперь, если что-то сломается, я узнаю об этом сразу, а не через неделю, когда появится дыра в данных.
База данных PostgreSQL развернута на другом VPS, чтобы разграничить вычисления и хранение данных. Создал таблицы vacancies, vacancy_skills, skills, где skills сразу вынесена в ref-таблицу, чтобы не дублировать текстовые значения. Настроил пользователей и доступы, подключил базу к Airflow. Бэкапы настроены на ежедневное обновление.
Теперь каждая вакансия и навык привязаны к конкретному дню, что позволяет анализировать динамику рынка труда. Каждое утро DAG собирает свежие вакансии, тянет курсы валют и обновляет таблицы, а в Telegram приходит сообщение с итогами работы: сколько вакансий обработано, какие ошибки возникли.
Теперь в дашборде можно:
• Смотреть историю изменения вакансий по дням
• Анализировать время жизни вакансий и скорость закрытия
• Отслеживать корреляцию зарплат с навыками
• Изучать спрос на скиллы в динамике
Раньше были просто “актуальные вакансии”, теперь есть полноценная разбивка по дням, что открывает больше возможностей для анализа.
Посмотри на наш дашборд анализа зарплатных вилок 👈
🔹 public.tableau.com иногда работает, только под VPN из РФ — держи мой VPN. Выше рассказывал, как разробатывал его в новогодние праздники @ShtormVPNBot 🫂
В планах — развернуть dbt и начать собирать слой трансформаций, чтобы сразу приводить данные в нужный вид для аналитики.
Учитесь как надо посты писать в Linkedin 😎
Читать полностью…
Неожиданные поворот от Databricks - интеграция с SAP!
https://news.sap.com/2025/02/sap-business-data-cloud-databricks-turbocharge-business-ai/
Всем SAP инженерам самое время upskill сделать по 🧱
Запись утиной конференции (DuckDB) https://www.youtube.com/playlist?list=PLzIMXBizEZjggaDzjPP542En2R5SV0WiZ
Читать полностью…
AI Company Asks Job Applicants Not to Use AI in Job Applications
Anthropic, компания, создавшая одного из самых популярных в мире AI-ассистентов для написания текстов, требует от соискателей согласия на то, что они не будут использовать AI-ассистента при подаче заявки.
«Хотя мы поощряем использование AI-систем в работе для повышения скорости и эффективности, пожалуйста, не используйте AI-ассистентов в процессе подачи заявки», — говорится в тексте заявки. «Мы хотим понять вашу личную заинтересованность в Anthropic без посредничества AI-системы, а также оценить ваши навыки коммуникации без помощи AI. Пожалуйста, укажите "Да", если вы прочитали и соглашаетесь».
Вот так вот, всем продаёт свой AI, а вот на собеседовании нельзя использовать.
У меня было один раз собеседование в компания Zapier, и там прям сразу же попросили использовать AI и написать, как я его использовал для домашнего задания. Задание нужно было сделать на Databricks, и я использовал Notebooks для решения. Само задание и решение здесь - Football Teams and Competition Analytics. Им не понравилось, что я много переиспользовал ноутбуки. Хотя во всех курсах Databricks показывают примеры с ноутбуками.
├── README.md
├── __includes
│ └── utils.py # common functions and libraries for this project
├── facts # aka Gold layer
│ ├── __includes
│ │ └── dim_facts_ddl.py
│ ├── dimensions.py
│ └── facts.py
├── football_analytics_pipeline.py
└── raw # aka Bronze Layer
├── __includes
│ ├── raw_football_schemas.py # Struct Schemas for API
│ ├── raw_tables_ddl.sql # Table DDLs
│ └── seed_competition_list.py # Data seed for list of competitions
├── __tests # assertions for notebooks
│ ├── competition_assertion.py
│ ├── competitions_teams_assertion.py
│ └── teams_assertion.py
├── raw_football_api_competitions_ingest.py
├── raw_football_api_competitions_teams_ingest.py
└── raw_football_api_teams_ingest.py
Зима в Британской Колумбии. Это вид из коворкинга в центре Ванкувера, где обычно по пятницам собираемся с друзьями отдохнуть от Work From Home.
Как видно в центре тут корабли, пароходы, поезда, еще есть водные самолеты и вертолеты.
Всем привет, это была проверка на внимательность:)
Аналитики ведь должны быть внимательны!)
Миграция с Hadoop и BigQuery сэкономила 500К$ в год и +40% эффективности.
Про эффективность понятно, а вот про экономию и Snowflake обычно бывает наоборот=)
Зато белорусская компания на первой полосе, сам CEO Snowflake сказал, что обожает в танчики порубиться и с удовольствием поделился историей успеха и пригласил отечественных дата инженеров изучать Snowflake и мигрировать на data облако.
Используете ли вы большие данные в принятии бизнес-решений?
Российские компании инвестируют в большие данные. Но оправданы ли эти вложения?
K2 Cloud и Arenadata провели исследование, в котором проанализировали, как проекты big data влияют на бизнес-процессы, какие барьеры возникают при внедрении и как облачные технологии помогают преодолеть эти сложности.
В карточках – основные выводы исследования. А с полным материалом знакомьтесь по ссылке>>
Не знаю насколько это новинка или нет, но народ говорит прям must have!
Компания: Что вы сделали в этом году, чтобы принести пользу? Укажите все соответствующие метрики.
Я: Я ускорил сборку кода на 90%, сэкономив время разработчиков и расходы на тестирование.
Компания: Вау, как вам это удалось?
Я: Бесчисленные часы оптимизации.
Я [в реальности]: s/pip/uv pip 😆
На днях у меня произошла замечательная история про помощь AI (Claude, ChatGPT).
Задача:
На одном из проектов я использую Snowflake. Для повышения безопасности я решил обновить сервисных пользователей и перевести их с User/Password на User/Key-pair (private/public key).
Многие системы поддерживают этот метод из коробки, например dbt Labs, Sigma BI, Azure Data Factory. Однако некоторые не поддерживают его вовсе, что, конечно, не очень хорошо. Например, сервис блокнотов DeepNote.
Также, как и на нашем недавнем вебинаре по dbt core на Postgres, у меня есть CI (Continuous Integration) шаг, который запускает dbt.
Раньше я передавал пароль пользователя в GitHub Actions через GitHub Secrets.
Теперь же решил передать private key.
Вместо того чтобы просто скопировать ключ в GitHub Secret как есть, я решил спросить у чата, как сделать это быстро и правильно.
Чат не предложил просто вставить ключ (copy-paste), а начал чудить с декодированием, типа:
cat rsa_github_dbt_dev_user.p8 | base64
base64 --decode
Про A/B-тесты
Вы заметили, что во многих разделах Авито поменялся интерфейс? Особенно это заметно в разделе Авто. Фотографии стали больше. А еще их можно полистать, не проваливаясь в само объявление. UX точно стал лучше!
С точки зрения аналитики интересно, как команда Авито измеряет эффективность таких изменений? Ответ — через свою платформу для A/B-тестов Trisigma. Это внутренний инструмент, который уже раскатили на внешнюю аудиторию. Через него аналитики прогоняют все изменения: от размера карточек до фич.
И этот эксперимент с изменением ленты Авито Авто тоже прошел через Trisigma: баерский опыт улучшился. Например, в категории новых авто пользователи после изменения ленты стали совершать на 14% больше целевых действий.
Посмотреть, как устроен инструмент и, конечно, протестировать его самостоятельно можно, оставив заявку на сайте платформы.
Clickhouse активно работает над поддержкой Iceberg Lakehouse.
Должно быть быстрое (performance) и недорогое (cost) решение.
В качестве демо, они используют Snowflake Polaris каталог. Раньше я писал про похожий сценарий, но с DuckDB.
https://clickhouse.com/blog/climbing-the-iceberg-with-clickhouse
Их дорожная карта на 2025: https://github.com/ClickHouse/ClickHouse/issues/74046 (мне понравилась идея создавать road map через Github Issues, прозрачно и удобно, и главное привязано к code changes)
RSHB DA Meetup: Качество данных и Data Vault 2.0 в действии
Митап от РСХБ.цифра для дата-аналитиков и инженеров данных
Приглашаем всех, кто занимается большими данными и следит за их качеством. Вас ждут доклады от руководителей дата-направлений.
🌐 Онлайн и офлайн в Москве
📆 27 февраля в 18:00 (МСК, GMT+3)
👥 Дискуссии для участников, афтерпати в офлайне
❓ Мерч и призы за вопросы
Программа:
🗣 Леонид Калядин (МТS Digital) — «Data Quality в условиях Self-Service: как мы избежали хаоса и создали систему проверок для коммунальных витрин»
🗣 Алексей Кошевой и Кристина Проскурина (РСХБ-Интех) — «Как мы сделали одну большую песочницу для всех аналитиков»
🗣 Денис Лукьянов (Ecom․tech) — «Data Vault 2.0. Методология, логическая модель, построение витрин»
Участвуйте в дискуссиях и задавайте вопросы спикерам — лично или в Telegram-чате. Организаторы подготовили мерч для офлайн-участников и призы для авторов лучших вопросов.
Регистрируйтесь на сайте
Реклама. Фонд «Сколково». ИНН 7701058410
Всем привет!
Хочу поделится хорошей вакансией от знакомых товарищей! Я сам лично знаком с проектом, командой и данными.
Ребята ищут ML инженера, ну или data scientist, на контракт в Европе с возможностью продления или устройством в штат (удаленка), который сможет построить несколько моделей, для продукта.
Backend на Azure, в качестве аналитических инструментах есть Snowflake. Бизнес проблемы уже сформулированы и осталось найти эксперта, кто сможет построить модель для решения поставленных задач.
Кандидат уже должен иметь возможность работать за пределами России или Белоруссии.
Описание по ссылке: https://careers.softeq.com/jobs/5526008-senior-lead-ml-cv-engineer
Так же компании ищет экспертов по IOS и Android разработке.
В качестве referral указывайте Виктор Козуб.
Как я понимаю в каждой второй (крупной) компании в РФ есть Greenplum.
Сегодня я как обычно смотрел профили свежих подписчиков и их телеграмм каналы и увидел свежее выступление про Greenplum. Если вы с ним не работали, я думаю подойдет для ознакомления.
https://boosty.to/magician_data/posts/7ffaec19-1419-40bb-8a2d-be22afc200f1
PS если у вас есть другие классные ссылки по GP пишите в комментах. Чтобы добавить ссылку попробуйте как код это сделать
Читать полностью…
https://kuku.ru
Когда-то Informatica была №1 среди ETL инструментов. Но они так и не смогли адаптироваться к современным реалиям.
Последний раз я смотрел на Informatica Cloud в 2016 году, когда нужно было строить хранилище данных на AWS, выбрал в итоге Matillion ETL (сейчас бы и его не выбрал бы).
Вот что говорит CEO информатики:
«Это был квартал, в котором мы не предвидели и не достигли тех результатов, которые планировали», — сказал Валия, подчеркнув две «основные проблемы», с которыми столкнулась компания в течение этого периода.
«Первая заключается в том, что уровень продления подписок на наши облачные и некоторые не облачные решения не оправдал наших ожиданий, что снизило показатель ежегодной повторяющейся выручки (ARR)», — пояснил он, добавив: «На самом деле, у нас было значительно больше клиентов, использующих локальные решения, которые захотели перейти на облачные технологии, но это создает учетную загвоздку, из-за которой мы теряем часть доходов от локальных решений гораздо быстрее».
Надо было лучше в Bitcoin инвестировать как Microstrategy🍷
У Snowflake есть бесплатные свежие курсы на курсере:
- Introduction to Generative AI with Snowflake (я как раз в процессе, ведь у меня теперь в LinkedIn Data Infrastructure for AI, то есть не отсаю от трендов)
- Intro to Snowflake for Devs, Data Scientists, Data Engineers
- Introduction to Modern Data Engineering with Snowflake
Но самое ценное в этих курсах:
Sign up for a free, 120 day Snowflake trial account
The entire course can be completed using a free, 120 day Snowflake trial account. This is the recommended way of completing the course. The instructor will also be using a trial account throughout the course.
Use the link below to create your free:
https://signup.snowflake.com/?trial=student&cloud=aws&region=us-west-2&utm_source=coursera&utm_campaign=genai1
Так намного лучше, ведь по умолчанию 30 дней Snowflake Trial.
Илон говорит о важности уникального ключа в таблице🦯
Читать полностью…
Ну дела у ❄️, пампили пампили дата облако, но походу оказался ROI низкий.
Как обычно бывает качество продукта тут не так важно. Инвесторам вообще пофигу и когда появляются большие инвестиции - часто вредит.
Осталось, чтобы кто-нибудь поглотил Snowflake.
Кстати, Databricks можно купить на вторичке, он в топе там.
1–2 марта проводим Weekend Offer Analytics
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 2 лет на Python, готовых работать в офисном или гибридном режиме на территории России.
Подавайте заявку до 24 февраля — и всего за 2 дня пройдите все технические собеседования. После сможете пообщаться с одиннадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
Реклама. ООО "Яндекс". ИНН 7736207543
Устроиться аналитиком в Яндекс за выходные
7–8 декабря проводим Weekend Offer Analytics. До 4 декабря оставьте заявку на участие, 7 декабря пройдите технические собеседования, а 8 декабря познакомьтесь с командами и получите офер.
В мероприятии участвует 7 команд: Crowd, Карты, Поиск, YaGPT 2, Автономный транспорт, Реклама и Ecom-сценарии. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.
Нанимаем в офисы России и Республики Беларусь.
Узнать подробности и зарегистрироваться можно здесь.
История на картинке:
Ребята кайфовали на работе от Snowflake, Databricks и других популярных и приятных в использовании решений.
А потом им сверху сказали: “Ребятушки, сейчас заживём, внедряем Microsoft Fabric + Purview”.
Ребятушки в шоке. Power BI ещё куда ни шло, норм инструмент, а вот Fabric, Synapse, Purview — это уже издевательство над инженерами и архитекторами.
Это действительно так. При мне в Microsoft выкатили Synapse и заставили всех внутри перейти с Databricks на Synapse. Это была такая боль для инженеров. Так ещё и сам Synapse был DOGFOOD (так называется internal release любого решения в Microsoft).
Потом я даже был в продуктовой команде Synapse и как раз трудился над созданием Fabric. Purview развивался параллельно.
Пользователи Power BI были в восторге — теперь они могут сами (с усами) строить Lakehouse, pipelines, и вообще там всё само работает (SaaS).
Я уже давно приметил, как работает продажа решений Microsoft. Мне это видится примерно так:
1. Компания (обычно большая, как Fortune 500) работает с Microsoft с 90-х/2000-х, и у них там всё “вась-вась” на уровне CTO/CIO/VP.
2. Сейлзы Microsoft всё время на связи и приносят “инновации” из мира технологий, просто отгружая “обещания” — data-driven, AI-driven и т. д.
3. Сверху инженерам объявляют радостные новости:
• мигрируем Microsoft on-premise в Azure,
• мигрируем SQL Server на Azure Data Warehouse,
• мигрируем Azure DW на Synapse Dedicated Pool,
• мигрируем DW на Synapse Serverless Lakehouse,
• мигрируем Synapse на Fabric.
Я, конечно, утрирую, но это моё видение. Я не знаю ни одного инженера (а я знаю очень много инженеров), кто был бы в восторге от Synapse, Fabric, Purview.
Обычно, если инженеры выбирают для себя, они могут выбрать open-source решения или коммерческие. Но никак не Fabric.
Зато у этой истории есть и положительная сторона. Если в компании внедряют Synapse/Fabric, значит, это большая жирная компания с низкой производительностью и эффективностью, и там можно затеряться. Но зарплаты там не больше. Можно удалённо штаны просиживать и своими делами заниматься.
Кстати, у Azure есть и хорошие решения:
• Azure Data Factory для оркестрации работает хорошо, если использовать API/SDK, есть возможность использовать Airflow.
• Azure Storage Accounts (аналог S3).
• Azure Databricks (считается на 50% Azure и доступен как сервис Azure).
• Snowflake on Azure (внешний продукт).
Кто-нибудь реально фигачил на Synapse/Fabrics от и до?
Сегодня узнал, что у StackExchange есть свой SQL интерфейс - Stack Exchange Data Explorer, который дает доступ к данным StackExchange.
Очень удобно использовать для собеседований или просто потренироваться пописать запросы. В качестве back-end используется Microsoft SQL Server.
Есть и tutorial.
В заключение поездки побывали в центре LA, чтобы покататься на Waymo (автономное такси). Утром еще были в Santa Monica, но был туман. Первый раз попробовал кабриолет и ford mustang. Выглядит круто, но шумоизоляция ужасная даже с закрытой крышей. Зато californication 100%
Читать полностью…
Как-то я видел пост чувака, который нанял ассистента и посадил его за своей спиной и оплачивал фулл-тайм.
Главная задача ассистента - не давать чуваку отвлекаться от работы. Эффект был настолько крут по эффективности, что окупил все затраты.
Я даже сам проводил эксперимент, рядом сажал жену и она меня гоняла каждый раз как я пытался открыть телеграмм или LinkedIn.
Одно время я хотел снять коворкинг с товарищем, чтобы двоем там работать и подгонять друг друга.
А сегодня я узнал про термин для этого в посте у Кати - body doubling
Snowflake in Talks to Acquire Analytics Startup Redpanda By Kevin McLaughlin
Что такое Snowflake вы знаете. Snowflake это хранилище данных это аналитическая платформа, которая позволяет:
- создавать хранилище данных
- работать с данными в браузере (SnowSight) используя SQL или Python (SnowPark)
- возможность создавать веб-приложения на базе Streamlit (open source решение, которое Snowflake купил)
- создавать Stored Procedures прям как в PL/SQL в Oracle или T-SQL в SQL Server (можно на SQL, можно и на другом языке). Работает отлично - бесплатная замена dbt для трансформации данных
- ставить на расписание ваши запросы (jobs) с использованием Tasks
- интеграция с Apache Iceberg, свой Iceberg каталог Polaris
- поддержка стриминга через Pipes, Dynamic таблиц
- своя кривая LLM Arctic
- возможность хостить контейнеры (сам еще не проверял)
- создавать Data Apps на любой цвет и вкус (для монетизации своих данных)
- Data Sharing, большой маркетплейс различных приложений, вендоров, данных
Это первое, что пришло в голову про Snowflake. То есть это целая платформа. И стриминг - это не сильная сторона Snowflake.
А что такое RedPanda?
Redpanda – это высокопроизводительный потоковый движок, совместимый с Apache Kafka.
🔹 Ключевые особенности Redpanda:
1. Совместимость с Kafka API – поддерживает основные API Kafka (Producers, Consumers, Streams), что позволяет использовать Redpanda без изменения существующего кода Kafka-приложений.
2. Отказоустойчивость и высокая производительность – написан на C++ и использует локальную память и NVMe-диски для ускорения обработки событий.
3. Не требует Zookeeper – в отличие от Kafka, в Redpanda отказались от Zookeeper в пользу встроенной системы управления метаданными.
4. Меньше ресурсов, выше скорость – за счет оптимизированного использования процессора, памяти и хранения данных Redpanda показывает на 5-10 раз меньшую задержку, чем Kafka.
5. Поддержка WebAssembly (Wasm) – можно писать кастомные трансформации данных прямо в стриме, без внешних обработчиков.
6. Лучше работает в Kubernetes – Redpanda легче масштабируется и лучше интегрируется с облачными средами, чем Kafka.
Если Snowflake купит их, то они усилят свои позиции по стримингу, потому что у их главного конкурента Databricks все очень хорошо в этом плане с Apache Spark Structured Streaming.