rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

20246

Делюсь новостями из мира аналитики и вредными карьерными советами;) 8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️ Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).

Subscribe to a channel

Инжиниринг Данных

Алексей Колоков все время что-то придумывает!

Вот в этот раз для своих (и не только) аналитиков, он придумал Crazy Data Quizzzz, потому что от обычных уже все устали. Вы можете собрать команду из 4х человек, встретиться в 16:00, напиться (можно квасом), и к 18:00 уже прийти в полной готовности отвечать на дата вопросы.....Алексей, еще сказал, что для девушек будет автограф сессия🍸


15 мая в клубе анонимных аналитиков пройдет Крейзи Дата Квиз!

Это тематическая вечеринка в формате квиза, адаптированного под аналитиков! Рекомендую всем, кто будет в Москве

Вы можете собрать свою команду (от 4 чел), либо попасть в рандомную (так больше нетворкинга)

Расписание:
18:00 - знакомимся, рассаживаемся по командам
19:00 - старт квиза
20:30 - призы победителям, нетворкинг
21:00 - завершение, афтепати для самых отчаянных

Розыгрыш билета
Напишите в комментарии самый забавный вопрос, который вам задавали на собеседовании. И я рандомайзером выберу счастливчика, который получит билет.

Регистрируйтесь, будет весело!
https://alexkolokolov.com/data-quiz

Читать полностью…

Инжиниринг Данных

в посте - macOS: Essential Productivity Hacks for Developers — No AI Needed автор делится советами по настройки мака, рассказывает про следующие утилитки:

- AeroSpace is an i3-like tiling window manager for macOS
- JankyBorders is a lightweight tool designed to add colored borders to user windows on macOS 14.0+
- Mac Spaces - apps on dedicated space (встроенная функциональность мака)
- Sketchybar replaces the default macOS menu bar with a customizable one — and frees up space.
- Raycast - аналог Spotlight (мощная штука, но так и не смог к ней привыкнуть)

Из этого списка мне нравятся программки и задачки, которые они решают, но к ним нужно время, чтобы привыкнуть (learning curve) или правильно настроить, поэтому я их не использую.

Для оптимизации рабочего пространства, я использую:
- Owly - чтобы не засыпал компьютер
- Magnet - управлять размерами окон (делить экран пополам и тп)
- Browserosaurus - сервис, который позволяет выбрать браузер при клике на ссылку


если хотите подилиться ссылкой, можно как code

Читать полностью…

Инжиниринг Данных

McKinsey написали статью - The missing data link: Five practical lessons to scale your data products


Дата-продукт состоит из пяти компонентов, цель которых — собирать, организовывать и управлять наборами данных, чтобы они были легко доступны и переиспользуемы различными командами и системами.

Когда дата-продукт спроектирован правильно:

- Он решает сразу несколько бизнес-задач.

- Его можно масштабировать и адаптировать под разные use case’ы.

- Он изначально создаётся с прицелом на повторное использование и развитие.

Впервые я обратил внимание на термин «дата-продукт» ещё в Amazon в 2016–2017 годах. Уже тогда дашборды, которые мы создавали, мы называли дата-продуктами. Практически любой конечный результат, который производит команда данных, — это и есть продукт данных.

Нельзя просто взять и перестроиться на продуктовый подход в аналитике — это целая культура. В Amazon мы работали в связке с продуктовыми менеджерами. Они прекрасно понимали ценность продукта, видели, где находятся болевые точки и что нужно сделать, чтобы принести максимальную пользу. При этом им было совершенно не важно, какие инструменты использует команда данных — это полностью зона ответственности инженеров и аналитиков.

При таком подходе удаётся извлечь максимальную пользу из аналитических инструментов (дата-продуктов) и обосновать высокие расходы на зарплаты инженеров и инфраструктуру.

Читать полностью…

Инжиниринг Данных

Fivetran купил Census.

Fivetran это набор коннекторов к сотням источников данных. На одном проекте меня очень выручает, грузим данных из Amazon Seller Central, NetSuite и других сервисов. Так же там есть классная возможность использовать webhooks, чтобы собирать все события или по старинке забирать данные из SFTP.

Однозначно инструмент экономит тонну времени. Из минусов это цена за кол-во строк. Подойдет для небольших источников. Еще там есть описанная модель данных для каждого источника и можно подключить готовые dbt модели, чтобы рассчитывать метрики и писать результат в хранилище данных.

Census это у нас reverse etl. Например, хотите вы в хранилище данных обновить метрики для лидов и клиентов и потом отправить в платформу автоматизации маркетинга - Braze, Marketo или обновить информацию по клиентам в CRM. Вам нужно будет писать в API сервиса, и вот Census тут поможет.

Я использую его аналог HighTouch.

Теперь значит Fivetran будет прикрывать хранилище данных с двух концов🤑

Читать полностью…

Инжиниринг Данных

Сегодня за долгое время отсавил отзыв под продуктом в Amazon, и мне предложили отличный инцентив, чтобы я еще пяток оставил - шутка в подарок.

Теперь вы знаете, за что Product менеджеры получают по ляму в год.

Скорей всего это отличный сценарий использования AI для повышения вовлеченности клиентов.

Получился бы отличный keynote для большой AI конференции - "История успеха: Шутки от AI увеличили продажи на 9.87% и сократили отток клиентов на 2.3%"

Читать полностью…

Инжиниринг Данных

Мечтаете не просто разбираться в управлении данными, а использовать уникальные инструменты для работы с Big Data? Научитесь этому на бесплатном студкемпе Яндекс Образования и ИТМО по дата-инженерии!

🧠 Программа — интенсивная, актуальная, от лидеров индустрии. С 30 июня по 12 июля вы погрузитесь в мир распределённых хранилищ, микросервисной архитектуры, DataOps/MLOps и пайплайнов для сбора, анализа и визуализации данных. А ещё познакомитесь с технологиями, которые используют в крупных компаниях. В общем, получите реальные навыки, которые ценят на рынке!

🏙 Кампус — в самом центре Санкт-Петербурга. Несмотря на то, что студкемп проходит на базе ИТМО, заявки ждут от студентов из любых вузов и регионов России. Проезд и проживание будут оплачены Яндекс Образованием, так что вам останется сосредоточиться на главном — знаниях, опыте и новых возможностях.

🕐 Регистрация — открыта до 4 мая, но подать заявку можно уже сейчас! Если давно хотели пообщаться с топовыми айтишниками и почувствовать, каково это — учиться в одном из ведущих технических вузов, не откладывайте и заполняйте анкету по ссылке.

Читать полностью…

Инжиниринг Данных

Дата с Димой | Новости из мира BigTech | Эпизод 4️⃣

YouTube, Rutube

💡 В этом эпизоде обсуждаем свежие новости из мира BigTech, карьерные инсайты, новые технологии, оптимизацию данных, а также влиятельные стартапы и инвестиции.

🎯 Ключевые темы выпуска:

📊 dbt, analytics engineering и тренды в индустрии данных
⚡️ Качество данных, рост зарплат и новые возможности за пределами IT
🤖 Роль AI в аналитике — автоматизация, курсоры и исправление ошибок
❄️ Iceberg vs Snowflake — форматы хранения и скрытые издержки Databricks
🔥 Альтернативы Pandas — FireDucks, Polars и новые подходы к обработке данных
🚀 Гибридные СУБД, DuckDB и сверхпроизводительность на AWS S3
🧵 Pipe Syntax и упрощение работы с SQL
🛡 Безопасность в AI и уязвимости в Apache Parquet
🏦 Инвестиции в OpenAI и влияние религии на Кремниевую долину
🎯 Навыки 2030 года — AI, Big Data и новые подходы к найму
🧠 Сверхинтеллект в 2027 году — риск или шанс
📚 Будущее образования — навыки важнее дипломов
🧩 Data-инженерия, AI Tutors и прокачка навыков через код
🏢 AI в бизнесе — примеры Shopify и развитие внутренних AI-отделов
🏗 Проблемы с дата-центрами и оптимизация инфраструктуры
🇷🇺 Арена Day, российские вендоры и будущее отечественного софта
📈 Возвращение западных компаний в Россию и адаптация решений
📖 Литературные рекомендации по технологиям и AI
☁️ Проблемы Яндекс Облака и работа с отказами в облачных сервисах
⚙️ AI-агенты, Kubernetes и локальные аналитические платформы
🧩 Облачные BI-инструменты и тренды в AI-образовании
💻 Использование AI в разработке и обучение Spark через Яндекс
🛠 Трансформация Алисы в умного ассистента от Яндекса
✍️ Vibe Codding — новые подходы к написанию кода


🎥 Хронометраж:

00:01 Введение в новости аналитики, AI и карьерных трендов.
00:39 Обзор DBT Cloud и развития аналитической инженерии.
02:32 Качество данных, расширение профессии и зарплаты.
04:21 Роль AI в аналитике и примеры автоматизации.
05:18 Iceberg, Snowflake и скрытые затраты на облачные решения.
08:10 Альтернативы Pandas: Fire DXS, Arrow, Polars.
09:05 Проблемы DataBricks и новые подходы в аналитике.
12:50 Гибридная обработка данных и производительность AWS S3.
14:42 Облегчение работы с SQL с помощью pipe syntax.
16:34 Использование AI и обнаружение уязвимостей в Spark.
19:16 Инвестиции в AI и развитие рынка OpenAI.
22:05 Тренды поиска работы и рост зарплат инженеров.
26:45 Изменения в подходах к найму и собеседованиям.
27:42 Опасности и потенциал сверхинтеллекта в будущем.
28:39 Трансформация образования и самообучение.
30:34 Реалии трудоустройства после окончания обучения.
33:40 AI Tutor и важные навыки для дата-инженеров.
35:37 Как компании интегрируют AI в бизнес-процессы.
37:27 Проблемы использования дата-центров в Китае.
39:19 Арена Day и развитие российских IT-вендоров.
40:14 Возвращение западных компаний на рынок и вызовы для локальных решений.
41:10 Рекомендации книг о технологиях и будущем.
42:05 Проблемы Яндекс Облака и управление кризисами.
43:59 Развитие AI-агентов и Kubernetes в России.
44:52 Облачный BI и использование AI в образовании.
46:43 AI в разработке и обучение Apache Spark.
48:37 Трансформация Алисы в полноценного ассистента.
50:31 Инструменты Vibe Coding и создание BI Cube.

⚡ Не забывайте ставить лайк, подписываться и делиться этим видео с друзьями! ❤️

Читать полностью…

Инжиниринг Данных

Появился Airflow 3.0 или как у вас его любят назвать - плов.

Современный интерфейс — обновления статуса в реальном времени, удобный тёмный режим для глаз и улучшенный графический вид DAG'ов.

Assets — теперь можно явно указать, какие данные читает и пишет каждая задача, а Airflow сам строит полную карту зависимостей. Например, привязать загрузку файла в S3 к запуску пайплайна удалось за считаные минуты — без дополнительных скриптов.
(а я думал assets только у Dagster)

Событийный запуск — DAG'и могут стартовать сразу по факту появления новых данных, а не ждать расписания. Работает гораздо быстрее по сравнению с cron-запуском.

Версионирование и бандлы DAG'ов — все изменения пайплайна теперь отслеживаются как изменения кода. Плюс, весь DAG (таски, зависимости, документация) можно упаковать в один бандл для удобного деплоя или отката.

EdgeExecutor — можно запускать задачи на любой машине, хоть на Raspberry Pi, параллельно с основным кластером.

Backfill через UI — выбрал нужный диапазон дат, кликнул один раз — и Airflow сам перерассчитал все пропущенные периоды.


Уже кто-нибуль попробовал обновиться?

PS давайте сделаем вебинарчик для DataLearn, есть желающие?

Читать полностью…

Инжиниринг Данных

Давненько никто никого не покупал. Свершилось - Datadog acquires AI-powered observability startup Metaplane (AI там и не пахнет, так то). DataDog популярный и хороший инструмент для infrustructure observability и неплохо справляется с Data Observability. Облачная платформа. Но дорогая, я писал ранее про 65млн$ в год у Coinbase.

За сколько купили Metaplane — непонятно. Зачем — тоже не совсем ясно.
DataDog — популярное решение, и практически во всех компаниях, где я работал, он был в использовании. Ближайший бесплатный аналог — это Prometheus и Grafana, которые можно неплохо развернуть в Kubernetes.

С Metaplane я работал только на одном проекте. Мне досталась команда инженеров, аналитиков и ML-специалистов, а также набор разных инструментов: Snowflake, Metabase, Dagster, dbt, Keebo (для оптимизации затрат в Snowflake) и Metaplane. Люди, которые внедряли эти решения, к тому моменту уже ушли. Компания продолжала платить вендору, но инструментом никто не пользовался.

Я решил его оставить. Один аналитик, который очень хотел стать дата-инженером, вызвался стать экспертом по Metaplane. Он до сих пор разбирается 🙂

Расскажите про ваш опыт с Metaplane и DataDog или аналогами.

Читать полностью…

Инжиниринг Данных

Один из свежих, хотя и не совсем новых трендов — это возврат от распределённых вычислений (distributed computing) к вычислениям на одном узле, как в старые добрые времена SMP. Пример — DuckDB.

На картинке — типичный стек с DuckDB: всё локально, быстро, удобно. Но возникает вопрос — что произойдёт, если такой «одиночка» упадёт? Как быстро можно восстановиться?

Для большинства небольших и средних компаний объёма до 1 ТБ вполне достаточно, а всё, что не помещается, можно спокойно держать рядом — например, в Apache Iceberg на S3.


Использовал бы я duckDB? Ответ простой, для себя лично 100%, а вот как наемный сотрудник лучше делать ставку на проверенные технологии Spark, Trino, Snowflake и тп. Обычно так все и делают:)

Читать полностью…

Инжиниринг Данных

Вот только закончили книгу по Snowflake, начинаем по Azure Databricks. Было много вопросов нафига козе баян делать Azure если есть просто Databricks. Мы им тактично объяснили зачем и нам дали добро.

Читать полностью…

Инжиниринг Данных

Давайте немного отвлекемся от ИТ будней, санкций, AI новостей и отжигов Трампа, и посмотрим на последние модные тренды.

После coachella, где собираются все модники появился четкий модный тренд на babushka style men outfit, где было куча мужиков в косынках.

Просто знайте, что сандали с носками это еще не вверх модной пирамиды, теперь можно и косынку надеть!😅

Читать полностью…

Инжиниринг Данных

Яндекс Вертикали зовут в свои сервисы продуктовых аналитиков — превращать результаты исследований в точки роста и делать жизнь миллионов пользователей удобнее

Ищут продуктовых аналитиков в Авто.ру и Яндекс Путешествия. Нужно будет проверять гипотезы, искать точки роста и влиять на все элементы своего сервиса.

От кандидатов ждут релевантный опыт работы от 2 лет, уверенное владение SQL, умение проводить A/B-тестирование, способность презентовать результаты и аргументировать свою точку зрения.

От себя обещают все плюшки Яндекса — от расширенной медицинской страховки до гибкого графика и спорта.

Узнать подробности и откликнуться:

Продуктовый аналитик в Яндекс Путешествия

Продуктовый аналитик в Авто.ру

Приходите в команду, которая действительно любит свой продукт и неравнодушна к результату 💛

Читать полностью…

Инжиниринг Данных

🚀 🚀 🚀

📅 Вебинар - сегодня (15 апреля в 19:00 по мск)

Тема: История одного проекта с большим техническим долгом

🎙Спикер - Роман Зыков

🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.

🔸 SQLMesh вместо морально устаревшего dbt - быстрые, прозрачные и масштабируемые преобразования данных.
🔸 dltHub - надежный и гибкий инструмент для транспорта данных.
🔸 PostgreSQL - универсальное и проверенное временем хранилище данных.
🔸 Metabase - удобный инструмент self-service аналитики, идеально подходящий для команд любой величины.

📕 На встрече обсудим:

➡️С какими техническими сложностями столкнулись при миграции?

➡️Почему именно этот стек, а не другой?

➡️Какие уроки извлекли и как минимизировать технический долг в будущем?

Вебинар будет полезен инженерам данных, аналитикам и техническим руководителям, которые хотят понять, как оптимально организовать техническую инфраструктуру своих проектов.

⚠️ Кстати, а вы знали? - DBT забанила SQLMesh для выступлению на конференции Coalesce в Вегасе 😱

🔗 Телеграм канал спикера @topdatalab


👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀

Join the meeting: https://meet.google.com/xfn-kzgv-cwy

Читать полностью…

Инжиниринг Данных

ну наконец-то хоть кто-то это сделал...а за export в excel все 50% надо!

Читать полностью…

Инжиниринг Данных

Мне понравилась статья Zака - The 2025 AI-enabled Data Engineering Roadmap.

По самому названию понятно, о чём идёт речь — как AI будет влиять на инженеров данных. Мне эта тема тоже интересна и близка. На текущий момент использование AI скорее приветствуется: важно понимать, какие есть инструменты, какие бывают сценарии и как можно сделать команду эффективнее. То есть угрозы полной замены инженера пока нет (хотя Цукерберг и другие боссы скажут вам обратное — но они, возможно, пока больше продают, чем предсказывают).

Конечно, всё развивается настолько быстро, что может произойти что угодно. Например, блэкаут — и мы, как испанцы и португальцы недавно, останемся без электричества.

Давайте посмотрим на его инсайты.
Он разделил задачи инженеров на три категории в зависимости от степени угрозы:

🟢 Минимальный риск замещения
🟡 Средний риск замещения
🔴 Высокий риск замещения

📉 Что автоматизирует AI:
🔴 Отладка пайплайнов (on-call) – почти полностью автоматизируется (много ложных алертов от data quality-чеков или out-of-memory, AI отлично справляется)
🟡 Писать SQL и Spark код – уже частично автоматизируется через Cursor, Windsurf и пр., но всё ещё нужен человек для ревью и тестирования
🟡 Документация – шаблоны и черновики пишутся AI, но бизнес-контекст пока вне его зоны компетенций
🟡 Планирование спринтов – AI может помочь с оценкой задач, но согласование и приоритезация — это человеческая коммуникация
🟡 Писать тесты – генерация мок-данных и шаблонов тестов возможна, но продумать edge cases должен инженер
🔴 Ответы на бизнес-вопросы – если модель данных хорошо оформлена и задокументирована, AI может закрыть до 90–95% типовых запросов
🟡 Автоматизированные data quality-чек-листы – AI хорошо пишет базовые проверки (Great Expectations, SQLMesh), но без бизнес-контекста малоценны

📈 Что останется за инженерами:
🟢 Архитектура пайплайнов и фреймворков (Airflow, Spark и др.) – требует глубокого понимания систем, AI пока не справляется
🟢 Концептуальное моделирование данных – нужно много переговоров и знания бизнеса, AI здесь лишь помощник
🟢 Создание best practices и общих процессов – требует согласования, доверия, культуры — не заменяется быстро
🟢 Создание процессов генерации пайплайнов – организационные процессы требуют участия людей, особенно на старте

📐 Ключевые дизайн-паттерны (по убыванию полезности):
🟢 Kimball (факт/измерения)
🟢 OLTP (3NF)
🟢 SCD Type 2
🟢 One Big Table (NoSQL/широкие аналитики)
🟢 Feature Store для ML
🟢 Kappa-архитектура (Apache Flink)
🟡 Микробатчинг/часовые пайплайны

📚 Вывод:
AI не заменит data-инженеров, но изменит их фокус — от ручной работы к концептуальному проектированию и бизнес-интеграции. Чтобы быть востребованным, нужно понимать архитектуру, паттерны и процессы, а не только писать SQL.



В любом случае выбор у вас только один, учиться/развиваться или стагнировать. Для меня все это уже давно напоминает эскалатор в метро. Вы идет наверх, а он едет вниз. Вот только вы остановились, и все, уехали вниз🪦

Читать полностью…

Инжиниринг Данных

Когда нужен перерыв от всяких дата и AI штук, use cases, собеседований, и других вещей.

Читать полностью…

Инжиниринг Данных

Как говорится, AI терминология in plain Russian🇷🇺

AGI: ИИ, который может думать как человек.
CoT (Chain of Thought): ИИ размышляет пошагово.
AI Agents: Автономные программы, принимающие решения.
AI Wrapper: Упрощает взаимодействие с ИИ-моделями.
AI Alignment: Обеспечивает соответствие ИИ человеческим ценностям.
Fine-tuning: Улучшение ИИ с помощью конкретных обучающих данных.
Hallucination: Когда ИИ генерирует ложную информацию.
AI Model: Обученная система для выполнения задачи.
Chatbot: ИИ, имитирующий человеческий разговор.
Compute: Вычислительная мощность для ИИ-моделей.
Computer Vision: ИИ, который распознаёт изображения и видео.
Context: Информация, которую ИИ запоминает для лучших ответов.
Deep Learning: Обучение ИИ через многослойные нейросети.
Embedding: Числовое представление слов для ИИ.
Explainability: Как можно понять решения ИИ.
Foundation Model: Крупная ИИ-модель, адаптирующаяся под задачи.
Generative AI: ИИ, создающий текст, изображения и т.п.
GPU: Аппаратное обеспечение для ускорения работы ИИ.
Ground Truth: Проверенные данные, на которых учится ИИ.
Inference: Прогнозы ИИ на новых данных.
LLM (Large Language Model): ИИ, обученный на больших текстах.
Machine Learning: ИИ, улучшающийся на основе данных.
MCP (Model Context Protocol): Стандарт доступа ИИ к внешним данным.
NLP (Natural Language Processing): ИИ, понимающий человеческий язык.
Neural Network: Модель ИИ, вдохновленная мозгом.
Parameters: Внутренние переменные ИИ для обучения.
Prompt Engineering: Создание запросов для управления ИИ-выходом.
Reasoning Model: Модель, которая следует логике.
Reinforcement Learning: Обучение ИИ с помощью наград и наказаний.
RAG (Retrieval-Augmented Generation): ИИ, который совмещает поиск и ответы.
Supervised Learning: ИИ, обучаемый на размеченных данных.
TPU: Специализированный процессор от Google для ИИ.
Tokenization: Разделение текста на более мелкие части.
Training: Обучение ИИ через изменение параметров.
Transformer: Архитектура ИИ для обработки языка.
Unsupervised Learning: ИИ, находящий закономерности в неразмеченных данных.
Vibe Coding: Программирование с помощью естественного языка.
Weights: Значения, формирующие обучение ИИ.

Читать полностью…

Инжиниринг Данных

Увидел я значит вакансию в LinkedIn - Principal AI Strategist. Интересно стало посмотреть требования. Все очень классно написано.

Executive Client Engagement and Leadership
— Главный AI-советник для ключевых клиентов.
— Проведение executive briefings, advisory sessions и C-level workshops.
— Ответственность за pre-sales, solution shaping, storytelling и крупные AI-сделки.
— Формирование trusted advisor отношений с клиентами.

Offering Ownership and Marketing Impact
— Создание и продвижение AI offerings и GTM-стратегий (LLMs, Agentic AI, Predictive Analytics).
— Отслеживание AI trends и трансформация их в решения и услуги.
— Разработка thought leadership материалов (white papers, кейноты, статьи).
— Участие в индустриальных форумах и мероприятиях как AI-евангелист.

Solution Design and Delivery Leadership
— Ведение AI strategy, governance, POCs и roadmaps для Fortune 1000.
— Консультирование по платформам (OpenAI, Claude, LangChain, Databricks, Azure OpenAI и др.).
— Обеспечение бизнес-результатов, ethical use и долгосрочной ценности AI.

Organizational Leadership
— Менторинг стратегов, архитекторов и консультантов в TEKsystems и One North.
— Выравнивание business и technical стейкхолдеров на AI-transformation.
— Формирование культуры excellence, innovation и responsible AI.

Skills & Qualifications
— 12+ лет в strategy consulting, tech advisory или innovation.
— 7+ лет AI-опыта:
 • AI strategy и governance,
 • presales и solutioning,
 • работа с LLMs, Generative AI, Predictive Analytics.
— Успешные C-level workshops и advisory.
— Сильный бизнес- и технический AI-бэкграунд.
— Навыки storytelling и executive communication.
— Опыт публикаций, спикерства и AI governance на enterprise-уровне.


Ну хотелки понятно, вы должны быть эдакий эксперт по AI, перед завтраком писать стратегию по внедрению AI в Fortune500 компаниях, до обеда успеть написать пару статей и white papers, подготовить доклад для конференции, а вечером провести доклад для C-уровня по AI.

Вам даже предлагают критерии оценки (что очень редко для вакансии, но классно, когда это есть):

Success Metrics
— Рост AI strategy revenue и расширение AI service line.
— Win rate в AI pre-sales и новых инициативах.
— Client satisfaction и executive endorsements.
— Объём thought leadership (white papers, конференции, публикации).
— Развитие внутренних AI capabilities и рост талантов.


Ну все понятно и логично.

Теперь самое интересное, сколько же стоит такой специалист в US.

Начнем с бенефитов - Скидки только для участников и корпоративные тарифы на всё — от пиццы и зоопарков до билетов в кино.

Просто замечательно.

И как вы думаете, какое вознаграждение у такого топого AI principal стратега?!

Не буду вас томить, просто напишу - Мы оставляем за собой право установить зарплату выше или ниже базового диапазона $162,600–$254,200.

То есть старший разработчик SQL в Америке получает примерно как Pricipal AI Strategist. Интересно, люди которые будут внедрять прорывные AI решения и писать стратегии (уверен тут они эксперты по использованию ChatGPT для написания стратегий), какого качества должны выдавать свои решения.

PS если вы вдруг ищету работу заграницей на позицию Product Manager с AI уклоном, прям можно с этой вакансии к себе в резюме добавлять, написано очень добротно (наверно другой AI strategist писал с попомью ChatGPT).

Читать полностью…

Инжиниринг Данных

Поступление в ШАД: даже одна попытка откроет путь к большим возможностям!

Попробовать поступить в Школу анализа данных Яндекса может каждый, кто увлечён Data Science: неважно, учитесь вы в вузе, работаете в IT или просто любите разбираться в сложном. Если вас тянет к задачам, над которыми ломают голову лучшие умы, — попробовать точно стоит!

В ШАДе вас ждёт не просто теория — здесь с первого дня погружаются в практику: осваивают сложные концепции машинного обучения, решают ИИ-задачи, которые вчера казались невозможными, и получают мощный буст для карьеры.

Создавать инновационные решения, продвигать науку, запускать стартапы или делиться опытом — всё это доступно выпускникам ШАДа! Если хотите стать одним из них, не теряйте времени — подайте заявку до 4 мая!

Классные плюшки: обучение бесплатное, а если в вашем городе нет филиала, заниматься можно онлайн. Не упустите шанс: попробуйте поступить и откройте перед собой новые горизонты!

Читать полностью…

Инжиниринг Данных

Как понять, что в компании проблема с дата культурой и уровень вовлеченности у команды низкий? Хотя активность высокая. (Подойдет не только для даты команды)

Вот некоторые из признаков:

1) множество бесполезной активности в чатах/мессенджерах и много emojis и реакций по делу и без (для галочки)

2) для каждой задачи проекта создается новый рабочий чат, иногда и не один, потому что каждый хочет быть проактивным и побыстрей создать чатик и пригласить туда коллег (для галочки)

3) пишется большое кол-во документов, таких как Playbook/Runbook/ и тп, в которых документируются шаги выполнения команд (для галочки)

4) множество звонков и встреч, на которых бывает больше 3х человек

5) бесполезные комментарии в code reviews (для галочки)

6) повторяющиеся презентации и контент на встречах с командами о высокой цели и миссии компании и общий вклад к великой цели

7) отсутствие решения очевидных проблем с доступом, производительностью, legacy, качеством

А какие вы знаете признаки?

Читать полностью…

Инжиниринг Данных

Загрузил 2 вебинарчика, которые недавно проводили. Обложки создал в ChatGPT.

История одного проекта с большим техническим долгом (Роман Зыков, автор канала @topdatalab) про SQLMesh, DLThub, Metabase, Postgres - YouTube, RuTube

Всё что нужно знать о Greenplum (Автор Никита Тселищев, автор канала @DataEngineeringDigest) - YouTube, RuTube

И мне еще понравился вебинар G63. Животное удовольствие от Стаса Асафьева, я ужа давно смотрю его исторические обзоры, а тут он классно так про машину рассказал.

PS Если хотите сделать прикольный вебинар, рассказать про свой проект, you are welcome!

Читать полностью…

Инжиниринг Данных

Привет от Карлсона, который живет на крыше:)

Читать полностью…

Инжиниринг Данных

Как измерить эффективность дата команды? Самый простой вариант это ROI (возврат инвестиций).


Солгасно статье How to think about the ROI of data work

ROI = 🎳 × 🎳(🖇) × 💰 − ⏳, где

🎳 (кегли) — это количество специалистов по данным, на которых повлияла ваша работа

🖇 (скрепка) — это степень воздействия на каждого из них (насколько вы упростили им работу)

💰 (мешок денег) — это влияние на бизнес, которое они могут оказать благодаря вашей работе

⏳ (песочные часы) — это время, которое вы потратили на выполнение задачи

Пример на практике: Если вы сделали улучшение, которым пользуются 5 аналитиков, и оно ускоряет их работу на 20%, а они, в свою очередь, приносят ощутимую пользу бизнесу — то вы проявили свою ценность.

Можно выделить 2 направления:

- KPI-персоны (ближе к бизнесу) — фокус на сокращение шагов до метрик и выбор самых "окупаемых" задач.

- Системные роли (инфраструктура) — фокус на масштабировании пользы (больше потребителей + выше эффективность).



На практике ROI чаще используется вендорами, чтобы продать "обещания" и "фичи", которых ещё нет или которые находятся в стадии беты. Это инструмент маркетинга, а не измерения реальной пользы.

Измерить реальный ROI от работы в данных — крайне сложно. Если считать только количество часов, которые якобы сэкономили — картина получается однобокой. Ведь организация продолжает платить зарплату, и эти издержки редко учитываются (а чаще вообще не раскрываются). Можно, конечно, сделать красивую презентацию и даже убедить руководство — но это больше похоже на иллюзию, чем на настоящие цели.

Гораздо продуктивнее работать в режиме OKR или хотя бы грамотно планировать спринты, чтобы:

каждая задача была привязана к бизнес-целям компании,

и результат можно было измерить.

Такой подход позволяет действительно продемонстрировать IMPACT и VALUE — а это напрямую влияет и на успех команды, и на карьерный рост каждого.

Как у вас с ROI? Например, хороший ли у вас ROI связанный с покупкой новой модели iPhone/Android?:)

Читать полностью…

Инжиниринг Данных

Вопросы на интервью: №5

What KPIs did you have in your previous/current role?

📌 А дальше - почти всегда:
• How did you track progress? What tools did you use?

📌 Для руководителей добавят:
• How do you know the KPI is right?
• How do you help others understand and reach their KPIs?


Разговор про KPIs важен, потому что дает понять, какие были приоритеты, как измерялся прогресс, какой был "единый язык" команды, на основе чего принимались решения и в итоге - как это влияло на рост и развитие этого кандидата (или как развитие кандидата влияло на улучшение KPIs😅).

❗ Поэтому важно этот ответ подготовить заранее.

Рассказать:
— какие KPI были (и на какие цели завязаны)
— как вы их отслеживали (инструменты, отчёты, циклы)
— были ли они формально заданы или определялись вами

One of our KPIs was reducing time-to-fill for senior sales roles. We used Workday dashboards and weekly funnel reviews. Within one quarter, we improved it from 48 to 32 days by optimizing JD alignment and switching to a new agency partner.


Если KPI не было - не страшно

Страшно - когда кандидат говорит: "KPI не было" - и зависает 🌚

Даже в этом случае, главное - показать, как вы всё равно оценивали свою эффективность.

“I didn’t have formal KPIs, but I tracked my impact via turnaround time, project milestones, or stakeholder feedback”

“In my supporting role, success was reflected in how smoothly others could perform. I focused on responsiveness and being a reliable partner”


Даже если в компании не было системы KPI, хороший кандидат сам способен её для себя применить или хотя бы понимать, что важно в его работе. Бенчмарки, практика в других отделах, логика бизнеса - всё годится.

😬 Маленький личный кейс

Однажды кандидатка-рекрутер сказала, что закрывает вакансии от IC до VP за 2 недели, при том что до этого она упомянула, что одновременно ведёт 15–20 ролей. Звучит красиво, но в реальности невозможно. Я задала пару уточняющих вопросов - и всё посыпалось. Было грустно (мне).

Моё мнение:
Кандидаты, которые не могут внятно рассказать про KPI - чаще всего из незрелых бизнесов, не привыкли мыслить через ценность и вряд ли понимают, куда им расти. А как развиваться, если ты не можешь измерить, где ты вообще?

В предыдущих сериях:
❓Вопрос №1 - Tell me about yourself
❓Вопрос №2 - Why do you want to work at our company?
Вопрос №3 - Why are you looking for a new job?
Вопрос №4 - What were you expected to accomplish when you first joined your previous role?

Читать полностью…

Инжиниринг Данных

Хотите разбираться в Big Data так, как это делают специалисты Яндекса? Тогда присоединяйтесь к бесплатному интенсиву ШАДа Big DWH Week!

Вас ждёт 8 онлайн-занятий, на которых вы познакомитесь с YTsaurus — платформой для распределённого хранения и обработки данных. Вы разберётесь в её архитектуре и масштабировании, а также научитесь настраивать систему под свои задачи.

Интенсив открытый, поэтому зарегистрироваться может каждый. Однако интереснее всего программа будет тем, кто уже работает с данными: опытным бэкенд-разработчикам и разработчикам баз данных, инженерам и аналитикам данных, а также студентам технических направлений.

Регистрируйтесь до 25 апреля и прокачивайтесь в Big Data вместе с экспертами Яндекса и ШАДа! Все подробности — по ссылке.

Читать полностью…

Инжиниринг Данных

🤖 LLM меняют правила игры — не только в IT, но и в образовании, на работе и в общении.

На Data Fusion ВТБ и Институт ИИ МГУ представили большое исследование: поговорили с экспертами из МГУ, МФТИ, ВШЭ, РАН и собрали взгляд с двух сторон — технической и гуманитарной.

Что говорят?

- Вместо исчезающих профессий — их апгрейд. Программисты меньше пишут рутину, больше фокусируются на логике и тестировании. Дизайнеры — на креативе.
- Учиться проще: цифровой «двойник» преподавателя всегда на связи. Но и соблазн сдать всё «через нейросеть» — тоже растёт.
- В коммуникациях — новые правила игры. Мы всё чаще доверяем моделям как людям. Это удобно, но критическое мышление важно сохранить.

Читать полностью…

Инжиниринг Данных

Pet проект года🙌

Читать полностью…

Инжиниринг Данных

Мне сказали что 7 figures data leaders должны играть в гольф, наверстываем 👌

Читать полностью…

Инжиниринг Данных

Всем привет, завтра у нас небольшой data&drinks в Seattle, встречаемся прям вот на этом месте, где фотография, можно взять плавки

ps у нас есть группа с прошлого раза, пишите в комментарии, я добавлю.

Читать полностью…
Subscribe to a channel