Делюсь новостями из мира аналитики и вредными карьерными советами;) 8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄♂️ Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).
Недавно увидел хорошие термины про тип работы - deep work vs shallow work.
Deep work - глубокое погружение в работу, которое позволяет сосредоточиться на проблеме, изучить необходимые технологии и процессы. Обычно такая работа требует как минимум несколько часов без отвлечений, и по окончании процесса вы получаете удовлетворение. От такой напряжённой работы вы не так устаете и не выгораете.
Shallow work, напротив, - это работа урывками, когда часто меняется контекст между задачами и проектами.
Даже хорошо спланированную работу в формате deep work можно легко превратить в shallow work. Достаточно начать реагировать на сообщения в мессенджере от коллег, менеджеров, друзей. Или участвовать в частых митингах.
Вот и получается: вроде день прошёл, а результата ноль.
Мне лично помогает несложное кольцо действий:
1. составить список 2–3 важных дел на день
2. не переключаться на новое дело, пока не закончу первое
3. блоки deep work в календаре, которые отменяют все встречи - они у меня стоят на год вперёд
Так же можно запланировать дела на неделю, добавив в них личные дела. Свой календарь я не разделяю на личный и рабочий.
Лично для вас будет эффективнее и приятнее выполнить от начала до конца одно важное дело, чем ответить всем подряд в мессенджерах, сходить на несколько митингов и при этом задержаться на работе на несколько часов - всё равно без результатов.
Всем хороших выходных! Для меня бутылочка сидра в компании жены лучшая награда за 6 рабочих дней:)
PS в пятницу записал для Surfalytics первый эпизод mock Data Engineering System Design interview, использовали Azure cloud.
PPS интересный факт, стаканы из IKEA, но made in Russia😊
Data-driven культура часто выглядит как BI инструмент(ы) с метриками и дашбордами + хранилище данных (хотя уже модно делать Data Lakeuse на 500ТБ 🤔).
В идеале культура, основанная на данных, должна включать три ключевых элемента — так называемый 3P framework:
- People - вовлечённые сотрудники и поддержка со стороны руководства.
- Platform - удобные и доступные инструменты (BI-системы, дашборды, ноутбуки, хранилища и т. п.).
- Process - процессы, которые помогают извлекать инсайты и превращать их в действия, с акцентом на качество данных, метрики и бизнес-приоритеты.
В такой культуре важно позволять людям экспериментировать с данными, поощрять стремление к обучению и развитию, задавать бизнес-вопросы, формулировать гипотезы и проверять их.
Способность находить закономерности в данных, предлагать улучшения и отслеживать их влияние на бизнес — одна из ключевых ценностей data-led подхода.
Несколько практик, которые помогают достичь такого уровня зрелости:
🎮 Проведение хакатонов и вовлечение бизнес-пользователей в работу с данными.
🙂 Отправка аналитиков и инженеров "в поля", чтобы на практике понять, как устроен бизнес, как генерируются данные и как аналитические решения влияют на процессы.
⚡️Временная интеграция аналитиков и инженеров в бизнес-команды для более глубокого погружения в задачи и контекст.
Вообще парадокс, в маленькой компании или стартапе достаточно завести эксельку и вести учет нескольких показателей и вы уже data-driven. А вот в большой корпарации у вас может быть 10 хранилищ, 5 озер, 7 BI, и армия аналитиков и инженеров, и вы нифига не data-driven🤣
Все знакомы с понятием Ad-hoc запросов. Обычно мы воспринимаем их негативно, так как они отвлекают, время-то и так мало.
На самом деле, ad-hoc запросы могут бысть источником quick wins, и способом быстро показать impact и завоевать доверие (earn trust).
Ad-hoc — это не бардак. Это VIP-запросы, которые показывают: вам доверяют. Ваша задача - не утонуть, а превратить это в рычаг для влияния.
Вот пример фреймфорка:
1. Принять быстро
Ответ в течение пары минут (или автоответ, если в фокусе) показывает: у нас есть процесс, а не паника.
2. Быстрое фильтрование (2 минуты):
- Это повлияет на $Xk+ или стратегию?
- Нужно на этой неделе для принятия решений?
- Делается за полдня одним аналитиком?
- Если да → делаем. Если нет - в бэклог с пометкой по приоритету.
3. Минимум, но по делу
- Отправляем краткий инсайт, график или SQL - что реально помогает. Повторилось 3 раза? → автоматизация.
📌 Чтобы не сгореть:
- Назначаем on-call-аналитика/инженера (10% времени спринта)
- Не забываем про ротацию и отслеживание нагрузки
- Повторяемые запросы → обучающие материалы или дашборды
Эскалации - через менеджера, не через «договорился в курилке».
Как ускорить принятие качественных решений в бизнесе? В первую очередь, обеспечить сотрудников быстрым доступом к актуальным данным.
Приглашаем на вебинар, на котором расскажут, как эту задачу удалось решить в X5 Group.
Очень интересная точка зрения основателя Tobiko (SQLMesh) — главного конкурента dbt.
Мы тут были в восторге от новой фичи dbt: он стал значительно быстрее, потому что его переписали на Rust. Логично, что переписывание старого движка дало мощный прирост в скорости, и выбор Rust очевидно удачный.
Но мы так привыкли к "бесплатному" и хорошо работающему dbt Core, что воспринимаем это как должное. А вот из-за такой "данности" компания dbt Labs теряет деньги. А им ведь ещё нужно отчитываться перед инвесторами.
Вот с Airflow и Airbyte всегда было проще, косяк на косяке=) (вот только не говорите мне, что "готовить не умею", я бы тогда просто-бы макросы VBA "приготовил бы"🧐)
Вот и сам текст:
dbt Fusion — это полная переработка dbt Core на языке Rust. В отличие от dbt Core, который является полностью бесплатным и с открытым исходным кодом под лицензией Apache 2.0, dbt Fusion — это не open-source проект, так как распространяется по более ограничительной лицензии Elastic 2.0.
Хотя Fusion и можно использовать бесплатно, его лицензия запрещает использование в хостинговых или управляемых решениях третьими сторонами. Возможно, это кажется незначительным, но у этого ограничения есть серьёзные последствия.
Открытый исходный код хорош тем, что он стимулирует как отдельных разработчиков, так и компании инвестировать в развитие продукта без риска. Компания может полностью полагаться на open-source решение, потому что в любом случае его можно форкнуть и использовать в своих целях, независимо от решений основного разработчика. Лицензия с ограничениями, такая как Elastic, наоборот, демотивирует компании вкладываться в развитие продукта.
Не поймите неправильно: в решении dbt Labs нет ничего неэтичного. Более того, с финансовой точки зрения для них это может быть наиболее разумным шагом. Но важно понять, как мы к этому пришли и что это может значить для будущего dbt Core.
Мне кажется, стратегия dbt заключается в том, чтобы перевести dbt Core в режим поддержки (maintenance mode), сосредоточившись на Fusion и других коммерческих продуктах. Формулировки в анонсе были выбраны очень осторожно и расплывчато. В частности, говоря о поддержке dbt Core, они упомянули только исправление багов, обновления безопасности и поддержание совместимости.
Согласно их роадмапу, они отделили dbt-язык от runtime-движка. Также отдельно подчёркивается, что Fusion и Core со временем неизбежно разойдутся, поскольку Fusion обладает возможностями, которые невозможно добавить в Core. По моему мнению, dbt Labs используют эту возможность, чтобы сосредоточиться на более ограниченном и прибыльном софте, постепенно сворачивая то, что сделало их знаменитыми, но одновременно мешает их финансовому росту.
В конечном итоге ресурсы ограничены, и компании вынуждены расставлять приоритеты исходя из интересов бизнеса.
Учитывая фундаментальное значение dbt Core для современной аналитической инфраструктуры, аналитики и инженеры данных заслуживают свободную, открытую и постоянно развивающуюся платформу для трансформации данных. В противном случае ваша карьера окажется слишком зависимой от решений одной-единственной компании. Чтобы обеспечить непрерывные инновации в области data-трансформаций, возможно, пришло время начать дискуссию об открытом стандарте описания трансформаций данных.
Посмотрим как долго SQLMesh будет открытый (то есть как долго будет экономика сходится)🔪
Бодрая неделька выдалась, столько новинок интересных. Ведь скоро Databricks и Snowflake Summit.
Если вы будете на этих конференциях пишите в комментах, может там найдетесь, и выпьете по стаканьчику. Я сам смогу намутить pass на 1 бесплатный день на Snowflake конференцию, но этого малова-то. Если вы в Калифорнии и хотите попасть бесплатно на один день (среда) Snowlfake, я расскажу как это сделать.
1️⃣ dbt labs там выкатили большой список обновлений - dbt Launch Showcase 2025 recap
dbt MCP Server - сервер, обрабатывающий dbt-команды централизованно и ускоряющий запуск моделей, особенно в облачных и CI/CD-средах. А кто сейчас не делает MCP?
Fusion engine - движок на Rust, который анализирует SQL-код ещё до выполнения, улучшая производительность и предотвращая ошибки. Как раз был потс в январе про покупку SDF.
VS Code Extension - официальное расширение для VS Code с поддержкой Fusion, автодополнением и анализом SQL, но работает только с dbt Cloud.
dbt Canvas - визуальный интерфейс для проектирования моделей и связей между ними, ориентированный на командную работу и документирование. Получается, что главное преимущество аналитика как код уходит на 2й план. Это дает доступ простым бизнес пользователям (больше пользователей, больше лицензий?!), но по факту может изменить концепт. У меня уже коллеги интересуются как они могут модельки-то строить в канвасе.
dbt Insights - помогает отслеживать перформанс моделей и находить узкие места.
dbt Catalog - расширенный каталог моделей, колонок и источников с поиском, тегами и улучшенной навигацией по проекту. Удобно, но dbt docs и так был достаточно хорош.
Cost management dashboard - дашборд для мониторинга стоимости выполнения моделей в разных средах и выявления неэффективных запросов. Полезно, но можно и свой сделать в обычном BI.
Мы видим все больше и больше разделение dbt core (открытое ПО) и коммерческий dbt labs. Вы не поверите, но у меня даже проблемы использовать оба инструменты в командной строке, так как оба используют dbt
команду.
2️⃣ вышел Spark 4.0. Но там нет таких красивых красочных изменений, поэтому и в новостях потише.
Spark Connect - новая клиент-серверная архитектура, позволяющая подключаться к Spark-кластерам из различных языков (Python, Scala, Go, Swift, Rust) без необходимости установки Spark локально, что упрощает разработку и масштабирование приложений.
ANSI SQL по умолчанию - включение режима ANSI SQL обеспечивает более строгую проверку данных и совместимость с другими СУБД, улучшая переносимость и предсказуемость SQL-запросов.
SQL PIPE-синтаксис - введение оператора |> для последовательного применения SQL-операций, повышая читаемость и упрощая написание сложных запросов.
SQL-скрипты с переменными и управляющими конструкциями — поддержка переменных, циклов и условий в SQL позволяет реализовывать сложную бизнес-логику непосредственно в SQL-скриптах без необходимости использования внешних языков программирования.
Тип данных VARIANT - новый тип данных (прям как у Snowflake 10 лет назад) для хранения полуструктурированных данных, таких как JSON, обеспечивая эффективную работу с вложенными структурами без необходимости явного определения схемы.
Нативная визуализация в PySpark - возможность создавать графики и диаграммы непосредственно из DataFrame в PySpark с использованием Plotly, упрощая анализ данных.
Python Data Source API - новый API, позволяющий разработчикам создавать собственные источники данных для пакетной и потоковой обработки полностью на Python, расширяя возможности интеграции.
Polymorphic Python UDTFs - поддержка пользовательских табличных функций в Python с динамической схемой, позволяя создавать гибкие и мощные трансформации данных.
Structured Logging - введение структурированного логирования в формате JSON, облегчая мониторинг и отладку приложений.
transformWithState API - новый API для обработки состояния в потоковой обработке, предоставляющий более гибкие и мощные возможности для управления состоянием в реальном времени.
PS вы можете посмотреть Snowflake Keynotes онлайн по этой ссылке
DuckDB предложил очень интересную альтернативу - DuckLake: SQL as a Lakehouse Format
Что это значит?
Если мы откатимся назад и повторим эволюцию аналитических решений - от классического хранилища данных до современного Lakehouse, можно выделить основные этапы:
- Data Warehouse (Хранилище данных) - хранение и вычисления происходят на одном физическом/виртуальном сервере или кластере.
- Data Lake (Озеро данных) - происходит разделение хранения и вычислений.
- Lakehouse - гибрид Data Lake и Data Warehouse. Ключевой элемент - формат таблиц (Iceberg, Delta, Hudi), который добавляет возможности управления изменениями в data lake. Эти форматы используют сложные файловые структуры (JSON, Avro) для отслеживания версий и схем.
Сегодня на рынке представлен широкий спектр инструментов и тесная интеграция между подходами. Любое решение - это всегда компромисс. Выбор зависит от бюджета, возможностей и экспертизы команды и т. д.
У Lakehouse есть важный недостаток - сложности с обеспечением атомарности операций и управлением несколькими таблицами, а также ряд других проблем. Те, кто строил Iceberg-архитектуру, могут поделиться своими ограничениями и трудностями.
DuckLake предлагает альтернативный подход: вся метаинформация (каталоги, схемы, версии) хранится в стандартной SQL-базе данных, поддерживающей ACID-транзакции и первичные ключи. Это позволяет:
- Обеспечить надежное и простое управление метаданными.
- Поддерживать транзакции, охватывающие несколько таблиц.
- Избежать сложностей, связанных с согласованностью в blob-хранилищах.
При этом данные продолжают храниться в открытых форматах, таких как Parquet, что обеспечивает совместимость и гибкость. То есть метаданные "уходят" в DuckDB - в SQL-таблицу, которая и используется в качестве каталога.
Вот такое элегантное решение. Кстати, ниша managed duckdb в публичных облаках свободна🍸
PS В Surfalytics мы делали пару проектов про DuckDB и даже есть урок в основном курсе:
Just enough DuckDB for Data Analyst | Module 2.7 | Surfalytics
И в datalearn у нас был классный обзор от Романа Зыкова:
Разработка data приложений на DuckDB
Хочу вам напомнить про полезные ресурсы:
1) datalearn учебник, где на русском есть 6,5 модулей про аналитику и инжиниринг данных и отдельный курс от Анатолия про SQL(лучше курса еще не придумали), где вы будете сами устанавливать Postgres и SQL Server и много практики https://github.com/Data-Learn/data-engineering
2) свежая версия курса на английском 3,5 модуля и дополнительный модуль 0 - https://surfalytics.com/surfalytics/2023-06-03-Introduction.html
Про Python сняли кино https://youtu.be/pqBqdNIPrbo?si=Go2kcWzKWIZLw_-e
Читать полностью…Сегодня прочитала в одном канале интересную мысль. СЕО одной компании (РФ) делился взглядом на сторонние проекты сотрудников.
Если коротко, он написал: личная узнаваемость — это не угроза, а актив. И для компании, и для самого человека. В его команде поощряли сотрудников выступать, делиться опытом. И даже если кто-то после этого находил более интересную работу — он был рад. Потому что это тоже заслуга команды, компании — вырастить сильного, востребованного специалиста.
И мне это близко. И не могу не вспомнить свой пример (читайте - ошибку).
Когда я еще работала HR, то ещё во время пандемии пошла учиться карьерному консалтингу и уже знакомилась с коучингом.
Цели были простые:
— применить знания внутри компании,
— и «на всякий случай». Мало ли что.
Но я так и не начала практиковать.
Почему? Где-то в разговорах промелькнула фраза: «Не хотелось бы, чтобы тебя ассоциировали с брендом компании». Я услышала. И не стала ничего делать. Только опубликовала сертификат — и всё.
По этическим причинам. Из лояльности (и из страха быть «неудобной». Ведь увольняться я не собиралась и к чему эти недопонимания...)
А потом... Прошло больше трёх лет. Переезд. Увольнение. Новая страна. Неизвестное будущее.
И я осталась без привычной опоры в виде моей работы и собственной зарплаты.
И вот тогда — пожалела. Что не начала строить свою практику параллельно с наймом.
Потому что тогда у меня уже была бы хоть какая-то узнаваемость, финансовая подушка, новый опыт в новой роли. Я бы уже успела совершить свои ошибки, нарастить навыки.
А не начинать всё с нуля в новой точке, да и еще в условиях высокой неопреденности.
Поэтому сейчас я точно знаю: личный бренд — это не про тщеславие. Это про выбор. Про свободу. Про устойчивость.
И его масштаб может быть разным. Кому-то комфортно вести блог на 300 подписчиков. Кому-то — выступать на конференциях.
Вопрос не в формате, а в том, чтобы вас видели и знали — как специалиста, как личность, как эксперта.
Потому что если вы не видимы внутри компании — вас будто бы нет. Любое повышение будет идти медленнее, если нужные люди не знают, кто вы и в чём ваша ценность.
Да, кому-то из руководителей может не понравиться, что вы развиваете что-то своё.
Есть риск, что энтузиазм «гореть» корпоративными задачами у вас снизится.
И да — это возможно.
Снимаю с себя белое пальто идеального HR, который будет говорить: «Работайте только на компанию, всё остальное — опасно и неправильно». Нет. Не нужно. Много рисков.
Компания — это не ваша семья. Это партнёрство. Где вы обмениваете своё время, энергию и компетенции на деньги и опыт.
И ваш ресурс, когда вы молоды, горите, полны сил и идей — ограничен. Помните об этом.
Поэтому, что важнее: ваша жизнь — или чей-то комфорт в корпорации?
Некоторым компаниям неудобно, когда вы просите повышения, хотите больше свободы, пробуете новое. Им проще, когда вы молчите и «благодарны за то, что есть». Но это их позиции, ведь цель у бизнеса только одна - зарабатывать.
А ваша цель какая?
📌Если вы хотите расти в доходе, обрести свободу, накопить ценный опыт, чтобы однажды продать себя дороже — вы обязаны использовать все возможности.
Ваш главный актив — это вы.
Ваше время, энергия, навыки.
Не сливайте их в один сценарий, в который не верите на 100%.
Как я говорю своим клиентам: если компании нужно будет вас уволить — она это сделает.
Холодно. Быстро. Рационально. Потому что у неё есть своя цель — сократить расходы, сохранить бизнес, поменять стратегию.
Задайте себе вопросы:
- Что вы хотите от своей работы?
- Какие потребности она должна закрывать — кроме «выжить»?
Пока вы нужны — думайте шире.
Развивайте свой актив (себя). Выступления, проекты, соцсети, обучение — это инвестиции в ваш профессиональный капитал.
И это ваша зона ответственности - развивать свою карьреу с целью Х.
Spark-митап в Москве 29 мая!
IT-компания «Криптонит» приглашает на Spark-митап: обсудим кейсы, практики применения и тренды развития!
🟢Когда и где пройдёт?
29 мая в 18:30 в Музее криптографии
🟢Кому Spark Meetup полезен?
🔹инженерам данных и аналитикам данных
🔹программистам со знанием Spark и Scala
🔹всем смежным специальностям из телекома, банков, промышленности и ретейла
🟢Кто будет выступать с докладами?
Эксперты из «Криптонита», Positive Technologies и М2. Программу можно посмотреть тут
🟢Как зарегистрироваться?
Вот по этой ссылке
🟢Будет ли трансляция?
Обязательно будет. Ссылку разместим позже на странице мероприятия — поэтому советуем зарегистрироваться на оффлайн-встречу, даже если вы не сможете прийти. Так вы точно не потеряете ссылку на онлайн
🟢Нужно что-то платить?
Нет, митап бесплатный — ждём всех неравнодушных к программированию на Spark!
Зарегистрироваться
Реклама АО НПК «Криптонит» ИНН 9701115253 Erid: 2Vtzqx9L2NG
Если ML-инфра всё ещё звучит как «отдельная жизнь»
Если вы когда-либо внедряли ML в продовую инфраструктуру, то точно знаете, сколько там подводных камней. Об этом и многом другом пойдёт речь на infra.conf.
Как выстроить пайплайн, чтобы он не зависел от одного ML-инженера. Как сделать мониторинг моделей и работать с ошибками, которые обычный лог не покажет. Как внедрять новые компоненты, не ломая остальную систему.
Будет много конкретики — и всё это 5 июня, в Loft Hall 8 в Москве. Также доступна онлайн-трансляция
Сегодня произошел интересный случай, к которому я был не готов.
Во время 1:1 инженер попросил повышения зарплаты на 25-30%. И уже почти поставил мне ультиматум.
Я передал его просьбу VP, на что он на меня наехал, что это я его надоумил, ведь я сказал, что у него низкая зарплата и негоже инженеру за такие деньги работать. Буквально врастил в нем идею, что у него маленькая зарплата.
Получается такая дилемма. Как руководитель я должен защищать интересы компании, так же как и hr. И стараться сделать так, чтобы люди дальше работали за низкую зарплату и были счастливы, а я должен найти морковку для осла мотивацию, чтобы сотрудники работали и были счастливы. Ведь другие вообще без работы сидят. А как инженер, я хочу защищать интересы инженеров.
Инженеру я тоже сказал, что раз он all-in, то надо чтобы оффер был на руках. А оффера нет, и по Surfalytics я то уж точно знаю как дела на рынке обстоят и сколько месяцев люди работу ищут, поэтому я его расстроил, ведь он даже не начал на собесы ходить.
А как вы просите денег? Или как вы отказываете другим, когда у вас просят повышения?
Пост написал пока на заправке стоял, я там частый гость👉
Вопрос для валютных удаленщиков. Недавно я узнавал сколько стоит открыть юр лицо в Дубае.
Цены просто космос:
- Коммерческая лицензия на год 14900AED (4k$ US), а если понлный пакет и резидентской визой будет 26835 AED (7.3k $)
- Корпоративный Банковский счет 12500 (AED 3.4k$ US), Индивидуальный будет 5000 AED.
Мне сказали, чтобы открыть счет в банке, нужна виза. То есть если я хочу быть котрактором с налогом 9% на доход свыше 100к$ US, то надо вот это все.
Я то думал, можно за 500$ открыть фирму удаленно и получать на нее платежи🤪 В Канаде это реально так и стоит.
Может быть и другие европейские города (стабильные), где можно так удаленно открыть юр лицо?
PS если есть ссылки, лучше их как код шарить
🚀 Yandex Cloud запустил сертификацию по DataLens.
DataLens — это BI-инструмент, с которым можно быстро собрать дашборд и не тратить часы на настройку. Часто используется в продакшене: отлично подходит для оперативной проверки гипотез или подготовки витрин «на посмотреть» для бизнеса. Из коробки доступны графики, фильтры, датасеты, подключение к источникам — всё визуализируется с минимальными усилиями.
Сертификация — это не просто формальность, а способ систематизировать знания и убедиться, что инструмент освоен на практике. Доступны подготовительные материалы, бесплатный курс и примеры заданий — всё собрано на одной странице. Уровень — junior+, но для тех, кто регулярно работает с BI и аналитикой, не составит труда.
🎯 До конца лета стоимость — 2 500₽ вместо 5 000₽.
🎓 После прохождения — официальный статус certified, который добавляет веса в резюме и уверенности в себе.
Рекомендуется тем, кто уже работает с DataLens или только планирует внедрение.
Ищете работу на международном рынке?
Тогда канал Connectable Jobs будет полезен для вас. Ребята собирают вакансии в международных стартапах с русскоязычными фаундерами, делятся важной информацией про команды и инвестиции, а также прямыми контактами HR для удобного отклика.
Вот несколько актуальных вакансий таких компаниях:
— Head of Data в Manychat
— Data Engineer в Constructor
— Lead of Engineering в Appodeal
Еще у Connectable Jobs есть отдельный канал для разработчиков и инженеров, где публикуются вакансии только в этой области.
Подписывайтесь и развивайте карьеру в будущем единороге 🚀
Приходите на прямой эфир по архитектуре данных и Data Lakehouse
5 июня, в 17:00 по Москве канал Данные на стероидах проводит прямой эфир с двумя экспертами-архитекторами. Спикерами станут Алексей Белозерский, руководитель команды BigData Services VK Cloud, а также Вадим Белов, руководитель системной разработки DMP, Х5 Group.
👉 Подписывайтесь на канал, чтобы послушать эфир
Основная тема дискуссии: Data Lakehouse — хайп или необходимость. Во время прямого эфира вы сможете задать вопросы экспертам и поделиться своим опытом.
Кому будет особенно интересно залететь в трансляцию:
🎯 Дата-инженерам
🎯 Руководителям дата-платформ
🎯 Аналитикам
🎯 Архитекторам
🎯 CDO, CDTO
Изучая новости отчественных облаков обратил внимание на ключевые тезисы из дискуссии «Озера данных для конкурентоспобности бизнеса».
1. Компании инвестируют в озера данных сейчас, даже если не видят большого эффекта. Через несколько лет догонять лидеров в этой гонке будет сложно.
2. Мы идем к тому, что компании, которые не используют Data Lakehouse, будут считаться отстающими на Х лет.
3. Для многих компаний работа с большими данными — инвестиция вдолгую. Впереди — выработка методологии для правильной оценки эффекта, который принесут объемы вложенных ресурсов.
4. Перед бизнесом стоит организационный вызов: нужно научить отделы внутри компаний делиться данными и, возможно, идти в сторону отраслевых хранилищ с обезличенными данными.
5. Средний объем корпоративных хранилищ данных перешагнул порог 500 Тб.
6. Подобрать инфраструктуру для работы с большими данными сложно, поскольку ошибки при выборе провайдера могут сильно помешать масштабироваться на долгой дистанции.
К самим тезисам и облачным продуктам вопросов нет - уверен, озёра данных действительно рулят: они хранят большие объёмы информации, даже в формате Iceberg. Но тема-то заявлена - «конкурентоспособность бизнеса».
Подобные посты часто публикуют и Yandex Cloud, и Arenadata. Но такой контент не создаёт ценности - он ориентирован на нетехнических пользователей. Обычно таким читателям неважно, сколько там терабайт, и вряд ли они поймут разницу между lakehouse и data warehouse.
Складывается впечатление, что компании должны внедрять озёра данных просто потому, что «все внедряют». И если вы ещё не внедрили и не мигрировали - то вам, по сути, нечем будет «мериться». Сколько у кого терабайт? Сколько кластеров? Сколько табличек?
Кстати, западные вендоры уже ушли от такого подхода. Они либо делают упор на бизнес-результат и намеренно опускают технические детали, либо наоборот - таргетируют глубоко техническую аудиторию и погружаются в детали. То есть аудиторию чётко сегментируют.
Этот подход хорошо иллюстрирует пример с резюме. Вы можете описать свой опыт через output:
- количество таблиц
- количество пайплайнов
- количество дашбордов
- количество PR
- количество строк кода
- миграция из А в Б
- внедрение А, Б, В
Но в этом мало ценности. Ценность - в outcome, в пользе, которую вы принесли. Написать резюме, в котором будет баланс между технологиями и бизнес-ценностью, - непростая задача. Особенно если его нужно уместить в две страницы.
PS мне нравятся продукты yandex, vk, arenadata, проделана колоссальная работа и созданы отличные решения. Просто улыбнул факт подачи информации о ценности для бизнеса, напомнил мне собеседования и резюме. Всегда хочется рассказать про детали, но они не так важны.
AI-помощники при работе с кодом. Взгляд в будущее - Евгений Колесников - Platform Engineering Night (Рубрика #AI)
Крутое выступление Евгения из команды Yandex Infrastructure, в котором он делится глубокими мыслями про развитие AI copilot инструментами. Женя выступал с этим докладом на Platform Engineering Night в Т-Банке. Я уже рассказывал про выступления моих коллег оттуда: "AI и Platform Engineering" от Игоря Маслова и "Разработка собственного AI-ассистента для кода: спринт или марафон?" Дениса Артюшина. Ребята рассказывали про наши подходы к интеграции AI в SDLC) и интересно сравнить мысли из тех докладов с идеями Жени, что я постарался изложить ниже
1. Реальность разработки
По стате разработчики пишут код всего 40 минут - 120 минут в день, при этом комитят в среднем только 40 строк кода в день. Основная проблема не в скорости печати, а в сложности мыслительных процессов, что идут на трех уровнях
- Ментальная модель - что мы хотим сделать
- Семантическая модель - как мы это будем делать
- Синтаксическая модель - непосредственно сам код
ИИ сейчас помогает в основном на последнем этапе, что объясняет ограниченность эффекта.
2. Режимы работы разработчиков
Существуют два основных режима:
- Flow - сотояние потока, когда код "летит из-под пальцев". Интересно, что в DevEx фреймворке Flow - это одна из составлящих, кстати, я делал обзор whitepaper о нем
- Exploration - поиск информации в документации, интернете, общение с ИИ
Понимание этих режимов критично для эффективного использования ИИ-инструментов.
3. Чего хотят разработчики от ИИ
По мнению Евгения ожидания инженеров такие
- Переложить на AI рутинные операции, например, написание юнит-тестов
- Общаться на естественном языке с последующим уточнением через промпты
- Получить детерминированные результаты от недетерминированного genAI
Интересно, что у Google был whitepaper буквально с таким названием "What Do Developers Want From AI?" - я его разбирал раньше, а потом еще записал эпизод подкаста "Research Insights" вместе с моим коллегой, Колей Бушковым, где мы разбирали этот whitepaper
4. Бизнес-приоритеты
Бизнес хочет сокращения time to market, снижения издержек, а также предсказуемости. Но обычно все упирают на сокращение издержек, когда говорят, что "90% кода будет писаться ИИ". Но часто это не означает увольнение 90% программистов, а увеличение продуктивности существующих команд. Евгений привел пример Дарио Амодея с его тезисами из цитаты выше - а я разбирал это выступление раньше
5. Проблема измерения эффективности
Критически относитесь к цифрам вроде "повышение продуктивности на 55%". Продуктивность - неопределенный термин, зависящий от множества факторов. Пока нет единого способа точно измерить пользу от ИИ-инструментов. Интересно, что я уже пару раз выступал с темой навроде "Зачем заниматься темой developer productivity в большой компании"
6. LLM ≠ Продукт
Использование последней языковой модели не гарантирует успех продукта. UX/UI, правильный промптинг и интеграция в рабочий процесс часто важнее, чем выбор конкретной модели.
7. Правильные метрики
Стоит измерять NPS, CSAT в связке с retention (у SourceCraft от Yandex между 60-70%), cycle time, lead time и влияние на бизнес-метрики. Метрика счастья пользователя - интегральный показатель принятия/отклонения подсказок.
8. Снижение хайпа - это хорошо
За 2023-2024 год интерес к ИИ в некоторых областях упал и это хорошо - разработчики начинают реалистично оценивать возможности и ограничения ИИ-инструментов, что ведет к более эффективному использованию.
9. Будущее: от генерации к агентам
Развитие сейчас идет от генеративных моделей к агентским. Агенты проактивно решают задачи, но пока крайне ненадежны. Следующий этап развития - сделать агентов более надежными и предсказуемыми. Чем глубже интеграция ИИ в инфраструктуру компании, тем больше выигрыш.
Если подводить итоги, то Евгений считает, что AI-помощники однозначно полезны, но важно понимать их ограничения и правильно интегрировать в рабочий процесс, а не гнаться за хайпом.
#AI #Software #Engineering #Architecture #Agents
Вот такой сервис который сравнивает IT зарплаты из всего русского сегмента.
Как я понял, он пылесосит все открытые источники типа hh и сливает все в приятный репорт.
https://public.tableau.com/shared/3KN2X2YXN?:display_count=n&:origin=viz_share_link&:showVizHome=no
По-моему выглядит очень хорошо и полезно. Готовимся.
Как ВЫЙТИ из IT и стать счастливым?
Владислав Князев, тимлид из финтеха, искренне и с жизнелюбием пишет про путь от выгоревшего айтишника в надежного психолога.
Поддерживающий блог для тех, кто ищет гармонию и уверенность в себе❤️
Подпишись на @godnolytika
Неожиданно! Главный SaaS CRM покупает old-school ETL вендер Informatica🤪
Компания Salesforce объявила о планах приобрести платформу управления данными Informatica за приблизительно $8 миллиардов. Это станет крупнейшей сделкой Salesforce с момента покупки Slack за $28 миллиардов в 2021 году. Данная покупка направлена на усиление возможностей Salesforce в области управления данными и интеграции генеративного искусственного интеллекта (ИИ) в свои бизнес-инструменты. В частности, приобретение Informatica позволит Salesforce улучшить контроль над использованием данных, что критически важно для развития ИИ-функций, таких как платформа Agentforce, предназначенная для автоматизации задач с помощью виртуальных ИИ-агентов.
Осталось кому-нибудь купить Teradata📊
Устроиться аналитиком в Яндекс за выходные
7–8 июня проводим Weekend Offer Analytics. До 3 июня оставьте заявку на участие, 7 июня пройдите два технические собеседования, а 8 июня познакомьтесь с командами и получите офер.
В мероприятии участвует 12 команд: Алиса и Умные устройства, Игры, R&D, Рекламные технологии, Поиск и Суперапп, Безопасность, Коммерческий департамент, Автономный транспорт, Ecom-сценарии Поиска, Качество Поиска, Международный Поиск, Карты. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.
Узнать подробности и зарегистрироваться можно здесь.
В последнем эпизоде «Дата с Димой» я рассказывал, насколько важно для карьерного роста выше уровня Senior понимать бизнес-метрики, цели компании и уметь разговаривать с руководителями бизнес-направлений на одном языке.
Умение строить отчёты, проектировать хранилища данных и интегрировать данные с ML/AI — это здорово, но если не понимать, зачем это нужно бизнесу, теряется смысл работы, становится сложно аргументировать свою ценность, и в конечном итоге работа перестаёт быть интересной.
Один из способов понять, зачем всё это нужно и какие существуют топовые use cases — это сходить на конференцию Aha!25.
Aha!25 - техническая конференция о product science, продуктовой аналитике и эффективности бизнеса. В этом году мы впервые расширяем программу до двух дней: 16 тематических потоков и более 1200 участников на одной площадке.
Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы
- Современные подходы к A/B-тестированию
- Оцифровка пользовательского опыта
- Применение машинного обучения в управлении продуктом
- Математическое мышление и поведенческая экономика
Приглашаем продуктовых менеджеров и аналитиков, инженеров данных, владельцев продуктов, CPO, CDO, ML-разработчиков. Программа будет полезна как новичкам, так и экспертам.
Где: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа: http://ahaconf.ru/program
Билеты — на сайте!
▶ СЛАЙДЫ dbt как де-факто стандарт создания Хранилищ Данных
Привет,
По следам доклада на ОФФЛАЙН митапе в Сочи:
📊 Смотреть слайды: https://drive.google.com/file/d/17nZnuRBzH6xDL5Cku56daA1Uqs2t5Ssr/view?usp=sharing
✅ Основные идеи:
🏆 dbt - индустриальный стандарт для трансформации данных в DWH
✍️ Позволяет писать, тестировать, документировать трансформации как SQL-код
☁️ Работает поверх современных облачных и on-premise платформ (Snowflake, BigQuery, Redshift, Databricks, Postgres и др.)
🏆 Использует лучшие практики разработки: версионирование, модульность, CI/CD, документация
Было много вопросов и заблуждений по поводу концепта dbt, поэтому дублирую:
— С т.з. манипуляции данными dbt умеет ровно столько, сколько умеет ваша аналитическая БД
— dbt не пропускает данные через себя, а лишь "раздает" команды БД, которая выполняет все операции (heavy lifting)
— dbt это просто python package с удобным CLI
— Рассматривайте dbt как мультитул-автоматизацию для работы с вашей аналитической БД
❤ Наблюдения и выводы:
— Тема вызвала живой интерес и поток вопросов (которые продолжились после выступления)
— Отметил, что даже сложные концепты в подаче с простыми примерами и доступными формулировками легко воспринимаются даже неподготовленным слушателем
— Обрел старых (Станислав, привет 🙂!) и новых друзей и единомышленников
— Стихийно организовалась afterparty в соседнем ресторане с обсуждением смежных тем, обменом опыта и знакомствами
— Зарядился на дальнейшие планы и шаги, о которых буду сообщать
Запись, к сожалению, не велась.
😘 Если будет хотя бы 3-5 комментариев-запросов, то я сделаю видеозапись по этим слайдам и идеям и выложу на YouTube / RuTube.
🌐 @data_apps | Навигация по каналу
Дата с Димой - эпизод 5
(YouTube, RuTube)
💡 В этом эпизоде обсуждаем свежие новости из мира BigTech, карьерные инсайты, новые технологии, оптимизацию данных, а также влиятельные стартапы и инвестиции.
🎯 Ключевые темы выпуска:
🧠 Черный юмор и интеллект - связь между чувством юмора и уровнем интеллекта.
💻 COBOL язык для не технических пользователей в 1960х - обсуждение языка программирования COBOL и его актуальности.
☁️ Snowflake и Trino - закрытие Snowflake и переход на альтернативные решения.
📊 Оптимизация Apache Spark - методы повышения производительности и эффективного использования ресурсов.
🤖 Внедрение Generative AI - как компании используют генеративный искусственный интеллект для повышения продуктивности.
📉 Сокращения в дата-командах - влияние сокращений на качество работы и аналитику.
🎓 Образование и карьера - советы по обучению и развитию карьеры в условиях снижения количества вакансий.
🛠️ Инструменты для работы с данными - использование DBT, Azure Data Factory и других инструментов в проектах.
📈 Инвестиции в AI - обсуждение инвестиций в искусственный интеллект и его влияние на рынок.
⚡ Будущее профессий - замена профессий AI и перспективы для специалистов в разных областях.
Учитесь в универе и хотите вырваться из рутины? Подайте заявку на бесплатный студкемп Яндекс Образования и НГУ! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений — NLP.
За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте подать заявку до 18 мая!
Приглашаем на VK Cloud Conf 2025 — главную облачную конференцию VK Cloud
Гибридные облака, ИИ и отказоустойчивость — ключевые тренды 2025 года. На конференции вы узнаете, как эти технологии помогут вашему бизнесу выигрывать в скорости, безопасности и гибкости.
Когда и где:
⏰ Дата: 26 июня 2025
📍 Место: Офлайн в Москве + онлайн
Регистрация
Что вас ждёт:
·Бизнес без downtime: как построить надежную инфраструктуру для бесперебойной доступности ИТ-систем
·Ритейл за границей: Как работать с российским облаком в Казахстане.
·Сокращение затрат в ритейле: Ускорение аналитики в 10 раз через Data LakeHouse.
·Кейсы On-premise-решений: отказоустойчивость, масштабирование и управление ИТ-инфраструктурой в крупных компаниях
·Платформы разработки — эволюция и роль в развитии бизнеса
Спикеры поделятся проверенными кейсами, инструментами и стратегиями. Присоединяйтесь к коллегам — обменяйтесь опытом и узнайте, как внедрить облачные решения в вашу компанию.
Давненько никто никого не увольнял! Вот хоть Microsoft “порадовал”.
The company reported better-than-expected results and an upbeat quarterly forecast in late April.
Поэтому самое время еще людей уволить, и акции пойдут вверх.
А еще благодаря AI, который помогает людям
We have made huge investments in AI because we are optimistic about what it can do to help people
Кстати интересный факт, все написали про 3% работников, и у кого-то получилось 6000, а у кого-то 7000 сотрудников.
Как в РФ хоть кто-нибудь увольняет массово людей, или пока ждём, когда AI дозреет?🤑