rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

AI никого не щадит, и уже Тим лидам предлагают 250т

Читать полностью…

Инжиниринг Данных

Что такое большие данные, а что такое маленькие данные?

Каждый год это понятие меняется. Для аналитических систем это важно, ведь мы строим инженерные системы, чтобы обрабатывать большие данные! (Но непонятно, что значит большие данные).

Самое простое определение - данные, которые не помещаются на локальном компьютере и которые мы не можем загрузить в оперативную память, даже если они сжаты.

Мы начинаем смотреть на distributed computing engines - Greenplum, Spark, Snowflake, Trino и т. п. Такие системы умеют обрабатывать данные параллельно.

Часто мы выбираем дорогую систему (distributed) для наших будущих объемов, а кто-то вообще ни разу в жизни ничего не выбирал и работает на legacy всю свою карьеру.

А ведь времена меняются, и теперь мы можем читать 1 ТБ данных с помощью одной машины, если использовать DuckDB. Можете посмотреть подробности в статье -
Processing 1 TB with DuckDB in less than 30 seconds

Товарищ сначала сгенерировал 1 ТБ данных на внешнем SSD, а потом написал к ним запрос. Если использовать MotherDuck и читать данные с S3, будет еще удобнее и быстрее.

В новом году хочу попробовать сократить расходы на Snowflake за счет использования DuckDB.

Читать полностью…

Инжиниринг Данных

Интересный кейс был недавно.

Сейчас работа без AI code assistant чувствуется так, как будто нужно пешком, иногда на велосипеде, проехать 100 км вместо того, чтобы взять машину.

Без AI уже очень сложно быть на 100% эффективным.

Конечно, ключевой вопрос — это фундаментальные знания. Например, я могу не знать ничего в мобильной разработке, но с AI смогу создать мобильное приложение.

Качество будет так себе, ведь у меня нет опыта в этом деле и AI нафантазирует за меня, сделает MVP, который вряд ли попадёт в продакшн. И самое главное — знаний у меня в мобильной разработке не прибавится.

А вот если я эксперт в какой-то области и просто хочу аутсорсить простые запросы и задачки junior (AI), и могу чётко поставить задачку с предсказуемым и проверяемым результатом, то здесь и появляется эффективность и скорость. Я держу в голове контекст, архитектуру и контролирую процесс, а бездушная машина печатает мои мысли и валидирует их через MCP или CLI.

То есть иметь AI IDE — это такой base line. Это не про co-pilot для каждого сотрудника, которые там будут спрашивать про погоду.

Теперь про мой кейс.
Что делать, если AI IDE заблокированы. ChatGPT и Anthropic заблокированы, и есть только Copilot в Teams (бесплатная версия).

Для начала добываем VSCode — лучший бесплатный IDE. Дальше нам надо поставить плагины, тут есть две опции:
• Cline
• KiloCode

Очевидно, API Claude закрыт, но у меня есть API ключ. Бесплатный copilot рассказал мне про сервис — Openrouter.ai

OpenRouter.ai — это универсальная платформа-агрегатор, которая предоставляет единый API-доступ к более чем 400 языковым моделям искусственного интеллекта от различных провайдеров (OpenAI, Anthropic, Google, Meta, Mistral и других).


Сервис позволяет зарегистрироваться бесплатно, и у него собственный API Gateway. В нём я добавил свой Claude API ключ и подключил OpenRouter в KiloCode как провайдера. Задача для меня решена.

Картинки из OpenRouter.

Читать полностью…

Инжиниринг Данных

Знаете, где сейчас косанлтинг компании зарабатывают в Северной Америке?

Нет, это не AI. Про AI я уже только опубликовал историю.

На традиционных миграциях. Но они не совсем традиционные.

Вот, кто-то навайбкодил:
COBOL to Databricks Converter
SAS to Databricks Converter

К сожалению, AI в этих вопросах не сильно помогает(л). Не знаю как сейчас.


Может быть когда-нибудь будет миграция 1C на Databricks? Кстати, один раз общался с разработчиком 1С из Майами, так что получится еще наоборот из Databricks на 1C.

У меня всегда была мечта - сделать аналитическую платформу в экосистеме 1С👀

Читать полностью…

Инжиниринг Данных

А у вас не внедряют AI? Вот вам совет для карьерного буста:

В прошлом квартале я внедрил Microsoft Copilot для 4 000 сотрудников. 30 долларов за место в месяц. 1,4 миллиона долларов в год.

Я назвал это "цифровой трансформацией". Совету директоров понравилась эта фраза. Они одобрили это за одиннадцать минут. Никто не спросил, что это на самом деле будет делать. Включая меня.

Я всем говорил, что это "увеличит продуктивность в 10 раз". Это не реальное число. Но звучит как реальное.
HR спросил, как мы будем измерять этот 10-кратный рост. Я сказал, что мы "задействуем аналитические панели". Они перестали спрашивать.

Три месяца спустя я проверил отчёты об использовании. 47 человек открыли его. 12 использовали больше одного раза. Один из них был я.

Я использовал его, чтобы обобщить письмо, которое мог прочитать за 30 секунд. Это заняло 45 секунд. Плюс время, потраченное на исправление галлюцинаций. Но я назвал это "успешным пилотом". Успех означает, что пилот не провалился явно.

Финансовый директор спросил об окупаемости инвестиций. Я показал ему график. График шёл вверх и вправо. Он измерял "внедрение ИИ". Я придумал эту метрику. Он одобрительно кивнул.

Теперь у нас "внедрён ИИ". Я не знаю, что это означает. Но это есть в нашей презентации для инвесторов.

Старший разработчик спросил, почему мы не используем Claude или ChatGPT. Я сказал, что нам нужна "безопасность корпоративного уровня". Он спросил, что это означает. Я сказал "соответствие требованиям". Он спросил, каким требованиям. Я сказал "всем". Он выглядел скептически. Я назначил ему "беседу о развитии карьеры". Он перестал задавать вопросы.

Microsoft прислала команду для кейс-стади. Они хотели представить нас как историю успеха. Я сказал им, что мы "сэкономили 40 000 часов". Я вычислил это число, умножив количество сотрудников на число, которое я придумал. Они не проверяли это. Они никогда не проверяют. Теперь мы на сайте Microsoft. "Глобальное предприятие достигло экономии 40 000 часов продуктивности с Copilot". Генеральный директор поделился этим в LinkedIn. Он получил 3 000 лайков. Он никогда не использовал Copilot. Никто из руководителей не использовал. У нас есть исключение. "Стратегический фокус требует минимального цифрового отвлечения". Я написал эту политику.

Лицензии продлеваются в следующем месяце. Я запрашиваю расширение. Ещё 5 000 мест. Мы не использовали первые 4 000. Но на этот раз мы "стимулируем внедрение". Внедрение означает обязательное обучение. Обучение означает 45-минутный вебинар, который никто не смотрит. Но завершение будет отслеживаться. Завершение — это метрика. Метрики попадают в панели. Панели попадают в презентации для совета директоров. Презентации для совета директоров продвигают меня по службе. Я стану старшим вице-президентом к третьему кварталу.

Я всё ещё не знаю, что делает Copilot. Но я знаю, для чего он нужен. Он нужен, чтобы показать, что мы "инвестируем в ИИ".
Инвестиции означают траты. Траты означают обязательства. Обязательства означают, что мы серьёзно относимся к будущему. Будущее — это то, что я скажу.

Пока график идёт вверх и вправо.


Источник.

Читать полностью…

Инжиниринг Данных

Google Antigravity — это новая, бесплатная IDE.

Это прямой конкурент других AI IDE, таких как Cursor.

https://antigravity.google

Go тестировать

Читать полностью…

Инжиниринг Данных

Недавно изучал архитектуру AI-приложений у Microsoft при подготовке к AI-900 экзамену.

Там выделяют 4 слоя: данные, модели, вычисления и оркестрация.

Все любят говорить про модели. GPT, fine-tuning, prompt engineering. Но никто не говорит про слой данных.

А ведь слой данных - это основа, без него ваша крутая модель просто не работает.

Что включает слой данных:
- Структурированные данные (SQL, PostgreSQL)
- Неструктурированные данные (документы, изображения)
- Потоковые данные в реальном времени

У Microsoft для этого есть Cosmos DB, Azure Data Lake. Все как сервис (PaaS), чтобы не возиться с инфраструктурой.

Дальше идет слой моделей - тут обучение, fine-tuning, версионирование.

Можно взять готовую модель (Azure OpenAI) или обучить свою через Azure Machine Learning.

Вычислительный слой - это где все крутится. Azure Functions для serverless, Kubernetes для enterprise. Тут выбор зависит от масштаба и бюджета.

И наконец слой оркестрации — связывает все вместе. API, SDK, агенты. Microsoft Foundry позволяет управлять всем из одного места.

Соотвественно у других вендоров свой набор инструментов. Недавно я рассказывал про System Design для дата инжиниринга, а AI будет свой фреймворк, который может наполняться готовыми элементами.

Все AI-проекты начинаются с "давайте сначала почистим данные”. Потому что без качественных данных модель будет выдавать мусор. Garbage in — garbage out.

Вот что реально важно в слое данных:
✅ Чистота - никаких дубликатов и ошибок
✅ Полнота - достаточный объем для обучения
✅ Актуальность - регулярное обновление
✅ Доступность - быстрый доступ для моделей

Точно такие же характеристики качества данных у традиционного хранилища данных.

В итоге получается: данные -> модели -> вычисления -> оркестрация -> AI-приложение.

Соответственно инженеры данных очень скоро могу начать готовить данные не для BI дашбордов, а для AI приложений.

Читать полностью…

Инжиниринг Данных

MWS Cloud запустил сервис GPU on-premises.

Что это такое? Компания будет устанавливать серверы с GPU необходимые для обучения и инференса искусственного интеллекта в периметре предприятий.

Посмотрел, как это работает:
• Специалисты помогают компании определить нужную ей конфигурацию серверов с GPU - можно взять готовую: доступно 7 видов карт и более 20 готовых конфигураций, можно собрать индивидуально под себя
• Серверы разворачивают на площадке компании или дата-центре MWS Cloud. Кстати, их можно и купить, и арендовать
• Установка и поддержка на всех этапах - на MWS Cloud

Полезная история для компаний, которым требуется развертывание вычислительных мощностей с графическими усилителями в закрытом контуре.

Читать полностью…

Инжиниринг Данных

Как у вас дела с Kubernetes?

Kubernetes (K8s) — это система для автоматического управления контейнерами с приложениями. Представь её как "дирижёра оркестра" для твоих программ.


С ним можно построить любое решение - сам продукт, сервис или аналитическое решение в облаке или on-premise.

Очевидно использовать managed версию в AWS/Azure/GCP легче, чем разворачивать все с нуля на своем железе.

Для DevOps k8s это один из главных скилов. Эксперты без работы не останутся, особенно если нет альтернативы в виде публичного облака.

Claude мне выдал альтернативы:

Легковесные альтернативы
- Docker Swarm - встроенная оркестрация Docker, проще в настройке и использовании
- K3s - облегченная версия Kubernetes от Rancher (до 40 МБ), идеальна для edge-устройств и IoT
- MicroK8s - минималистичный Kubernetes от Canonical, быстрая установка одной командой
- Nomad (HashiCorp) - простая оркестрация для контейнеров, VM и standalone приложений

Платформы как сервис (PaaS)
- Docker Compose - для локальной разработки и простых развертываний
- Heroku - классический PaaS, минимум настроек
-
Fly.io - современная платформа с глобальным распределением
- Railway - простой деплой с автоматической настройкой

Специализированные решения
- Apache Mesos (с Marathon/DC/OS) - для крупномасштабных кластеров
- Rancher - управление несколькими кластерами и оркестраторами
- OpenShift - корпоративная платформа на базе Kubernetes с дополнительными функциями
- Portainer - упрощенное управление Docker и Kubernetes через веб-интерфейс


В моем опыте мне два раза приходилось с ним работать:
1) В FinTech стартапе использовали k8s на GCP (managed), на нем жили Airflow, Metabase, Open Metadata, dbt, Trino, Red Panda и все Python программы, которые поднимались в контейнерах через Airflow.

2) В большом Enterprise, использовали k8s на AWS, для самого продукта (multi tenant), и локальная разработка так же велась на k8s.

Для себя я решил ограничиться сервисами контейнеров:
- AWS ECS/Fargate
- Azure Container Instances
- Google Cloud Run

Вам приходиться работать с k8s?

Читать полностью…

Инжиниринг Данных

Знаете, что такое “смена работы N+1”?

Это достаточно надежный и популярный способ менять работу в Северной Америке.

Сейчас расскажу.

Вы работаете на работе А. И вы решили найти новую работу - Б.

Что делают любители? Прощаются с коллегами на работе А и выходят на работу Б. Только потом может оказаться, что работа Б это не так и весело, и хуже, чем работа А. Но вам уже надо разгребать работу Б следующие 12-18 месяцев, как минимум. Как говорится стерпится-слюбится.

А что делают профессионалы? Оно думают о завершении работы А, чтобы начать работу Б. Но работа Б это риск, поэтому они решаются на trial период на работе Б, продолжая работать на работе А. Таким образом у вас есть возможность попробовать Б и при необходимости отказаться от нее и остаться на А, или наоборот, уйти с А, и остаться на Б.

Такой overlap позволяет безопасно менять работу. Очень популярный метод, надо как-нибудь попробовать, если будет удаленка.

Читать полностью…

Инжиниринг Данных

S3 самый популярный элемент современного технологического мира. И это не обязательно AWS S3, ведь можно создать blob storage on-premise.

В статье How Amazon S3 Works кратко описываю системный дизайн S3. Для масштабирования с высокой производительностью не нужно дорогое оборудование — достаточно умной архитектуры и правильных алгоритмов. Amazon использует недорогие HDD-диски, но компенсирует их ограничения через параллелизм, умную организацию данных и эффективную репликацию.

Альтернативы:

🔄Крупные облачные провайдеры
Google Cloud Storage — хорошо работает с другими сервисами Google (BigQuery, ML), несколько классов хранения, понятные тарифы, от $0.020/GB в месяц.
Azure Blob Storage — от Microsoft, три уровня хранения (горячий, холодный, архив), отлично интегрируется с Office 365 и Azure, от $0.018/GB в месяц.
IBM Cloud Object Storage — для крупных компаний, автоматически оптимизирует затраты, работает с Watson AI, подходит для банков и медицины.

🔄Бюджетные варианты без платы за скачивание
Cloudflare R2 — бесплатная отдача данных (egress), быстрая доставка через CDN Cloudflare, хранение $0.015/GB в месяц.
Wasabi — один тариф $6.99/TB в месяц, нет платы за скачивание и API-запросы, все данные доступны мгновенно.
Backblaze B2 — очень дешево $6/TB в месяц, бесплатное скачивание до 3x от объема хранения, полностью бесплатно с Cloudflare CDN.

🔄Для разработчиков
DigitalOcean Spaces — простой и понятный, $5/месяц за 250GB + 1TB трафика, встроенная CDN, легко настроить.
iDrive e2 — до 80% дешевле S3 ($0.005/GB в месяц), нет платы за трафик, простой интерфейс.
Hetzner Object Storage — европейский провайдер, $0.00713/GB в месяц, очень дешевое скачивание ($0.00143/GB), соответствует GDPR.

🔄Другие варианты
Oracle Cloud — 10GB бесплатно навсегда, архив от $0.0026/GB в месяц.
Telnyx Storage — быстрый, низкие задержки, бесплатное скачивание, до 100 бакетов бесплатно.
Storj — децентрализованное хранилище на блокчейне, данные распределены по тысячам серверов, повышенная безопасность.

🔄Альтернативы on-premise
MinIO — самый популярный open-source, полностью совместим с S3, очень быстрый (до 183 GB/s), хорошо работает с Kubernetes и ML.
Ceph — мощная система для больших компаний, поддерживает объекты, блоки и файлы, масштабируется до петабайтов, но сложная в настройке.
OpenIO — быстрый, для AI/ML и big data, совместим с S3, можно комбинировать с облаком.
Cloudian HyperStore — коммерческое решение, совместимо с S3, полный контроль над данными, поддержка 24/7, для банков и госструктур.
SeaweedFS — легкий и быстрый, написан на Go, хорошо работает с миллиардами маленьких файлов (фото, документы).
Rook — упрощает работу с Ceph в Kubernetes, автоматическое масштабирование и восстановление.
GlusterFS — объединяет обычные серверы в одно хранилище, проще чем Ceph, поддержка от Red Hat.
LocalStack — эмулирует 90+ сервисов AWS на вашем компьютере, можно разрабатывать и тестировать без затрат и подключения к интернету.

Из всего списка я работал с классикой Google Cloud Storage, AWS S3, Azure Storage и использовал LocalStack для CI pipelines. Часто попадалась информация про MiniO S3 и Cloudflare R2 или Hetzner.

Читать полностью…

Инжиниринг Данных

Могу поделиться финансовой мудростью — когда захотите купить последний iPhone или другую дорогую (относительно дорогую) вещь, которую вот прямо необходимо иметь, попробуйте сделать это на прибыль или дивиденды от инвестиций.

То есть на языке книги «Богатый папа, бедный папа», которую, как по мне, должны добавить в школьную программу и вообще учить детей финансовой грамотности, а то получается, в школах растят потребителей.

Вам нужно сначала создать актив, который будет приносить вам прибыль, и на эту прибыль можно купить iPhone. В идеале тут можно говорить про дорогую машину, но надо начинать с чего-то маленького. Я вот вроде бы знал про такой life hack, но не воспользовался им, когда был молодым — возможно, у вас это получится лучше.

Звучит легко, но вот очень сложное сделать.

Читать полностью…

Инжиниринг Данных

AI Code Assistant вошел плотненько в мой быт. У меня Cursor. Так же я работал с Cline плагином в VSCode, которому я скормил Claude Code API ключ и там же я попробовал Claude плагин, который подключает Claude Code.

В Linkedin я провел опрос, и Claude Code явно популярнее, чем Cursor. И я считаю, что эти два инструмента лучшие на рынке. По опросу в Телеграмм стало понятно, что AI Code Assistant не такие популярные. Главная проблема это цена инструмента и работодатели не хотят оплачивать и людям приходится изобретать.

Чтобы вам стать максимально эффективным вам нужно использовать IDE + AI. Самый простой вариант VSCode + Cline или что-то подобное. Так же все хвалили Kilo Code.

Самое классное, что такой подход работает не только для кода, а для всего. Считайте, что у вашего AI теперь есть buffer, где можно сохранять результат в markdown файлы или создавать их самому, чтобы всегда был контекст. Одно время я так сохранял Slack переписки и вел лог всего в markdown.

Теперь несколько примеров из недавнего опыта.

Недавно была встреча с Product Manager из Silicon Valley, он показал как он завайбкодил целое решение:
- Данные забирает из Survicate API (сервис опросов, многие ответы free text)
- Парсит ответы с AI и классифицирует их
- Построил целое веб приложение с графиками и кнопками

И это сделал чувак, кто совсем не технарь, получилось очень достойно. То есть теперь любой может кодить и создавать продукты. А дальше уже можно привлечь инженеров и доработать решения, чтобы положить в прод.

Лично я сделал достаточно много с AI, что было бы просто нереально успеть сделать за такой короткий срок:
1. Был Airflow, который жил в Docker на AWS EC2. Использовали Astro Run Time. Было очень неудобно. Я решил все смигрировать на Managed AWS Airflow. И AI помог мне конвертировать DAGs и улучшить их и внедрить мои идеи. Как результат пофиксил много legacy багов и улучшил производительность в 4 раза для OLTP источников.
2. AWS и Snowflake закинул в Terraform, и это позволяет быстро вносить изменения.
3. У них еще было 3 проекта в dbt cloud, там был полный хаус, я начал все консолидировать в новом проекте с использованием medallion architecture. Благодаря MCP, я могу тестировать изменения и фиксить, если где-то глюки.
4. Так же поработал плотненькое с Subscription based бизнес для hardware, и все что было сделано в dbt поверх данных Stripe - black box. Я полностью пересобрал модель данных для subscription revenue, смог создать несколько вариаций моделей, задокументировать все в markdown и так же через MCP сравнивать и фиксить модели на уровне конкретных клиентов.
5. Написал несколько документов на изменения связанные с тем как собираются и хранятся данные.
6. Проанализировал 3000 ноутбуков в Hex, чтобы понять какие из них используют сырые данные и как часто используются. Использовал BigQuery System Tables и MCP, чтобы создавать запросы, HEX API, чтобы выгружать данные, и DuckDB, чтобы локально все анализировать. А дальше написал несколько документов, но уже с Gemini. В gemini теперь можно и презентации создавать.

Было еще множество мелких вещей. Все эти задачи, я бы смог решить и без AI, просто делал бы их намного дольше и уж никак не параллельно. А так хватило время на посмотреть Один Дома 1 и 2, запустить Worms Worlds Party, и поиграть в новый сезон Fortnite. И даже на учебу по курсу Databricks Generative AI. И самое главное не пропускать тренировки, у меня на них высокий приоритет - 2 раза бокс, 2 раза джиу джитсу, 2 раза бассейн в неделю.

Жалко AI за меня не ходит на митинги, а то может быть по 5 в день в перемешку с собеседованиями.

Сейчас точно золотое время high performance инженеров, так как если у нас есть фундаментальные знания, то с помощью AI можно решить задачу. При этом большинство коллег, даже технических не шибко пользуются всеми возможностями, а предпочитают топорный способ - copy paste в ChatGPT. Или вообще не понимают, зачем это и как использовать в работе. Возможности и правда безграничные.

Думаю так долго не будет продолжаться, но пока прям четкий vibe📈

Читать полностью…

Инжиниринг Данных

Отличный пост, который прям смотрит в суть.

Я его перевел для вас с AI. Выглядит немного топорно, но суть понятна:

Ваш руководитель по данным получает зарплату $400К и неограниченный бюджет на инфраструктуру.

Ваш
операционный руководитель получает $180К, потому что "их работа более тактическая."

Угадайте, какой отдел всё ещё не может ответить на базовые вопросы?


Представьте этот сценарий:
Команда данных только что получила $3,8М
на Snowflake, Databricks и новые пайплайны.


Одобрения получены.


Консультанты наняты, и все празднуют победу.


Операционный отдел спрашивает, почему растёт отток клиентов и падает маржинальность.


"Нам нужно запустить запросы. Вернёмся к этому в следующем квартале."


Компании тратят миллионы на инфраструктуру данных.
Но CEO не может получить прямой ответ:
Какие клиенты прибыльны?
"Сложно. Данные разбросаны по системам."


Сколько нам стоит отток клиентов?


"Нам нужно объединить несколько источников."
Мы вообще зарабатываем деньги?


"Это требует продвинутой аналитики."


Тем временем бизнес истекает кровью.


Но большинство компаний нанимают команды данных
как будто они нанимают облачных архитекторов.


"Обязательно знание распределённых систем."


"Опыт работы с ETL-фреймворками предпочтителен."


"Глубокий опыт в MLOps будет плюсом."


Тем временем руководители спрашивают:
• Почему упала выручка в прошлом квартале?
• Что вызывает скачок оттока клиентов?
• Какие сегменты умирают?
• Какое изменение продукта сломало активацию?

А ваша команда данных оптимизирует производительность запросов.

Компании, которые выигрывают с данными,
относятся к ним так, как они есть на самом деле.


Слой ответов.

Их лидеры аналитики:
• Построили операционную отчётность, которая управляет решениями
• Перевели метрики в бизнес-действия
• Возглавили кросс-функциональные расследования
• Предоставили причинно-следственные объяснения, а не дашборды

Потому что они понимают настоящее описание работы:
Превратить миллиарды точек данных
в одно предложение, на основе которого CEO может действовать.


А не "построить идеальный дашборд."


Данные владеют 100 процентами видимости компании.


Но большинство команд предоставляют ноль бизнес-аналитики.


Так почему ваш руководитель данных владеет королевством инструментов,
в то время как никто в компании не может объяснить, почему изменилась выручка?
Потому что вы всё ещё думаете о данных
как об инфраструктуре.


Вместо того, чтобы думать о них как об инсайтах.
Ваш CEO смотрит на стек за $3,8М, который он не может использовать.
Кто в комнате объясняет причинно-следственные связи?


Тот, кто может нарисовать диаграмму ETL-пайплайна?
Или слой ответов, который может сказать CEO,
почему клиенты уходят и что исправить в понедельник?
Рынок не вознаграждает за ваш технологический стек.
Он вознаграждает за вашу способность понимать свой бизнес.


Ваш слой ответов — это ваш движок интеллекта.


Укомплектуйте его соответственно.


То есть строить и внедрять новые shiny tools мы можем на easy.

А вот реально использовать их и помогать бизнесу - это уже другое.

Так реально получается, что Excel более мощный инструмент в умелых руках, чем Snowflake, Databricks и Modern Data Stack.

PS Но как ни крути, лучше конечно внедрять и строить, чем ломать голову, почему churn rate такой, какой есть, почему клиенты покидают подписку и возвращают продукты.

Тратить время и силы на R&D всегда веселее и приятнее, чем на скучные insights, которые помогают бизнесу расти.

Настоящее искусство - это совместить технологии и ценность для бизнеса, когда понятно - что мы делаем, зачем и с помощью каких инструментов.

Читать полностью…

Инжиниринг Данных

Хотите себе долларов (грязная зелёная бумажка (с)) напечатать? Дети мне показали сайт, где можно визуализировать вашу зарплату в долларах. Если много получаете, то может и голова закружиться!

https://neal.fun/printing-money/

PS Вроде надо зарплату визуализировать, чтобы большая была. Возможно это тренажер высоких заработков🤑

На самом сайте https://neal.fun/ много веселых штук позалипать!

Читать полностью…

Инжиниринг Данных

The AI Safety Expert: These Are The Only 5 Jobs That Will Remain In 2030! - Dr. Roman Yampolskiy

Через два года ИИ заменит большинство людей и профессий.
Я имею в виду, что через пять лет мы увидим такой уровень безработицы, которого никогда раньше не было.
Не 10%, а 99%.


Не самое оптимистичное видео про будущее с AI.

Мы точно узнаем, как оно будет, осталось не долго!😌

А вы как думаете? Авось пронесет или будет уже не до шуточек?

Читать полностью…

Инжиниринг Данных

Лекция в MIT про Computer Science в год моего рождения.

https://youtu.be/-J_xL4IGhJA?si=OAnPFlJg9qK8lYHQ

Computer Science is not about Science or Computers.

Читать полностью…

Инжиниринг Данных

Новый CLI клиент https://willmcgugan.github.io/toad-released/

Demo выглядит классно. Создатель сделал упор на markdown и user experience

Читать полностью…

Инжиниринг Данных

Представьте себе коммуналку, в которой живут только аналитики. Как вы думаете, о чём там будут говорить?

Если подумали исключительно про цифры, то зря 🙂

Потому что мы в Авито собрали в Телеграме комьюнити «Коммуналка аналитиков», чтобы посмотреть, что будет.
Получилось очень даже интересно. Оказалось, аналитики с удовольствием пишут обо всём вокруг профессии:

✍️ Рассказывают о рабочих буднях

✍️ Хвастаются успехами и вспоминают фейлы

✍️ Постят мемы

✍️ Запускают опросы и собирают бинго

✍️ Шутят

✍️ Делятся лайфхаками

✍️ Создают серьёзные посты про аналитику

✍️ И-и-и обсуждают другие штуки, которые сложно классифицировать

Подписывайтесь на канал и читайте недушную аналитику 😉

Читать полностью…

Инжиниринг Данных

Хотите узнать кошмар современного high-performance сотрудника?

Windows ноутбук без админского доступа, без возможности скачать программы, AI чат, AI IDE. И компьютер ложится спать каждые 15 минут без активности. Даже, чтобы скачать Python или Git нужен запрос в help desk, согласование безопасностью и ожидание несколько дней.

Получается уже не high-performance.

А ведь раньше все как-то обходились без всего этого.

Читать полностью…

Инжиниринг Данных

Данные — сырьё для гипотез. А без гипотез не получится успешный продукт.

В VK аналитики помогают продуктам говорить на языке пользователей. Узнайте, как принципы помогают VK превращать гипотезы в фичи и чем гордятся команды. Переходите по ссылке — вдохновляйтесь и присоединяйтесь.

Читать полностью…

Инжиниринг Данных

Первый раз увидел вакансию Analytics Engineer. Обычно всегда Data Engineer.

Ключевое тут - это dbt. Но как видно в компании еще есть Trino, Iceberg. В целом для отечественного рынка очень хороший стек!

Обычно разделение идет на дата инженера и дата аналитика. Что уже давно не отражает суть.

Сейчас все вакансии инженерные (vibe coding?). Просто дата инженер еще может создавать инфраструктуру для аналитического решения, а аналитик инженер строить витрины.

Главный скилл для аналитик инженера - это понимание бизнеса и общение с бизнес заказчиками. То есть вам надо построить дашборд и вам не нужно ждать пока дата инженеры соберут витрину, они могут сами сделать витрину и job для ее обновления. Роль дата инженера будет создать фреймворк для этого.

Альтернатива такому стеку (как в вакансии) будет Hadoop (HDFS, Spark, Hive) и сверху Clickhouse или Greenplum (а может быть Greenplum будет вместо Hadoop сразу).

Скорей всего компаний в РФ, которые могут себе позволить создать классное и современное решение с нуля нет. У всех свой Франкенштейн legacy, который нужно поддерживать и параллельно добавлять всякие современные улучшения.

Я возможно всей картины не вижу, поправьте меня и расскажите как на самом деле дела обстоят.

Читать полностью…

Инжиниринг Данных

Знаете кому AI не помогает?

Всем кто раньше топил за low/no code. Ведь там все завязано у вендора на кликанье мышкой в приятном интерфейсе.

Особенно разные BI инструменты или ETL инструменты. Сейчас можно быстрей сделать dashboard в Streamlit или Plotly, чем такой же в Tableau или Sigma BI.

Я не имею ввиду произведение искусства в Tableau. Я про обычные полезные дашбордики с bar/line charts или быстрые ad-hoc визуализации.

Даже в Looker нет удобной интеграции и нужно либо копировать руками LookML или в VSCode менять код без возможности валидации.

У меня есть пример одного инструмента, кто отлично смог встроить AI в свой процесс - это Matillion ETL. Это такой low-code инструмент, у которого всегда были проблемы с интеграцией в Git. Они добавили бота, который может теперь строить pipelines по промпту.

Зато есть у вас все аналитическое решение как код, то AI может посмотреть во все слои трансформации и подсказать, где ошибка или где можно улучшить.

Таким образом, у нас теперь любое репо превращается в low-code.

Читать полностью…

Инжиниринг Данных

Из всего многообразия новых AI штук, моя любимая это MCP для тестирования данных и поиска ошибок.

Читать полностью…

Инжиниринг Данных

Я писал уже свой подход про ARR как личный суммарный заработок. Как и другой любой пост он 50/50, кому-то откликнулось, а для кого-то 🔴.

На выходных у меня была стратегическая сессия с @YanaTimokhina, где 3 часа проговаривали, что работает, а что нет. Попытались спланировать цели на 5 и 15 лет. И как-то после нее стало легче.

Реально есть польза от высказаться и поразмышлять вслух, а если у человека есть в этом опыт, он быстро уловит суть и поможем переосмыслить многие вещи.

Одно из первых решений было убрать токсичность, для меня это свалить с одного из проектов, который приносит 250k (только база) CAD $ ARR. По канадским меркам это много, и самое главное там не сложно делать работу, но токсичная среда сжирает весь ресурс и не остается сил на себя и креативность. Поэтому, сегодня я написал, что мой последний день с ними 31 декабря и сразу стало легче.

Другой инсайт был, что я не знаю сколько я зарабатываю, и сколько мы тратим. Поэтому идея работать много не очень эффективна, ведь я не знаю сколько достаточно и для чего, а страх не до заработать на долгой перспективе будет иметь негативные последствия.

Один из главных инсайтов 2025 год, что высокая зарплата и много ответственности это не всегда самый важный критерий, иногда можно позволить себе сделать перерыв, чтобы поработать и поучиться в свое удовольствие.

Да и вообще, все же мы знаем, что у нас марафон, а не спринт.

Читать полностью…

Инжиниринг Данных

Действительно ли облака и managed/serverless это хорошо?

Плюсы очевидны:
- быcтрый старт
- меньше зависимостей
- легко найти инженеров


Минусы
- нет гибкости
- нет удобного дебага
- vendor lock
- цена не прозрачна и будет расти

Вот и получается, либо платим за инженеров, либо вендору.

Читать полностью…

Инжиниринг Данных

Я явно недооценил Excel, оказывается есть чемпионат по Excel


Чемпионат Microsoft Excel (Microsoft Excel World Championship, MEWC) — это киберспортивное соревнование, где участники решают необычные игровые задачи в Microsoft Excel.

В отличие от традиционных финансовых соревнований, здесь нет финансового моделирования — только Excel и логическое мышление.

Участники соревнуются в скорости и точности решения сложных головоломок, используя формулы, функции и любые инструменты Excel (включая VBA, Power Query, динамические массивы, лямбда-функции).

Формат соревнований:
• Участники получают кейсы с несколькими уровнями сложности (обычно 5-7 уровней)
• Задачи основаны на игровых сценариях — например, World of Warcraft, Scrabble, детективные истории, ролевые игры
• Каждый раунд длится 30 минут с системой выбывания: каждые 5-7,5 минут участник с наименьшим количеством очков выбывает
• Есть бонусные вопросы, которые может получить только первый решивший их участник

Структура турнира:
Чемпионат включает онлайн-отборочные раунды (9 ежемесячных баттлов, квалификационный раунд на 150 участников), плей-офф (256 участников) и финал вживую в Лас-Вегасе в HyperX Arena. Призовой фонд превышает $60,000.

Читать полностью…

Инжиниринг Данных

Новые возможности для администрирования Apache Ignite

СберТех приглашает на вебинар, где представит обновления в Platform V Grid Center.

Основной темой станет демонстрация ИИ-агента, который помогает администрировать кластеры через диалог.

Спикер — лидер продукта Илья Степанов — покажет, как агент взаимодействует на естественном языке, анонсирует выход гибких пользовательских дашбордов и расскажет про улучшения в интерфейсе и функциональности контроля.

Platform V Grid Center предназначен для работы как с Apache Ignite, так и с коммерческой версией от СберТеха — Platform V DataGrid.

Присоединяйтесь, чтобы узнать о новых инструментах для оптимизации вашей работы. Регистрация по ссылке.

Читать полностью…

Инжиниринг Данных

Приглашаем на ЮMoneyDay — бесплатную онлайн-конференцию про финтех и IT 🔥

На протяжении двух дней будем общаться с разработчиками, инженерами, тестировщиками, продактами, дизайнерами и другими специалистами из ЮMoney. Они расскажут про свой опыт работы в большом финансовом продукте, поделятся лайфхаками и секретами.

Будут доклады по 16 направлениям:

🟣 Будущее финтеха
🟣 Бэкенд
🟣 Фронтенд
🟣 Тестирование
🟣 Python
🟣 Менеджмент проектов
🟣 Менеджмент продуктов
🟣 Системный анализ
🟣 SQL
🟣 UX
🟣 ИИ
🟣 Архитектура IT-решений
🟣 Внутренние системы
🟣 Мобильная разработка
🟣 Инфраструктура
🟣 О компании

Встречаемся онлайн 5 и 6 декабря в 11:00 мск. Чтобы участвовать, зарегистрируйтесь на сайте конференции

Читать полностью…

Инжиниринг Данных

Привет, это Yandex for Analytics

Предлагаем размяться и проверить свои навыки. Ответы есть, но подглядывать во время решения — неспортивно ⬇️

🔵 Задача 1. Вспоминаем теорию вероятностей
🔵 Задача 2. Теорема Байеса
🔵 Задача 3. Базовая база теории игр
🔵 Задача 4. Тренируем SQL
🔵 Задача 5. Честная математическая статистика
🔵 Задача 6. Что-то на бизнесовом

💠 Скоро вернёмся с новыми задачами. А пока делитесь своими решениями в комментариях!

Подписывайтесь:
💬 @Yandex4Analytics

Читать полностью…
Subscribe to a channel