rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

Изучаем машинное обучение всё лето: Яндекс приглашает в Летний кампус ML-Академии

Познакомьтесь с трендами ML‑индустрии и получите прикладной опыт в московском офисе Яндекса.

3 месяца студенты и начинающие ML-спецы будут работать совместно с экспертами из Яндекса над задачами по компьютерному зрению, обработке естественного языка, рекомендательным системам, LLM и другим ML-направлениям. В конце обучения участников ждет выпускной.

Обучение бесплатное, участникам из других городов Яндекс оплачивает переезд и проживание. А еще это хороший шанс начать карьеру: лучших выпускников Академии пригласят на стажировку.

Подать заявку можно тут.

Читать полностью…

Инжиниринг Данных

Последние несколько недель я познакомил пару человек с Claude Code. До этого они использовали AI на уровне “спросить ChatGPT”. Так как они далеки от традиционного ИТ, для них это было большим открытием и они смогли быстро реализовать свои идеи.

Делюсь видео от товарища, которое он мне скинул на днях. Он талантливый инженер и изобретатель и в его руках Claude Code это мощь.

Читать полностью…

Инжиниринг Данных

Еще одно преимущество использования git и строить аналитические решения как код. То есть сохранять в репо все изменения. Даже если вы делаете ad-hoc вещи и отчеты.

Пример - к вам приходит босс и говорит, напиши мне, что ты сделал в Q1 и что будешь делать в Q2.

Я могу попросить AI агента (Claude, cursor, и тп) посмотреть историю комитов и написать, что я делал и зачем(придумать с поправкой на бизнес смысл). Дополнительно мы можем через MCP сходить в Jira, Confluence и тп, и найти наши тикеты, документы и тп. Мало? Можно в MCP slack пойти, и взять всю переписку.

Читать полностью…

Инжиниринг Данных

Классный бесплатный курс https://opencode.school/

Читать полностью…

Инжиниринг Данных

Лучший способ экономить на токенах. Да еще можно людям помочь карьеру устроить.

Объединяйтесь против машин и берите на работу junior!

Читать полностью…

Инжиниринг Данных

Я провел следующую часть воркшопа про Data Ingestion Patterns | Part 2- в нем добавил другой метод создания AWS Lambda, рассмотрели AWS Batch, AWS ECR (container registry) и AWS ECS (Container Service). Как обычно использовали Claude Code и Infra as a Code с AWS Cloud Formation. Много рассуждение про использование этих решений на реальных проектах.

Концепт очень простой - у нас есть Python файл, который скачивает данные по GitHub API и мы его переиспользуем разными методами. План рассмотреть все возможности AWS для batch и streaming и потом повторить для Azure и GCP.

Первая часть - Data Ingestions Patterns | Part 1 - я начал серию видео для System Design DE по подходу от простому к сложному, где мы загружаем данные из API в базу 10ью разными способами. Пока только 1/7 покрыл, потратил много времени на разговоры про security, infra as a code, evn variables и как сразу делать правильно. Сразу гонял Cursor Agent и Claude и видно насколько Cursor тупее Claude, зато дешевле.

Читать полностью…

Инжиниринг Данных

23 апреля в Санкт-Петербурге пройдет вечерний митап для аналитиков — Analytics Party.

Присоединяйтесь, чтобы вместе с экспертами поговорить о решениях сложных продуктовых и исследовательских задач — от оценки безопасности автопилота до экспериментов без A/B-тестов.

В программе докладов:
«Сакральные тайны сбора датасетов для симуляции автономного транспорта». Елмурат Темиргалиев (команда автономного транспорта, Яндекс) расскажет, как они объединяют реальные и синтетические данные, чтобы получать доверительные выводы о безопасности.
«На что способны ИИ-агенты в аналитике». Иван Меренков (Data AI Lab, Яндекс) покажет, как собрать систему из ИИ-агентов под свои задачи.
«Propensity score matching: как строить аналоги A/B-тестов, когда эксперименты невозможны». Николай Олигеров (Яндекс Путешествия) разберет статистический метод Propensity Score Matching.

Зарегистрироваться и посмотреть полную программу выступлений можно на сайте.

Читать полностью…

Инжиниринг Данных

Продолжаем тему про выгорание:)

Читать полностью…

Инжиниринг Данных

Дата-инженер, пора на прокачку

Если хотите в 2026 не просто “поддерживать пайплайны”, а лучше понимать архитектуру, ускорять разработку и принимать более сильные технические решения — регистрируйтесь на серию вебинаров от команды Дата-сервисов VK Tech.

🦾 В одной серии — сразу 3 практических вебинара:
20 апреляClickHouse в 2026: сценарии, сильные стороны, лучшие практики
20 мая Наш опыт построения Lakehouse: ошибки и выводы 2025
10 июня Вайбкодинг в data engineering: как ускоряться, не ломая прод

🏆 Кому будет полезно:
Дата-инженерам, senior-аналитикам, архитекторам данных, руководителям дата-платформ и всем, кто строит или развивает контур аналитики, BI и ML.

💪 В чем можно прокачаться:
— понять, где ClickHouse реально силен, а где его не стоит ставить “по умолчанию”
— разобраться, как грамотно использовать ClickHouse в DWH и Lakehouse-архитектуре
— увидеть типовые ошибки при построении Lakehouse и не повторять их у себя
— лучше понять связку S3 + Iceberg + Trino / Spark / ClickHouse
— разобраться, где ИИ помогает в data engineering, а где создает риск для качества и прода
— ускорить разработку SQL, ETL/ELT и витрин без потери контроля

💸💸💸 Дополнительный мотив зарегистрироваться:
Получить бонусные рубли для тестирования ClickHouse и Lakehouse в VK Cloud.

📢 Спикер:
Алексей Белозерский, руководитель профессионального сервиса VK Data Platform, VK Tech.

Ведет Telegram-канал «Архитектор Данных» — там про архитектуру данных, внедрение ИИ, аналитику. Подписаться на канал Алексея.

✍️ Зарегистрироваться на вебинары:

ClickHouse

Lakehouse

Вайбкодинг

Подписаться, чтобы не пропускать новые материалы и анонсы:
👉 Данные на стероидах — Telegram-канал команды Дата сервисы VK Tech о практиках и подходах для извлечения максимальной пользы из работы с данными. Подписаться на канал.

Читать полностью…

Инжиниринг Данных

Андрей Карпатый разделяет пользователей на 2 группы

Первая проблема, на мой взгляд, — это актуальность и уровень использования. Думаю, многие попробовали бесплатный тариф ChatGPT где-то в прошлом году и позволили этому опыту слишком сильно повлиять на их взгляды на ИИ. Это группа людей, которые смеются над различными причудами моделей, галлюцинациями и т. д. Да, я тоже видел вирусные видео, где расширенный голосовой режим OpenAI тупит на простых вопросах вроде «мне лучше доехать до автомойки или дойти пешком». Дело в том, что эти бесплатные и устаревшие/снятые с поддержки модели не отражают возможностей новейшего поколения передовых агентных моделей этого года — в особенности OpenAI Codex и Claude Code.

Но это подводит меня ко второй проблеме. Даже если люди платят 200 долларов в месяц за использование передовых моделей, многие из их возможностей относительно «точечны» в узкотехнических областях. Типичные запросы — поиск, написание текстов, советы и т. п. — это не те области, в которых произошли наиболее заметные и драматические скачки в возможностях. Отчасти это связано с техническими особенностями обучения с подкреплением и использованием верифицируемых наград. Но отчасти и потому, что эти сценарии использования недостаточно приоритизированы компаниями в их гонке за улучшениями, поскольку не приносят столько денег. Золотые жилы находятся в другом месте, и фокус внимания смещается туда.

Это подводит меня ко второй группе людей, которые одновременно 1) платят за и используют передовые агентные модели (OpenAI Codex / Claude Code) и 2) делают это профессионально в технических областях — программировании, математике и исследованиях. Именно эта группа людей в наибольшей степени подвержена «ИИ-психозу», потому что недавние улучшения в этих областях в этом году были просто ошеломляющими. Когда вы даёте одной из этих моделей доступ к терминалу, вы можете наблюдать, как она разбирается с задачами программирования, на которые обычно ушли бы дни или недели работы. Именно эта вторая группа людей придаёт гораздо большее значение возможностям моделей, их темпу роста и различным последствиям в сфере кибербезопасности.

TLDR: Люди из этих двух групп просто говорят на разных языках. Это действительно одновременно так: бесплатный и, думаю, слегка заброшенный (?) «Расширенный голосовой режим» OpenAI будет тупить на самых глупых вопросах в вашем Instagram Reels — и в то же самое время платный Codex от OpenAI высшего уровня будет час за часом методично переструктурировать целую кодовую базу или находить и эксплуатировать уязвимости в компьютерных системах. Это действительно работает и сделало драматический скачок благодаря двум свойствам: 1) эти области предлагают явные функции вознаграждения, которые поддаются верификации, а значит, хорошо поддаются обучению с подкреплением (например, пройдены ли юнит-тесты — да или нет, в отличие от написания текстов, качество которых гораздо сложнее оценить объективно), но также 2) они значительно ценнее в B2B-сегменте, а значит, наибольшая часть команды сосредоточена на их улучшении. Вот где мы сейчас находимся.


Я так же замечаю это особенность про два типа пользователей. Первая группа - их большинство. Они не сильно используют AI, ведь он тупой. Вторая группа сидит на Claude Code с тарифом за 200$ в месяц и им мало токенов.

Про результат и перспективы каждой из групп можете догадаться сами.

Только сегодня встречался с боссами большой публичной американской компании. Они всем дали Claude Code и никто его не использует, они не понимают, что делать и как.

И так везде.

Я предложил им нагрузить работой всех так, что без AI они просто не вытянут.

Мы согласились, что все кто не хочет меняться и использовать AI в работе буду уволены.

И в подтверждение этому, на прошлой неделе другая публичная американская компания уволила куча людей, включая две команда дата инженеров. Почему? AI оптимизация.

Читать полностью…

Инжиниринг Данных

21 апреля пройдет митап «Лаборатория решений DataLens» — офлайн-встреча про BI и аналитику данных

📍 Москва, Loft Hall (Avantage)
🕓 Сбор с 16:30, старт в 17:00

Формат: бизнес-команды заранее поделились своими задачи, а эксперты из p Навикон, КОРУС Консалтинг, Смарт-Аналитикс и SQEEL реализовали решения на базе BI. На встрече покажут, как именно они это сделали — от источников данных до финальных дашбордов. Кейсы собрали разнообразные: из ритейла, финансов, госсектора и фармы.

Также — доклад команды DataLens о развитии платформы, Q&A по техническим деталям и нетворк.

Для кого: data engineers, analytics engineers, BI-разработчики и лиды, отвечающие за инфраструктуру данных.

🔗 Регистрация по ссылке.

Читать полностью…

Инжиниринг Данных

Я тут видео хотел записать про наш вебинар, но телефон все время падал, но идею передал:) присоединяйтесь и в конце смогу ответить на ваши вопросы на любую тему 🛸

Читать полностью…

Инжиниринг Данных

В понедельник, 13 апреля в 8:00 (МСК) проведём совместный эфир с Яной Тимохиной.

Поговорим на ооочень важную тему👇

🔥Выгорание: как распознать вовремя и не сгореть

Обсудим:
— Что такое выгорание на самом деле
— Личный опыт Димы Аношина (как это ощущается изнутри)
— Основные симптомы, которые многие игнорируют
— Причины: почему это происходит даже у «успешных»
— Стадии выгорания — как не довести до крайности
— Как отличить выгорание от усталости или депрессии
— Что делать, чтобы помочь себе и восстановиться

Вам точно на эфир, если вы:
— чувствуете усталость, которая не проходит
— теряете интерес к работе или жизни
— много делаете, но не чувствуете отдачи

Про Яну:
— Бизнес-психолог
— Сертифицированный коуч
— Карьерный консультант
— Еx-HR в международной компании

📍Эфир пройдет в ZOOM
⏱ Продолжительность: ~1 час

Ссылка на Zoom:
https://us06web.zoom.us/j/87588523656?pwd=5xnE1Cp6Uwad4j8dcoDIIjH60qhAZg.1

Идентификатор конференции: 875 8852 3656
Код доступа: 581962

Пишите ваши вопросы в комментариях 🙂

До встречи!

Читать полностью…

Инжиниринг Данных

Ducklake демо репозиторий https://github.com/jeff-skoldberg-gmds/ducklake-demo

Отличное и простое решение, главное не дорогое.

Читать полностью…

Инжиниринг Данных

О как бывает! Хотя проблема конечно была в том, что быстро бюджет кончился и новых денег не появилось, на новую стратегию и миграцию.

Мы тут не по мелочам размениваться пришли, а строим production ready AI аналитические решения на Big Data, да еще real time streaming.

Они дорогие, требует много времени. И вообще это очень престижно иметь в компании lakehouse и AI агентов!

Собственнику надо было еще подождать месяцев 18, чтобы наверняка оценить результат!

Читать полностью…

Инжиниринг Данных

На рынке BI инструментов появился новый игрок про который я слышу все чаще Omni. У них как раз уже был раунд.

Использовали? У нас хотят в одном месте с Sigma BI на Omni пересесть, авось проблема с subscription metrics решиться там сама собой:)

Читать полностью…

Инжиниринг Данных

Так как компании активно бросились на внедрение AI, то ушлые менеджеры решили, что надо отслеживать KPI - потребление токенов.

Есть такое явление - «Эффект Кобры» (Cobra Effect) или Закон Гудхарта: «Когда метрика становится целью, она перестаёт быть хорошей метрикой».

Есть даже яркие примеры из истории (спасибо ИИ):

Кобры в Индии (Британская колония)
Правительство предложило вознаграждение за каждую убитую кобру. Местные жители начали разводить кобр ради денег. Когда программу отменили — бreeders выпустили всех змей на волю. Популяция кобр выросла.

Советская плановая экономика
Классический масштабный пример. Заводам давали план в тоннах — делали максимально тяжёлые изделия. Давали план в штуках — делали максимально маленькие и лёгкие. Менеджеры занижали реальные мощности, чтобы получить выполнимый план, и скрывали запасы. Экономист Янош Корнаи в книге Economics of Shortage (1980) детально описал, как вся система планирования систематически порождала поведение, которое выполняло метрику, но разрушало реальную цель.

Колл-центры
Классика корпоративного мира: KPI на количество обработанных звонков в час → сотрудники начинают сбрасывать сложные звонки, чтобы брать больше простых. Или звонок «принимается» мгновенно (метрика выполнена), но клиент 10 минут слушает музыку в ожидании.

Wells Fargo (2002–2016)
Сотрудникам банка ставили KPI на количество открытых счетов на одного клиента (cross-sell ratio). Под угрозой увольнения они открыли ~3.5 миллиона фиктивных счетов без ведома клиентов. Метрика показывала рост — реальные отношения с клиентами разрушались. Банк выплатил штрафов на $3 млрд, CEO ушёл в отставку.


Таких примеров много в корпоративном мире. Руководство любит придумать новые метрики эффективности, и сотрудники быстро адаптируются и фокусируются на этих метриках. Очевидно, они никак не влияют на качество и на конечный результат.

Вот сейчас мы активно переживаем фазу внедрения ИИ эффективности. История с месенджарами точно такая же, как и история про альтернативные методы подключения к интернету🏴‍☠️.

Возвращаемся к ИИ. Термин называется tokenmaxxing - это практика, при которой разработчики искусственно раздувают потребление токенов (единиц обработки данных в AI-моделях) ради карьерных выгод: попадания в рейтинги, признания или защиты своей должности.

Хотя большинство все равно еще не используют ИИ🛌

Читать полностью…

Инжиниринг Данных

Иногда обучение — это первый шаг к уровню, где тебя зовут в топовые компании

Школа анализа данных от Яндекса — двухлетняя бесплатная программа по ML, Data Science, ИИ и большим данным.
Фундаментальная подготовка и задачи из индустрии.

Что получишь:

→ Глубокую теорию + практику на реальных задачах Яндекса
→ Обучение у экспертов, которые делают продукты, а не читают слайды
→ Сильное комьюнити

Два трека поступления: классический (3 этапа) и альтернативный — для тех, у кого уже есть опыт. Форматы: офлайн, гибрид и онлайн.

Подать заявку можно по ссылке до 3 мая

Читать полностью…

Инжиниринг Данных

Как понять, что в компании, где вы работаете проблема?

Достаточно просто:
• Начинают отслеживать вашу активность, сколько часов вы онлайн, сколько митингов провели и тп
• Каждую неделю каждая команда должна писать детальный отчет о том, что было сделано
• Вы перестаёте понимать, как ваша работа влияет на успех компании - и никто вокруг тоже не понимает.
• Инженерные задачки оторваны от потребностей бизнеса (миграции, новый инструменты и подходы)
• Постоянные реорганизации и смена приоритетов каждые 2–3 месяца
• Митинги ради митингов - встречи без повестки и без итогов
• Решения принимаются месяцами, но никто не несёт за них ответственности
• Культура страха - никто не говорит о проблемах вслух
• Технический долг растёт, но на него никогда нет времени

Такое чаще в больших компаниях. Как правило раз в год компании нужна свежая кровь, поэтому есть раунды увольнений. Но главную причину никогда не решают.

В стартапах тоже такое бывает, но там сложней долго создавать видимость, ведь run time короткий. Из-за этого все может быть еще хуже.

Все это ведет к выгорянию, отсутствую job security, стрессу. Ведь проблемы в компании и в культуре компании будут влиять на вашу эффективность. Поэтому всегда нужно шопиться на рынке вакансий и компаний, чтобы найти то место, где вам будет комфортно.

Читать полностью…

Инжиниринг Данных

Аналитика, DWH и OLAP-нагрузки растут, и базы начинают упираться в дисковую подсистему…

Для таких задач Selectel добавили новую конфигурацию Mega в базы данных на выделенных облачных серверах. Это кластер объёмом до 27,1 ТБ, приватной сетью 10 Гбит/с и производительностью до 1,5 млн IOPS.

Хороший вариант для высоконагруженных и масштабируемых систем, где важна физическая изоляция данных. По стоимости выходит до 47% дешевле, чем стандартные DBaaS-решения.

Протестируйте бесплатно, до 30 000 бонусных рублей на запуск — по ссылке: https://slc.tl/xwc1h

Реклама. АО "Селектел". erid:2W5zFGj3Mkd

Читать полностью…

Инжиниринг Данных

Исследование про облачную инфраструктуру в работе с данными

Apple Hills Digital проводит опрос среди data engineers, аналитиков и специалистов, работающих с данными.

Цель — понять, как сегодня выстраивается инфраструктура под data-задачи:

— какие облачные платформы и сервисы используются (хранилища, compute, managed DB)
— как организованы пайплайны и обработка данных
— как оцениваются производительность, масштабируемость и надежность решений

Заполните анкету* — участие также дает шанс выиграть iPhone

* Принимая участие в опросе Вы становитесь участником розыгрыша под наименованием «Если ты работаешь в IT, пройди опрос и выиграй iPhone 17 Pro». Информация об организаторе розыгрыша, сроках проведения, правилах проведения розыгрыша, количестве призов, сроках, месте, порядке получения призов размещена по ссылке

Читать полностью…

Инжиниринг Данных

Самое любимое в процессе книго-писания - это получить обложку со своим именем. Коллег писателей поздравляю.

Я даже не знаю какая эта книга по счету - 9ая? 10ая?

Как говориться больше 2х уже не имеет значение.

Я думаю это последняя книга у меня. И в целом технические книги проигрывают AI ассистентам.

Все еще ценны советы экспертов и видео уроки, где можно понять общую идею (system design) и дальше уже раскрутить ее с AI и понять как построить.

Все-таки на человека приятней смотреть и слушать.

Дальше, уже нужно получать патенты в области космических изобретений😎

Читать полностью…

Инжиниринг Данных

Запись нашего разговора про выгорание, как его распознать и как с ним бороться. https://youtu.be/vmjZgpMFrUo

Читать полностью…

Инжиниринг Данных

Модель вашей жизни

Иван Крутко сделал хорошее интервью.

Важная мысль -- мы не объекты, мы субъекты своей жизни.
Плохо получится само, над хорошим надо работать.

Я искренне поделился своими мыслями

О предпринимательстве и бизнесе. Как предпринимателям проверять жизнеспособность своих идей? Стоит ли давать второй шанс убыточным проектам? Что делает проекты успешными — интуиция или удача?

Об инвестициях. И здесь не только про финансы. Регулярный спорт и тренировки — это тоже инвестиции в свою энергию, здоровье и дисциплину, которые прямо влияют на продуктивность.

О жизни в релокации, хобби и планах на будущее.

https://www.youtube.com/watch?v=w-gRLhyNfz4

Читать полностью…

Инжиниринг Данных

До сих пор разворачиваете PostgreSQL вручную?

Сэкономьте силы для задач разработки.

21 апреля в 16:00 (мск)
пройдёт вебинар от MWS Cloud Platform, где эксперты компании расскажут, как получить готовую базу для бэкенда за несколько минут.

Что будет в эфире:

⚫️️️ облачный PostgreSQL: плюсы/минусы решения;
⚫️️️ как устроен управляемый сервис в новом облаке от MWS Cloud;
⚫️️️ машинерия под капотом бэкапов, автообновлений, switch и failover;
⚫️️️ создадим кластер за несколько минут и настроим подключение.

Вебинар будет интересен администраторам баз данных (DBA), бэкенд-разработчикам, DevOps- и SRE-инженерам, техническим лидам и архитекторам, владельцам продуктов и стартапам.

Зарегистрироваться

Читать полностью…

Инжиниринг Данных

Кто не приходил в зум, многое пропустил🫣🤯
Давайте продолжим в meet

Update: ссылку убрал.

Читать полностью…

Инжиниринг Данных

Сылка https://calendar.app.google/Tuhj6ZCRtKgEPKi9A чтобы добавить в календарь

Читать полностью…

Инжиниринг Данных

Когда нет особых новостей и инноваций, то можно просто переименовывать решения.

Looker Studio переименовывается обратно в Data Studio — возвращение к «любимому и знакомому» названию.

Data Studio становится единым местом для работы с активами Google Data Cloud: отчёты, разговорные агенты BigQuery, приложения из Colab-ноутбуков.

• Data Studio — инструмент для личного исследования данных: быстрые ad-hoc отчёты, визуализация данных из BigQuery, Google Sheets, Google Ads.
• Looker — остаётся корпоративной BI-платформой с управляемой семантической моделью и агентными возможностями.

Читать полностью…

Инжиниринг Данных

Компании бывают разные - кто-то тихо и усердно работает, а кто-то хайпует, собирает лайки, реакции, раунды инвестиций и растет.

Один из самых крутых стартапов в этой области это Artisan. Они еще давно вешали плакаты в Сан Франциско - “Stop hiring people”.

В этот раз они прям реально отожгли - она наняли на работу Jordan Belfort на позицию VP оf sales. Того самого Волка с Wall Street. И записал крутые рекламы - The Wolf of Wall Street vs. Ava 2.0 | The Sell-Off Возможно он там временно, как первоапрельская шутка.

Они как-то предлагали им написать и рассказать о себе, чтобы устроиться к ним на работу. Вместо резюме я им отправил себя сидящего на крыше гелика с шампанским. Ответа не получил=)

Читать полностью…

Инжиниринг Данных

Обожаю ситуации, когда приходит новый консалтинг бутик и начинает учить как надо делать data warehouse.

И что же они предлагают - модернизацию аналитики! В стартапе, где и так все новое и модернизированное=)

• внедрить orchestration tool (Dagster). Почему Dagster? Зачем? Почему понятно - у них есть экспертиза. Внедрение тулов и миграции это круто, особенно с AI.
• добавить CI/CD (куда? Зачем?)
• data governance (почему и для кого?)

То есть любой консалт готов день и ночь писать код (генерить код) и показывать эффективность в PRs, tickets, sprints и тп. Как будто в этом ценность. А для VP ролей это нормально, в их понимании все плохо, бизнес не до получает инсайтов и вот придет консалтинг и все сделает=)

Для надежности они открыли роль на Manager Data Analytics. На мой вопрос, почему менеджер? У нас нет ни одного аналитика, они сказали, что manager это, как бы, experienced senior аналитик.

В общем меня сейчас научат, как надо! А я с вами поделюсь!🏆

Читать полностью…
Subscribe to a channel