23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Изучаем машинное обучение всё лето: Яндекс приглашает в Летний кампус ML-Академии
Познакомьтесь с трендами ML‑индустрии и получите прикладной опыт в московском офисе Яндекса.
3 месяца студенты и начинающие ML-спецы будут работать совместно с экспертами из Яндекса над задачами по компьютерному зрению, обработке естественного языка, рекомендательным системам, LLM и другим ML-направлениям. В конце обучения участников ждет выпускной.
Обучение бесплатное, участникам из других городов Яндекс оплачивает переезд и проживание. А еще это хороший шанс начать карьеру: лучших выпускников Академии пригласят на стажировку.
Подать заявку можно тут.
Последние несколько недель я познакомил пару человек с Claude Code. До этого они использовали AI на уровне “спросить ChatGPT”. Так как они далеки от традиционного ИТ, для них это было большим открытием и они смогли быстро реализовать свои идеи.
Делюсь видео от товарища, которое он мне скинул на днях. Он талантливый инженер и изобретатель и в его руках Claude Code это мощь.
Еще одно преимущество использования git и строить аналитические решения как код. То есть сохранять в репо все изменения. Даже если вы делаете ad-hoc вещи и отчеты.
Пример - к вам приходит босс и говорит, напиши мне, что ты сделал в Q1 и что будешь делать в Q2.
Я могу попросить AI агента (Claude, cursor, и тп) посмотреть историю комитов и написать, что я делал и зачем(придумать с поправкой на бизнес смысл). Дополнительно мы можем через MCP сходить в Jira, Confluence и тп, и найти наши тикеты, документы и тп. Мало? Можно в MCP slack пойти, и взять всю переписку.
Классный бесплатный курс https://opencode.school/
Читать полностью…
Лучший способ экономить на токенах. Да еще можно людям помочь карьеру устроить.
Объединяйтесь против машин и берите на работу junior!
Я провел следующую часть воркшопа про Data Ingestion Patterns | Part 2- в нем добавил другой метод создания AWS Lambda, рассмотрели AWS Batch, AWS ECR (container registry) и AWS ECS (Container Service). Как обычно использовали Claude Code и Infra as a Code с AWS Cloud Formation. Много рассуждение про использование этих решений на реальных проектах.
Концепт очень простой - у нас есть Python файл, который скачивает данные по GitHub API и мы его переиспользуем разными методами. План рассмотреть все возможности AWS для batch и streaming и потом повторить для Azure и GCP.
Первая часть - Data Ingestions Patterns | Part 1 - я начал серию видео для System Design DE по подходу от простому к сложному, где мы загружаем данные из API в базу 10ью разными способами. Пока только 1/7 покрыл, потратил много времени на разговоры про security, infra as a code, evn variables и как сразу делать правильно. Сразу гонял Cursor Agent и Claude и видно насколько Cursor тупее Claude, зато дешевле.
23 апреля в Санкт-Петербурге пройдет вечерний митап для аналитиков — Analytics Party.
Присоединяйтесь, чтобы вместе с экспертами поговорить о решениях сложных продуктовых и исследовательских задач — от оценки безопасности автопилота до экспериментов без A/B-тестов.
В программе докладов:
— «Сакральные тайны сбора датасетов для симуляции автономного транспорта». Елмурат Темиргалиев (команда автономного транспорта, Яндекс) расскажет, как они объединяют реальные и синтетические данные, чтобы получать доверительные выводы о безопасности.
— «На что способны ИИ-агенты в аналитике». Иван Меренков (Data AI Lab, Яндекс) покажет, как собрать систему из ИИ-агентов под свои задачи.
— «Propensity score matching: как строить аналоги A/B-тестов, когда эксперименты невозможны». Николай Олигеров (Яндекс Путешествия) разберет статистический метод Propensity Score Matching.
Зарегистрироваться и посмотреть полную программу выступлений можно на сайте.
Дата-инженер, пора на прокачку
Если хотите в 2026 не просто “поддерживать пайплайны”, а лучше понимать архитектуру, ускорять разработку и принимать более сильные технические решения — регистрируйтесь на серию вебинаров от команды Дата-сервисов VK Tech.
🦾 В одной серии — сразу 3 практических вебинара:
20 апреля — ClickHouse в 2026: сценарии, сильные стороны, лучшие практики
20 мая — Наш опыт построения Lakehouse: ошибки и выводы 2025
10 июня — Вайбкодинг в data engineering: как ускоряться, не ломая прод
🏆 Кому будет полезно:
Дата-инженерам, senior-аналитикам, архитекторам данных, руководителям дата-платформ и всем, кто строит или развивает контур аналитики, BI и ML.
💪 В чем можно прокачаться:
— понять, где ClickHouse реально силен, а где его не стоит ставить “по умолчанию”
— разобраться, как грамотно использовать ClickHouse в DWH и Lakehouse-архитектуре
— увидеть типовые ошибки при построении Lakehouse и не повторять их у себя
— лучше понять связку S3 + Iceberg + Trino / Spark / ClickHouse
— разобраться, где ИИ помогает в data engineering, а где создает риск для качества и прода
— ускорить разработку SQL, ETL/ELT и витрин без потери контроля
💸💸💸 Дополнительный мотив зарегистрироваться:
Получить бонусные рубли для тестирования ClickHouse и Lakehouse в VK Cloud.
📢 Спикер:
Алексей Белозерский, руководитель профессионального сервиса VK Data Platform, VK Tech.
Ведет Telegram-канал «Архитектор Данных» — там про архитектуру данных, внедрение ИИ, аналитику. Подписаться на канал Алексея.
✍️ Зарегистрироваться на вебинары:
ClickHouse
Lakehouse
Вайбкодинг
Подписаться, чтобы не пропускать новые материалы и анонсы:
👉 Данные на стероидах — Telegram-канал команды Дата сервисы VK Tech о практиках и подходах для извлечения максимальной пользы из работы с данными. Подписаться на канал.
Андрей Карпатый разделяет пользователей на 2 группы
Первая проблема, на мой взгляд, — это актуальность и уровень использования. Думаю, многие попробовали бесплатный тариф ChatGPT где-то в прошлом году и позволили этому опыту слишком сильно повлиять на их взгляды на ИИ. Это группа людей, которые смеются над различными причудами моделей, галлюцинациями и т. д. Да, я тоже видел вирусные видео, где расширенный голосовой режим OpenAI тупит на простых вопросах вроде «мне лучше доехать до автомойки или дойти пешком». Дело в том, что эти бесплатные и устаревшие/снятые с поддержки модели не отражают возможностей новейшего поколения передовых агентных моделей этого года — в особенности OpenAI Codex и Claude Code.
Но это подводит меня ко второй проблеме. Даже если люди платят 200 долларов в месяц за использование передовых моделей, многие из их возможностей относительно «точечны» в узкотехнических областях. Типичные запросы — поиск, написание текстов, советы и т. п. — это не те области, в которых произошли наиболее заметные и драматические скачки в возможностях. Отчасти это связано с техническими особенностями обучения с подкреплением и использованием верифицируемых наград. Но отчасти и потому, что эти сценарии использования недостаточно приоритизированы компаниями в их гонке за улучшениями, поскольку не приносят столько денег. Золотые жилы находятся в другом месте, и фокус внимания смещается туда.
Это подводит меня ко второй группе людей, которые одновременно 1) платят за и используют передовые агентные модели (OpenAI Codex / Claude Code) и 2) делают это профессионально в технических областях — программировании, математике и исследованиях. Именно эта группа людей в наибольшей степени подвержена «ИИ-психозу», потому что недавние улучшения в этих областях в этом году были просто ошеломляющими. Когда вы даёте одной из этих моделей доступ к терминалу, вы можете наблюдать, как она разбирается с задачами программирования, на которые обычно ушли бы дни или недели работы. Именно эта вторая группа людей придаёт гораздо большее значение возможностям моделей, их темпу роста и различным последствиям в сфере кибербезопасности.
TLDR: Люди из этих двух групп просто говорят на разных языках. Это действительно одновременно так: бесплатный и, думаю, слегка заброшенный (?) «Расширенный голосовой режим» OpenAI будет тупить на самых глупых вопросах в вашем Instagram Reels — и в то же самое время платный Codex от OpenAI высшего уровня будет час за часом методично переструктурировать целую кодовую базу или находить и эксплуатировать уязвимости в компьютерных системах. Это действительно работает и сделало драматический скачок благодаря двум свойствам: 1) эти области предлагают явные функции вознаграждения, которые поддаются верификации, а значит, хорошо поддаются обучению с подкреплением (например, пройдены ли юнит-тесты — да или нет, в отличие от написания текстов, качество которых гораздо сложнее оценить объективно), но также 2) они значительно ценнее в B2B-сегменте, а значит, наибольшая часть команды сосредоточена на их улучшении. Вот где мы сейчас находимся.
21 апреля пройдет митап «Лаборатория решений DataLens» — офлайн-встреча про BI и аналитику данных
📍 Москва, Loft Hall (Avantage)
🕓 Сбор с 16:30, старт в 17:00
Формат: бизнес-команды заранее поделились своими задачи, а эксперты из p Навикон, КОРУС Консалтинг, Смарт-Аналитикс и SQEEL реализовали решения на базе BI. На встрече покажут, как именно они это сделали — от источников данных до финальных дашбордов. Кейсы собрали разнообразные: из ритейла, финансов, госсектора и фармы.
Также — доклад команды DataLens о развитии платформы, Q&A по техническим деталям и нетворк.
Для кого: data engineers, analytics engineers, BI-разработчики и лиды, отвечающие за инфраструктуру данных.
🔗 Регистрация по ссылке.
Я тут видео хотел записать про наш вебинар, но телефон все время падал, но идею передал:) присоединяйтесь и в конце смогу ответить на ваши вопросы на любую тему 🛸
Читать полностью…
В понедельник, 13 апреля в 8:00 (МСК) проведём совместный эфир с Яной Тимохиной.
Поговорим на ооочень важную тему👇
🔥Выгорание: как распознать вовремя и не сгореть
Обсудим:
— Что такое выгорание на самом деле
— Личный опыт Димы Аношина (как это ощущается изнутри)
— Основные симптомы, которые многие игнорируют
— Причины: почему это происходит даже у «успешных»
— Стадии выгорания — как не довести до крайности
— Как отличить выгорание от усталости или депрессии
— Что делать, чтобы помочь себе и восстановиться
Вам точно на эфир, если вы:
— чувствуете усталость, которая не проходит
— теряете интерес к работе или жизни
— много делаете, но не чувствуете отдачи
Про Яну:
— Бизнес-психолог
— Сертифицированный коуч
— Карьерный консультант
— Еx-HR в международной компании
📍Эфир пройдет в ZOOM
⏱ Продолжительность: ~1 час
Ссылка на Zoom:
https://us06web.zoom.us/j/87588523656?pwd=5xnE1Cp6Uwad4j8dcoDIIjH60qhAZg.1
Идентификатор конференции: 875 8852 3656
Код доступа: 581962
Пишите ваши вопросы в комментариях 🙂
До встречи!
Ducklake демо репозиторий https://github.com/jeff-skoldberg-gmds/ducklake-demo
Отличное и простое решение, главное не дорогое.
О как бывает! Хотя проблема конечно была в том, что быстро бюджет кончился и новых денег не появилось, на новую стратегию и миграцию.
Мы тут не по мелочам размениваться пришли, а строим production ready AI аналитические решения на Big Data, да еще real time streaming.
Они дорогие, требует много времени. И вообще это очень престижно иметь в компании lakehouse и AI агентов!
Собственнику надо было еще подождать месяцев 18, чтобы наверняка оценить результат!
На рынке BI инструментов появился новый игрок про который я слышу все чаще Omni. У них как раз уже был раунд.
Использовали? У нас хотят в одном месте с Sigma BI на Omni пересесть, авось проблема с subscription metrics решиться там сама собой:)
Так как компании активно бросились на внедрение AI, то ушлые менеджеры решили, что надо отслеживать KPI - потребление токенов.
Есть такое явление - «Эффект Кобры» (Cobra Effect) или Закон Гудхарта: «Когда метрика становится целью, она перестаёт быть хорошей метрикой».
Есть даже яркие примеры из истории (спасибо ИИ):
Кобры в Индии (Британская колония)
Правительство предложило вознаграждение за каждую убитую кобру. Местные жители начали разводить кобр ради денег. Когда программу отменили — бreeders выпустили всех змей на волю. Популяция кобр выросла.
Советская плановая экономика
Классический масштабный пример. Заводам давали план в тоннах — делали максимально тяжёлые изделия. Давали план в штуках — делали максимально маленькие и лёгкие. Менеджеры занижали реальные мощности, чтобы получить выполнимый план, и скрывали запасы. Экономист Янош Корнаи в книге Economics of Shortage (1980) детально описал, как вся система планирования систематически порождала поведение, которое выполняло метрику, но разрушало реальную цель.
Колл-центры
Классика корпоративного мира: KPI на количество обработанных звонков в час → сотрудники начинают сбрасывать сложные звонки, чтобы брать больше простых. Или звонок «принимается» мгновенно (метрика выполнена), но клиент 10 минут слушает музыку в ожидании.
Wells Fargo (2002–2016)
Сотрудникам банка ставили KPI на количество открытых счетов на одного клиента (cross-sell ratio). Под угрозой увольнения они открыли ~3.5 миллиона фиктивных счетов без ведома клиентов. Метрика показывала рост — реальные отношения с клиентами разрушались. Банк выплатил штрафов на $3 млрд, CEO ушёл в отставку.
Таких примеров много в корпоративном мире. Руководство любит придумать новые метрики эффективности, и сотрудники быстро адаптируются и фокусируются на этих метриках. Очевидно, они никак не влияют на качество и на конечный результат.
Вот сейчас мы активно переживаем фазу внедрения ИИ эффективности. История с месенджарами точно такая же, как и история про альтернативные методы подключения к интернету🏴☠️.
Возвращаемся к ИИ. Термин называется tokenmaxxing - это практика, при которой разработчики искусственно раздувают потребление токенов (единиц обработки данных в AI-моделях) ради карьерных выгод: попадания в рейтинги, признания или защиты своей должности.
Хотя большинство все равно еще не используют ИИ🛌
Иногда обучение — это первый шаг к уровню, где тебя зовут в топовые компании
Школа анализа данных от Яндекса — двухлетняя бесплатная программа по ML, Data Science, ИИ и большим данным.
Фундаментальная подготовка и задачи из индустрии.
Что получишь:
→ Глубокую теорию + практику на реальных задачах Яндекса
→ Обучение у экспертов, которые делают продукты, а не читают слайды
→ Сильное комьюнити
Два трека поступления: классический (3 этапа) и альтернативный — для тех, у кого уже есть опыт. Форматы: офлайн, гибрид и онлайн.
Подать заявку можно по ссылке до 3 мая
Как понять, что в компании, где вы работаете проблема?
Достаточно просто:
• Начинают отслеживать вашу активность, сколько часов вы онлайн, сколько митингов провели и тп
• Каждую неделю каждая команда должна писать детальный отчет о том, что было сделано
• Вы перестаёте понимать, как ваша работа влияет на успех компании - и никто вокруг тоже не понимает.
• Инженерные задачки оторваны от потребностей бизнеса (миграции, новый инструменты и подходы)
• Постоянные реорганизации и смена приоритетов каждые 2–3 месяца
• Митинги ради митингов - встречи без повестки и без итогов
• Решения принимаются месяцами, но никто не несёт за них ответственности
• Культура страха - никто не говорит о проблемах вслух
• Технический долг растёт, но на него никогда нет времени
Такое чаще в больших компаниях. Как правило раз в год компании нужна свежая кровь, поэтому есть раунды увольнений. Но главную причину никогда не решают.
В стартапах тоже такое бывает, но там сложней долго создавать видимость, ведь run time короткий. Из-за этого все может быть еще хуже.
Все это ведет к выгорянию, отсутствую job security, стрессу. Ведь проблемы в компании и в культуре компании будут влиять на вашу эффективность. Поэтому всегда нужно шопиться на рынке вакансий и компаний, чтобы найти то место, где вам будет комфортно.
Аналитика, DWH и OLAP-нагрузки растут, и базы начинают упираться в дисковую подсистему…
Для таких задач Selectel добавили новую конфигурацию Mega в базы данных на выделенных облачных серверах. Это кластер объёмом до 27,1 ТБ, приватной сетью 10 Гбит/с и производительностью до 1,5 млн IOPS.
Хороший вариант для высоконагруженных и масштабируемых систем, где важна физическая изоляция данных. По стоимости выходит до 47% дешевле, чем стандартные DBaaS-решения.
Протестируйте бесплатно, до 30 000 бонусных рублей на запуск — по ссылке: https://slc.tl/xwc1h
Реклама. АО "Селектел". erid:2W5zFGj3Mkd
Исследование про облачную инфраструктуру в работе с данными
Apple Hills Digital проводит опрос среди data engineers, аналитиков и специалистов, работающих с данными.
Цель — понять, как сегодня выстраивается инфраструктура под data-задачи:
— какие облачные платформы и сервисы используются (хранилища, compute, managed DB)
— как организованы пайплайны и обработка данных
— как оцениваются производительность, масштабируемость и надежность решений
Заполните анкету* — участие также дает шанс выиграть iPhone
* Принимая участие в опросе Вы становитесь участником розыгрыша под наименованием «Если ты работаешь в IT, пройди опрос и выиграй iPhone 17 Pro». Информация об организаторе розыгрыша, сроках проведения, правилах проведения розыгрыша, количестве призов, сроках, месте, порядке получения призов размещена по ссылке
Самое любимое в процессе книго-писания - это получить обложку со своим именем. Коллег писателей поздравляю.
Я даже не знаю какая эта книга по счету - 9ая? 10ая?
Как говориться больше 2х уже не имеет значение.
Я думаю это последняя книга у меня. И в целом технические книги проигрывают AI ассистентам.
Все еще ценны советы экспертов и видео уроки, где можно понять общую идею (system design) и дальше уже раскрутить ее с AI и понять как построить.
Все-таки на человека приятней смотреть и слушать.
Дальше, уже нужно получать патенты в области космических изобретений😎
Запись нашего разговора про выгорание, как его распознать и как с ним бороться. https://youtu.be/vmjZgpMFrUo
Читать полностью…
Модель вашей жизни
Иван Крутко сделал хорошее интервью.
Важная мысль -- мы не объекты, мы субъекты своей жизни.
Плохо получится само, над хорошим надо работать.
Я искренне поделился своими мыслями
О предпринимательстве и бизнесе. Как предпринимателям проверять жизнеспособность своих идей? Стоит ли давать второй шанс убыточным проектам? Что делает проекты успешными — интуиция или удача?
Об инвестициях. И здесь не только про финансы. Регулярный спорт и тренировки — это тоже инвестиции в свою энергию, здоровье и дисциплину, которые прямо влияют на продуктивность.
О жизни в релокации, хобби и планах на будущее.
https://www.youtube.com/watch?v=w-gRLhyNfz4
До сих пор разворачиваете PostgreSQL вручную?
Сэкономьте силы для задач разработки.
21 апреля в 16:00 (мск) пройдёт вебинар от MWS Cloud Platform, где эксперты компании расскажут, как получить готовую базу для бэкенда за несколько минут.
Что будет в эфире:
⚫️️️ облачный PostgreSQL: плюсы/минусы решения;
⚫️️️ как устроен управляемый сервис в новом облаке от MWS Cloud;
⚫️️️ машинерия под капотом бэкапов, автообновлений, switch и failover;
⚫️️️ создадим кластер за несколько минут и настроим подключение.
Вебинар будет интересен администраторам баз данных (DBA), бэкенд-разработчикам, DevOps- и SRE-инженерам, техническим лидам и архитекторам, владельцам продуктов и стартапам.
Зарегистрироваться
Кто не приходил в зум, многое пропустил🫣🤯
Давайте продолжим в meet
Update: ссылку убрал.
Сылка https://calendar.app.google/Tuhj6ZCRtKgEPKi9A чтобы добавить в календарь
Читать полностью…
Когда нет особых новостей и инноваций, то можно просто переименовывать решения.
Looker Studio переименовывается обратно в Data Studio — возвращение к «любимому и знакомому» названию.
Data Studio становится единым местом для работы с активами Google Data Cloud: отчёты, разговорные агенты BigQuery, приложения из Colab-ноутбуков.
• Data Studio — инструмент для личного исследования данных: быстрые ad-hoc отчёты, визуализация данных из BigQuery, Google Sheets, Google Ads.
• Looker — остаётся корпоративной BI-платформой с управляемой семантической моделью и агентными возможностями.
Компании бывают разные - кто-то тихо и усердно работает, а кто-то хайпует, собирает лайки, реакции, раунды инвестиций и растет.
Один из самых крутых стартапов в этой области это Artisan. Они еще давно вешали плакаты в Сан Франциско - “Stop hiring people”.
В этот раз они прям реально отожгли - она наняли на работу Jordan Belfort на позицию VP оf sales. Того самого Волка с Wall Street. И записал крутые рекламы - The Wolf of Wall Street vs. Ava 2.0 | The Sell-Off Возможно он там временно, как первоапрельская шутка.
Они как-то предлагали им написать и рассказать о себе, чтобы устроиться к ним на работу. Вместо резюме я им отправил себя сидящего на крыше гелика с шампанским. Ответа не получил=)
Обожаю ситуации, когда приходит новый консалтинг бутик и начинает учить как надо делать data warehouse.
И что же они предлагают - модернизацию аналитики! В стартапе, где и так все новое и модернизированное=)
• внедрить orchestration tool (Dagster). Почему Dagster? Зачем? Почему понятно - у них есть экспертиза. Внедрение тулов и миграции это круто, особенно с AI.
• добавить CI/CD (куда? Зачем?)
• data governance (почему и для кого?)
То есть любой консалт готов день и ночь писать код (генерить код) и показывать эффективность в PRs, tickets, sprints и тп. Как будто в этом ценность. А для VP ролей это нормально, в их понимании все плохо, бизнес не до получает инсайтов и вот придет консалтинг и все сделает=)
Для надежности они открыли роль на Manager Data Analytics. На мой вопрос, почему менеджер? У нас нет ни одного аналитика, они сказали, что manager это, как бы, experienced senior аналитик.
В общем меня сейчас научат, как надо! А я с вами поделюсь!🏆