23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Дата-инженер, пора на прокачку
Если хотите в 2026 не просто “поддерживать пайплайны”, а лучше понимать архитектуру, ускорять разработку и принимать более сильные технические решения — регистрируйтесь на серию вебинаров от команды Дата-сервисов VK Tech.
🦾 В одной серии — сразу 3 практических вебинара:
20 апреля — ClickHouse в 2026: сценарии, сильные стороны, лучшие практики
20 мая — Наш опыт построения Lakehouse: ошибки и выводы 2025
10 июня — Вайбкодинг в data engineering: как ускоряться, не ломая прод
🏆 Кому будет полезно:
Дата-инженерам, senior-аналитикам, архитекторам данных, руководителям дата-платформ и всем, кто строит или развивает контур аналитики, BI и ML.
💪 В чем можно прокачаться:
— понять, где ClickHouse реально силен, а где его не стоит ставить “по умолчанию”
— разобраться, как грамотно использовать ClickHouse в DWH и Lakehouse-архитектуре
— увидеть типовые ошибки при построении Lakehouse и не повторять их у себя
— лучше понять связку S3 + Iceberg + Trino / Spark / ClickHouse
— разобраться, где ИИ помогает в data engineering, а где создает риск для качества и прода
— ускорить разработку SQL, ETL/ELT и витрин без потери контроля
💸💸💸 Дополнительный мотив зарегистрироваться:
Получить бонусные рубли для тестирования ClickHouse и Lakehouse в VK Cloud.
📢 Спикер:
Алексей Белозерский, руководитель профессионального сервиса VK Data Platform, VK Tech.
Ведет Telegram-канал «Архитектор Данных» — там про архитектуру данных, внедрение ИИ, аналитику. Подписаться на канал Алексея.
✍️ Зарегистрироваться на вебинары:
ClickHouse
Lakehouse
Вайбкодинг
Подписаться, чтобы не пропускать новые материалы и анонсы:
👉 Данные на стероидах — Telegram-канал команды Дата сервисы VK Tech о практиках и подходах для извлечения максимальной пользы из работы с данными. Подписаться на канал.
Андрей Карпатый разделяет пользователей на 2 группы
Первая проблема, на мой взгляд, — это актуальность и уровень использования. Думаю, многие попробовали бесплатный тариф ChatGPT где-то в прошлом году и позволили этому опыту слишком сильно повлиять на их взгляды на ИИ. Это группа людей, которые смеются над различными причудами моделей, галлюцинациями и т. д. Да, я тоже видел вирусные видео, где расширенный голосовой режим OpenAI тупит на простых вопросах вроде «мне лучше доехать до автомойки или дойти пешком». Дело в том, что эти бесплатные и устаревшие/снятые с поддержки модели не отражают возможностей новейшего поколения передовых агентных моделей этого года — в особенности OpenAI Codex и Claude Code.
Но это подводит меня ко второй проблеме. Даже если люди платят 200 долларов в месяц за использование передовых моделей, многие из их возможностей относительно «точечны» в узкотехнических областях. Типичные запросы — поиск, написание текстов, советы и т. п. — это не те области, в которых произошли наиболее заметные и драматические скачки в возможностях. Отчасти это связано с техническими особенностями обучения с подкреплением и использованием верифицируемых наград. Но отчасти и потому, что эти сценарии использования недостаточно приоритизированы компаниями в их гонке за улучшениями, поскольку не приносят столько денег. Золотые жилы находятся в другом месте, и фокус внимания смещается туда.
Это подводит меня ко второй группе людей, которые одновременно 1) платят за и используют передовые агентные модели (OpenAI Codex / Claude Code) и 2) делают это профессионально в технических областях — программировании, математике и исследованиях. Именно эта группа людей в наибольшей степени подвержена «ИИ-психозу», потому что недавние улучшения в этих областях в этом году были просто ошеломляющими. Когда вы даёте одной из этих моделей доступ к терминалу, вы можете наблюдать, как она разбирается с задачами программирования, на которые обычно ушли бы дни или недели работы. Именно эта вторая группа людей придаёт гораздо большее значение возможностям моделей, их темпу роста и различным последствиям в сфере кибербезопасности.
TLDR: Люди из этих двух групп просто говорят на разных языках. Это действительно одновременно так: бесплатный и, думаю, слегка заброшенный (?) «Расширенный голосовой режим» OpenAI будет тупить на самых глупых вопросах в вашем Instagram Reels — и в то же самое время платный Codex от OpenAI высшего уровня будет час за часом методично переструктурировать целую кодовую базу или находить и эксплуатировать уязвимости в компьютерных системах. Это действительно работает и сделало драматический скачок благодаря двум свойствам: 1) эти области предлагают явные функции вознаграждения, которые поддаются верификации, а значит, хорошо поддаются обучению с подкреплением (например, пройдены ли юнит-тесты — да или нет, в отличие от написания текстов, качество которых гораздо сложнее оценить объективно), но также 2) они значительно ценнее в B2B-сегменте, а значит, наибольшая часть команды сосредоточена на их улучшении. Вот где мы сейчас находимся.
21 апреля пройдет митап «Лаборатория решений DataLens» — офлайн-встреча про BI и аналитику данных
📍 Москва, Loft Hall (Avantage)
🕓 Сбор с 16:30, старт в 17:00
Формат: бизнес-команды заранее поделились своими задачи, а эксперты из p Навикон, КОРУС Консалтинг, Смарт-Аналитикс и SQEEL реализовали решения на базе BI. На встрече покажут, как именно они это сделали — от источников данных до финальных дашбордов. Кейсы собрали разнообразные: из ритейла, финансов, госсектора и фармы.
Также — доклад команды DataLens о развитии платформы, Q&A по техническим деталям и нетворк.
Для кого: data engineers, analytics engineers, BI-разработчики и лиды, отвечающие за инфраструктуру данных.
🔗 Регистрация по ссылке.
Я тут видео хотел записать про наш вебинар, но телефон все время падал, но идею передал:) присоединяйтесь и в конце смогу ответить на ваши вопросы на любую тему 🛸
Читать полностью…
В понедельник, 13 апреля в 8:00 (МСК) проведём совместный эфир с Яной Тимохиной.
Поговорим на ооочень важную тему👇
🔥Выгорание: как распознать вовремя и не сгореть
Обсудим:
— Что такое выгорание на самом деле
— Личный опыт Димы Аношина (как это ощущается изнутри)
— Основные симптомы, которые многие игнорируют
— Причины: почему это происходит даже у «успешных»
— Стадии выгорания — как не довести до крайности
— Как отличить выгорание от усталости или депрессии
— Что делать, чтобы помочь себе и восстановиться
Вам точно на эфир, если вы:
— чувствуете усталость, которая не проходит
— теряете интерес к работе или жизни
— много делаете, но не чувствуете отдачи
Про Яну:
— Бизнес-психолог
— Сертифицированный коуч
— Карьерный консультант
— Еx-HR в международной компании
📍Эфир пройдет в ZOOM
⏱ Продолжительность: ~1 час
Ссылка на Zoom:
https://us06web.zoom.us/j/87588523656?pwd=5xnE1Cp6Uwad4j8dcoDIIjH60qhAZg.1
Идентификатор конференции: 875 8852 3656
Код доступа: 581962
Пишите ваши вопросы в комментариях 🙂
До встречи!
Ducklake демо репозиторий https://github.com/jeff-skoldberg-gmds/ducklake-demo
Отличное и простое решение, главное не дорогое.
О как бывает! Хотя проблема конечно была в том, что быстро бюджет кончился и новых денег не появилось, на новую стратегию и миграцию.
Мы тут не по мелочам размениваться пришли, а строим production ready AI аналитические решения на Big Data, да еще real time streaming.
Они дорогие, требует много времени. И вообще это очень престижно иметь в компании lakehouse и AI агентов!
Собственнику надо было еще подождать месяцев 18, чтобы наверняка оценить результат!
Semantic Layer vs. Text-to-SQL: 2026 Benchmark Update
В статье сравнили dbt Semantic Layer (YML документация о моделях и метриках) и LLM модели.
Очевидно, что LLM будет очень хорошо работать, если у нее будет правильный контекст и semantic layer это как раз и делает. Но и без SL уже модели хорошо сами все находят.
Качественная документация очень ценна и она поможет использовать AI более эффективно.
Сегодня в Microsoft Garage увидел классную аркаду. Я ее изучил и решил с детьми такую же построить.
Мы загрузили фотки в Claude Code и попросили его дать нам список частей.
Пока заказали hardware и попробуем все настроить. А дальше с товарищем сделаем корпус.
Всем привет, мне нужен дизайнер, чтобы сделать лого, цветовую палитру, ну может еще какую красоту навести придумать, плачу рублями или $.
Можете написать на почту, прислать портфолио + цену dima@playeronespace.com
Спасибо!
PS сегодня пришлось пожертвовать своим Linkedin - https://www.linkedin.com/in/dmitryanoshin/ , ведь так если подумать я там нашел работу только один раз в Dandy (стоматологический стартап, когда мне их дата босс написал) и это были худшие 3 месяца за 10 лет в Канаде и самая высокая зарплата + 1 месяц они подарили, чтобы я сильно не бухтел ☺️
ИИ все глубже встраивается в бизнес-аналитику — и это уже не эксперимент, а рабочий инструмент. По данным свежего исследования, каждый пятый корпоративный пользователь обращается к ИИ-агенту (нейроаналитику) за поиском бизнес-инсайтов.
На практике это выглядит так: 73% пользователей просят ИИ писать формулы, а 50% — объяснять графики. Причем не просто «что нарисовано», а с выявлением аномалий и проверкой гипотез на естественном языке. Это качественный сдвиг — BI перестает быть инструментом только для аналитиков и становится доступным бизнесу напрямую.
Активнее всего ИИ в BI используют ИТ (40%), ритейл (25%), финтех (10%), логистика (5%) и медицина (4%). И причина проста — скорость. Например, в ритейле задержка в обнаружении падения маржи всего на несколько дней может стоить десятки миллионов. ИИ сокращает этот лаг до часов, позволяя делать десятки срезов и находить отклонения почти в реальном времени.
Приходите на неформальную офлайн-встречу с командой R&D
Технологии, нетворкинг и «внутрянка» проектов — всё это ждёт вас на Welcome Time*, который пройдёт 11 апреля в штаб-квартире Яндекса в Москве.
💠 Приглашаем датасаентистов, дата-аналитиков и продуктовых аналитиков с опытом работы на Python** от трёх лет и опытом с LLM/VLM***
♾ В этот раз встречать вас будет команда R&D. Спикеры расскажут, зачем генеративным моделям нужны аналитики, как работают голосовые технологии Алисы и как её делают человечнее.
После докладов для желающих проведём диагностику навыков. Интервьюер подсветит ваши сильные стороны и покажет зоны роста. А хорошие результаты засчитаем как одну техническую секцию при прохождении собеседования в Яндекс.
🔗Подробная программа и регистрация — на сайте: https://yandex.ru/project/events/welcometimes-all
90 млн чеков из 1С — это не проблема, а ресурс 💪
Если ваша аналитика тормозит, а выгрузки из 1С напоминают бесконечную стройку, пора переходить на новый уровень.
7 апреля в 12:00 вместе с Yandex DataLens и BI.Qube учимся:
✅ Быстро забирать данные из 1С.
✅ Использовать Нейроаналитика (ИИ) для общения с данными на естественном языке.
✅ Разворачивать рабочее решение за 24 часа.
Никакой теории, только реальный кейс и пошаговый план развития вашей BI-системы.
🔗 Регистрация по ссылке
Сейчас есть 2 самых популярных Open Source решения для дата каталога:
• Open Metadata - у них даже есть демо стенд
• DataHub - тоже есть demo.
Я слегка работал и с одним и другим.
Обычно меня полностью устраивает dbt docs. Но бизнес пользователи хотят data lineage, и каталог отличное место для этого и все работает из коробки, как правило.
Альтернатива (если у вас Snowflake) - Snowflake Horizon Catalog. Они купили select Star в 2025 году. Но я его не пробовал.
Еще я работал с Alation, но мне он очень не понравился. В Окта у нас в прошлом хотели его заменить на DataHub или какой-то новый модный каталог, я забыл название.
У кого какой опыт с каталогами?
Запись нашего разговора про выгорание, как его распознать и как с ним бороться. https://youtu.be/vmjZgpMFrUo
Читать полностью…
Модель вашей жизни
Иван Крутко сделал хорошее интервью.
Важная мысль -- мы не объекты, мы субъекты своей жизни.
Плохо получится само, над хорошим надо работать.
Я искренне поделился своими мыслями
О предпринимательстве и бизнесе. Как предпринимателям проверять жизнеспособность своих идей? Стоит ли давать второй шанс убыточным проектам? Что делает проекты успешными — интуиция или удача?
Об инвестициях. И здесь не только про финансы. Регулярный спорт и тренировки — это тоже инвестиции в свою энергию, здоровье и дисциплину, которые прямо влияют на продуктивность.
О жизни в релокации, хобби и планах на будущее.
https://www.youtube.com/watch?v=w-gRLhyNfz4
До сих пор разворачиваете PostgreSQL вручную?
Сэкономьте силы для задач разработки.
21 апреля в 16:00 (мск) пройдёт вебинар от MWS Cloud Platform, где эксперты компании расскажут, как получить готовую базу для бэкенда за несколько минут.
Что будет в эфире:
⚫️️️ облачный PostgreSQL: плюсы/минусы решения;
⚫️️️ как устроен управляемый сервис в новом облаке от MWS Cloud;
⚫️️️ машинерия под капотом бэкапов, автообновлений, switch и failover;
⚫️️️ создадим кластер за несколько минут и настроим подключение.
Вебинар будет интересен администраторам баз данных (DBA), бэкенд-разработчикам, DevOps- и SRE-инженерам, техническим лидам и архитекторам, владельцам продуктов и стартапам.
Зарегистрироваться
Кто не приходил в зум, многое пропустил🫣🤯
Давайте продолжим в meet
Update: ссылку убрал.
Сылка https://calendar.app.google/Tuhj6ZCRtKgEPKi9A чтобы добавить в календарь
Читать полностью…
Когда нет особых новостей и инноваций, то можно просто переименовывать решения.
Looker Studio переименовывается обратно в Data Studio — возвращение к «любимому и знакомому» названию.
Data Studio становится единым местом для работы с активами Google Data Cloud: отчёты, разговорные агенты BigQuery, приложения из Colab-ноутбуков.
• Data Studio — инструмент для личного исследования данных: быстрые ad-hoc отчёты, визуализация данных из BigQuery, Google Sheets, Google Ads.
• Looker — остаётся корпоративной BI-платформой с управляемой семантической моделью и агентными возможностями.
Компании бывают разные - кто-то тихо и усердно работает, а кто-то хайпует, собирает лайки, реакции, раунды инвестиций и растет.
Один из самых крутых стартапов в этой области это Artisan. Они еще давно вешали плакаты в Сан Франциско - “Stop hiring people”.
В этот раз они прям реально отожгли - она наняли на работу Jordan Belfort на позицию VP оf sales. Того самого Волка с Wall Street. И записал крутые рекламы - The Wolf of Wall Street vs. Ava 2.0 | The Sell-Off Возможно он там временно, как первоапрельская шутка.
Они как-то предлагали им написать и рассказать о себе, чтобы устроиться к ним на работу. Вместо резюме я им отправил себя сидящего на крыше гелика с шампанским. Ответа не получил=)
Обожаю ситуации, когда приходит новый консалтинг бутик и начинает учить как надо делать data warehouse.
И что же они предлагают - модернизацию аналитики! В стартапе, где и так все новое и модернизированное=)
• внедрить orchestration tool (Dagster). Почему Dagster? Зачем? Почему понятно - у них есть экспертиза. Внедрение тулов и миграции это круто, особенно с AI.
• добавить CI/CD (куда? Зачем?)
• data governance (почему и для кого?)
То есть любой консалт готов день и ночь писать код (генерить код) и показывать эффективность в PRs, tickets, sprints и тп. Как будто в этом ценность. А для VP ролей это нормально, в их понимании все плохо, бизнес не до получает инсайтов и вот придет консалтинг и все сделает=)
Для надежности они открыли роль на Manager Data Analytics. На мой вопрос, почему менеджер? У нас нет ни одного аналитика, они сказали, что manager это, как бы, experienced senior аналитик.
В общем меня сейчас научат, как надо! А я с вами поделюсь!🏆
DataLens внутри вашего продукта: как это сделать? 📊
Аналитика «под капотом» — это стандарт хорошего UX. Если вы хотите внедрить дашборды в свои сервисы, не заставляя пользователей логиниться в сторонних системах, подключайтесь к эфиру Yandex DataLens.
Когда: 15 апреля.
О чем: Встраивание аналитики в ЛК и корпоративные порталы.
Профит: Минимум костылей, безопасный доступ и готовые механики от команды DataLens.
Регистрируйтесь заранее, чтобы не пропустить.
На Surfalytics у нас 2 новых видео и целый модуль:
1. DBT Semantic Layer - Никита рассказал и показал нам что такое dbt semantic layer и для чего он нужен.
Интересный факт, Никиты был первым членом Surfalytics и у него самый высокий доход среди канадских дата инженеров членов нашего тайного общества Club 500.
Вообще-то с учетом инфляции его надо менять в Club миллион 💰.
Я всегда говорю - ваша проактивность коррелирует с вашими доходами. Чем больше отдаешь, тем больше получаешь. Закон вселенной?🛸
2. Data Ingestions Patterns | Part 1 - я начал серию видео для System Design DE по подходу от простому к сложному, где мы загружаем данные из API в базу 10ью разными способами. Пока только 1/4 покрыл, потратил много времени на разговоры про security, infra as a code, evn variables и как сразу делать правильно. Сразу гонял Cursor Agent и Claude и видно насколько Cursor тупее Claude, зато дешевле.
3. Я записал на 95% модуль про Cloud Computing.
Сделать курс дата инженера от начала до конца это прям моя мечта, так что не смотря ни на что, я его доделаю🚀
Один из участников подкаста из Кремниевой Долины All - In со сложным именем записал видео - 30 Years of Business Advice in 13 Minutes (from a Billionaire)
Советы простые и многие очевидные, но мы часто о них забываем.
Про жизнь и цели
Не стройте жизнь как список галочек. Погоня за титулами останавливает, как только «добился». Сильнее — ориентир на постоянный рост, риск и правильное окружение. Успех — это процесс, а не финишная черта.
Практические правила
Избегайте долгов — они заставляют бросить обучение и гнаться за быстрыми деньгами. Будьте честны о своей ситуации — с собой и другими. Общайтесь с теми, кто моложе вас: у них другие модели мышления, и они как радар изменений.
Карьера и деньги
Лестница должностей — ловушка. Директор → VP → партнёр → больше equity может превратить вас в карикатуру на самого себя. Оптимизируйте возможности, а не зарплату. Держите запас ходов. И идите туда, где сгусток возможностей: финансы — Нью-Йорк/Лондон, технологии — Кремниевая долина, крипто — Абу-Даби.
Отношения
Партнёр должен прикрывать вас на 100% — и это работает только при радикальной честности. Называйте и успехи, и проблемы вслух.
Про статус
Списки, клубы, приглашения — крючки. Внешняя валидация даёт другим рычаг над вами. Отказ от игры в статус — это суперсила.
Про соцсети
Кураторские ленты — не реальная жизнь. Онлайн-«успех» вводит в заблуждение о том, как «надо» жить.
Главная мысль
Оставайтесь вечным учеником. Молодые слушатели часто отмахиваются от этого — и усваивают через более жёсткий опыт.
Montecarlo решило уволить 30 процентов людей. В эпоху до AI это был самый лучший (и дорогой) user friendly инструмент для data quality и data observation. А теперь они стали не нужны. В 2х проектах я занимаюсь тем, что выпиливаю и заменяю их решение за ненадобностью.
Читать полностью…
Оказывается сегодня запуск лунной программы Artemis II, они хотят облететь луну. Планируют взлет через 1 час 20 минут. Есть прямая трансляция.
У меня еще так совпало сегодня, что мне нужно было купить акции, так как истек мой опцион (covered call) на ASML и пришлось продать акции.
Я купил 4ре космических компании, о которых писал ранее:
• RKLB — Rocket Lab — американская космическая компания, запускает малые спутники на ракете Electron и разрабатывает среднюю ракету Neutron, конкурент SpaceX в сегменте small-sat.
• RDW — Redwire Corporation — производитель космической инфраструктуры и оборудования (солнечные панели, сенсоры, авионика) для правительственных и коммерческих спутников и станций.
• PL — Planet Labs — компания, которая управляет крупнейшей в мире группировкой спутников дистанционного зондирования Земли и продаёт снимки и геоданные правительствам и бизнесу.
• VOYG — Voyager Technologies (бывш. Voyager Space) — компания в сфере обороны и космоса, строит коммерческую космическую станцию Starlab совместно с Airbus, вышла на IPO в июне 2025.
• RMBS — Rambus — небольшая полупроводниковая компания из Сан-Хосе, разрабатывает чипы интерфейсов памяти DDR5/DDR4 и продаёт лицензии на IP в области безопасности и памяти.
• LRCX — Lam Research — один из крупнейших производителей оборудования для производства полупроводников (машины для травления и осаждения плёнок), без которого не работает ни один чипмейкер — TSMC, Samsung, Micron.
• SNDK — SanDisk — производитель флэш-памяти (NAND) и накопителей, в феврале 2025 выделился в отдельную публичную компанию после отделения от Western Digital и вышел на Nasdaq.
• MU — Micron Technology — один из трёх крупнейших в мире производителей памяти DRAM и NAND (наряду с Samsung и SK Hynix), главный бенефициар роста спроса на память для AI-серверов.
В мае я рассказал про наш опыт с продажей недвижимости и в сентябре был пост про результаты продаж, где получилось продать 2/3 недвижимости.
Сейчас я готовил документы на подачу налогов, и нужно было подготовить цифры по доходам и расходом от сдачи недвижимости. Цифры расскажут сами за себя, насколько неэффективно заниматься арендой в Канаде на уровне хомячка обывателя.
То есть, в 2025 году за 8 месяцев (продал в Августе) я потерял 61к. И каждый доллар этой суммы это после налогов, то есть по факту 120к gross нужно было заработать, чтобы покрыть эту инвестицию. При этом я очень рад, что все таки у нас получилось продать, потому что сейчас в Канаде рынок недвижимости хуже чем в 2008 году.
Из плюсов, этот loss должен мне зачесться в налоговой, как убыток.
Курсера добавила курс от Snowflake про Iceberg https://www.coursera.org/learn/apache-iceberg-data-lakehouse, бесплатно, но фокус на снежинку
PS есть еще на степике на русском https://stepik.org/course/256520/ но нет отзывов и платно:)