23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Вторая порция фоток с поездки в Калифорнию. Закончился трип в Сан Франциско. Рабочий вайб там на максималках. Люди в кафе делают презентации, общаются. Нетворкинг и жизнь кипит. Лучший город для работы и карьеры.
Пляжи и серф прям а городе. Единственное, что бросается в глаза это дома. Картонные коробочки разного цвета, возможно маленькие комнатки. В центре высокие холмы и пешком там много не походишь.
Бомжей почти не встретил, может не там ходил.
Калифорния все таки очень крутое место для жизни и работы, особенное если вы получаете FAANG зарплату или лучше 2.
Без денег лучше жить в Канаде. Тут деньги не нужны, о вас заботится государство=)
Вот и появились первые результаты использования ИИ в статье - Are AI agents actually slowing us down?
🤖 ИИ-агенты нас тормозят?
Все говорят о том, как ИИ ускоряет разработку. Но есть обратная сторона, о которой почти никто не говорит.
Что происходит на практике:
🔴 Anthropic — баг на главной странице Claude.ai, при котором текст пользователя исчезал при загрузке, существовал неделями и никто внутри компании его не замечал. При том, что 80%+ кода Anthropic генерирует сам Claude. Исправили только после публичного скандала.
🔴 Amazon — ИИ-агент Kiro вызвал 13-часовой сбой AWS: агент решил «удалить и пересоздать среду». Теперь любые изменения джунов с помощью ИИ требуют подписи сеньора.
🔴 Meta и Uber — токены ИИ учитываются при перформанс-ревью. Не используешь ИИ активно? Значит, ты «неэффективный» сотрудник. Давление на инженеров огромное — вне зависимости от качества результата.
🔴 Исследования — код, написанный с ИИ, показывает +41% code churn (строки, которые переписывают в течение двух недель). Команды тушат пожары от свежесгенерированного кода вместо того, чтобы работать над реальными задачами. Google DORA зафиксировал снижение стабильности поставок на 7.2% по мере роста использования ИИ.
Почему так происходит?
Компании измеряют количество PR и строк кода — но не качество. В итоге возникает порочный круг: больше кода → больше техдолга → медленнее разработка в долгосрочной перспективе.
Что с этим делать?
• Инженеры с сильным архитектурным мышлением становятся ценнее, чем когда-либо
• Нужны quality gates — не только покрытие тестами, но и дублирование кода, архитектурное соответствие
• Возможно, пора вернуть старые добрые практики QA
ИИ усиливает то, что уже есть в команде. Сильная культура → ускорение хорошей работы. Слабая культура → ускорение накопления техдолга.
«Скорость без качества — это просто быстрее идти не туда»
В пятницу мы прилетели в LA и взяли машину, чтобы прокатиться до SF.
В LA было очень жарко. Мы остановились в Beverly Hills. Сам город понравился, много классных кафешек, вечером все нафокстрочены, как в Москве🚬. Куча дорогих машин, мужчины в пиджаках, девушки в вечерних платьях.
Шикарные песчаные пляжи в Santa Monica и Venice Beach. Много мексиканцев на пляжах, но не в Beverly Hills.
Первую остановку сделали в Santa Barbara. Напомнило заставку одноименного сериала. Город тихий, как будто в Мексике. Мы остановились в очень хорошем отеле. Но наша комната был сбоку от ночного клуба. До 2х ночи была дикая пати, клуб подпевал диджею. 1:30 ночи я генерил отзыв в Gemini, про отель=) хорошо, что в 2 они разошлись.
В следующем посту расскажу про SF.
Контейнерный образ — это база любого релиза ❤️
Но когда версии, доступы и безопасность пущены на самотек, команда увязает в «починке доставки» и отвлекается от развития продукта.
На вебинаре вместе с экспертом Cloud․ru вы:
▶️рассмотрите контур артефактов и разберёте, где он чаще всего ломается;
▶️научитесь загружать Docker-образы, версионировать и управлять ими в Evolution Artifact Registry;
▶️настроите приватный доступ к репозиториям и разграничение прав;
▶️включите сканирование на уязвимости и примените политики безопасности;
▶️разберете, как поддерживать порядок в реестре: политики удаления и жизненный цикл.
Вебинар будет полезен backend-разработчикам, DevOps-инженерам (сборка/доставка), архитекторам (инфраструктура/безопасность), техлидам и руководителям команд для ускорения релизов и снижения рисков ошибок.
👉Зарегистрироваться👈
Наш любимый кабанчик - 2ое издание.
Появился новый соавтор
Крис Рикомини — инженер с 15+ годами опыта в PayPal, LinkedIn и WePay, сооснователь Apache Samza и SlateDB. Его участие привнесло практический взгляд на современные облачные и стриминговые системы.
🆕 Новые темы и главы
• Глава 1 — Trade-offs in Data Systems Architecture — совершенно новая. Охватывает выбор между OLTP vs OLAP системами, облачными vs self-hosted решениями, однонодовыми vs распределёнными системами. Смещение фокуса: вместо «что такое надёжность» — «какие компромиссы делать при проектировании».
• Глава 2 — Defining Nonfunctional Requirements — как измерять производительность, моделировать нагрузку и ёмкость, справляться со сбоями и управлять сложностью.
• Векторные индексы (HNSW) — глава о хранилищах и индексах обновлена с учётом современных vector databases и алгоритмов приближённого поиска ближайших соседей.
• Облачные сервисы — значительно расширено покрытие cloud-native архитектур; Hadoop MapReduce как устаревшая технология убран или сокращён.
• Последняя глава переименована: «The Future of Data Systems» → «Doing the Right Thing» — теперь сфокусирована исключительно на этике, приватности данных и GDPR, тогда как технические тренды распределены по соответствующим главам.
Узнал сегодня про Dracula Effect в контексте AI - это термин для описания вампирского эффекта истощения, который испытывают люди при интенсивной работе с AI-агентами.
AI автоматизирует рутинные задачи, но оставляет человеку всю сложную когнитивную работу - принятие решений, анализ результатов, постановку задач, проверку кода. По сути, ты постоянно занимаешься только стратегическими и сложными вещами, без передышки на простые задачи.
Реально ловлю себя на том, что день проходит плотничком и энергии уходит много. Но нам не привыкать📈
Постройте аналитику в облаке без боли и затрат на старте ❤️
«Как поведет себя архитектура», «хватит ли производительности», «удобно ли будет команде» — эти вопросы могут возникнуть у компаний, которые только планируют построить аналитику данных в облаке.
Чтобы сделать процесс перехода в облако понятным и предсказуемым, облачный провайдер Cloud.ru запустил акцию «Миграция на сервисы Evolution Data Platform».
С ней вы можете развернуть аналитические сервисы в облаке, поработать с ними в реальной среде и принять решение на основе опыта, а не теории.
Что вы получите:
➡️ усиленную техническую поддержку наших экспертов
➡️ выбор архитектуры сервисов под ваши задачи и гибкую настройку
➡️ возможность масштабировать проект после пилота
➡️ бесплатный доступ ко всем функциям облачных дата-сервисов
▶️Узнайте подробнее об акции▶️
Новый life hack - все теперь добавляют чат ботов и можно с ними общаться вместо chatgpt/claude/gemini
Читать полностью…
На Coursera появился курс AI Fundamentals от Google. С ним дают Gemini Pro бесплатно на 3 месяца.
А про Claude я видел, что можно попытаться подать на Open Source заявку https://claude.com/contact-sales/claude-for-oss и получить много токенов.
Приглашаем на вебинар 12 марта, на котором коллеги из проекта Easy Report расскажут о Генеративном BI и покажут, как это работает на практике.
Содержание вебинара:
1️⃣GenBI: что это на практике и где он дает максимальный эффект
2️⃣Какие запросы на “ИИ в BI” сейчас у топ-компаний
3️⃣Easy Report: эволюция от BI в мессенджере к GenBI, с промышленными внедрениями в энтерпрайзе
4️⃣Демонстрация функционала на реальных сценариях (расчеты и отчеты "на лету", запросы на естественном языке, поиск инсайтов и др.)
5️⃣Что дальше: наш роадмэп
Участие бесплатное по предварительной регистрации.
🚀 Регистрация и подробности.
🗓 12 марта, 11:00 мск • Онлайн
Реклама. ООО «САПИЕНС», ИНН 7731438804, Erid: 2W5zFJrhv3j
🎙 Курс «Основы Data Governance» | онлайн, 16–25 марта
Приглашаем ИТ-директоров, CDO, CDTO, Heads of BI, Data Stewards и руководителей-стратегов в управлении данными на редкий курс по Data Governance – проходит только 1 раз в году в формате живого диалога и обмена опытом.
⚡️ Курс даст понимание, как выстроить ключевые процессы для обеспечения качества, прозрачности и надёжности данных в компании. Участники детально разберут модели, роли, метрики, запуск DG и реальные кейсы – в закрытом экспертном сообществе.
В программе курса:
– 9 модулей: от основ DG, DQ и MDM до AI Governance,
– разработка программы DG и системы метрик,
– разбор кейсов + готовый Excel-гайд по DG для вашей компании.
Участники получат:
– домашние задания с обратной связью, консультации с экспертом,
– сертификат участника и доступ к материалам курса.
Ведущий эксперт – Александр Бараков, Head of BI Авито
Забронировать место в потоке 2026 – на курсе осталось всего 5 мест!
Если в работе с BI слишком много ручных действий, 10 марта в 12:00 мск можно будет разобраться, как это автоматизировать.
Yandex Cloud проведёт вебинар «API в DataLens – все пути автоматизации»: покажут, как автоматизировать процессы и упростить работу через Public API и API-коннектор.
Вебинар будет полезен BI-аналитикам, дата-инженерам, разработчикам, системным архитекторам и руководителям аналитики.
Участие бесплатное, предварительно необходимо зарегистрироваться.
Сегодня они радуются как юристы делают PR, а завтра решат сократить половину компании. Тоже fintech.
PS у Claude Code новая турбо пушка фича
1. Запускаем Claude Code как обычно, создаем бранч и начинаем работать…
2. Собираемся на прогулку за вашим любимым банановым рафом (к сожалению в суровой Канаде, нет таких изысков)
3. Выполняем команду телепорта, которая отправляет нашу сессию в Claude web
claude —teleport session_9482948jfsdfl
Хочу добавить в dataengineer про VPN и другие решения для безопасного доступа в интернет🧑🌾
Напиши в комментах про варианты с VPN, proxy и другие и я создам новую страницу.
Только не скидывайте ссылку, а то будет бот удалять, можно просто ssikla . Ru (раздельно)
Или как когд
ssilka.ru
Опачки, появились AI детекторы в Grammarly.
Как я понимаю скоро уже текст так легко не на генерить, чтобы выдать за свой, по крайней мере на английском.
Наверно такие же потом будут для кода.
С 2007 по 2010 я работал на ГКНПЦ им Хруничева, который строит ракеты Протон и Ангара. Работал я там на разных должностях.
Однажды был конкурс молодых специалистов и талантов, на который я записался и попал в финал, где нужно было выступать перед руководством центра.
На финале я понял, что тут серьезные проекты - чертежи, двигатели, системы и тп.
У меня был pitch про рекламу на ракете, так как космическая индустрия была очень бедная.
Мою идею все подняли на смех и мне даже было стыдно. Зато сегодня это уже ноу-хау)))
Вообще сейчас происходит бум космоса. SpaceX поменял правила игры и все ждут его IPO. Появилось огромное количество стартапов и идей.
Одна из идей это создать космический дата центер в космосе и на Луне.
Я создал канал, в котором пишу новости связанные со стартапами и монетизацией космоса - Бабки в вакууме.
Канал я создал прежде всего, потому что на этой неделе мы зарегистрировали компанию Player One и получили добро на 2млн$ как seed. Туда я скидываю все интересные новости по теме космоса.
В следующие 12 месяцев задача создать космическую компанию и запустить спутник в космос. Круг моих задач: entrepreneurship, data, AI.
Про дата инжиниринг пока без изменений, так как это мой основной источник дохода.
Data Science и Data Engineering: какое направление выбрать в 2026 году?
🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.
На встрече обсудят:
💙 как рост ИИ трансформируют рынок труда
💙 4 трека для развития: ML, CV, NLP и Data Engineering
💙 какие задачи усложняются и где усиливается конкуренция
И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.Подключайтесь онлайн 1 апреля в 19:00 мск.
🏃♀️ Записаться на ДОД
На NVIDIA GTC CEO NVIDIA Дженсен Хуанг назвал структурированные данные основой ИИ и показал ключевые аналитические платформы, формирующие $120-миллиардную экосистему корпоративных данных.
Про BigData как-то не сказал ничего. Но в любом случае без инжиниринга данных никак💗
https://www.youtube.com/live/jw_o0xr8MWU?si=HJ2yW1wS0NL36-j1
На картинке анализ плана запроса в Snowflake.
Dbt модель упала из-за timeout. Попросил Claude Code посмотреть в чем дело.
Через Snowflake MCP он начал выполнять запросы и анализировать план запроса и сообщил, что у нас тут NESTED LOOP JOIN вместо HASH JOIN.
Сам поправил и проверил и сделал PR. Умничка.
PS Параллельно Claude Code
• Создает хранилище данных на AWS (Redshift, Airflow, dbt, cloud formation)
• Решает проблемы с Databricks Bundle на Azure
• Пишет документацию
Несколько абсолютно разных проектов. Но везде хороший результат, особенно в режиме YOLO.
Самое сложное это Databricks bundle, это было для меня новое, и поэтому я не могу контролировать результат, получается много ошибок, но Claude помогает изучать.
Иногда попадаются митапы с реально рабочими темами из продуктовой аналитики 🔥
18 марта пройдёт как раз такой. Это будет онлайн-встреча от Trisigma, платформы AvitoTech, и hh.ru. Судя по программе, будут разбирать довольно прикладные вещи:
— Что происходит, когда A/B-эксперименты начинают пересекаться и ломают результаты
— Как повышать эффективность рекламы через budget-split-тесты
— Зачем нужен семантический слой и как он помогает выстраивать доверие к AI-агентам
Выглядит как хороший повод послушать чужие кейсы и, возможно, что-то забрать себе в работу.
К митапу можно подключиться из любой точки мира 18 марта в 18:30 мск.
Если хотите послушать — вот ссылка на регистрацию.
В прошлом году Databricks купил Neon.
Основатели Neon:
• Никита Шамгунов - CEO и идейный вдохновитель Россиянин, PhD по Computer Science из Санкт-Петербурга
• Хейкки Линнакангас - Co-founder, Postgres-хакер
Финн, один из самых известных core committer'ов PostgreSQL с 20+ летним стажем.
• Стас Кельвич - Co-founder, инженер. Изучал физику, затем пришёл в разработку — работал в Яндексе в команде баз данных.
Команда собралась вокруг одной идеи: "что если сделать для Postgres то же, что Amazon Aurora сделала для MySQL/Postgres, но open-source и по-настоящему serverless?"
Amazon Aurora это serverless Postgres, но это как бы vendor lock.
У Neon было три основных этапа/фичи:
1️⃣Разделение слоев давало serverless-поведение: scale-to-zero, оплата только за реальное использование, "бездонное" хранилище.
2️⃣Разделение compute и storage открыло неожиданную суперспособность - branching базы данных через copy-on-write. Создать полную копию базы с данными и схемой стало бесплатным по времени и почти бесплатным по стоимости.
Кстати Snowflake zero-copy cloning имеет похожую идею copy-on-write - клон/ветка не копирует данные физически, а создаёт метаданные-указатели на те же блоки хранилища. Новые данные записываются только при изменениях. Оба мгновенные и почти бесплатные по хранилищу. Только у Neon каждая ветка это свой изолированный Postgres. Благодаря этому у каждой ветки свой compute и не влияет на продакшн базу данных.
3️⃣Neon обнаружил, что 80% баз на их платформе создаются кодом, а не людьми. AI-агенты и платформы вроде Replit Agent стали создавать тысячи эфемерных баз на лету - под каждого пользователя, под каждый эксперимент. Один инженер в Retool управлял через Neon API 300,000 Postgres-инстансов.
Для Databricks это решение понравилось, ведь они уже работаю с AI агентами, каждый агент получает свою изолированную базу данных, и сама идея Zero ETL не нова, и Neon позволяет использовать OLTP workloads и хранить данные сразу в Databricks, ведь Neon хранит данные в облачном object storage (S3/ADLS/GCS), то есть буквально в том же хранилище, что и lakehouse.
И вот Databricks закончил интеграцию и назвал продукт/фичу - Lakebase. Это Postgres версии 16/17. Так же Databricks приобрел Mooncake для лучшей интеграции Postgres с Lakehouse.
Mooncake Labs - это маленький стартап (основан в 2024 году), который сделал одну очень конкретную вещь: pg_mooncake — Postgres-расширение, которое добавляет колоночное хранилище прямо внутрь Postgres, сохраняя данные в формате Apache Iceberg/Delta Lake в object storage.
Под капотом происходит следующее:
• Данные хранятся не в Postgres heap (row-формат), а в Parquet-файлах в S3 в формате Iceberg
• Аналитические запросы выполняются через DuckDB (встроен в расширение) - векторизованный движок, заточенный под колоночное чтение
Вы говорит AI бесполезный! Посмотрите какой bash скрипт мне он сделал! Магия!
С 8 марта девушки!💐
NVIDIA ищет архитектора орбитального дата-центра — и это не шутка
На сайте NVIDIA появилась вакансия с названием, которое ещё год назад звучало бы как фантастика: Orbital Datacenter System Architect — архитектор орбитального дата-центра. Это первая публичная вакансия такого рода от одной из крупнейших технологических компаний мира.
Что это говорит нам о планах NVIDIA?
NVIDIA не строит ракеты и не запускает спутники — но именно её GPU стоят в сердце каждого орбитального вычислительного проекта.
Starcloud уже запустил H100 на орбиту. SpaceX подала заявку в FCC на миллион спутников-дата-центров. Blue Origin, Aetherflux, Relativity Space — все они так или иначе завязаны на NVIDIA-железо. Теперь компания хочет иметь собственного человека, который понимает, как всё это работает в космосе.
Что будет делать этот специалист?
Это не просто «перенести дата-центр на орбиту». Задачи принципиально другие:
🌡️ Тепловое управление — в вакууме нет воздуха, тепло отводится только излучением. GPU греются, а охлаждать их нечем. Нужно проектировать радиаторы, тепловые трубки и всю архитектуру под законы физики открытого космоса
⚡ Энергетика — только солнечные панели, батареи и строгий энергобюджет. Никаких розеток
🛰️ Надёжность — космическая радиация убивает обычную электронику. Нужна радиационно-стойкая архитектура и системы резервирования
🔗 Связь — лазерные межспутниковые линки, задержки, пропускная способность. Как GPU-кластер общается между собой на орбите?
🏗️ Системная интеграция — как упаковать мощности уровня дата-центра в спутник весом в несколько сотен килограммов
Почему именно сейчас?
Эрик Шмидт сказал это прямо: «Через 30–36 месяцев самым экономически выгодным местом для ИИ-вычислений станет космос».
Земля заканчивается — энергосети перегружены, вода для охлаждения дефицитна, места под дата-центры нет. Орбита даёт солнечную энергию 24/7 и бесплатный вакуум для охлаждения.
NVIDIA это понимает. И теперь нанимает людей, которые превратят эту идею в железо.
https://nvidia.wd5.myworkdayjobs.com/en-US/NVIDIAExternalCareerSite/job/Orbital-Datacenter-System-Architect_JR2014044
#space #orbitaldatacenters
Качественный отчет от ARK Invest про большие идеи 2026 года для бизнеса и инвестиций.
Главный тезис: прорывные инновации ускоряют рост мирового ВВП до 7.3% к 2030 (МВФ прогнозирует лишь 3.1%). Капитализация инновационных компаний может расти на 35% CAGR.
Что делать если у вас нет реального опыта, а хочется работать дата инженером или кем-то еще?
Ответ простой, находите вакансии с нижней планкой зарплаты и туда идете работать. Опытные люди (даже если опыт 1год туда не пойдут), поэтому вы будете конкурировать с такими же вкатунами кандидатами:)
Как я понял 200к для дата инженера это как раз такая планка, где можно экспериментировать🎮
Друзья! У мамы моего друга проходит психологическое исследование для дипломной работы — она изучает опыт людей, переехавших в другую страну. Если вы живёте за рубежом, пожалуйста, уделите 10–15 минут и заполните анкету. Сейчас ответов пока мало для статистической значимости — каждый ответ на счету!
👉 https://docs.google.com/forms/d/e/1FAIpQLSe_O1dDJ67wIWHAu8rngMtLqct7G29PbLBJLw_RNGNorRgkJw/viewform
Финтех компания Block, уволила 40% компании и честно призналась, что люди стали работать с AI по другому, меньше размер команды, меньше уровней и зависимостей, больше эффективности.
CEO все сказал как есть. Нам конечно от этого не легче, но думаю вектор понятен.
😬 Запись вебинара XLTable - OLAP сервер для больших данных
https://youtu.be/gVvIf2ycxgM
#datalearn #Вебинар
Очень интересный анонс. Из всех технологий ducklake мне сейчас больше всего нравится своей простотой и практичностью. Я себе собрал для Surfalytics аналитики студентов и разбираюсь потихоньку.
Читать полностью…