23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Послушал подкаст Data Engineering Central - там разговор с Джейкобом Мэтсоном, Developer Advocate из MotherDuck (это облачная версия DuckDB).
1. Индустрия устала от сложности
После лет оверинжиниринга (Spark, Kafka, огромные кластеры) - маятник качнулся обратно. Всё больше задач решается на одной машине. DuckDB - яркий пример: просто, быстро, без инфраструктуры.
2. AI не убьёт дата-инженеров - наоборот
Казалось бы, если AI генерирует SQL - зачем инженеры? Но тезис обратный: AI будет генерировать больше запросов, значит нужно больше людей, которые следят за качеством данных и моделями. Роль дата-инженера вырастет, а не исчезнет.
3. Data Modeling снова в моде
Когда AI пишет запросы, он опирается на структуру данных. Если модель данных плохая - AI будет давать мусорные ответы. Хорошая модель данных становится критически важной. По сегодняшнему опыту, AI очень хорошо помогает в моделировании. Ведь моделирование - это набор правил, которым следуют разработчики. Если мы создадим правила для AI, добавим необходимый контекст, то получится очень эффективно.
4. DuckDB vs Spark
Spark всё ещё нужен для реально больших данных. Но огромная часть "больших" задач на практике - это просто неоптимизированные маленькие задачи. DuckDB справляется с ними в разы проще и дешевле.
Вывод: Простота побеждает. AI не заменяет инженеров, а меняет их фокус - от написания SQL к проектированию данных и контролю качества.
Поиск работы за рубежом часто выглядит как хаос: десятки джоб-бордов, LinkedIn, рефералы, противоречивые советы
В итоге можно месяцами что-то делать и не получать приглашений на интервью, а оффера ждать годами. Не потому что ты слабый кандидат — просто в твоем поиске нет системы.
AgileFluent вот уже 5 лет помогают IT и Digital специалистам искать работу на международке: 800+ офферов в 32 странах, большая команда топовых экспертов и собственная платформа по откликам и нетворку.
Ребята ведут крутой канал про международку, где делятся:
✔️ историями тех, кто переехал и зарабатывает в валюте,
✔️ разборами резюме и LinkedIn профилей,
✔️ гайдами, статьями и чек-листами, которые кратно упрощают поиски
Если давно думаешь о работе за рубежом — это хороший момент начать. Подписывайся на ребят🙂
👉 Подписаться
Реклама. ООО «Эджайл», ИНН 7810964334, erid:2VtzqxL664g
Собрал материал про AI workloads и видео карты на спутниках https://blog.playeronespace.com/p/brains-in-orbit-a-complete-guide
Решил, что IoT спутниковая сеть это очень банально. Узнал про LEO PNT - gps на низкой орбите с точностью до см. Очень круто и дорого. А вот Edge AI интересный кейс и можно начать с небольшого, если просто сфокусироваться на сам спутник, который будет делать расчеты на борту.
Отличный аргумент, что AI не заменит нас!
А вы умеете кушать готовить?👀
Добавил секцию блога к сайту. Начнем с базы, что такое спутник 🛰🛰
https://blog.playeronespace.com/p/what-is-a-satellite
Microsoft Fabric сложил все туториалы в одном месте https://community.fabric.microsoft.com/t5/Fabric-Updates-Blog/Fabric-Jumpstart-Discover-what-s-possible-with-Microsoft-Fabric/ba-p/5182277
Мне так и не довелось с ним поработать глубоко, а вам?
Уважаемая команда по найму,
Благодарю вас за интерес к отклонению моей заявки.
Я ознакомился с вашим письмом об отказе и был впечатлён вашим процессом принятия решений и стремлением двигаться вперёд с другими кандидатами.
Однако в этом году я получил уже немало писем с отказами. Поэтому, после тщательного рассмотрения, я принял решение не принимать ваш отказ на данном этапе.
Ещё раз выражаю восхищение вашей смелостью отказать мне и желаю всяческих успехов в отклонении других кандидатов.
С нетерпением жду возможности присоединиться к команде в ближайшее время.
С уважением,
🏆
Как эффективно построить потоковый конвейер данных на базе Evolution Data Platform ⤵️
Когда отчеты собираются часами, а решения принимаются по вчерашним данным, бизнес теряет скорость реагирования — а значит, и деньги. Все потому, что традиционные ETL-процессы с ежедневными запусками уже не успевают за реальным темпом рынка.
На вебинаре 21 мая эксперт Cloud․ru покажет, как создать отказоустойчивый конвейер с латентностью в минуты вместо часов — без сложной работы с инфраструктурой и лишних затрат.
В программе:
▶️в чем особенность проектирования архитектуры конвейера, обрабатывающего данные в режиме, близком к реальному времени: когда использовать микробатчинг в Managed Spark Streaming, а когда — классический батч-подход;
▶️зачем использовать Managed Trino для единого слоя запросов к «горячим» (в процессе обработки) и «холодным» (архивным) данным без дублирования логики;
▶️как организовать хранение слоев данных в Object Storage с партиционированием по времени для ускорения запросов;
▶️почему стоит использовать метаданные в реальном времени через Managed Metastore для поддержки изменяющейся структуры потоков;
▶️как эффективно визуализировать данные в Managed BI и настроить автообновление дашбордов и алерты на отклонения;
▶️какие способы оценки и контроля латентности конвейера существуют: от генерации события до отображения на дашборде.
Зарегистрироваться
📌 Что вы делаете, когда классические A/B-тесты невозможны?
Коллеги из Trisigma зовут на онлайн-митап как раз по таким ситуациям. 21 мая в 18:30 три спикера (из Авито, Finom и ex. Ozon Tech и Lamoda Tech) расскажут про свои нестандартные кейсы из практики:
⚡️Как проводить офлайн-эксперименты с AI-агентами и измерять качество, когда всё недетерминировано.
⚡️Когда и какими нестандартными инструментами можно заменить A/B.
⚡️ Можно ли сделать рабочую связку PSM, фейкдоров и оценки эластичности.
Регистрация на стрим по ссылке!
Сейчас в такое время живем, что вечером готовишься к встрече, которая должна быть рано утром из-за того, что часть команды в Израиле, а на следующий день офис в Израиле закрывают, сотни человек на улице, митинг отменяется.
PS цена акции не выросла:( Не работают старые методы.
Кстати про акции, месяца 1-2 назад я спросил AI, какие акции космических компаний и компаний по оперативке можно купить. Результат 2x. Так же добавил новый stop-loss - 7% trailing - авто продажа, если акции потеряла 7% в моменте. (Это база, но я не использовал раньше)
Робот готов! А вы говорите бесполезный generative AI
Читать полностью…
10 готовых шаблонов дашбордов для разных C-level ролей от Cloud.ru 🌐
В новом практическом руководстве эксперты Cloud.ru отвечают на вопрос, как руководителю принимать решения быстрее.
Помимо этого в руководстве:
▶️набор ключевых бизнес-метрик и формулы их расчета
▶️понятная интерпретация показателей
▶️рекомендации по визуализации
Уверен, что меня читает много студентов с разных направлений, а у этих читателей скорее всего еще и широкий круг общения.
Поэтому этот пост для вас!
Образовательный центр СИРИУС в г. Сочи запускает набор стажировок на летнюю июльскую проектную программу «Большие вызовы».
Я сам прошел все вехи этой программы: участвовал там и в роли школьника, затем стажера и наконец, руководителя проектов (в проекте по космическим технологиям).
Программа покрывает практически все расходы и предоставляет жилье и питание.
Очень рекомендую подаваться и ехать, опыт и яркие эмоции обеспечены!
Стажировки для студентов-выпускников (заявки до 11 мая):
1) (ассистенты руководителей проектов и методистов): https://sochisirius.ru/obuchenie/graduates-events/smena2361/10830
2) Центр робототехники: https://sochisirius.ru/obuchenie/graduates-events/smena2373/10891
3) Пресс-служба: https://sochisirius.ru/obuchenie/graduates-events/smena2362/10833
4) ЦОПП (внеучебная деятельность): https://sochisirius.ru/obuchenie/graduates-events/smena2375/10894
Стажировка для педагогов РЦ (заявки до 27 мая):
https://sochisirius.ru/obuchenie/pedagogam/smena2376/10902
Инженерная комната
Рамиль Гайнутдинов
Hightouch получил новый раунд инвестиций, на эти деньги они уже сняли офис в San Francisco и начали хайрить куча людей. Все-таки с помощью vibe-coding reverse ETL не так гладко работает. У нас 2х местах его выпиливают, в обоих местах компании из списка S&P500 - причина в высокой цене.
Читать полностью…
🟢
На вакансии отвлекаться - не мешки ворочить не прокачиваться на pet проектах и mock собеседованиях.
В cвой личный slack добавил себе Notion бота из Notion Calendar, который собирает все встречи и присылает мне список на завтра и время во сколько вставать (за 15 минут до 1й встречи). Notion Calendar позволяет собрать все календари вместе, а если календарь закрыт, я вручную дублирую событие в личный календарь.
Видно, что день прям busy, но это у меня такие обычные вторник, среда, четверг.
Зато, в понедельник тихо, все еще отходят от выходных, а в пятницу все уже готовятся к выходным. Поэтому я уже воспринимаю вторник-четверг как данность, мне хоть в 3 раза больше митингов, справимся🎮
Сейчас столько классных штук, которые экономят время:
• можно собрать все slackи в одном месте и агент будет все писать, что произошло
• можно все почты подключить к агенту, тоже будет у вас summary.
Но я пока по старинке! А как вы себе упростили рабочий процесс?
PS reschedule конфликты - для слабаков🍪🍪
Если вам интересен соревновательный ML — у Яндекса скоро завершается регистрация на Yandex ML Challenge.
Формат довольно приятный: длинный онлайн-тур без жёсткого тайминга на несколько часов. Можно спокойно подумать над решениями и потестить разные подходы.
Из задач:
— LLM / foundation models
— CV
— RL
— оптимизация нейросетей
Старт — 21 мая. На всё дают 11 дней и 40 сабмитов на каждую задачу.
Топ-100 участников попадут в очный финал на Young Con в Москве.
Победителю — 1 млн рублей, топ-15 получат устройства от Яндекса.
В целом выглядит как хороший повод проверить себя на актуальных ML-задачах и посмотреть, что делают другие участники.
Регистрация ещё открыта.
Добавил пост про то, как и где учить Databricks https://blog.surfalytics.com/p/navigating-databricks-learning-a
Читать полностью…
Офер в Яндекс за выходные: 6–7 июня
Если вы продуктовый, дата-аналитик или датасаентист с опытом на Python от 3 лет, участвуйте в Weekend Offer Analytics*.
Как всё устроено:
🔵 до 27 мая — регистрация;
🔵 6 июня — две технические секции, вместо трёх в обычном найме;
🔵 7 июня — знакомство с командами и офер.
В мероприятии участвуют команды: R&D, Автономный транспорт, Алиса и Умные устройства, Поиск и Суперапп, Независимый Ecom и другие. Вы сможете пообщаться с нанимающими менеджерами и выбрать проект, который покажется самым интересным.
Все подробности и полезные ссылки — на сайте. После регистрации с вами свяжется рекрутер и договорится об удобном времени для интервью.
За последнее время мне удалось пообщаться со многими компаниями Enterprise-уровня, и у всех одна и та же проблема — криво внедренный Databricks.
Что значит криво? Значит неудобно и неинтуитивно.
Почему так? Потому что «а кто ж его знает, как надо».
Добавим сюда, что Databricks в такие конторы внедряется подрядчиками, которые ездят по ушам VP-уровню и другому персоналу, который уже мастер спорта по митингам и презентациям, но у которого есть сложности с технической составляющей организации, в которой они работают годами.
Вот и получается: хотели как лучше, а получилось как всегда.
Зато таких картин нет в историях со Snowflake.
Что бы там ни говорили про цены, производительность и другие особенности платформ, я ни разу не видел косячного внедрения Snowflake.
Ну, максимум ценник выше, чем должен быть, но люди работают, пишут запросы, и вопросов, как получить доступ к данным, не возникает.
У всех всё понятно: dbt, Airflow, GitHub. Всё работает как и должно, легко найти специалиста, легко подключить Claude Code.
А как у вас дела?
PS фото с paddle board, скоро будет экспедиция на 5 дней, тренируюсь.
Пример coding задачек для собеседования, но уже можно решать с AI. Пример от Staff Engineer из Meta.
То есть, вам нужно общаться с агентом и рассказывать, как вы думаете, как решаете задачу. Раньше можно было выучить типовые задачки и постараться, чтобы ответ прошел verification. А теперь, задачки по коду превратились в системный дизайн, где нужно все проговаривать.
Хорошая новость для тех, кто не любит секции leetcode! Но это в передовых компаниях уже так делают, думаю большинство такое не грозит.
https://youtu.be/A1kX8fJx53c?si=Mu3l-TppeqXxxnCV
У кого-то были уже такие примеры на собеседованиях?
Приглашаем вас на совместный вебинар AXENIX и вендора BR Systems, посвященный XLTable — OLAP‑системе с широким функционалом для работы с данными ClickHouse и Trino и поддержкой протокола XMLA в Excel.
Эксперты подробно расскажут об XLTable и его основных преимуществах: быстроте внедрения, отсутствии дублирования данных, снижении затрат на TCO, бессрочной лицензии и других.
В рамках вебинара вас ждет:
🔸Обзор рынка OLAP-систем
🔸Демо системы XL Table от BR Systems
🔸Разбор реальных кейсов крупных компаний
Также у вас будет возможность задать свои вопросы.
Для участия необходимо зарегистрироваться на сайте. На указанную вами почту придет ссылка на вебинар. Подключайтесь к нам 21 мая в 16:00.
До встречи!
XLTable: Telegram | Сайт
Сегодня столкнулся с интересным кейсом по Azure Databricks.
Что дано:
• 3 Azure Subscriptions Dev/Test/Prod
• 3 Azure Databricks Workspaces
Все четко и понятно.
Databricks уже давно использует Unity Catalog вместо обычного Hive. Кстати он есть open source.
Unity Catalog — это централизованный каталог и система управления данными от Databricks.
Представь, что в компании есть десятки таблиц, файлов, ML-моделей, разбросанных по разным облакам и воркспейсам. Unity Catalog — это единое место, где всё это зарегистрировано, где видно кто к чему имеет доступ, откуда пришли данные и куда они идут.
Он решает три главных вопроса:
Кто может видеть данные? — можно задавать права вплоть до отдельных строк и столбцов таблицы.
Откуда эти данные и можно ли им доверять? — автоматически строится граф происхождения данных (lineage): от источника до дашборда.
Как найти нужные данные? — есть поисковый интерфейс с описаниями, тегами и метаданными.
Всё это работает единообразно для любого воркспейса в аккаунте Databricks, что и делает его «единым» (Unity).
Оказалось спустя почти года разработки, оказалось, что Metastore находится в Dev подписке.
Metastore — это хранилище метаданных, то есть место, где Unity Catalog держит всю информацию о данных, но не сами данные.
Проще говоря, metastore знает: какие таблицы существуют, где физически лежат их файлы в облаке, какая у них схема (столбцы и типы), кто имеет к ним доступ и т.д. Это как оглавление книги — само содержимое страниц хранится отдельно, но оглавление говорит тебе, где что искать.
В контексте Unity Catalog metastore — это верхний уровень иерархии. Внутри него живут каталоги (catalogs), внутри каталогов — схемы (schemas), а внутри схем уже таблицы и прочие объекты. На один аккаунт Databricks в одном регионе обычно один metastore, и все воркспейсы в этом регионе к нему подключаются и видят одни и те же метаданные.
22 мая в Москве пройдёт уже седьмая конференция АНА'26 для тех, кто работает с AI, ML и данными.
Отличный повод:
🤝 познакомиться с людьми из индустрии
🎯 послушать живые use cases от команд Яндекса, Сбера, Авито, Wildberries, ВкусВилла и десятков других
🎁 собрать подарочки от спонсоров
☕️ просто хорошо провести день среди своих
В программе — полный цикл data & AI: MLOps, LLM в продуктах, AI-агенты, архитектура, экономика масштабирования и многое другое.
Форматы:
→ Офлайн — 39 900 ₽
→ Онлайн — 19 900 ₽
→ Команды от 3 человек — скидки до 10%
Программа и билеты — на сайте конференции.
PS это не рекламный пост, это я вам рекомендую сходить, особенно, если ваша компанию вам покроет расходы. Вы узнаете много нового и примените новые знания на работе, а может быть и работу найдете:)
2 картинки, одна про пост 2025 год, в котором говорится “покажи свой код” и другая свежая с take home assignment. И там и там идея в том, что сам код уже не важен. Важно уметь пользоваться современными инструментами и решать проблемы. Сейчас это ИИ агенты.
Идеально подходит выражение - «Хочешь делать работу — сначала наточи инструменты»
В случае ИИ агентов - это контекст, правила, модель, MCP, план.
В сведенной статье от Pragmatic Engineer - The Pulse: token spend breaks budgets – what next? (Расходы на AI-токены выходят из-под контроля) рассказывают насколько проблема токенов становиться острой.
Расходы на токены у многих компаний выросли до 10 раз за последние месяцы. Автор опросил сотрудников 15 компаний и выявил два лагеря:
1. ”Let it rip and measure" — дать командам использовать AI без ограничений, потом смотреть на метрики. Так чаще поступают крупные компании, где операционная гибкость важнее экономии.
2. ”Curbing spending" — активное управление расходами и оптимизация использования токенов. Этим занимаются небольшие компании, которые либо оптимизируют потребление, либо закладывают больший бюджет.
Общий консенсус: рост продуктивности оправдывает расходы, даже если они высоки. Среди популярных способов оптимизации — переключение на более дешёвые модели для рутинных задач, кэширование промптов и лимиты на уровне команд.
По сути, статья фиксирует момент, когда AI из "эксперимента" превратился в реальную статью операционных расходов, с которой инженерные и финансовые команды пока не очень умеют работать.
Я вижу такие паттерны:
1. Условно безлистный Claude Code с моделями Opus и Sonnet. Иногда использую сторонний Gateway, чтобы контролировать расходы.
2. Полный запрем на Code Assist. И тут происходит несколько сценариев:
• Без AI люди пытаются что-то гуглить, что-то сами делать, что-то в Teams Copilot, бесплатном ChatGPT. Все очень медленно и плохого качества. Мне лично кажется это проблема людей, у них вообще нет мотивации учить что-то новое, как говорится - и так сойдет.
• Люди полностью поддерживают запрет на AI, ведь не безопасно же, но при этом сами урвали себе за 20$ AI и что-то лепят втихушку, как будто без AI, но по факту с AI.
• Использование AI на максималках, окольными путями завести модели антропика черех API ключ, и фигачат в режиме YOLO. Без AI уже как без интернета, можно не работать.
3. Есть еще промежуточный вариант, он как правило всегда с Microsoft Teams. Мне вообще кажется, если компании используют Microsoft Teams это дно для инженера, ведь стек будет соответствующий. В данном случае у вас будет бесплатный и бесполезный copilot.
В целом полностью согласен - AI токены дорого. Особенно, когда это корпоративный план и там уже квоты работают по другому.
Поделюсь своим недавним изменением в настройке рабочего пространства.
1. У меня было 2 больших монитора 32”, я понял, что я теряюсь в них. И каждый раз, когда выдергиваю USB-C у меня все окна перемешиваются. И два таких дисплея заставляет меня крутить голову, и там можно заблудиться.
Я оставил один 32” и сбоку Mac 16”. Наконец-то купил подставку для него, чтобы экран был на уровне глаз. Пора думаю о здоровье шеи. В кафе теперь тоже ношу подставку.
Поставил Hammerspoon, на вайбкодил настройку и теперь у меня окна Chrome и VSCode/Cursor знают свое место на 32” (50/50), а на Mac 1/3 Notion Calendar, 2/3 Slack.
У меня 7 активных дисплеев на 32” и 1 на 16”.
2. Как правило я работаю в VSCode/Cursor и для каждого репо я открывал свое окно. И вместе с пунктом 1 у меня был всегда mess. Поэтому я перешел на новый подход, у меня для конкретной работы есть папка и там все репозитории и я открываю их всех сразу, а в терминале я
cd Repo 1
Claude или Agent (Cursor CLI