rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

20247

Делюсь новостями из мира аналитики и вредными карьерными советами;) 8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️ Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).

Subscribe to a channel

Инжиниринг Данных

В сентябре Яндекс выпустит Нейроаналитика — ИИ-помощника, встроенного в DataLens.

Сервис поможет находить закономерности в данных, ускорять отчёты и проверку гипотез. Всё — через чат без кода и формул. Создан на базе Yandex Cloud AI Studio. Поддерживает облачную и локальную установку. Уже используется внутри Яндекса.

Сейчас можно уже оставить заявку в листе ожидания.

Реклама. ООО Яндекс.Облако. ИНН 7704458262

Читать полностью…

Инжиниринг Данных

Нужен ли TPM (Technical Product Manager или просто Product Manager) в дата-команде?

Главная задача такого человека - быть связующим звеном между бизнесом и инженерами/аналитиками. Раньше этим занимался бизнес-аналитик. Так было на проектах в Cetelem (BNP Paribas) и Сбербанке.

Для нас самая сложная часть работы - понять, чего хочет бизнес, как он зарабатывает деньги и как двигать метрики (добавлять ценность).

Задача TPM - всё это понимать и знать, что и когда нужно сделать, какие приоритеты и цели. Тогда инженеры и аналитики работают с максимальной эффективностью.

Конечно, многие команды обходятся без TPM, и, поскольку люди не глупые, они могут разобраться сами. Здесь начинается trade-off.

Кому-то больше нравится копаться в технических деталях, писать код. Для них все эти встречи со стейкхолдерами (бизнес-заказчиками) ни к чему. А кому-то же наоборот - легче ходить на митинги и обсуждать задачи.

Лично я вижу много пользы в TPM, который в курсе бизнес-контекста, текущих инициатив и фич. Он очень быстро может сказать, что нужно делать, а что - нет. И самое главное: когда он получает от дата‑команды результат, он будет безмерно рад и благодарен, и уж точно знает, как это конвертировать в epic story про достижения команды.

Но есть нюанс: TPM/PM должен быть очень вовлечён в работу. В какой-то степени он может быть «душным» для всех, зато точно знает, что нужно сделать, на каком этапе тот или иной проект и где затык. Он не будет зацикливаться на оформлении Pull Request или неправильном названии таблицы. Ему нужен результат - именно тот результат, за которые можно обоснованно просить повышение.

Поэтому я видел, как многие TPM/PM попадали под сокращение. Как правило, их «срубают» первыми. И тогда вся нагрузка ложится на технических лидов, линейных менеджеров, а может и на самих разработчиков. Это в принципе не страшно, но создаёт дополнительную нагрузку без какого‑либо стимула.

Для меня работать с product managers всегда жирный плюс. Я фокусируюсь на том, в чем я эксперт, они фокусирует на том, в чем они эксперты. Вот такой diversity я люблю.

А какое у вас отношение к TPM/PM в дата-командах?

Читать полностью…

Инжиниринг Данных

В приложение документ - Winning the Race: America’s AI Action Plan

Это 28‑страничная стратегия, представленная администрацией Дональда Трампа 23 июля 2025 г., определяющая ключевые шаги для укрепления лидерства США в сфере искусственного интеллекта. Он был опубликован одновременно с серией указов (Executive Order 14179 от 23 января 2025 г.), направленных на отмену ограничений предыдущих администраций и ускорение внедрения ИИ 

Автор и инициатор: Белый дом при участии — «потомственных» ИИ‑менеджеров, включая так называемых «ИИ и крипто‑царей», в первую очередь тех, кого назначил Трамп, например Давид Сакс (частый гость All In подкаста)


Основные акценты плана
Ускорение инноваций
— снятие регуляторных ограничений, поддержка стартапов и крупных компаний, стимулирование работы над ИИ‑моделями без «идеологического уклона»
.

Развитие инфраструктуры
— ускоренная постройка дата‑центров и полупроводниковых фабрик; снижены экологические барьеры и упрощены разрешительные процедуры.

Глобальное превосходство
— продвижение американской технологии за рубеж, борьба с китайским ИИ посредством дипломатии, экспортных инициатив и инвестиционных стимулов
.

Сейчас реально происходит AI гонка и США хочет взять лидерство. Интересно, что делает РФ?

Читать полностью…

Инжиниринг Данных

Simon из Advancing Analytics всегда делает классные видео, обычно они про Databricks, Azure, MLOps, всегда кратко и по делу, особенно что касается новых фич и их имплементацию.

В недавнем видео Data Engineering is Dead (Or How We Can Use AI to Avoid It...) он расписал примерный план по его мнению о влиянии AI на профессию инженеров данных.

От vibe кодинга до end-to-end разработки.

Осталось ждать не долго, посмотрим.

Пока дальше изучаем на практике, как AI помогает бизнесу, какие самые популярные use cases (с этим относительно просто, все делают одно и тоже), и какие задачи решаются в аналитики и какими инструментами.

Читать полностью…

Инжиниринг Данных

🐚 Обсудим AI для разработчиков c Яндексом

27 июля пройдёт AI Dev Day — первый митап Яндекса на эту тему. Мы обсудим, как AI-агенты ускоряют процессы, помогают разработчикам работать с кодом и автоматизировать рутинные задачи.

Это будет интересно разработчикам, которые ищут способы побороть рутину и писать код эффективнее.

Для этого мы подготовили 2 формата обмена опытом:

🟠 Доклады об инструментах AI Productivity. Спикеры расскажут, как внедрять AI в команды разных направлений и в каких случаях в этом нет необходимости

🟠 Lightning talks. Короткие выступления тех, кто попробовал AI в реальных проектах и готов подсветить свои успехи, провалы и актуальные инсайты

⏭️ Посмотреть программу и зарегистрироваться можно здесь: https://clck.ru/3NDjiV/?erid=2VtzqwKqzwr

Читать полностью…

Инжиниринг Данных

Как вы там осваивает vibe coding?

Читать полностью…

Инжиниринг Данных

Презентация про Snowflake Cortex AI, в который вы найдете AI возможности платформы Snowflake.

Все у кого есть снежинка трудятся над их внедрением, я пробовал некоторые из решений GenAI, ML, но все они одинаково плохо работали для меня из коробки.

Читать полностью…

Инжиниринг Данных

Сейчас во многих компаниях проводится quarterly performance reviews - то есть оценка вашей производительности как аналитика, менеджера, инженера.

Как правило, мы сами себе готовы поставить самый высокий балл из возможных, но менеджер вряд ли согласится с таким раскладом и в лучшем случае скажет meet expectations — типа всё оки, работаем дальше.

Как же быть в такой непростой ситуации?

* всегда документируйте свои достижения
* создавайте артефакты - документация, playbooks, технические документы (System Design), документы по принятию решений (DACI/RAPID)
* перед началом цикла уточните, каким образом можно будет измерять ваши цели, на что обращает внимание руководство
* во время каждой встречи 1:1 используйте время, чтобы оценить прогресс по вашим целям
* ищите возможность взять дополнительную ответственность, а главное - облегчить жизнь вашего линейного руководителя

Это базовые вещи, о которых мы часто забываем. Опасность кроется в другом - я называю это false expectations, когда мы сами себе придумываем цели и результат, много работаем на достижение этих целей, а потом оказывается, что это никому не нужно. Как результат - выгорание, потеря вовлечённости, поиск новой работы. Что вообще-то всегда хорошо лично для вас, потому что job security это миф.

Поэтому перед вами развилка - вы хотите играть в эту игру по корпоративным правилам, где важней видимость вашего труда, где есть конкретный impact на бизнес‑задачу в ущерб всему остальному. Или вы просто работаете в комфортном для вас режиме без каких-либо ожиданий.

А теперь посмотрим на обратную сторону медали, когда вы - менеджер и вам нужно оценивать ваших инженеров. Вам, скорее всего, придётся забыть, что вы сами были инженером и вас оценивали вдоль и поперёк.

* Вам нужно установить чёткие цели для команды и для каждого инженера в отдельности. Цели должны быть измеримы и иметь чёткий impact на бизнес, даже если мы говорим про обработку 50 гигабайт данных в оперативной памяти с помощью Pandas.
* 1:1 ‑ встречи - ваш главный инструмент для отслеживания и корректировки целей. Вам важно контролировать ситуацию, чтобы на performance review не было сюрпризов, которые потом выльются в увольнение инженеров.
* Общайтесь с другими департаментами, чтобы лучше понимать фидбек о вашей команде и инженерах
* Во время процесса оценки лучше разделить личностный рост и рост компенсации — не смешивайте эти две вещи
* Имейте чёткую карьерную лестницу с уровнями и ожиданиями от инженеров и помогите разобраться в ней вашим инженерам
* Старайтесь избегать эмоциональных ответов и прокачивайте soft skills. Если инженеру ещё простительно ляпнуть ерунду, то менеджеру уже нет.
* К сожалению, как и в HR, менеджеру важно думать, что будет хорошо для компании, а не для инженера
* Обязательно постарайтесь найти бюджет на команду, чтобы отправить их на курсы, конференции
* Найдите бюджет на team building - желательно не поход в кино, а недельную поездку к морю или экспедицию на Дальний Восток
* Если инженер себя переоценивает (все мы bias), то лучше сразу привести пример, почему он не прав
* При любом удобном случае хвалите команду
* Всегда учитесь, теперь вам надо понимать не только технические аспекты решения, но и психологию, эмоциональный интеллект. Читайте профессиональную литературу и прокачивайте soft skills.

Читать полностью…

Инжиниринг Данных

В комментарии к прошлому посту был вопрос:

В ETL-процессе на стадии Transform имеем много DAG’ов с большой Python-логикой, основанной на Pandas, внутри от аналитиков данных. В итоге такой типичный DAG занимает 30–50 ГБ RAM в Airflow и может отрабатывать несколько часов. Как такие DAG’и с Python внутри переносить на dbt?

Паттерн использования Airflow, чтобы выполнять Python (Pandas и т.п.), очень понятен и удобен, особенно если вы делаете пет-проекты, изучаете Airflow или Python. Возможно, это хороший вариант для небольшого MVP, но в продакшн лучше такое не тащить. У нас получается монолит, который трещит по швам, и из-за плохого запроса может всё упасть.

То есть, первое, что нужно сделать - признать проблему и признать факт, что данное решение не оптимально. Уже не важно, кто и почему хочет его использовать. Вопрос в том, какие есть альтернативы и как смигрировать с номинальным downtime для конечных пользователей.

На всякий случай для читателей - Airflow - это инструмент оркестрации. Он создан для того, чтобы запускать наши data pipelines (jobs) по расписанию. Это очень популярный инструмент в мире, и прям number one в РФ среди open-source инструментов. Его назначения - запускать задачи по расписанию.

Из-за того, что DAGs (jobs) мы пишем на Python, так и хочется сразу всё сделать внутри одного job. Но лучше так не делать.

Какие есть альтернативы? Конечно, среди них есть и dbt, но мы же не хотим на том же самом инстансе запускать dbt, где только что был Pandas.
1. Вместо Pandas можно попробовать PyArrow, Polars или DuckDB (pyduck) — просто ради интереса сравнить потребление памяти. Но в любом случае, мы не хотим запускать вычисления там же.
2. Вопрос про то, как мы хостим Airflow? Мы же можем использовать Managed Airflow в отечественном облаке, можем хостить на виртуальной машине, в контейнере или в поде (Kubernetes).
3. Например, если мы хотим дать возможность запускать Python/Pandas/DuckDB-скрипты, то нам всё равно нужно место, где это делать. Один из вариантов — использовать паттерн, в котором каждая программа (job/DAG) будет выполняться в своём контейнере. Например, мы запускаем DAG, а в нём task запускает Pod/Container с нашей логикой. Если не хватит памяти, то на Airflow это никак не повлияет.

Точно так же и dbt. Самый главный вопрос — где будет compute, который будет запускать dbt? В случае контейнеров и подов, можно просто запустить Airflow DAG, который возьмёт образ с dbt из регистра и запустит его.

А сама миграция с Pandas на dbt — это по сути миграция Pandas DataFrames на SQL. В dbt будет легче организовать модели (SQL-файлы), установить naming standards, добавить тесты и документацию. Появится lineage и зависимости.

Я, конечно, могу ошибаться, но когда я слышу про Pandas в проде - это мне напоминает «куяк-куяк — и в продакшн, потом починим»

А как у вас с custom Python, где вы его выполняете и что делаете, когда не хватает памяти?

Читать полностью…

Инжиниринг Данных

Сегодня выступил удаленно на митапе Юmoney в Питере про dbt, презентация https://docs.google.com/presentation/d/17deTqSeuSjHIVLIWxQ3QIt40o9gKL8k6bmg1WxtPmcU/edit?usp=sharing

Пример репозитория: https://github.com/dimoobraznii1986/dbt_workshop_vk/tree/main/models

Если есть вопросы, пишите в комментах.

Читать полностью…

Инжиниринг Данных

Как формальности мешают находить нужных людей

Сначала задаемся вопросом:
«Где все нормальные кандидаты?»

Потом публикуем вакансию:
«Молодой, активный джун, с опытом от 3 лет, высшим образованием».

Затем удивляемся, что откликов много, а толку мало.

Вместо того чтобы смотреть на то, умеет ли человек решать задачи,
мы продолжаем фильтровать по диплому, громкому тайтлу и опыту в годах.
Хотя сами прекрасно знаем: это всё давно не коррелирует с результатами.

В hh решили сделать шаг в сторону адекватности и выпустили гайд по навыкоцентричному найму.

Он про то, как перестать описывать вакансию формулой «ищем ответственного командного игрока с горящими глазами» и начать нанимать людей, которые реально умеют делать нужную работу.

Там не будет вдохновляющих лозунгов. Зато будет:
– как описывать задачи вместо обязанностей,
– как называть роли по сути, а не из разряда «менеджер проектов III категории»,
– как отладить скрининг и интервью, чтобы не зарываться в болтовню,
– и как выстроить рост внутри команды не по бюрократии, а по скиллам.

Можно читать, спорить, игнорировать, но лучше всё-таки читать и использовать в практике.

Читать полностью…

Инжиниринг Данных

Лето у членов сообщества surfalytics прям выдалось очень ударным! Люди получили оферы, удвоили доход или просто нашли свою первую реальную работу за достойную зарплату с современным стеком.

Особенно круто это видеть в прогрессе, ведь все активные ребята публикуют Weekly Update каждый понедельник в таком формате.

Как обычно мораль истории простая, будьте проактивны, ставьте реальные достижимые цели и достигайте их, иначе стагнация и деградация относительно рынка труда.

Особенно это важно делать, когда все хорошо - есть работа, стабильный доход и кажется, что настало время расслабиться, аааа нееееет😜

PS это не реклама, так как я на этом не зарабатываю, обычно у меня получается 400-1000CAD в месяц пассивного дохода от Surfalytics. Мне очень нравится сам концепт, что я вижу как ведет себя рынок в Европе, Северной Америке, РФ (если работать на за границей) и тп. Я верю, что чем больше мы даем, тем больше мы получаем обратно.

Сам Surfalytics это как membership в спортзал. Вы можете его купить и у вас будет доступ к лучшему оборудованию и тренерам, но если вам лень туда ходить постоянно, результата не будет. А кто справился с собственной мотивацией и дисциплиной, у того все будет зашибись🤑

Читать полностью…

Инжиниринг Данных

Гайд ролей BI разработчиков в Amazon

Читать полностью…

Инжиниринг Данных

Несмотря на то, что datalearn уже не развивается, несчитая редких, но очень интересных вебинаров (кстати, когда у нас про Dagster там следующий?☺️) и чата (@datalearn_chat) для студентов, я все еще считаю его отличной базой для самостоятельного изучения и вхождения в профессию связанную с аналитикой и дата инжинирингом для людей, которые не из мира ИТ, как я когда-то был.

PS ничто не принесет вам столько ништяков как создание бесплатных курсов👉 и я не устаю повторять - все самое лучшее бесплатное!💪

Публикую отзыв:

Все время думал, когда наступит тот самый день, когда я смогу написать вам отзыв :)

Зарегистрировался у вас, появился сайт Datalearn 2020, и я всё время мечтал работать в крутых компаниях или пользоваться такими инструментами, как у вас. Смотрел все ваши видео на сайте многое пригодилось, особенно при подготовке к собеседованиям. Всегда хотел быть инженером (как бы странно это ни звучало мне просто хотелось, чтобы в названии моей специальности обязательно было слово “инженер”).
Работал BI-разработчиком и дата-аналитиком (в IT-компаниях и банках), и вот спустя 5 лет, в 2025 году, наконец устроился в новые компании: сейчас работаю сразу в двух местах удалённо в одной аналитиком-инженером, в другой дата-инженером.
Могу с уверенностью сказать: этот путь может повторить любой, даже если идёте к цели очень медленно и не проявляете особой инициативы. Я сам долго не решался и не был самым активным, вокруг было много отличных специалистов и коллег, которые даже не пытались попробовать себя в чем-то новом. Но всё равно получилось главное, не сдаваться.
За 2024 год прошёл огромное количество собеседований примерно 50–60, и, признаюсь, часто “валился” именно на технических этапах. До этого я работал в совершенно других сферах: в банках обычным кредитным менеджером, мувером, менеджером по продажам. В IT пришёл только в 2020 году, когда мне было уже 33, случайно наткнулся на ваш сайт и тогда понял, кем действительно хочу быть.

Спасибо вашей команде и всем, кто развивает Даталерн, за знания и мотивацию. Благодаря вам я поверил, что поменять профессию и добиться своей цели реально даже если ты начинаешь не с нуля, а “с минуса”.

Если мой отзыв сможет вдохновить хотя бы одного человека не бояться перемен значит, всё было не зря!

Читать полностью…

Инжиниринг Данных

Мой любимый прием для async standup - использовать бота в Slack, который публикует сообщение и дальше все члены команды пишут свой update.

Ответьте в треде:

📝 Что вы успели сделать с момента последней встречи?
📝 Над чем планируете работать дальше?
📝 Какой у вас текущий статус?

✅ Не заблокирован
👋 Нужна помощь
🚫 Заблокирован


В целом мне нравится работать в 2х недельных спринтах (scrum).

Из обязательных встреч:
- Планирование спринта
- Sync в середине спринта

Retro я не люблю. Но в целом при определенных обстоятельствах полезно, если вы хотите докопаться до проблем в процессах и понять, что не работает и почему, чтобы улучшить в следующих спринтах.

В 1м модуле Surfalytics у меня есть урок про Agile для дата команд. Как правило все начинающие аналитики не знают как работать в Jira и аналогах, что такое спринт и другие базовые вещи.

Как у вас организован процесс?

Читать полностью…

Инжиниринг Данных

В свежей статье Cursor makes developers less effective автор затронул важную для разработчиков тему - помогает ли AI IDE делать работу быстрей?

Его пост написано основе исследования - Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity, в котором приняло 16 разработчиков. Разработчики решали 136 реальных задач. Им платили по 150$ в час за участие в эксперименте.



Что же интересного в исследовании?

📊 Главный результат: AI замедляет, вопреки ожиданиям
- Разработчики с AI-инструментами выполняли задачи на 19% дольше, чем те, кто работал без AI.
- При этом они ожидали ускорения на 24%, и даже после замедления считали, что ускорились на 20%.
- Это говорит о серьёзном разрыве между субъективным восприятием и объективной реальностью.


🧠 Почему AI-инструменты замедляют? Анализ от экспертов
Simon Willison:

У AI-инструментов высокий порог обучения. Пока разработчики встраивают их в свой процесс, производительность падает.


Quentin Anthony (PhD, участник исследования):
AI не ускоряет всех одинаково. Важнее не уровень навыков, а умение избежать ошибок в работе с AI.

LLM работают хорошо только на определённых типах задач. Например, плохо справляются с низкоуровневым системным кодом.

AI вызывает потери фокуса. Пока AI генерирует, легко отвлечься, например, на соцсети. Эти “30 секунд” превращаются в 30 минут.


🧠 Влияние переключения контекста и “выпадения из потока”
- Высокопродуктивная работа часто возникает в состоянии “потока”, когда разработчик полностью сосредоточен.
- AI может мешать этому состоянию, так как требует:
- постоянных ожиданий,
- промежуточной оценки предложений,
- частого переключения внимания.
- Эти контекстные переключения могут нивелировать любую экономию времени от генерации кода.


Я лично уже являюсь клиентом Cursor несколько месяцев, типовые задачи:
- Terraform, Terragrunt
- YAML файлы
- dbt модели
- Python
- Prot0buf
- Node.js
- идеи проектов для Surfalytics
- и тп

То есть все задачи уже работает в контексте готового решения, репозитория. То есть в роли contributor.

В Surfalytics сообществе пользователи разделились на три группы:
- Cursor
- VS Code + Claude Code
- бесплатные инструменты (free tier)

Согласно наши многочисленным собеседования никто пока не спрашивает и не требует знания AI или использования AI инструментов. Мне лично очень нравится работать с Cursor, даже если он иногда дает не правильный ответ, то это все равно удобней, чем гуглить или читать документацию🤪. И как говорят, общения с AI помогает войти в “поток”, главное начать.

А недавно я установил cursor старшему сыну (13 лет), показал как работает. Он довольно быстро насоздавали больше 1000 строк рабочего кода для Roblox Studio. Сразу видно, что мозг у нового поколения работает по другому и при правильном использовании AI возможности у них безграничные.

Параллельно с Cursor он изучает книгу Think Python и запускает код только в командной строке. А младший (8 лет) пока ковыряется в Music Lab от code.org. Вообще я хочу, чтобы они работали как команда и вместе строили проект, но пока трудно их вместе сорганизовать.

Читать полностью…

Инжиниринг Данных

Бесплатный курс по PostgreSQL от практиков рынка

Присоединяйтесь к бесплатному курсу по основам PostgreSQL от Selectel и Эльбрус Буткемп. Он будет полезен Junior- и Middle-специалистам: администраторам баз данных, разработчикам, DevOps-инженерам и аналитикам.
 
Вы научитесь:
🔹создавать и связывать таблицы,
🔹выполнять базовые операции с данными,
🔹работать с РСУБД.

Бонусы: вы можете получить сертификат о прохождении курса, а также промокоды для практики на мощностях Selectel.

Начните обучение уже сегодня.

Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzqwWX4Pi

Читать полностью…

Инжиниринг Данных

Как найти работу за рубежом, если страшно и непонятно, с чего начать?

Международный рынок открывает двери к крутым проектам, зарплатам в долларах и евро, но искать работу за границей долго, нудно и слишком сложно!

А самое главное, вообще непонятно, что делать. Правила рынка совсем другие. Здесь мало резюмешки на хэдхантере и рекрутеры за тобой не бегают толпами. Зато нужно заводить LinkedIn, искать рефералы, выискивать вакансии среди десятков джоб-бордов...

Разобраться самому почти невозможно. Зато есть такие ребята как AgileFluent 👇

Они уже 4 года помогают IT и Digital специалистам выйти на международный рынок. На их счету — 350+ офферов в 22 странах в такие компании как Amazon, Cisco, UniCredit, Revolut, FLO, Ferrero, N26, ALDI, Semrush, Wheely…

Они ведут крутой канал про международку, где делятся:
✔️ историями тех, кто переехал и зарабатывает в валюте,
✔️ разборами резюме и LinkedIn профилей,
✔️ персональными подборками вакансий,
✔️ гайдами и чек-листами по CV, CL, LinkedIn...

Если давно мечтал о работе за рубежом — это твой знак! Начни с их канала :)

👉 Подписывайся

Читать полностью…

Инжиниринг Данных

MWS Cloud запустила платформу для хранения и обработки данных, а также обучения ИИ - MWS Data Lakehouse.

Благодаря ей можно работать с любыми типами данных, в том числе неструктурированными и векторными. Это открывает возможность для создания единой среды для выполнения различных задач: от построения оперативных отчетов до обучения и инференса ML-моделей и LLM.

Платформа позволяет увеличить скорость обработки данных в 23 раза, использовать хранилище на 40% экономичнее и в два раза сократить время расчетов аналитических витрин. Поверх платформы можно запустить инструменты для обучения и инференса ML и больших языковых моделей.

Она также совместима с Greenplum и Postgres. Это позволяет компаниям сохранить накопленные данные и плавно мигрировать в новую инфраструктуру. Администрирование сервиса проходит через единый интерфейс. Через него можно централизованно управлять пользователями, кластерами и масштабирование. А встроены инструменты централизации контроля доступа, шифрования и динамического маскирования чувствительных данных делают платформу соответствующей всем требованиям ИБ.

Читать полностью…

Инжиниринг Данных

Смотря что понимать под вайб-кодингом. Если попытки делать сервисы, не имея ни малейшего технического кругозора и желания его получить, то нет - это тупик. Всегда говорю - если нейронка генерит тебе за раз больше 1-2к строк кода, то чаще всего лучше выкинуть этот код. Не потому что он плохой, а потому что ты, скорее всего, тупо не успеешь его переварить и окрылённый первыми успехами ("работает!") начнёшь наслаивать новые огромные куски. По итогу снежный ком, который тебя переедет. Потому что самое важное для меня - не отпускать чувство контроля над происходящим в моей же кодовой базе. Иначе (замечаю часто у Claude при всей её прелести) каждая новая просьба что-то исправить будет оборачиваться не исправлением существующего, а набрасыванием новых 300-400 строк кода. Я молчу про ситуацию, она очень частая, когда происходит сбой и нейронка переписывая огромный кусок попутно выпиливает нужные куски или тупо не дописывает новые - и как тут быть, если ты не контролируешь ситуацию, пребывая на чилле?

Совершенно другое для меня дело, когда с помощью вайб-кодинга ты подступаешься и буквально за несколько часов внедряешь фичи, о которых раньше мог только мечтать (не потому что фичи не подступные, а потому что у тебя никак не было времени сесть и подтянуть матчасть, чтобы вообще понять, с какой стороны заходить).

Вчера буквально была такая маленькая победа (для меня так, пусть и вызовет у опытных улыбку). Надо было очень быстро впилить TOTP-аутентификацию (те самые сгорающие 30-cекундные числовые пароли). Никогда я этого не касался, а благодаря нейронке страх пропал.

1. Сначала минут 30 поговорил с ней о том, как вообще устроена эта аутентификация. На выходе получил чёткое представление, при этом не боясь задавать кучу "глупых" вопросов, на которые сразу получил нужные ответы.

2. Вооружившись концептуальным пониманием предложил сначала доработать чисто бэкенд и рассказать (опять же в общих чертах), какие изменения были произведены в каждом файле.

3. Почитав это саммари и поняв, что в голове пазл складывается (для меня это главный маркер, если звучит логично, то в 99% случаев всё будет работать) попросил сразу написать весь набор тестовых сценариев. Чтобы ещё не приступая к фронту, через командную строку поделать запросы и убедиться, что сервер ведет себя ожидаемо (не принимает просроченные TOTP, принимает свежие пароли и т.д.).

Все тесты отработали как надо и тогда я уже двинулся к фронтенду. Сердце спокойно - на бэке все крутится.

При этом:
- все эти тест-кейсы и мои копипасты ответов командной строки тут же пошли в документацию
- на этом этапе я по-прежнему не погружен в детали кода, того, как написаны конкретные функции, что они делают и проч, но мне сейчас это и не нужно. Ведь главное у меня есть в голове механика и она подтверждена тестами. В детали кода погружусь позднее.

4. Пошёл делать фронт по тем же принципам что и бэк. С фронтом было заковыристее конечно. Тут реально глаз да глаз за нейронкой.

До прода не докатил ещё, ушёл на юбилей к другу, но локально всё работает как надо и сделано это где-то за 3-4 часа.

И это кайф. На этом примере я прям кожей почувствовал, что я работал с крутым напарником. Быстро, качественно. Нам не нужны были подмастерья, нам не нужны были тестировщики, нам не нужны были бесконечные стыки между командами бэка и фронта. Просто сели и сделали. Я впервые реально понял, что резать расходы на IT-персонал за счёт активного внедрения нейронок - это правильно, если они в правильных руках. Я реально не смог найти ни одного аргумента в пользу того, а зачем мне"живые" напарники при решении сегодняшней задачи.

Резюме. Ленивому, бездумному, не желающему вникать в суть логики и инструментов вайб-кодингу - бой. А вот осознанному, контролируемому, критически оцениваемому на каждом этапе - только зелёный свет.

Сорян за много букв, я ещё отхожу от юбилея друга и, что называется, "накатило" 😊

Читать полностью…

Инжиниринг Данных

Еще одна презентация Snowflake про интеграцию dbt проектов прям в Snowflake платформу. Это конечно мощненько и упрощает (в теории) множество процессов и совершенно бесплатно.

Надо еще добавить инструмент оркестрации удобный и набор коннекторов и вот вам полная платформа, которые закрывает 90% всех необходимостей дата команды.

Читать полностью…

Инжиниринг Данных

Пока мы фиксим Airflow DAGs, учимся не страдать и не выгорать на работе, тут такие страсти происходит, каких наверно data сообщество еще не встречало. Ну хоть какой-то движ в вендорах. Из последнего только Fivetran купил Census:)

Читать полностью…

Инжиниринг Данных

У нас были data drinks в Seattle, Chicago, LA, NY.

Теперь давайте сделаем в Париже, Ницце, Монако🌴

Как раз планировал там побывать в конце июля начале августа. Как обычно я сделаю группу, пишите если вы в тех краях и что-нибудь придумаем!

Читать полностью…

Инжиниринг Данных

Как уменьшить расходы на КХД в 7 раз и не отстать от AI гонки?

Нужно использовать КХД на архитектуре Lakehouse. 74% западных корпораций уже мигрировали на архитектуру Lakehouse, которая объединяет сильные стороны DWH и Data Lake, а также служит фундаментом для быстрого внедрения AI-инициатив.

Протестируйте VK Data Lakehouse — КХД нового поколения для уменьшения стоимости хранения данных и ускорения аналитики до 10 раз.

→ Дешевое хранение данных в S3-хранилище. Стоимость хранения 1 ГБ с репликацией в облаке уменьшается в 10 раз — с 30 до 3 рублей по сравнению с DWH.

→ Транзакционность для данных в S3-хранилище. Табличный формат поверх S3 обеспечивает ACID и полноценную работу в сценариях DWH.

→ Ускорение аналитики. MPP SQL-движок для параллельной работы с данными из разных источников без тяжелого ETL.

→ Уменьшение расходов за счет разделения compute и storage. Платите только за то, что используете. Нет затрат на простаивающие ресурсы.

→ Линейный рост затрат вместо экспоненциального при масштабировании.

→ Не нужно содержать отдельные команды под DWH и Data Lake.


→ Универсальное решение для работы с любым объемом данных. От гигабайт до сотен петабайт. Без сложного масштабирования и миграций.

→ Работа с ML становится быстрее без рисков уронить DWH. DS команда может экспериментировать с ad hoc запросами без опаски уронить DWH и BI.

Чтобы получить до 150 000 бонусных рублей для тестирования VK Data Lakehouse в VK Cloud с поддержкой архитекторов:

👉Оставляйте заявку

Будем рядом на всех этапах пилота и поможем довести MVP до результата.

Читать полностью…

Инжиниринг Данных

https://www.ssp.sh/brain/data-engineering-toolkit/

Очередной сборник всяких там ресурсов и инструментов для DE. От которого ни холодно ни жарко, но красиво.

Приходите вы в 1й класс, а вам говорят - вон там библиотека, help yourself, my dear 😜

Читать полностью…

Инжиниринг Данных

Краткий обзор платформы данных Т-Банка (Рубрика #Data)

Прочитал интересную статью от коллег про про нашу data platform. Если обобщать достаточно длинную статью, то можно отметить, что платформа данных Т-Банка эволюционировала более 18 лет, следуя общеотраслевым трендам. Компания постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — к современным Lakehouse-архитектурам. Платформа сейчас обслуживает более 17 тысяч пользователей и обрабатывает свыше 144 млн запросов в месяц, что требует постоянного развития масштабируемости и производительности. Текущая архитектура включает 19 ключевых систем, которые обеспечивают полный жизненный цикл работы с данными — от сбора до визуализации и обеспечения безопасности. Вот как они сгруппированны

1. Сбор и транспортировка данных
- Data Replication: BODS (legacy) и Chrono для пакетной и потоковой репликации
- Event Sourcing: SDP (Streaming Data Transfer Platform) на основе принципов Data Mesh
- Reverse ETL: Spheradian для возврата данных в операционные системы с латентностью до 100 мс
2. Хранение данных
- Data Warehouse: GreenPlum как основная СУБД (15 кластеров, 1,7 ПБ данных)
- LakeHouse: Spark/Trino + S3 с несколькими вычислительными движками
- Real-Time Analytics: ClickHouse для быстрой аналитики на больших таблицах
3. Обработка и трансформация
- Streaming Processing: Unicorn (на Apache Flink) и NiFi
- Workflow Management: TEDI (на Apache Airflow) и Moebius для оркестрации
- Analytics Tools: Proteus (на Apache Superset) для дашбордов и Helicopter для совместной работы
4. Управление данными
- Data Discovery: Data Detective для поиска и каталогизации
- Data Governance: Data Contracts для управления поставками данных
- Data Observability: DQ Tools для контроля качества и Data Incident Management
- Data Security: SLH для управления доступом к чувствительным данным

Если хочется узнать больше, то можно почитать статью и позадавать вопросы в комментариях.

#Data #Database #Architecture #Software #Engineering #PlatformEngineering

Читать полностью…

Инжиниринг Данных

Кто создает будущее: исследователи или бизнес?

Дискуссия с экспертами в области искусственного интеллекта:
🔶 Иван Оселедец, генеральный директор института AIRI
🔶 Андрей Рыбинцев, старший директор по ИИ в Авито

Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических трансформаций общества.

📅 17 июля, 19:00
📍 офис Авито в Москве и онлайн
➡️ заявка на участие по
ссылке

Авито приглашает студентов и исследователей на дискуссию о развитии карьеры и выборе пути в сфере ИИ. А после паблик-тока — на неформальный вечер с экспертами, где участники смогут задать вопросы и наладить полезные контакты.

Эксперты обсудят:
- Что дает наука бизнесу и может ли современный технологический сектор развиваться без фундаментальных исследований?
- Как происходит трансфер технологий в области ИИ из науки в коммерческий сектор и обратно?
- Как начинающему специалисту выбрать между академической карьерой и работой в бизнесе?
- Какие возможности открываются для молодых специалистов от сотрудничества науки и бизнеса?

Приглашаем для полезного нетворкинга, новых знакомств и возможности получить ответы на ваши вопросы напрямую от экспертов рынка!

Подать заявку на участие можно по ссылке – места ограничены, участники будут подтверждены исходя из темы дискуссии. Для подтверждения придет приглашение на почту. А все желающие смогут следить за трансляцией онлайн.

Читать полностью…

Инжиниринг Данных

🔥 Дата-инженеры, встречаемся на митапе ЮMoney

Приходите на митап High SQL — он пройдёт 15 июля в 19:00 (по мск) офлайн в Санкт-Петербурге и онлайн из любой точки мира. Вот о чём поговорим со спикерами из ЮMoney и приглашённым экспертом Дмитрием Аношиным:

🟣101 Performance Tuning: невредные советы. Проверяем и анализируем самые популярные советы по оптимизации хранилищ на основе реляционных баз данных.

🟣Качество данных: от осознания до реализации. Если вы тоже сталкивались с ошибками в отчётах, дублированием данных и недоверием к аналитике, этот доклад для вас.

🟣Обзор фреймворка DBT и примеры его использования. Почему он стал таким популярным? Рассмотрим основные возможности DBT, альтернативы и как DBT используют в дата-командах.

Участие бесплатное, но нужно зарегистрироваться на сайте.

Читать полностью…

Инжиниринг Данных

Клуб одиноких аналитиков 🔞

Мы тут с Аней обменивались опытом дейтинга, выдвигали гипотезы, как найти нормального мужика целевую аудиторию и повысить конверсию.

Тут непаханое поле для аналитики, много аналогий с бизнесом.

📊Воронка:
Мэтч → Переписка → Первое свидание → "Третье" свидание → Отношения

Один мой друг, назовем его Алексей, делился статистикой:
- конверсия из мэтча в переписку — 42%
- из переписки в первое свидание — 23%
- до "третьего" свидания — 13%

Мы все-таки не просто про секс, а про цель найти вторую половину, серьезные отношения и свадьбу, но тут конверсия 0,01%

Теперь простой расчёт: Хочешь отношения? Будь добр свайпать пока не получишь 400 мэтчей 🤷🏽‍♂️

📊Каналы привлечения
Вместо одного Тиндера теперь стоит пробовать разные приложения: Pure, Mamba, Twinby, VK знакомства. Сравнивать конверсию с учетом вашего возрастного сегмента и интересов. И не забываем про офлайн - там воронка отличается.

А еще по аналогии со старой и новой клиентской базой - френдзона! Все ваши симпатии из прошлого, которые сейчас тоже могут быть в поиске. Иногда достаточно пары сообщений, чтобы дойти до «К тебе или ко мне?» без всех этих свайпов.


В любой непонятной ситуации мы делаем дашборд. Вышло аж в двух версиях (у мужчин и женщин метрики разные)

🤓 Если вы тоже вместо встреч с незнакомыми людьми хотите провести вечер за анализом графиков — ставьте ❤️ и пишите ваши предложения по метрикам любви

Читать полностью…

Инжиниринг Данных

Найден годный конспект по LLM на русском языке

Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтобы понять принцип работы современных моделей. Что внутри, если кратко:

– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения
– RL – с нуля до обучения ризонинг-моделей типа o3
– И даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.

Все – в иллюстрациях, схемах и интуитивно понятных примерах. Для наглядности прикладываю несколько страниц.

Забрать полную pdf-версию абсолютно бесплатно можно здесь

Читать полностью…
Subscribe to a channel