23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
В комментарии к прошлому посту был вопрос:
В ETL-процессе на стадии Transform имеем много DAG’ов с большой Python-логикой, основанной на Pandas, внутри от аналитиков данных. В итоге такой типичный DAG занимает 30–50 ГБ RAM в Airflow и может отрабатывать несколько часов. Как такие DAG’и с Python внутри переносить на dbt?
Паттерн использования Airflow, чтобы выполнять Python (Pandas и т.п.), очень понятен и удобен, особенно если вы делаете пет-проекты, изучаете Airflow или Python. Возможно, это хороший вариант для небольшого MVP, но в продакшн лучше такое не тащить. У нас получается монолит, который трещит по швам, и из-за плохого запроса может всё упасть.
То есть, первое, что нужно сделать - признать проблему и признать факт, что данное решение не оптимально. Уже не важно, кто и почему хочет его использовать. Вопрос в том, какие есть альтернативы и как смигрировать с номинальным downtime для конечных пользователей.
На всякий случай для читателей - Airflow - это инструмент оркестрации. Он создан для того, чтобы запускать наши data pipelines (jobs) по расписанию. Это очень популярный инструмент в мире, и прям number one в РФ среди open-source инструментов. Его назначения - запускать задачи по расписанию.
Из-за того, что DAGs (jobs) мы пишем на Python, так и хочется сразу всё сделать внутри одного job. Но лучше так не делать.
Какие есть альтернативы? Конечно, среди них есть и dbt, но мы же не хотим на том же самом инстансе запускать dbt, где только что был Pandas.
1. Вместо Pandas можно попробовать PyArrow, Polars или DuckDB (pyduck) — просто ради интереса сравнить потребление памяти. Но в любом случае, мы не хотим запускать вычисления там же.
2. Вопрос про то, как мы хостим Airflow? Мы же можем использовать Managed Airflow в отечественном облаке, можем хостить на виртуальной машине, в контейнере или в поде (Kubernetes).
3. Например, если мы хотим дать возможность запускать Python/Pandas/DuckDB-скрипты, то нам всё равно нужно место, где это делать. Один из вариантов — использовать паттерн, в котором каждая программа (job/DAG) будет выполняться в своём контейнере. Например, мы запускаем DAG, а в нём task запускает Pod/Container с нашей логикой. Если не хватит памяти, то на Airflow это никак не повлияет.
Точно так же и dbt. Самый главный вопрос — где будет compute, который будет запускать dbt? В случае контейнеров и подов, можно просто запустить Airflow DAG, который возьмёт образ с dbt из регистра и запустит его.
А сама миграция с Pandas на dbt — это по сути миграция Pandas DataFrames на SQL. В dbt будет легче организовать модели (SQL-файлы), установить naming standards, добавить тесты и документацию. Появится lineage и зависимости.
Я, конечно, могу ошибаться, но когда я слышу про Pandas в проде - это мне напоминает «куяк-куяк — и в продакшн, потом починим»
А как у вас с custom Python, где вы его выполняете и что делаете, когда не хватает памяти?
Сегодня выступил удаленно на митапе Юmoney в Питере про dbt, презентация https://docs.google.com/presentation/d/17deTqSeuSjHIVLIWxQ3QIt40o9gKL8k6bmg1WxtPmcU/edit?usp=sharing
Пример репозитория: https://github.com/dimoobraznii1986/dbt_workshop_vk/tree/main/models
Если есть вопросы, пишите в комментах.
Как формальности мешают находить нужных людей
Сначала задаемся вопросом:
«Где все нормальные кандидаты?»
Потом публикуем вакансию:
«Молодой, активный джун, с опытом от 3 лет, высшим образованием».
Затем удивляемся, что откликов много, а толку мало.
Вместо того чтобы смотреть на то, умеет ли человек решать задачи,
мы продолжаем фильтровать по диплому, громкому тайтлу и опыту в годах.
Хотя сами прекрасно знаем: это всё давно не коррелирует с результатами.
В hh решили сделать шаг в сторону адекватности и выпустили гайд по навыкоцентричному найму.
Он про то, как перестать описывать вакансию формулой «ищем ответственного командного игрока с горящими глазами» и начать нанимать людей, которые реально умеют делать нужную работу.
Там не будет вдохновляющих лозунгов. Зато будет:
– как описывать задачи вместо обязанностей,
– как называть роли по сути, а не из разряда «менеджер проектов III категории»,
– как отладить скрининг и интервью, чтобы не зарываться в болтовню,
– и как выстроить рост внутри команды не по бюрократии, а по скиллам.
Можно читать, спорить, игнорировать, но лучше всё-таки читать и использовать в практике.
Лето у членов сообщества surfalytics прям выдалось очень ударным! Люди получили оферы, удвоили доход или просто нашли свою первую реальную работу за достойную зарплату с современным стеком.
Особенно круто это видеть в прогрессе, ведь все активные ребята публикуют Weekly Update каждый понедельник в таком формате.
Как обычно мораль истории простая, будьте проактивны, ставьте реальные достижимые цели и достигайте их, иначе стагнация и деградация относительно рынка труда.
Особенно это важно делать, когда все хорошо - есть работа, стабильный доход и кажется, что настало время расслабиться, аааа нееееет😜
PS это не реклама, так как я на этом не зарабатываю, обычно у меня получается 400-1000CAD в месяц пассивного дохода от Surfalytics. Мне очень нравится сам концепт, что я вижу как ведет себя рынок в Европе, Северной Америке, РФ (если работать на за границей) и тп. Я верю, что чем больше мы даем, тем больше мы получаем обратно.
Сам Surfalytics это как membership в спортзал. Вы можете его купить и у вас будет доступ к лучшему оборудованию и тренерам, но если вам лень туда ходить постоянно, результата не будет. А кто справился с собственной мотивацией и дисциплиной, у того все будет зашибись🤑
Несмотря на то, что datalearn уже не развивается, несчитая редких, но очень интересных вебинаров (кстати, когда у нас про Dagster там следующий?☺️) и чата (@datalearn_chat) для студентов, я все еще считаю его отличной базой для самостоятельного изучения и вхождения в профессию связанную с аналитикой и дата инжинирингом для людей, которые не из мира ИТ, как я когда-то был.
PS ничто не принесет вам столько ништяков как создание бесплатных курсов👉 и я не устаю повторять - все самое лучшее бесплатное!💪
Публикую отзыв:
Все время думал, когда наступит тот самый день, когда я смогу написать вам отзыв :)
Зарегистрировался у вас, появился сайт Datalearn 2020, и я всё время мечтал работать в крутых компаниях или пользоваться такими инструментами, как у вас. Смотрел все ваши видео на сайте многое пригодилось, особенно при подготовке к собеседованиям. Всегда хотел быть инженером (как бы странно это ни звучало мне просто хотелось, чтобы в названии моей специальности обязательно было слово “инженер”).
Работал BI-разработчиком и дата-аналитиком (в IT-компаниях и банках), и вот спустя 5 лет, в 2025 году, наконец устроился в новые компании: сейчас работаю сразу в двух местах удалённо в одной аналитиком-инженером, в другой дата-инженером.
Могу с уверенностью сказать: этот путь может повторить любой, даже если идёте к цели очень медленно и не проявляете особой инициативы. Я сам долго не решался и не был самым активным, вокруг было много отличных специалистов и коллег, которые даже не пытались попробовать себя в чем-то новом. Но всё равно получилось главное, не сдаваться.
За 2024 год прошёл огромное количество собеседований примерно 50–60, и, признаюсь, часто “валился” именно на технических этапах. До этого я работал в совершенно других сферах: в банках обычным кредитным менеджером, мувером, менеджером по продажам. В IT пришёл только в 2020 году, когда мне было уже 33, случайно наткнулся на ваш сайт и тогда понял, кем действительно хочу быть.
Спасибо вашей команде и всем, кто развивает Даталерн, за знания и мотивацию. Благодаря вам я поверил, что поменять профессию и добиться своей цели реально даже если ты начинаешь не с нуля, а “с минуса”.
Если мой отзыв сможет вдохновить хотя бы одного человека не бояться перемен значит, всё было не зря!
Мой любимый прием для async standup - использовать бота в Slack, который публикует сообщение и дальше все члены команды пишут свой update.
Ответьте в треде:
📝 Что вы успели сделать с момента последней встречи?
📝 Над чем планируете работать дальше?
📝 Какой у вас текущий статус?
✅ Не заблокирован
👋 Нужна помощь
🚫 Заблокирован
В целом мне нравится работать в 2х недельных спринтах (scrum).
Из обязательных встреч:
- Планирование спринта
- Sync в середине спринта
Retro я не люблю. Но в целом при определенных обстоятельствах полезно, если вы хотите докопаться до проблем в процессах и понять, что не работает и почему, чтобы улучшить в следующих спринтах.
В 1м модуле Surfalytics у меня есть урок про Agile для дата команд. Как правило все начинающие аналитики не знают как работать в Jira и аналогах, что такое спринт и другие базовые вещи.
Как у вас организован процесс?
Как можно писать про Инжиниринг Данных и не инвестировать в отечественные компании?! Сегодня я купил 1000 акций Аренадата.
Ради эксперимента, я хочу закинуть млн рублей на различный акции Российский компаний через Т-банк приложение. Правда почему-то 50% хочется вложить в Яндекс.
Кто куда инвестирует?
Провели с женой несколько дней без детей в Чикаго, красивый город с настоящей американской архитектурой и богатой историей. Даже встретился с одним подписчиком, который уже 15 лет живет в Чикаго и мы выпили Мичиганского сидра и сравнили Канаду и США в плане жизни и работы.
Музыка Робби Вильямс потому что мы посмотрели классный фильм про него - Быть Лучше.
Это странное слово ДЖУН
Я никогда особенно не задумывался, в какой момент на ИТ рынке появилась эта странная градация на джунов, мидлов и синьоров, но вот сейчас тут и там натыкаешься на вселенский вой и заламывание виртуальных рук: джунов перестают брать на работу.
Причины называются разные и все они разной степени фантазийности. Особенно доставляет сваливать все на ИИ (хотя сейчас все на него сваливают). Но нигде не звучит гипотеза, что процесс был изначально предопределен без всякого ИИ и что ситуация развивается вполне гармонично.
Причина, как мне представляется, проста – в какой-то момент на рынке разработчиков возник дефицит рабочих рук и компании начали нанимать, грубо говоря, кого попало. А еще точнее – от безысходности брать учеников и доучивать их за свой счет.
Так было в моем, еще советском детстве, когда на каждой промышленной проходной требовались токари и фрезеровщики, а про инженеров часто вообще не было ни строчки. Потому что рабочих не хватало, а инженерами (о деятельности которых одних анекдотов было почти как про Чапаева и Петьку) были все укомплектованы под завязку.
Как следствие – заводы и фабрики набирали учеников слесаря или токаря, чтобы учить его, пришедшего с улицы, за свой счет (допускаю, что иногда на зарплату больше инженерной), а вот учеников инженера никто не звал.
С программистами происходило приблизительно так же. С массовым сумасшествием в виде срочных курсов подготовки «кого хочешь, но шо б в ИТ». А уж HR-ы постарались придать всему этому некий лоск (согласитесь, что стрёмно как-то заявлять о том, что занимаюсь наймом ученика программиста, а вот джун – уже звучит гордо и солидно. Не говоря уже о самих учениках).
А потом спрос начал падать (масса объективных факторов) и вдруг оказалось, что ученики уже не требуются. Ну и крупные компании, конечно, сумели худо бедно выстроить системы подготовки нормальных инженеров и разработчиков под себя (как раньше при заводах и фабриках были просто собственные ПТУ и техникумы) и перестали брыть тех, кто ничего толком не умеет + еще и не знает предметной области.
И это хорошо.
Потому как профессии в ИТ это ж не только про опыт. Это еще и про талант. Про склонность. Просто про способность. Пусть будет деление на сильных, нормальных и непригодных (иди доучивайся до нормальности), а не вот это все.
Я когда то тоже получал диплом программиста в ВУЗе, где преподавание программирования было на высоком уровне. Мой факультет (курс 50 человек), например, например, заканчивали и Сергей, и Борис Нуралиевы. И свои пятерки по этим профильным специальностям я имел. И даже был готов связать свою судьбу с программированием... Но ровно до того момента, когда я столкнулся с настоящими программистами. По таланту и призванию.
И мне быстро стало ясно, что для меня это вообще недостижимый космос. И это не был вопрос времени, «когда я научусь так же». Было понятно, что не научусь никогда, потому как мы с ними просто в разных плоскостях, в разных измерениях и разных лигах. И буду я, в лучшем случае, не очень счастливым программистом-ремесленником.
А сейчас на улице окажутся толпы неприкаянных, поверивших в то, что «спрос на ИТ будет всегда» и будут всячески оправдывать свой неправильный выбор массой глупостей. А журналисты будут эти глупости транслировать. А курсы переподготовки для получения новой «манны небесной» выкатят убедительные доказательства новых профессий будущего.
Я бы, как футбольный болельщик, конечно же, предложил бы им переключиться с ИТ на обучение футболу. Вы каждого первого болельщика или футбольного функционера спросите и он вам расскажет, как драматически не хватает хороших российских игроков в нашем футболе. С цифрами и диаграммами.
И дел то всего... Правила простые. Зарплаты огромные. Бегать быстро. Мячик пинать поточнее. Вы что, во дворе в футбол не играли? Просто немного прокачаться на курсах надо. Полугодовых.
В общем жалко джунов. Они, похоже, единственные обманутые в этой истории.
Список чтения на летние каникулы
В прошлый раз Ваш покорный слуга публиковал «список для чтения» на зимние каникулы, сегодня продолжаем эту нерегулярную рубрику, тем более что «морганы» опубликовали «официальный список для чтения на 2025», так что это можно уже считать трендом.
Летнее уточнение: на эти каникулы у нас в меню не только финансы, но ещё и другое всякое полезное, до чего не доходили руки ранее. Традиционное предупреждение: это неприятный список, и в нём нет книг типа «Как клеить тёлочек для идиотов» или «Большое бабло для чайников», ну и прочего шлака из серии «богатеть — это просто».
Про «как инвестировать и не сойти с ума». Взаимодействие с финансовыми рынками (в любой форме, включая инвестиции и трейдинг) обычно вскрывает в человеке все его глюки, тараканов, недостатки и пороки. А потом рынок этим компроматом пользуется вовсю, чтобы довести юзверя до депрессии, алкоголизма, лудомании, выхода в окно или (по)читания какого-нибудь «Кристалла Прироста». Не надо так, надо работать над собой:
1. Бретт Стинбарджер: «Психология трейдинга». Книга не про трейдинг, а про психику под нагрузкой, от человека, который реально работал с хедж-фондами, шоуменами и профессиональными спортсменами. Невероятно полезная штука для супруга/супруги того, кто в семье инвестирует (если трейдит, работает в шоубизе или в реальном бизнесе — тем более): может реально спасти (и проапгрейдить) брак хотя бы за счёт создания «мостика понимания» и вдумчивой эмпатии к тому, кого риск и стресс долбит по мозгам и психике.
2. Питер Линч: «Метод Питера Линча». Мой подход не очень пересекается с подходом Линча, но Линч — это отличное лекарство от обывательского ступора при попытке начать думать об инвестициях. Много здравого смысла + много «хаков» = польза, правда, для российской реальности придётся допиливать напильником, но это часть фана.
После публикации «Учебника Корпоративной Скотины», спрашивают, где ещё можно учиться продажам (своего времени, талантов, товаров, услуг), кроме как на курсах впаривания пылесосов или у Чалдини:
3. Alex Hormozi: "$100M Offers" - больше подойдёт для бизнесменов, но каждый, кто продаёт свой труд или время — в той же лодке, просто не все это понимают. Это справочник методов продажи чего угодно и кому угодно.
4. Кирилл "Гуру" Стрельников -> Если вам нужно (а вам НУЖНО) продать время, труд, товар, услугу или даже себя любимого в любом качестве, то для этого потребуются слова на экране, на бумаге или в личном общении. Это по сути энциклопедия большого личного опыта складывания слов в нужные комбинации, от рекламы для Хайнекен или Рено и до заказов со Старой площади.
После подкаста с ув. Асафьевым поступило некоторое количество вопросов от ув. айтишников, по поводу «а как тогда жить-то и думать-то?». Рефы для вас:
5. Энни Дьюк: «Принцип ставок». Очень многие «технари» (но не только они) болеют «шахматным» (детерминированно-алгоритмичным) мышлением, которое гарантирует (вот прямо гарантирует) проблемы в личных отношениях, карьере и на финансовых рынках. Жизнь (и люди, из которых жизнь состоит) — это НЕ шахматы, это намного ближе к покеру — игре несправедливой, нелинейной, слегка рэндомной, неоднозначной и трудно поддающейся «лобовой» оптимизации. Книга — база «покерного» мышления применительно к жизни.
6. Антон Волков: «Точка сборки» -> Гейм-дизайнер, миллиардер, венчурный инвестор, который может «на айтишном» объяснить, почему «методичкоголвость» — это не айс для жизни. Почти гарантировано, что по любой стереотипной теме из жизни корпоративного кодера там что-нибудь есть (обидное, но практичное). Многим, имхо, стоит прочитать про «Самоизгнание из внутреннего «села» и Департамент Доказательств а дальше уже как пойдёт.
Приятного чтения.
Если у вы используете GitHub, то вы можете добавить Copilot, и он будет писать свой PR description и рассказывать какие файлы поменялись.
Так же можно использовать copilot, чтобы он за вас писал описание PR
Есть и другие способы интегрировать LLMs в ваш code review процесс. Можно использовать свой бот, можно использовать готовые решения от AWS, Anthropic и тд.
При желании можно даже разрешить агентам редактировать код за вас, но тогда уже не найти концов. Такое мы в проде нигде не используем.
Как у вас проходит code review?
В последнем выпуске подкаста All-In подняли интересную тему связанную с обучением. Как известно в США самое дорогое (и возможно престижное) образование. Оно дорогое не только для иностранных студентов, но и для местных. У университетов есть рейтинг, чем круче университет, тем дороже. Вроде бы все логично.
Но что происходит последние годы?
Цитата из подкаста:
«Потому что обещание, которое мы дали в Америке — это Американская мечта: если ты поступишь в колледж, ты выпустишься, будешь зарабатывать, у тебя будет стабильность, ты сможешь купить дом.»
Я думаю сейчас это относится не только к образованию в США, но и во всем мире. Известный факт, что большинство выпускников в США выпускаются с огромным долгом, так называемый студенческий кредит. У меня много коллег все еще его выплачивают.
«Люди могли поступить в университет, и выпуститься с долгом в 200–300 тысяч долларов, а потом никогда не получить работу. Этот парень никогда не имел настоящей работы. И это правда для 32 миллионов молодых американцев.»
«У всех у них так называемый “отрицательный капитал”. У них есть долги, и они никогда не смогут выбраться из этого круга.»
Получается, что в большинстве случаев высшее образование вам ничего не гарантирует, кроме огромных долгов. А есть еще программы переквалификации, магистратуры, MBA - все это стоит очень дорого.
Например, ко мне на Surfalytics иногда залетают ребята с топового канадского MBA, но у них совершенно нет скилов для поиска работы, да и скилов, чтобы эту работу делать. Они потратили огромный капитал на образование, жилье, и на выходе у них есть строчка в резюме и профессиональная портретная фотка, которую всем делает в университете. Им обязательно проведут курсы по составлению резюме и поиску работу. Обычно это делают люди, которые сами никогда работу не искали.
Таким образом получается, что высшее образование необходимо, оно дорогое, но совершенно ничего не гарантируют. В каждый конкретный момент, есть рабочие варианты, например, сейчас студенты Computer Science еще могут рассчитывать на стажировку в BigTech компаниях и последующее трудоустройство. А как будет через 5-10 лет?
В Чикагском Культорном центре, есть зал - Preston Bradley Hall с куполом из витражей Tiffany - крупнейшим в мире стеклянным куполом ручной работы.
Под куполом цитата:
Books are the legacies that a great genius leaves to mankind, which are delivered down from generation to generation as presents to posterity.”
«Книги — это наследие, которое великий гений оставляет человечеству и которое передаётся из поколения в поколение как дар потомкам.»
Несмотря на обилие контента, видео, аудио, книги все еще являются самым лучшим способом, чтобы делиться информацией, учиться, ну и оставлять дар потомкам.
Я выбирал курсы на лето для детей 10+ лет связанные с CS и AI.
Самый лучший вариант будет курс CS50 от Harvard на английском https://www.edx.org/cs50, там есть несколько курсов и все они хорошие, включая Python и AI.
Сегодня увидел в канале Минцифры пост про бесплатные курсы для школьников, обязательно воспользуйтесь!
Так же сегодня увидел цитату основателя антропика (claude) о том, что в 2026 году мы можем увидеть компанию единорог, в которой всего один основатель, а все остальное завязано на AI.
Хочу летом поближе детей познакомить с концептом vibe-coding и надеюсь они смогут закодить, что-нибудь прикольное. Думать абстракциями и давать инструкции (prompts) вместо написания кода намного веселей.
Что еще есть для детей по теме?
Как уменьшить расходы на КХД в 7 раз и не отстать от AI гонки?
Нужно использовать КХД на архитектуре Lakehouse. 74% западных корпораций уже мигрировали на архитектуру Lakehouse, которая объединяет сильные стороны DWH и Data Lake, а также служит фундаментом для быстрого внедрения AI-инициатив.
Протестируйте VK Data Lakehouse — КХД нового поколения для уменьшения стоимости хранения данных и ускорения аналитики до 10 раз.
→ Дешевое хранение данных в S3-хранилище. Стоимость хранения 1 ГБ с репликацией в облаке уменьшается в 10 раз — с 30 до 3 рублей по сравнению с DWH.
→ Транзакционность для данных в S3-хранилище. Табличный формат поверх S3 обеспечивает ACID и полноценную работу в сценариях DWH.
→ Ускорение аналитики. MPP SQL-движок для параллельной работы с данными из разных источников без тяжелого ETL.
→ Уменьшение расходов за счет разделения compute и storage. Платите только за то, что используете. Нет затрат на простаивающие ресурсы.
→ Линейный рост затрат вместо экспоненциального при масштабировании.
→ Не нужно содержать отдельные команды под DWH и Data Lake.
→ Универсальное решение для работы с любым объемом данных. От гигабайт до сотен петабайт. Без сложного масштабирования и миграций.
→ Работа с ML становится быстрее без рисков уронить DWH. DS команда может экспериментировать с ad hoc запросами без опаски уронить DWH и BI.
Чтобы получить до 150 000 бонусных рублей для тестирования VK Data Lakehouse в VK Cloud с поддержкой архитекторов:
👉Оставляйте заявку
Будем рядом на всех этапах пилота и поможем довести MVP до результата.
https://www.ssp.sh/brain/data-engineering-toolkit/
Очередной сборник всяких там ресурсов и инструментов для DE. От которого ни холодно ни жарко, но красиво.
Приходите вы в 1й класс, а вам говорят - вон там библиотека, help yourself, my dear 😜
Краткий обзор платформы данных Т-Банка (Рубрика #Data)
Прочитал интересную статью от коллег про про нашу data platform. Если обобщать достаточно длинную статью, то можно отметить, что платформа данных Т-Банка эволюционировала более 18 лет, следуя общеотраслевым трендам. Компания постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — к современным Lakehouse-архитектурам. Платформа сейчас обслуживает более 17 тысяч пользователей и обрабатывает свыше 144 млн запросов в месяц, что требует постоянного развития масштабируемости и производительности. Текущая архитектура включает 19 ключевых систем, которые обеспечивают полный жизненный цикл работы с данными — от сбора до визуализации и обеспечения безопасности. Вот как они сгруппированны
1. Сбор и транспортировка данных
- Data Replication: BODS (legacy) и Chrono для пакетной и потоковой репликации
- Event Sourcing: SDP (Streaming Data Transfer Platform) на основе принципов Data Mesh
- Reverse ETL: Spheradian для возврата данных в операционные системы с латентностью до 100 мс
2. Хранение данных
- Data Warehouse: GreenPlum как основная СУБД (15 кластеров, 1,7 ПБ данных)
- LakeHouse: Spark/Trino + S3 с несколькими вычислительными движками
- Real-Time Analytics: ClickHouse для быстрой аналитики на больших таблицах
3. Обработка и трансформация
- Streaming Processing: Unicorn (на Apache Flink) и NiFi
- Workflow Management: TEDI (на Apache Airflow) и Moebius для оркестрации
- Analytics Tools: Proteus (на Apache Superset) для дашбордов и Helicopter для совместной работы
4. Управление данными
- Data Discovery: Data Detective для поиска и каталогизации
- Data Governance: Data Contracts для управления поставками данных
- Data Observability: DQ Tools для контроля качества и Data Incident Management
- Data Security: SLH для управления доступом к чувствительным данным
Если хочется узнать больше, то можно почитать статью и позадавать вопросы в комментариях.
#Data #Database #Architecture #Software #Engineering #PlatformEngineering
Кто создает будущее: исследователи или бизнес?
Дискуссия с экспертами в области искусственного интеллекта:
🔶 Иван Оселедец, генеральный директор института AIRI
🔶 Андрей Рыбинцев, старший директор по ИИ в Авито
Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических трансформаций общества.
📅 17 июля, 19:00
📍 офис Авито в Москве и онлайн
➡️ заявка на участие по ссылке
Авито приглашает студентов и исследователей на дискуссию о развитии карьеры и выборе пути в сфере ИИ. А после паблик-тока — на неформальный вечер с экспертами, где участники смогут задать вопросы и наладить полезные контакты.
Эксперты обсудят:
- Что дает наука бизнесу и может ли современный технологический сектор развиваться без фундаментальных исследований?
- Как происходит трансфер технологий в области ИИ из науки в коммерческий сектор и обратно?
- Как начинающему специалисту выбрать между академической карьерой и работой в бизнесе?
- Какие возможности открываются для молодых специалистов от сотрудничества науки и бизнеса?
Приглашаем для полезного нетворкинга, новых знакомств и возможности получить ответы на ваши вопросы напрямую от экспертов рынка!
Подать заявку на участие можно по ссылке – места ограничены, участники будут подтверждены исходя из темы дискуссии. Для подтверждения придет приглашение на почту. А все желающие смогут следить за трансляцией онлайн.
🔥 Дата-инженеры, встречаемся на митапе ЮMoney
Приходите на митап High SQL — он пройдёт 15 июля в 19:00 (по мск) офлайн в Санкт-Петербурге и онлайн из любой точки мира. Вот о чём поговорим со спикерами из ЮMoney и приглашённым экспертом Дмитрием Аношиным:
🟣101 Performance Tuning: невредные советы. Проверяем и анализируем самые популярные советы по оптимизации хранилищ на основе реляционных баз данных.
🟣Качество данных: от осознания до реализации. Если вы тоже сталкивались с ошибками в отчётах, дублированием данных и недоверием к аналитике, этот доклад для вас.
🟣Обзор фреймворка DBT и примеры его использования. Почему он стал таким популярным? Рассмотрим основные возможности DBT, альтернативы и как DBT используют в дата-командах.
✅ Участие бесплатное, но нужно зарегистрироваться на сайте.
Клуб одиноких аналитиков 🔞
Мы тут с Аней обменивались опытом дейтинга, выдвигали гипотезы, как найти нормального мужика целевую аудиторию и повысить конверсию.
Тут непаханое поле для аналитики, много аналогий с бизнесом.
📊Воронка:
Мэтч → Переписка → Первое свидание → "Третье" свидание → Отношения
Один мой друг, назовем его Алексей, делился статистикой:
- конверсия из мэтча в переписку — 42%
- из переписки в первое свидание — 23%
- до "третьего" свидания — 13%
Мы все-таки не просто про секс, а про цель найти вторую половину, серьезные отношения и свадьбу, но тут конверсия 0,01%
Теперь простой расчёт: Хочешь отношения? Будь добр свайпать пока не получишь 400 мэтчей 🤷🏽♂️
📊Каналы привлечения
Вместо одного Тиндера теперь стоит пробовать разные приложения: Pure, Mamba, Twinby, VK знакомства. Сравнивать конверсию с учетом вашего возрастного сегмента и интересов. И не забываем про офлайн - там воронка отличается.
А еще по аналогии со старой и новой клиентской базой - френдзона! Все ваши симпатии из прошлого, которые сейчас тоже могут быть в поиске. Иногда достаточно пары сообщений, чтобы дойти до «К тебе или ко мне?» без всех этих свайпов.
Найден годный конспект по LLM на русском языке
Авторы реально постарались, потому что раскрыто буквально все, что нужно, чтобы понять принцип работы современных моделей. Что внутри, если кратко:
– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения
– RL – с нуля до обучения ризонинг-моделей типа o3
– И даже полноценный гайд по тому, как самостоятельно зафайнтюнить модель.
Все – в иллюстрациях, схемах и интуитивно понятных примерах. Для наглядности прикладываю несколько страниц.
Забрать полную pdf-версию абсолютно бесплатно можно здесь
Bill Inmon написал у себя в LinkedIn откуда появился термин Хранилище Данных, а ChatGPT перевел:)
“Много лет назад я работал в консалтинговой компании под названием AMS. Я был у них консультантом и почти всё время проводил в разъездах.
В то время я выполнял проекты по заказу AMS для таких компаний, как Aetna Life and Casualty, Shell Canada и PacTel Cellular. Я проводил неделю в одном месте, затем следующую неделю — в другом. Я консультировал их по вопросам архитектуры данных.
У этих компаний были совершенно разные виды бизнеса. Почти ничего общего не было ни в том, чем они занимались, ни в том, как вели свою деятельность.
Что меня поразило — это то, что архитектура их корпоративных систем была абсолютно одинаковой. Можно было закрыть глаза в Хартфорде, штат Коннектикут, и представить себе архитектуру в Калгари, Канада, или в округе Ориндж, и она выглядела бы точно так же. Меня озадачило то, что архитектура не зависела от самого бизнеса.
Однажды я находился на встрече в Shell Canada. В комнате были Гэри Уорхолм, Донна Корриган, Херман Попго и я. Мы обсуждали архитектуру данных Shell Canada. Мы пытались найти слово, которое бы описывало то, что мы видим.
Я не помню, кто сказал это первым. Возможно, это был я. Возможно, кто-то другой. Я действительно не знаю. Но — как по волшебству — прозвучали слова «хранилище данных» (data warehouse). Они просто вырвались у кого-то с языка.
Эти слова казались отличным описанием того, с чем мы имели дело. И мы начали называть их архитектуру «хранилищем данных».
И с этого скромного и простого начала в Калгари, Канада, термин «хранилище данных» вскоре стал распространяться по стране, а затем и по всему миру.”
Кстати Бил живет в Денвере, я там буду в середине августа, ни у кого нет его адреса взять автограф?:) Я еще тут решил взять автограф у самого Джек Ма. У меня товарищ из Гонконга работает на него инвест банкиром в Ванкувере. Товарищ собирается уходить в свой бизнес и полетит к Джеку попрощаться, а я его упрашиваю попросить подписать книгу:)
У кого еще можно взять автограф?!
Читерство ради галочки — уже и тут
Кажется, читерят сейчас вообще везде: кто-то резюме раздувает, кто-то с нейросетью по вечерам собесы тренит. Ну ок.
Вот и в тестах на IT-навыки от hh тоже начали. Хотя, казалось бы, просто самопроверка: хочешь — проходишь, смотришь, где норм, а где просадки. А по факту? Ставят расширения, прогоняют вопросы через GPT, зовут друзей пройти за себя.
Всё ради красивой галочки… А потом на собесе выясняется, что без подсказок никак. И что тогда? Ходить с репутацией "На словах ты Лев Толстой, а на деле…" 🤡
Если хочется понять, где ты сейчас по скиллам, то почему бы и не попробовать сдать самому? А если галочка важнее понимания своих скиллов, не удивляйтесь, когда на собесе будет нечем крыть.
Ну прям clickbait заголовок - The 10x “overemployed” engineer у прагматичного инженера. Индус устроился в 22 стартапа Y Combinator. Вот это уровень. Это вам не 2-3 работы, где вам надо пахать 24/7, это уже ноль справа как у Гребенюка😂 Уже можно кино снимать по этому сценарию.
Тут конечно исключение, нужен был AI инженер. Я думаю он просто в какой-то момент потерял интерес и пустил все на самотек, такой quite quitting на максималках.
А сколько таких Сохамов трудится, огого!
Одно время я подумывал, что нужно делать AI стартап, чтобы экпозить всех over-employed в больших корпоратах, ну как экпозить, собрать денег с VC, продать идею в BigTech, нанять в команду 10х инженеров, натренировать на них модель по данным активностям онлайн/оффлайн и готово. Я думаю уже кто-то стрижет капусту на этом🤑
Как построить data-driven культуру, а не просто BI, в который никто не заходит?
🟣В прошлом посте я писала:
данные ≠ актив, если вы с ними ничего не делаете.
Но чтобы начали делать, нужна не просто BI-система.
Нужна культура.
И как и всё важное в бизнесе, она начинается с головы.
Я вообще выросла в аналитической среде.
Когда я начинала карьеру в консалтинге, ни Big Data, ни ChatGPT ещё не было,
но мышление
«данные → вывод → решение»
у нас тренировали так, как будто от этого зависела судьба миллионов (и иногда — правда зависела).
🟣Этот майндсет остался со мной до сих пор.
И я вижу: чем дальше, тем чаще компании говорят, что они аналитичные,
но при этом продолжают принимать решения на летучках в духе «ну по ощущениям».
А BI-системы — просто красивые панели, на которые никто не заходит.
Вот 5 элементов, которые реально помогают построить культуру решений на данных.
1️⃣ Всё начинается с фаундера и C-Level:
Если CEO говорит «я чувствую, что надо пушить эту фичу» и не дает задачу проверить гипотезу — всё, приехали.
Команда будет делать то же самое.
Data-driven культура начинается с того, что лидер принимает решения на данных.
✸ Он задаёт вопросы.
✸ Просит цифры.
✸ Не ведёт обсуждения в стиле «мне кажется».
2️⃣ Без инструментария — ничего не взлетит:
Не надо думать, что культура вырастет на энтузиазме.
Если у людей нет доступных и понятных дешбордов —
никакая data-driven культура не сложится.
Метрики должны быть:
✸ Привязаны к бизнес-целям
✸ Регулярно обновляемы
✸ С возможностью копать вглубь, а не просто «доход-расход»
Иначе всё закончится в Excel на 17 вкладок у одного аналитика.
3️⃣ Люди должны понимать, что их перформанс считают по данным:
Не метафорически, а буквально.
✸ Если в компании бонус зависит от бизнес-результатов —
значит, сотрудник должен видеть свои метрики.
✸ Если продуктовая команда оценивается по росту retention — она должна уметь его мерить, а не угадывать.
Когда оценка и рост человека связаны с метриками —
у него появляется привычка на них смотреть.
4️⃣ Нормализуйте «сначала смотрим → потом решаем»:
Я обожаю команды, в которых принято начинать обсуждение с цифр.
Прямо нормализовать это:
✸ Хотите запустить фичу? Где данные?
✸ Хочешь отключить воронку? Что на неё влияет?
✸ Думаешь, надо пушить что-то в маркетинге? Где проверка гипотез?
Это становится привычкой.
А привычка → поведение → культура.
5️⃣ Культуру нужно растить через обучение:
Если вы строите команду посильнее или у вас уже есть масштаб, то работа с данными = отдельная компетенция.
🟣 Что можно делать:
✸ Обучение по интерпретации ключевых метрик
✸ Мини-тренинги по юнитке, ретеншну, воронкам
✸ Кейсы «что сказали данные и к чему это привело»
✸ Отправлять на курсы или собирать внутренний чек-лист
Если компания маленькая — то хотя бы:
✸ Привычка делиться аналитикой
✸ 1 инсайт недели в чат
✸ Простые дешборды для всей команды
🟣 Пример
Плохой сценарий:
✸ «У нас упала конверсия с лендинга!!!»
✸«Паника!!!»
Хороший:
✸ «Конверсия упала, но трафик вырос в 2 раза, потому что залили TikTok с нерелевантной аудиторией. А CTR по email — остался стабильным».
Это и есть мышление на данных.
Контекст, динамика, гипотеза, вывод.
В итоге, data-driven культура — это про то, чтобы каждый в команде реально начал думать через данные, а не через «мне кажется» или «ну, так всегда делали».
Чтобы цифры стали не страшным отчётом, а привычкой — первым делом смотреть на них, задавать вопросы и искать ответы.
А как часто вы в команде обращаетесь к данным и стараетесь ли вы формировать привычку в команде? Пишите в комментариях 🚀.
#Data_driven
Летом у меня было собеседование в Zapier, я сделал скриншот с их оргструкторой. Я уже откликнулся в конце процесса, поэтому быстро получил отказ.
В качестве платформы данных они используют Databricks. На картинке видно структуры дата комманд.
Согласно Гуглу у них около 1000 сотрудников.
В статье I Don’t Want My Career to DIE (So should I consider myself a Data Intelligence Engineer)? автор рассуждает про важную тему - будущее профессии инженера данных.
Очевидно, что AI меняет подход к работе, но есть много НО. По умолчанию GenAI повышает продуктивность (генерация кода, документации и тп), но он несет в себе риски, так как уже много раз было новости про косяки в безопасности, про утечку персональных данных и пароли в открытом доступе.
Изначально мы все радовались (радуемся) vibe coding, но часто под этим подразумевается бездумная генерация кода по принципу %як-%як и продакшн. Поэтому автор предлагает другой термин - "Augmented coding” - то есть используем GenAI только как помощника, при этом инженер отвечает за безопасность, устойчивость и качество решений.
Другой concern (проблема) у автора, что бездумная генерация кода убивает развитие навыков и приводит к некачественным системам.
Таким образом появляется новый термин Data Intelligence Engineer (AI-Augmented Data Engineer), это дата инженер, который владеет AI инструментами, понимает System Design, архитектуру и безопасность, знает и умеет, как культивировать культуру качества в дата командах.
В целом для традиционного road map для дата инженера теперь нужно дорисовать еще одну ветку про GenAI.
Вот исправленный и грамматически выверенный вариант текста, с сохранением неформального и живого стиля:
😇
Попалась моя старая запись из Amazon, на которой был слайд про сообщества. Думаю, это примерно 2017 год.
Amazon - одна из лучших компаний, где мне доводилось работать. Там было много сообществ, и они реально работали.
Я сам руководил тремя из них:
BI Tech Talks - я унаследовал это сообщество от другого инженера, который стал SDM-менеджером. В нём было больше 90 BI/DE-команд со всего мира. Я старался проводить вебинары, на которых команды делились опытом, а иногда приглашал титулованных спикеров из LinkedIn. Amazon открывал все двери.
Subsidiary BI Collaboration - сообщество, в которое входили IMDb, Whole Foods (я помогал им с онбордингом в дата-инфраструктуру Amazon после поглощения — у них была Teradata), Amazon Robotics, AbeBooks, Zappos и т.д. Все очень крутые компании со своей уникальной культурой. Я несколько раз выступал на Subsidiary Summits.
Amazon Tableau User Group - тоже досталась мне от крутого чувака из Amazon (до сих пор с ним на связи). Когда я уходил, у нас было уже 2500+ пользователей. Я часто приглашал Tableau Zen Masters делать онлайн-доклады для нас.
Заметьте, в 2016-2017 году в ходу было слово BI. Data Engineering и Analytics практически не использовались в обиходе.
Сумарно меня знало больше 7т человек в Амазон, все кто работал с данными, что давало мне нереальное преимущество по смене команд внутри Амазона. Даже когда перешел в Майкрософт, меня там уже знали, некоторые инженеры.
Я попытался сделать тоже самое в Майкрософт, но это оказалось совершенно не рабочим вариантом. Майкрософт вообще очень плохо функционирует в плане сообществ и взаимодействия с другими командами, если вы не работаете над одним проектом.
Сегодня в 11:00! Прямой эфир конференции VK Cloud Conf 2025
Подключайтесь к просмотру конференции. Вас ждут актуальные облачные технологии, новые продукты, исследования рынка и практические кейсы.
Расписание
11:00 – 13:30 — доклады о ключевых продуктовых релизах VK Cloud, а также отчет по большому исследованию рынка облачных сервисов России.
Смотреть трансляцию
13:30 – 14:30 — перерыв.
14:30 – 16:30 — два потока докладов: «Инфраструктура и разработка» и «Данные». Выбирайте самые интересные для себя доклады.
Смотреть поток «Инфраструктура и разработка»
Смотреть поток «Данные»
16:30 – 17:30 — перерыв.
17:30 – 19:30 — технологический трек от экспертов с докладами о решении конкретных рабочих кейсов.
Смотреть трансляцию технологического трека
Смотрите доклады в течение всего дня, а если что-то пропустите, возвращайтесь к просмотру по ссылкам выше.