23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
В книге Джейсона Каланиса "Ангел-инвестор”, Джейсон приводит пример вопросов, на которые нужно ответить, перед тем как принять решения об инвестировании (seed investment в данном контексте).
Самое интересное, что эти вопросы хорошо подходят для вашей карьеры. Вообще особо не важно, что вы делаете на работе, но задать эти вопросы во время собеседования или общаться с фаундерами использую их же терминологию лишним не будет.
❓Какая проблема решается? – Понять, какую конкретную проблему решает стартап, и насколько она значима для целевой аудитории.
❓Почему сейчас? – Почему именно сейчас настало подходящее время для решения этой проблемы? Какие изменения в технологии, рынке или обществе делают этот момент подходящим?
❓Почему вы? – Почему именно эта команда способна успешно реализовать эту идею? Какой у них опыт, знания и мотивация?
❓Что уникального? – В чем уникальность продукта или услуги? Почему конкуренты не смогут легко повторить или превзойти это решение?
❓Как вы будете зарабатывать деньги? – Какова бизнес-модель стартапа? Как планируется генерировать доход и какова стратегия монетизации?
❓Какие метрики важны? – Какие ключевые показатели эффективности (KPI) будут использоваться для измерения успеха? Как будет измеряться рост и прогресс?
❓Какова ваша стратегия роста? – Как стартап планирует привлекать клиентов и масштабировать бизнес? Какие маркетинговые и продажные стратегии будут использоваться?
❓Какие риски? – Какие основные риски связаны с бизнесом и как команда планирует их минимизировать?
❓Какие у вас конкуренты? – Кто основные конкуренты на рынке? Чем они отличаются и как стартап планирует конкурировать с ними?
❓Как вы используете инвестиции? – Как стартап планирует использовать привлеченные средства? На какие основные области будут направлены инвестиции?
Да еще в случает офера в стартап, вы сможете оценить самостоятельно шансы на успех:
❓Какое у вас текущее количество наличных денег? – Это помогает понять текущий финансовый резерв стартапа.
❓Каков ваш месячный уровень сжигания наличных (burn rate)? – Этот показатель показывает, сколько денег стартап тратит каждый месяц.
❓Сколько месяцев у вас осталось на существующих наличных? – Этот вопрос помогает оценить, насколько долго стартап сможет продолжать операционную деятельность при текущем уровне расходов.
❓Какой ваш план по привлечению следующих раундов финансирования? – Важно понимать, как стартап планирует привлекать дополнительные инвестиции и какие шаги они предпринимают для этого.
У меня недавно был такой кейс, где я зарядил все эти вопросы фаундерам стартапа, и эффект был очень позитивный. Теперь помогаю им выстроить все систему аналитики с 0. Конечно в моем контексте главный уклон был на данные, метрики бизнеса, ценность данных для продукта и leadership команды.
Я всегда говорю, вы как специалист должны добавлять ценность компании, коллегам, инвесторам, фаундарам, руководству. По опыту surflalytics я вижу, что скиллы можно быстро получить, а вот behaviour вопросы, навыки продавать себя и рассказывать красиво про свой опыт это не просто, а тут уже не получился в тихушку задачки порешать на Leetcode, нужно выявить слабые места и переступить через свои страхи, начать делать, что вы раньше не делали- Public Speaking? Blog posting? Youtube channel? Митапы? Нетворкинг?
PS теперь Surfalytics это про engineering data career.
Действие - это применение некоторого инструмента к процессам для достижения поставленной цели. Главным критерием является не результативность действия, которая может быть и нулевой, и отрицательной. Всё это носит вероятностный характер. Делать что-либо, когда результат не гарантирован на 100% - с тактического масштаба достаточно глупо. Зачем тратить энергию на то, что либо принесёт результат или нет? Лучше зависнуть в экономном режиме и ждать стопудовых вариантов. Все это логично и рационально.
Чтобы таким образом живые существа не вымирали за миллионы лет естественного отбора в нас закрепилась одна молекула, молекула «ещё», то есть дофамин. Чем более случайный результат, тем больше азарта, тем больше дофамина в предвкушении возможного выигрыша. Эта молекула поощряет наши вероятностные действия.
Более того, без дофамина, как выяснили в ходе одного ужасного эксперимента по лечению зависимостей, мы вообще не можем двигаться. Лишенные чувствительности к дофамину пациенты превратились в парализованных, обездвиженных людей.
Предформой дофамина является норадреналин. Который, в свою очередь вырабатывается от стресса, когда нам что-либо угрожает. Все логично и рационально, если опасность застала врасплох, надо срочно сваливать либо атаковать, может и замереть контролируя свои мышцы, но в любом случае действовать. Поэтому если с утра в течение первого часа после подъема сделать силовые упражнения (десяток другой приседаний, отжиманий) и потом поставить и достичь цели, то дофаминовые цепочки заведутся на весь день. Цель может быть минимальной - прочесть 10 страниц книги, помыть посуду, сделать NBack, но обязательно ощущать добровольную завершенность задачи. Вот то самое удовлетворение от сделанного.
Именно добровольное, потому что если кто-то заставляет, то цепочка подачи дофамина в лобной доли блокируется. В армии заставляют отжиматься, но это не дает удовольствия.
Ещё дофамин выплескивается после обжигающе холодного душа идти ополаскивания, если здоровье позволяет. Обливание должно быть краткосрочным, это не для того, чтобы привыкать к холоду. В результате на четыре часа уровень дофамина растет в два раза. В отличие от множества других ю способов поднять дофамин, после которых дофамин резко падает.
Чем выше поднят дофамин, тем ниже он падает. Если одновременно смотреть интересный фильм, есть фастфуд и пить сладкую газировку, то дофамин зашкаливает. Но после этого резко и очень сильно падает. Лучше отдельно: кино, газировка и фастфуд, раз уж так сложилось.
Это краткое осмысление одного из подкастов Эндрю Хубермана - https://youtu.be/QmOF0crdyRU
Про визуализацию Настеньку и ее графики📊
В телеграмме достаточно много канало про визуализацию и инфографику. Сегодня я поделюсь с интересным каналом, который я уже давно читаю. В нем прекрасно все и название и контент - настенька и графики.
Я посмотрел в истории своего канала, у меня было несколько упоминаний канала и самое первое было 4 сентября 2020 года.
В канале много примеров визуализаций, даже есть визуализация про про бары в Питере🥂
В целом в канале очень много информации про best practices и историю визуализации. Думаю подписчики канала не попадают в просак с pie chart. Еще у Насти афигенный Tableau Public Profile и даже есть курс по визуализации и разработки в Tableau на степике.
А кроме Насти еще еще много талантливых писателей, у кого одно из хобби писать что-нибудь в телеграмм, их собрали в папочку, на которую вы можете подписаться, там 15 каналов про Аналитику.
Если у вас есть дети, могу посоветовать им настоящий журнал Юный натуралист https://unnaturalist.ru/anonce/show/anonceId/279/#top
И конечно в свежем номере есть рассказ про пеликанов - КАК ЛЕТАЮТ ПЕЛИКАНЫ
PS а для взрослых у нас про пеликанов тут - https://www.scifly.ai/
Феномен Джобса
Чем дольше Эпл живёт без Джобса, тем очевиднее, что мы понимаем ситуацию наоборот. У многих разработчиков и особенно дизайнеров какие-то завышенные ожидания от их продукции. Кажется, что это связано с тем, что Стив Джобс (создатель первого Айфона на минуточку) появился в их жизни в период их пубертата.
На самом деле Эпл всегда была, есть и будет обычной корпорацией, как Гугл, Амазон, Майкрософт, Фейсбук, Самсунг, а работают там такие же люди, как и во всей Айтишечке. На Ютубе (организация финансируется Гуглом) миллиард видосов про то, как успешно пройти собеседование в компанию, которая отбирает только лучших специалистов в мире™.
Стив Джобс же обладал минимальным набором качеств эффективного капиталиста:
1. Умел считать деньги и время (Ну ладно, не всегда умел, но когда его первый раз выперли Эпл, пришлось понять, что деньги компании не бесконечные и тоже научиться их считать)
2. Умел продавать свои идеи инвесторам и исполнителям
3. Выжимать всё из людей и заставлять их делать как ему нужно
4. Был беспринципным засранцем
История, которая прекрасно иллюстрирует все четрыре пункта:
В начале 1975 года Джобс вернулся в Atari. Тогда шла доработка игры Breakout и была объявлена премия за оптимизацию схемы игры в размере 100 долларов за каждый исключенный из схемы чип. Джобс вызвался взяться за эту работу, но так как плохо разбирался в разработке электронных схем, вынужден был обратиться к Возняку, работавшему тогда в Hewlett-Packard. Дополнительная сложность заключалась в сроках — Джобс заявил, что работу нужно было выполнить за 4 дня. На разработку такой схемы обычно требуется несколько месяцев, но Джобс смог убедить Возняка, что тот справится за 4 дня.
Возняк практически не спал четверо суток, днём работая на основной работе, но выполнил задание, разработав за отведённое время схему игры. При этом, к большому удивлению инженеров Atari, он использовал всего 45 чипов (подобные схемы тогда содержали 130—170 чипов, а наиболее удачно разработанные — 70—100 чипов). За эту работу Джобс передал Возняку чек на 350 долларов. Однако позднее выяснилось, что Джобс обманул своего партнёра, сообщив, что в Atari ему заплатили только 700 долларов. Джобс умолчал об объявленной премии в 100 долларов за каждый сэкономленный чип, которая на самом деле в сумме составила 5000 долларов. Получалось, что эту премию Джобс полностью присвоил себе. Кроме того, четырёхдневный срок Джобс тоже выдумал, потому что хотел успеть на ферму Фридланда к сбору урожая яблок и торопился на самолёт. Получив деньги, он бросил работу в Atari.
Канал для аналитиков уже в Telegram!
Его ведет Влад Князев, аналитик из финтеха, который ярко и с юмором пишет заметки и проводит эфиры о том, как выйти на новый уровень в карьере в IT.
Начинай прокачивать насмотренность системно уже сейчас👇
Подпишись на @godnolytika
Значит у нас 3 основных формата Lakehouse - Hudi, Iceberg, Delta.
Hudi совсем прохудился и пропал из информационного поля.
Традиционно Databricks пилит Delta (Delta Lake), а Iceberg был создан Tabular, и сейчас - Databricks Agrees to Acquire Tabular, the Company Founded by the Original Creators of Apache Iceberg
Так же Iceberg популярен как независимый lakehouse, например для Trino.
PS свежая книжка про Iceberg - Apache Iceberg: The Definitive Guide (вроде как Dremio приложили руку к написанию)
Вот еще новость от Snowflake - Introducing Polaris Catalog: An Open Source Catalog for Apache Iceberg
VK Cloud Conf 2024 — большая облачная конференция VK Cloud
20 июня 2024 года, офлайн и онлайн, на VK Cloud Conf ведущие эксперты VK и крупнейших российских компаний расскажут про развитие облаков и поделятся опытом разработки продуктов. Вас ждут кейсы от экспертов из Битрикс24, Бургер Кинг и SimbirSoft, доклады архитекторов и руководителей групп VK Cloud, а также увлекательные дискуссии по информационной безопасности, трендам разработки и работе с данными.
На VK Cloud Conf расскажут:
• Как организовать высокий уровень доступности приложений и баз данных, обеспечить отказоустойчивость и масштабируемость.
• Как работать с данными: от корпоративных хранилищ до аналитических и рекомендательных систем.
• Как организовать виртуальные рабочие места в облаке.
• По каким критериям бизнес выбирает сервисы для коммуникаций.
Конференция VK Cloud Conf — прекрасная возможность узнать больше о проверенных облачных технологиях, обменяться мнениями с коллегами и найти ответы на актуальные вопросы.
Зарегистрироваться бесплатно
Всем привет, одна из подписчиц, кто давно читает мой канал, активно принимает участие в проекте с пеликанами scifly.ai попросила рассказать о своей близкой подруге и ее сборе на операцию для ребенка. Если есть возможность и есть желание, можете сделать доброе дело. Я сам тоже помогу, ведь не зря же рекламу за рубли продаю.
Читать полностью…
✍️ Яндекс открыл приём заявок на международную научную премию Yandex ML Prizeх
Премия вручается молодым исследователям, научным руководителям и преподавателям за достижения в области компьютерного зрения, машинного перевода, распознавания и синтеза речи, анализа данных и генеративных моделей.
В этом году будет 5 номинаций:
▪️ Первая публикация,
▪️ Исследователи,
▪️ Молодые научные руководители,
▪️ Научные руководители,
▪️ Преподаватели ML.
Лауреаты получат денежные премии. Исследователи — по 500 тысяч рублей, научные руководители и преподаватели — по миллиону рублей.
↗️ Приём заявок продлится до 21 июня, вручение премии состоится осенью.
Презентация sqlwagon новой книги Azure Data Factory Cookbook 2nd edition. (На английском, это вообще то будет для Linkedin)
И если ответить на вопрос почему так случилось?
- “Everything fails, all the time” is a famous quote from Amazon’s Chief Technology Officer Werner Vogels.
- Murphy's law is an adage or epigram that is typically stated as: "Anything that can go wrong will go wrong."
Вообще это было ожидаемо. Когда мы приходим на проект, где много open-source, прошлой команды нет, документации нет, то вы обязательно окажетесь в такой ситуации. Получается Airbyte это бесплатная альтернатива платного Fivetran, но оказалось:
- нет документации как это было запущено
- мы до сих пор на старой версии, которой уже год, и не можем обновить
- изначально кто внедрял Airbyte не имел опыта инжинирига данных, а был DevOps, поэтому данные писались в backend Airbyte
- все пароли в открытом доступе для всей компании (fintech) уже довольно давно
Часто платные решения оказываются более эффективными, дешевыми и безопасными по сравнения с Open Source.
Поэтому, всегда настаивайте на:
- хорошей документации всего и вся
- playbooks - как обновлять и поддерживать
- обновляйтесь чаще, легче обновиться, когда нет breaking changes
- design и decisions документы
- дайте время команде на обучение инструменту (курсы, тренинги)
Ну и конечно ходите по собеседованиям, а то так что-нибудь обновите и будет потом пол года без работы🤣
Замечательная картинка от LakeFS - State of DE 2024.
Очень много инструментов. Каждый год инструментов становится все больше, а сути все меньше.
Хотя по-прежнему пишут SQL-запросы, делают slice and dice, drill down, анализируют dimensions и measures.
Я сам не знаком со многими инструментами и надеюсь, что мне не придется разбираться в их документации и tutorial'ах.
Для опытных людей проблем нет, а для тех, кто хочет начать успешную карьеру в data и «купить SQL-wagon» (если вы понимаете, о чем я😉), возможно, будет много сложностей.
С одной стороны, вы хотите самостоятельно учиться, но с другой стороны баррикад – огромные маркетинговые бюджеты, которые обещают вам либо профессию, либо инструмент, который сам все сделает.
Поэтому лучше экономить время и стараться общаться с более опытными коллегами, посещать различные мероприятия и спрашивать, кто чем занимается, как к этому пришли и какие планы дальше.
Что еще полезно?
Уже пару месяцев как закончил книгу "Freakonomics" (в русском переводе "Фрикономика"), написанная Стивеном Левиттом и Стивеном Дабнером, которая исследует экономические принципы в нестандартных ситуациях и предлагает неожиданные объяснения повседневных явлений.
Основные идеи книги включают анализ экономических и социальных проблем с применением нетрадиционных подходов и методов.
Основные идеи книги:
Экономика всего вокруг: Левитт и Дабнер показывают, что экономические принципы можно применить к любым аспектам жизни, от преступности до образования.
Влияние стимулов (incentives): Главная идея книги — поведение людей сильно зависит от стимулов, которые они получают.
Неожиданные связи: Выявляют неожиданные связи между, казалось бы, несвязанными явлениями, такими как снижение уровня преступности и легализация абортов.
Использование данных: Важность анализа данных и использования статистики для получения достоверных выводов.
Для меня книга особенно запомнилась примерами стимулов (incentives).
- Экономические стимулы: Это финансовые или материальные выгоды, которые мотивируют людей к определенным действиям.
- Социальные стимулы: Это общественные и культурные факторы, которые влияют на поведение.
- Моральные стимулы: Это внутренние убеждения и ценности, которые мотивируют людей к действиям, основанным на их этических принципах.
Стимулы очень хорошо ложатся на нашу работу.
Почему новые инженеры работают лучше, чем старые?(кто уже 1-2 года в команде, вот сегодня например уволили такого человека, хотя я сам был таким человеком в прошлом году и скоро расшарю свой PIP документ).
Почему одни инженеры работают хорошо, а другие плохо? (Ведь часто дело не в зарплате)
Почему одни активно учатся и развиваются, а другие нет?
Почему одни пишут хорошие комментарии, а другие пишут плохие?
У меня теперь на любой вопрос 1й ответ это incentive. Вообще вся движуха рабочая это про incentives. Либо они есть, либо нет.
Мне кажется менеджеры особенно тщательно стараются придумать “стимулы” для своих команд🚣
Вот буквально на днях кол-во подписчиков перевалило за 20 000! Конечно активных только 5000, остальные 15т наверно “мертвые души”, но это уже совсем другая история.
Канал был создан в 6 ноября 2018 года. Тогда еще телеграмм не был таким популярным и вообще за пределами РФ не использовался. Так получилось, что Алексей меня пригласил на первый Матемаркетинг выступить с докладом от Амазон. Ему был интересен Амазон, как громкое имя, а не лично я. Я даже не помню как мы познакомились, но помню, что до Матемаркетинга я был летом в Москве, и мы встретились первый раз, я получил интересный инсайт - телеграмм канал приносит больше денег чем full time работа.
И вот в ноябре 2018 на конференции, я выступил с докладом, и использовал канал, чтобы расшарить лабы по Snowflake + Tableau. В 2018 году Snowflake еще был не публичной компаний и в Канаде о нем мало кто знал, а в Москве уже проходили воркшопы по нему! А доклад назывался - BI-системы и DWH - Архитектура и кейсы
Уже после конференции у меня было 600 подписчиков, и я начал бомбить историями про “залететь на работу без опыта”. Вообще думаю о том, что мой канал про “Инжиниринг карьеры и данных”.
И тут я подумал, как круто, можно летать на конференцию в Москву благодаря каналу. И действительно, скоро я выступал в Mail Ru офисе перед огромной аудиторий - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле? И это было очень круто, я сам кайфанул как круто получилось. Секрет был прост:
- 2 предложения на слайд (желательно все выучить наизусть)
- много ярких и интересных слайдов
- несколько классных промо роликов от Amazon Alexa
Так же я писал статьи на Хабр, у которых было пот 40к-80к просмотров, что приводило новых пользователей.
Так же выступил онлайн на нескольких конференциях, включая Smart Data - главная конференция по инжинирингу данных:
- Два типа инженеров данных
- Инжиниринг данных в «Майкрософт»
- Все жду 3ю серию про архитектуру и решения
В какой-то момент ко мне пришли с запросом из курсов Skill Factory на создание курса по Инжинирингу Данных. Я сделал план курса, но мне предложили 120т рублей за разработку курса и попросили сделать за месяц. Дали доступ на курс по data science посмотреть пример, оказалось все очень печально, из чего я сделал вывод, что все эти курсы шляпа. Чтобы программа не пропадала, решил записать курс и Роман Пономарев очень помог с организаций и поддержкой (курс и сообщество дальше живет) - datalearn.ru . Сообщество очень помогло во время ковида, и я точно знаю, что очень многим помогло начать карьеру, найти работу и тп. Мне всегда хотелось делиться знаниями и у меня всегда была мысль сделать что-нибудь для своей Родины, ну и вообще верю в круговорот энергии, больше даешь, больше получаешь!
Здесь же зародился замечательный проект про мониторинг пеликанов, который теперь называется https://www.scifly.ai/ . Сегодня вот, например, обсуждал как бы классно было бы открыть ферму пеликанов в Подмосковье (ведь есть фермы/заповедники кенгуру). Вы знали, что пеликанам появились 40-50 млн лет?! И я не знал…
Из последнего в Сентябре/Октябре появился Surfalytics. Это как datalearn, но на английском и глобальный. Так же все бесплатно, но вход сообщество уже за номинальную плату, потому что совсем бесплатное не очень-то уж ценится.
Поэтому, мое вам большое спасибо, что продолжаете читать, благодаря каналу я познакомился с огромным кол-вом людей по всему миру! И я рад, что я могу тут быть самим собой и реализовывать потребность “поделиться” ссылочкой, побузить на менеджера или проект, пожаловаться на маленькую зарплату или негодовать на массовые увольнения!
Databricks Unity Catalog теперь доступен в open source https://www.unitycatalog.io/ пробовали?
Читать полностью…
13 июня будет Trino Fest, у них есть онлайн сессия.
Trino - SQL движок, который умеет читать данные из других баз данных, файлов, NoSQL баз, sftp, и еще много чего. Полностью открытое ПО. Я знаю, что можно использовать sql движок от Clickhouse/Duckdb (без функции хранения данных в базу), но деталей не знаю.
Я даже специально зашел на любимый сайт своей молодости HH (headhunter ru) и поискал “trino”, и нашел довольно много вакансий Инженера Данных с Trino. Также trino используются в отечественном облаке.
Идеальный стек мог бы быть в облаке или on-premise:
- Trino - SQL Engine, строим Iceberg Data Lake
- Нужно найти где хранить данные, в зависимости от возможностей
- dbt - бизнес логика в SQL
- Airflow/Prefect - расписание
- Airbyte/Meltano - набор коннекторов к источникам данных
- Metabase - SQL доступ для пользователей + дашборды (возможно Superset)
- Kubernetes - хостинг всего этого дела
Интересные интервью на тему - Designing Data Organizations от Holistics (азиатский BI as code вендор).
Effective Performance Tracking, Analytics as a Strategic Partner, and Managing Globally Distributed Teams at ZoomInfo: An Interview with Michael Perlis
Data as a Thermostat, the Necessity of Reorganizations, and Data Generalists vs. Data Specialists at Wayfair: An Interview with Nachiket Mehta
Data Teams as Product Teams, Managing Growing Teams, and Good KPI Design at Trade Republic: An Interview with Hannes Felsberg
У них еще есть хорошая книжка с приятными иллюстрациями - The Analytics Setup Guidebook
Сегодня познакомился с новым термином - HIFI. Можно было сделать интерактив и оставить место для вашей фантазии в комментариях. Но, не буду, сразу расскажу, что к чему, можете добавить в резюме, рядом с CICD, HELM, K8S, DBT.
Нет, это не группа из нашего детства (а кто еще наверно даже не родился).
HIFIs — high-income, financially insecure people — are another dimension of the economic experience, joining the diverse ranks of DINKs, HENRYs, and ALICEs.
DINK - a dual-income couple with no kids.
HENRYs — high earners, not rich yet, a term first coined over 20 years ago by Fortune's Shawn Tully. They might someday own the assets to make them millionaires, but for now, they're just raking in plump paychecks.
ALICEs — or Asset Limited, Income Constrained, Employed — is a term coined by United Way's United For ALICE program to describe Americans who work and make more than the Federal Poverty Level for a family of four of $31,200, or $15,060 for an individual, but who struggle to pay for basic needs.
Inflation and the rising cost of living in the US are partially to blame for HIFIs' precarious financial situation. Inflation rates are double what they were 10 years ago, according to the Bureau of Labor Statistics. The consumer price index for US cities, which assesses the cost of living, rose by about 8% in the past 10 years.
В этом году не получилось на конференцию по Snowflake:(
Не получится набрать стикеров, футболок, бутылок и другого хлама (за счет VC и инвестиций в data стартапы), но зато все самое интересное все будут постить, а я буду репостить! 👙
Привет! Замучился я ковырять helm charts, Kubernetes на GCP для Airbyte, Airflow. Мне нужно поменять настройки и посмотреть, что у меня не так, и как уже сделать правильно, уходит очень много времени и мало результата. Мне нужен эксперт, кто мне поможет поменять настройки и задеплоить этот адский open source.
Я могу заплатить через PayPal (Европа, США) или по Канаде перевод, через свою корпорацию. Пишите в личку, если вы супер эксперт по этим технологиям.
Если вы не в Европе/Северная Америка и у вас нет PayPal, то заплатить не получится.
Увлекательная история о том, как стать специалистом Data Science. Мария Косарева сейчас возглавляет Департамента анализа данных и моделирования в Газпромбанке. А в статье подробно рассказала, как выбрала профессию и построила карьеру в IT будучи женщиной.
Читать полностью…
Внутренняя аналитика как продукт
Завтра обсудим с Андреем из канала @productdo как использовать продуктовые подходы для внутренних продуктов, в том числе к аналитике и дашбордам. Это забавно, но аналитики не всегда анализируют результаты своей работы. Вот такой вот каламбур =)
Покажу какие метрики мы использовали в Яндекс Go для дашбордов. И очень интересно узнать про опыт Андрея — он менеджер внутренней платформы в Booking.
Трансляция
YouTube канал ребят — ProductDo/streams" rel="nofollow">https://www.youtube.com/@ProductDo/streams
Когда
30 мая, четверг, 18:30 по Мск
#выступление
Для нашего проекта по мониторингу пеликанов мы добавили сайт https://www.scifly.ai/
Ведь сейчас модно AI, вот и у нас есть свой AI проект - SciFi SkyFly.
Еще недавно опубликовали статью на хабре совместно с Вконтакте - Миграция пеликанов в облака: как реализовать сложный орнитологический проект на базе облачной платформы. Часть 1
Ладно, сегодня пятница, значит с сыном и его друзьями рубимся в Fortnite (сегодня новый сезон как раз Mad Max + Fallout)+ местный сидр. Стресс запить после Airbyte, так сказать.
Читать полностью…
Давненько у меня не было 🔥
Если раньше софт был неповоротливый и большой типа Enterprise BI - SAP Business Objects, который при обновлении может сломаться, если например интернет отвалится во время установки. У меня было такой случай /channel/rockyourdata/4385 и там же я описал про Looker, который я тоже сломал.
Вчера я решил попробовать что-то новое. У нас есть GCP Kubernetes engine, и с помощью helm charts там задеплоено вообще все. В моем случае у нас был очень интересный кейс использования Airbyte backend базы данных. Исторически эта база данных использовалась как часть хранилища данных. Удобно же, Airbyte читает данные из Amplitude и пишет сама в себя, и потом с помощью Trino мы можешь кверить данные. Но не тут-то было, одна из таблиц этой внутренней базы данных содержит все пароли в открытом доступе и доступна через BI слой (metabase).
Если вы не знаете, что такое Airbyte - то это набор конвекторов, например извлечь данные из SalesForce и загрузить в хранилище данных. Платный аналог Fivetran, бесплатный Metabase. Такие экстракторы необходимы, если вы работаете с dbt.
В общем очевидно, что надо фиксить пароли, и решение было добавить Google Cloud Secrets, чтобы туда сохранялись все пароли, согласно документации.
У нас есть staging среда, которая уже давно сломана. Сам я пока не очень с helm charts, вроде бы идея простая, это просто YAML файлы, которые описывают Kubernetes, но выполняются они через Ansible. Ох уж эти DevOps штуки и Open Source, каждый раз, как в первый класс.
В общем по классике, часов в 11 вечера, перед сном, я решил попробовать первый раз что-нибудь сделать с Airbyte Staging, но случайно выполнил команды, которая просто деплоит helm charts для Production.
Это чудо, начало скачивать обновления, новую версию Airbyte, новую версию helm charts, и все это деплоить, а там наверно 6 разных контейнеров с Airbyte сервисам. Ну и конечно все упало. Очевидно, что это проблема, потому что мы же используем Airbyte db как хранилище данных для важной отчетности, и реплицируем данные, которые тоже важны для отчетности.
В итоге до 2х ночи с помощью ChatGPT4o я изучал Airbyte, Helm Charts, GCP Kubernetes Engine. И действительно, выучил много, больше, чем за последние 4 месяца.
Проблем было много:
- Часть проблем решил, откатив helm chart Revision к последней успешной
- Потом оказалось, что Airbyte используют параметры в ConfigMap и Secrets, которые не хранятся в helm-charts, и были прописаны вручную и при обновлении заменены.
Изначальные параметры и их значения пропали, и вообще он почему-то хотел S3 параметры, а не GCP. Методом научного тыка, с помощью CLI “kubectl” я смог с 40го раза подобрать нужную конфигурацию параметров и все Pods запустились
- Даже смог залогиниться, но внутри ничего не работало. Оказалось, что это чудо при обновлении еще стал писать в backend базу данных (GCP CloudSQL) и последний штрих был откатить базу, но это уже kudos моему коллеге на Филиппинах, у него как раз был день. Узнал я про это утром, хотя когда шел спать, уже ментально был готов закончить работу в этой компании🙃 А утром оказалось, что все работает. Значит еще не время.
В общем, такой вот вечер из жизни дата инженера. Я думаю многим вообще не понятно, про что я пишу. Если честно, мне самому не очень понятно. В этом и заключается работа инженера, чтобы разобраться, сломать, починить. Желательно знать еще best practices.
Тем не менее получен ценный опыт, еще одна история про продакш. Можно наверно, сказать - “если я ломаю продакшн, значит я живу работаю”.
Теперь очевидные вещи:
- всегда делайте back up
- не делайте update критических вещей вечером
- оцените риски, вы готовы потерять работу? (Это конечно крайне сложно, обычно это норм - ломать, чинить, учится. Но если вас хотят скинуть или посадить на PIP, то самое то)
- лучше делать такие вещи вместе с коллегой, у кого есть опыт в этом
- неплохо бы попрактиковаться на “кошках”, у меня так и лежат в закладках курсы по Kubernetes + ansible + helm charts, я даже в самолет себе загрузил на прошлой неделе, но смотрел сериал Fallout в итоге😝
Что такое PIP? Иногда это называют PAP. Многие боятся этой аббревиатуры, ведь если вы с ней столкнулись, значит, от вас начинают избавляться и "нежно" увольнять.
PIP (Performance Improvement Plan) или PAP (Performance Action Plan) — это план улучшения производительности. Обычно он длится 4-6 недель, в течение которых вам говорят, что вы плохо выполняете свою работу, и вас начинают ежедневно микроменеджить. На этот срок ваш менеджер пишет план, описывает ваши "зоны роста" и проекты, которые вы должны завершить.
В Amazon, в 90% случаев, человек с PIP будет уволен, но некоторые проходят его успешно. В любом случае, это достаточно стрессовое мероприятие. Часто это случается не из-за плохой работы, а из-за плохого взаимопонимания с менеджером.
Так было и у меня. Я прикрепил свой реальный PAP (в комментарий), который длился 6 недель. Это было стрессово, но я все равно прошел его. Кстати, его написал менеджер, который до этого много лет работал в Facebook и Lyft. Так что это хороший шаблон, если вы решите кого-нибудь уволить.
Несмотря на то, что я его прошел, я не согласен с ним и считаю его несправедливым. Думаю, так все считают, когда попадают на PIP. Тем не менее, я стал жаловаться HR, что это было незаслуженно, на что получил ответ от HR: "мы тут власть, что хотим, то и делаем". Я попросил меня уволить и дать мне 2 зарплаты, на что HR сказал: "мы тебя не можем уволить, поезд ушел, ты прошел PAP, и теперь работай или сам уходи…". В итоге я сам и ушел.
Самое интересное, что у меня был конфликт с директором DE, и поэтому я получил PIP. Я позволял себе слишком много называть вещи своими именами и критиковать решения директора DE и VP data. То есть я был токсичным, но с другой стороны я говорил правду.
В западных компаниях правду не любят, нужно всегда быть "nice" и "kind" к окружающим. Думаю, тут много людей из западных компаний, которые могут рассказать смешные истории про это или про свой опыт с PIP/PAP.
Так вот, когда я ушел, через месяц директора понизили до Principal DE, а через 2 месяца он уволился. И все было очень красиво сделано тем же менеджером из FB/Lyft. Шах и мат, можно сказать. Получается, я был прав всегда, и действительно мой PAP был незаслуженным, но в корпорациях очень четкая вертикаль власти, и не стоит пытаться перечить начальству, если не хотите быть токсичным.
PS: Прямо вчера уволили одного человека в текущей компании. Хотя недавно он говорил мне, что руководство не понимает, что делает, и жаловался на все. Я даже не удивился, это был вопрос времени.
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.
Ближайшие Fast Track мероприятия:
• 3–7 июня — для технических менеджеров и Crowd Solutions Architect, офер за 5 дней в команду Crowd.
• 8–9 июня — для дата-инженеров, офер за 2 дня в DWH команды Маркета.
Зарегистрироваться
Реально так и есть, сколько у народа сертификатов всяких, но нет реального опыта.
Намного хуже, когда вы платите не 15$ за udemy курс, а платите 30к-50к$ за Masters программу по аналитике, и часто вы в такой же ситуации.
Вроде знания и диплом есть, а как применить их не понятно. В Ванкувере есть 2 универа SFU, UBC и у обоих есть такие программы и я встречал много студентов (у меня даже есть в Surfalytics), кому очень сложно найти работу, потому-то они часто учат теорию в отрыве от реальности, у них нет контекста. И чем дальше, тем сложней понять, что нужно учить, что говорить на собеседовании, и что писать в резюме.
У кого сколько сертификатов?
У меня был знакомый у кого было больше 115 сертификатов, и он продолжал учиться и сдавать еще больше. Вопрос всегда один и тот же, если такой умный, то почему такой бедный🍟