23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Сколько я стою на рынке ИТ? - Один из самых частых запросов у ИТ-шников.
Куда мне расти в ИТ, какие карьерные треки могут быть?
Круто, что есть каналы, к примеру, канал Ольги Романовой, в котором показывают реальные офферы, уровень зарплат на рынке ИТ и лайфхаки по составлению резюме, в т.ч. для продактов
Зацените:
— как получить 5 офферов за 2 месяца, в т.ч. на 500к
— Оффер в 21 год без высшего образования на 250к
— Оффер на 750к +
Специально для подписчиков моего канала Ольга с командой проведет несколько карьерных диагностик, оценит вашу стоимость на рынке и подскажет первые шаги для достижения карьерной цели. Детали под этим постом (там вообще оффер на 1 млн!)
Опубликовал блог пост про подготовку к поиску работы при переезде или иммиграции. Так же подойдет к тем, кто только начинает учится и не понимает, куда двигаться и что учить.
Читать полностью…
14-15 мая - Iceberg Summit. Iceberg формат для хранения данных в озере данных lake house. Если вы работаете с данными, то вы должны знать один из 3х форматов delta, iceberg, hudi.
Реально 2 доминируют Delta развивается databricksом, Iceberg сам по себе хорош и популярен.
От создателей Академии Аналитиков Авито — открытый курс по прикладной статистике.
Бесплатно, без регистрации и смс.
Для тех, кто хочет научиться:
– применять критерии Манна-Уитни, t-test, бутстрап, хи-квадрат;
– использовать специализированные библиотеки Python;
– разрешать спорные ситуации при анализе данных.
– экспериментировать, выводить критерии, доказывать формулы.
Уроки построены на примере реальных данных и показывают, как решаются задачи бизнеса с применением прикладной статистики. Рекомендуем.
350к $ в год на расходы - хороший F.I.R.E. в Калифорнии. Вообще смотрел, надо накопить 5млн $ кешем, и уже жить на дивиденды, хотя если средний рост 5%, то 250к в год это прям не густо. Кто-то мне говорил про 2млн CAD для Торонто (наверно наивная оценка). Я сам не планирую FIRE, так как расходы высокие на детей и на жизнь, но всегда интересно смотреть на цифры - Your Neighbors Are Retiring in Their 30s. Why Can’t You?
Идея не работать на дядю очень классная, и работать на себя и в своем режиме тоже замечательно. FIRE это не про сидеть на диване и ничего не делать, это больше про свободу. А свобода стоит денег, так что надо много работать и учиться. А там уже как повезет🚣
Есть у кого инфа про FIRE или планы ранней пенсии?
18 мая запланировал встречу у Сфер в Сиэтле с 10 до 12, если кто будет на районе приходите;)
Читать полностью…
Вот это уже интересный тренд, и это не только в Гугле. В других больших компаниях из списка S&P500 похожий тренд, но называется он по другому - increase global presence (имеется ввиду открыть офис в Индии). Мне даже как-то менеджер сказал - “Чего ты паришься, что в Канаде зарплата меньше, чем у такого же инженера в США в его же команде, вон мы в Индии офис открываем там на твою зарплату мы наймем несколько инженеров”.
Индийские компании уже давно оказывают услуги, чаще как консалтинг. Например софт для боинга 747.
Здесь идет речь про именно открытие офисов и центров разработки в странах с дешевой рабочей силой.
Поэтому вопрос, что будет быстрей - вас заменит AI или дешевой рабочей силой (что более вероятно)
А вы как думаете?
Уже все хорошо осведомлены про Generative AI и LLMs. Вот только не очень понятно как это относится к традиционными специальностям, таким как Data Engineer, Analytics Engineer, BI Engineer, Data Analyst (думаю так-же относится и к Data Scientist, ML engineer в большей степени даже).
Для меня всегда самый лучший источник “правильных” знаний - best practices и use cases - являются курсы вендоров, и конечно, далеко ходить не надо, нужно выбрать самых топовых вендоров Snowflake и Databricks и простой найти время на ознакомление с их курсами, множество из которых, могут быть бесплатными.
Тут важно понимать, что нужны фундаментальные знания и опыт в вашей специализации, тогда вам будет проще понять, какие преимущества несет новый функционал и как можно красиво его запаковать в резюме или просто продать себя подороже.
До сих пор, в требованиях к традиционным дата вакансиям не требуются знания новых инструментов, но это лишь вопрос времени. Поэтому смело можете добавить в закладки тренинги вендоров, где рассказывается не только теория, но нужно еще ручками что-то делать.
☃️Snowflake выпустил свою модуль LLM - Acrtic - Snowflake Launches Arctic: The Most Open, Enterprise-Grade Large Language Model
И конечно уже есть немножко тренингов - SNOWFLAKE ARCTIC COOKBOOK
🧱Databricks уже давно запустил свой LLM - Introducing DBRX: A New State-of-the-Art Open LLM
И уже выпустил тренинги на Edx:
- Databricks: Large Language Models: Application through Production
- Databricks: Large Language Models: Foundation Models from the Ground Up
На coursera тоже есть:
- Databricks to Local LLMs - целая специализация.
И на самом сайте Databricks:
- Generative AI and large language models (LLMs) on Databricks
Дополнительные разделы:
- Databricks Vector Search
- Evaluate large language models with MLflow
- Retrieval Augmented Generation (RAG) on Databricks
Я давно подписан на бывшего VP Amazon Ethan Evans, кто пишет про карьеру и продает консультации. Хороший пример FIRE, чувак свалил из Amazon и теперь зарабатывает на контенте. У него огромный опыт и он открыто говорит про + и - корпораций. Если кратко, + то нет, если только хорошая зарплата, как недавно Netflix повесил вакансию на 300-720k $ за L5 Analytics Engineer.
Мне понравилось его последняя заметка - I "lied" to my teams about work expectations. Итан как продвинутый менеджер называет вещи своими именами:
Companies boil people slowly.
Thus, while I truthfully did not care how long a project took, I did have to care if I was getting all I could from an individual.
That is part of a normal manager's job - maximize productivity and output.
Tech companies expect "full-time" employees to work at least 50 hours a week.
Thus, an employee getting all their work done in less time is ultimately considered "underutilized" and the manager's job is to get more work from them.
То есть вообще не важно как вы работаете. Вас будут медленно “варить, как лягушку”. Будете хорошо работать и быстро все закрывать, насыпят еще. Будете в 10% плохих работников уволят (у многих ежегодные квоты на сокращение неэффективных сотрудников).
Вообще работать на корпорацию все больше похоже на игру в кошки мышки. Или кто кого. Как говорится “пионер инженер и аналитик всегда готов”
Как построить DWH и интегрировать CI/CD в работу с данными? Узнайте на VK Data Meetup
⏰23 мая, 15:00-19:00 по МСК
📍Офис VK и онлайн
⚡️Бесплатная регистрация: https://bit.ly/3Uk6jQm?erid=2Vtzqx8GCc8
VK Data Meetup — серия событий для дата-инженеров, разработчиков, администраторов о практиках работы с данными на разных уровнях. Майский митап посвящен актуальным архитектурным паттернам платформ данных и технологиям, которые позволят их реализовать.
Речь пойдет о DWH, Data Lake, Data LakeHouse и Data Mesh — где они применяются и с какими подводными камнями можно встретиться на практике. Узнаете, как Kubernetes незаметно, но уверенно захватывает индустрию, почему в коммьюнити все чаще говорят про Trino, как интегрировать CI/CD в работу с данными.
Мероприятие будет интересно дата-инженерам, специалистам по DWH, администраторам, архитекторам и разработчикам.
Посмотреть полную программу и зарегистрироваться: https://bit.ly/3Uk6jQm?erid=2Vtzqx8GCc8
Все привет! В комментарии к этому посту кидайте все ресурсы про подготовку к собеседованию, шаблоны резюме, и тп. (Есть есть на английском, вообще замечательно). Я тоже скину свои заготовочки:)
Читать полностью…
Решили попробовать Linkedin Live Events первый раз. Роман Зыков проведет вебинар про свой проект на DuckDB, dbt, Pefect. Modern Data Stack в деле! https://www.linkedin.com/events/realusecaseformoderndatastackwi7185697388240502785/theater/
Читать полностью…
Как я получаю информацию, чтобы быть в теме IT и не только
Недавно ко мне прилетел примерно такой вопрос от моего коллеги, Вовы Коноплева, CTO нашего банка для юрлиц, который ведет свой канал @konoplevthoughts
Мне вопрос понравился и я решил ответ на него превратить в отдельный пост, где я расскажу про свои источники информации
1) Книги
Я отслеживаю важные книги по интересным мне темам. Для этого я ориентируюсь на новинки на платформе
- Сайт онлайн-платформы O’Reilly, где есть книги разных издательств, а также видео и курсы
- Сайт издательства Питер, где интересно отслеживать новинки, а потом читать их неисковерканные в английском варианте
- Сайт издательства ДМК Пресс, где интересно отслеживать новинки и их даже можно покупать и читать (например, тут я писал про последнюю купленную партию книг из ДМК насчет статистики)
- Сайт издательства МИФ, где я покупаю много книг, но редко какие из них посвящены IT, так как это не профильная тема для МИФ
Отдельно отмечу, что меня интересуют книги как по IT, так и по современной науке, но обычно в формате научно-попуплярной литературы. Это позволяет мне поддерживать знания в актуальном состоянии.
2) Whitepapers
Я люблю читать важные whitepapers на темы, что меня задевают: архитектура , менеджмент, распределенные системы. Для этого у меня есть тоже набор источников
- Сайт ACM (Association for Computing Machinery) - сайт ассоциация вычислительной техники, старейшей и наиболее крупной международной организации в компьютерной области. На этом сайте есть куча whitepapers. Отдельно отмечу, что вступление в ряды членов ACM позволяет здорово сэкономить на доступах: само членство стоит 99$, за 75$ можно получить доступ к уже упоминавшейся выше платформе O'Reilly, Skillsoft Percipio и Pluralsight, а еще за 99$ к ACM Digital Library. В итоге, 273$ в год дают бандл, что стоит дешевле в 2 раза, чем доступ к O'Reilly отдельно
- Сайт Google Research, где есть куча интересных whitepapers, например, я уже публиковал такую подборку
- Сайт Amazon Science, где тоже много отличных материалов, например, "Dynamo: Amazon’s highly available key-value store" 2007 года, "Amazon Redshift and the case for simpler data warehouses" 2015 года, "Amazon Aurora: Design considerations for high throughput cloud-native relational databases" 2017 года, "Amazon DynamoDB: A scalable, predictably performant, and fully managed NoSQL database service" 2022 года
- Сайт Meta Research (запрещенной в России Meta), где тоже куча интересного материала
3) Telegram каналы
Приведу тут не весь список каналов, а тот, из которого я частенько узнаю что-то новое
- Сиолошная (@seeallochnaya) - здесь я читаю понятные тексты про LLMs и все, что с ними связано. По этим текстам мне кажется, что я неплохо все понимаю
- gonzo-обзоры ML статей (@gonzo_ML) - здесь я узнаю про whitepapers и понимаю, что пока не слишком хорошо во всем этом разбираюсь:)
- Инжиниринг Данных (@rockyourdata) - здесь я узнаю про современный ландшафт технологий работы с данными, но с фокусом на западных SaaS решениях и примесью on-prem решений
- Архитектура ИТ-решений (@it_arch) - отсюда я узнаю про интересные статьи на тему архитектуры и проектирования
- DDDevotion (@dddevotion) - тут я черпаю новости относительно DDD и той же архитектуры и проектирования
4) Популярные ресурсы на тему IT
- Сайт консультантов Thought Works и конкретно их выпуски про техрадары
- Сайт InfoQ и их ежемесячные рассылки по архитектуре
5) Каналы в Youtube
- Канал GOTO-">конференции goto, где есть записи с конференций крутых спикеров, многие из которых являются популярными авторами
- Канал NDC">конференции NDC, где тоже есть крутые выступления
6) Обучающие платформы
- Leetcode, где можно практиковать написание кода
- Edx - ресурс с крутыми университетскими курсами (я его использовал активно раньше)
- Coursera - ресурс с крутыми университетскими курсами (я его использовал активно раньше)
- Stepik - российский ресурс с хорошими курсами
#SelfDevelopment #Education #Software #Architecture #Management #Leadership
Единственные papers я читаю это про современные хранилища или аналитические решения. Вот вам про Trino (PrestoDB): https://trino.io/Presto_SQL_on_Everything.pdf
Abstract
Presto is an open source distributed query engine
that supports much of the SQL analytics workload at Facebook.
Presto is designed to be adaptive, flexible, and extensible. It
supports a wide variety of use cases with diverse characteristics.
These range from user-facing reporting applications with subsecond latency requirements to multi-hour ETL jobs that aggregate or join terabytes of data. Presto’s Connector API allows
plugins to provide a high performance I/O interface to dozens
of data sources, including Hadoop data warehouses, RDBMSs,
NoSQL systems, and stream processing systems. In this paper, we
outline a selection of use cases that Presto supports at Facebook.
We then describe its architecture and implementation, and call
out features and performance optimizations that enable it to
support these use cases. Finally, we present performance results
that demonstrate the impact of our main design decisions.
Вообще было бы классно его добавить в Yandex Cloud/VK Cloud. Там какие альтернативы для SQL движка поверх storage?
Встречаемся 23 мая на VK Data Meetup от VK Cloud!
VK Data Meetup — серия событий для дата-инженеров, разработчиков, администраторов о практиках работы с данными на разных уровнях. 23 мая в 15:00 МСК присоединяйтесь, чтобы поговорить о набирающих актуальность архитектурных паттернах платформ данных и о технологиях, которые позволят их реализовать. Также на митапе разберут реальные технические кейсы.
Мероприятие будет интересно дата-инженерам, специалистам по DWH, администраторам, архитекторам и разработчикам. В программе выступления экспертов из «Тинькофф», Ozon Fintech, VK, «Детского мира» и других компаний.
Ну и конечно, в конце митапа вас ждет афтепати в офисе VK!
Регистрируйтесь!
Pytup в Нижнем Новгороде 1 июня
Вас ждёт большая конференция по Python-разработке Pytup.
В программе — выступления спикеров, новости языка, актуальные кейсы экспертов и, конечно, нетворкинг.
Узнаете, как создать платформу для обработки данных в вашей IT-компании или микросервис обработки геометрических данных. А ещё послушаете крутые доклады, получите ответы на вопросы и пообщаетесь со спикерами и коллегами.
Зарегистрироваться на Pytup! 💛
Заменит ли нас AI?:) https://youtube.com/shorts/eJMD575FZtM
Сделайте доброе дело, поставьте like на YouTube 😐
▶️ SQL + dbt = God Mode Data Modeling / Подходы к созданию витрины корпоративных метрик
— Бизнес-задача: Дашборд для Weekly Business Review (WBR)
— Решение «Hardcore Cube» 🗿
— Решение «Direct Runtime» 🦅
— Aggregate awareness (Looker) как оптимизация производительности
— Решение «Godlike modeling» 👑
— Как отразилась смена СУБД с Amazon Redshift на Snowflake на решении?
✅ Как всё это использовать у себя?
— Находите повторяющиеся паттерны и переиспользуйте код (DRY)
— Пишите универсальный код с dbt
— Не изобретайте велосипед - используйте packages
— Ищите баланс между материализацией и runtime queries
— Чем меньше кода, тем лучше
Слайды доклада: https://drive.google.com/file/d/1_KGuLGWksWBHz0SKUEOW1MO4Acxea0s3/view?usp=sharing
👑 Учиться со мной: https://forms.gle/uwETpSRA6ux7Gr1t7
🌐 @data_apps | Навигация по каналу
P&L или Profit & Loss важная финансовая отчетность. Которая с одной стороны простая. А с другой вообще не понятно.
Поэтому данный пост Reading a Profit & Loss statement вам в помощь
20 лет назад я начал работать в системах MatLab и OriginLab c данными физических экспериментов, и это было начало пути анализа и визуализации данных. Рад, что работал, продолжаю работать и общаться с крутыми и максимально недушными командами в классных компаниях и как BI разработчик, и как независимый консультант, и как менеджер. Много драйва было в сообществе Tableau, что сильно увлекло, кардинально утащило в датавиз и изменило карьерный трек. Были блоги, статьи, конкурсы и много общения с аналитиками из разных стран.
Удивительно, но самые ценные вещи в аналитике узнаешь не на официальных мероприятиях и конференциях, а в неформальном общении и различных дата-активностях. Особенно интересные мысли приходят в кафе и барах. За пределами Слака и Джиры тоже есть жизнь, ну и такие вещи особенно запоминаются.
Накопилось много работ и мыслей, которые просто по времени не успеваю упаковывать в полноценные визы и статьи. Поэтому в Телеграме запускаю канал ‘Data Bar’, где буду писать про анализ данных и визуализацию максимально неформально.
Буду рад всем. Вэлкам:
/channel/data_bar
Александр Варламов
В статье про Analytics as a Code автор рассказывает про 4 уровня решений. Их решение Holistics, конечно же на 4м.
Мне у них особенно понравилось:
As analytics logic becomes more complex, it becomes harder to manage and maintain the code. A 500-1000 line SQL query is not rare in companies reaching a certain size. At dbt Coalesce 2023, dbt Labs noted a rising trend of projects with over 5000 dbt models.
То есть они предлагают 2500 в дбт и 2500 в BI? Мне кажется будет в итоге 5000 в дбт, и еще 3000 в Holistics. Потом придет новый босс и скажет мигрируем все на Databricks (PySpark) и Power BI или Tableau (к сожалению это не шутки, так всегда и бывает)
Мне как бывшему BIайщику, кто работал на разных BI инструментах сейчас однозначно нравятся решения с кодом и интеграцией в git. Looker самый удачный и популярный пример.
Из плюсов сложней создать «помойку» дашбордов, но из минусов, что создать сам дашборд дольше и сложней. Обычно эти решений взаимодействуют напрямую с базой данных и у них скудные возможности кеширования, то есть нет возможности экстрактов по 100Гб (зато не надо потом это дело troubleshooting)
И вообще типичный бизнес пользователь при слове git, код и тп впадает в ступор.
В любом случае, эксель все еще популярен👨💻
Как у вас BI на работе? Ваш красивый дашборд все еще хотят выгрузить в Excel? У вас не меньше 5 разный показателей «прибыль» от разных команд, с разной логикой?
Forrester Wave: Data Lakehouses, Q2 2024
В отчете Forrester Wave за второй квартал 2024 года рассмотрены 13 ключевых вендоров решений для data lakehouse, их предложения и позиции на рынке. Авторы отчета с коллегами провели анализ по 24 критериям, оценивая важнейшие компании, предоставляющие услуги в области управления данными.
Особое внимание уделено интегрированным решениям, использованию GenAI и производительности при масштабировании, что является критически важным для современных бизнес-задач.
Традиционные хранилища данных и озера данных уже не справляются с растущими требованиями бизнеса из-за недостаточной гибкости, масштабируемости, интеграции, автоматизации и управления.
Решения data lakehouse преодолевают эти проблемы, предоставляя единую платформу данных с передовыми возможностями AI, что ускоряет получение ценности от новых бизнес-инициатив.
В докладе подробно описываются сильные и слабые стороны каждого поставщика, а также даны рекомендации по выбору подходящего поставщика в зависимости от специфических бизнес-потребностей.
Компании Databricks, Google и Snowflake выделены как лидеры рынка благодаря своим инновационным платформам, обеспечивающим масштабируемость, безопасность и комплексную интеграцию.
PS странно что Microsoft отстает со своим Fabric и One Lake. Зато хорошо все с Power BI.
Вышел новый подкаст с хэдом е-ком сервисов Яндекса и СЕО Яндекс Маркета Романом Маресовым. Success story - от консультанта в McKinsey до руководителя в корпорации. Можно узнать про принципы управления командой, must have для управленцев любых уровней.
А еще у Ромы есть свой ТГ-канал, где он делится внутренней кухней Яндекса, собственными инсайтами, трендами е-ком отрасли, карьерными советами и да, тему управления тоже периодически поднимает.
Канал тут.
Недавно я познакомился с командой канала Выше Вилки.
И мы решили записать вебинар и подискутировать про зарплаты в ИТ и про стратегии их увеличения, заодно сравнили рынок Нидерландов и Северной Америки. Мне понравился результат. Поговорили по делу, про работу, лояльность работодателя, FIRE, job security. Сошлись на мнении, что ходить на собеседование нужно, не когда “жопа горит”, а когда все хорошо.
Паша рассказал классные life hacks про рост внутри компании. Я относился всегда очень скептически к росту внутри компании, но это реально рабочий метод, и судя по их каналу Выше Вилки, они прям фокусируются на этих кейсах. У них даже есть курс по этой тематике (не реклама), в котором они рассказывают и показывают про навык повышения зарплаты внутри компании или на переговорах.
Ссылка на подкаст - Как рос мой доход в IT?| Как правильно торговаться за оффер?| Павел Филонов и Дмитрий Аношин
А вот что получилось, пришли ребята из телеграм канала, рассказали про свою жизнь в NY, Из митапа на eventtribute пришло только двое (из 16 зарегистрированных), один из пришедших был вообще турист из Аргентины.
Как рассказал выше в видео, это очень кайфово так приезжать в другой город и встречаться с людьми со схожими интересами и сферами, проговорили 3 часа обо всем, включая собесы, тулы, зарплаты и многое другое!
Следующая встреча будет в Сиэтле 18 мая, пишите кто из Сиэтла в комментах!
PS NY 🔥🔥🔥, точно центр мира, но если с 💰💰💰
Самая важная информация для разработчика! Обязательно like поставьте, Surfalytics Shorts как ни как!
Читать полностью…
Как классно качать свою карьеру?
Все просто, учимся, собеседуемся, делаем пет проекты и вообще занимаем прокатившую позицию.
Никита (я про него писал, про его success story из Бизнес Аналитика в Analytics Engineer) своим примером показывает, что возможно все.
Недавно он нам показывал свой проект в Surfalytics, который он сделал для Paradime (ребята взяли dbt core и стали продавать дешевле dbt labs🤦♂️). В проекте он построил решение на Snowflake, dbt, sygma, hex и наковырял insights по NBA data set.
И Paradime написали блог про проект Никиты https://www.paradime.io/blog/nikita-volynets-dbt-and-toronto-raptors
Вообще это хорошая тактика использовать “меленьких” вендоров, чтобы пиарить их, а они будут пиарить вас. Я сам раньше так через консалтинг делал с Matillion ETL и SQLdbm. Хороший охват аудитории.
Недавно я писал про MAD 2024. Так же есть и видео где обсуждают текущую ситуацию на рынке и куда все идет - Matt Turck - The 2024 MAD Landscape (Special Show)
Matt Turck joins us for a special chat about the newly released 2024 MAD (ML, AI, and Data) Landscape. There's a TON happening at light speed in the AI and data space right now, and Matt and the FirstMark crew have done a phenomenal job keeping a pulse on things.
Другое видео вам может понравится про создание консалтинга или переквалификацию в консультанта или контрактера - Starting An Independent Consulting Company In 2024
Я про освой опыт консалтинга уже рассказывал - Опыт создания аналитической консалтинг-компании в Северной Америке, как ни странно, компания еще существуют и многим помогает получить “первый опыт” дата профессии и главное его подтверждение🚣