Делюсь новостями из мира аналитики и вредными карьерными советами;) 8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄♂️ Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).
Закончил 2ю половину workshop по CI/CD на примере контейнера с DuckDB и 1м SQL файлом.
Во 2й части мы занялись deployment, и в качестве destination выбрали Docker Hub. Посмотрели на GitHub и Docker tags, добавили Release, все через GitHub Actions.
Вы можете самостоятельно все проделать.
Ссылка на инструкции: https://github.com/surfalytics/data-projects/tree/main/dataops-projects/01_git_and_ci_cd
Мое решение: https://github.com/dimoobraznii1986/surfalytics-ci-cd-project
Статьи в тему, которые мы написали с Настей:
- Part 1: How to work with SQL queries as a pro
- Part 2: How to work with SQL queries as a pro
Если не уверены в CLI, IDE, Docker, Git, начните с Модуля 0 (Surfalytics), там может и на английском, но все команды и примеры и так понятны https://www.youtube.com/watch?v=LJIiCLu2gr8&list=PLNCDg7zJiXhP5Z_-TXUdorz2n7sjYHHKE
Понимание, что такое CI/CD, Git, как это работает и как используют другие компании помогает лучше адаптировать DevOps практики для своих аналитических проектов и повышает качество проекта.
Как выглядит busy день инженера данных в рассвете сил:
1. Опубликовал новую версию Airflow Dag, которые делает feature engineering в dbt, запускает ML модель в S3 (модель от команды).
2. Использую terraform и permifrost создал новые объекты (базы данных, пользователей, роли) и раздал всем права
3. Создал OAuth 2.0 security integration в Snowflake для для внешнего подключения
4. Ревью несколько PR и backfill Azure Data Factory pipeline
5. Несколько митингов
6. Создал интеграцию Braze и Snowflake
7. Через Fivetran подключил Gladly, Zoom, Zendesk, Wallmart
8. Задеплоили и проектировали Cloud Watch Alerts и Pager Duty интеграцию для on-call
9. Troubleshooting для Azure Databricks
10. Собеседование с VP Engineering на Staff DE - отвечал на все вопросы по книжки Staff Engineer:)
11. Обсудил с Колей из @leftjoin про консалтинг в РФ и балет Щелкунчик
12. Обсудил с Андроном из @andron_233 про популярность Apache Spark и Databricks
13. Еще будет встреча с VK сегодня, чтобы попросить бесплатных кредитов для бесплатного воркшопа по на русском;)
14. Скоро будет местный балет Щелкунчик, где моя дочь выступает
15. И перед сном нужно закончить 2ою часть CI/CD workshop
PS с одной стороны это большой список, особенно для ДЕ задач. Каждая задача в отдельности сложная. Но если я потратил несколько недель на создание качественного фреймворка, то итерации будут уже очень быстрые. Например по permifrost и terraform я потратил недели 2-3 и даже грохнул прод. По OAuth2.0 я потратил неделю, чтобы понять как это работает. Зато когда pattern установлен, становится все легко и быстро. И главное более качественно.
Performance Optimization в Apache Spark это лес дремучий! Но оказывается есть супер видео, которое прям хорошо объясняет: https://youtu.be/daXEp4HmS-E?feature=shared
PS Спасибо Юре, который поделился в Surfalytics Discord.
❤️🩹 Пост поддержки — Кристине Уласович из нашего маленького датавиз / дата журналистского сообщества нужна помощь.
Если у вас есть связи в системе здравоохранения Москвы — напишите ей @ave_kirsten
Совместный проект Кристины и Марии Хомутовой в прошлом году вошел в шортлист Information is Beautiful Awards, на церемонии награждения которой мы и познакомились.
Ниже привожу текст от Кристины:
«Дорогие все.
Так случилось, что в моей семье ужасное горе - мама заболела раком, IV стадия.
Не передать словами, насколько ужасный был месяц: 3 недели в реанимации, опасная для жизни операция, ТЭЛА.
Она сейчас в состоянии средней тяжести после всего пережитого — у нее пневмония, нарушены двигательные функции, кислородотерапия. Но есть положительная динамика по восстановлению.
В таком состоянии, как у нее сейчас, химию делать нельзя. А ей она нужна, потому что есть метастазы. Единственный наш шанс — это чтобы мама долечилась и прошла реабилитацию. Однако наша больница долечивать ее не очень хочет и настаивает на паллиативе, но остановиться на полпути, сдать ее в хоспис и опустить руки сердце мне не позволяет.
Я обычно стараюсь все вытянуть сама, но тут мне просто не хватает собственной мощи. Если вы знаете кого-то, кто мог бы помочь в этой ситуации - может быть, маму удастся перевести лечиться в другую больницу, в реабилитационный центр, где ей можно будет дать шанс восстановиться - или знаете, что можно ещё сделать, то напишите мне или просто поделитесь моей историей.
Скоро Новый год, и моей семье очень нужно чудо. Я уже потеряла папу в 2018 году, и я должна попытаться сделать все, чтобы не потерять еще и маму.
P. S. Если вы или ваши родители знакомы с моей мамой, то пока что ей не пишите, пожалуйста. Она не знает всю полноту диагноза, сейчас ей это не нужно — иначе страх застопорит прогресс.»
Вот еще одна стратегия быть в +. Если Databricks реально создает Инновационный, надежный продукт, в котором есть все, что нужно для data engineering, machine learning, AI, data analytics, то Microstrategy просто скупает биткойны💪
MicroStrategy обанкротится только если астероид ударит по Земле.
За 15 лет цена биткоина никогда не опускалась ниже базовой стоимости долгосрочных держателей, которая сейчас составляет $30K.
Долг MicroStrategy составляет $7 млрд, а их запасы BTC оцениваются в $46 млрд.
Основываясь только на BTC, цена ликвидации составляет $16.5K.
Не понимаю, почему 1С не скупает биткойны, вот бы хайпанули на мировом рынке)
В продолжение прошлого поста:
Внезапная смерть Сучира Балажи, известного критика OpenAI, потрясла технический мир на фоне ожесточённых дискуссий о законах об ИИ и авторских правах. За несколько месяцев до своей смерти Балажи раскрыл серьёзные этические и правовые проблемы.
Он в частности критиковал то, как компании, такие как OpenAI, собирают огромные объёмы данных из интернета для обучения своих ИИ-моделей, ставя под сомнение законность и этичность этих практик в рамках действующего законодательства об авторских правах.
Открытые данные кончаются, надо брать закрытие. Кто не согласен погибает.
Вроде с боенгом уже разобрались, претензий ни у кого не осталось. Думаю скоро на Open AI претензии тоже иссякнут🔫
Работают над проектом в Surfalytics, чтобы научить базовым вещам в CI/CD, DevOps для аналитиков и инженеров данных. Первая половина готова: https://github.com/surfalytics/data-projects/blob/main/dataops-projects/01_git_and_ci_cd/readme.md
Пока это совсем простой пример, где у нас даже нет Python, всего лишь SQL файлик + DuckDB и Docker контейнер.
План такой:
- все делаем на локальной машине
- все делаем внутри Docker
- добавляем локальную проверку с Pre-commit
(Yaml, SQLfmt)
- добавляем PR шаблон
- добавляем makefile
- добавляем .gitignore
, .dockerignore
- добавляем шаг CI через GitHub Actions - запуск Pre-commit
удаленно
- добавляем шаг Integration test в CI. Будем сверять SQL результат, что наша логика не поменялась.
На этом закончится первая половина. На следующей неделе добавлю часть про CD, tags, Release, может быть попробую blue-green deployment.
В readme
все очень хорошо описано. Создаете новый GitHub репозитория и погнали. Ну или к нам присоединяйтесь, тогда уже все вам на пальцах расскажут:
- Data Analyst Role landing
- Data Engineer Role Landing
- Analytics Engineer Role Landing
- BI Engineer Role Landing
На большинство проектов, где я работал даже таких базовых вещей не было, поэтому классно разобраться в этом и на собеседования рассказывать или уже идти и внедрять к себе сразу.
Модуль 2 курса Getting Started with Analytics and Data Engineering на английском готов:
Введение - по классике из центра Ванкувера.
Урок 1: что такое база данных и какие бывают.
Урок 2: подключаемся к базе данных и SQL (А тут где учить SQL https://dataengineer.ru/hard-skills/2023-06-04-sql.html)
Урок 3: модели данных
Урок 4: базы данных в облаках
Урок 5: про визуализацию запросов, как бы BI на минималках
Урок 6: NoSQL базы данных для нас (аналитиков и инженеров) и про MongoDB + hands on
Урок 7: топчик БД -DuckDB вместе с hands-on
Ссылка на модуль 1 /channel/rockyourdata/4739
Ссылка на модуль 0 /channel/rockyourdata/4553
Модуль 1 и 0 просто MUST HAVE!
И не забывает читать про карьеру успешную, особенно если вы вот только начинаете https://dataengineer.ru/pages/careertracks/
PS а тут наши проекты: https://github.com/surfalytics/data-projects почти каждую неделю делаем что-то новое
Я провел недавно эксперимент на LinkedIn. У меня там несколько компаний зарегистрировано, в каждой можно создавать Jobs. Лишь подтверждение, что платформа вообще не подходит для поиска работы, будет только сжирать время и ресурсы. А для компаний еще и кучу бабла.
В Surfalytics я воспользовался free trial на 3 дня на позицию Junior Data Engineer в Канаде.
За первый час пришло 200 откликов, за первый день почти тысяча. Всего 1400 откликов на вакансию.
В Rock Your Data я опубликовал Data Analyst в США. Там уже за $. За 3 часа три это чудо скушало 200US$ и все кандидаты попали в “No Fit” по моим вопросам, то есть условно они для меня не релевантны.
В LinkedIn это работает как в Google Ads, по кликам мы платим.
LinkedIn это такой бесконечный поток кандидатов, которым вообще пофиг на что откликаться, описание они не читают. За пределами то же самое. Таким образом кандидаты портят жизнь и себе и другим, и компаниям. HR в это процессе тоже теряются, и в итоге упускают хороших кандидатов.
Для Северной Америки искать работы в LinkedIn (откликаться на вакансии) это пустая трата время. Другой вопрос, иметь сильный профайл, чтобы вам написал рекрутер. Лучше всего это прямо идти на сайт компании, а еще лучше найти референс. На сайт мы добавили еще мест и чатов, где искать работы https://dataengineer.ru/pages/career/
Я добавил скриншоты. Что показать пример кандидатов. Каждый 2-й и 1й это блогер, шмогер, сертифицированный эксперт, с огромным списком технологий, как будто их резюме находится в шапке LinkedIn профайла. Но если, посмотреть сам LinkedIn или резюме, то там вообще не релевантный опыт или его просто нет. Как мартышки налетели на вакансию, накликали, и полетели дальше засорять интернет.
Про требования к стране, опыту или еще чего, я вообще молчу. Все, у кого есть интернет в деревне в Африки и Индии и много свободного времени считают своим долгом откликнуться, авось повезет.
Я решил пообщаться с людьми. Например, пишу: “Привет, так и так рынок тяжелый, а у тебя резюме и Linkedin не совпадает, и вообще опыт не про дату и аналитику.”, а в ответ, что-то типа мы сами все знаем не надо учить, спасибо за подсказку, мы как-то сами справимся.
Одна дама поведала, что вот прошла Rust курс для Data Engineering, я ей говорю, зачем Rust, ведь надо dbt и Snowflake лучше. На что она мне сказала, что у нее нет время учить все в подряд. И вообще недавно она прошла курсы про Node, Angular и другим Front End вещам, а работает она пока бухгалтером.
Еще я попробовал сервис ZipRecruiter. Тоже на trial. За 2 дня было 6 окликов, тоже бесполезный.
Вывод простой - доступность знаний и hype из разряда работать из дома и получать 100500 тысяч делают свое дело. Качественных кандидатов мало на рынке, но им намного сложней пробиться и найти себе работу(ы).
Нужно ли быть честным кандидатом на собеседовании и честным сотрудником?
Казалось бы, честность и открытость — это хорошо. Однако, в корпоративном мире такая честность имеет высокую цену.
Сейчас все обсуждают случай, когда компания YesMadam уволила сотрудников нытиков, которые жаловались на стресс. Они надеялись на понимание, а получили "пинка под зад".
Очевидный вывод: быть честным с работодателем небезопасно!
Вот примеры из личного опыта:
- На одном собеседовании меня спросили о недостатках. Я честно рассказал, как был токсичным, конфликтовал с начальством, отстаивал интересы команды и компании, в итоге попал на PIP, прошел его, снова конфликтовал и в итоге уволился. После этого уволили и директора, и VP. Реальная жизненная история. На следующий день я получил отказ от hiring manager.
- В общении с американскими коллегами выразил симпатию Трампу. Оказалось, для них это серьезная проблема, и теперь взаимодействовать с ними стало сложнее.
Это лишь пара небольших примеров.
Не забывайте: задача HR — защищать интересы компании. Все, что вы скажете, может быть использовано против вас. Я сам не раз наступал на одни и те же грабли.
Хотите роста и стабильности? Играйте по правилам компании, пока не наберете “достаточный вес”, чтобы позволить себе быть честным. Хотя, как известно, незаменимых людей не бывает.
Хотел сегодня поделится маленькими телеграмм каналами своих давних друзей. Они совсем не из ИТ, но ребята делают то, что им нравится!
ВАСО НА СТРОЙКЕ🛹👷♂🛠️ - Васю знаю давно, скейтер старой школы. Он подарил скейт на первый день рождение моему сыну 12 лет назад. В душе он всегда был предпринимателем, а сейчас ведет канал про строительство скейт парков в России. Он и его команда строят парки мирового уровнях в любых условиях в городах России. Контент топчик!
Welcome 2 backstage - канал про моду и стиль, ведет Женя. С Женей мы давно знакомы и познакомились на Московской Неделе Моды в гостином дворе, где работали много лет вместе. Оказалось что мы живем на соседних станциях метро. Он все знают про стиль и моды и кайфует от того, что делает. Заодно в его сторис я всегда узнаю о топ фильмах к просмотру!
За 200$ в месяц ChatGPT никто не пробовал в работе?
Читать полностью…Теперь вы знаете как делать топ конференция!
Там реально можно набить татуху с AWS сервисом или мультяшкой!
Не благодарите за идею к вашему следующему ивенту и новогодним корпоративам))
В последнее время было тихо у AWS на фоне AI. Они просто ждали свою конференцию re:Invent, чтобы анонсировать все. Уже все написали за нас, осталось попросить chat gpt перевести:
Amazon на этой неделе решил действовать жестко. Они только что анонсировали собственные foundation models, на 75% дешевле. Плюс AI Chips. Плюс суперкомпьютер. Они нацелились на ВСЕХ.
Это похоже на скоординированную атаку на всех основных фронтах искусственного интеллекта.
Amazon одновременно бросает вызов OpenAI/Microsoft в области foundation models, NVIDIA в разработке чипов, xAI в суперкомпьютерах, и заручается поддержкой мощных союзников, таких как Anthropic и Apple. Кстати, SAP в восторге от этого.
1. Доминирование в Foundation Models
- Шесть новых моделей Nova, которые соответствуют или превосходят конкурентов
- На 75% ниже стоимости по сравнению с текущими лидерами рынка
- Уже используются в 1000 приложений Amazon
- Дорожная карта на 2025 год включает революционные модели "speech-to-speech" и "any-to-any"
- Поддержка 200+ языков, в то время как конкуренты сосредоточены на английском
2. Революция в чипах
- Чипы Trainium2 демонстрируют 4-кратный прирост производительности
- Снижение стоимости на 50% по сравнению с Nvidia
- Apple подписан как крупный клиент
- Глубокое сотрудничество с Annapurna Labs
- Уже разрабатываются чипы следующего поколения Trainium3
3. Project Rainier: Суперкомпьютер
- Создание крупнейшего в мире распределённого AI-кластера
- Сотни тысяч чипов Trainium работают в унисон
- В 5 раз мощнее текущих систем Anthropic
- Многоузловой дизайн для беспрецедентного масштаба
- Прямой конкурент Colossus от xAI
4. Сделка с Anthropic
- Масштабные инвестиции в размере $8 миллиардов
- Закрепление за собой роли основного поставщика облачных услуг
- Эксклюзивный доступ к будущим моделям Claude
- Глубокое техническое сотрудничество по оптимизации чипов
- Ранний доступ для клиентов AWS
Самое впечатляющее: Amazon создаёт целую экосистему. Они одновременно решают задачи вычислительных мощностей (Project Rainier), чипов (Trainium), моделей (Nova) и партнёрств (Anthropic) — и при этом снижают цены для всех.
Source
Snowflake знают все, даже если вы его никогда не использовали, но если вы работаете в области аналитики данных или инжиниринга данных, вы точно о нём слышали.
Главная его особенность заключается в том, что Snowflake фактически создал концепцию Lake House до того, как она стала популярной в 2020-2021 годах. Идея заключалась в разделении Compute (вычисления на виртуальных машинах) и Storage (хранение данных на S3, Azure Storage, GCP Storage).
То есть все данные хранятся в одном большом хранилище (storage), а вычисления могут выполняться на любом подходящем ресурсе.
Речь, в данном случае, о кластерах Snowflake (Compute Warehouse). Единственный недостаток этой технологии — данные хранятся в закрытом формате, представляющем собой black box для конечного пользователя, что также приводит к эффекту vendor lock.
Чтобы упростить продажу продукта, Snowflake позиционируется как хранилище данных. Если бы в 2016-2017 годах компания пыталась объяснять клиентам, что это нечто большее, чем классическое хранилище, и не совсем хранилище, это значительно усложнило бы продажи.
С 2020 года стали активно развиваться открытые форматы таблиц, которые заменили классический каталог Apache Hive: Delta, Iceberg и Hudi.
Hudi стух. Delta стал стандартом для Databricks. Iceberg занял лидерство в индустрии.
Snowflake также добавил поддержку каталога Iceberg. В свою очередь, Databricks приобрел компанию Tabular (создателей Iceberg), чтобы унифицировать формат внутри своего lake house — Delta Lake Universal Format (UniForm).
И теперь снова о Snowflake, который считается дорогим, но при этом удобным и простым в использовании. В сети полно информации о том, как можно оптимизировать затраты, самый популярный метод — включить AUTO Suspend.
Однако мы наблюдаем сдвиг в сторону унификации аналитических решений. По умолчанию Snowflake скрывает свои данные и хранит их в собственном формате, как любая база данных. Но с развитием интеграции Iceberg появилась возможность переносить часть данных из Snowflake во внешнее хранилище и создавать Snowflake-Iceberg Managed Catalog.
Это открывает множество возможностей использовать каталог Snowflake, задействуя внешние вычислительные движки, такие как DuckDB, Trino, Spark, Polars и PyArrow.
Несколько ссылок по теме:
- Quack, Quack, Ka-Ching: Cut Costs by Querying Snowflake from DuckDB
- Execute Snowflake queries locally on DuckDB
- Processing Trillions of Records at Okta with Mini Serverless Databases
Пока это не полноценная замена Snowflake или унификация методов хранения и доступа к данным, но видно как это направление набирает обороты и позволяет уже сейчас сократить расходы Snowflake.
Дмитрий Аношин про разницу между туризмом и иммиграцией, выгорание в Amazon и work-life balance
Работа в корпорации с громким названием вроде Microsoft или Amazon для кого-то может выглядеть, как мечта — ведь это большая зарплата, стабильность, интересные проекты. Но иногда реальность разочаровывает, и перестают мотивировать что статус, что деньги.
И как быть?
В новом выпуске LEFT JOIN Partners дата-инженер Дмитрий Аношин (вы наверняка знаете его по его проектам вроде Surfanalytics и курсам на Data Learn), рассказал о переезде в Канаду, работе в Amazon и Microsoft и борьбе с выгоранием.
Обсудили не только трудности.
🔵 Как сегодня переехать в Северную Америку и найти работу в IT?
🔵 Сколько платят дата-инженерам в Amazon?
🔵 Что нужно, чтобы стать востребованным специалистом и построить карьеру в IT на западе?
🔜 YouTube
🔜 VK
Стартап Databricks, который представляет собой аналитическую платформу на базе Apache Spark поднял $10 млрд при оценке в $62 млрд (около 25 годовых выручек), что стало крупнейшим венчурным раундом в истории. Кажется, новый пузырь созрел для того, чтобы начать о нём говорить.
https://techcrunch.com/2024/12/17/databricks-raises-10b-as-it-barrels-toward-an-ipo/
Наконец привел в порядок папочку, где были решения для домашнего задания с собеседований https://github.com/dimoobraznii1986/Assignments
Тут 3 проекты/задания
1. Для EPIC (Создатели Unreal Engine) - я расписал как я бы создавал решение для Game Analytics. (Результат: мимо)
2. Для Alpaca Markets (API для трейдинга) - набор docker с dbt, airflow, Jupyter, Postgres. (Результат: работал почти год и сам ушел)
3. Для Zappier (No-code решения для автоматизации) - end-to-end решение на Databricks. Нужно было с API по футболу забирать данные и построить Delta Lake. Там же есть их фидбек. (Результат: мимо). Попросили на задачу потратить 3 часа, я потратил 15 часов минимум.
Примерно такие проекты мне нравится делать на Surfalytics, где можно использовать какой-нибудь стек и создать end-to-end решение и обосновать выбор каждого элемента.
Кстати если интересно узнать про собеседования для DE (настоящие): https://www.youtube.com/playlist?list=PLNCDg7zJiXhM5Gshe5_Q2HAZM5vIOLpI1
Про аналитика и BI и SQL mock, которые мы проводим внутри Surfalytics: https://www.youtube.com/watch?v=qUwbpgbEymE&list=PLNCDg7zJiXhPD0ethFHC-1V1pkvWhc633
Databricks is Raising $10B Series J Investment at $62B Valuation - мощно!
Today’s announcement comes on the heels of Databricks’ recent momentum which includes:
Growing over 60% year-over-year in the third quarter ended October 31, 2024
Expecting to cross $3 billion revenue run-rate and be free cash flow positive in the fourth quarter ending January 31, 2025
Continuing to achieve non-GAAP subscription gross margins above 80%
Having 500+ customers consuming at over $1 million annual revenue run-rate
Achieving $600 million revenue run rate for Databricks SQL, the company’s intelligent data warehousing product, up more than 150% year-over-year
Мне кажется сотрудники Databricks уже устали ждать IPO🏃♂️
Дата все! Озвучили мысль, что данных больше нет для тренировки AI, и не предвидится. Синтетические не в счет.
Читать полностью…Arch.Conf by Sber возвращается! 🚀
17 декабря мы снова собираем лучших специалистов в области ИТ-архитектуры на второй конференции от Сбера.
Регистрация уже открыта!
Вас ждут два мощных стрима:
🔹 Стрим "Методологические подходы". Здесь вы узнаете всё о современных архитектурных концепциях, методах и фреймворках. Эксперты поделятся своим видением эффективного управления ИТ-архитектурой.
🔹 Стрим "Практический опыт и кейсы". На этом треке обсудим реальные примеры решений корпоративной и Solution-архитектуры, а также обменяемся опытом по выстраиванию процессов и использованию передовых инструментов.
А также - актуальные дискуссии, презентации новых продуктов и технологий, нетворкинг с коллегами из более чем 100 ведущих ИТ-компаний России.
Не упустите шанс стать частью главного события года Сообщества ИТ-архитекторов Сбера!
Количество очных мест ограничено! Выбирайте удобный формат и проходите регистрацию на сайте.
Research Insights Made Simple #6 - Interview with Nikolay Golov about data platforms (Рубрика #Data)
И, продолжая тему систем хранения данных, я решил сегодня поделиться новым выпуском подкаста про инсайты. В этот раз ко мне в гости пришел Николай Голов для того, чтобы обсудить то, как строить дата платформы в 2025 году:) Коля исполняет роль head of data engineering at ManyChat, а до этого он был head of data platform в Авито. Коля знает все о том как построить OLAP и OLTP системы, интенсивно работающие с данными. Выпуск доступен в виде подкаста на Ya Music и Podster.fm
За время подкаста мы обсудили темы
- Как развивалась карьера Коли в разных компаниях и как он стал преподавать базы данных параллельно с основной работой
- Как можно строить платформы данных (централизованно, гибридно и децентрализованно)
- Как выглядят принципы федерализации данных (аля data mesh) в теории
- Во что этот подход превращается на практике
- Как строить дата платформы в стартапах, средних, а также крупных компаниях в 2025 году
- Что не так с классическими базами данных (Postgres и иже с ним)
- Что не так с MPP базами данных (Vertica, Greenplum, ClickHouse, ...)
- Как data mesh превращается в data mash и как цепочки дата продуктов работают на практике
- Как выделять базовый домен данных, чтобы уменьшить длину цепочек дата продуктов
- Почему облачные аналитические базы так быстры: колоночное хранение + разделение storage и compute
- Что такое medalion architecture
- Куда дальше будут развиваться технологии обработки данных и почему нельзя полагаться на старые подходы и ограничения
Дополнительные материалы
- Статьи из периода работы в Avito "Vertica+Anchor Modeling = запусти рост своей грибницы"
- Статья из периода работы в Manychat: 1 и 2
- Запись "Data Modeling Meetup Munich: From Data Vault to Anchor Modeling with Nikolai Golov"
- Запись "DataVault / Anchor Modeling / Николай Голов"
- Научная статья "Golov N., Ronnback L., Big Data Normalization for Massively Parallel Processing Databases" //Computer Standards & Interfaces, 09-May-2017, https://doi.org/10.1016/j.csi.2017.01.009
- Научная статья "Golov N., Filatov A., Bruskin S.,Efficient Exact Algorithm for Count Distinct Problem", Computer Algebra in Scientific Computing, July 2019
#Data #Datamesh #Processes #Management #Architecture
Обновление dataengineer.ru:
1. В карьерные треки я написал введение про управление карьерой как бизнесом имени себя и принципы Карнеги про people skills. Я считаю это очень важно для успешной карьеры. Как ни странно от такого подхода должны выигрывать компании и сотрудники.
Так сложилось, что после книги “Как завоевывать друзей и оказывать влияние на людей” Карнеги, я стал слушать книгу - “Soft Skills: The Software Developer’s Life Manual” Джона Сонмеза. В своей книги он все время ссылается на Карнеги, у которого книга написана была в 1936 году. Джон так же рассказывает про отношение к карьере как к бизнесу, где нужно принимать бизнес решения и брать на себя ответственность. Последнее время я как раз размышлял, почему у одних карьера успешнее, чем у других. Причин и путей много, но как видно бизнес подход имеет определенный смысл и эффективность.
2. Еще больше инструментов в CLI и IDE и AI в помощь
3. В облачные вычисления добавил платформы и курсы.
4. В секцию BI добавили про Инструментарий Разработчика.
5. В DevOps добавили про Git системы.
6. Добавили еще немного книг.
PS хотите добавлять ресурсы на портал? Писать простым языком про сложные вещи? Эксперт в како-то нише? Добавляйтесь в котрибьютеры!
#dataengineer_ru
Вот это я понимаю аналитика будущего.
Вам понадобится:
- 1 iPhone или Android
- Коробка с сухим льдом для охлаждения, хотя зимой можно в форточку высунуть
- Эмулятор командной строки
- DuckDB
И можно анализировать ваши данные. Это еще они на PS5 или Steam Deck не запускали DuckDB.
Источник: https://duckdb.org/2024/12/06/duckdb-tpch-sf100-on-mobile
Как бизнесу анализировать данные проще и быстрее?
Обсудим на бесплатном вебинаре СберТеха «Platform V OLAP Analytics — бизнес-эффекты от интерактивного анализа данных».
Приглашаем 12 декабря в 11:00 — бизнес-аналитиков, руководителей аналитических отделов, CDO и CTO.
Platform V OLAP Analytics — распределенное хранилище аналитических данных. Инструмент упрощает анализ данных, формирует аналитическую отчетность и помогает в планировании.
Спикер Виктор Калачанов, Product Owner Platform V OLAP Analytics, расскажет о продукте и познакомит с его:
• основными функциями;
• ключевыми преимуществами;
• целевым сценарием использования;
демонстрацией на практике.
Ждем вас!
Регистрация по ссылке.
Узнать больше о продуктах для работы с данными Platform V можно в канале Data Platform V• .
Весь LinkedIn пестрит постами про Apache Iceberg. Посты писать уже не достаточно, нужно снимать видео, как вот на S3 создали Iceberg таблицу, запустили Spark и написали запрос.
Все твердят о том, как Apache Iceberg одержал победу над Delta, Hudi и стал главным форматом таблиц. Кстати, на последних собеседованиях уже начали спрашивать про Iceberg и DuckDB.
Не важно, какая у вас роль, если вы работаете с данными, вы должны знать про Apache Iceberg и понимать суть и сценарии использования.
Apache Iceberg - это формат таблиц (не путать с типом файла!). Когда мы сохраняем наши данные в storage layer, например в формате Parquet, мы добавляем метаданные:
- Metadata file - содержит информацию об общей структуре таблицы, таких как схема, версии и снэпшоты.
- Manifest list - список всех файлов-манифестов, связанных с конкретным снэпшотом таблицы.
- Manifest file - указывает на конкретные файлы данных, описывая их диапазоны и разделы для эффективной фильтрации.
Полезные ресурсы:
An introduction to Apache Iceberg by Dremio.
Iceberg, Spark and Dremio - A Hands on Experience.
Data Lakehouse Basics by Dremio.
Apache Iceberg Quick start with Docker Compose.
Apache Iceberg Fundamentals: Course.
Бесплатная книга Apache Iceberg: The Definitive Guide PDF
От наших облаков из комментов:
В Yandex Cloud возможны следующие способы работы с delta-форматами файлов:
1) коннекторы iceberg и delta lake в сервисе Managed Trino, который будет доступен пользователям в рамках technical preview уже в декабре 2024 года
2) delta lake в сервисе Yandex Data Processing
https://yandex.cloud/ru/docs/data-proc/concepts/deltalake
https://github.com/yandex-cloud/yc-delta
3) в Cloudberry, на основе которого будут реализованы новые версии Greenplum'а в YC, есть поддержка iceberg в коммерческой версии, однако есть планы по релизу в open-source:
https://github.com/apache/cloudberry/discussions/667#discussioncomment-10944084
- в случае появления кода в open-source репозитории, поддержка iceberg для Cloudberry будет доступна и в Yandex Cloud
В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.
Хотя вы можете создать свой Lakehouse на Kubernetes + Minio + Iceberg + Trino/Spark.
Еще нашел:
2 отечественных продукта с managed Trino, возможно они поддерживают iceberg.
СedrusData - распределенная SQL-система для создания аналитических платформ уровня предприятия на основе open-source проекта Trino. Работает с любыми источниками и объемами данных, в облаке и on-premise.
Разрабатывается компанией Querify Labs.
Обзор Managed Trino от Cloud Ru.
PS: если хотите добавить ссылку в комментарии, используйте её как текст, а не как гиперссылку, или через markdown.
Читать полностью…
www.dataengineer.ru
O’Reilly анонсировала новую книжку - AI Engineering: Building Applications with Foundation Models
Recent breakthroughs in AI have not only increased demand for AI products, they've also lowered the barriers to entry for those who want to build AI products. The model-as-a-service approach has transformed AI from an esoteric discipline into a powerful development tool that anyone can use. Everyone, including those with minimal or no prior AI experience, can now leverage AI models to build applications. In this book, author Chip Huyen discusses AI engineering: the process of building applications with readily available foundation models.
The book starts with an overview of AI engineering, explaining how it differs from traditional ML engineering and discussing the new AI stack.
The more AI is used, the more opportunities there are for catastrophic failures, and therefore, the more important evaluation becomes. This book discusses different approaches to evaluating open-ended models, including the rapidly growing AI-as-a-judge approach.
AI application developers will discover how to navigate the AI landscape, including models, datasets, evaluation benchmarks, and the seemingly infinite number of use cases and application patterns. You'll learn a framework for developing an AI application, starting with simple techniques and progressing toward more sophisticated methods, and discover how to efficiently deploy these applications.
- Understand what AI engineering is and how it differs from traditional machine learning engineering
- Learn the process for developing an AI application, the challenges at each step, and approaches to address them
- Explore various model adaptation techniques, including prompt engineering, RAG, fine-tuning, agents, and dataset engineering, and understand how and why they work
- Examine the bottlenecks for latency and cost when serving foundation models and learn how to overcome them
Choose the right model, dataset, evaluation benchmarks, and metrics for your needs
Вот кому-то нужно часто менять резюме и профайл:
Data Analyst -> Data Scientist -> ML Engineer -> Deep Learning Engineer -> LLMs Engineer -> AI Engineer.
Это как мне видится процесс, сам я не из sexy jobs 21 века, могу ошибаться.
У нас по проще:
Database (SQL) Developer -> ETL Developer -> Big Data Engineer -> Data Engineer.
И в продолжение последних нескольких постов про Apache Iceberg - Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads
То есть можно сразу писать в S3 и подключать SQL/Compute engineer. Все в одно месте. Будет интересно смотреть как дальше все будет развиваться.
# создаем таблцу в S3
$ aws s3tables create-table-bucket --name jbarr-table-bucket-2 | jq .arn
"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"
# переменная с ARN бакета
$ export ARN="arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"
# получаем список таблиц в S3
$ aws s3tables list-table-buckets | jq .tableBuckets[].arn
"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-1"
"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"
# создаем схему MYDATA в каталоге MYTABLEBUCKET используя Spark
scala> spark.sql("""CREATE NAMESPACE IF NOT EXISTS mytablebucket.mydata""")
# создаем таблицу
spark.sql("""CREATE TABLE IF NOT EXISTS mytablebucket.mydata.table1
(id INT,
name STRING,
value INT)
USING iceberg
""")
# проверяем, что все на месте
$ aws s3tables list-namespaces --table-bucket-arn $ARN | jq .namespaces[].namespace[]
"mydata"
$
$ aws s3tables list-tables --table-bucket-arn $ARN | jq .tables[].name
"table1"
# вставляем записи в таблицу
spark.sql("""INSERT INTO mytablebucket.mydata.table1
VALUES
(1, 'Jeff', 100),
(2, 'Carmen', 200),
(3, 'Stephen', 300),
(4, 'Andy', 400),
(5, 'Tina', 500),
(6, 'Bianca', 600),
(7, 'Grace', 700)
""")
Недавно я писал про приятный инсайт и русский линкедин. Но теперь мне хотелось бы поделиться инсайтом, какие посты я вижу. Там почти не пишут про инструменты или архитектуру, или про какие-то вещи с индустрией. Если полистать и присмотреться, что пишут, то оказывается что каждый второй, если не каждый первый пост будет попадать в следующую категорию:
- HR (бывшие) теперь консультанты и коучи, могут быстро прокачать вас до нужного уровня, составить резюме и помочь найти работу.
- Специалисты (особенно в области product), могут вас поменторить и прокачать, составить резюме и помочь найти работу.
- Success stories как кто-то нашел работу благодаря консультации тех самых специалистов
- Скриншоты переписки при поиске работы. Тут возможно 2 вариант: Кандидат отжигает или HR отжигает.
Тем неменее, все равно прикольно читать, разбавляет индуских data influencers!
А что вам попадется в Linkedin на русском? 😝