rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

Понравилась статья The Reality of Tech Interviews in 2025.

Так как я сам регулярно прохожу собеседования на позиции от Staff Data Engineer до VP of Data Engineering & Analytics, чтобы оставаться в курсе происходящего в индустрии, понимать реальные ожидания по зарплате и уровню, а также следить за эволюцией процессов найма, — статья отлично отражает текущие проблемы для инженеров. Менеджерам среднего звена еще сложней.

В Surfalytics мы придерживаемся принципа прозрачности: делимся между собой зарплатными ожиданиями, предложениями и опытом прохождения интервью. Да и просто приходится собеседовать аналитиков и инженеров.

На мой взгляд, отечественный рынок ждут схожие изменения — пусть и с задержкой, но вектор очевиден. Легче точно не станет.

У меня у самого есть несколько замечательных примеров, когда я успешно прошел все этапы и в ожидании офера получал отказ, так как выбрали другого кандидата, который больше понравился или согласен на меньшие деньги (на 50% меньше).

Ключевые моменты из статьи (ChatGPT):

Ключевые проблемы и вызовы тех. собеседований в 2025 году:

1. Рынок противоречий:
- Спрос на инженеров восстанавливается, но *весьма избирательно*.
- Полный переход к remote свернулся: таких позиций становится всё меньше.

2. Ужесточение требований:
- Уровень сложности DSA и system design интервью вырос на 1 "стандартное отклонение".
- Алгоритмы LeetCode Hard стали нормой даже на mid/senior уровнях.
- От кандидатов требуют чистого кода, обработки ошибок и валидации — даже в лимите по времени.

3. Столкновение с реалиями:
- Большинство стартапов и Big Tech усилили этап team match — он стал ещё одним отбором, не гарантирующим оффер даже после успешного прохождения технических этапов.
- Много квалифицированных кандидатов → компании стали избирательны до мелочей.

4. Сильный дисбаланс в спросе:
- AI-инфраструктура, ML Ops и генеративный AI — горячие направления с высокими ЗП.
- Frontend, backend и mobile — сильно охлаждённый рынок с низкой текучкой и сокращёнными командами.

5. Драматическое падение шансов для джунов:
- Университетские наймы массово урезаны.
- Даже выпускники топовых вузов, проходят по 100+ собеседований и не получают ни одного оффера.

6. Давление на EM и Staff-инженеров:
- Менеджеров требуют "рукастых", умеющих писать код, а не просто управлять.
- Staff-инженеров часто понижают в уровне (downleveling) — предлагают позиции на ступень ниже, даже при хорошем перформансе.

7. Разрыв между Big Tech и стартапами в интервью-форматах:
- FAANG по-прежнему держится за алгоритмические интервью.
- Стартапы и mid-size компании внедряют реалистичные задачи, проекты и разрешают использование AI-инструментов.

8. Компенсации и конкуренция:
- В AI-инфраструктуре можно получить $1M+ total comp, но только при *узкоспециализированном опыте*.
- Инженеры с узкой специализацией в закрытых технологиях Google/Meta — менее конкурентоспособны на открытом рынке.

9. Влияние ИИ:
- Кандидаты массово используют LLM на фоне неадаптированных интервью.
- Это подрывает смысл классических задач — но Big Tech пока не спешит менять подход.

10. Проблема "потерянного поколения" инженеров:
- Массовое сокращение входа новых разработчиков может привести к дефициту mid-level через 3–5 лет.


Как у вас дела обстоят в ваших краях?

Читать полностью…

Инжиниринг Данных

На картинке умная мысль, что технологии это не стратегия, стратегия про другое.

Но, настоящая стратегия это дорого, сложно, долго и не понятно. Куда проще мигрировать с А на Б.

Измерять можно кол-во таблиц, дашбордов и строчек кодов и стоимостью старых лицензий и вендоров.

А новые косты, это не косты, это инвестиции с высоким ROI🤩

Читать полностью…

Инжиниринг Данных

Удобный подход к написанию SQL -> Pipe SQL

Есть даже white paper на эту тему - SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL от Google Research.

Идея очент похожа на написание PySpark, Pandas и другие подходы с использованием dataframes.

Все последовательно и лаконично.

SQL Pipe есть у DuckDB https://duckdb.org/community_extensions/extensions/psql.html

И теперь у Databricks в их свежем релизе.

Читать полностью…

Инжиниринг Данных

Open AI запустил академию, где много разных программ обучения https://academy.openai.com

Читать полностью…

Инжиниринг Данных

Microsoft проводит AI challenge и победители (аж 50,000 человек) получат купоны на экзамены Microsoft.

Хотя вон ChatGPT генерит сертификаты не хуже настоящих😆

Читать полностью…

Инжиниринг Данных

Всем привет! 24 апреля в Москве в офисе Лемана Тех пройдет очередной митап по технологиям Trino и Apache Iceberg! Также будет доступна онлайн-трансляция.

В программе:
- Доклад от Лемана Тех про миграцию на Trino
- Доклад от Азбуки Вкуса про использование каталога Nessie
- Круглый стол про проблемы внедрения lakehouse с инженерами T-Банк, S7 Airlines, Лемана Тех и Кверифай Лабс

Регистрация по ссылке: https://cedrusdata.timepad.ru/event/3299844/

Читать полностью…

Инжиниринг Данных

После долгих лет в cloud я наконец-то понял: облако — переоценено.

Поэтому я решил инвестировать свое время в действительно важные и полезные навыки.

С гордостью сообщаю, что получил сертификацию по Oracle 9i и Informatica PowerCenter 7.1 — технологиям, которые когда-то держали весь enterprise-ETL на своих хрупких, но гордых серверах в серверных без кондиционеров.

В облаке слишком много YAML и нестабильных connection'ов
— а в on-prem — один раз настроил в 2005, и всё работает до сих пор
— плюс, приятно слышать, как твой сервер шумит в углу, пока ETL грузит данные 6 часов без сбоев

Следующие шаги:
☑️ Сертификация по Teradata CLI
☑️ Написание ETL-логики на COBOL
☑️ Настройка алертов через факс

Читать полностью…

Инжиниринг Данных

Алексей шарашит только впуть свои zoomcamps! я уже даже придумал бизнес идею, делать их на русском языке, да еще и на отчесественном стэке😀

Ссылки:
🔸 MLOps Zoomcamp: starts May 5, 2025
🔸 LLM Zoomcamp: starts June 2, 2025
🔸 ML Zoomcamp: starts September 2025

Я них конечно есть и недостаки, часто связанные с узкостью контента и выбора вендоров, которые спонсируют данную инициативу, но аналогов нет!

Вообще идея делать Workshop на русском end-to-end проектов вместе с вендорами будет топчик!

Читать полностью…

Инжиниринг Данных

Дата с Димой | Новости из мира BigTech | Эпизод 3

Youtube ▶️
Rutube ▶️

🎯 Ключевые темы выпуска:

📦 Snowflake + Iceberg — новые форматы хранения и поддержка Iceberg в Snowflake
⚙️ SQLMesh и нишевые тулзы — быстро, гибко, но пока сложно масштабировать
💾 Big Data ≠ Big Volume — 94% нагрузок укладываются в 10 ТБ, SSD — наше всё
🏗 DataBricks vs Snowflake — архитектура, ML, рост команд, кто кого
🧠 Семантический слой — YAML, NLP и осмысленные данные
🌍 Data Sharing и обмен метриками — как Facebook и Netflix делятся данными
🕵️‍♂️ Агенты и веб-скрейпинг — как автоматизировать сбор и обработку рыночных данных
🧑‍⚖️ Маск, Tesla и корпоративная монархия — теория заговора или новое будущее?
📉 Трамп и экономика — тарифы, эмиграция и как это влияет на рынок недвижимости
🔓 Open Source рулит — почему большие компании обожают открытые решения


💡 Источники:

https://aws.amazon.com/blogs/storage/connect-snowflake-to-s3-tables-using-the-sagemaker-lakehouse-iceberg-rest-endpoint/
https://duckdb.org/2025/03/14/preview-amazon-s3-tables.html
https://duckdb.org/2025/03/12/duckdb-ui
https://delta.io/blog/liquid-clustering/
https://www.databricks.com/blog/genie-conversation-apis-public-preview
https://docs.databricks.com/aws/en/lakehouse-architecture/reference
https://www.databricks.com/product/business-intelligence
https://github.com/mendableai/firecrawl
https://www.financialsamurai.com/
https://www.newyorker.com/culture/infinite-scroll/techno-fascism-comes-to-america-elon-musk
https://www.anthropic.com/news/model-context-protocol
https://github.com/ahujasid/blender-mcp
https://blog.cloudflare.com/ai-labyrinth/
https://www.instagram.com/pubity/p/DG-YawGvYhG/?img_index=1
https://dagster.io/blog/python-packages-primer-1
https://yandex.cloud/ru/training/compute
https://www.linkedin.com/posts/roy-lee-goat_i-just-got-kicked-out-of-columbia-for-taking-activity-7310834407433453568-tqAm
https://github.com/astronomer/airflow-ai-sdk
https://www.bloomberg.com/news/articles/2025-03-14/apple-s-siri-chief-calls-ai-delays-ugly-and-embarrassing-promises-fixes
https://github.com/drawdb

Читать полностью…

Инжиниринг Данных

Designing Data-Intensive Applications, 2nd Edition - надеюсь и так все понятно, что это сложная, скучная, но полезная книга для опытных специалистов.

The Product-Minded Engineer - подчеркивает важность развития эмпатии у инженеров-программистов для более глубокого понимания потребностей пользователей и повышения качества создаваемых продуктов. Опираясь на более чем 20-летний опыт работы в таких компаниях, как Microsoft, Facebook и Stripe, автор предлагает стратегии, помогающие интегрировать технические навыки с ориентированностью на пользователя, что способствует карьерному росту и созданию более эффективных решений. (Полностью поддерживаю автора)

Fundamentals of DevOps and Software Delivery - руководство по DevOps и доставке программного обеспечения, охватывающее инструменты и методы, необходимые для развертывания и поддержки приложений в продакшене. (Автор, Евгений Брикман, написал очень крутую книга по Terraform Up an Running.)

Data Contracts - Книга Чада Сандерсона и Марка Фримана посвящена концепции дата-контрактов — соглашений между поставщиками и потребителями данных, направленных на обеспечение их качества и надежности. Авторы подробно рассматривают, как внедрение дата-контрактов помогает документировать ожидания к данным, устанавливать ответственность за их качество и автоматически применять эти требования в процессе CI/CD, что особенно важно при работе с данными, поступающими из внешних источников. (Ребята уже мусолят тему дата контрактов ни один год, и вот наконец-то книга почти готова)


В любом случае браться за все подряд это не очень эффективно, должен быть план и roam map, и нужно придерживаться его.

Читать полностью…

Инжиниринг Данных

Технологии:
- AWS Bedrock и Azure OpenAI — для хостинга и запуска моделей LLM.
- LangChain — для интеграции LLM в инфраструктуру.
- Snowflake — для хранения данных и анализа.
- Apache Airflow — для выполнения пайплайнов обработки данных.
- AWS Fargate и AWS OpenSearch — для хранения векторных данных и поиска.


6. Simply Business — это страховая компания, предоставляющая небольшим и средним предприятиям удобные онлайн-инструменты для покупки страховых полисов. Компания разрабатывает чат-ботов для автоматизации обслуживания клиентов.

Продукт:
- Chatbot — чат-бот, который отвечает на вопросы клиентов о страховании, предоставляя только утвержденные ответы в соответствии с нормативами отрасли.

Технологии:
- AWS Bedrock — для хостинга модели.
- Anthropic Sonnet 3.5 — для обработки запросов.
- Ruby on Rails — для разработки и развертывания приложения.



7. Data Solutions International (DSI) разрабатывает HR-технологии, которые помогают компаниям с процессами оценки и вовлеченности сотрудников. Их продукты используют ИИ для анализа и суммирования отзывов сотрудников.

Продукт:
- Summarization Feature — инструмент для автоматического суммирования комментариев сотрудников, оставленных в процессе оценки и обратной связи, включая классификацию по темам и создание облаков слов.

Технологии:
- AWS Bedrock — для работы с моделями.
- PostgreSQL — для хранения векторных представлений данных.

То есть если посмотреть на технологический стек, мы видим набор традиционных решений с интеграцией Gen AI сервиса

Читать полностью…

Инжиниринг Данных

Ну что все думаете, что скоро вас заменят? А вот Нюх думают по другому:


Мне 50 лет, я пишу продакшн-код уже около 30 лет, преподаю программирование и являюсь признанным мировым экспертом в этой области, особенно в сфере облачных технологий. НУЛЕВОЙ ШАНС, что в ближайшие 5 лет эта технология сможет заменить экспертов-программистов. Это всё равно что сказать, будто циркулярная пила может заменить плотника. Логическая ошибка.

Это всё большая афера. Силиконовая долина делает вид, что что-то создаёт, а на самом деле продаёт финансовый продукт, а не настоящий. А потом уходит, оставляя за собой ядерные отходы, закопанные в общественном саду.



А вот, что говорит Степан:



1. "Петля гибели" (Doom Loop)
Компании массово увольняют сотрудников, чтобы внедрить ИИ, но затем вынуждены нанимать новых людей, чтобы управлять этим ИИ — потому что он часто ошибается. Это замкнутый круг:
→ Увольняем людей
→ Ставим ИИ
→ ИИ ошибается
→ Нанимаем людей, чтобы исправлять ошибки ИИ
→ Добавляем больше ИИ, чтобы исправлять старый ИИ
→ Повторяем

2. "Змея, поедающая свой хвост"
Метафора для того, что система начинает "переваривать саму себя" — создаются новые проблемы, которые приходится решать теми же средствами, что их и вызвали.

3. Реальность против обещаний
- ИИ делает ошибки (часто "галлюцинирует", особенно в логике и математике).
- Тесты и бенчмарки — подогнаны, демонстрации — искусственные.
- Эффективность оказалась ниже обещанной, а издержки выше.
- Возникает скрытый труд: теперь нужны "ревьюеры ИИ", "промт-инженеры", и "QA-человеки в цикле".

4. Кто выигрывает
- Компании, которые не поддались хайпу и внедряют ИИ обдуманно, как дополнение, а не замену людей.
- Принцип "Augmentation over automation" — не заменять человека, а усиливать его возможности.

5. Что будет, если не изменить курс
- Падает качество продуктов
- Растут юридические и репутационные риски
- Скрытые затраты на управление ИИ
- ИИ, который исправляет ошибки другого ИИ
- Иллюзия прогресса вместо реального роста

6. P.S.
Подозрение: новые блестящие релизы, вроде GPT-4o с улучшенной генерацией изображений — это просто способ отвлечь внимание от провалов и проблем в реальных ИИ-внедрениях.

В общем идеи у всех классные, сейчас их пампят деньгами и продают, и возможно такой подход вредит конечной цели.

В любом случае цель остается неизменной, нужно развиваться и учиться, пробовать новое (AI) и смотреть как это повышает вашу эффективность и эффективность компании, которая вам платит, ну или которую вы создаете.

Я вот еще не обновил свое резюме, чтобы написать там про AI use cases, использование AI инструментов для продуктивности, а пора.

Growth mindset - наше все!

Читать полностью…

Инжиниринг Данных

Если вы еще не попробовали промпт “Convert Studio Ghibli anime”, то самое время открыть ChatGPT модель 4o. Детализация очень крутая, как пример наши фотки.

Модель умеет совмещать несколько фоток в одну (пример с котом, машиной и детьми)

Утро прошло не зря:)

Читать полностью…

Инжиниринг Данных

4. Working with Business Leaders (Работа с бизнес-лидерами):

Вопрос: Как ты общаешься с нетехническими руководителями и топ-менеджментом?

Твой ответ: Ты подчёркиваешь важность согласования целей твоей команды с конкретными измеримыми бизнес-целями компании (снижение затрат, рост доходов, повышение операционной эффективности). Ты избегаешь технических терминов, предпочитая простые и понятные показатели, через которые ясно показываешь руководству ценность и результаты работы твоей команды.

5. Managing Diverse Technical Talent (Работа с разными уровнями сотрудников):

Вопрос: Как ты управляешь командой, в которой есть люди с разными уровнями опыта и знаний, особенно когда кто-то давно работает и не хочет менять технологии?

Твой ответ: Ты активно поддерживаешь технические знания, постоянно следишь за новинками в отрасли и лично вовлекаешься в технические детали проектов. Ты стараешься понять личную мотивацию каждого сотрудника, терпеливо помогаешь людям осваивать современные технологии (например, переход от SQL Server к Snowflake) и стараешься показать это как возможность развития, а не вынужденное изменение.

Читать полностью…

Инжиниринг Данных

Не так давно был пост про Trisigma — платформу для автоматизации A/B-тестирования и аналитики от команды Авито. Сейчас будет полезная инфо для тех, кто хочет понять как она работает.

Команда платформы собрала подробную статью о функционале, интерфейсе и возможностях платформы, изучить можно тут.

То, что удивило: самостоятельная разработка аналога Trisigma обойдется средней компании в несколько десятков миллионов рублей и в 2 года работы!🤯

Читать полностью…

Инжиниринг Данных

Внедрю и смигрирую аналитическое решение в облако или обратно, наберу и обучу команду (или уволю, если выгоднее), достигну бизнес-целей и эффективно освою AI/ML-бюджет. Обращайтесь — дорого, долго, но зато качественно!

Читать полностью…

Инжиниринг Данных

Лучшая подготовка перед собесом! А не ваш этот leetcode!

Читать полностью…

Инжиниринг Данных

Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ для специалистов по работе с данными.

Здесь фундаментальные знания и практика для карьерного роста, а ещё — учёба, которую можно совмещать с работой и жизнью.

Всё о программе — на дне открытых дверей:

— Расскажем про разные траектории обучения и как после выпуска стать ML-инженером, CV-инженером, NLP-инженером, Data Scientist или Data Engineer.

— Обсудим, какие навыки будут у выпускников, чтобы соответствовать рынку и требованиям работодателей.

— Поговорим про поступление: сроки, экзамены, документы, оплата.

Спикеры:

Станислав Павлов, директор по AI, Positive Technologies.

Павел Рябов, академический руководитель программы, заместитель директора Института лазерных и плазменных технологий, НИЯУ МИФИ.

Антон Моргунов, Senior инженер по компьютерному зрению, Базис. Центр, академический руководитель программы, Яндекс Практикум.

Александр Югов, Curriculum Lead профессии «Инженер данных», Яндекс Практикум.


Ждём вас 9 апреля в 19:00 мск.

Зарегистрироваться на встречу

Читать полностью…

Инжиниринг Данных

А и В сидели на трубе,
А упало, В пропало, кто остался на трубе?


Грустный продуктовый аналитик.

Чтобы никто не грустил, мы запускаем онлайн-серию технологических митапов от hh.ru

Первая встреча состоится 15 апреля. Спикерами будут специалисты hh.ru, Туту и Ozon. Что будут рассказывать? Не темы, а просто находки!

• Как Process mining помогает улучшить процесс принятия решений в A/B-тестах;
• Как в hh.ru устроен пайплайн-расчет ETL в A/B-тестах;
• A/B-тестирование, как метод полного контроля за принятием решений.


Встречаемся 15 апреля 19:00.

Подробности и регистрация по ссылке.

Реклама.
Рекламодатель ООО «Хэдхантер», ИНН 7718620740
Erid: 2VtzqwKs1K7

Читать полностью…

Инжиниринг Данных

Даже не верится, мы переписали нашу книгу 2019 года (между прочим была самая первая книга по снежинке) и вот она почти готова, добавили всяких свежестей и полезностей.

А теперь работаем над предложением по книге Data Engineering with Azure Databricks.

Издательство все переживает, зачем Azure Databricks копия, если есть (устаревшая по Databricks), но они не знают насколько Azure популярен в больших enterprise, и что там кроме Databricks (на azure) ничего нет нормального.

Читать полностью…

Инжиниринг Данных

Я всегда думал, что Power BI бесплатный=) А оказывается они 1го апреля подняли цену, но анонс был почти сразу после моего дня рождения в ноябре☺️.

В потоке сегодняшних новостей сначало было непонятно - это правда или нет, оказывается правда.

https://powerbi.microsoft.com/en-us/blog/important-update-to-microsoft-power-bi-pricing/

Сейчас все заботятся об эффективности ценообразования и пытаюся свести юнит экономику.

У меня совсем недавно был хороший пример с Dagster.

Компания использует Dagster (cloud), как главный инструмент орекстрации. Такой аналог Airflow, который отличается концептуально, но тоже использует Python. (Dagster vs. Airflow)

Они платили за местА, около 200-300 в месяц и все было супер. Потом Dagster сделал ход конем, и woody1193/the-problem-with-dagster-5683ea50cd9d">сказал, что у них теперь кредиты как взрослых компаний.

Даже есть хорошая статья про это - woody1193/the-problem-with-dagster-5683ea50cd9d">The Problem with Dagster.

В стартапе на 50 человек, в которой есть Snowflake, dbt, Dagster, Metabase все было замечательно пока ценник был контроллируемым.

Однако новая модель стала рассчитывать стоимость по кол-ву объектов материлизации. То есть 1 dbt model (1 SQL запрос) - это 1 актив (asset), и если каждый час вы выполняет запуск 200+ моделей, то за год можете посчитать кол-во кредитов.

Если раньше цена был flat, то теперь она будет расти пропорционально росту моделей. Добавьте сюда еще среду разработки и другие джобы, получается, что Dagster за только пол года сожрал кредитов на 15к US. Неплохо так.

Сам dagster сказал типа сорян, сами виноваты😂

И теперь, я пишу RAPID, про возможные варианты сокращения расходов. Если без замены Dagster, то я хочу просту поместить dbt core в AWS ECS, то есть запускать контейнер с dbt, а логи отправлять в DataDog. Из минусов, пропадает прозрачность DAGа в dbt, из плюсов экономия 15-25к US$ в год, при ценнике на Snowflake 60к US$ в год. Но будут и другие опции в документе, когда все сделаем, расскажу.

Кстати, про RAPID (decison making framework) я рассказал в Дата с Димой

Читать полностью…

Инжиниринг Данных

Вебинар «Мультиклауд без сложностей: зачем, а главное, как строить распределенную инфраструктуру в 2025 году?».

2 апреля в 17:00 узнайте, как обеспечить непрерывную доступность ИТ-систем с помощью «второго плеча» в облаке. Эксперты VK Cloud расскажут, как создать резервную облачную площадку с минимальными начальными вложениями.

Вебинар поможет составить план миграции в облако VK Cloud для повышения отказоустойчивости сервисов. Вы узнаете, как создать гибридную инфраструктуру быстро и выгодно.

Программа

Мультиоблако для повышения отказоустойчивости.
Управление мультиоблачной инфраструктурой с помощью Terraform, CI/CD, GitOps.
Управление командой для эффективной работы гибридной инфраструктуры.
Как рассчитать общую стоимость владения мультиоблачной инфраструктурой и оптимизировать затраты на ее содержание.

Бонусы участникам

Зарегистрируйтесь, чтобы принять участие в вебинаре и получить специальное предложение от VK Cloud на создание резервной облачной площадки, миграции и разработки нового продукта.

Зарегистрироваться

Читать полностью…

Инжиниринг Данных

Всем привет! Мы собираем команду для запуска AI-экспериментов в Екоме и Райдтехе Яндекса.

Наша цель — создать пространство для инженеров и продактов, которые хотят запускать эксперименты и видеть быстрые бизнес-результаты. Откликайтесь, если вы хотите реализовать свои идеи в крупном бизнесе, и у вас есть успешный опыт в запуске проектов с искусственным интеллектом!

Рассмотрим ваши идеи и найдем им лучшее применение в проектах. Присоединяйтесь к нам, чтобы вместе создавать будущее! 💡✨

Заполнить форму для отклика

Читать полностью…

Инжиниринг Данных

Какой Data Fusion без дата-соединений?

На конференции Data Fusion можно будет найти новых коллег, партнеров и инсайдеров из мира AI и DS. Организаторы специально к конференции выкатили Telegram-бот, который подберёт нужные контакты по принципу Tinder.

Свайпай анкеты и находи единомышленников, а пересечься вы сможете уже 16-17 апреля на площадке Data Fusion 🚀

Читать полностью…

Инжиниринг Данных

Обзор новых книг от O’Reilly, которые на мой взгляд выглядят интересными и полезными:


ML and Generative AI in the Data Lakehouse - ​практическое руководство по созданию решений с использованием генеративного искусственного интеллекта (ИИ) и архитектуры data lakehouse. (Отличный материал для ознакомления с AI фичами databricks и примерами решений)

Data Governance with Unity Catalog on Databricks - предоставляет практическое руководство по использованию Databricks Unity Catalog для эффективного управления данными и соблюдения нормативных требований. (Unity Catalog специфичен и отличается от других каталогов, поэтому поможет быстрей понять особенности и best practices)

Building Medallion Architectures - Книга подробно рассматривает принципы организации слоев «бронза», «серебро» и «золото» для улучшения качества данных и повышения эффективности аналитики. (Обычно это тему можно понять на простом примере с 3мя папочками Bronze, Silver, Gold. Ребята там сильно напряглись, чтобы книгу написать)

Building Data Integration Solutions - практическое руководство по объединению и организации разрозненных источников информации в единую, согласованную систему. (Чисто полистать сойдет)

AWS Certified Data Engineer Associate Study Guide - охватывает ключевые темы, включая эффективное управление конвейерами данных, выбор подходящих хранилищ, проектирование моделей данных, обеспечение качества данных и внедрение надежных протоколов безопасности и управления данными в AWS. (Самый лучший способ изучать AWS и вкатываться в дата инженера на западе)

Advanced Snowflake - предоставляет подробное руководство по использованию передовых инструментов платформы Snowflake, таких как Snowpark и Native App Framework, для оптимизации обработки данных, разработки приложений и развертывания моделей машинного обучения. (Если вы опытный в Snowflake, врят ли узнаете что-то новое, а если только начинаете, то самое то)

Apache Hudi: The Definitive Guide - руководство по использованию Apache Hudi для создания транзакционных гарантий при работе с быстро изменяющимися данными. ( я бы лучше про Iceberg изучал бы)

Engineering Leadership: The Hard Parts - практическое руководство для инженерных лидеров, помогающее справляться с вызовами управления в условиях неопределенности и быстрых изменений.


Microsoft Power BI Data Analyst Associate Study Guide - ​книга для подготовки к экзамену PL-300 и получения сертификации Microsoft Certified: Power BI Data Analyst Associate. (😞)

Fundamentals of Microsoft Fabric - служит подробным руководством по освоению платформы Microsoft Fabric. (Возможно наконец-то мы сможем понять что такое Фабрик и зачем он нужен)

Demystifying The Coding Interview - руководство для подготовки к собеседованиям по программированию. Она охватывает ключевые темы, такие как структуры данных, алгоритмы и методы решения задач, помогая читателям развить критическое мышление и навыки решения проблем. (Если вы вдруг хотите сами решать задачки на собесе, то книга вам поможет, хотя не ожидаю увидеть что-то новое в этой области)

Читать полностью…

Инжиниринг Данных

В последней статье от Pragmatic Engineer - AI Engineering in the real world автор на пример нескольких стартапов собрал примеры использования AI для продукта/сервиса и их технологический стек.

1. Incident.io — это стартап, который создает инструменты для эффективного управления инцидентами и их расследования. Продукты компании помогают компаниям быстро реагировать на технические сбои, обеспечивая эффективную коммуникацию и анализ ситуации.

Продукт:
- AI Note Taker — инструмент для записи заметок и реального времени, который автоматически генерирует резюме инцидентов, а также выделяет ключевые решения и действия для участников.
- Incident Investigator — ИИ-агент, который анализирует коды, логи и старые инциденты для нахождения коренной причины текущих проблем.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных представлений данных.
- ChatGPT 4o и Sonnet 3.7 (модели от Anthropic) — для обработки запросов и анализа инцидентов.
- GCP Kubernetes — для оркестрации вычислительных ресурсов.
- Go (на бэкенде) и React + Typescript (на фронтенде).


2. Sentry — это популярная платформа для мониторинга приложений, которая помогает разработчикам отслеживать ошибки в коде и устранять их. Компания предоставляет мощные инструменты для автоматического обнаружения и исправления ошибок.

Продукт:
- Autofix — позволяет быстро перейти от ошибки в коде к её исправлению, интегрируя данные Sentry с GitHub для автоматического создания запросов на исправления.
- Issue Grouping — инструмент, который снижает количество уведомлений об ошибках и устраняет «шум» с помощью усовершенствованного поиска ближайших соседей.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных данных.
- Clickhouse — для обработки аналитики в реальном времени.
- Kubernetes — для оркестрации вычислительных мощностей.
- Python и PyTorch — для инференса моделей машинного обучения.


3. Wordsmith (Legal AI) разрабатывает инструменты с использованием ИИ, специально ориентированные на юридические команды. Продукты компании помогают автоматизировать рутинные задачи, такие как анализ документов и контрактов.

Продукт:
- AI Contract Review — инструмент для автоматического анализа контрактов, выявления проблемных мест и создания аннотированных документов.
- Documents Workspace — платформа для анализа и создания документов, включая автоматическое составление отчетов и рекомендаций.

Технологии:
- Pinecone — для хранения векторных представлений данных.
- LangChain и LangSmith — для интеграции LLM в рабочие процессы.
- LlamaIndex — для оркестрации данных с LLM.
- Многооблачные провайдеры: AWS, Azure и GCP.


4. Augment Code создает инструменты для разработчиков с целью улучшения их работы с большими кодовыми базами с использованием ИИ. Компания предлагает AI-ассистента для программирования, который помогает ускорить процесс разработки.

Продукт:
- AI Coding Assistant — расширение для IDE (VS Code, JetBrains, Vim) и Slack, которое помогает разработчикам ускорить процесс написания кода.
- Fine-tuning Models — сервис для настройки ИИ-моделей для специфических задач в программировании.

Технологии:
- Google Cloud — для хостинга инфраструктуры.
- A3 Mega 600GPU/75 node cluster — для тренировки и инференса моделей.
- NVIDIA GPU и CUDA — для обработки данных на графических процессорах.
- Python и PyTorch — для создания библиотек тренировки и инференса.


5. Elsevier (RAG platform) — один из крупнейших мировых издателей научных и медицинских материалов. Компания создает платформы, которые помогают медицинским специалистам и исследователям эффективно находить и использовать научные данные.

Продукт:
- RAG Platform — централизованная платформа для обработки научных данных и создания приложений для медицинских профессионалов. Включает в себя решения для создания интеллектуальных систем обучения и поддержки клинических решений.

Читать полностью…

Инжиниринг Данных

Готов увидеть будущее искусственного интеллекта? 🧠

GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.

В программе:
презентация платформы для работы с AI&ML — от идеи до результата
анонс новых сервисов для работы с GenAI
реальный кейс трансформации клиентского сервиса с помощью AI
анонс сервиса для простого и быстрого запуска ML-моделей в облаке

30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈

Читать полностью…

Инжиниринг Данных

Поговорим про инженерные платформы и AI?

23 апреля Т-Банк приглашает на Platform Engineering Night. Приходите послушать, как AI помогает автоматизировать процессы, оптимизировать ресурсы и повысить продуктивность платформенных команд.

Что будет в программе:
— Доклады экспертов о применении AI в инженерных платформах.
— Зоны демонстрации AI-решений в платформах.
— Нетворкинг с инженерами и лидерами отрасли.

Встреча пройдет 23 апреля в 19:00 в T-Space по адресу Москва, Грузинский Вал, 7. Доклады можно послушать в онлайне.

Это бесплатно, успейте зарегистрироваться.

Читать полностью…

Инжиниринг Данных

Продолжаю серию постов про ожидания от высшего руководства для управления командой аналитики в Северной Америке.

Я уже рассказывал, что общаюсь про позицию VP Analytics & DE в американскую компания, в компании всего 700 сотрудников и их gross revenue 150mln в год. Компания используют данные и аналитику как часть своего портфеля продуктов. (А кто сейчас не использует?😃)

Я уже общался с CTO, и следующий этап был с их подрядчиком. С ними работают небольшое агентство из Сиэтла, которое фокусирует на AI (А кто сейчас не фокусируется на AI?😃). Они попросили основателя провести собеседование, и мне очень понравился его framework.

Сам мужик оказался очень крутым по общению, а потом я посмотрел на его профиль:
2000-2011 - Director BigData&Analytics, Microsoft
2011-2016 - основатель консалтинг компании, которую купил Ernst&Young
2016-2019 - Partner, Analytics & AI, EY
2019-2022 - General Manager, Product Management & AI, Amazon

И сейчас он строит новую компанию, чтобы тоже ее продать, но уже с AI.

У нас с ним оказалось много общего, вместе работали в Amazon и Microsoft, вместе создавали консалтинг компанию. Есть конечно и различия, но в детали я не буду углубляться😉

Я использовал Limitless, чтобы записать наш разговор и потом попросил ChatGPT его структурировать и перевести на русский, получилось достойно:

1. Technical Leadership (Техническое лидерство):

Вопрос: Расскажи о случае, когда ты проектировал data platform с нуля до конца. Какие ключевые факторы ты учитывал при принятии решений?

Твой ответ: Ты рассказал об опыте миграции классического data lake из Amazon в современную Lakehouse архитектуру. В Microsoft (Xbox) перед тобой стоял выбор между нативными решениями Azure (Synapse, HDInsight) и Databricks. Ты выбрал Databricks из-за возможностей Delta Lake (например, соблюдение GDPR и поддержка ACID транзакций). Ты провёл детальный POC и убедительно показал его преимущества руководству, избежав принудительного перехода на Synapse. Благодаря этому удалось обеспечить elastic scalability и сократить задержку аналитики с 24 часов до 1 часа. Ты повысил стабильность пайплайнов, внедрив подход Infrastructure as Code, и эффективно справился с нагрузкой в пиковые периоды запуска игр, используя тестовые данные (mock data).

2. Data Governance (Управление данными):

Вопрос: Какова твоя философия в области data governance и какие конкретные шаги ты предпринял для её реализации?

Твой ответ: Твоя философия заключается в том, чтобы связывать инициативы по data governance с бизнес-целями компании. Ты начинаешь с простых и практичных решений (документация, удобный поиск данных, создание data catalog) и оцениваешь зрелость компании через опросы пользователей. Ты ставишь во главу угла коммуникацию, доверие к данным (trustworthiness) и удобство их использования. Также ты упомянул, что использовал специализированные порталы и решения для **data observability (например, Monte Carlo) для отслеживания качества и документации данных.

3. Analytics & Data Science Enablement (Поддержка аналитики и Data Science):

Вопрос: Как ты поддерживаешь команды аналитиков и data scientists, чтобы их потребности не перегружали ресурсы твоей команды по data engineering?

Твой ответ:
Ты всегда чётко расставляешь приоритеты и прозрачно коммуницируешь о возможных конфликтующих задачах. Ты внедряешь общие frameworks (DBT, Snowflake, Airflow), избегаешь подходов «чёрного ящика» (black-box pipelines) и обучаешь команды правильным практикам. В недавнем проекте ты улучшил производительность пайплайнов ML-команды, разбив их на простые и прозрачные модели (DBT models), сократив время выполнения с нескольких часов до нескольких минут. Ты предложил стандартизировать подходы (frameworks), чтобы инженеры могли легче помогать и диагностировать проблемы пайплайнов аналитиков.

Отдельно ты упомянул контроль ресурсов (например, стоимости в Snowflake) путём установки ограничений на запросы (timeouts, размеры warehouses), еженедельного обзора расходов и предварительного обучения новых пользователей, чтобы избежать перерасходов.

Читать полностью…

Инжиниринг Данных

Список сайтов для поиска удаленной работы:

1. SimplyHired (simplyhired.com)
2. Jobspresso (jobspresso.co)
3. Stack Overflow Jobs (stackoverflow.com)
4. Outsourcely (outsourcely.com)
5. Toptal (toptal.com)
6. Skip The Drive (skipthechive.com)
7. NoDesk (nodesk.co)
8. RemoteHabits (remotehabits.com)
9. Remotive (remotive.com)
10. Remote4Me (remote4me.com)
11. Pangian (pangian.com)
12. Remotees (remotees.com)
13. Europe Remotely (europeremotely.com)
14. FlexJobs (flexjobs.com)
15. Remote.co (remote.co)
16. We Work Remotely (weworkremotely.com)
17. RemoteOK (remoteok.com)
18. AngelList (angel.co)
19. Linkedin (linkedin.com)
20. Outsourcely (outsourcely.com)
21. Freelancer (freelancer.com)
22. Working Nomads (workingnomads.com)
23. Virtual Vocations (virtualvocations.com)
24. Wellfound (https://wellfound.com)
25.Remote freelance (remotefreelance.com)
26. Jobspresso (jobspresso.co)
27. SimplyHired (simplyhired.com)
28. Welcome to the jungle (https://app.welcometothejungle.com/)

А какие у вас любимые и полезные?

Читать полностью…
Subscribe to a channel