rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

20246

Делюсь новостями из мира аналитики и вредными карьерными советами;) 8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️ Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).

Subscribe to a channel

Инжиниринг Данных

Оптимизируем работу со Spark и строим рекомендательные системы

Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение.

На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода.

Что еще обсудим

🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде.
🔹 Как оптимизировать расходы и работу со Spark.
🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца.

Кому будет полезен вебинар

⚫️ML-инженерам.
⚫️Архитекторам, Data-инженерам, Data-аналитикам.
⚫️Руководителям ML-направлений и Data-офисов.

Зарегистрироваться

Читать полностью…

Инжиниринг Данных

Запись Greenplum вебинара.

Читать полностью…

Инжиниринг Данных

Поделюсь сегодняшними наблюдениями, связанными с performance review. Лично я этот процесс никогда не любил. Но в последнее время мне приходится проводить его для инженеров, и вот примерный диалог:

– Чувак, привет! У нас тут performance review. Давай сделаем всё по красоте — я вижу, ты вкалываешь много. Во-первых, давай полегче чутка, всё-таки work-life balance важен. (А про себя думаю: если чувак свалит, тут вообще всё развалится.)

Он мне что-то отвечает на английском.

– Дальше я прошу его сказать, сколько лет он в компании, на какую зарплату пришёл (да-да, мой любимый вопрос — СКОЛЬКО ТЫ ПОЛУЧАЕШЬ?!, наконец-то для дела пригодился), когда был последний подъём зарплаты и т.п.

Получаю всю информацию, прикидываю, сколько там места есть, чтобы подтянуть его зарплату до нормальной по Канаде (я же, как-никак, вообще-то эксперт по зарплатным ожиданиям).

– Даю ему пару советов, что написать в performance review, чтобы показать IMPACT и VALUE. Заодно спрашиваю, на какую конференцию он хочет сгонять.

И так — со всей командой.

Далее всю эту информацию сгружаю VP, чтобы, наконец-то, чувакам платили нормально, отправляли на конференции и вообще — всем было по кайфу.

В моём понимании, performance инженера — бинарный: либо ты перформишь и делаешь нужные и полезные штуки для команды и бизнеса, либо нет. Сиськи мять, делать 360 review и прочие HR-фреймворки — это, конечно, весело и забавно, но для меня это устаревший процесс.

У меня именно упор на то, что команда должна быть мега счастлива, я хочу показать как мы их ценим, заботимся, и при каждом удобном случае поднимаем зарплату или другие бенефиты, даже если это будет опцион, мелочь а приятно. Мы вместе придумываем темы и темки, чтобы был максимальный IMPACT и VALUE, а дальше мы это все продаем боссам, строим, внедряем. Короче всем кайф, работай не хочу.

---

А вот после обеда я поменялся ролями — теперь я стал инженером. И мне сделали 360 performance review. Всё было ничего, пока в одном месте — «количество работы» — мне не поставили 3 из 5. И тут я забыл все свои книги и тренинги по софт-скиллам, и сказал, что это BULLSHIT и всё такое. Намекнул менеджеру, что на его месте я бы всей команде поставил 4 и 5, потому что все молодцы и хорошо работают 😆

Получается, в этом самом ревью оценки по категориям не объективны. Менеджер мне даже не смог ответить на вопрос как и в чем измерять «количество работы». И самое главное — у человека всегда есть выбор: делать свою работу хорошо или фокусироваться на performance review (играть в политику) в ущерб целям организации. К сожалению, политики в индустрии больше, и чем крупнее компания, тем меньше здравого смысла и больше bullshit.

А как у вас проходит performance review? Any luck? Как минимум должны накинуть 2% индексации. Хотя… вчера купил oat milk latte за $8 и офигел от цен. Хотя это не вода в Кофемании.

PS Согласно новомодным введниям Shopify я стараюсь использовать AI везде, поэтому попросил проверить грамматику, отсюда и картинка для привлечения внимания=)

Читать полностью…

Инжиниринг Данных

А как же:
"Microsoft сделала огромный подарок: Режим Агента (Agent mode) стал доступен всем пользователям Visual Studio Code!"???
https://habr.com/ru/companies/bar/news/898538/

Читать полностью…

Инжиниринг Данных

🚀 🚀 🚀

📅 Вебинар - сегодня (8 апреля в 19:00 по мск)
Тема вебинара: "Всё что нужно знать о Greenplum"

🔍Описание:
🔸На реальных примерах узнаем, что такое Greenplum.
🔸Чем сегмент отличается от сегмент-хоста?
🔸Что такое партицирование, а что такое дистрибуция?
🔸Как Greenplum хранит данные для эффективной работы MPP кластера?
🔸Что такое Motion данных, как и зачем его избегать?
🔸Что интересного можно увидеть в плане запроса?
🔸Как эффективно грузить данные в GP?
🔸Разберём эти и другие вопросы, а самое главное: увидим всё наглядно и на реальных примерах и задачах. Никакой теоритической воды, только факты и примеры.

🎙Спикер:
Nikita Tselishchev
Data Engineer в компании Unirest (KFC/Rostics).
Один из авторов курса https://yandex.cloud/ru/training/greenplum

🔗 Никита ведет канал про Дата инженериниг в телеграм @DataEngineeringDigest

👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀

#datalearn #вебинар

Читать полностью…

Инжиниринг Данных

Когда говорят про ИИ, чаще вспоминают ChatGPT или Gemini. Но теперь в этом списке есть и A-Vibe от Авито — легкая, но мощная модель, которая обогнала западные аналоги от OpenAI, Google и Anthropic в тестах на русском языке. В независимом российском бенчмарке MERA A-Vibe заняла первое место среди облегченных моделей (до 10 млрд параметров).

В отличие от GPT-4o или Claude, нейросеть от Авито изначально заточена под русскоязычные запросы и одновременно обрабатывает до 32 тысяч токенов. Это позволяет ей понимать смысл текста, вести диалоги и генерировать код лучше, чем GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие популярные нейросети.

Авито уже использует модель в своих сервисах, а в будущем может открыть ее код. И если это произойдет, у малого бизнеса и разработчиков появится доступ к мощному ИИ без гигантских затрат.

Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.

Читать полностью…

Инжиниринг Данных

Внедрю и смигрирую аналитическое решение в облако или обратно, наберу и обучу команду (или уволю, если выгоднее), достигну бизнес-целей и эффективно освою AI/ML-бюджет. Обращайтесь — дорого, долго, но зато качественно!

Читать полностью…

Инжиниринг Данных

Лучшая подготовка перед собесом! А не ваш этот leetcode!

Читать полностью…

Инжиниринг Данных

Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ для специалистов по работе с данными.

Здесь фундаментальные знания и практика для карьерного роста, а ещё — учёба, которую можно совмещать с работой и жизнью.

Всё о программе — на дне открытых дверей:

— Расскажем про разные траектории обучения и как после выпуска стать ML-инженером, CV-инженером, NLP-инженером, Data Scientist или Data Engineer.

— Обсудим, какие навыки будут у выпускников, чтобы соответствовать рынку и требованиям работодателей.

— Поговорим про поступление: сроки, экзамены, документы, оплата.

Спикеры:

Станислав Павлов, директор по AI, Positive Technologies.

Павел Рябов, академический руководитель программы, заместитель директора Института лазерных и плазменных технологий, НИЯУ МИФИ.

Антон Моргунов, Senior инженер по компьютерному зрению, Базис. Центр, академический руководитель программы, Яндекс Практикум.

Александр Югов, Curriculum Lead профессии «Инженер данных», Яндекс Практикум.


Ждём вас 9 апреля в 19:00 мск.

Зарегистрироваться на встречу

Читать полностью…

Инжиниринг Данных

А и В сидели на трубе,
А упало, В пропало, кто остался на трубе?


Грустный продуктовый аналитик.

Чтобы никто не грустил, мы запускаем онлайн-серию технологических митапов от hh.ru

Первая встреча состоится 15 апреля. Спикерами будут специалисты hh.ru, Туту и Ozon. Что будут рассказывать? Не темы, а просто находки!

• Как Process mining помогает улучшить процесс принятия решений в A/B-тестах;
• Как в hh.ru устроен пайплайн-расчет ETL в A/B-тестах;
• A/B-тестирование, как метод полного контроля за принятием решений.


Встречаемся 15 апреля 19:00.

Подробности и регистрация по ссылке.

Реклама.
Рекламодатель ООО «Хэдхантер», ИНН 7718620740
Erid: 2VtzqwKs1K7

Читать полностью…

Инжиниринг Данных

Даже не верится, мы переписали нашу книгу 2019 года (между прочим была самая первая книга по снежинке) и вот она почти готова, добавили всяких свежестей и полезностей.

А теперь работаем над предложением по книге Data Engineering with Azure Databricks.

Издательство все переживает, зачем Azure Databricks копия, если есть (устаревшая по Databricks), но они не знают насколько Azure популярен в больших enterprise, и что там кроме Databricks (на azure) ничего нет нормального.

Читать полностью…

Инжиниринг Данных

Я всегда думал, что Power BI бесплатный=) А оказывается они 1го апреля подняли цену, но анонс был почти сразу после моего дня рождения в ноябре☺️.

В потоке сегодняшних новостей сначало было непонятно - это правда или нет, оказывается правда.

https://powerbi.microsoft.com/en-us/blog/important-update-to-microsoft-power-bi-pricing/

Сейчас все заботятся об эффективности ценообразования и пытаюся свести юнит экономику.

У меня совсем недавно был хороший пример с Dagster.

Компания использует Dagster (cloud), как главный инструмент орекстрации. Такой аналог Airflow, который отличается концептуально, но тоже использует Python. (Dagster vs. Airflow)

Они платили за местА, около 200-300 в месяц и все было супер. Потом Dagster сделал ход конем, и woody1193/the-problem-with-dagster-5683ea50cd9d">сказал, что у них теперь кредиты как взрослых компаний.

Даже есть хорошая статья про это - woody1193/the-problem-with-dagster-5683ea50cd9d">The Problem with Dagster.

В стартапе на 50 человек, в которой есть Snowflake, dbt, Dagster, Metabase все было замечательно пока ценник был контроллируемым.

Однако новая модель стала рассчитывать стоимость по кол-ву объектов материлизации. То есть 1 dbt model (1 SQL запрос) - это 1 актив (asset), и если каждый час вы выполняет запуск 200+ моделей, то за год можете посчитать кол-во кредитов.

Если раньше цена был flat, то теперь она будет расти пропорционально росту моделей. Добавьте сюда еще среду разработки и другие джобы, получается, что Dagster за только пол года сожрал кредитов на 15к US. Неплохо так.

Сам dagster сказал типа сорян, сами виноваты😂

И теперь, я пишу RAPID, про возможные варианты сокращения расходов. Если без замены Dagster, то я хочу просту поместить dbt core в AWS ECS, то есть запускать контейнер с dbt, а логи отправлять в DataDog. Из минусов, пропадает прозрачность DAGа в dbt, из плюсов экономия 15-25к US$ в год, при ценнике на Snowflake 60к US$ в год. Но будут и другие опции в документе, когда все сделаем, расскажу.

Кстати, про RAPID (decison making framework) я рассказал в Дата с Димой

Читать полностью…

Инжиниринг Данных

Вебинар «Мультиклауд без сложностей: зачем, а главное, как строить распределенную инфраструктуру в 2025 году?».

2 апреля в 17:00 узнайте, как обеспечить непрерывную доступность ИТ-систем с помощью «второго плеча» в облаке. Эксперты VK Cloud расскажут, как создать резервную облачную площадку с минимальными начальными вложениями.

Вебинар поможет составить план миграции в облако VK Cloud для повышения отказоустойчивости сервисов. Вы узнаете, как создать гибридную инфраструктуру быстро и выгодно.

Программа

Мультиоблако для повышения отказоустойчивости.
Управление мультиоблачной инфраструктурой с помощью Terraform, CI/CD, GitOps.
Управление командой для эффективной работы гибридной инфраструктуры.
Как рассчитать общую стоимость владения мультиоблачной инфраструктурой и оптимизировать затраты на ее содержание.

Бонусы участникам

Зарегистрируйтесь, чтобы принять участие в вебинаре и получить специальное предложение от VK Cloud на создание резервной облачной площадки, миграции и разработки нового продукта.

Зарегистрироваться

Читать полностью…

Инжиниринг Данных

Всем привет! Мы собираем команду для запуска AI-экспериментов в Екоме и Райдтехе Яндекса.

Наша цель — создать пространство для инженеров и продактов, которые хотят запускать эксперименты и видеть быстрые бизнес-результаты. Откликайтесь, если вы хотите реализовать свои идеи в крупном бизнесе, и у вас есть успешный опыт в запуске проектов с искусственным интеллектом!

Рассмотрим ваши идеи и найдем им лучшее применение в проектах. Присоединяйтесь к нам, чтобы вместе создавать будущее! 💡✨

Заполнить форму для отклика

Читать полностью…

Инжиниринг Данных

Какой Data Fusion без дата-соединений?

На конференции Data Fusion можно будет найти новых коллег, партнеров и инсайдеров из мира AI и DS. Организаторы специально к конференции выкатили Telegram-бот, который подберёт нужные контакты по принципу Tinder.

Свайпай анкеты и находи единомышленников, а пересечься вы сможете уже 16-17 апреля на площадке Data Fusion 🚀

Читать полностью…

Инжиниринг Данных

Правильные корпоративные расходы🍩

Читать полностью…

Инжиниринг Данных

Знаете, сколько A/B-тестов проводит Авито в год?

4000+! Зачем? Растить основные показатели бизнеса. Например, количество покупателей и выручка увеличивается на 10-20% в год.

И тут, конечно, важно не только количество тестов, но и их качество. Чтобы это было по-настоящему эффективно, ребята разработали собственную A/Bшницу — Trisigma. Сначала обкатали её внутри, а сейчас она доступна для всех продуктовых команд.

Чтобы рассказать, что у инструмента «под капотом» и поделиться аналитической экспертизой, команда Авито проведёт митап 16 апреля в своём московском офисе на Лесной.

В программе не только доклады, но и нетворкинг! Прочитать подробнее и зарегистрироваться можно тут.

Кстати, если не можете прийти офлайн, то зарегистрироваться можно и онлайн!

Читать полностью…

Инжиниринг Данных

Собираемся на Data Fusion!

Не просто приходим, а становимся частью чего-то большего. Каждый из нас — фрагмент цифровой картины. Вместе — архитекторы решений, будущего, логики.

Data Fusion — крупнейшая конференция по работе с данными и ИИ место силы для тех, кто умеет собираться. Внутри, вовне, с другими. 16-17 апреля, Москва, кластер Ломоносов.

Читать полностью…

Инжиниринг Данных

В телеграм-каналах на техническую тематику появляется всё больше информации про использование AI для прикладных задач: про требования при приёме на работу, про отбор кандидатов, которым разрешено выполнять тестовые задания с использованием AI.

Нравится, не нравится — терпи, моя красавица нужно привыкать к новой реальности, где AI становится ещё одним инструментом в вашем арсенале, который помогает быть сверхэффективным.

Вы можете стать гораздо продуктивнее с AI, если будете понимать, как он работает, и просто делегировать ему часть задач. Пока что эти инструменты требуют контроля и проверки, но в будущем ситуация может сильно измениться — и уже они будут контролировать и проверять нас 🙂

За последние несколько дней с помощью AI я:

- Насоздавал dbt-моделей (SQL, YAML) в нескольких проектах — это сотни строк кода, написанных за меня;

- Конвертировал 15 таблиц из SQL Server в Snowflake и создал Snowflake Stored Procedures с MERGE;

- Контрибьютил в репозиторий с Protobuf и Go, имея минимальные знания по этим технологиям;

- Разрулил проблемы с PyTest в Dagster;

- Участвовал в двух хакатонах, где использовались хранилища данных и LLMs;

- Занимался troubleshooting’ом всего, что ломалось и не работало;

- И многое другое.

Физически всё это было бы невозможно сделать за такой короткий срок.

Каждый раз, когда работаю с Cursor AI, думаю: «Всё классно», — но пока Cursor не может сам выполнять запросы к базе данных «из коробки».

То есть, пока что еще много COPY-PASTE (ручного труда).

И вот тут бы отлично подошел бы MCP. Как раз про него свежая статья - MCP Protocol: a new AI dev tools building block

- MCP — это как USB-C для ИИ-инструментов: универсальный интерфейс для подключения внешних систем к LLM-интегрированным IDE.

- MCP делает возможным, например, обращаться к базе данных напрямую из редактора кода, без переключения на PgAdmin или другие GUI-инструменты.

- Используя MCP, IDE может автоматически обращаться к БД, находить нужные таблицы, строить SQL-запросы и интерпретировать результаты, помогая разработчику.

- MCP вдохновлён Language Server Protocol (LSP) от Microsoft, который сделал возможной легкую интеграцию поддержки языков программирования в IDE.

- MCP быстро набрал популярность: VS Code, Cursor, Windsurf, Zed, Claude Desktop, Neovim и др. уже поддерживают MCP или планируют.

- Разработчики могут “разговаривать” с базами данных, CI/CD, системами фич-флагов и т.п. на естественном языке прямо в IDE.

- Протокол ещё очень сырой, но потенциал — огромный: как для повышения продуктивности разработчиков, так и для развития ИИ-агентов.

🎯 Основная идея:
Разработчику больше не нужно переключаться между инструментами. Он может задавать вопросы на естественном языке прямо в IDE, а LLM, используя MCP, под капотом подключается к нужным системам (БД, тикетинг и т.п.) и возвращает результат.

Читать полностью…

Инжиниринг Данных

Сегодня все празднуют рекорд Овечкина, поэтому можно праздновать и не работать! С чем его и поздравляем🎉

Читать полностью…

Инжиниринг Данных

Понравилась статья The Reality of Tech Interviews in 2025.

Так как я сам регулярно прохожу собеседования на позиции от Staff Data Engineer до VP of Data Engineering & Analytics, чтобы оставаться в курсе происходящего в индустрии, понимать реальные ожидания по зарплате и уровню, а также следить за эволюцией процессов найма, — статья отлично отражает текущие проблемы для инженеров. Менеджерам среднего звена еще сложней.

В Surfalytics мы придерживаемся принципа прозрачности: делимся между собой зарплатными ожиданиями, предложениями и опытом прохождения интервью. Да и просто приходится собеседовать аналитиков и инженеров.

На мой взгляд, отечественный рынок ждут схожие изменения — пусть и с задержкой, но вектор очевиден. Легче точно не станет.

У меня у самого есть несколько замечательных примеров, когда я успешно прошел все этапы и в ожидании офера получал отказ, так как выбрали другого кандидата, который больше понравился или согласен на меньшие деньги (на 50% меньше).

Ключевые моменты из статьи (ChatGPT):

Ключевые проблемы и вызовы тех. собеседований в 2025 году:

1. Рынок противоречий:
- Спрос на инженеров восстанавливается, но *весьма избирательно*.
- Полный переход к remote свернулся: таких позиций становится всё меньше.

2. Ужесточение требований:
- Уровень сложности DSA и system design интервью вырос на 1 "стандартное отклонение".
- Алгоритмы LeetCode Hard стали нормой даже на mid/senior уровнях.
- От кандидатов требуют чистого кода, обработки ошибок и валидации — даже в лимите по времени.

3. Столкновение с реалиями:
- Большинство стартапов и Big Tech усилили этап team match — он стал ещё одним отбором, не гарантирующим оффер даже после успешного прохождения технических этапов.
- Много квалифицированных кандидатов → компании стали избирательны до мелочей.

4. Сильный дисбаланс в спросе:
- AI-инфраструктура, ML Ops и генеративный AI — горячие направления с высокими ЗП.
- Frontend, backend и mobile — сильно охлаждённый рынок с низкой текучкой и сокращёнными командами.

5. Драматическое падение шансов для джунов:
- Университетские наймы массово урезаны.
- Даже выпускники топовых вузов, проходят по 100+ собеседований и не получают ни одного оффера.

6. Давление на EM и Staff-инженеров:
- Менеджеров требуют "рукастых", умеющих писать код, а не просто управлять.
- Staff-инженеров часто понижают в уровне (downleveling) — предлагают позиции на ступень ниже, даже при хорошем перформансе.

7. Разрыв между Big Tech и стартапами в интервью-форматах:
- FAANG по-прежнему держится за алгоритмические интервью.
- Стартапы и mid-size компании внедряют реалистичные задачи, проекты и разрешают использование AI-инструментов.

8. Компенсации и конкуренция:
- В AI-инфраструктуре можно получить $1M+ total comp, но только при *узкоспециализированном опыте*.
- Инженеры с узкой специализацией в закрытых технологиях Google/Meta — менее конкурентоспособны на открытом рынке.

9. Влияние ИИ:
- Кандидаты массово используют LLM на фоне неадаптированных интервью.
- Это подрывает смысл классических задач — но Big Tech пока не спешит менять подход.

10. Проблема "потерянного поколения" инженеров:
- Массовое сокращение входа новых разработчиков может привести к дефициту mid-level через 3–5 лет.


Как у вас дела обстоят в ваших краях?

Читать полностью…

Инжиниринг Данных

На картинке умная мысль, что технологии это не стратегия, стратегия про другое.

Но, настоящая стратегия это дорого, сложно, долго и не понятно. Куда проще мигрировать с А на Б.

Измерять можно кол-во таблиц, дашбордов и строчек кодов и стоимостью старых лицензий и вендоров.

А новые косты, это не косты, это инвестиции с высоким ROI🤩

Читать полностью…

Инжиниринг Данных

Удобный подход к написанию SQL -> Pipe SQL

Есть даже white paper на эту тему - SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL от Google Research.

Идея очент похожа на написание PySpark, Pandas и другие подходы с использованием dataframes.

Все последовательно и лаконично.

SQL Pipe есть у DuckDB https://duckdb.org/community_extensions/extensions/psql.html

И теперь у Databricks в их свежем релизе.

Читать полностью…

Инжиниринг Данных

Open AI запустил академию, где много разных программ обучения https://academy.openai.com

Читать полностью…

Инжиниринг Данных

Microsoft проводит AI challenge и победители (аж 50,000 человек) получат купоны на экзамены Microsoft.

Хотя вон ChatGPT генерит сертификаты не хуже настоящих😆

Читать полностью…

Инжиниринг Данных

Всем привет! 24 апреля в Москве в офисе Лемана Тех пройдет очередной митап по технологиям Trino и Apache Iceberg! Также будет доступна онлайн-трансляция.

В программе:
- Доклад от Лемана Тех про миграцию на Trino
- Доклад от Азбуки Вкуса про использование каталога Nessie
- Круглый стол про проблемы внедрения lakehouse с инженерами T-Банк, S7 Airlines, Лемана Тех и Кверифай Лабс

Регистрация по ссылке: https://cedrusdata.timepad.ru/event/3299844/

Читать полностью…

Инжиниринг Данных

После долгих лет в cloud я наконец-то понял: облако — переоценено.

Поэтому я решил инвестировать свое время в действительно важные и полезные навыки.

С гордостью сообщаю, что получил сертификацию по Oracle 9i и Informatica PowerCenter 7.1 — технологиям, которые когда-то держали весь enterprise-ETL на своих хрупких, но гордых серверах в серверных без кондиционеров.

В облаке слишком много YAML и нестабильных connection'ов
— а в on-prem — один раз настроил в 2005, и всё работает до сих пор
— плюс, приятно слышать, как твой сервер шумит в углу, пока ETL грузит данные 6 часов без сбоев

Следующие шаги:
☑️ Сертификация по Teradata CLI
☑️ Написание ETL-логики на COBOL
☑️ Настройка алертов через факс

Читать полностью…

Инжиниринг Данных

Алексей шарашит только впуть свои zoomcamps! я уже даже придумал бизнес идею, делать их на русском языке, да еще и на отчесественном стэке😀

Ссылки:
🔸 MLOps Zoomcamp: starts May 5, 2025
🔸 LLM Zoomcamp: starts June 2, 2025
🔸 ML Zoomcamp: starts September 2025

Я них конечно есть и недостаки, часто связанные с узкостью контента и выбора вендоров, которые спонсируют данную инициативу, но аналогов нет!

Вообще идея делать Workshop на русском end-to-end проектов вместе с вендорами будет топчик!

Читать полностью…

Инжиниринг Данных

Дата с Димой | Новости из мира BigTech | Эпизод 3

Youtube ▶️
Rutube ▶️

🎯 Ключевые темы выпуска:

📦 Snowflake + Iceberg — новые форматы хранения и поддержка Iceberg в Snowflake
⚙️ SQLMesh и нишевые тулзы — быстро, гибко, но пока сложно масштабировать
💾 Big Data ≠ Big Volume — 94% нагрузок укладываются в 10 ТБ, SSD — наше всё
🏗 DataBricks vs Snowflake — архитектура, ML, рост команд, кто кого
🧠 Семантический слой — YAML, NLP и осмысленные данные
🌍 Data Sharing и обмен метриками — как Facebook и Netflix делятся данными
🕵️‍♂️ Агенты и веб-скрейпинг — как автоматизировать сбор и обработку рыночных данных
🧑‍⚖️ Маск, Tesla и корпоративная монархия — теория заговора или новое будущее?
📉 Трамп и экономика — тарифы, эмиграция и как это влияет на рынок недвижимости
🔓 Open Source рулит — почему большие компании обожают открытые решения


💡 Источники:

https://aws.amazon.com/blogs/storage/connect-snowflake-to-s3-tables-using-the-sagemaker-lakehouse-iceberg-rest-endpoint/
https://duckdb.org/2025/03/14/preview-amazon-s3-tables.html
https://duckdb.org/2025/03/12/duckdb-ui
https://delta.io/blog/liquid-clustering/
https://www.databricks.com/blog/genie-conversation-apis-public-preview
https://docs.databricks.com/aws/en/lakehouse-architecture/reference
https://www.databricks.com/product/business-intelligence
https://github.com/mendableai/firecrawl
https://www.financialsamurai.com/
https://www.newyorker.com/culture/infinite-scroll/techno-fascism-comes-to-america-elon-musk
https://www.anthropic.com/news/model-context-protocol
https://github.com/ahujasid/blender-mcp
https://blog.cloudflare.com/ai-labyrinth/
https://www.instagram.com/pubity/p/DG-YawGvYhG/?img_index=1
https://dagster.io/blog/python-packages-primer-1
https://yandex.cloud/ru/training/compute
https://www.linkedin.com/posts/roy-lee-goat_i-just-got-kicked-out-of-columbia-for-taking-activity-7310834407433453568-tqAm
https://github.com/astronomer/airflow-ai-sdk
https://www.bloomberg.com/news/articles/2025-03-14/apple-s-siri-chief-calls-ai-delays-ugly-and-embarrassing-promises-fixes
https://github.com/drawdb

Читать полностью…

Инжиниринг Данных

Designing Data-Intensive Applications, 2nd Edition - надеюсь и так все понятно, что это сложная, скучная, но полезная книга для опытных специалистов.

The Product-Minded Engineer - подчеркивает важность развития эмпатии у инженеров-программистов для более глубокого понимания потребностей пользователей и повышения качества создаваемых продуктов. Опираясь на более чем 20-летний опыт работы в таких компаниях, как Microsoft, Facebook и Stripe, автор предлагает стратегии, помогающие интегрировать технические навыки с ориентированностью на пользователя, что способствует карьерному росту и созданию более эффективных решений. (Полностью поддерживаю автора)

Fundamentals of DevOps and Software Delivery - руководство по DevOps и доставке программного обеспечения, охватывающее инструменты и методы, необходимые для развертывания и поддержки приложений в продакшене. (Автор, Евгений Брикман, написал очень крутую книга по Terraform Up an Running.)

Data Contracts - Книга Чада Сандерсона и Марка Фримана посвящена концепции дата-контрактов — соглашений между поставщиками и потребителями данных, направленных на обеспечение их качества и надежности. Авторы подробно рассматривают, как внедрение дата-контрактов помогает документировать ожидания к данным, устанавливать ответственность за их качество и автоматически применять эти требования в процессе CI/CD, что особенно важно при работе с данными, поступающими из внешних источников. (Ребята уже мусолят тему дата контрактов ни один год, и вот наконец-то книга почти готова)


В любом случае браться за все подряд это не очень эффективно, должен быть план и roam map, и нужно придерживаться его.

Читать полностью…
Subscribe to a channel