Telegram-канал rockyourdata - Инжиниринг Данных: Unsorted - каталог телеграмм

rockyourdata | Unsorted

Subscribe to a channel

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

29 April 2025 02:44

Как понять, что в компании проблема с дата культурой и уровень вовлеченности у команды низкий? Хотя активность высокая. (Подойдет не только для даты команды)

Вот некоторые из признаков:

1) множество бесполезной активности в чатах/мессенджерах и много emojis и реакций по делу и без (для галочки)

2) для каждой задачи проекта создается новый рабочий чат, иногда и не один, потому что каждый хочет быть проактивным и побыстрей создать чатик и пригласить туда коллег (для галочки)

3) пишется большое кол-во документов, таких как Playbook/Runbook/ и тп, в которых документируются шаги выполнения команд (для галочки)

4) множество звонков и встреч, на которых бывает больше 3х человек

5) бесполезные комментарии в code reviews (для галочки)

6) повторяющиеся презентации и контент на встречах с командами о высокой цели и миссии компании и общий вклад к великой цели

7) отсутствие решения очевидных проблем с доступом, производительностью, legacy, качеством

А какие вы знаете признаки?

Читать полностью…

Инжиниринг Данных

27 April 2025 23:49

Загрузил 2 вебинарчика, которые недавно проводили. Обложки создал в ChatGPT.

История одного проекта с большим техническим долгом (Роман Зыков, автор канала @topdatalab) про SQLMesh, DLThub, Metabase, Postgres - YouTube, RuTube

Всё что нужно знать о Greenplum (Автор Никита Тселищев, автор канала @DataEngineeringDigest) - YouTube, RuTube

И мне еще понравился вебинар G63. Животное удовольствие от Стаса Асафьева, я ужа давно смотрю его исторические обзоры, а тут он классно так про машину рассказал.

PS Если хотите сделать прикольный вебинар, рассказать про свой проект, you are welcome!

Читать полностью…

Инжиниринг Данных

24 April 2025 22:27

Привет от Карлсона, который живет на крыше:)

Читать полностью…

Инжиниринг Данных

23 April 2025 18:03

Как измерить эффективность дата команды? Самый простой вариант это ROI (возврат инвестиций).

Солгасно статье How to think about the ROI of data work

ROI = 🎳 × 🎳(🖇) × 💰 − ⏳, где

🎳 (кегли) — это количество специалистов по данным, на которых повлияла ваша работа

🖇 (скрепка) — это степень воздействия на каждого из них (насколько вы упростили им работу)

💰 (мешок денег) — это влияние на бизнес, которое они могут оказать благодаря вашей работе

⏳ (песочные часы) — это время, которое вы потратили на выполнение задачи

Пример на практике: Если вы сделали улучшение, которым пользуются 5 аналитиков, и оно ускоряет их работу на 20%, а они, в свою очередь, приносят ощутимую пользу бизнесу — то вы проявили свою ценность.

Можно выделить 2 направления:

- KPI-персоны (ближе к бизнесу) — фокус на сокращение шагов до метрик и выбор самых "окупаемых" задач.

- Системные роли (инфраструктура) — фокус на масштабировании пользы (больше потребителей + выше эффективность).

На практике ROI чаще используется вендорами, чтобы продать "обещания" и "фичи", которых ещё нет или которые находятся в стадии беты. Это инструмент маркетинга, а не измерения реальной пользы.

Измерить реальный ROI от работы в данных — крайне сложно. Если считать только количество часов, которые якобы сэкономили — картина получается однобокой. Ведь организация продолжает платить зарплату, и эти издержки редко учитываются (а чаще вообще не раскрываются). Можно, конечно, сделать красивую презентацию и даже убедить руководство — но это больше похоже на иллюзию, чем на настоящие цели.

Гораздо продуктивнее работать в режиме OKR или хотя бы грамотно планировать спринты, чтобы:

каждая задача была привязана к бизнес-целям компании,

и результат можно было измерить.

Такой подход позволяет действительно продемонстрировать IMPACT и VALUE — а это напрямую влияет и на успех команды, и на карьерный рост каждого.

Как у вас с ROI? Например, хороший ли у вас ROI связанный с покупкой новой модели iPhone/Android?:)

Читать полностью…

Инжиниринг Данных

22 April 2025 16:37

Вопросы на интервью: №5

What KPIs did you have in your previous/current role?

📌 А дальше - почти всегда:
• How did you track progress? What tools did you use?

📌 Для руководителей добавят:
• How do you know the KPI is right?
• How do you help others understand and reach their KPIs?

Разговор про KPIs важен, потому что дает понять, какие были приоритеты, как измерялся прогресс, какой был "единый язык" команды, на основе чего принимались решения и в итоге - как это влияло на рост и развитие этого кандидата (или как развитие кандидата влияло на улучшение KPIs😅).

❗ Поэтому важно этот ответ подготовить заранее.

Рассказать:
— какие KPI были (и на какие цели завязаны)
— как вы их отслеживали (инструменты, отчёты, циклы)
— были ли они формально заданы или определялись вами

One of our KPIs was reducing time-to-fill for senior sales roles. We used Workday dashboards and weekly funnel reviews. Within one quarter, we improved it from 48 to 32 days by optimizing JD alignment and switching to a new agency partner.

❗ Если KPI не было - не страшно

Страшно - когда кандидат говорит: "KPI не было" - и зависает 🌚

Даже в этом случае, главное - показать, как вы всё равно оценивали свою эффективность.

“I didn’t have formal KPIs, but I tracked my impact via turnaround time, project milestones, or stakeholder feedback”

“In my supporting role, success was reflected in how smoothly others could perform. I focused on responsiveness and being a reliable partner”

Даже если в компании не было системы KPI, хороший кандидат сам способен её для себя применить или хотя бы понимать, что важно в его работе. Бенчмарки, практика в других отделах, логика бизнеса - всё годится.

😬 Маленький личный кейс

Однажды кандидатка-рекрутер сказала, что закрывает вакансии от IC до VP за 2 недели, при том что до этого она упомянула, что одновременно ведёт 15–20 ролей. Звучит красиво, но в реальности невозможно. Я задала пару уточняющих вопросов - и всё посыпалось. Было грустно (мне).

Моё мнение:
Кандидаты, которые не могут внятно рассказать про KPI - чаще всего из незрелых бизнесов, не привыкли мыслить через ценность и вряд ли понимают, куда им расти. А как развиваться, если ты не можешь измерить, где ты вообще?

В предыдущих сериях:
❓Вопрос №1 - Tell me about yourself
❓Вопрос №2 - Why do you want to work at our company?
❓Вопрос №3 - Why are you looking for a new job?
❓Вопрос №4 - What were you expected to accomplish when you first joined your previous role?

Читать полностью…

Инжиниринг Данных

18 April 2025 08:59

Хотите разбираться в Big Data так, как это делают специалисты Яндекса? Тогда присоединяйтесь к бесплатному интенсиву ШАДа Big DWH Week!

Вас ждёт 8 онлайн-занятий, на которых вы познакомитесь с YTsaurus — платформой для распределённого хранения и обработки данных. Вы разберётесь в её архитектуре и масштабировании, а также научитесь настраивать систему под свои задачи.

Интенсив открытый, поэтому зарегистрироваться может каждый. Однако интереснее всего программа будет тем, кто уже работает с данными: опытным бэкенд-разработчикам и разработчикам баз данных, инженерам и аналитикам данных, а также студентам технических направлений.

Регистрируйтесь до 25 апреля и прокачивайтесь в Big Data вместе с экспертами Яндекса и ШАДа! Все подробности — по ссылке.

Читать полностью…

Инжиниринг Данных

17 April 2025 18:53

🤖 LLM меняют правила игры — не только в IT, но и в образовании, на работе и в общении.

На Data Fusion ВТБ и Институт ИИ МГУ представили большое исследование: поговорили с экспертами из МГУ, МФТИ, ВШЭ, РАН и собрали взгляд с двух сторон — технической и гуманитарной.

Что говорят?

- Вместо исчезающих профессий — их апгрейд. Программисты меньше пишут рутину, больше фокусируются на логике и тестировании. Дизайнеры — на креативе.
- Учиться проще: цифровой «двойник» преподавателя всегда на связи. Но и соблазн сдать всё «через нейросеть» — тоже растёт.
- В коммуникациях — новые правила игры. Мы всё чаще доверяем моделям как людям. Это удобно, но критическое мышление важно сохранить.

Читать полностью…

Инжиниринг Данных

16 April 2025 22:35

Pet проект года🙌

Читать полностью…

Инжиниринг Данных

13 April 2025 02:39

Мне сказали что 7 figures data leaders должны играть в гольф, наверстываем 👌

Читать полностью…

Инжиниринг Данных

12 April 2025 04:15

Всем привет, завтра у нас небольшой data&drinks в Seattle, встречаемся прям вот на этом месте, где фотография, можно взять плавки

ps у нас есть группа с прошлого раза, пишите в комментарии, я добавлю.

Читать полностью…

Инжиниринг Данных

11 April 2025 04:46

Правильные корпоративные расходы🍩

Читать полностью…

Инжиниринг Данных

10 April 2025 08:59

Знаете, сколько A/B-тестов проводит Авито в год?

4000+! Зачем? Растить основные показатели бизнеса. Например, количество покупателей и выручка увеличивается на 10-20% в год.

И тут, конечно, важно не только количество тестов, но и их качество. Чтобы это было по-настоящему эффективно, ребята разработали собственную A/Bшницу — Trisigma. Сначала обкатали её внутри, а сейчас она доступна для всех продуктовых команд.

Чтобы рассказать, что у инструмента «под капотом» и поделиться аналитической экспертизой, команда Авито проведёт митап 16 апреля в своём московском офисе на Лесной.

В программе не только доклады, но и нетворкинг! Прочитать подробнее и зарегистрироваться можно тут.

Кстати, если не можете прийти офлайн, то зарегистрироваться можно и онлайн!

Читать полностью…

Инжиниринг Данных

09 April 2025 16:41

Собираемся на Data Fusion!

Не просто приходим, а становимся частью чего-то большего. Каждый из нас — фрагмент цифровой картины. Вместе — архитекторы решений, будущего, логики.

Data Fusion — крупнейшая конференция по работе с данными и ИИ место силы для тех, кто умеет собираться. Внутри, вовне, с другими. 16-17 апреля, Москва, кластер Ломоносов.

Читать полностью…

Инжиниринг Данных

08 April 2025 21:31

В телеграм-каналах на техническую тематику появляется всё больше информации про использование AI для прикладных задач: про требования при приёме на работу, про отбор кандидатов, которым разрешено выполнять тестовые задания с использованием AI.

Нравится, не нравится — ~~терпи, моя красавица~~ нужно привыкать к новой реальности, где AI становится ещё одним инструментом в вашем арсенале, который помогает быть сверхэффективным.

Вы можете стать гораздо продуктивнее с AI, если будете понимать, как он работает, и просто делегировать ему часть задач. Пока что эти инструменты требуют контроля и проверки, но в будущем ситуация может сильно измениться — и уже они будут контролировать и проверять нас 🙂

За последние несколько дней с помощью AI я:

- Насоздавал dbt-моделей (SQL, YAML) в нескольких проектах — это сотни строк кода, написанных за меня;

- Конвертировал 15 таблиц из SQL Server в Snowflake и создал Snowflake Stored Procedures с MERGE;

- Контрибьютил в репозиторий с Protobuf и Go, имея минимальные знания по этим технологиям;

- Разрулил проблемы с PyTest в Dagster;

- Участвовал в двух хакатонах, где использовались хранилища данных и LLMs;

- Занимался troubleshooting’ом всего, что ломалось и не работало;

- И многое другое.

Физически всё это было бы невозможно сделать за такой короткий срок.

Каждый раз, когда работаю с Cursor AI, думаю: «Всё классно», — но пока Cursor не может сам выполнять запросы к базе данных «из коробки».

То есть, пока что еще много COPY-PASTE (ручного труда).

И вот тут бы отлично подошел бы MCP. Как раз про него свежая статья - MCP Protocol: a new AI dev tools building block

- MCP — это как USB-C для ИИ-инструментов: универсальный интерфейс для подключения внешних систем к LLM-интегрированным IDE.

- MCP делает возможным, например, обращаться к базе данных напрямую из редактора кода, без переключения на PgAdmin или другие GUI-инструменты.

- Используя MCP, IDE может автоматически обращаться к БД, находить нужные таблицы, строить SQL-запросы и интерпретировать результаты, помогая разработчику.

- MCP вдохновлён Language Server Protocol (LSP) от Microsoft, который сделал возможной легкую интеграцию поддержки языков программирования в IDE.

- MCP быстро набрал популярность: VS Code, Cursor, Windsurf, Zed, Claude Desktop, Neovim и др. уже поддерживают MCP или планируют.

- Разработчики могут “разговаривать” с базами данных, CI/CD, системами фич-флагов и т.п. на естественном языке прямо в IDE.

- Протокол ещё очень сырой, но потенциал — огромный: как для повышения продуктивности разработчиков, так и для развития ИИ-агентов.

🎯 Основная идея:
Разработчику больше не нужно переключаться между инструментами. Он может задавать вопросы на естественном языке прямо в IDE, а LLM, используя MCP, под капотом подключается к нужным системам (БД, тикетинг и т.п.) и возвращает результат.

Читать полностью…

Инжиниринг Данных

07 April 2025 20:00

Сегодня все празднуют рекорд Овечкина, поэтому можно праздновать и не работать! С чем его и поздравляем🎉

Читать полностью…

Инжиниринг Данных

28 April 2025 10:03

Дата с Димой | Новости из мира BigTech | Эпизод 4️⃣

YouTube, Rutube

💡 В этом эпизоде обсуждаем свежие новости из мира BigTech, карьерные инсайты, новые технологии, оптимизацию данных, а также влиятельные стартапы и инвестиции.

🎯 Ключевые темы выпуска:

📊 dbt, analytics engineering и тренды в индустрии данных
⚡️ Качество данных, рост зарплат и новые возможности за пределами IT
🤖 Роль AI в аналитике — автоматизация, курсоры и исправление ошибок
❄️ Iceberg vs Snowflake — форматы хранения и скрытые издержки Databricks
🔥 Альтернативы Pandas — FireDucks, Polars и новые подходы к обработке данных
🚀 Гибридные СУБД, DuckDB и сверхпроизводительность на AWS S3
🧵 Pipe Syntax и упрощение работы с SQL
🛡 Безопасность в AI и уязвимости в Apache Parquet
🏦 Инвестиции в OpenAI и влияние религии на Кремниевую долину
🎯 Навыки 2030 года — AI, Big Data и новые подходы к найму
🧠 Сверхинтеллект в 2027 году — риск или шанс
📚 Будущее образования — навыки важнее дипломов
🧩 Data-инженерия, AI Tutors и прокачка навыков через код
🏢 AI в бизнесе — примеры Shopify и развитие внутренних AI-отделов
🏗 Проблемы с дата-центрами и оптимизация инфраструктуры
🇷🇺 Арена Day, российские вендоры и будущее отечественного софта
📈 Возвращение западных компаний в Россию и адаптация решений
📖 Литературные рекомендации по технологиям и AI
☁️ Проблемы Яндекс Облака и работа с отказами в облачных сервисах
⚙️ AI-агенты, Kubernetes и локальные аналитические платформы
🧩 Облачные BI-инструменты и тренды в AI-образовании
💻 Использование AI в разработке и обучение Spark через Яндекс
🛠 Трансформация Алисы в умного ассистента от Яндекса
✍️ Vibe Codding — новые подходы к написанию кода

🎥 Хронометраж:

00:01 Введение в новости аналитики, AI и карьерных трендов.
00:39 Обзор DBT Cloud и развития аналитической инженерии.
02:32 Качество данных, расширение профессии и зарплаты.
04:21 Роль AI в аналитике и примеры автоматизации.
05:18 Iceberg, Snowflake и скрытые затраты на облачные решения.
08:10 Альтернативы Pandas: Fire DXS, Arrow, Polars.
09:05 Проблемы DataBricks и новые подходы в аналитике.
12:50 Гибридная обработка данных и производительность AWS S3.
14:42 Облегчение работы с SQL с помощью pipe syntax.
16:34 Использование AI и обнаружение уязвимостей в Spark.
19:16 Инвестиции в AI и развитие рынка OpenAI.
22:05 Тренды поиска работы и рост зарплат инженеров.
26:45 Изменения в подходах к найму и собеседованиям.
27:42 Опасности и потенциал сверхинтеллекта в будущем.
28:39 Трансформация образования и самообучение.
30:34 Реалии трудоустройства после окончания обучения.
33:40 AI Tutor и важные навыки для дата-инженеров.
35:37 Как компании интегрируют AI в бизнес-процессы.
37:27 Проблемы использования дата-центров в Китае.
39:19 Арена Day и развитие российских IT-вендоров.
40:14 Возвращение западных компаний на рынок и вызовы для локальных решений.
41:10 Рекомендации книг о технологиях и будущем.
42:05 Проблемы Яндекс Облака и управление кризисами.
43:59 Развитие AI-агентов и Kubernetes в России.
44:52 Облачный BI и использование AI в образовании.
46:43 AI в разработке и обучение Apache Spark.
48:37 Трансформация Алисы в полноценного ассистента.
50:31 Инструменты Vibe Coding и создание BI Cube.

⚡ Не забывайте ставить лайк, подписываться и делиться этим видео с друзьями! ❤️

Читать полностью…

Инжиниринг Данных

27 April 2025 20:46

Появился Airflow 3.0 или как у вас его любят назвать - плов.

Современный интерфейс — обновления статуса в реальном времени, удобный тёмный режим для глаз и улучшенный графический вид DAG'ов.

Assets — теперь можно явно указать, какие данные читает и пишет каждая задача, а Airflow сам строит полную карту зависимостей. Например, привязать загрузку файла в S3 к запуску пайплайна удалось за считаные минуты — без дополнительных скриптов. (а я думал assets только у Dagster)

Событийный запуск — DAG'и могут стартовать сразу по факту появления новых данных, а не ждать расписания. Работает гораздо быстрее по сравнению с cron-запуском.

Версионирование и бандлы DAG'ов — все изменения пайплайна теперь отслеживаются как изменения кода. Плюс, весь DAG (таски, зависимости, документация) можно упаковать в один бандл для удобного деплоя или отката.

EdgeExecutor — можно запускать задачи на любой машине, хоть на Raspberry Pi, параллельно с основным кластером.

Backfill через UI — выбрал нужный диапазон дат, кликнул один раз — и Airflow сам перерассчитал все пропущенные периоды.

Уже кто-нибуль попробовал обновиться?

PS давайте сделаем вебинарчик для DataLearn, есть желающие?

Читать полностью…

Инжиниринг Данных

24 April 2025 08:01

Давненько никто никого не покупал. Свершилось - Datadog acquires AI-powered observability startup Metaplane (AI там и не пахнет, так то). DataDog популярный и хороший инструмент для infrustructure observability и неплохо справляется с Data Observability. Облачная платформа. Но дорогая, я писал ранее про 65млн$ в год у Coinbase.

За сколько купили Metaplane — непонятно. Зачем — тоже не совсем ясно.
DataDog — популярное решение, и практически во всех компаниях, где я работал, он был в использовании. Ближайший бесплатный аналог — это Prometheus и Grafana, которые можно неплохо развернуть в Kubernetes.

С Metaplane я работал только на одном проекте. Мне досталась команда инженеров, аналитиков и ML-специалистов, а также набор разных инструментов: Snowflake, Metabase, Dagster, dbt, Keebo (для оптимизации затрат в Snowflake) и Metaplane. Люди, которые внедряли эти решения, к тому моменту уже ушли. Компания продолжала платить вендору, но инструментом никто не пользовался.

Я решил его оставить. Один аналитик, который очень хотел стать дата-инженером, вызвался стать экспертом по Metaplane. Он до сих пор разбирается 🙂

Расскажите про ваш опыт с Metaplane и DataDog или аналогами.

Читать полностью…

Инжиниринг Данных

23 April 2025 02:00

Один из свежих, хотя и не совсем новых трендов — это возврат от распределённых вычислений (distributed computing) к вычислениям на одном узле, как в старые добрые времена SMP. Пример — DuckDB.

На картинке — типичный стек с DuckDB: всё локально, быстро, удобно. Но возникает вопрос — что произойдёт, если такой «одиночка» упадёт? Как быстро можно восстановиться?

Для большинства небольших и средних компаний объёма до 1 ТБ вполне достаточно, а всё, что не помещается, можно спокойно держать рядом — например, в Apache Iceberg на S3.

Использовал бы я duckDB? Ответ простой, для себя лично 100%, а вот как наемный сотрудник лучше делать ставку на проверенные технологии Spark, Trino, Snowflake и тп. Обычно так все и делают:)

Читать полностью…

Инжиниринг Данных

18 April 2025 21:00

Вот только закончили книгу по Snowflake, начинаем по Azure Databricks. Было много вопросов нафига ~~козе баян~~ делать Azure если есть просто Databricks. Мы им тактично объяснили зачем и нам дали добро.

Читать полностью…

Инжиниринг Данных

18 April 2025 06:01

Давайте немного отвлекемся от ИТ будней, санкций, AI новостей и отжигов Трампа, и посмотрим на последние модные тренды.

После coachella, где собираются все модники появился четкий модный тренд на babushka style men outfit, где было куча мужиков в косынках.

Просто знайте, что сандали с носками это еще не вверх модной пирамиды, теперь можно и косынку надеть!😅

Читать полностью…

Инжиниринг Данных

17 April 2025 16:13

Яндекс Вертикали зовут в свои сервисы продуктовых аналитиков — превращать результаты исследований в точки роста и делать жизнь миллионов пользователей удобнее

Ищут продуктовых аналитиков в Авто.ру и Яндекс Путешествия. Нужно будет проверять гипотезы, искать точки роста и влиять на все элементы своего сервиса.

От кандидатов ждут релевантный опыт работы от 2 лет, уверенное владение SQL, умение проводить A/B-тестирование, способность презентовать результаты и аргументировать свою точку зрения.

От себя обещают все плюшки Яндекса — от расширенной медицинской страховки до гибкого графика и спорта.

Узнать подробности и откликнуться:

Продуктовый аналитик в Яндекс Путешествия

Продуктовый аналитик в Авто.ру

Приходите в команду, которая действительно любит свой продукт и неравнодушна к результату 💛

Читать полностью…

Инжиниринг Данных

15 April 2025 08:59

🚀 🚀 🚀

📅 Вебинар - сегодня (15 апреля в 19:00 по мск)

Тема: История одного проекта с большим техническим долгом

🎙Спикер - Роман Зыков

🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.

🔸 SQLMesh вместо морально устаревшего dbt - быстрые, прозрачные и масштабируемые преобразования данных.
🔸 dltHub - надежный и гибкий инструмент для транспорта данных.
🔸 PostgreSQL - универсальное и проверенное временем хранилище данных.
🔸 Metabase - удобный инструмент self-service аналитики, идеально подходящий для команд любой величины.

📕 На встрече обсудим:

➡️С какими техническими сложностями столкнулись при миграции?

➡️Почему именно этот стек, а не другой?

➡️Какие уроки извлекли и как минимизировать технический долг в будущем?

Вебинар будет полезен инженерам данных, аналитикам и техническим руководителям, которые хотят понять, как оптимально организовать техническую инфраструктуру своих проектов.

⚠️ Кстати, а вы знали? - DBT забанила SQLMesh для выступлению на конференции Coalesce в Вегасе 😱

🔗 Телеграм канал спикера @topdatalab

👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀

Join the meeting: https://meet.google.com/xfn-kzgv-cwy

Читать полностью…

Инжиниринг Данных

12 April 2025 12:16

ну наконец-то хоть кто-то это сделал...а за export в excel все 50% надо!

Читать полностью…

Инжиниринг Данных

11 April 2025 20:41

Оптимизируем работу со Spark и строим рекомендательные системы

Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение.

На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода.

Что еще обсудим

🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде.
🔹 Как оптимизировать расходы и работу со Spark.
🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца.

Кому будет полезен вебинар

⚫️ML-инженерам.
⚫️Архитекторам, Data-инженерам, Data-аналитикам.
⚫️Руководителям ML-направлений и Data-офисов.

Зарегистрироваться

Читать полностью…

Инжиниринг Данных

10 April 2025 10:30

Запись Greenplum вебинара.

Читать полностью…

Инжиниринг Данных

10 April 2025 01:59

Поделюсь сегодняшними наблюдениями, связанными с performance review. Лично я этот процесс никогда не любил. Но в последнее время мне приходится проводить его для инженеров, и вот примерный диалог:

– Чувак, привет! У нас тут performance review. Давай сделаем всё по красоте — я вижу, ты вкалываешь много. Во-первых, давай полегче чутка, всё-таки work-life balance важен. (А про себя думаю: если чувак свалит, тут вообще всё развалится.)

Он мне что-то отвечает на английском.

– Дальше я прошу его сказать, сколько лет он в компании, на какую зарплату пришёл (да-да, мой любимый вопрос — СКОЛЬКО ТЫ ПОЛУЧАЕШЬ?!, наконец-то для дела пригодился), когда был последний подъём зарплаты и т.п.

Получаю всю информацию, прикидываю, сколько там места есть, чтобы подтянуть его зарплату до нормальной по Канаде (я же, как-никак, вообще-то эксперт по зарплатным ожиданиям).

– Даю ему пару советов, что написать в performance review, чтобы показать IMPACT и VALUE. Заодно спрашиваю, на какую конференцию он хочет сгонять.

И так — со всей командой.

Далее всю эту информацию сгружаю VP, чтобы, наконец-то, чувакам платили нормально, отправляли на конференции и вообще — всем было по кайфу.

В моём понимании, performance инженера — бинарный: либо ты перформишь и делаешь нужные и полезные штуки для команды и бизнеса, либо нет. ~~Сиськи мять~~, делать 360 review и прочие HR-фреймворки — это, конечно, весело и забавно, но для меня это устаревший процесс.

У меня именно упор на то, что команда должна быть мега счастлива, я хочу показать как мы их ценим, заботимся, и при каждом удобном случае поднимаем зарплату или другие бенефиты, даже если это будет опцион, мелочь а приятно. Мы вместе придумываем темы и темки, чтобы был максимальный IMPACT и VALUE, а дальше мы это все продаем боссам, строим, внедряем. Короче всем кайф, работай не хочу.

---

А вот после обеда я поменялся ролями — теперь я стал инженером. И мне сделали 360 performance review. Всё было ничего, пока в одном месте — «количество работы» — мне не поставили 3 из 5. И тут я забыл все свои книги и тренинги по софт-скиллам, и сказал, что это BULLSHIT и всё такое. Намекнул менеджеру, что на его месте я бы всей команде поставил 4 и 5, потому что все молодцы и хорошо работают 😆

Получается, в этом самом ревью оценки по категориям не объективны. Менеджер мне даже не смог ответить на вопрос как и в чем измерять «количество работы». И самое главное — у человека всегда есть выбор: делать свою работу хорошо или фокусироваться на performance review (играть в политику) в ущерб целям организации. К сожалению, политики в индустрии больше, и чем крупнее компания, тем меньше здравого смысла и больше bullshit.

А как у вас проходит performance review? Any luck? Как минимум должны накинуть 2% индексации. Хотя… вчера купил oat milk latte за $8 и офигел от цен. Хотя это не вода в Кофемании.

PS Согласно новомодным введниям Shopify я стараюсь использовать AI везде, поэтому попросил проверить грамматику, отсюда и картинка для привлечения внимания=)

Читать полностью…

Инжиниринг Данных

08 April 2025 23:30

А как же:
"Microsoft сделала огромный подарок: Режим Агента (Agent mode) стал доступен всем пользователям Visual Studio Code!"???
https://habr.com/ru/companies/bar/news/898538/

Читать полностью…

Инжиниринг Данных

08 April 2025 07:44

🚀 🚀 🚀

📅 Вебинар - сегодня (8 апреля в 19:00 по мск)
Тема вебинара: "Всё что нужно знать о Greenplum"

🔍Описание:
🔸На реальных примерах узнаем, что такое Greenplum.
🔸Чем сегмент отличается от сегмент-хоста?
🔸Что такое партицирование, а что такое дистрибуция?
🔸Как Greenplum хранит данные для эффективной работы MPP кластера?
🔸Что такое Motion данных, как и зачем его избегать?
🔸Что интересного можно увидеть в плане запроса?
🔸Как эффективно грузить данные в GP?
🔸Разберём эти и другие вопросы, а самое главное: увидим всё наглядно и на реальных примерах и задачах. Никакой теоритической воды, только факты и примеры.

🎙Спикер:
Nikita Tselishchev
Data Engineer в компании Unirest (KFC/Rostics).
Один из авторов курса https://yandex.cloud/ru/training/greenplum

🔗 Никита ведет канал про Дата инженериниг в телеграм @DataEngineeringDigest

👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀

#datalearn #вебинар

Читать полностью…

Инжиниринг Данных

07 April 2025 16:45

Когда говорят про ИИ, чаще вспоминают ChatGPT или Gemini. Но теперь в этом списке есть и A-Vibe от Авито — легкая, но мощная модель, которая обогнала западные аналоги от OpenAI, Google и Anthropic в тестах на русском языке. В независимом российском бенчмарке MERA A-Vibe заняла первое место среди облегченных моделей (до 10 млрд параметров).

В отличие от GPT-4o или Claude, нейросеть от Авито изначально заточена под русскоязычные запросы и одновременно обрабатывает до 32 тысяч токенов. Это позволяет ей понимать смысл текста, вести диалоги и генерировать код лучше, чем GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие популярные нейросети.

Авито уже использует модель в своих сервисах, а в будущем может открыть ее код. И если это произойдет, у малого бизнеса и разработчиков появится доступ к мощному ИИ без гигантских затрат.

Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.

Читать полностью…

Subscribe to a channel