rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

20246

Делюсь новостями из мира аналитики и вредными карьерными советами;) 8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️ Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).

Subscribe to a channel

Инжиниринг Данных

Обзор новых книг от O’Reilly, которые на мой взгляд выглядят интересными и полезными:


ML and Generative AI in the Data Lakehouse - ​практическое руководство по созданию решений с использованием генеративного искусственного интеллекта (ИИ) и архитектуры data lakehouse. (Отличный материал для ознакомления с AI фичами databricks и примерами решений)

Data Governance with Unity Catalog on Databricks - предоставляет практическое руководство по использованию Databricks Unity Catalog для эффективного управления данными и соблюдения нормативных требований. (Unity Catalog специфичен и отличается от других каталогов, поэтому поможет быстрей понять особенности и best practices)

Building Medallion Architectures - Книга подробно рассматривает принципы организации слоев «бронза», «серебро» и «золото» для улучшения качества данных и повышения эффективности аналитики. (Обычно это тему можно понять на простом примере с 3мя папочками Bronze, Silver, Gold. Ребята там сильно напряглись, чтобы книгу написать)

Building Data Integration Solutions - практическое руководство по объединению и организации разрозненных источников информации в единую, согласованную систему. (Чисто полистать сойдет)

AWS Certified Data Engineer Associate Study Guide - охватывает ключевые темы, включая эффективное управление конвейерами данных, выбор подходящих хранилищ, проектирование моделей данных, обеспечение качества данных и внедрение надежных протоколов безопасности и управления данными в AWS. (Самый лучший способ изучать AWS и вкатываться в дата инженера на западе)

Advanced Snowflake - предоставляет подробное руководство по использованию передовых инструментов платформы Snowflake, таких как Snowpark и Native App Framework, для оптимизации обработки данных, разработки приложений и развертывания моделей машинного обучения. (Если вы опытный в Snowflake, врят ли узнаете что-то новое, а если только начинаете, то самое то)

Apache Hudi: The Definitive Guide - руководство по использованию Apache Hudi для создания транзакционных гарантий при работе с быстро изменяющимися данными. ( я бы лучше про Iceberg изучал бы)

Engineering Leadership: The Hard Parts - практическое руководство для инженерных лидеров, помогающее справляться с вызовами управления в условиях неопределенности и быстрых изменений.


Microsoft Power BI Data Analyst Associate Study Guide - ​книга для подготовки к экзамену PL-300 и получения сертификации Microsoft Certified: Power BI Data Analyst Associate. (😞)

Fundamentals of Microsoft Fabric - служит подробным руководством по освоению платформы Microsoft Fabric. (Возможно наконец-то мы сможем понять что такое Фабрик и зачем он нужен)

Demystifying The Coding Interview - руководство для подготовки к собеседованиям по программированию. Она охватывает ключевые темы, такие как структуры данных, алгоритмы и методы решения задач, помогая читателям развить критическое мышление и навыки решения проблем. (Если вы вдруг хотите сами решать задачки на собесе, то книга вам поможет, хотя не ожидаю увидеть что-то новое в этой области)

Читать полностью…

Инжиниринг Данных

В последней статье от Pragmatic Engineer - AI Engineering in the real world автор на пример нескольких стартапов собрал примеры использования AI для продукта/сервиса и их технологический стек.

1. Incident.io — это стартап, который создает инструменты для эффективного управления инцидентами и их расследования. Продукты компании помогают компаниям быстро реагировать на технические сбои, обеспечивая эффективную коммуникацию и анализ ситуации.

Продукт:
- AI Note Taker — инструмент для записи заметок и реального времени, который автоматически генерирует резюме инцидентов, а также выделяет ключевые решения и действия для участников.
- Incident Investigator — ИИ-агент, который анализирует коды, логи и старые инциденты для нахождения коренной причины текущих проблем.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных представлений данных.
- ChatGPT 4o и Sonnet 3.7 (модели от Anthropic) — для обработки запросов и анализа инцидентов.
- GCP Kubernetes — для оркестрации вычислительных ресурсов.
- Go (на бэкенде) и React + Typescript (на фронтенде).


2. Sentry — это популярная платформа для мониторинга приложений, которая помогает разработчикам отслеживать ошибки в коде и устранять их. Компания предоставляет мощные инструменты для автоматического обнаружения и исправления ошибок.

Продукт:
- Autofix — позволяет быстро перейти от ошибки в коде к её исправлению, интегрируя данные Sentry с GitHub для автоматического создания запросов на исправления.
- Issue Grouping — инструмент, который снижает количество уведомлений об ошибках и устраняет «шум» с помощью усовершенствованного поиска ближайших соседей.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных данных.
- Clickhouse — для обработки аналитики в реальном времени.
- Kubernetes — для оркестрации вычислительных мощностей.
- Python и PyTorch — для инференса моделей машинного обучения.


3. Wordsmith (Legal AI) разрабатывает инструменты с использованием ИИ, специально ориентированные на юридические команды. Продукты компании помогают автоматизировать рутинные задачи, такие как анализ документов и контрактов.

Продукт:
- AI Contract Review — инструмент для автоматического анализа контрактов, выявления проблемных мест и создания аннотированных документов.
- Documents Workspace — платформа для анализа и создания документов, включая автоматическое составление отчетов и рекомендаций.

Технологии:
- Pinecone — для хранения векторных представлений данных.
- LangChain и LangSmith — для интеграции LLM в рабочие процессы.
- LlamaIndex — для оркестрации данных с LLM.
- Многооблачные провайдеры: AWS, Azure и GCP.


4. Augment Code создает инструменты для разработчиков с целью улучшения их работы с большими кодовыми базами с использованием ИИ. Компания предлагает AI-ассистента для программирования, который помогает ускорить процесс разработки.

Продукт:
- AI Coding Assistant — расширение для IDE (VS Code, JetBrains, Vim) и Slack, которое помогает разработчикам ускорить процесс написания кода.
- Fine-tuning Models — сервис для настройки ИИ-моделей для специфических задач в программировании.

Технологии:
- Google Cloud — для хостинга инфраструктуры.
- A3 Mega 600GPU/75 node cluster — для тренировки и инференса моделей.
- NVIDIA GPU и CUDA — для обработки данных на графических процессорах.
- Python и PyTorch — для создания библиотек тренировки и инференса.


5. Elsevier (RAG platform) — один из крупнейших мировых издателей научных и медицинских материалов. Компания создает платформы, которые помогают медицинским специалистам и исследователям эффективно находить и использовать научные данные.

Продукт:
- RAG Platform — централизованная платформа для обработки научных данных и создания приложений для медицинских профессионалов. Включает в себя решения для создания интеллектуальных систем обучения и поддержки клинических решений.

Читать полностью…

Инжиниринг Данных

Готов увидеть будущее искусственного интеллекта? 🧠

GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.

В программе:
презентация платформы для работы с AI&ML — от идеи до результата
анонс новых сервисов для работы с GenAI
реальный кейс трансформации клиентского сервиса с помощью AI
анонс сервиса для простого и быстрого запуска ML-моделей в облаке

30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈

Читать полностью…

Инжиниринг Данных

Поговорим про инженерные платформы и AI?

23 апреля Т-Банк приглашает на Platform Engineering Night. Приходите послушать, как AI помогает автоматизировать процессы, оптимизировать ресурсы и повысить продуктивность платформенных команд.

Что будет в программе:
— Доклады экспертов о применении AI в инженерных платформах.
— Зоны демонстрации AI-решений в платформах.
— Нетворкинг с инженерами и лидерами отрасли.

Встреча пройдет 23 апреля в 19:00 в T-Space по адресу Москва, Грузинский Вал, 7. Доклады можно послушать в онлайне.

Это бесплатно, успейте зарегистрироваться.

Читать полностью…

Инжиниринг Данных

Продолжаю серию постов про ожидания от высшего руководства для управления командой аналитики в Северной Америке.

Я уже рассказывал, что общаюсь про позицию VP Analytics & DE в американскую компания, в компании всего 700 сотрудников и их gross revenue 150mln в год. Компания используют данные и аналитику как часть своего портфеля продуктов. (А кто сейчас не использует?😃)

Я уже общался с CTO, и следующий этап был с их подрядчиком. С ними работают небольшое агентство из Сиэтла, которое фокусирует на AI (А кто сейчас не фокусируется на AI?😃). Они попросили основателя провести собеседование, и мне очень понравился его framework.

Сам мужик оказался очень крутым по общению, а потом я посмотрел на его профиль:
2000-2011 - Director BigData&Analytics, Microsoft
2011-2016 - основатель консалтинг компании, которую купил Ernst&Young
2016-2019 - Partner, Analytics & AI, EY
2019-2022 - General Manager, Product Management & AI, Amazon

И сейчас он строит новую компанию, чтобы тоже ее продать, но уже с AI.

У нас с ним оказалось много общего, вместе работали в Amazon и Microsoft, вместе создавали консалтинг компанию. Есть конечно и различия, но в детали я не буду углубляться😉

Я использовал Limitless, чтобы записать наш разговор и потом попросил ChatGPT его структурировать и перевести на русский, получилось достойно:

1. Technical Leadership (Техническое лидерство):

Вопрос: Расскажи о случае, когда ты проектировал data platform с нуля до конца. Какие ключевые факторы ты учитывал при принятии решений?

Твой ответ: Ты рассказал об опыте миграции классического data lake из Amazon в современную Lakehouse архитектуру. В Microsoft (Xbox) перед тобой стоял выбор между нативными решениями Azure (Synapse, HDInsight) и Databricks. Ты выбрал Databricks из-за возможностей Delta Lake (например, соблюдение GDPR и поддержка ACID транзакций). Ты провёл детальный POC и убедительно показал его преимущества руководству, избежав принудительного перехода на Synapse. Благодаря этому удалось обеспечить elastic scalability и сократить задержку аналитики с 24 часов до 1 часа. Ты повысил стабильность пайплайнов, внедрив подход Infrastructure as Code, и эффективно справился с нагрузкой в пиковые периоды запуска игр, используя тестовые данные (mock data).

2. Data Governance (Управление данными):

Вопрос: Какова твоя философия в области data governance и какие конкретные шаги ты предпринял для её реализации?

Твой ответ: Твоя философия заключается в том, чтобы связывать инициативы по data governance с бизнес-целями компании. Ты начинаешь с простых и практичных решений (документация, удобный поиск данных, создание data catalog) и оцениваешь зрелость компании через опросы пользователей. Ты ставишь во главу угла коммуникацию, доверие к данным (trustworthiness) и удобство их использования. Также ты упомянул, что использовал специализированные порталы и решения для **data observability (например, Monte Carlo) для отслеживания качества и документации данных.

3. Analytics & Data Science Enablement (Поддержка аналитики и Data Science):

Вопрос: Как ты поддерживаешь команды аналитиков и data scientists, чтобы их потребности не перегружали ресурсы твоей команды по data engineering?

Твой ответ:
Ты всегда чётко расставляешь приоритеты и прозрачно коммуницируешь о возможных конфликтующих задачах. Ты внедряешь общие frameworks (DBT, Snowflake, Airflow), избегаешь подходов «чёрного ящика» (black-box pipelines) и обучаешь команды правильным практикам. В недавнем проекте ты улучшил производительность пайплайнов ML-команды, разбив их на простые и прозрачные модели (DBT models), сократив время выполнения с нескольких часов до нескольких минут. Ты предложил стандартизировать подходы (frameworks), чтобы инженеры могли легче помогать и диагностировать проблемы пайплайнов аналитиков.

Отдельно ты упомянул контроль ресурсов (например, стоимости в Snowflake) путём установки ограничений на запросы (timeouts, размеры warehouses), еженедельного обзора расходов и предварительного обучения новых пользователей, чтобы избежать перерасходов.

Читать полностью…

Инжиниринг Данных

Список сайтов для поиска удаленной работы:

1. SimplyHired (simplyhired.com)
2. Jobspresso (jobspresso.co)
3. Stack Overflow Jobs (stackoverflow.com)
4. Outsourcely (outsourcely.com)
5. Toptal (toptal.com)
6. Skip The Drive (skipthechive.com)
7. NoDesk (nodesk.co)
8. RemoteHabits (remotehabits.com)
9. Remotive (remotive.com)
10. Remote4Me (remote4me.com)
11. Pangian (pangian.com)
12. Remotees (remotees.com)
13. Europe Remotely (europeremotely.com)
14. FlexJobs (flexjobs.com)
15. Remote.co (remote.co)
16. We Work Remotely (weworkremotely.com)
17. RemoteOK (remoteok.com)
18. AngelList (angel.co)
19. Linkedin (linkedin.com)
20. Outsourcely (outsourcely.com)
21. Freelancer (freelancer.com)
22. Working Nomads (workingnomads.com)
23. Virtual Vocations (virtualvocations.com)
24. Wellfound (https://wellfound.com)
25.Remote freelance (remotefreelance.com)
26. Jobspresso (jobspresso.co)
27. SimplyHired (simplyhired.com)
28. Welcome to the jungle (https://app.welcometothejungle.com/)

А какие у вас любимые и полезные?

Читать полностью…

Инжиниринг Данных

Недавно наткнулся на классный материал про Growth Engineering — направление, которое активно развивается в крупных компаниях вроде Meta, Airbnb и Dropbox.

Кто такой Growth Engineer🚀? По сути — инженер, который пишет код не просто ради фич, а для прямого увеличения прибыли компании. Его основная задача — запускать эксперименты и проверять гипотезы: например, как изменения интерфейса, уведомлений или даже формата подписки могут повлиять на конверсию и удержание пользователей.

Growth Engineers мыслят не категориями «как это построить идеально», а «как быстро проверить идею и понять, принесет ли это деньги». Они не боятся двигаться быстро, иногда даже обходя долгосрочные решения и тесты, лишь бы понять, есть ли смысл вкладывать ресурсы в проект.

Направление появилось в Facebook в 2007 году благодаря Чамату Палихапитии (сейчас ведет подкаст allin">All-In про экономику, tech, стартапы), который предложил формировать отдельную команду для быстрого роста бизнеса через эксперименты.

Звучит здорово, и, честно говоря, в чём-то это даже ближе к реальному бизнесу и стартап-культуре, чем стандартная продуктовая разработка с её долгими циклами.

А вы сталкивались с Growth Engineering в работе?

Читать полностью…

Инжиниринг Данных

В 7 утра я обычно работаю в living room пока все спят, а потом уже иду в офис смотреть на прохожих в окно👆

Чем меньше вещей вокруг тем продуктивней работа.

Читать полностью…

Инжиниринг Данных

🔎 За какими дэшами следят в Amazon?

С Димой (@rockyourdata) написали статью про Amazon Weekly Business Review. Идея в том, чтобы смотреть несколько основных метрик сразу на одном листе понедельно, помесячно, а также MTD, QTD, YTD (период от начала месяца/квартала/года до текущей даты).

Дима проработал в Амазоне больше 5 лет и для меня эта схема с WBR была новая. Очень интересно посмотреть, как крупные компании следят за метриками. Ну а я подробно расписала, как собрать такой мини-wbr дэшборд в Tableau (прям шаг за шагом супер детально и доступно для скачивания).

Читать полностью…

Инжиниринг Данных

Во время выборов президента Америки можно было заметить как американские миллиардеры поддерживает Трампа. Сейчас команда Трампа наводит шороху везде, рынки теряют деньги, люди жгут и портят Теслы (в комментах скину фотку, что вчера видел у салона тесла), все бузят на Маска и множество других событий 🍿

Попалась интересная статья, которая смотри на все события с другого ракурса - «Демократия закончилась: наступление корпоративной монархии»

Основные тезисы:

1. Три основные группы с разными, но опасными целями:
- Project 2025:
Реализация ультраправой, авторитарной политики. Включает запрет абортов, преследование ЛГБТ и транс-людей, отрицание климатических изменений и постоянную «культурную войну».
- Христианские реконструкционисты: Стремятся превратить США в христианскую теократию, переписав Конституцию на основе Библии.
- Технократы во главе с Маском, Тилем и Джей Ди Вэнсом: Продвигают идею корпоративной монархии, где демократия будет заменена корпоративным управлением под руководством «CEO-монарха».

2. Связь Питера Тиля, Илона Маска и JD Вэнса:
- Маск и Тиль вместе основали PayPal, откуда выросла мощная группа «PayPal Mafia», оказавшая огромное влияние на Кремниевую долину.
- Тиль, миллиардер и влиятельный технократ, профинансировал карьеру JD Вэнса, сделав его сначала сенатором, затем кандидатом в вице-президенты США.

3. Кёртис Ярвин и «Тёмное Просвещение» (Dark Enlightenment):
- Ярвин выступает за ликвидацию демократии и создание авторитарного государства в виде корпорации. Демократические процедуры считаются неэффективными и ненужными.
- Он предлагает упростить управление страной через корпоративный подход, заявляя, что Америке нужно избавиться от «диктаторофобии».

4. Идеология технократической корпоративной монархии:
- Миллиардеры Кремниевой долины считают демократию помехой и стремятся захватить власть, сократив роль государства и переведя управление в руки частных корпораций.
- Стратегия, названная Ярвиным «RAGE» (Retire All Government Employees), предусматривает массовые увольнения госслужащих, парализующие правительство, после чего корпорации займут их место.

5. Роль Илона Маска и JD Вэнса в текущих событиях:
- Маск уже активно реализует эту стратегию через инициативы вроде DOGE, что выглядит хаотично, но на деле тщательно спланировано.
- JD Вэнс внезапно стал ключевой политической фигурой благодаря усилиям Тиля и Ярвина, чтобы облегчить продвижение технократической повестки на высоком политическом уровне.

6. Роль Трампа:
- Дональд Трамп описан как пешка в этой игре, стареющий лидер, чьё хаотичное президентство является удобным фоном для реализации реальной техно-фашистской повестки.

Автор статьи делает вывод, что видимый хаос в американской политике — это осознанная и целенаправленная попытка группы технократов, таких как Маск, Тиль и Вэнс, создать корпоративную монархию на месте современной демократии США.

Читать полностью…

Инжиниринг Данных

Ребята не принебрегайтей GitHub! Пусть у вас будет такой же зелененький календарь в профайле, как в этой душевой!

PS Git сложен: легко всё про@бать, и нереально понять как исправить. Документация Git - это финиш: чтобы найти решение, тебе заранее надо знать название фишки, которая вернет всё на место.

Поэтому вам в помощь - @баный Git!!!

Читать полностью…

Инжиниринг Данных

🏆 Авито — лучший работодатель для аналитиков!

По данным нового исследования NEWHR, Авито занял 1 место среди самых привлекательных компаний для аналитиков!

📊 В исследовании приняли участие 1293 аналитика разных уровней — от Junior-специалистов до руководителей.
Более 35% респондентов выбрали Авито как лучшего работодателя. Помимо этого, 69% специалистов отметили рост зарплат в 2024 году, а 46% стали более лояльны к текущему работодателю.

🚀 В Авито все решения принимаются с опорой на данные, поэтому аналитики есть в каждой продуктовой и бизнес-команде. Чтобы пользователи продолжали выбирать Авито, наши аналитики:

➡️ каждый день собирают 8 млрд новых событий и тестируют гипотезы,

➡️ создают системы метрик, аналитические фреймворки и математические модели,

➡️ проводят статистические исследования,

➡️ изучают поведение пользователей и находят причины в его изменениях,

➡️ настраивают отчетность,

➡️ выступают на конференциях, проводят митапы, пишут статьи на Хабре и многое другое.

С результатами исследования NEWHR можно ознакомиться по ссылке.

Читать полностью…

Инжиниринг Данных

Все работает как часы! Если конечно хватает мотивации довести дело до конца, Юрий молодец дожал и нашел работу🚀

Читать полностью…

Инжиниринг Данных

Антропик утверждает, что в 2026 появятся модели, которые

— превосходят Нобелевских лауреатов в большинстве областей
— умеют пользоваться всеми человеческими интерфейсами
— могут работать и думать неделями
— могут взаимодействовать с реальными миром через роботов.

Самое смешное, что в мире есть еще люди, которые считают что это не гарантированно и «авось пронесет».

Я не вижу ни одного сценария (технического, политического, бизнесового), в котором этого бы не произошло в течении 2 лет. Nothing stops this train.

Другой вопрос: как подготовиться и что делать дальше, особенно с такими штуками как координация людей (экономика, финансы, право, политика)? Есть любопытные идеи.

Читать полностью…

Инжиниринг Данных

Весь Linkedin пестрит 2мя темами, 1ая это про Трампа и какой он красавчик, а вот вторая тема про три уровня компаний, так называемая The Trimodal Nature of Tech Compensation.

То есть все компании можно разделить на 3 уровня по уровню компенсации в США, Европе, Индии. (Да и во всем мире)

Идея простая:
1) есть обычные компании, которые платят мало - tier 1. Получается там лучше вообще не работать 🤷
2) есть BigTech, который платит много (за счет стоков и бонусов) - tier 2
3) А есть еще топчик компании, кто платит как tier 1 + tier 2 вместе взятые, это у нас tier 3.

Мне это было всегда очевидно, я всегда избегал компании tier 1, и конечно мечтал бы работать в tier 3, но и в tier 2 неплохо.

Ссылка https://newsletter.pragmaticengineer.com/p/trimodal


Как бы вы распределили компании по слоям в РФ?

PS это отличная возможность хайпануть и использовать уже имеющие данные от getmatch и замутить такой же график для отечественных компаний ;)

Читать полностью…

Инжиниринг Данных

Технологии:
- AWS Bedrock и Azure OpenAI — для хостинга и запуска моделей LLM.
- LangChain — для интеграции LLM в инфраструктуру.
- Snowflake — для хранения данных и анализа.
- Apache Airflow — для выполнения пайплайнов обработки данных.
- AWS Fargate и AWS OpenSearch — для хранения векторных данных и поиска.


6. Simply Business — это страховая компания, предоставляющая небольшим и средним предприятиям удобные онлайн-инструменты для покупки страховых полисов. Компания разрабатывает чат-ботов для автоматизации обслуживания клиентов.

Продукт:
- Chatbot — чат-бот, который отвечает на вопросы клиентов о страховании, предоставляя только утвержденные ответы в соответствии с нормативами отрасли.

Технологии:
- AWS Bedrock — для хостинга модели.
- Anthropic Sonnet 3.5 — для обработки запросов.
- Ruby on Rails — для разработки и развертывания приложения.



7. Data Solutions International (DSI) разрабатывает HR-технологии, которые помогают компаниям с процессами оценки и вовлеченности сотрудников. Их продукты используют ИИ для анализа и суммирования отзывов сотрудников.

Продукт:
- Summarization Feature — инструмент для автоматического суммирования комментариев сотрудников, оставленных в процессе оценки и обратной связи, включая классификацию по темам и создание облаков слов.

Технологии:
- AWS Bedrock — для работы с моделями.
- PostgreSQL — для хранения векторных представлений данных.

То есть если посмотреть на технологический стек, мы видим набор традиционных решений с интеграцией Gen AI сервиса

Читать полностью…

Инжиниринг Данных

Ну что все думаете, что скоро вас заменят? А вот Нюх думают по другому:


Мне 50 лет, я пишу продакшн-код уже около 30 лет, преподаю программирование и являюсь признанным мировым экспертом в этой области, особенно в сфере облачных технологий. НУЛЕВОЙ ШАНС, что в ближайшие 5 лет эта технология сможет заменить экспертов-программистов. Это всё равно что сказать, будто циркулярная пила может заменить плотника. Логическая ошибка.

Это всё большая афера. Силиконовая долина делает вид, что что-то создаёт, а на самом деле продаёт финансовый продукт, а не настоящий. А потом уходит, оставляя за собой ядерные отходы, закопанные в общественном саду.



А вот, что говорит Степан:



1. "Петля гибели" (Doom Loop)
Компании массово увольняют сотрудников, чтобы внедрить ИИ, но затем вынуждены нанимать новых людей, чтобы управлять этим ИИ — потому что он часто ошибается. Это замкнутый круг:
→ Увольняем людей
→ Ставим ИИ
→ ИИ ошибается
→ Нанимаем людей, чтобы исправлять ошибки ИИ
→ Добавляем больше ИИ, чтобы исправлять старый ИИ
→ Повторяем

2. "Змея, поедающая свой хвост"
Метафора для того, что система начинает "переваривать саму себя" — создаются новые проблемы, которые приходится решать теми же средствами, что их и вызвали.

3. Реальность против обещаний
- ИИ делает ошибки (часто "галлюцинирует", особенно в логике и математике).
- Тесты и бенчмарки — подогнаны, демонстрации — искусственные.
- Эффективность оказалась ниже обещанной, а издержки выше.
- Возникает скрытый труд: теперь нужны "ревьюеры ИИ", "промт-инженеры", и "QA-человеки в цикле".

4. Кто выигрывает
- Компании, которые не поддались хайпу и внедряют ИИ обдуманно, как дополнение, а не замену людей.
- Принцип "Augmentation over automation" — не заменять человека, а усиливать его возможности.

5. Что будет, если не изменить курс
- Падает качество продуктов
- Растут юридические и репутационные риски
- Скрытые затраты на управление ИИ
- ИИ, который исправляет ошибки другого ИИ
- Иллюзия прогресса вместо реального роста

6. P.S.
Подозрение: новые блестящие релизы, вроде GPT-4o с улучшенной генерацией изображений — это просто способ отвлечь внимание от провалов и проблем в реальных ИИ-внедрениях.

В общем идеи у всех классные, сейчас их пампят деньгами и продают, и возможно такой подход вредит конечной цели.

В любом случае цель остается неизменной, нужно развиваться и учиться, пробовать новое (AI) и смотреть как это повышает вашу эффективность и эффективность компании, которая вам платит, ну или которую вы создаете.

Я вот еще не обновил свое резюме, чтобы написать там про AI use cases, использование AI инструментов для продуктивности, а пора.

Growth mindset - наше все!

Читать полностью…

Инжиниринг Данных

Если вы еще не попробовали промпт “Convert Studio Ghibli anime”, то самое время открыть ChatGPT модель 4o. Детализация очень крутая, как пример наши фотки.

Модель умеет совмещать несколько фоток в одну (пример с котом, машиной и детьми)

Утро прошло не зря:)

Читать полностью…

Инжиниринг Данных

4. Working with Business Leaders (Работа с бизнес-лидерами):

Вопрос: Как ты общаешься с нетехническими руководителями и топ-менеджментом?

Твой ответ: Ты подчёркиваешь важность согласования целей твоей команды с конкретными измеримыми бизнес-целями компании (снижение затрат, рост доходов, повышение операционной эффективности). Ты избегаешь технических терминов, предпочитая простые и понятные показатели, через которые ясно показываешь руководству ценность и результаты работы твоей команды.

5. Managing Diverse Technical Talent (Работа с разными уровнями сотрудников):

Вопрос: Как ты управляешь командой, в которой есть люди с разными уровнями опыта и знаний, особенно когда кто-то давно работает и не хочет менять технологии?

Твой ответ: Ты активно поддерживаешь технические знания, постоянно следишь за новинками в отрасли и лично вовлекаешься в технические детали проектов. Ты стараешься понять личную мотивацию каждого сотрудника, терпеливо помогаешь людям осваивать современные технологии (например, переход от SQL Server к Snowflake) и стараешься показать это как возможность развития, а не вынужденное изменение.

Читать полностью…

Инжиниринг Данных

Не так давно был пост про Trisigma — платформу для автоматизации A/B-тестирования и аналитики от команды Авито. Сейчас будет полезная инфо для тех, кто хочет понять как она работает.

Команда платформы собрала подробную статью о функционале, интерфейсе и возможностях платформы, изучить можно тут.

То, что удивило: самостоятельная разработка аналога Trisigma обойдется средней компании в несколько десятков миллионов рублей и в 2 года работы!🤯

Читать полностью…

Инжиниринг Данных

Очень интересный выпуск подкаста «Деньги любят техно» о Data Science и AI с Константином Воронцовым — стоит смотреть всем, кто хочет развиваться в сфере AI.

Константин Воронцов — доктор физико-математических наук, профессор РАН, МГУ, заведующий лабораторией «Машинное обучение и семантический анализ» Института Искусственного интеллекта МГУ. Под его руководством множество молодых специалистов построили свою карьеру в науке, часть из них выбрали развитие в компаниях и работают в самых известных бигтехах. Как раз о выборе направления карьерного пути, важности фундаментального образования и необходимости широкого кругозора рассказал в подкасте Константин Вячеславович. Ну и конечно, об ИИ — понимании его сути, его роли, его будущего. Ведущий подкаста Денис Суржко задал очень правильные, глубокие вопросы, приправил разговор китайскими мудростями и угостил гостя чаем.

Интересно смотреть, но есть и аудиоверсия для тех, кто любит слушать.

Читать полностью…

Инжиниринг Данных

Очень рекомендуют видео - Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

00:10 Building Large Language Models overview
02:21 Focus on data evaluation and systems in industry over architecture
06:25 Auto regressive language models predict the next word in a sentence.
08:26 Tokenizing text is crucial for language models
12:38 Training a large language model involves using a large corpus of text.
14:49 Tokenization process considerations
18:40 Tokenization improvement in GPT 4 for code understanding
20:31 Perplexity measures model hesitation between tokens
24:18 Comparing outputs and model prompting
26:15 Evaluation of language models can yield different results
30:15 Challenges in training large language models
32:06 Challenges in building large language models
35:57 Collecting real-world data is crucial for large language models
37:53 Challenges in building large language models
41:38 Scaling laws predict performance improvement with more data and larger models
43:33 Relationship between data, parameters, and compute
47:21 Importance of scaling laws in model performance
49:12 Quality of data matters more than architecture and losses in scaling laws
52:54 Inference for large language models is very expensive
54:54 Training large language models is costly
59:12 Post training aligns language models for AI assistant use
1:01:05 Supervised fine-tuning for large language models
1:04:50 Leveraging large language models for data generation and synthesis
1:06:49 Balancing data generation and human input for effective learning
1:10:23 Limitations of human abilities in generating large language models
1:12:12 Training language models to maximize human preference instead of cloning human behaviors.
1:16:06 Training reward model using softmax logits for human preferences.
1:18:02 Modeling optimization and challenges in large language models (LLMs)
1:21:49 Reinforcement learning models and potential benefits
1:23:44 Challenges with using humans for data annotation
1:27:21 LLMs are cost-effective and have better agreement with humans than humans themselves
1:29:12 Perplexity is not calibrated for large language models
1:33:00 Variance in performance of GPT-4 based on prompt specificity
1:34:51 Pre-training data plays a vital role in model initialization
1:38:32 Utilize GPUs efficiently with matrix multiplication
1:40:21 Utilizing 16 bits for faster training in deep learning
1:44:08 Building Large Language Models from scratch

Читать полностью…

Инжиниринг Данных

Недавно проходил собес на VP Analytics&Data Engineering в Американскую большую компанию, вот это тема, никто вас не спрашивает про leetcode, алгоритмы и другие вещи. Вы сразу общаетесь с С-level, спрашиваете их про планы компании, про impact решения, размер команды и тп, в общем то, что надо🤑

Читать полностью…

Инжиниринг Данных

И есть еще одна статья - «Техно-фашизм приходит в Америку» из The New Yorker

1. Слияние технологий и государственной власти: В статье обсуждается объединение лидеров Кремниевой долины, таких как Илон Маск, с правительством США, что напоминает исторические примеры техно-фашизма, где технократы занимают влиятельные позиции в государстве.​

2. Инициатива DOGE: Илон Маск возглавляет программу «Digital Operations Governance and Efficiency» (DOGE), направленную на использование искусственного интеллекта для оптимизации государственных функций, что приводит к значительным сокращениям и деперсонализации бюрократической структуры.​

3. Исторические параллели: Автор проводит аналогии с предыдущими случаями, когда американские корпорации сотрудничали с государством, например, «Фордизм» Генри Форда и сотрудничество IBM с нацистской Германией, подчеркивая текущую тенденцию глубокого проникновения лидеров Кремниевой долины в государственные процессы.


4. Идеология техно-акселерационизма: Отмечается, что такие фигуры, как Илон Маск, стремятся быстро разрушить существующие структуры для создания технократического общества, что вызывает опасения относительно возможного ослабления демократических норм и усиления авторитарных тенденций.​

Интересно как сложится, будет ли у Америки новый CEO-Monarch вместо призидента, или люди себе надумали.

Наверно сейчас хорошее время покупать акции Теслы, пока они 50% down, даже если это был пузырь, то он еще отрастет за следующие несколько лет?

Читать полностью…

Инжиниринг Данных

Сейчас с помощью AI хороший инженер может стать в пять раз продуктивнее, даже просто экономя время на написании YAML-файлов, создании прототипов, поиске ошибок, быстром погружении в незнакомые стеки и изучении новых языков программирования.

Я и сам вижу в этом множество преимуществ. Но есть нюанс. У меня и других опытных инженеров за плечами годы практики: мы самостоятельно изучали исходный код, искали примеры на StackOverflow, проходили десятки уроков и туториалов, набивали шишки, погружаясь в основы. И именно благодаря этому багажу сейчас мы можем эффективно использовать AI и становиться продуктивнее.

А что делать новичкам? Если они будут погружаться в основы таким же долгим и трудоёмким способом, то на короткой дистанции они окажутся непродуктивными и не будут оправдывать ожиданий работодателей.

Поэтому начинающие специалисты всё чаще обращаются к ChatGPT и аналогам, быстро находя готовые решения, но не понимая при этом их сути. В долгосрочной перспективе это лишает их возможности стать действительно хорошими инженерами. То есть, опытные инженеры станут еще лучше и востребованной, а новичкам будет еще сложной пробиться.

Получается парадокс: с одной стороны, нам говорят (и даже продают идею), что AI заменит нас, а с другой — именно AI нередко лишает нас возможности самостоятельно думать, разбираться и глубоко понимать предметную область.

Какие у вас мысли поводу молодежи и “войти в айти”?

Читать полностью…

Инжиниринг Данных

Такая интересная история приключилась, сейчас расскажу:)

В LinkedIn мне написала Ксения, и скинула ссылка на недавний подкаст с Евгением, который в 40 лет выучился на дата инженера.

В небольшом подкасте он рассказал про свой путь и как учился, как искал первую работу https://careerselfmade.mave.digital/ep-7

Базу Женя подчерпнул на datalearn, а дальше уже стал самостоятельно углубляться, как результат полная переквалификация без платных курсов. Но как вы понимаете нужен фокус и мотивации.

Так классно слышать про полезные скилы, например отдельно нарабатываем прохождения собеседований, чтобы просто ходить по собеседования и валить их, чтобы понимать куда расти и где пробелы. Или про технических или бизнес инженеров. В общем очень познавательно и полезно.

С Евгением мы последний раз общались где-то год назад, он как раз поделился своими успехами. Уверен у него теперь еще круче! Валютная удаленка 💯

Ссылка на канал Ксюши /channel/HRqueenBCN

Читать полностью…

Инжиниринг Данных

Оказывается, Макс тоже вышел на новую работу, и они вместе с Юрой отписались в дискорде, с чем я их и поздравляю!

Это полностью их заслуга. Хорошую работу с хорошей зарплатой быстро не найти, нужно пройти через сотни откликов, множество собеседований и тестовых заданий, отказов, которые выявляют пробелы в знаниях, которые нужно закрыть.

В результате прокачки, получается не просто закрыть пробелы и выйти на работу, но и начать контрибутить (приносить пользу) с 1го дня работы и сразу понятно куда дальше расти.

У ребят 100% валютная удаленка🍾

Читать полностью…

Инжиниринг Данных

Практически каждый проект в инжиниринге данных начинается с package manager (пакетный менеджер), как правило для Python.

С одной стороны у всех цель одна, а с другой стороны “кто в лес, кто по дрова”.

Мне попались 3 хорошие статьи от Dagster на эту тему (про сам Dagster там нет), в которых хорошо рассказывают как это работает и как сделать удобно и красиво.

Python Packages: a Primer for Data People (part 1 of 2)
Python Packages: a Primer for Data People (part 2 of 2)
Best Practices in Structuring Python Projects

Вообще там 11 частей, в каждом посте будут ссылки на все части, например есть и другие полезные:
High-performance Python for Data Engineering
Write-Audit-Publish in data pipelines
Breaking Packages in Python
CI/CD and Data Pipeline Automation (with Git)
Factory Patterns in Python
Type Hinting in Python
Environment Variables in Python

Если вы еще на “вы” со всеми этими менеджерами, зависимостями или не очень понимаете, что творится у вас на работе в репозитории, то будет полезно ознакомиться.

Читать полностью…

Инжиниринг Данных

Мне понравилась картинка, очень хорошо отражает все изменения в стартапах.

Для трендов данные и их интеграция играют очень важную роль.

Вместо того, чтобы думать - AI нас заменит, лучше думать про то, как бы нам принести пользу, какие пробелы в знаниях у нас есть и как их заполнить.


Вот несколько ресурсов:

Introduction to Generative AI with Snowflake

Generative AI Fundamentals (Databricks)
Guide: Build gen AI apps (Databricks)

Hugging Face - AI Course

Weights & Biases - Gen AI, Agents, LLMs courses

Anthropic courses
Antropic Cookbook

Cursor AI trainings

Deeplearning AI courses

Полезные Видео:

Deep Dive into LLMs like ChatGPT by
Andrej Karpathy


How I use LLMs by Andrej Karpathy

Building Agents with Model Context Protocol - Full Workshop with Mahesh Murag of Anthropic

Задача не стать AI или МL инженером, а разобраться в терминологии и use cases, и найти точки соприкосновения.

Читать полностью…

Инжиниринг Данных

Claude 3.7, Cursor AI, vibe coding - все это супер, но даже я уже стал попадать в ситуации, когда Cursor начинает шерстить мое репо, менять разные файлы и предлагать изменения по всему проекту. А потом иди ищи, где и чего он наменял, засранец!🦯

Поэтому лучше не разрешать AI менять ваш код, а лишь рассматривать варианты решения и при необходимости копировать.

На картинке кусочек кода Amplitude, вот вам для справки:

Amplitude — это одна из самых популярных платформ продуктовой аналитики, которая помогает компаниям анализировать поведение пользователей внутри цифровых продуктов (мобильных приложений, веб-сайтов, SaaS-платформ и т. д.).

Почему Amplitude так популярен?
1. Глубокий анализ пользовательского поведения
• Позволяет анализировать воронки (funnel analysis), retention (удержание пользователей), потоки пользователей (user flows) и другие важные метрики без необходимости писать SQL.
• Можно отслеживать ключевые продуктовые метрики, такие как активация, конверсия, отток пользователей и влияние различных фич на поведение пользователей.
2. Простота интеграции
• Поддерживает SDK для мобильных (iOS, Android) и веб-приложений.
• Интегрируется с другими инструментами (Google Analytics, Mixpanel, Snowflake, Segment, BigQuery, dbt и т. д.).
3. Мощный сегментный анализ
• Можно легко строить группы пользователей (cohorts) по разным признакам, например, по поведению, географии, источнику трафика и др.
4. Без SQL для аналитиков и продактов
• Доступен удобный UI для построения отчетов без написания кода, что делает инструмент удобным для продакт-менеджеров, маркетологов и аналитиков.
5. Гибкость и масштабируемость
• Хорошо работает с большими объемами данных.
• Позволяет экспортировать сырые данные в Snowflake, BigQuery, S3 и работать с ними на уровне Data Warehouse.
6. A/B тестирование и причинно-следственный анализ
• Amplitude Experiment позволяет проводить эксперименты и анализировать их влияние на поведение пользователей.
7. Облачное хранение и обработка данных
• Все данные хранятся в облаке, а обработка запросов проходит быстро за счет оптимизированной инфраструктуры.
8. Активно используется крупными компаниями
• Клиенты Amplitude: Atlassian, PayPal, Shopify, Twitter, Ford, HubSpot и др.
• Компании используют его для принятия решений, основанных на данных, и улучшения пользовательского опыта.

Чем отличается от других инструментов?
• По сравнению с Google Analytics, Amplitude более ориентирован на анализ поведения пользователей, а не просто на трафик.
• В отличие от Mixpanel, Amplitude предоставляет более мощные возможности по работе с сырыми данными и интеграции с хранилищами данных.

Он такой хороший и классный (по словам продукт менеджеров), что они готовы в него загрузить все данные их хранилища данных (дублировать) и забыть дорогу в BI. 😡

В РФ какой инструмент для этого используется?

Читать полностью…
Subscribe to a channel