rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

«Мы поняли, что мы как Тринити и Морфеус. Нам нужен был Нео». Как ночной портье за 3 месяца разобрался в инжиниринге данных

Смотрите подкаст «Криптонит говорит» о дата-инженерах! В нём эксперты обсуждают:
🔹достигла ли пика профессия дата-инженера;
🔹какой стек нужно знать дата-инженерам;
🔹какие намечаются тренды отрасли.

📺 YouTube
📺
Rutube
💙
VK видео
💬
Подкаст в телеграме
🎵 Яндекс.Музыка

Смотрите и подписывайтесь на подкаст «Криптонит говорит» — обсуждаем айти, искусственный интеллект, языки программирования и криптографию.

Реклама АО НПК «Криптонит» ИНН 9701115253 Erid: 2VtzqwCgYzD

Читать полностью…

Инжиниринг Данных

Голая статистика - Чарльз Уилан
(Naked Statistics - Charles Wheelan)


Сегодня хочу поделиться мини рецензией об этой замечательной книге.
Заодно ответить на вечный вопрос: может ли книга про статистику быть живой, понятной и не вызывать флэшбеки с пары по матстату.

На сайте самого Уилана про него написано коротко и нагло:
Author. Professor. Speaker. Political Reformer.

Автро явно не из тех, кто открывал статистику только ради сдачи экзамена. И это чувствуется с первых страниц. Я, как человек, который уже много лет живёт в аналитике, BI и моделях, я довольно скептически отношусь к «популярным» книгам по статистике - но тут история другая:

«Голая статистика» - это, пожалуй, одна из лучших книг по статистике, которые я читал.

А читал я их уже немало - от классики до совсем академического кирпича.

О чём книга (и почему это не скучно)
• Корреляция
• Основы теории вероятностей
• Центральная предельная теорема (ЦПТ)
• Опросы общественного мнения
• Регрессионный анализ

На обложке вообще написано:
«Самая интересная книга о самой скучной науке»

И вот тут Уилан делает магию:
он реально разжёвывает статистику так, что и новичку ок, и человеку с опытом есть что подчеркнуть и переосмыслить.

При этом он объясняет сложные вещи на живых примерах:
загадка Монти Холла, Perry Preschool Study, марафон любителей сосисок, супружеская жизнь Ким Кардашьян (да, и она послужила статистике), исследования Americans Changing Lives и многое другое.

Центральная предельная теорема по-человечески

Отдельный кайф книги - блок про выборки, опросы и ЦПТ.

Вот как сам Уилан описывает ЦПТ:
«Центральная предельная теорема, значение которой для статистики соизмеримо со значением Леброна Джеймса для профессионального баскетбола».

Если перевести на практический язык:
если у нас есть правильно сформированная выборка, то наблюдаемые на ней характеристики с высокой вероятностью отражают свойства всей генеральной совокупности.

Несколько цитат, которые показались особенно точными
«Опираясь на статистику, легко врать, но без статистики очень трудно выяснить истину». - Андрейс Дункельс

«Вы не можете управлять тем, что не в состоянии измерить. Помимо этого, то, что вы измеряете, действительно является тем, чем вы пытаетесь управлять».

«Какой бы соблазнительной ни была элегантность и точность вероятностных моделей, они не заменят нам здравого размышления о сути и цели выполняемых вычислений».


И мой любимый образ 🔥:
«Когда увеличивается размер неправильно сформированной выборки, высота мусорной кучи также увеличивается, а вонь от неё становится сильнее».


«Голая статистика» трезво напоминает:
📍 Статистика и анализ данных - это мощный инструмент, чтобы лучше понимать реальность, а не подгонять её под наши фантазии.
📍 Любая модель - всего лишь приближение мира, а не откровение.
📍 Аналитик всегда должен быть не только «человеком формул», но и человеком здравого смысла.

Как я люблю говорить:
мало быть data-driven, важно оставаться data-informed


Как эта книга помогла лично мне

В далёком уже 2019-м я учился на Data Science в Нетологии. Одна из тем была Центральная предельная теорема. Формулы были красивые, преподаватели старались, домашки летели одна за другой - но абсолютно не было понятно, как эту теорему вообще применять в реальной аналитике и зачем она нужна, кроме как для галочки на экзамене.

И вот спустя время попадает мне в руки «Голая статистика».
И Уилан, как настоящий профессор-волшебник, берёт и на примере марафона любителей сосисок(!) объясняет ЦПТ так, что наконец-то становится ясно:
• как она работает
• почему она настолько фундаментальна
• и в каких реальных задачах она решает половину аналитических головоломок.

Так что да - эта книга не только хороша сама по себе,
она ещё и сильно закрывает пробелы, которые другие источники часто оставляют открытыми.

Читать полностью…

Инжиниринг Данных

Закончил слушать книгу - Empire of AI, автора Карен Хао. Книга рассказывает историю создания OpenAI и переход компании от non-profit к PROFIT. Книга интересная и слушал ее с удовольствием.

Основные темы в книге by AI:

Центральный аргумент Хао заключается в том, что индустрия ИИ воспроизводит модель колониальных империй XIX века. Она выделяет четыре ключевых паттерна:
• Захват ресурсов — присвоение данных из интернета, а также природных ресурсов (вода, энергия) для работы дата-центров
• Эксплуатация труда — использование низкооплачиваемого «призрачного труда» работников в Кении, Венесуэле и других странах Глобального Юга, которые «чистят» данные и модерируют контент, часто получая меньше доллара в день
• Монополизация знаний — концентрация ведущих ИИ-исследователей внутри корпораций
Цивилизаторская миссия — риторика о «благе для всего человечества», которая оправдывает любые действия

Критика Сэма Альтмана как лидера
По мнению Хао, Альтман — манипулятивный и амбициозный лидер, который:
• Не может чётко определить, что такое AGI, но использует эту концепцию для привлечения инвесторов и талантов
• Превратил OpenAI из некоммерческой организации с миссией безопасности в «прибыльную чёрную дыру», поддерживаемую миллиардами Microsoft
• Умело манипулирует разными аудиториями — перед Сенатом говорит об экзистенциальных рисках ИИ, отвлекая внимание от реального ущерба
• Как пишет Шошана Зубофф в рецензии: «Альтман — хитрый молодой человек с непомерными амбициями, осуждённый мир на цифровое насилие подхода к ИИ, который может существовать только пожирая всю информацию мира»

Как ИИ «возвращает рабство»
Хао документирует систему, которую критики сравнивают с современным цифровым рабством:
• Работники в странах Глобального Юга (Кения, Латинская Америка, Восточная Азия) выполняют психологически травмирующую работу по разметке данных и модерации контента
• Оплата составляет менее доллара в день — при том, что руководители и инвесторы AI-компаний зарабатывают миллиарды
• Это классическая колониальная схема: ресурсы и труд бедных стран используются для обогащения небольшой группы технологической элиты
• OpenAI определяет AGI как технологию, «превосходящую людей в наиболее экономически ценной работе» — то есть сама цель создания таких технологий направлена на подавление возможностей работников требовать права


Книгу сравнивают с «The Anarchy» Уильяма Далримпла о Британской Ост-Индской компании — ещё одной корпоративной империи, превратившейся в политическую силу.


Получается ethical AI там и близко нет, точнее это вряд ли существует. И в погоне за лидерством и могуществом компании ни перед чем ни остановяться.

Читать полностью…

Инжиниринг Данных

Сегодня CEO стартапа записал видеообращение с поздравлением thanksgiving и был очень exciting показать приложение с координатами четвероногих клиентов, которое я сделал в Streamlit для фана. Я уже почти два года общаюсь с фаундерами и они полностью сделали bootstrap на свои деньги (friends and family) и вышли на уровень revenue 100млн в год.

Читать полностью…

Инжиниринг Данных

Ну что я вчера говорил про AI Data Engineer? Вот уже вакансии появляются.

Брюки превращаются…брюки превращаются…

У меня уже появляется потребность собрать свой мини AI сервер с двумя GPU картами. Кто-нибудь собирал такой? Я пока знаю одного человека, кто для нас всегда делает вебинары про fancy инструменты sqlMesh, duckdb и тп (Рома привет!)

Читать полностью…

Инжиниринг Данных

Слышали уже об Evolution AI Factory?

На прошлой неделе провайдер Cloud.ru анонсировал коммерческий запуск единой среды для полного цикла работы с GenAI: от прототипа до продакшена.​

Что внутри:
😶‍🌫️20+ готовых LLM по OpenAI‑совместимому API

😶‍🌫️быстрый инференс своих и HF‑моделей

😶‍🌫️RAG по вашим данным и LoRA‑дообучение

😶‍🌫️облачные ноутбуки (JupyterLab / VS Code Server / ComfyUI / n8n)

😶‍🌫️конструктор AI‑агентов для мультиагентных сценариев
Все это на российских серверах, с гарантированным SLA, поддержкой 24/7 и доступными ценами.

Если ищете, где подружить данные, LLM и агентов без «зоопарка» сервисов, советуем присмотреться.

Узнать подробности можно тут

Читать полностью…

Инжиниринг Данных

Хорошая статья - 3 levels of writing. Напоминает нам о важности использовать свой мозг.


Во-первых, ИИ останется с нами надолго. Мы должны использовать ИИ очень осознанно. Не меняйте свой долгосрочный рост на краткосрочную продуктивность.

В мире, где все заняты тем, что используют ИИ для всей своей работе, будьте тем, кто использует мозг.

Так же, как и мышцы, тренировка мозга требует целенаправленной практики.
ИИ может помочь с исследованиями, корректировкой тона и проверкой ваших предположений.

Но не заблуждайтесь, есть большая ценность в том, чтобы делать вещи "вручную" ради себя самого. Вы можете выбрать ходьбу пешком, даже если у в
ас есть машина. Это занимает больше времени, но долгосрочная польза для здоровья того стоит.

Кремниевый мозг раз за разом показывал, что может превзойти углеродный мозг: Deep Blue, AlphaGo, Watson и многие другие, которые появятся, поскольку массивные инвестиции в ИИ обязательно принесут результаты.

Но это неважно. Это не соревнование.
В эпоху массово производимого, персонализированного и "глубоко подделанного" синтетического контента вам понадобится ваш мозг в отличной форме.

Забудьте об отличной форме.
Просто поддерживайте его в текущей форме, и вы будете самым умным: 😂

❌️ Результат работы ИИ часто ленивый, низкого качества и лишён опыта и мнения. Вы можете настроить промпт, чтобы придать ему больше характера, но это просто подделка следующего уровня.

✅️ Так же, как мышцы, мозг становится сильнее с тренировкой и использованием. Самая непосредственная опасность ИИ не в том, чтобы забрать наши рабочие места, а в том, чтобы сделать нас глупыми!

✅️ Отключайте автопилот, чтобы заставить себя думать. Поднимайтесь по лестнице, когда можете.

✅️ Используйте традиционные поисковые системы, чтобы находить ответы на проблемы и решения других людей, потому что это расширяет ваш разум и знакомит вас с более широким спектром идей, чем LLM будет кормить вас с ложечки.

✅️ Читайте книги, блоги и т.д., чтобы узнать, как другие решали проблемы, вместо того чтобы полагаться на ИИ, который пережёвывает коллективную мудрость для генерации красиво выглядящих решений.

✅️ И самое важное, пожалуйста, пожалуйста, пожалуйста, не выдавайте результат работы ИИ за свою работу. Это не только обманчиво и нечестно, но те, кто обладает критическим мышлением и не "припарковал свой мозг", видят это насквозь.

Вы можете думать, что действуете умно, используя ИИ для эффективности, но 1) товар массового производства — это не преимущество, 2) то, что вы делаете со своим мозгом, эквивалентно потреблению ультра-обработанной пищи!

По иронии судьбы, по мере повышения качества результатов работы ИИ, способность критически мыслить и связываться с человеческой стороной решения проблем становится ещё более важной.

В битве между машинами и людьми всегда принимайте сторону людей. Люди следуют за людьми, покупают у людей и строят глубокие отношения с людьми. Всегда будут анекдотичные исключения (как японка, которая недавно вышла замуж за свой ИИ), но я ставлю против того, что такое поведение станет массовым.

ИИ — отличный инструмент. Он помогает быстрее достигать результатов. Он генерирует массивный синтетический результат за долю времени, которое требуется для органического производства.

Но когда дело доходит до итога, ему нужна система ценностей. А ценности создаются людьми. ИИ можно обучить генерировать ценности, но ИИ — это не мы: его вычислительная мощность не ограничена черепом, у него нет тела с нашими потребностями и желаниями.

Читать полностью…

Инжиниринг Данных

Вот это я понимаю народные цены. Ваше капучино дороже стоит, чем час с реальным дата инженером.

Источник TopMate, где инженеры из Индии учат других инженеров за еду доллары.

Читать полностью…

Инжиниринг Данных

dltHub - инструмент для интеграции данных (open source). Он не очень популярный, но про него всегда отзываются хорошо. Был бы там еще коннектор к 1С, было бы совсем замечательно.

Они выпустили классный курс - Deploy dlt pipelines, в котором показывают как пользоваться dlt с Airflow, Prefect, Dagster, Modal, Kestra (инструменты оркестрами)

Так же есть и базовые курсы:
dlt Fundamentals
dlt Advanced
Freecodecamp: Data Engineering with Python and AI

Кто-нибудь использовал в продакшн?

Читать полностью…

Инжиниринг Данных

Snowflake уже настоящая unified платформа с возможностью грузить данные из API.

Так и fivetran не нужен будет. И еще в Snwoflake можно хостить бесплатно dbt core и создавать крутые Python Apps на Streamlit (BI). ML и AI там тоже есть.

Читать полностью…

Инжиниринг Данных

Яндекс — место, где наука и бизнес работают вместе. Мы превращаем исследования и аналитические данные в реальные продукты для миллионов пользователей.

Сейчас мы ищем сильных аналитиков — с опытом на Python от 3 лет. Участвуйте в Weekend Offer, чтобы пройти все собеседования и получить офер всего за 2 дня.

Как всё устроено:
• Подайте заявку до 3 декабря.
• Пройдите технические секции 6 декабря.
• Познакомьтесь с командами и получите офер 7 декабря.

На сайте собрали все подробности — читайте по ссылке и регистрируйтесь: https://yandex.ru/project/events/wo-analytics-1225

Читать полностью…

Инжиниринг Данных

8. Будущее data engineering
• Роли будут требовать знания языков за пределами Java/Scala/Python/SQL
• Компании понимают, что проблемы не в объеме, а в governance и качестве данных
• Эволюция open table форматов
• GenAI не заменит junior-ов — младшие инженеры лучше работают с ИИ и учат seniors

Ключевая мысль:
Staff engineer имеет "outsized impact" (непропорционально большое влияние). У всех одинаковое количество часов, и все кодят с примерно одинаковой скоростью. На определенном уровне важнее становится ЧТО вы кодите, а не скорость:
• Находить проекты, двигающие бизнес вперед
• Помогать бизнесу убирать неопределенность
• Предотвращать выбор решений, которые будут стоить миллионы и потребуют миграции через 18 месяцев


Мне очень понравились рекомендации, и я полностью с ними согласен. Очень четко сказано, что важно быть гибким и мягким. С этим сложно, если у вас низкий порог терпимости к глупости коллег и не хватает терпения на бюрократию. Но, к сожалению, уже давно факт, что в корпоративной культуре любят не умных/быстрых, а удобных и послушных. Надо быть такой нянькой-душкой и медленно, но верно продавливать свою позицию и заручаться поддержкой коллег.

То есть при желании можно вырасти до уровня Staff, но вам придется переступить через свое эго.

И тут еще возникает одна загвоздка — финансовое вознаграждение. Давайте посчитаем на примере канадского рынка. Staff data engineer — зарплата $250k в год. При этом вам все будут говорить: "Ну ты же Staff, ты должен и то, и это" — и надо тащить. Ведь обычно позиция Staff встречается в больших организациях со сложной оргструктурой, и там за 5 минут уже ничего не накодить. Любое изменение — это боль и множество встреч и согласований, очень часто без common sense. Иными словами, ожидания высокие, а работу сложно измерить в строчках кода, метриках или еще чем-то. И обычно расти после Staff особо некуда, скорее всего это в people manager, но туда можно и сразу перейти без Staff.

А вот возьмите Senior DE. Вилка $160-180k в год. Как правило, скоуп понятен — берешь и делаешь. И еще остается много времени на личные проекты или внешние проекты, где вы можете заработать еще столько же — $160-180k в год. Поэтому вот не все так однозначно.

Но если вы Staff в FAANG, то там кроме базы у вас появляется жирный бонус, и чем выше грейд, тем выше бонус. И сама организация достаточно большая, чтобы был хороший impact. Поэтому у всех есть выбор — зарабатывать деньги или отправиться в корпоративное приключение в поисках карьерной лестницы.

Читать полностью…

Инжиниринг Данных

Интересная статья - LLMs: The Illusion of Thinking, в которой рассказываю про LLM и насколько это далеко от реального искусственного интеллекта. Некоммерческие лидеры мнений тоже про это говорили.

LLMs: The Illusion of Thinking — краткое резюме
1 LLM создают иллюзию мышления, но не обладают пониманием, сознанием или намерением.
2 Они предсказывают слова по статистике, а не рассуждают логически.
3 Галлюцинации и уверенная ложь — системная проблема всех моделей.
4 На сложных задачах (пример: Tower of Hanoi) модели полностью ломаются, даже если знают алгоритм.
5 Chain-of-Thought не является реальным мышлением — часто рассуждения неверные, но ответ случайно правильный.
6 LLM путают факты и смешивают источники (пример: объединение двух разных авторов).
7 В программировании LLM часто создают “циклы безумия”, когда исправления снова вводят ошибки.
8 Бенчмарки, которыми хвастаются создатели моделей, сильно завышены и некорректны.
9 В образовании растёт проблема массового списывания, ценность дипломов падает.
10 LLM — полезны как ассистенты, но должны применяться только с внимательным контролем человека и не являются AGI.

Возможно и правда GenAI в текущей реализации нас не заменит, но очень помогает делать свою работу лучше. А как вам кажется?

Читать полностью…

Инжиниринг Данных

Нашел классную имплементацию учебных материалов по Data Engineering и других смежных специальностей.

Мне понравилась механика сайта и как сгруппированы задания. Единственный минус это сам контент, точнее отсутствие контекста.

Если я посмотрю дорожную карту для дата инженера, то найду там все как полагается - git, bash, cli, python, MPP базы данных, облака и тп. Но нет контекста, зачем и почему. А как реально работают инженеры данных, где 20%, которые дадут 80% результата. То есть работу мы не найдем, если пройдем курсы и порешаем задачки.

У меня в Surfalytics все наоборот, где фокус только на результат и контекст через конкретные измеряемые действия, но пока что нет такой красивой обложки, все на словах в полу-ручном режиме.

За сайт, дизайн и механику - 5. За возможность стать дата инженером (или любая другая специализация) - 2.

https://prepare.sh/interviews/data-engineering

Читать полностью…

Инжиниринг Данных

Приглашаем в канал AI Inside

Канал для тех, кто смотрит на искусственный интеллект не как на хайп, а как на рабочий инструмент. Здесь нет абстрактных теорий — только прикладные решения.

Что вас ждет:
✔️ Технологии: расскажем, как ИИ решает реальные бизнес-задачи — от автоматизации до аналитики.
✔️ Кейсы: покажем успешные примеры внедрения и использования ИИ-инструментов.
✔️ Экспертиза: объясним сложные технологии простым языком с фокусом на практическую пользу.

Наша цель — дать конкретные идеи и инсайты, которые можно применить уже сегодня.

Присоединяйтесь к сообществу практиков!

Читать полностью…

Инжиниринг Данных

Я тут писал, что вот надо собирать свой AI сервер, но планы поменялись.

На MacBook поставил Vmware, Windows 11 ARM и Worms Worlds Party Remastered. 🎮

Читать полностью…

Инжиниринг Данных

Нейроаналитик в DataLens теперь тянет большие данные.

ИИ-помощник от Yandex B2B Tech научился обрабатывать сразу весь дашборд, искать закономерности и выдавать выводы за секунды. В Яндекс Go его уже используют команды Такси, Доставки и Шерингов — агент анализирует данные по 58 млн пользователей и помогает ловить сезонные скачки спроса и отклонения в метриках.

Технический директор платформы Yandex Cloud говорит, что следующий шаг — проактивный мониторинг, когда системы будут не ждать вопросов, а сами искать аномалии и предлагать решения.

Читать полностью…

Инжиниринг Данных

Сегодня решил прогуляться в центр, чтобы сходить на настоящее собеседование. Я не знал, что за компания, и что они делают, но так как я был в офисе на собеседовании последний раз в 2016 году, решил воспользоваться возможностью.

Оказалась огромная инвест контора, которая внедряет Databricks и Fabric. Еще оказалось, что у них hybrid. Фотки из путешествия прикладываю. Кофе и булочки не предложили, вообще даже не постарались продать себя😫

Фотки офиса это местный Microsoft, зашел к ним на кофе по старой памяти. У инвест конторы офис попроще через дорогу.

Вывод? Все эти on-site собеседования бесполезное занятие и ни на что не влияет.

Читать полностью…

Инжиниринг Данных

Интегрировать AI в аналитику. Мигрировать данные без потерь. Масштабировать на тысячи пользователей.

Три задачи, с которыми сталкивается каждая команда. Yandex DataLens Festival — про то, как их решать. Неделя глубокого погружения в аналитику — с 8 по 16 декабря, онлайн и бесплатно.

Разберут то, что реально пригодится в работе: от AI-инструментов DataLens до современных подходов к аналитике. Формат без воды: практические гайды и прямой эфир с командой продукта. Плюс конкурсные задания с призами.

Бонус: офлайн-афтепати в Москве для тех, кто хочет отвлечься от экрана и пообщаться вживую.

Зарегистрироваться на мероприятие

Читать полностью…

Инжиниринг Данных

Что-то в Москве зарплаты упали?! То были по 450-500, а теперь стали по 200-250, как же так?

Читать полностью…

Инжиниринг Данных

Я решил не терять время зря и изучать GenerativeAI для задач дата-инжиниринга и начал с прикладного курса от Databricks. У них есть целая специализация с примерами и лабораторными работами. После них вы сможете лучше понимать задачи, связанные с embeddings, Vector DB, RAG, LLM deployment/serving и т.п. Конечно, это всё привязано к Databricks, и многие модели идут прямо из коробки.

Получается, AI очень сильно завязан на инжиниринг данных. Вам также нужно собирать данные, парсить и хранить их. Писать к ним запросы, думать о масштабировании и безопасности. Пока каждый вендор разрабатывает свою версию реальности, но со временем всё устаканится и будет более понятно.

Вчера уже видел курс от индуса про LLM для Data Engineering. На собеседованиях уже могут поинтересоваться, а как у вас дела с Cursor, Claude Code, MCP и делали ли вы AI-решения.

Можно брать любой курс/специализацию от большого вендора + пару книг O’Reilly и это будет отличное начало.

Скоро pet проекты будут вместо dbt+Postgres, VectorDB+LLMs

PS Нашел репозиторий с примерами https://github.com/Weixin97/GenAI-with-LLM/tree/main

Читать полностью…

Инжиниринг Данных

Я уже писал про инструмент Agor, который позволяет управлять несколькими агентами одновременно без участия человека. Пока еще сыроват, но это реально выглядит как будущее разработки ПО и скоро инструменты будут разбивать ваш запрос на подзадачи и каждый агент будет играть свою роль. Вы уже можете сами протестировать подход https://agor.live/guide/spawned-subsessions#example-cross-agent-code-review

Update: В свежем обновлении курсора добавили Agent Review - Agent Review runs Cursor Agent in a specialized mode focused on catching bugs in your diffs. This tool analyzes proposed changes line-by-line and flags issues before you merge.

Читать полностью…

Инжиниринг Данных

Недавно появился новый тренд. Точнее он появился давно, но о нем стали говорить лидеры AI - дата центр в космосе.

Уже одна компания Star Cloud (backed by Nvidia и Sam Altman) запустила свой первый спутник с GPU, есть и другие игроки на рынке, кто делает bet на космические дата центры, так как на земле не хватит энергии для AI.

Примеры из новостей и игроки:
- Starcloud-1 satellite reaches space, with Nvidia H100 GPU now operating in orbit
- Интервью CEO Starcloud
- Exploring a space-based, scalable AI infrastructure system design от Google Research
- How I told a CEO his data centre was obsolete.
- Jeff Bezos Creates A.I. Start-Up Where He Will Be Co-Chief Executive
- Elon Musk is making it clear that the only path to the kind of energy AI will need is space.

Построить дата центр в космосе звучит нереально. Но также говорили про многочасовые ракеты, спутниковый интернет и многое другое.

Как вы думаете, какие уникальные кейсы могут быть в космосе с использованием вычислительных мощностей и GPU?

Например есть известная компания Varda, которая был backed by Питер Тиль. Это компания решает уникальные проблемы - забирает материалы на земле и дальше работает с ними в космосе, так как в космосе состав материала изменяется и его можно дальше изучать, на земле такое просто не возможно.

Читать полностью…

Инжиниринг Данных

Сейчас LinkedIn заполнен 3мя типами контента:

1) все рассказывают про Toon, какой замечательный дата формат, и как он экономит токены. Но все, кто про него пишет, его даже не использовали. Я вот тоже написал здесь и тоже не использовал.

2) Несмотря на то, что Nvidia опубликовала свои доходы в + и все выдухнули - пузырь еще не дозрел, но сегодня весь рынок красный. Знающие люди делаются инсайдами.

3) Если контент на русском, то часто народ жалуется на рекрутеров, рекрутеры жалуются на соискателей и обязательно с приложением скринов переписки. И еще будут посты о том, как кто-то кому-то помог найти работу. И чтобы вы подумали? Скриншоты и пруфы приложены🍪🍪

А что вам там попадется?

Читать полностью…

Инжиниринг Данных

VK RecSys Challenge: проверьте свой алгоритм в деле!

В самом разгаре ежегодное соревнование по разработке рекомендательных систем от VK — RecSys Challenge 2025. Участникам предстоит решить одну из самых сложных проблем в мире рекомендаций: задачу холодного старта.

Суть соревнования — построить модель, которая предскажет, кому из пользователей понравится новый клип, даже если его ещё никто не видел.

Что ждёт участников:
• Реальные данные — датасет VK-LSVD с 40 млрд взаимодействий и 20 млн коротких видео
• Можно участвовать соло или в команде до 4 человек
• Техническая свобода — до 5 сабмитов в день, возможность экспериментировать
• Общий призовой фонд — 2 500 000 рублей

Приглашают студентов, исследователей, ML-инженеров — всех, кто хочет испытать свои силы на реальных данных и создать алгоритм, который работает в условиях, максимально приближенных к контентной жизни.

Регистрация открыта до 15 декабря. Успейте подать заявку, скачать датасет и начать эксперименты!

👉 Подробности и регистрация на сайте

Читать полностью…

Инжиниринг Данных

https://github.com/mfontanini/presenterm

Наконец можно и презентации делать в Markdown

Читать полностью…

Инжиниринг Данных

Полезная статья - What It Really Takes to Move From Senior to Staff Data Engineer. Staff в РФ не очень распространено. Я знаю Т-Банк активно развивает это направление. Но по факту team lead это тот же staff инженер. Я работал как Staff DE 3 года и прочитал базовые книжки про Staff Engineer, их всего 2: The Staff Engineer's Path и Staff Engineer.

Как обычно перевод и summary от AI. Сегодня это Raycast и Antropic API key. В последнее время я решил заморочиться на всякие горячие клавиши и спустя больше чем 10 лет прошел с touchpad на мышку Logi MX Master 3s. Надоело флексить с тачпадом и теперь у меня мышка с множество горячих клавиш и одна из них как раз AI чат. У Logi даже есть утилитка для chatGpt, чтобы редактировать свои сообщению в нужный стиль.


Эта статья — интервью с Брайаном Фемиано, staff data engineer в Apple, о том, что реально нужно для перехода с уровня Senior до Staff Data Engineer.

Основные темы:
1. Карьерный путь
• Брайан занимается data engineering почти 20 лет, 9 из них на уровне staff
• Ключевой момент карьеры: когда он взял на себя организацию работы (JIRA, документация, разблокировка коллег, коммуникация со стейкхолдерами)


2. Разница между Senior и Staff
Это не резкий переход, а постепенное развитие:
• Senior может оставаться в зоне комфорта и хорошо выполнять задачи
• Staff развивает некодинговые навыки, которые делают других разработчиков лучше:
▪ Создание диаграмм систем и runbook'ов для on-call
▪ Хорошие отношения с продуктовыми командами
▪ Понимание влияния изменений на другие команды
• Staff приходится чаще переключаться между контекстами в течение дня


3. Заблуждения о Staff титуле
❌ Что вам НЕ нужно:
• Быть самым талантливым разработчиком в команде
• Вписываться в "архетипы" как классы в RPG
• Прыгать между работами для получения титула


4. Главные блокеры для перехода в Staff
• Плохая коммуникация или агрессивность
• Негибкость, неспособность видеть большую картину
• Чрезмерная фокусировка на инструментах/языках
• Не строить системы для долгосрочного здоровья и качества


5. Сигналы, которые нужно показывать
• Менеджеры и коллеги знают, что вы мыслите холистически о системах
• Оформляете мысли в диаграммы и хорошо принимаете фидбек
• Поддерживаете команду во время кризисов
• Делаете себя незаменимым, но НЕ через силосное знание или постоянный героизм


6. Технический дизайн и системное мышление
Процесс проектирования:
• Сразу рисуйте диаграммы
• Что уже существует и может помочь?
• Довольны ли мы этими системами или это шанс рефакторить?
• Какой минимальный набор новых возможностей нужен?
• Можем ли использовать существующие библиотеки?
• Есть ли узкие места при росте нагрузки?
• Нужно ли постоянное ручное внимание или это автоматизировано?
Что делегировать:
• Лиды не должны быть на критическом пути
• Если берете слишком много — задерживаете проект и лишаете команду роста
• Доверяйте важные области команде
• Помогайте избежать перегрузки
Пример простого решения:
В Pandora хотели уведомлять артистов о добавлении песен в плейлисты. Вместо real-time email (много компромиссов), после обсуждения с продуктом поняли, что артистам не нужен real-time. Построили минимальный набор компонентов для батчевой отправки. Работает до сих пор.


7. Коллаборация и коммуникация
С менеджментом:
• Будьте лаконичны и своевременны
С продуктом:
• Задавайте вопросы, делайте заметки
• Повторяйте их слова своими словами
С инженерами:
• Давайте детали и ясность
• Повторяйте много раз при необходимости
• Проявляйте терпение
Создание комфортной среды:
• Будьте дружелюбны и не осуждайте
• Приоритизируйте помощь для разблокировки
• Давайте кредит коллегам за их идеи
Design docs:
• Начните с 3-5 предложений: что строим и какая бизнес-польза
• Укажите всех вовлеченных
• Фокус на диаграммах, показывающих как части соединяются
• Важна не красота, а легкость понимания

Читать полностью…

Инжиниринг Данных

Welcome Time | Москва | 23 ноября

Яндекс организует очное мероприятие для специалистов в области аналитики и дата-сайентистов в своей штаб-квартире. Участники смогут познакомиться с особенностями работы команд аналитики в масштабном ecom-проекте.

Что вас ждёт на встрече:
💬 открытый диалог с экспертами Яндекса — задавайте любые вопросы;
💬 разбор реальных кейсов из практики Яндекса;
💬 погружение в мир e‑com аналитики: от товарной базы до продуктовой аналитики в Поиске;
💬 диагностика навыков, которую, при успешном прохождении, на 2 года засчитают как техническую секцию.

👉 Чтобы попасть на встречу, заполните форму по ссылке. Подробности о мероприятии на сайте.

Аналитика — это не только цифры, но и люди, которые ими живут. Приходите пообщаться и обменяться опытом.

Читать полностью…

Инжиниринг Данных

Компании поняли, что давать всем безлимитный доступ к AI помощникам может быть очень дорого и начали вводить квоту - 100$ в месяц на инженера. Я сам видел примеры таких ограничений Cursor и Claude Code.

Недавно видел кейс, когда в месяц был лимит 35к$ на команду. В итоге лимит исчерпали и CI не смог отработать и заблочил merge для всех, пришлось руками менять правила.

Поэтому картинка в тему:)

Читать полностью…

Инжиниринг Данных

Где найти актуальную информацию о соцсетях бесплатно? Мы давно задавались этим вопросом и, кажется, нашли ответ!

Компания FlyByMetrics занимается исследованиями и аналитикой русскоязычного сегмента соцсетей. У ребят своя база данных по 1 000 000 блогов на 7 платформах. По любому блогеру, каналу или сообществу вам могут выгрузить нужные показатели под заказ. А в своем канале FBM API Insights делятся полезными исследованиями бесплатно.

Аналитика от FlyByMetrics будет полезна каждому, кто работает в диджитал и хочет знать о наиболее актуальных трендах первым.

Подписывайтесь! ↖️

Читать полностью…
Subscribe to a channel