23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Я подписан на вакансии от GetMatch уже довольно давно. Интересно следить за рынком.
Самую большую зарплату я видел на дата инженера в Сбербанк за 750т в в месяц.
Второе место получает Алиса и 680т в год.
Кстати вчера с коллегами из Америки обсуждали вопрос про DW и DWH - как правильно? Я узнал у ChatGPT, оказывается:
Используй DW, когда пишешь на английском или готовишь официальную документацию, особенно если аудитория — международная.
Используй DWH, если работаешь в команде или регионе (например, в России, Восточной Европе или Германии), где принято именно такое обозначение.
Так что если работаете за границей, (не) ударьте лицом в грязь, используйте правильную терминологию.
PS Сервис GetMatch и их бот просто 🟢.
PPS Кто нибудь учился в Сколково MBA? Или какой самый топ MBA в РФ (ради хорошего нетворкинга)
Вернемся к нашим “баранам”. Мы все знаем Apache Kafka. Стандартное решение по стримингу.
Redpanda — это event-streaming платформа, аналог Apache Kafka, но с другой архитектурой (C++ вместо Java, без ZooKeeper, без JVM).
Продукт хочет заменить Kafka, обеспечив совместимость с Kafka API и клиентами, но при этом дать в 5–10 раз меньше latency и в разы проще эксплуатацию.
Я использовал Red Panda Community Edition когда мы строили решение для API трейдинга в AlpacaMarkets на GCP и k8s. Red Panda не open-source, она source available. Проблем в эксплуатации не было. Но и объемы были не очень большие.
Компания уже единорог и они решили двигаться в сторону платформы, поэтому купили Oxla - Redpanda acquires Oxla, a distributed SQL Engine, launches new Agentic Data Plane for governing AI Agents for enterprise data. То есть теперь у них будет свой SQL движок и они могут уже давать Stream/Batch на входе и трансформацию данных. (data in motion and at rest)
Red Panda Docker Image.
Амазон сократил 30т человек, среди них много инженеров и менеджеров.
При этом финансовые показатели очень хорошие.
Цитаты с reddit:
Amazon treats workers like shit. It doesn't matter if you're a highly educated developer or just a delivery driver. You're basically just a sacrificable pawn.
I would happily be sacrificed if it means more share holder value generated. If billionaires get richer then it will eventually trickle down to me. Ronald Reagan said so and he was the POTUS and no POTUS has ever lied before
Layoffs will continue until morale improves. Thank you for your attention on the matter.
compensate for overhiring during the peak demand of the pandemic
My dudes it is Q4 2025. How much longer is this excuse going to hold water?
This period of economic history will be explained as the moment when companies profitability became completely detached from employees job security. You have companies making record profits and yet laying off employees without thinking twice. Profitable and growing companies used to share their fortune with their workforce, it has now dramatically changed.
Два мужичка обсуждаю, что они создали успешные компании и работали в среднем 50 часов в неделю. Никаких вам 996.
С другой стороны работа должна приносить удовольствие. Если вам по кайфу 12-14 часов в день работать, и вас прёт, то почему бы и нет. Хотя такой режим вас убивает в прямом и переносном смысле.
А можно работать 4-6 часов в день, а остальное время тратить на обучение, развитие, спорт и любимые занятия.
Правда вас вряд ли возьмут в YC или другой инкубатор, и вряд ли вам дадут seed раунд.
У кого какой режим?
AIJ Deep Dive: специальный очный трек для AI-профи в рамках международной конференции AI Journey!
Среда для профессионального роста, общение с экспертами мировой AI-индустрии и другими AI-профи — всё это ждёт вас на треке AIJ Deep Dive. В программе — только главные аспекты работы с AI:
Это событие точно нельзя пропустить
1️⃣19 ноября — день Науки: проведём глубокий анализ IT-решений, прорывных научных исследований, R&D-разработок и передовых методик.
2️⃣ 20 ноября — день Бизнеса: разберём успешные кейсы внедрения, оценим эффективность и практические результаты.
На треке вас ждут выступления ведущих экспертов в AI, постер-сессия, специальные форматы для нетворкинга и выставка R’n’D решений. Это уникальная возможность обсудить сложные вопросы с теми, кто действительно понимает ваши вызовы.
Где? Офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Когда? 19–20 ноября 2025 года
По ссылке — форма регистрации на очное участие. Присоединяйтесь к профессиональному AI-сообществу!
Инновации создают новые возможности и новые профессии😎
Читать полностью…
В статье Exploring the Evolving File Format Landscape in AI Era: Parquet, Lance, Nimble and Vortex And What It Means for Apache Iceberg рассказывают про файловые форматы.
Мы привыкли к классическим форматам - Parquet, Avro, ORC, которые долгое время были стандартом для аналитики (batch-запросов, DWH, Data Lake, Lake House).
Они оптимизированы под:
- последовательное чтение больших объёмов данных
- компрессию и экономию места
- традиционную оффлайн-аналитику
Но они плохо подходят под:
- AI/ML, где нужно быстро извлекать отдельные строки или фичи
- векторные данные (embeddings)
- real-time-обновления и работу на GPU
А вот и сами новые форматы:
💻Lance: быстрый доступ к данным для векторных и мультимодальных задач — embeddings, LLM-RAG, vector search.
Особенности:
- Нет row-groups, доступ к строкам O(1);
- Adaptive encoding для разных типов данных;
- Встроенные векторные индексы (HNSW, IVF_PQ);
- Поддержка версионирования (git-like snapshots).
Преимущество: до 2000× быстрее Parquet при случайных чтениях.
Минус: пока не поддерживается BI-инструментами.
https://lancedb.github.io/lance/
💻Nimble: ускорение декодирования данных при обучении ML-моделей.
Проблема Parquet: сложные кодировки (dictionary/run-length) и компрессия замедляют загрузку данных в GPU-потоки.
Решение Nimble:
- Простая и предсказуемая структура памяти;
- Минимум переменной длины кодировок;
- Оптимизация под батчи и потоки данных для PyTorch/TensorFlow.
Эффект: ускорение чтения/декодирования в 2–3 раза по сравнению с Parquet.
Минус: увеличивается размер файлов, зато быстрее обучение.
https://github.com/facebookincubator/nimble
💻Vortex: real-time-доступ и обновления без тяжёлых абстракций.
Проблема: Parquet и ORC не поддерживают частые апдейты/удаления — данные нужно “патчить” через Iceberg/Delta.
Решение:
- Индекс-ориентированные файлы с лёгкой метаданной структурой;
- Быстрый доступ к отдельным строкам или диапазонам;
- Гибкие схемы и низкая задержка при изменениях.
Применение:
- real-time аналитика;
- Event-driven системы;
- Динамичные агентные ИИ-приложения.
https://vortex.dev
Форматы пока не очень популярны, но они показывают высокую эффективность. Осталось подождать и посмотреть, кто возьмет лидерство и как пройдет адоптация в индустрии. А то Parquet уже совсем борода.
Некоторые статьи по теме
Nimble and Lance: The Parquet Killers
Hacker News Thread - Nimble: A new columnar file format by Meta
Reddit Thread - Vortex: A new file format that extends parquet and is apparently 10x faster
Lance: The Columnar Data Format Transforming Machine Learning Workflows
Проект, который может сделать каждый - Кастомизацию резюме.
Мой пример. Она пока работает, но еще надо тюнить и добавить prompts с рекомендациями.
Что использую:
- Cursor ID
- Antropic API key (вы можете любой AI использовать)
- Markdown файл с моим исходным резюме
- Open Resume framework (создает PDF резюме в нужном формате). Сам framework я даже не использовал, только взял идею JSON->PDF и сделал ее в PDF.
Механика простая:
1) Запускаю скрипт
2) Даю ссылку на вакансию
3) Python crawler забирает все
4) Antropic читает требования и обновляет резюме
5) Open Resume создает JSON и конвертирует его в PDF
Это пока сырой пример, и он там немного от себя напридумывал и зачем-то даты убрал из резюме, и написал, что я еще в Амазоне работаю (хитрый, однако)
make optimize-interactive
🎯 Interactive Resume Optimization
==================================
Please provide the job posting URL:
Job URL: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
🔄 Processing job posting: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Loaded resume: DMITRY ANOSHIN
🔍 Extracting job content from: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Extracted 5528 characters of job content
🤖 Analyzing job requirements with Claude...
✅ Job analysis completed
🔧 Optimizing resume for job match...
✅ Resume optimization completed
💾 Saved optimized resume to: src-resume/my-resume-optimized.json
📊 RESUME OPTIMIZATION REPORT
==================================================
📝 SUMMARY CHANGES:
Original length: 492
Optimized length: 754
💼 WORK EXPERIENCE REORDERING:
Original order: Rock Your Data, Inc. → Microsoft → Amazon → Wawanesa Insurance → Forex Club → Teradata / Lamoda / BNP Paribas
Optimized order: Senior Data Engineer, Alexa Team → Lead Data Engineer → Senior Data Engineer → Lead Data Engineer → Data Engineer / BI Developer → Senior Data Engineer / BI Architect
🛠️ SKILLS UPDATED:
1. **Coding:** SQL, Python, bash, PySpark → **AWS Technologies:** Redshift, S3, Glue, EMR, Kinesis, Lambda, IAM
2. **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, Elastic MapReduce, HDInsight, EMR → **Programming Languages:** Python, SQL, Scala, PySpark, Java, NodeJS, bash
3. **ETL:** dbt, Amazon Glue, Airflow, SSIS, Prefect, Azure Data Factory, Luigi → **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, EMR, HDInsight
4. **BI:** Tableau, Looker, Power BI, MicroStrategy, SAP Business Objects, Jupyter Notebooks → **Orchestration & ETL:** Airflow, dbt, AWS Glue, Azure Data Factory, Prefect, SSIS, Luigi
5. **DevOps:** GitHub, GitLab, Azure DevOps, Terraform, Azure Bicep, Kubernetes, Ansible, Helm Values → **Databases:** NoSQL, Graph databases, Column-family databases, Key-value stores, Object storage, SQL Server, Oracle
6. **Cloud:** AWS, Azure, Google Cloud → **Infrastructure-as-Code & DevOps:** Terraform, Azure Bicep, GitHub, GitLab, Azure DevOps, Kubernetes, Ansible, Helm
📋 Optimization report saved to: optimization_report.txt
✅ Resume optimization complete!
📄 Original: src-resume/my-resume.json
📄 Optimized: src-resume/my-resume-optimized.json
📋 Report: optimization_report.txt
🔄 Generating optimized PDF...
🔄 Converting src-resume/my-resume-optimized.json to PDF...
✅ PDF created successfully: src-resume/my-resume-optimized.pdf
✅ Optimization complete!
📄 Files created:
- src-resume/my-resume-optimized.json
- src-resume/my-resume-optimized.pdf
- optimization_report.txt
Я завидую ребятам, кто может так взять и уволиться, потому что ценности компании не совпадают с личными ценностями.
В 2020 году я отказался от предложения Meta и решил присоединиться к Salesforce, потому что ценности Meta не совпадали с моими, а Salesforce казалась «нейтральной» компанией, которая хотя бы пыталась выглядеть прогрессивной благодаря инициативам вроде модели 1:1:1.
Первые пару лет всё было отлично — интересные задачи, баланс между работой и личной жизнью, хорошая автономия и потрясающие коллеги. Мне казалось, что я наконец нашёл «ту самую» компанию.
В 2023 году начались сокращения, система оценки эффективности и корпоративные директивы, которые сильно разрушили культуру. Я перестал чувствовать себя человеком — стал просто строкой в Excel. Но я остался, ведь во всей индустрии ситуация была похожей.
Потом пришёл хайп вокруг искусственного интеллекта — и вместе с ним поспешные указания впихнуть ИИ во все продукты и использовать его при каждом удобном случае. Руководство даже начало отслеживать, как часто мы используем AI. Но и это было типично для индустрии.
А потом в пятницу, 10 октября, я прочитал эту статью — и в понедельник, 13 октября, подал заявление об уходе. Сейчас трудное время, чтобы быть безработным айтишником, и я начал сомневаться — не перегнул ли я палку? Стоит ли уходить с хорошо оплачиваемой, пусть и несовершенной, работы из-за слов генерального директора?
Но через несколько дней вышел вот этот материал — и он окончательно подтвердил, что я поступил правильно. Salesforce больше не разделяет моих ценностей, и я не могу продолжать там работать.
Я не осуждаю тех, кто остаётся — не у всех есть привилегия уйти. У людей визы, ипотека, семьи.
Я пока не знаю, что будет дальше. У меня нет нового предложения, и я не уверен, хочу ли сразу бросаться в поиск. Но если ты знаешь о позиции, которая могла бы мне подойти — буду благодарен за рекомендацию.
Про корпорации, их отношение к сотрудникам он хорошо подметил.
🔐 Craft IT Talk: закрытое комьюнити Big Data-специалистов
Есть темы, которые не разбирают на конференциях, и задачи, о которых не пишут в блогах. Craft IT Talk — закрытое сообщество, где Big Data-эксперты из финтеха говорят начистоту.
Клуб объединяет архитекторов, дата-инженеров, аналитиков и тимлидов из крупных банков, страховых и ИТ-компаний.
🔹Закрытые встречи в неформальной обстановке
🔹Разговоры о реальных кейсах с экспертами вашего уровня
🔹Опыт коллег из Big Data в финансах, который обычно остается за стенами офисов
🔹Доступ к эксклюзивным материалам, которые мы создаем вместе
Членство бесплатное: сообщество формируется по профессиональному принципу.
👉 Вступить в клуб
Data.Meetup от Сбера: честно об агентизации😏
Отправляйтесь на жёсткую прокачку скилов — обсудим AI-Ready Data, аспекты построения AI-агентов, умный поиск, генерацию SQL и доступ агентов к данным одним кликом.
Встречаемся 23 октября: в московском офисе Сбера! 👌
А вы пойдёте на Матемаркетинг’25?
20–21 ноября в Москве пройдёт крупнейшая конференция по маркетинговой и продуктовой аналитике — более 2 000 участников, 12 потоков и 100+ докладов.
Темы:
• AI и ML в аналитике и автоматизации маркетинга
• Data-платформы, персонализация и CVM
• BI, визуализация и A/B-тестирование
• Новые решения от Яндекс и Tengri Data
Будут интерактивные зоны, карьерные консультации, настольные игры и подкасты.
Участники получат 6-месячный доступ к онлайн-платформе с записями докладов прошлых лет.
📍 Кластер «Ломоносов» МГУ, Раменский бульвар 1
🔗 Подробности и регистрация — на сайте конференции.
P.S. До сих пор считаю, что это лучшая конференция в русскоязычном пространстве. Поэтому рекомендую! Отличное место для нетворкинга и самый лучший способ собрать информацию по аналитическим use cases.
Скидка 10% по коду ROCKYOURDATA10
⚫️ Surfalytics VS Roadmappers
Не знаю, куда смотрит Дима, но я смотрю в прошлое — в то время, когда учился на DataLearn.
Моя фотка — это оммаж на фото Димы. И вот почему. Ещё задолго до канала и Школы 21, когда я зимой катался на коньках у дома, я включал разные подкасты, видео и интервью с Димой — и слушал про Дату. Конечно, тогда я почти ничего не понимал, всё казалось каким-то ну очень заоблачным и недостижимым. Ведь я не учился на программиста — я вообще музыку писал и видосы снимал. Какое, к чёрту, «ОЙТИ»? 😄 Короче, вдохновил он меня на Data Engineering!
Знаете это чувство, когда слушаешь, чего уже добился человек, а у тебя даже ещё ничего не начато? Такое ощущение, что ты капец как далеко. Это как если ты только сейчас задумываешься о получении паспорта в другую страну, а рядом человек уже год живёт с ним. Или как с изучением иностранного языка — кажется, что никогда не догонишь и всё уже упущено. Или мысли о возрасте: вот кто-то чего-то добился в 25, а тебе 30 — и ты думаешь, что жизнь окончена. 😅 Уверен, многие через это проходили. Я — точно в их числе.
Но я продолжал смотреть всё про DE и IT: отключил соцсети, перестал отвлекаться на развлекаловку и начал учиться. Помимо DataLearn, я ещё учил язык Си, потом поступил в Школу 21… Даже на JavaRush заходил и решал задачки на Джаве.
Больше всего страдал, конечно, с Си. 😅 Больше туда — ни ногой.
Постепенно я пришёл к DataLearn. Прорешал там где-то четыре модуля включительно. На пятый просто смотрел видео, а дальше уже начал пилить свой пет-проект — основу того, что позже стало нашим BootCamp. Потом был мой Telegram-бот для генерации паролей, а дальше — канал и всё остальное закрутилось.
Так вот к чему я всё это.
Идея нашего roadmap вообще появилась именно после курса на DataLearn от Димы Аношина. Потому что именно там я впервые увидел, как можно круто оформить материал на GitHub так, чтобы его было удобно читать. Хотя самая первая версия роадмапа была просто постом в Телеграме со ссылками на бесплатные материалы, уже вторая была оформлена на GitHub.
Сейчас, кстати, мы начинаем делать роадмапы и для других направлений IT. Уже выбрали шаблоны фронтенда для лендинга и самих роадмапов, чтобы можно было переключать темы, удобно смотреть с мобилы и пользоваться всем современным функционалом.
Поэтому, спасибо, что подписаны и поддерживаете нас. Ну и спасибо Диме за то, что повлиял! Возможно, кстати, теперь мы влияем и на вас. Пишу мы, потому что тот же Roadmap — это уже коллаборация нескольких авторов. МЫ СЕМЬЯ
Нас ведь скоро заменят AI агенты?
Сегодня попался репозиторий для оценки работы агента для инжиниринга данных:
ADE-bench[^1] — это фреймворк для оценки работы ИИ-агентов в задачах аналитика данных.
Фреймворк состоит из нескольких основных частей:
* изолированных окружений с dbt-проектами и базами данных, которые предоставляются агенту;
* методов для изменения или «повреждения» этих окружений перед передачей агенту;
* песочниц, в которых каждая задача выполняется независимо;
* методов оценки результатов работы агента по сравнению с ожидаемыми результатами.
На данный момент каждая сессия ADE-bench состоит из одного dbt-проекта и базы данных.
Однако фреймворк можно расширить, добавив поддержку нескольких окружений, множества баз данных и других инструментов дата-инжиниринга, чтобы приблизить работу к реальным условиям аналитиков и инженеров данных.
Введение в работу ADE-bench
ADE-bench состоит из трёх основных компонентов:
* Задачи (Tasks)
* Общие базы данных (Shared databases)
* Общие dbt-проекты (Shared dbt projects)
Каждая задача — это запрос, который может быть выдан агенту.
Хотя задача может включать несколько критериев оценки (например, нужно обновить несколько моделей или убедиться, что SQL-запрос и конфигурация материализации корректны), именно задача является основной единицей оценки в ADE-bench.
Как выполняется задача
Когда ADE-bench получает запрос на выполнение задачи, происходит следующее:
1. Копирование проекта в песочницу.
ADE-bench создаёт песочницу (Docker-контейнер) для задачи, загружает туда соответствующий проект и создаёт изолированное окружение для связанной базы данных (см. раздел «Как работают базы данных» ниже).
2. Создание первого снимка.
После настройки проекта ADE-bench делает снимок всех файлов, чтобы зафиксировать изменения, которые появятся позже (от подготовительных скриптов и действий агента).
3. Запуск дополнительного скрипта настройки.
После первого снимка ADE-bench запускает специальные скрипты задачи. Они могут изменять проект, обновлять данные в базе или адаптировать проект под другой тип базы данных (см. «Общие проекты между базами данных»).
4. Создание второго снимка.
Фиксируются изменения, внесённые на предыдущем шаге.
5. Передача окружения агенту.
Агент получает доступ к окружению и пытается выполнить задачу.
6. Создание финального снимка.
Когда агент сообщает о завершении, ADE-bench делает третий снимок проекта.
7. Оценка результата.
Изменения проверяются тестами, указанными в задаче. Если все тесты пройдены, задача считается выполненной.
Примечание: ADE-bench может автоматически сравнивать таблицы. Например, если задача — создать правильную таблицу `dim_users`, её можно определить в конфигурации задачи, и тест на сравнение будет сгенерирован автоматически.
8. Очистка песочницы.
После записи результатов ADE-bench удаляет контейнер.
Поиграл я в Airflow 3.1 на AWS Elastic Container Service. Кое-как заработало, но на каждый “а вот еще бы хотелось” приходилось тратить много времени. Например, хочу писать логи тасков в AWS Cloud Watch…и всякое другое.
В 3.1 много изменения и когда что-то ищешь, можно найти пример для Airflow 2, который не будет работать на 3.1.
AI (cursor) тут не сильно помогает, и приходилось за него додумывать всегда, когда было ошибки в деплоймонте. То есть реально он сильно тормозил процесс.
Теперь план Б - Managed Airflow на AWS. Cursor уже там Terraform обновляет=) Я бы с удовольствием дальше ковырялся бы, но к сожалению нужно решать реальные задачи, а не трабалшутить open source. Безусловно, очень много нового узнал пока это дело ковырял, но стало понятно, что long-term такой вариант не подойдет.
PS нашел классные статьи по Airflow 3 на ECS и локальной машине:
Setting Up Apache Airflow with Docker Locally (Part I)
Cloud Setup for Airflow (Part II)
Deploying Airflow to the Cloud with Amazon ECS (Part III)
И еще статья понравилась: Executors in Apache-Airflow
Red Panda дарит вам книгу Fundamentals of Data Engineering
Читать полностью…
Вчера закончил слушать книгу “Homo Deus (Человек Божественный) - Краткая история будущего”, автора Юваля Ноя Харари. Книга была издана 2015-2016 года и многое о чем говорит автор, как будто уже происходит сейчас. Особенно посли новостей про mass layoffs.
В книге автор рассмотрел возможные направления человечества когда голод, болезни и войны уже не главная проблема человечества. Один из тезисов был про датаизм (dataism), то есть данные становятся центром мира. Алгоритмы и ИИ могут лучше, чем человек, принимать решения. Автор пишет, что будущее будет принадлежать системам, которые умеют обрабатывать и использовать информацию, а не людям с «душой» или «сознанием».
И еще была интересная теория про развитие неравенства между элитами и “остальными”.
Немного summary от бездушной машины:
⚙️ От социального неравенства — к биологическому кастовому обществу
Если в XX веке разделение шло по уровню доходов или образованию, то в XXI оно может стать непреодолимым:
бедные просто не смогут конкурировать с «улучшенными» в скорости мышления, памяти, выносливости;
даже рынок труда изменится — «обычные» люди будут ненужны, заменены ИИ и роботами.
🧠 Новая элита управляет не только экономикой, но и алгоритмами
Харари отмечает, что в будущем власть будет у тех, кто контролирует данные и алгоритмы.
Это не просто богатые — это владельцы информации (Google, Amazon, Meta, правительства).
Они смогут предсказывать и управлять поведением масс, формируя желания и решения людей.
⚖️ Главная опасность — "бесполезный класс"
Он вводит понятие "useless class" — людей, которых не нужно ни экономике, ни армии, ни политике.
Они не смогут найти работу, потому что ИИ будет эффективнее.
Их участие в обществе будет сведено к потреблению и цифровым развлечениям.
«Проблема будущего — не эксплуатация, а бесполезность миллионов людей.»Читать полностью…
Регистрация на Yandex Cup 2025 закроется 29 октября
Восьмой международный чемпионат по программированию с призовым фондом 12 млн рублей пройдет в Стамбуле. Попробовать свои силы в чемпионате смогут опытные программисты со всего мира и юниоры из России.
Для участников доступно 6 направлений: аналитика, фронтенд, бэкенд, мобильная разработка, машинное обучение и спортивное программирование. Последние два международные, их можно будет проходить на русском и английском языках.
До 29 октября открыта регистрация и пробный тур, где можно познакомиться с платформой и решить задачи прошлых лет. 2 ноября состоится квалификация по большинству направлений, а квал по машинному обучению продлится до 5 ноября.
Очный финал состоится в Стамбуле. Его концепция будет вдохновлена объединением традиций турецкого крафта и IT: участники смогут почувствовать себя мастерами кода.
Торопитесь : зарегистрироваться на чемпионат можно на сайте.
Хвалят курс CS336: Language Modeling from Scratch от Стенфорда.
Языковые модели (language models) — это основа современных приложений обработки естественного языка (NLP) и открывают новую парадигму, в которой одна универсальная система может решать широкий спектр задач.
По мере развития искусственного интеллекта (AI), машинного обучения (ML) и NLP, глубокое понимание языковых моделей становится необходимым для учёных и инженеров.
Этот курс предназначен для того, чтобы дать студентам всестороннее понимание языковых моделей, проведя их через весь процесс разработки собственной модели. По аналогии с курсами по операционным системам, где студенты создают ОС с нуля, в этом курсе обучающиеся шаг за шагом изучат все этапы создания языковой модели — от сбора и очистки данных для предобучения до построения трансформер-модели, обучения, оценки и подготовки к развёртыванию.
Как говорит мой знакомый - полный раз$еб. Хорошо зашел пост про типы файлов. А вот в телеге его не оценили.
LinkedIn для меня похож на боулинг, шар (пост) рандомно запускаешь и смотришь на результат, авось Strike. Если хотя бы 100 лайков, то уже раз$еб.
А вот мой пост про AWS Outage не зашел и никто даже не извинился за задержку🤷♂️
Если вы технический лидер, то вам обязательно нужно ознакомиться с книгами Ларсона.
Вот его 4ая книга:
Книга “Crafting Engineering Strategy: How Thoughtful Decisions Solve Complex Problems” Уилла Ларсона — это практическое руководство о том, как инженерным лидерам принимать осознанные стратегические решения в сложных технических и организационных условиях.
💡 Основная идея
Многие инженеры думают, что у их компании нет инженерной стратегии. Но чаще всего стратегия есть — просто она не работает или не осознана. Ларсон показывает, как превратить хаотичные решения в системный процесс: понять, где организация находится, куда движется и как выстроить шаги, чтобы дойти до цели.
📘 О чём книга
Как создавать и формулировать инженерную стратегию — не просто набор инициатив, а чёткий путь с приоритетами и критериями успеха.
Как диагностировать проблемы в инфраструктуре, архитектуре и процессах команды.
Как принимать крупные технические решения: миграции систем, отказ от устаревших API, развитие платформ и внутренних инструментов.
Как сочетать техническое мышление с управленческим — стратегия не только про код, но и про коммуникацию, доверие и культуру.
Как внедрять стратегию: от презентации и buy-in команды до операционного исполнения и обратной связи.
🧭 Для кого
Для старших инженеров, тимлидов, архитекторов и руководителей, которые хотят не просто "чинить баги", а направлять развитие систем и команд.
🧩 Примеры
Автор опирается на опыт из Stripe, Uber и Calm, где он работал, и показывает реальные кейсы:
как выбрать момент для переработки монолита,
как управлять техническим долгом без потери скорости,
как вводить новые стандарты и процессы, чтобы они не умерли через месяц.
Если коротко:
Это книга о том, как инженерам думать стратегически и влиять на направление компании через осознанные решения, а не через “пожарное” тушение проблем.
🎙Новый выпуск подкаста «Потом доделаю» — о том, как устроена аналитика в Яндексе.
Гость — Роман Халкечев, руководитель аналитики Яндекс Поиска и Рекламы, человек, управляющий командой из 400 аналитиков.
👉 Слушать выпуск на Яндекс.Музыке
🧠 О чём подкаст:
Как технологии меняют повседневность, почему данные становятся основой решений и какую роль играют аналитики, когда нужно не просто “считать цифры”, а влиять на стратегию продукта.
💡 Кому будет полезно:
— тем, кто работает с продуктами, ML или данными и хочет понять, *как принимаются решения в компаниях вроде Яндекса*;
— руководителям, которые ищут баланс между цифрами и интуицией;
— тем, кто только задумывается о переходе в аналитику и хочет услышать профессию «изнутри».
🎯 Разбираем в подкасте:
• как аналитика может идти вразрез с бизнес-решением — и что тогда делать;
• как руководить сотнями аналитиков и не потерять фокус;
• откуда Яндекс берёт данные и как работает с «нестандартным поведением пользователей»;
• как нейросети меняют подход к аналитике;
• что ждёт профессию аналитика в ближайшие 5–10 лет.
⚙️ Почему стоит послушать:
Это редкий взгляд изнутри на то, как строится аналитика в большом продукте: от A/B-тестов до внедрения решений в реальные фичи.
Разговор помогает понять, как принимать решения на основе данных в условиях неопределённости и как аналитика, продукт и инженерия работают вместе.
У меня в linkedin 10477 followers. Они дались очень сложно. Я сам не понимаю как там все утроено, некоторые посты набирают 2 лайка, а некоторые 100 лайков. Нет никакой корреляции между качеством поста и кол-ом лайков.
Я так и не понял, нужен ли linkedIn или не нужен. Единственный маленький плюс, что мне прислали 4 книги на ревью, чтобы я про них написал отзыв.
Похоже, он создаёт псевдоощущение экспертности и значимости, чтобы подпитать уверенность.
Bugs? Нет - bed bugs. Смешная новость, про офис Гугл, где появились постельные клопы. Все очень заняты созданием искусственного интеллекта, на гигиену время нет.
Я бы мог удивиться, но не удивлюсь, потому что из школ периодически приходят письма о вшах у детей и просят проверить им головы🦯
Самый популярный pet проект для западной аналитики.
Читать полностью…
Сначала нам рассказывают, что 75% изменений делается с помощью AI, а потом мы видим как куча компаний сталкиваются с AWS outage. Совпадение?))
Читать полностью…
👨🦳Как мы раньше делали резюме?
У нас был/есть Word (Google) документ, который мы меняем раз в год. Иногда, мы можем иметь несколько копий с разными flavours. Некоторые, меняют в ручную аж для каждой вакансии.
🤖Как можно (и нужно) делать сейчас?
У нас есть наше базовое резюме в Markdown. Есть базовый промпт, который не меняет даты и название компаний. Далее мы скармливаем ссылку с вакансией и на выходе получаем готовый PDF под конкретную вакансию.
При желании можно сделать бота, который будет все делать в автоматическом режиме, например через телеграмм бота. Можно построить целого агента на n8n или может быть уже можно на Open AI.
Какие есть варианты, для такого подхода?
1) Pandoc + LaTeX (самый надёжный)
Почему: чёткая типографика, хорошая поддержка шрифтов/Юникода, кроссплатформенно.
2) Node.js: md-to-pdf (Markdown → HTML → PDF через headless Chrome)
Почему: верстаешь резюме как веб-страницу с Print CSS, пиксель-перфект контроль, нет LaTeX.
3) Python: markdown + WeasyPrint
Почему: всё в Python; верстка через HTML/CSS; хорошая типографика.
4) Chrome Puppeteer (максимальный контроль рендера)
Почему: тот же HTML/CSS, но полный контроль (шрифты, header/footer, номера страниц, margin-box).
5) Typst (современная альтернатива LaTeX)
Почему: быстрая компиляция, понятные шаблоны. Markdown можно конвертнуть через Pandoc или встраивать.
6) HTML+wkhtmltopdf / Prince / Paged.js (печать с Paged Media)
Если тебе важны сложные колонтитулы, много-колоночность, номера страниц:
7) OpenResume
Next.js + TypeScript + Tailwind CSS - готовое open source решение
FAQ (мое мнение)
1) Нужно ли менять резюме под каждую вакансию?
Я пока этого не делаю, у меня есть несколько разных резюме, которые заточены на определенный стек или позицию. Задача резюме пройти firewall из HR или системы, через которую делаются отклики. Когда вас позвали на собеседование, уже не так важно.
2) Нужен ли Cover Letter?
Никогда не использовал.
3) Как лучше быстрей всего найти работу?
Если вы знаете hiring manager или вас ему лично порекомендовали. Некоторые пытаются подружиться в LinkedIn, но я не очень верю в этот способ.
4) Помогают ли AI боты в поиске работы?
Они могу автоматизировать за вас процесс, сами отвлекаться и пытаться записать вас на собеседование, но я считаю, что это не правильный подход. Даже если у вас будет 1000 откликов в день, вряд ли вас это придвинет к оферу, а если еще бот за вас будет писать сообщения, то получается уже медвежья услуга, так как все устали от AI генерированного конвента. Создать бота, который будет за вас откликаться сейчас может каждый, но ценности в этом я пока не вижу. Вот если бы бот, который за меня работал, а я только зарплату тратил бы, то это было бы удобно! Так же сайты, которые позволяют использовать бота для отклика (как LinkedIn и другие агрегаторы) теряют ценность для работодателя, так как получается очень много “мусора” и “спама” от неправильных кандидатов.
5) Что самое ценное?
Я считаю самое важное это время между опубликованной вакансией и вашим откликом. Но тут сложно понять, где они публикуются в первую очередь. Самое лучшее, что вы можете сделать, уделять каждый день 15 мину, на отклики на свежие вакансии. Получается как с инвестициями, надо всегда инвестировать по чуть-чуть. С поиском работы также, инвестируйте каждый день свое время.
6) Когда нужно искать работу?
Ее нужно искать всегда. Самое худшее время искать работу - это когда она вам нужно и вы потеряли старую.
7) Нужно ли быть “блогером” и строить личный бренд?
Сама ценность “блогерства” и личного бренда может быть не высокой. Но это офигенная практика выхода из зоны комфорта, и дополнительные поинты к вашей уверенности и способности себя “продать” в нужный момент.
8 ) Что еще важно?
Важно всегда повышать квалификацию (grow mindset - должно быть вашей сильной стороной). Очевидно сейчас полезно изучать как AI влияет на нашу индустрию и как его можно использовать в работе.
—
Что можете добавить?
AI, который мы заслужили. Отличный пивот у OpenAI 👙
Читать полностью…
ML-квалификация — сегодня в 16:00
Яндекс открыл регистрацию на Yandex Cup — международный чемпионат с призовым фондом 12 млн рублей и финалом в Стамбуле.
В ML-треке можно участвовать с 14 лет. Это возможность выиграть от 100 тысяч рублей и попасть в Яндекс по упрощённой схеме.
Этапы:
— регистрация до 29 октября
— онлайн-квалификация с 15 октября по 5 ноября
— финал 5–7 декабря в Стамбуле
Пора регистрироваться.
Очень хороший пример про стартап. Человек был 9м сотрудником. Работал себя не жалея. В итоге при продаже компании получил 80к чистыми.
Это очень типичный пример, когда мы наивно полагаем, что работа в стартапе за опцион это к большим деньгам.
Тут еще явно повезло, что удалось получить 80 тысяч, других просто сокращают когда экономика не сходится.
Были ли у вас случаи, когда в стартапе получили жирный бонус или наоборот прогорели?