Telegram-канал rockyourdata - Инжиниринг Данных: Unsorted - каталог телеграмм

rockyourdata | Unsorted

Subscribe to a channel

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

28 October 2025 01:33

Два мужичка обсуждаю, что они создали успешные компании и работали в среднем 50 часов в неделю. Никаких вам 996.

С другой стороны работа должна приносить удовольствие. Если вам по кайфу 12-14 часов в день работать, и вас прёт, то почему бы и нет. Хотя такой режим вас убивает в прямом и переносном смысле.

А можно работать 4-6 часов в день, а остальное время тратить на обучение, развитие, спорт и любимые занятия.

Правда вас вряд ли возьмут в YC или другой инкубатор, и вряд ли вам дадут seed раунд.

У кого какой режим?

Читать полностью…

Инжиниринг Данных

27 October 2025 11:02

AIJ Deep Dive: специальный очный трек для AI-профи в рамках международной конференции AI Journey!

Среда для профессионального роста, общение с экспертами мировой AI-индустрии и другими AI-профи — всё это ждёт вас на треке AIJ Deep Dive. В программе — только главные аспекты работы с AI:

Это событие точно нельзя пропустить

1️⃣19 ноября — день Науки: проведём глубокий анализ IT-решений, прорывных научных исследований, R&D-разработок и передовых методик.

2️⃣ 20 ноября — день Бизнеса: разберём успешные кейсы внедрения, оценим эффективность и практические результаты.
На треке вас ждут выступления ведущих экспертов в AI, постер-сессия, специальные форматы для нетворкинга и выставка R’n’D решений. Это уникальная возможность обсудить сложные вопросы с теми, кто действительно понимает ваши вызовы.

Где? Офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Когда? 19–20 ноября 2025 года

По ссылке — форма регистрации на очное участие. Присоединяйтесь к профессиональному AI-сообществу!

Читать полностью…

Инжиниринг Данных

26 October 2025 18:57

Инновации создают новые возможности и новые профессии😎

Читать полностью…

Инжиниринг Данных

25 October 2025 00:34

В статье Exploring the Evolving File Format Landscape in AI Era: Parquet, Lance, Nimble and Vortex And What It Means for Apache Iceberg рассказывают про файловые форматы.

Мы привыкли к классическим форматам - Parquet, Avro, ORC, которые долгое время были стандартом для аналитики (batch-запросов, DWH, Data Lake, Lake House).

Они оптимизированы под:
- последовательное чтение больших объёмов данных
- компрессию и экономию места
- традиционную оффлайн-аналитику

Но они плохо подходят под:
- AI/ML, где нужно быстро извлекать отдельные строки или фичи
- векторные данные (embeddings)
- real-time-обновления и работу на GPU

А вот и сами новые форматы:

💻Lance: быстрый доступ к данным для векторных и мультимодальных задач — embeddings, LLM-RAG, vector search.

Особенности:
- Нет row-groups, доступ к строкам O(1);
- Adaptive encoding для разных типов данных;
- Встроенные векторные индексы (HNSW, IVF_PQ);
- Поддержка версионирования (git-like snapshots).

Преимущество: до 2000× быстрее Parquet при случайных чтениях.

Минус: пока не поддерживается BI-инструментами.

https://lancedb.github.io/lance/

💻Nimble: ускорение декодирования данных при обучении ML-моделей.

Проблема Parquet: сложные кодировки (dictionary/run-length) и компрессия замедляют загрузку данных в GPU-потоки.

Решение Nimble:
- Простая и предсказуемая структура памяти;
- Минимум переменной длины кодировок;
- Оптимизация под батчи и потоки данных для PyTorch/TensorFlow.

Эффект: ускорение чтения/декодирования в 2–3 раза по сравнению с Parquet.
Минус: увеличивается размер файлов, зато быстрее обучение.

https://github.com/facebookincubator/nimble

💻Vortex: real-time-доступ и обновления без тяжёлых абстракций.

Проблема: Parquet и ORC не поддерживают частые апдейты/удаления — данные нужно “патчить” через Iceberg/Delta.

Решение:
- Индекс-ориентированные файлы с лёгкой метаданной структурой;
- Быстрый доступ к отдельным строкам или диапазонам;
- Гибкие схемы и низкая задержка при изменениях.

Применение:
- real-time аналитика;
- Event-driven системы;
- Динамичные агентные ИИ-приложения.

https://vortex.dev

Форматы пока не очень популярны, но они показывают высокую эффективность. Осталось подождать и посмотреть, кто возьмет лидерство и как пройдет адоптация в индустрии. А то Parquet уже совсем борода.

Некоторые статьи по теме
Nimble and Lance: The Parquet Killers
Hacker News Thread - Nimble: A new columnar file format by Meta
Reddit Thread - Vortex: A new file format that extends parquet and is apparently 10x faster
Lance: The Columnar Data Format Transforming Machine Learning Workflows

Читать полностью…

Инжиниринг Данных

24 October 2025 06:21

Проект, который может сделать каждый - Кастомизацию резюме.

Мой пример. Она пока работает, но еще надо тюнить и добавить prompts с рекомендациями.

Что использую:
- Cursor ID
- Antropic API key (вы можете любой AI использовать)
- Markdown файл с моим исходным резюме
- Open Resume framework (создает PDF резюме в нужном формате). Сам framework я даже не использовал, только взял идею JSON->PDF и сделал ее в PDF.

Механика простая:
1) Запускаю скрипт
2) Даю ссылку на вакансию
3) Python crawler забирает все
4) Antropic читает требования и обновляет резюме
5) Open Resume создает JSON и конвертирует его в PDF

Это пока сырой пример, и он там немного от себя напридумывал и зачем-то даты убрал из резюме, и написал, что я еще в Амазоне работаю (хитрый, однако)


make optimize-interactive
🎯 Interactive Resume Optimization
==================================

Please provide the job posting URL:
Job URL: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights

🔄 Processing job posting: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Loaded resume: DMITRY ANOSHIN
🔍 Extracting job content from: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Extracted 5528 characters of job content
🤖 Analyzing job requirements with Claude...
✅ Job analysis completed
🔧 Optimizing resume for job match...
✅ Resume optimization completed
💾 Saved optimized resume to: src-resume/my-resume-optimized.json

📊 RESUME OPTIMIZATION REPORT
==================================================

📝 SUMMARY CHANGES:
Original length: 492
Optimized length: 754

💼 WORK EXPERIENCE REORDERING:
Original order: Rock Your Data, Inc. → Microsoft → Amazon → Wawanesa Insurance → Forex Club → Teradata / Lamoda / BNP Paribas
Optimized order: Senior Data Engineer, Alexa Team → Lead Data Engineer → Senior Data Engineer → Lead Data Engineer → Data Engineer / BI Developer → Senior Data Engineer / BI Architect

🛠️ SKILLS UPDATED:
  1. **Coding:** SQL, Python, bash, PySpark → **AWS Technologies:** Redshift, S3, Glue, EMR, Kinesis, Lambda, IAM
  2. **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, Elastic MapReduce, HDInsight, EMR → **Programming Languages:** Python, SQL, Scala, PySpark, Java, NodeJS, bash
  3. **ETL:** dbt, Amazon Glue, Airflow, SSIS, Prefect, Azure Data Factory, Luigi → **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, EMR, HDInsight
  4. **BI:** Tableau, Looker, Power BI, MicroStrategy, SAP Business Objects, Jupyter Notebooks → **Orchestration & ETL:** Airflow, dbt, AWS Glue, Azure Data Factory, Prefect, SSIS, Luigi
  5. **DevOps:** GitHub, GitLab, Azure DevOps, Terraform, Azure Bicep, Kubernetes, Ansible, Helm Values → **Databases:** NoSQL, Graph databases, Column-family databases, Key-value stores, Object storage, SQL Server, Oracle
  6. **Cloud:** AWS, Azure, Google Cloud → **Infrastructure-as-Code & DevOps:** Terraform, Azure Bicep, GitHub, GitLab, Azure DevOps, Kubernetes, Ansible, Helm

📋 Optimization report saved to: optimization_report.txt

✅ Resume optimization complete!
📄 Original: src-resume/my-resume.json
📄 Optimized: src-resume/my-resume-optimized.json
📋 Report: optimization_report.txt

🔄 Generating optimized PDF...
🔄 Converting src-resume/my-resume-optimized.json to PDF...
✅ PDF created successfully: src-resume/my-resume-optimized.pdf
✅ Optimization complete!
📄 Files created:
   - src-resume/my-resume-optimized.json
   - src-resume/my-resume-optimized.pdf
   - optimization_report.txt

А дальше, можно строить агента, например на N8N или от OpenAI посмотреть. Он может за вас ходить смотреть вакансии и делать отклики. Можно настроить все через Телегам Бота - увидели вакансию, скинули ссылку и дальше все само.

Читать полностью…

Инжиниринг Данных

23 October 2025 01:19

Я завидую ребятам, кто может так взять и уволиться, потому что ценности компании не совпадают с личными ценностями.

В 2020 году я отказался от предложения Meta и решил присоединиться к Salesforce, потому что ценности Meta не совпадали с моими, а Salesforce казалась «нейтральной» компанией, которая хотя бы пыталась выглядеть прогрессивной благодаря инициативам вроде модели 1:1:1.

Первые пару лет всё было отлично — интересные задачи, баланс между работой и личной жизнью, хорошая автономия и потрясающие коллеги. Мне казалось, что я наконец нашёл «ту самую» компанию.

В 2023 году начались сокращения, система оценки эффективности и корпоративные директивы, которые сильно разрушили культуру. Я перестал чувствовать себя человеком — стал просто строкой в Excel. Но я остался, ведь во всей индустрии ситуация была похожей.

Потом пришёл хайп вокруг искусственного интеллекта — и вместе с ним поспешные указания впихнуть ИИ во все продукты и использовать его при каждом удобном случае. Руководство даже начало отслеживать, как часто мы используем AI. Но и это было типично для индустрии.
А потом в пятницу, 10 октября, я прочитал эту статью — и в понедельник, 13 октября, подал заявление об уходе. Сейчас трудное время, чтобы быть безработным айтишником, и я начал сомневаться — не перегнул ли я палку? Стоит ли уходить с хорошо оплачиваемой, пусть и несовершенной, работы из-за слов генерального директора?

Но через несколько дней вышел вот этот материал — и он окончательно подтвердил, что я поступил правильно. Salesforce больше не разделяет моих ценностей, и я не могу продолжать там работать.

Я не осуждаю тех, кто остаётся — не у всех есть привилегия уйти. У людей визы, ипотека, семьи.

Я пока не знаю, что будет дальше. У меня нет нового предложения, и я не уверен, хочу ли сразу бросаться в поиск. Но если ты знаешь о позиции, которая могла бы мне подойти — буду благодарен за рекомендацию.

Про корпорации, их отношение к сотрудникам он хорошо подметил.

Читать полностью…

Инжиниринг Данных

22 October 2025 10:04

🔐 Craft IT Talk: закрытое комьюнити Big Data-специалистов

Есть темы, которые не разбирают на конференциях, и задачи, о которых не пишут в блогах. Craft IT Talk — закрытое сообщество, где Big Data-эксперты из финтеха говорят начистоту.
Клуб объединяет архитекторов, дата-инженеров, аналитиков и тимлидов из крупных банков, страховых и ИТ-компаний.

🔹Закрытые встречи в неформальной обстановке
🔹Разговоры о реальных кейсах с экспертами вашего уровня
🔹Опыт коллег из Big Data в финансах, который обычно остается за стенами офисов
🔹Доступ к эксклюзивным материалам, которые мы создаем вместе

Членство бесплатное: сообщество формируется по профессиональному принципу.

👉 Вступить в клуб

Читать полностью…

Инжиниринг Данных

21 October 2025 14:01

Data.Meetup от Сбера: честно об агентизации😏

Отправляйтесь на жёсткую прокачку скилов — обсудим AI-Ready Data, аспекты построения AI-агентов, умный поиск, генерацию SQL и доступ агентов к данным одним кликом.

Встречаемся 23 октября: в московском офисе Сбера! 👌

Читать полностью…

Инжиниринг Данных

20 October 2025 08:59

А вы пойдёте на Матемаркетинг’25?

20–21 ноября в Москве пройдёт крупнейшая конференция по маркетинговой и продуктовой аналитике — более 2 000 участников, 12 потоков и 100+ докладов.

Темы:
• AI и ML в аналитике и автоматизации маркетинга
• Data-платформы, персонализация и CVM
• BI, визуализация и A/B-тестирование
• Новые решения от Яндекс и Tengri Data

Будут интерактивные зоны, карьерные консультации, настольные игры и подкасты.
Участники получат 6-месячный доступ к онлайн-платформе с записями докладов прошлых лет.

📍 Кластер «Ломоносов» МГУ, Раменский бульвар 1
🔗 Подробности и регистрация — на сайте конференции.

P.S. До сих пор считаю, что это лучшая конференция в русскоязычном пространстве. Поэтому рекомендую! Отличное место для нетворкинга и самый лучший способ собрать информацию по аналитическим use cases.

Скидка 10% по коду ROCKYOURDATA10

Читать полностью…

Инжиниринг Данных

18 October 2025 20:02

⚫️ Surfalytics VS Roadmappers

Не знаю, куда смотрит Дима, но я смотрю в прошлое — в то время, когда учился на DataLearn.

Моя фотка — это оммаж на фото Димы. И вот почему. Ещё задолго до канала и Школы 21, когда я зимой катался на коньках у дома, я включал разные подкасты, видео и интервью с Димой — и слушал про Дату. Конечно, тогда я почти ничего не понимал, всё казалось каким-то ну очень заоблачным и недостижимым. Ведь я не учился на программиста — я вообще музыку писал и видосы снимал. Какое, к чёрту, «ОЙТИ»? 😄 Короче, вдохновил он меня на Data Engineering!

Знаете это чувство, когда слушаешь, чего уже добился человек, а у тебя даже ещё ничего не начато? Такое ощущение, что ты капец как далеко. Это как если ты только сейчас задумываешься о получении паспорта в другую страну, а рядом человек уже год живёт с ним. Или как с изучением иностранного языка — кажется, что никогда не догонишь и всё уже упущено. Или мысли о возрасте: вот кто-то чего-то добился в 25, а тебе 30 — и ты думаешь, что жизнь окончена. 😅 Уверен, многие через это проходили. Я — точно в их числе.

Но я продолжал смотреть всё про DE и IT: отключил соцсети, перестал отвлекаться на развлекаловку и начал учиться. Помимо DataLearn, я ещё учил язык Си, потом поступил в Школу 21… Даже на JavaRush заходил и решал задачки на Джаве.
Больше всего страдал, конечно, с Си. 😅 Больше туда — ни ногой.

Постепенно я пришёл к DataLearn. Прорешал там где-то четыре модуля включительно. На пятый просто смотрел видео, а дальше уже начал пилить свой пет-проект — основу того, что позже стало нашим BootCamp. Потом был мой Telegram-бот для генерации паролей, а дальше — канал и всё остальное закрутилось.

Так вот к чему я всё это.
Идея нашего roadmap вообще появилась именно после курса на DataLearn от Димы Аношина. Потому что именно там я впервые увидел, как можно круто оформить материал на GitHub так, чтобы его было удобно читать. Хотя самая первая версия роадмапа была просто постом в Телеграме со ссылками на бесплатные материалы, уже вторая была оформлена на GitHub.

Сейчас, кстати, мы начинаем делать роадмапы и для других направлений IT. Уже выбрали шаблоны фронтенда для лендинга и самих роадмапов, чтобы можно было переключать темы, удобно смотреть с мобилы и пользоваться всем современным функционалом.

Поэтому, спасибо, что подписаны и поддерживаете нас. Ну и спасибо Диме за то, что повлиял! Возможно, кстати, теперь мы влияем и на вас. Пишу мы, потому что тот же Roadmap — это уже коллаборация нескольких авторов.

~~МЫ СЕМЬЯ~~

Читать полностью…

Инжиниринг Данных

17 October 2025 17:13

Нас ведь скоро заменят AI агенты?

Сегодня попался репозиторий для оценки работы агента для инжиниринга данных:

ADE-bench[^1] — это фреймворк для оценки работы ИИ-агентов в задачах аналитика данных.
Фреймворк состоит из нескольких основных частей:

* изолированных окружений с dbt-проектами и базами данных, которые предоставляются агенту;
* методов для изменения или «повреждения» этих окружений перед передачей агенту;
* песочниц, в которых каждая задача выполняется независимо;
* методов оценки результатов работы агента по сравнению с ожидаемыми результатами.

На данный момент каждая сессия ADE-bench состоит из одного dbt-проекта и базы данных.
Однако фреймворк можно расширить, добавив поддержку нескольких окружений, множества баз данных и других инструментов дата-инжиниринга, чтобы приблизить работу к реальным условиям аналитиков и инженеров данных.

Введение в работу ADE-bench

ADE-bench состоит из трёх основных компонентов:

* Задачи (Tasks)
* Общие базы данных (Shared databases)
* Общие dbt-проекты (Shared dbt projects)

Каждая задача — это запрос, который может быть выдан агенту.
Хотя задача может включать несколько критериев оценки (например, нужно обновить несколько моделей или убедиться, что SQL-запрос и конфигурация материализации корректны), именно задача является основной единицей оценки в ADE-bench.

Как выполняется задача

Когда ADE-bench получает запрос на выполнение задачи, происходит следующее:

1. Копирование проекта в песочницу.
ADE-bench создаёт песочницу (Docker-контейнер) для задачи, загружает туда соответствующий проект и создаёт изолированное окружение для связанной базы данных (см. раздел «Как работают базы данных» ниже).

2. Создание первого снимка.
После настройки проекта ADE-bench делает снимок всех файлов, чтобы зафиксировать изменения, которые появятся позже (от подготовительных скриптов и действий агента).

3. Запуск дополнительного скрипта настройки.
После первого снимка ADE-bench запускает специальные скрипты задачи. Они могут изменять проект, обновлять данные в базе или адаптировать проект под другой тип базы данных (см. «Общие проекты между базами данных»).

4. Создание второго снимка.
Фиксируются изменения, внесённые на предыдущем шаге.

5. Передача окружения агенту.
Агент получает доступ к окружению и пытается выполнить задачу.

6. Создание финального снимка.
Когда агент сообщает о завершении, ADE-bench делает третий снимок проекта.

7. Оценка результата.
Изменения проверяются тестами, указанными в задаче. Если все тесты пройдены, задача считается выполненной.

Примечание: ADE-bench может автоматически сравнивать таблицы. Например, если задача — создать правильную таблицу `dim_users`, её можно определить в конфигурации задачи, и тест на сравнение будет сгенерирован автоматически.

8. Очистка песочницы.
После записи результатов ADE-bench удаляет контейнер.

Читать полностью…

Инжиниринг Данных

17 October 2025 06:36

Поиграл я в Airflow 3.1 на AWS Elastic Container Service. Кое-как заработало, но на каждый “а вот еще бы хотелось” приходилось тратить много времени. Например, хочу писать логи тасков в AWS Cloud Watch…и всякое другое.

В 3.1 много изменения и когда что-то ищешь, можно найти пример для Airflow 2, который не будет работать на 3.1.

AI (cursor) тут не сильно помогает, и приходилось за него додумывать всегда, когда было ошибки в деплоймонте. То есть реально он сильно тормозил процесс.

Теперь план Б - Managed Airflow на AWS. Cursor уже там Terraform обновляет=) Я бы с удовольствием дальше ковырялся бы, но к сожалению нужно решать реальные задачи, а не трабалшутить open source. Безусловно, очень много нового узнал пока это дело ковырял, но стало понятно, что long-term такой вариант не подойдет.

PS нашел классные статьи по Airflow 3 на ECS и локальной машине:

Setting Up Apache Airflow with Docker Locally (Part I)
Cloud Setup for Airflow (Part II)
Deploying Airflow to the Cloud with Amazon ECS (Part III)

И еще статья понравилась: Executors in Apache-Airflow

Читать полностью…

Инжиниринг Данных

16 October 2025 15:02

Поговорим про деньги в IT?

Приглашаем опытных IT-специалистов пройти небольшой опрос про зарплаты и бенефиты в технологических компаниях. Это займёт не более 7 минут — а ваше мнение поможет одному крупному российскому работодателю делать актуальные оферы.

Пройти опрос можно здесь

Читать полностью…

Инжиниринг Данных

16 October 2025 06:55

Ох уж это vibe coding. Мне кажется если вы чего-то не знаете, то vibe coding вам не поможет😵

Читать полностью…

Инжиниринг Данных

16 October 2025 01:19

AI так быстро развивается, что уже не поспеть. Мне попалось два отчета про AI, там можно сразу посмотреть summary.

1. State of AI Report 2025

Основные выводы из Отчета за 2025 год:

OpenAI сохраняет незначительное лидерство, но конкуренция усилилась: Meta уступила первенство китайским компаниям DeepSeek, Qwen и Kimi, которые сокращают разрыв в задачах на рассуждение и кодирование, утверждая Китай в качестве сильного «номера 2».

Рассуждение (reasoning) стало определяющим в этом году, поскольку ведущие лаборатории объединили обучение с подкреплением (reinforcement), вознаграждение на основе рубрик и проверяемое рассуждение с новыми средами, чтобы создать модели, способные планировать, размышлять, самокорректироваться и работать на все более длинных временных горизонтах.

Искусственный интеллект становится научным сотрудником: такие системы, как Co-Scientist от DeepMind и Virtual Lab от Стэнфорда, автономно генерируют, тестируют и проверяют гипотезы. В биологии ProGen3 от Profluent показал, что законы масштабирования теперь применимы и к белкам.

Структурированное рассуждение вышло в физический мир благодаря планированию по принципу «Цепочки действий» (Chain-of-Action), поскольку воплощенные системы ИИ, такие как Molmo-Act от AI2 и Gemini Robotics 1.5 от Google, начали пошагово рассуждать перед выполнением действий.

Резко ускорилось коммерческое внедрение. Сорок четыре процента американских компаний теперь платят за инструменты ИИ (по сравнению с 5% в 2023 году), средняя сумма контрактов достигла $530 000, а стартапы, ориентированные на ИИ (AI-first), росли в 1,5 раза быстрее, чем их конкуренты, согласно данным Ramp и Standard Metrics.

Наше первое исследование практикующих специалистов по ИИ с более чем 1200 респондентами показало, что 95% профессионалов теперь используют ИИ на работе или дома, 76% оплачивают инструменты ИИ из своего кармана, и большинство сообщает об устойчивом росте производительности — это свидетельство того, что реальное внедрение стало массовым.

Началась индустриальная эра ИИ. Центры обработки данных мощностью в несколько гигаватт, такие как Stargate, сигнализируют о новой волне вычислительной инфраструктуры, поддерживаемой суверенными фондами США, ОАЭ и Китая, при этом электроснабжение становится новым ограничивающим фактором.

Политика в области ИИ еще более ужесточилась. США сделали акцент на «ИИ в первую очередь для Америки» (America-first AI), Закон ЕС об ИИ (AI Act) застопорился, а Китай расширил свою экосистему моделей с открытыми весами и амбиции в отношении отечественного производства чипов.

Исследования безопасности вступили в новую, более прагматичную фазу. Модели теперь могут имитировать выравнивание (alignment) под контролем, что вызывает споры о прозрачности в сравнении с возможностями. Между тем, внешние организации по безопасности работают с бюджетами, меньшими, чем ежедневные расходы ведущей лаборатории.

Дебаты об экзистенциальном риске поутихли, уступив место конкретным вопросам о надежности, киберустойчивости и долгосрочном управлении все более автономными системами.

Читать полностью…

Инжиниринг Данных

27 October 2025 22:27

Хвалят курс CS336: Language Modeling from Scratch от Стенфорда.

Языковые модели (language models) — это основа современных приложений обработки естественного языка (NLP) и открывают новую парадигму, в которой одна универсальная система может решать широкий спектр задач.

По мере развития искусственного интеллекта (AI), машинного обучения (ML) и NLP, глубокое понимание языковых моделей становится необходимым для учёных и инженеров.
Этот курс предназначен для того, чтобы дать студентам всестороннее понимание языковых моделей, проведя их через весь процесс разработки собственной модели. По аналогии с курсами по операционным системам, где студенты создают ОС с нуля, в этом курсе обучающиеся шаг за шагом изучат все этапы создания языковой модели — от сбора и очистки данных для предобучения до построения трансформер-модели, обучения, оценки и подготовки к развёртыванию.

Читать полностью…

Инжиниринг Данных

27 October 2025 06:57

Как говорит мой знакомый - полный раз$еб. Хорошо зашел пост про типы файлов. А вот в телеге его не оценили.

LinkedIn для меня похож на боулинг, шар (пост) рандомно запускаешь и смотришь на результат, авось Strike. Если хотя бы 100 лайков, то уже раз$еб.

А вот мой пост про AWS Outage не зашел и никто даже не извинился за задержку🤷‍♂️

Читать полностью…

Инжиниринг Данных

26 October 2025 06:44

Если вы технический лидер, то вам обязательно нужно ознакомиться с книгами Ларсона.

Вот его 4ая книга:

Книга “Crafting Engineering Strategy: How Thoughtful Decisions Solve Complex Problems” Уилла Ларсона — это практическое руководство о том, как инженерным лидерам принимать осознанные стратегические решения в сложных технических и организационных условиях.

💡 Основная идея
Многие инженеры думают, что у их компании нет инженерной стратегии. Но чаще всего стратегия есть — просто она не работает или не осознана. Ларсон показывает, как превратить хаотичные решения в системный процесс: понять, где организация находится, куда движется и как выстроить шаги, чтобы дойти до цели.

📘 О чём книга
Как создавать и формулировать инженерную стратегию — не просто набор инициатив, а чёткий путь с приоритетами и критериями успеха.
Как диагностировать проблемы в инфраструктуре, архитектуре и процессах команды.
Как принимать крупные технические решения: миграции систем, отказ от устаревших API, развитие платформ и внутренних инструментов.
Как сочетать техническое мышление с управленческим — стратегия не только про код, но и про коммуникацию, доверие и культуру.
Как внедрять стратегию: от презентации и buy-in команды до операционного исполнения и обратной связи.

🧭 Для кого
Для старших инженеров, тимлидов, архитекторов и руководителей, которые хотят не просто "чинить баги", а направлять развитие систем и команд.

🧩 Примеры
Автор опирается на опыт из Stripe, Uber и Calm, где он работал, и показывает реальные кейсы:
как выбрать момент для переработки монолита,
как управлять техническим долгом без потери скорости,
как вводить новые стандарты и процессы, чтобы они не умерли через месяц.

Если коротко:
Это книга о том, как инженерам думать стратегически и влиять на направление компании через осознанные решения, а не через “пожарное” тушение проблем.

Читать полностью…

Инжиниринг Данных

24 October 2025 17:44

🎙Новый выпуск подкаста «Потом доделаю» — о том, как устроена аналитика в Яндексе.
Гость — Роман Халкечев, руководитель аналитики Яндекс Поиска и Рекламы, человек, управляющий командой из 400 аналитиков.

👉 Слушать выпуск на Яндекс.Музыке

🧠 О чём подкаст:
Как технологии меняют повседневность, почему данные становятся основой решений и какую роль играют аналитики, когда нужно не просто “считать цифры”, а влиять на стратегию продукта.

💡 Кому будет полезно:
— тем, кто работает с продуктами, ML или данными и хочет понять, *как принимаются решения в компаниях вроде Яндекса*;
— руководителям, которые ищут баланс между цифрами и интуицией;
— тем, кто только задумывается о переходе в аналитику и хочет услышать профессию «изнутри».

🎯 Разбираем в подкасте:
• как аналитика может идти вразрез с бизнес-решением — и что тогда делать;
• как руководить сотнями аналитиков и не потерять фокус;
• откуда Яндекс берёт данные и как работает с «нестандартным поведением пользователей»;
• как нейросети меняют подход к аналитике;
• что ждёт профессию аналитика в ближайшие 5–10 лет.

⚙️ Почему стоит послушать:
Это редкий взгляд изнутри на то, как строится аналитика в большом продукте: от A/B-тестов до внедрения решений в реальные фичи.
Разговор помогает понять, как принимать решения на основе данных в условиях неопределённости и как аналитика, продукт и инженерия работают вместе.

Читать полностью…

Инжиниринг Данных

23 October 2025 22:08

У меня в linkedin 10477 followers. Они дались очень сложно. Я сам не понимаю как там все утроено, некоторые посты набирают 2 лайка, а некоторые 100 лайков. Нет никакой корреляции между качеством поста и кол-ом лайков.

Я так и не понял, нужен ли linkedIn или не нужен. Единственный маленький плюс, что мне прислали 4 книги на ревью, чтобы я про них написал отзыв.

Похоже, он создаёт псевдоощущение экспертности и значимости, чтобы подпитать уверенность.

Читать полностью…

Инжиниринг Данных

22 October 2025 22:32

Bugs? Нет - bed bugs. Смешная новость, про офис Гугл, где появились постельные клопы. Все очень заняты созданием искусственного интеллекта, на гигиену время нет.

Я бы мог удивиться, но не удивлюсь, потому что из школ периодически приходят письма о вшах у детей и просят проверить им головы🦯

Читать полностью…

Инжиниринг Данных

21 October 2025 18:38

Самый популярный pet проект для западной аналитики.

Читать полностью…

Инжиниринг Данных

20 October 2025 18:29

Сначала нам рассказывают, что 75% изменений делается с помощью AI, а потом мы видим как куча компаний сталкиваются с AWS outage. Совпадение?))

Читать полностью…

Инжиниринг Данных

19 October 2025 20:56

👨‍🦳Как мы раньше делали резюме?

У нас был/есть Word (Google) документ, который мы меняем раз в год. Иногда, мы можем иметь несколько копий с разными flavours. Некоторые, меняют в ручную аж для каждой вакансии.

🤖Как можно (и нужно) делать сейчас?

У нас есть наше базовое резюме в Markdown. Есть базовый промпт, который не меняет даты и название компаний. Далее мы скармливаем ссылку с вакансией и на выходе получаем готовый PDF под конкретную вакансию.

При желании можно сделать бота, который будет все делать в автоматическом режиме, например через телеграмм бота. Можно построить целого агента на n8n или может быть уже можно на Open AI.

Какие есть варианты, для такого подхода?

1) Pandoc + LaTeX (самый надёжный)
Почему: чёткая типографика, хорошая поддержка шрифтов/Юникода, кроссплатформенно.

2) Node.js: md-to-pdf (Markdown → HTML → PDF через headless Chrome)
Почему: верстаешь резюме как веб-страницу с Print CSS, пиксель-перфект контроль, нет LaTeX.

3) Python: markdown + WeasyPrint
Почему: всё в Python; верстка через HTML/CSS; хорошая типографика.

4) Chrome Puppeteer (максимальный контроль рендера)
Почему: тот же HTML/CSS, но полный контроль (шрифты, header/footer, номера страниц, margin-box).

5) Typst (современная альтернатива LaTeX)
Почему: быстрая компиляция, понятные шаблоны. Markdown можно конвертнуть через Pandoc или встраивать.

6) HTML+wkhtmltopdf / Prince / Paged.js (печать с Paged Media)
Если тебе важны сложные колонтитулы, много-колоночность, номера страниц:

7) OpenResume
Next.js + TypeScript + Tailwind CSS - готовое open source решение

FAQ (мое мнение)
1) Нужно ли менять резюме под каждую вакансию?
Я пока этого не делаю, у меня есть несколько разных резюме, которые заточены на определенный стек или позицию. Задача резюме пройти firewall из HR или системы, через которую делаются отклики. Когда вас позвали на собеседование, уже не так важно.

2) Нужен ли Cover Letter?
Никогда не использовал.

3) Как лучше быстрей всего найти работу?
Если вы знаете hiring manager или вас ему лично порекомендовали. Некоторые пытаются подружиться в LinkedIn, но я не очень верю в этот способ.

4) Помогают ли AI боты в поиске работы?
Они могу автоматизировать за вас процесс, сами отвлекаться и пытаться записать вас на собеседование, но я считаю, что это не правильный подход. Даже если у вас будет 1000 откликов в день, вряд ли вас это придвинет к оферу, а если еще бот за вас будет писать сообщения, то получается уже медвежья услуга, так как все устали от AI генерированного конвента. Создать бота, который будет за вас откликаться сейчас может каждый, но ценности в этом я пока не вижу. Вот если бы бот, который за меня работал, а я только зарплату тратил бы, то это было бы удобно! Так же сайты, которые позволяют использовать бота для отклика (как LinkedIn и другие агрегаторы) теряют ценность для работодателя, так как получается очень много “мусора” и “спама” от неправильных кандидатов.

5) Что самое ценное?
Я считаю самое важное это время между опубликованной вакансией и вашим откликом. Но тут сложно понять, где они публикуются в первую очередь. Самое лучшее, что вы можете сделать, уделять каждый день 15 мину, на отклики на свежие вакансии. Получается как с инвестициями, надо всегда инвестировать по чуть-чуть. С поиском работы также, инвестируйте каждый день свое время.

6) Когда нужно искать работу?
Ее нужно искать всегда. Самое худшее время искать работу - это когда она вам нужно и вы потеряли старую.

7) Нужно ли быть “блогером” и строить личный бренд?
Сама ценность “блогерства” и личного бренда может быть не высокой. Но это офигенная практика выхода из зоны комфорта, и дополнительные поинты к вашей уверенности и способности себя “продать” в нужный момент.

8 ) Что еще важно?
Важно всегда повышать квалификацию (grow mindset - должно быть вашей сильной стороной). Очевидно сейчас полезно изучать как AI влияет на нашу индустрию и как его можно использовать в работе.

—
Что можете добавить?

Читать полностью…

Инжиниринг Данных

18 October 2025 08:18

AI, который мы заслужили. Отличный пивот у OpenAI 👙

Читать полностью…

Инжиниринг Данных

17 October 2025 08:59

ML-квалификация — сегодня в 16:00

Яндекс открыл регистрацию на Yandex Cup — международный чемпионат с призовым фондом 12 млн рублей и финалом в Стамбуле.

В ML-треке можно участвовать с 14 лет. Это возможность выиграть от 100 тысяч рублей и попасть в Яндекс по упрощённой схеме.

Этапы:
— регистрация до 29 октября
— онлайн-квалификация с 15 октября по 5 ноября
— финал 5–7 декабря в Стамбуле

Пора регистрироваться.

Читать полностью…

Инжиниринг Данных

16 October 2025 19:17

Очень хороший пример про стартап. Человек был 9м сотрудником. Работал себя не жалея. В итоге при продаже компании получил 80к чистыми.

Это очень типичный пример, когда мы наивно полагаем, что работа в стартапе за опцион это к большим деньгам.

Тут еще явно повезло, что удалось получить 80 тысяч, других просто сокращают когда экономика не сходится.

Были ли у вас случаи, когда в стартапе получили жирный бонус или наоборот прогорели?

Читать полностью…

Инжиниринг Данных

16 October 2025 08:59

Вебинар: Расширяем возможности DBT для Greenplum и ClickHouse

22 октября 2025 | ⏰ 11:00 МСК | 🕐 1 час

Sapiens solutions приглашает на вебинар, на котором будут рассматриваться ограничения DBT при работе с СУБД, а также будет обсуждаться open-source адаптер, который упрощает работу и добавляет новые стратегии загрузки, логирование и интеграцию с внешними источниками.

Разработчики продемонстрируют архитектуру решения и покажут демо, поделятся практическими рекомендациями по миграции и эксплуатации, а также ответят на вопросы.

Подробности и регистрация.

📌 Повестка

1. Предпосылки создания своего open-source коннектора для DBT.
2. Ограничения решений для трансформации данных.
3. Ключевые особенности коннектора, позволяющие обходить ограничения, и функционал: (логирование, внешние таблицы).
4. Стратегии загрузки в Greenplum и Clickhouse.
5. Оркестрация DBT-моделей в Airflow.

🔥 Кому будет полезно: инженерам данных, аналитикам и архитекторам, работающим с DBT, Greenplum или ClickHouse.

Не пропустите — зарегистрируйтесь по ссылке!

Реклама. ООО "Сапиенс солюшнс", ИНН 7725294897. erid 2W5zFG4yJde

Читать полностью…

Инжиниринг Данных

16 October 2025 01:19

2. State of Foundation Models

Основные выводы:

Генеративный ИИ (Generative AI) стал массовым: каждый восьмой работник в мире теперь использует ИИ ежемесячно, причём 90% этого роста произошло всего за последние 6 месяцев. Годовые доходы AI-нативных приложений уже исчисляются миллиардами.

Масштабирование продолжается во всех измерениях: все технические показатели моделей продолжают улучшаться более чем в 10 раз по сравнению с прошлым годом, включая стоимость, интеллект, размер контекстных окон и многое другое. Средняя продолжительность человеческой задачи, которую модель может надёжно выполнять, удваивается каждые 7 месяцев.

Экономика фундаментальных моделей... сбивает с толку: OpenAI и Anthropic демонстрируют поистине беспрецедентный рост, ускоряя годовой доход до $1 млрд+. Однако общие затраты на обучение передовых моделей приближаются к $500 млн, а типичная модель устаревает в течение 3 недель после запуска из-за конкуренции и сближения открытого исходного кода.

Как и самые умные люди, самый умный ИИ будет «думать, прежде чем говорить»: модели рассуждения, обученные думать перед ответом, вероятно, представляют собой новый закон масштабирования — но для их обучения требуются значительные достижения в постобучении (post-training), включая обучение с подкреплением и модели вознаграждения. Постобучение может стать более важным, чем предварительное обучение (pre-training).

ИИ проник почти во все специализированные профессии: от инженеров и бухгалтеров до дизайнеров и юристов, ИИ-помощники (copilots) и агенты теперь справляются с дорогостоящими задачами практически во всех областях деятельности работников умственного труда.

Агенты, наконец, работают, но мы только в начале понимания того, как создавать ИИ-продукты: Агенты наконец-то стали мейнстримом, но шаблоны проектирования (design patterns) и системные архитектуры для ИИ-продуктов всё ещё находятся на самых ранних стадиях.

«AI-нативные» организации будут выглядеть совершенно иначе: более плоские команды из способных специалистов широкого профиля станут нормой, поскольку генеративный ИИ снижает ценность узкоспециализированных навыков. Многие роли будут стираться — например, продуктовая разработка, дизайн и инженерия.

PS пока Google GeminiPro переводил summary, в другом окне Cursor трабулшутил Airflow 3.1 на AWS Elastic Container Service (ECS).

Читать полностью…

Инжиниринг Данных

15 October 2025 16:40

Твой шанс прокачаться в ИТ, получить карьерный буст и побороться за призовой фонд 10 250 000 рублей 💰 Успей зарегистрироваться до 20 октября.

МТС приглашает на True Tech Champ — всероссийский чемпионат по программированию. Соревнование будет проходить в двух треках.

Трек 1. Алгоритмический. Индивидуальный зачет [призовой фонд 2 750 000 рублей]

Реши задачи, которые помогут прокачаться в работе с алгоритмами и структурами данных. Похожие задания встречаются на собеседованиях в МТС и других крупных компаниях. До 240 лучших участников попадут в финал и сразятся в лайв-кодинге.

Трек 2. Программирование роботов. Командный формат [призовой фонд 7 500 000 рублей]

Проведи робота по виртуальному лабиринту, затем управляй им дистанционно на офлайн-полигоне, а в финале — пройди испытания на реальной площадке и выбей соперников с платформы. Организаторы отправят командам финалистов по одному роботу Waveshare Cobra Flex для кастомизации. После соревнований они останутся у участников в качестве подарка.

📍 Зрелищный шоу-финал с ИИ-технологиями, кодерскими челленджами и выступлениями международных и российских спикеров пройдет 21 ноября в МТС Live Холл.

🎁 Регистрация участников до 20 октября на сайте.

Читать полностью…

Subscribe to a channel