rockyourdata | Unsorted

Telegram-канал rockyourdata - Инжиниринг Данных

23384

Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Subscribe to a channel

Инжиниринг Данных

Первый Data Sapience Data Day: дата, программа, регистрация

Data Sapience объявляет о проведении первой масштабной конференции, посвященной работе с большими данными, Data Sapience Data Day, которая состоится 18 ноября 2025 года. Мероприятие объединит ведущих экспертов IT-отрасли и руководителей крупнейших компаний.

В программе конференции:

Панельная дискуссия с участием CDO лидирующих организаций будет посвящена ключевым темам современного дата-рынка:
▫️перспективам развития дата-ландшафта;
▫️влиянию искусственного интеллекта на управление данными;
▫️оценке готовности рынка (технологии/решения/компетенции);
▫️вопросам миграции в публичные облака.

Клиенты выступят с докладами и расскажут о кейсах внедрения и эксплуатации решений Data Sapience. Среди спикеров — представители Альфа-Банка, ОТП Банка, Россельхозбанка и других крупных организаций.

Технологические презентации познакомят участников с возможностями Lakehouse-платформы данных Data Ocean и платформы управления данными Data Ocean Governance.

В мероприятии примут участие специалисты Т-Банка, Газпромбанка, Сбербанк Страхования, Адастры и других ведущих игроков рынка.

▶️ ПОДРОБНАЯ ПРОГРАММА И РЕГИСТРАЦИЯ ◀️
Участие в конференции бесплатное. Регистрация обязательна и проходит модерацию в соответствии с закрытым форматом мероприятия.

Рекламодатель: ООО «Дата Сапиенс», ИНН 9701181979, ОГРН 1217700358083, Юр. адрес: 105064, Российская Федерация, г. Москва, ВН.ТЕР.Г. Муниципальный округ Басманный, Пер Нижний Сусальный, д. 5, стр. 19, этаж/пом. А1/ХI, ком. 12,13
erid: CQH36pWzJpq2KQtHrgMFXy92zBCDiSr4BgsGADo27vsqwQ

Читать полностью…

Инжиниринг Данных

Если вам вдруг надоел Apache Iceberg, то у вас есть возможность использовать Hudi.

Источник: https://www.onehouse.ai/whitepaper/apache-hudi-the-definitive-guide

Apache Hudi (Hadoop Upserts Deletes and Incrementals) — это формат хранения данных и фреймворк для управления большими наборами данных в дата-озёрах (Data Lake). Он добавляет поверх “сырых” файловых форматов (Parquet, ORC и т. д.) уровень управления записями — позволяет обновлять, удалять и инкрементально читать данные, как в базе данных, но с производительностью и масштабируемостью дата-озера.

Читать полностью…

Инжиниринг Данных

Наконец-то сделали нормальный гайд про то, как сделать ИИ агента на Python - Как сделать бота с индивидуальным характером на основе ИИ

Без всяких там премудростей и терминологий. ИИ идет в народ. Клик клик жмак жмак и готово! Подойдет, даже если вы не пользовались VSCode и Python.


Да, вы сможете сделать себе лоли фурри альтушку (максимально осуждаю), которая будет слушать лор вархаммера, и никто не будет знать о ваших извращениях.

Читать полностью…

Инжиниринг Данных

Если вы не знали, то Индия это не про дешевый outsource, а world class tech talent!

Databricks дает добро. Возможно будут увольнения в North America/Europe перед IPO, чтобы заменить на недорогой world class tech talent.

Про глобализацию tech компаний и их планы по открытию офисов в индии мы уже знакомы.

Читать полностью…

Инжиниринг Данных

avito.tech.conf, первая конфа от AvitoTech для менеджеров и лидов — как это было? ☄️

Проверьте сами! Смотрите видео выше и обязательно переходите на плейлист с записями докладов:

📺 Youtube
🔵 VK Видео

Почему важно послушать доклады, если не успели подключиться онлайн или прийти офлайн? Во время конференции участники успели обсудить огромный спектр важных в индустрии тем: от внедрения в разработку и управления AI и LLM до барьеров, которые мешают инженерам вырасти в менеджера.

И, на секундочку, ивент от ребят собрал 1000+ лидов, менеджеров и C-level. А в онлайне к трансляции подключилось 10 000+ человек. Можете поздравить коллег и открывайте плейлист 💻

Читать полностью…

Инжиниринг Данных

Онлайн Analytics Open Source conference https://osacon.io/about/ 4-5 Ноября.

А еще будет PyData в Сиэтле 7-9 ноября офлайн https://pydata.org/seattle2025, хочу на нее попасть и отдохнуть от работы поковырять AI на их воркшопах.

Читать полностью…

Инжиниринг Данных

Red Panda дарит вам книгу Fundamentals of Data Engineering

Читать полностью…

Инжиниринг Данных

Вчера закончил слушать книгу “Homo Deus (Человек Божественный) - Краткая история будущего”, автора Юваля Ноя Харари. Книга была издана 2015-2016 года и многое о чем говорит автор, как будто уже происходит сейчас. Особенно посли новостей про mass layoffs.

В книге автор рассмотрел возможные направления человечества когда голод, болезни и войны уже не главная проблема человечества. Один из тезисов был про датаизм (dataism), то есть данные становятся центром мира. Алгоритмы и ИИ могут лучше, чем человек, принимать решения. Автор пишет, что будущее будет принадлежать системам, которые умеют обрабатывать и использовать информацию, а не людям с «душой» или «сознанием».

И еще была интересная теория про развитие неравенства между элитами и “остальными”.

Немного summary от бездушной машины:

⚙️ От социального неравенства — к биологическому кастовому обществу
Если в XX веке разделение шло по уровню доходов или образованию, то в XXI оно может стать непреодолимым:
бедные просто не смогут конкурировать с «улучшенными» в скорости мышления, памяти, выносливости;
даже рынок труда изменится — «обычные» люди будут ненужны, заменены ИИ и роботами.

🧠 Новая элита управляет не только экономикой, но и алгоритмами
Харари отмечает, что в будущем власть будет у тех, кто контролирует данные и алгоритмы.
Это не просто богатые — это владельцы информации (Google, Amazon, Meta, правительства).
Они смогут предсказывать и управлять поведением масс, формируя желания и решения людей.

⚖️ Главная опасность — "бесполезный класс"
Он вводит понятие "useless class" — людей, которых не нужно ни экономике, ни армии, ни политике.
Они не смогут найти работу, потому что ИИ будет эффективнее.
Их участие в обществе будет сведено к потреблению и цифровым развлечениям.


«Проблема будущего — не эксплуатация, а бесполезность миллионов людей.»

Читать полностью…

Инжиниринг Данных

Регистрация на Yandex Cup 2025 закроется 29 октября

Восьмой международный чемпионат по программированию с призовым фондом 12 млн рублей пройдет в Стамбуле. Попробовать свои силы в чемпионате смогут опытные программисты со всего мира и юниоры из России.

Для участников доступно 6 направлений: аналитика, фронтенд, бэкенд, мобильная разработка, машинное обучение и спортивное программирование. Последние два международные, их можно будет проходить на русском и английском языках.

До 29 октября открыта регистрация и пробный тур, где можно познакомиться с платформой и решить задачи прошлых лет. 2 ноября состоится квалификация по большинству направлений, а квал по машинному обучению продлится до 5 ноября.

Очный финал состоится в Стамбуле. Его концепция будет вдохновлена объединением традиций турецкого крафта и IT: участники смогут почувствовать себя мастерами кода.

Торопитесь : зарегистрироваться на чемпионат можно на сайте.

Читать полностью…

Инжиниринг Данных

Хвалят курс CS336: Language Modeling from Scratch от Стенфорда.

Языковые модели (language models) — это основа современных приложений обработки естественного языка (NLP) и открывают новую парадигму, в которой одна универсальная система может решать широкий спектр задач.

По мере развития искусственного интеллекта (AI), машинного обучения (ML) и NLP, глубокое понимание языковых моделей становится необходимым для учёных и инженеров.
Этот курс предназначен для того, чтобы дать студентам всестороннее понимание языковых моделей, проведя их через весь процесс разработки собственной модели. По аналогии с курсами по операционным системам, где студенты создают ОС с нуля, в этом курсе обучающиеся шаг за шагом изучат все этапы создания языковой модели — от сбора и очистки данных для предобучения до построения трансформер-модели, обучения, оценки и подготовки к развёртыванию.

Читать полностью…

Инжиниринг Данных

Как говорит мой знакомый - полный раз$еб. Хорошо зашел пост про типы файлов. А вот в телеге его не оценили.

LinkedIn для меня похож на боулинг, шар (пост) рандомно запускаешь и смотришь на результат, авось Strike. Если хотя бы 100 лайков, то уже раз$еб.

А вот мой пост про AWS Outage не зашел и никто даже не извинился за задержку🤷‍♂️

Читать полностью…

Инжиниринг Данных

Если вы технический лидер, то вам обязательно нужно ознакомиться с книгами Ларсона.

Вот его 4ая книга:

Книга “Crafting Engineering Strategy: How Thoughtful Decisions Solve Complex Problems” Уилла Ларсона — это практическое руководство о том, как инженерным лидерам принимать осознанные стратегические решения в сложных технических и организационных условиях.

💡 Основная идея
Многие инженеры думают, что у их компании нет инженерной стратегии. Но чаще всего стратегия есть — просто она не работает или не осознана. Ларсон показывает, как превратить хаотичные решения в системный процесс: понять, где организация находится, куда движется и как выстроить шаги, чтобы дойти до цели.

📘 О чём книга
Как создавать и формулировать инженерную стратегию — не просто набор инициатив, а чёткий путь с приоритетами и критериями успеха.
Как диагностировать проблемы в инфраструктуре, архитектуре и процессах команды.
Как принимать крупные технические решения: миграции систем, отказ от устаревших API, развитие платформ и внутренних инструментов.
Как сочетать техническое мышление с управленческим — стратегия не только про код, но и про коммуникацию, доверие и культуру.
Как внедрять стратегию: от презентации и buy-in команды до операционного исполнения и обратной связи.

🧭 Для кого
Для старших инженеров, тимлидов, архитекторов и руководителей, которые хотят не просто "чинить баги", а направлять развитие систем и команд.

🧩 Примеры
Автор опирается на опыт из Stripe, Uber и Calm, где он работал, и показывает реальные кейсы:
как выбрать момент для переработки монолита,
как управлять техническим долгом без потери скорости,
как вводить новые стандарты и процессы, чтобы они не умерли через месяц.

Если коротко:
Это книга о том, как инженерам думать стратегически и влиять на направление компании через осознанные решения, а не через “пожарное” тушение проблем.

Читать полностью…

Инжиниринг Данных

🎙Новый выпуск подкаста «Потом доделаю» — о том, как устроена аналитика в Яндексе.
Гость — Роман Халкечев, руководитель аналитики Яндекс Поиска и Рекламы, человек, управляющий командой из 400 аналитиков.

👉 Слушать выпуск на Яндекс.Музыке

🧠 О чём подкаст:
Как технологии меняют повседневность, почему данные становятся основой решений и какую роль играют аналитики, когда нужно не просто “считать цифры”, а влиять на стратегию продукта.

💡 Кому будет полезно:
— тем, кто работает с продуктами, ML или данными и хочет понять, *как принимаются решения в компаниях вроде Яндекса*;
— руководителям, которые ищут баланс между цифрами и интуицией;
— тем, кто только задумывается о переходе в аналитику и хочет услышать профессию «изнутри».

🎯 Разбираем в подкасте:
• как аналитика может идти вразрез с бизнес-решением — и что тогда делать;
• как руководить сотнями аналитиков и не потерять фокус;
• откуда Яндекс берёт данные и как работает с «нестандартным поведением пользователей»;
• как нейросети меняют подход к аналитике;
• что ждёт профессию аналитика в ближайшие 5–10 лет.

⚙️ Почему стоит послушать:
Это редкий взгляд изнутри на то, как строится аналитика в большом продукте: от A/B-тестов до внедрения решений в реальные фичи.
Разговор помогает понять, как принимать решения на основе данных в условиях неопределённости и как аналитика, продукт и инженерия работают вместе.

Читать полностью…

Инжиниринг Данных

У меня в linkedin 10477 followers. Они дались очень сложно. Я сам не понимаю как там все утроено, некоторые посты набирают 2 лайка, а некоторые 100 лайков. Нет никакой корреляции между качеством поста и кол-ом лайков.

Я так и не понял, нужен ли linkedIn или не нужен. Единственный маленький плюс, что мне прислали 4 книги на ревью, чтобы я про них написал отзыв.

Похоже, он создаёт псевдоощущение экспертности и значимости, чтобы подпитать уверенность.

Читать полностью…

Инжиниринг Данных

Bugs? Нет - bed bugs. Смешная новость, про офис Гугл, где появились постельные клопы. Все очень заняты созданием искусственного интеллекта, на гигиену время нет.

Я бы мог удивиться, но не удивлюсь, потому что из школ периодически приходят письма о вшах у детей и просят проверить им головы🦯

Читать полностью…

Инжиниринг Данных

Сегодня у меня было первое собеседование с AI ботом 🤖

Идея была такая - как хобби устроиться junior AI инженером, чтобы сразу на деле все учить. Я нашел вакансию, сделал резюме и отправил. Мне сразу предложили пройти AI собеседование.

Нужно было расшарить экран, включить видео и слушать как бот читает вопросы.

Вопросы были про Fast API, прям теория-теория, что мне даже было скучно читать ответы из Gemini. Далее было про AWS и GPU, было уже поинтересней. И в конце задачка по Python.

Компания предлагает сервис AI рекрутера. Можете тоже пройти AI собес 🔴

AI рекрутеры ищут fake кандидатов, и потом одни боты общаются с другими.

Читать полностью…

Инжиниринг Данных

Создатель SuperSet/Preset BI написал сегодня про свой новый продукт - agor

Представь себе Figma, но для AI-помощников по программированию.
Это система нового поколения для оркестрации (координации) AI-агентов, помогающих писать код. Многопользовательский пространственный слой, который объединяет Claude Code, Codex, Gemini и любые другие «агентные» инструменты кодинга в единую рабочую среду.

Коротко (TL;DR):
Agor — это многопользовательское пространственное полотно, где можно координировать несколько AI-помощников по кодингу, выполняющих параллельные задачи. Оно поддерживает рабочие деревья, связанные с GitHub, автоматизированные «зоны рабочих процессов» и изолированные тестовые среды — всё это работает одновременно.

Можно визуализировать, координировать и автоматизировать AI-рабочие процессы между различными инструментами — как индивидуально, так и в команде. Agor предоставляет пространство, где можно управлять целыми «роями» AI-агентов.


Вы можете скачать и запустить локально через Docker или npm. Дальше в настройках можно добавить API ключ LLM и подключить репозиторий и можно творить.

https://github.com/preset-io/agor

Читать полностью…

Инжиниринг Данных

Отличная идея как заполнить пробелы в резюме:)

Читать полностью…

Инжиниринг Данных

Чуваки классно сделали маркетинг. Теперь их любят упоминать рядом с новостями про увольнения.

Вот кратко про компанию Artisan (США):
Что делает:
Artisan разрабатывает платформу автоматизации исходящего B2B-продаж с помощью ИИ-сотрудников (они называют их “Artisans”).

Платформа позволяет создавать целевые кампании, находить потенциальных клиентов, собирать сигналы намерения (intent data), автоматически запускать серии сообщений по e-mail и LinkedIn, отслеживать посетителей сайта.

Цель — убрать рутинные задачи (исследование, отправка, напоминания) и освободить людей для «большой работы».


Эти билборды с надписью «Прекратите нанимать людей» — настоящие. Они размещены в Нью-Йорке, Сан-Франциско и многих других городах. Дистопичная «AI-революция» правящего класса уже здесь, и их цель — заменить людей искусственным интеллектом, роботами и сочетанием более дешёвой офшорной рабочей силы с ИИ и автоматизацией.

Ниже приведён лишь небольшой список недавних увольнений, где в качестве причины упоминались ИИ и сокращение затрат:
UPS — 48 000
Amazon — 30 000
Intel — 24 000
Nestle — 16 000
Accenture — 11 000
Ford — 11 000
Novo Nordisk — 9 000
Microsoft — 7 000
PwC — 5 600
Salesforce — 4 000
Paramount — 2 000
Target — 1 800
Kroger — 1 000
Applied Materials — 1 444
Meta — 600

Что можно сделать?
Во-первых, тебе нужно научиться упаковывать свои навыки так, чтобы работодатели понимали твою ценность. Нужно научиться быть убедительным и приятным в общении. Это может показаться неприятным или даже вызвать отвращение, но альтернатива — это подработка (Uber, DoorDash) и жалобы с надеждой, что власти когда-нибудь вмешаются и введут регулирование. Даже если это случится — на это уйдут годы. Всё развивается слишком быстро.
Нужно научиться либо продавать продукт или услугу компании, либо продавать самого себя лучше.

Во-вторых, нужно включаться в действия на местном уровне — в городе, округе, штате — чтобы остановить офшоринг. Искусственный интеллект пока не способен заменить большинство офисных специалистов. Сейчас используется смешанная схема: ИИ + дешёвая зарубежная рабочая сила (в 5–8 раз дешевле).

Оставаться в стороне нельзя. Офшоринг должен быть жёстко регулируем и обложен налогами.

В-третьих, нужно поддерживать малый бизнес, который конкурирует с корпорациями, заменяющими людей. Здесь есть две категории:
— компании до 150 сотрудников;
— компании до 50 сотрудников.

Обе категории должны быть освобождены от избыточных регуляций и налогов на зарплату, чтобы могли нанимать местных работников и конкурировать с гигантами, выводящими рабочие места за границу.
Все бизнесы должны быть максимально стимулированы нанимать локально — включая крупные налоговые льготы за каждого сотрудника на полной ставке, нанятого в стране.
Другого пути нет. Корпорации всегда будут стремиться максимизировать прибыль — нравится это или нет. Сейчас они используют лазейку офшоринга и ИИ, чтобы массово увольнять офисных работников.
Зачем крупной компании нанимать постоянного сотрудника со всеми налогами и регуляциями, если можно через офшорное агентство нанять десятерых по той же цене и без бюрократии?

То, что сейчас происходит с «переизбыточно квалифицированными» белыми воротничками, сопоставимо с разрушением производственного класса в 1998–2010 годах, только намного быстрее.

И хотя тренд только набирает силу и продлится ещё несколько лет, остановить его можно только сейчас.

Сначала найди работу — пока это возможно. Потом начинай действовать локально.

Неважно насколько хорошо или плохо AI работает, но реально факт, что из-за него будут увольнять людей.

Все подхватили волну повышения эффективности и прибыли и самое простое решение этого добиться - через увольнения. Даже если по факту это принесет больше вреда 🔥

Читать полностью…

Инжиниринг Данных

МТС True Tech Champ — зрелищный шоу-чемпионат с ИИ-спецэффектами!

21 ноября МТС объединяет ИТ-конференцию и ИТ-чемпионат на одной площадке. Тебя ждет настоящий фестиваль технологий. Более 250 ИТ-талантов со всей России сразятся в лайв-кодинге и программировании роботов на скоростное прохождение лабиринтов со спецэффектами.

Между наблюдением за заездами и поединками ты сможешь:

▫️ послушать конференцию с международными спикерами в области ИИ;
▫️ поучаствовать в воркшопах и юмористических батлах в ИТ-качалке;
▫️ испытать себя в кодерских челленджах и других айтивностях;
▫️ перезагрузить карьеру в HR-Хабе вместе с командой МТС.

День завершится ярким афтепати со звездными хедлайнерами.

👉🏻 Участие бесплатно, количество мест ограничено. Успей зарегистрироваться

Читать полностью…

Инжиниринг Данных

Я подписан на вакансии от GetMatch уже довольно давно. Интересно следить за рынком.

Самую большую зарплату я видел на дата инженера в Сбербанк за 750т в в месяц.

Второе место получает Алиса и 680т в год.

Кстати вчера с коллегами из Америки обсуждали вопрос про DW и DWH - как правильно? Я узнал у ChatGPT, оказывается:

Используй DW, когда пишешь на английском или готовишь официальную документацию, особенно если аудитория — международная.

Используй DWH, если работаешь в команде или регионе (например, в России, Восточной Европе или Германии), где принято именно такое обозначение.

Так что если работаете за границей, (не) ударьте лицом в грязь, используйте правильную терминологию.

PS Сервис GetMatch и их бот просто 🟢.

PPS Кто нибудь учился в Сколково MBA? Или какой самый топ MBA в РФ (ради хорошего нетворкинга)

Читать полностью…

Инжиниринг Данных

Вернемся к нашим “баранам”. Мы все знаем Apache Kafka. Стандартное решение по стримингу.

Redpanda — это event-streaming платформа, аналог Apache Kafka, но с другой архитектурой (C++ вместо Java, без ZooKeeper, без JVM).
Продукт хочет заменить Kafka, обеспечив совместимость с Kafka API и клиентами, но при этом дать в 5–10 раз меньше latency и в разы проще эксплуатацию.

Я использовал Red Panda Community Edition когда мы строили решение для API трейдинга в AlpacaMarkets на GCP и k8s. Red Panda не open-source, она source available. Проблем в эксплуатации не было. Но и объемы были не очень большие.

Компания уже единорог и они решили двигаться в сторону платформы, поэтому купили Oxla - Redpanda acquires Oxla, a distributed SQL Engine, launches new Agentic Data Plane for governing AI Agents for enterprise data. То есть теперь у них будет свой SQL движок и они могут уже давать Stream/Batch на входе и трансформацию данных. (data in motion and at rest)

Red Panda Docker Image.

Читать полностью…

Инжиниринг Данных

Амазон сократил 30т человек, среди них много инженеров и менеджеров.

При этом финансовые показатели очень хорошие.

Цитаты с reddit:


Amazon treats workers like shit. It doesn't matter if you're a highly educated developer or just a delivery driver. You're basically just a sacrificable pawn.


Amazon относится к сотрудникам как к мусору. Неважно, ты высококвалифицированный разработчик или просто курьер — ты всего лишь пешка, которой можно пожертвовать.


I would happily be sacrificed if it means more share holder value generated. If billionaires get richer then it will eventually trickle down to me. Ronald Reagan said so and he was the POTUS and no POTUS has ever lied before


Я с радостью пожертвую собой, если это увеличит доходы акционеров. Если миллиардеры станут богаче — в итоге что-то «перепадёт» и мне. Так сказал Рональд Рейган, а он был президентом США, и ведь ни один президент США никогда не врал. (сарказм)

Layoffs will continue until morale improves. Thank you for your attention on the matter.


Сокращения будут продолжаться, пока моральный дух не повысится. Спасибо за внимание к этому вопросу. (саркастическая фраза, игра слов)


compensate for overhiring during the peak demand of the pandemic
My dudes it is Q4 2025. How much longer is this excuse going to hold water?


«Компенсируем избыточный найм во время пика пандемии».
Ребята, уже четвёртый квартал 2025 года. Как долго ещё это оправдание будет звучать убедительно?


This period of economic history will be explained as the moment when companies profitability became completely detached from employees job security. You have companies making record profits and yet laying off employees without thinking twice. Profitable and growing companies used to share their fortune with their workforce, it has now dramatically changed.


Этот период экономической истории будут описывать как момент, когда прибыль компаний окончательно отделилась от стабильности рабочих мест. Компании получают рекордные прибыли, но всё равно без колебаний увольняют сотрудников. Раньше успешные и растущие компании делились своим успехом с работниками — теперь всё кардинально изменилось.


В наше время вообще нельзя просто спокойно работать, все время нужно ходить по собеседованиям, качать скилы, создавать side business, делать нетворкинг, посещать конференции и вести свой блог. Но не факт, что это поможет

Читать полностью…

Инжиниринг Данных

Два мужичка обсуждаю, что они создали успешные компании и работали в среднем 50 часов в неделю. Никаких вам 996.

С другой стороны работа должна приносить удовольствие. Если вам по кайфу 12-14 часов в день работать, и вас прёт, то почему бы и нет. Хотя такой режим вас убивает в прямом и переносном смысле.

А можно работать 4-6 часов в день, а остальное время тратить на обучение, развитие, спорт и любимые занятия.

Правда вас вряд ли возьмут в YC или другой инкубатор, и вряд ли вам дадут seed раунд.

У кого какой режим?

Читать полностью…

Инжиниринг Данных

AIJ Deep Dive: специальный очный трек для AI-профи в рамках международной конференции AI Journey!

Среда для профессионального роста, общение с экспертами мировой AI-индустрии и другими AI-профи — всё это ждёт вас на треке AIJ Deep Dive. В программе — только главные аспекты работы с AI:

Это событие точно нельзя пропустить

1️⃣19 ноября — день Науки: проведём глубокий анализ IT-решений, прорывных научных исследований, R&D-разработок и передовых методик.

2️⃣ 20 ноября — день Бизнеса: разберём успешные кейсы внедрения, оценим эффективность и практические результаты.
На треке вас ждут выступления ведущих экспертов в AI, постер-сессия, специальные форматы для нетворкинга и выставка R’n’D решений. Это уникальная возможность обсудить сложные вопросы с теми, кто действительно понимает ваши вызовы.

Где? Офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Когда? 19–20 ноября 2025 года

По ссылке — форма регистрации на очное участие. Присоединяйтесь к профессиональному AI-сообществу!

Читать полностью…

Инжиниринг Данных

Инновации создают новые возможности и новые профессии😎

Читать полностью…

Инжиниринг Данных

В статье Exploring the Evolving File Format Landscape in AI Era: Parquet, Lance, Nimble and Vortex And What It Means for Apache Iceberg рассказывают про файловые форматы.

Мы привыкли к классическим форматам - Parquet, Avro, ORC, которые долгое время были стандартом для аналитики (batch-запросов, DWH, Data Lake, Lake House).

Они оптимизированы под:
- последовательное чтение больших объёмов данных
- компрессию и экономию места
- традиционную оффлайн-аналитику

Но они плохо подходят под:
- AI/ML, где нужно быстро извлекать отдельные строки или фичи
- векторные данные (embeddings)
- real-time-обновления и работу на GPU

А вот и сами новые форматы:

💻Lance: быстрый доступ к данным для векторных и мультимодальных задач — embeddings, LLM-RAG, vector search.

Особенности:
- Нет row-groups, доступ к строкам O(1);
- Adaptive encoding для разных типов данных;
- Встроенные векторные индексы (HNSW, IVF_PQ);
- Поддержка версионирования (git-like snapshots).

Преимущество: до 2000× быстрее Parquet при случайных чтениях.

Минус: пока не поддерживается BI-инструментами.


https://lancedb.github.io/lance/


💻Nimble: ускорение декодирования данных при обучении ML-моделей.

Проблема Parquet: сложные кодировки (dictionary/run-length) и компрессия замедляют загрузку данных в GPU-потоки.

Решение Nimble:
- Простая и предсказуемая структура памяти;
- Минимум переменной длины кодировок;
- Оптимизация под батчи и потоки данных для PyTorch/TensorFlow.

Эффект: ускорение чтения/декодирования в 2–3 раза по сравнению с Parquet.
Минус: увеличивается размер файлов, зато быстрее обучение.

https://github.com/facebookincubator/nimble

💻Vortex: real-time-доступ и обновления без тяжёлых абстракций.

Проблема: Parquet и ORC не поддерживают частые апдейты/удаления — данные нужно “патчить” через Iceberg/Delta.

Решение:
- Индекс-ориентированные файлы с лёгкой метаданной структурой;
- Быстрый доступ к отдельным строкам или диапазонам;
- Гибкие схемы и низкая задержка при изменениях.

Применение:
- real-time аналитика;
- Event-driven системы;
- Динамичные агентные ИИ-приложения.

https://vortex.dev

Форматы пока не очень популярны, но они показывают высокую эффективность. Осталось подождать и посмотреть, кто возьмет лидерство и как пройдет адоптация в индустрии. А то Parquet уже совсем борода.

Некоторые статьи по теме
Nimble and Lance: The Parquet Killers
Hacker News Thread - Nimble: A new columnar file format by Meta
Reddit Thread - Vortex: A new file format that extends parquet and is apparently 10x faster
Lance: The Columnar Data Format Transforming Machine Learning Workflows

Читать полностью…

Инжиниринг Данных

Проект, который может сделать каждый - Кастомизацию резюме.

Мой пример. Она пока работает, но еще надо тюнить и добавить prompts с рекомендациями.

Что использую:
- Cursor ID
- Antropic API key (вы можете любой AI использовать)
- Markdown файл с моим исходным резюме
- Open Resume framework (создает PDF резюме в нужном формате). Сам framework я даже не использовал, только взял идею JSON->PDF и сделал ее в PDF.

Механика простая:
1) Запускаю скрипт
2) Даю ссылку на вакансию
3) Python crawler забирает все
4) Antropic читает требования и обновляет резюме
5) Open Resume создает JSON и конвертирует его в PDF

Это пока сырой пример, и он там немного от себя напридумывал и зачем-то даты убрал из резюме, и написал, что я еще в Амазоне работаю (хитрый, однако)


make optimize-interactive
🎯 Interactive Resume Optimization
==================================

Please provide the job posting URL:
Job URL: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights

🔄 Processing job posting: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Loaded resume: DMITRY ANOSHIN
🔍 Extracting job content from: https://www.amazon.jobs/en/jobs/3010960/data-engineer-pricing-and-promotions-science-data-and-insights
✅ Extracted 5528 characters of job content
🤖 Analyzing job requirements with Claude...
✅ Job analysis completed
🔧 Optimizing resume for job match...
✅ Resume optimization completed
💾 Saved optimized resume to: src-resume/my-resume-optimized.json

📊 RESUME OPTIMIZATION REPORT
==================================================

📝 SUMMARY CHANGES:
Original length: 492
Optimized length: 754

💼 WORK EXPERIENCE REORDERING:
Original order: Rock Your Data, Inc. → Microsoft → Amazon → Wawanesa Insurance → Forex Club → Teradata / Lamoda / BNP Paribas
Optimized order: Senior Data Engineer, Alexa Team → Lead Data Engineer → Senior Data Engineer → Lead Data Engineer → Data Engineer / BI Developer → Senior Data Engineer / BI Architect

🛠️ SKILLS UPDATED:
1. **Coding:** SQL, Python, bash, PySpark → **AWS Technologies:** Redshift, S3, Glue, EMR, Kinesis, Lambda, IAM
2. **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, Elastic MapReduce, HDInsight, EMR → **Programming Languages:** Python, SQL, Scala, PySpark, Java, NodeJS, bash
3. **ETL:** dbt, Amazon Glue, Airflow, SSIS, Prefect, Azure Data Factory, Luigi → **Data Platforms:** Snowflake, Redshift, Synapse, Databricks, BigQuery, EMR, HDInsight
4. **BI:** Tableau, Looker, Power BI, MicroStrategy, SAP Business Objects, Jupyter Notebooks → **Orchestration & ETL:** Airflow, dbt, AWS Glue, Azure Data Factory, Prefect, SSIS, Luigi
5. **DevOps:** GitHub, GitLab, Azure DevOps, Terraform, Azure Bicep, Kubernetes, Ansible, Helm Values → **Databases:** NoSQL, Graph databases, Column-family databases, Key-value stores, Object storage, SQL Server, Oracle
6. **Cloud:** AWS, Azure, Google Cloud → **Infrastructure-as-Code & DevOps:** Terraform, Azure Bicep, GitHub, GitLab, Azure DevOps, Kubernetes, Ansible, Helm

📋 Optimization report saved to: optimization_report.txt

✅ Resume optimization complete!
📄 Original: src-resume/my-resume.json
📄 Optimized: src-resume/my-resume-optimized.json
📋 Report: optimization_report.txt

🔄 Generating optimized PDF...
🔄 Converting src-resume/my-resume-optimized.json to PDF...
✅ PDF created successfully: src-resume/my-resume-optimized.pdf
✅ Optimization complete!
📄 Files created:
- src-resume/my-resume-optimized.json
- src-resume/my-resume-optimized.pdf
- optimization_report.txt


А дальше, можно строить агента, например на N8N или от OpenAI посмотреть. Он может за вас ходить смотреть вакансии и делать отклики. Можно настроить все через Телегам Бота - увидели вакансию, скинули ссылку и дальше все само.

Читать полностью…

Инжиниринг Данных

Я завидую ребятам, кто может так взять и уволиться, потому что ценности компании не совпадают с личными ценностями.

В 2020 году я отказался от предложения Meta и решил присоединиться к Salesforce, потому что ценности Meta не совпадали с моими, а Salesforce казалась «нейтральной» компанией, которая хотя бы пыталась выглядеть прогрессивной благодаря инициативам вроде модели 1:1:1.

Первые пару лет всё было отлично — интересные задачи, баланс между работой и личной жизнью, хорошая автономия и потрясающие коллеги. Мне казалось, что я наконец нашёл «ту самую» компанию.

В 2023 году начались сокращения, система оценки эффективности и корпоративные директивы, которые сильно разрушили культуру. Я перестал чувствовать себя человеком — стал просто строкой в Excel. Но я остался, ведь во всей индустрии ситуация была похожей.

Потом пришёл хайп вокруг искусственного интеллекта — и вместе с ним поспешные указания впихнуть ИИ во все продукты и использовать его при каждом удобном случае. Руководство даже начало отслеживать, как часто мы используем AI. Но и это было типично для индустрии.
А потом в пятницу, 10 октября, я прочитал эту статью — и в понедельник, 13 октября, подал заявление об уходе. Сейчас трудное время, чтобы быть безработным айтишником, и я начал сомневаться — не перегнул ли я палку? Стоит ли уходить с хорошо оплачиваемой, пусть и несовершенной, работы из-за слов генерального директора?

Но через несколько дней вышел вот этот материал — и он окончательно подтвердил, что я поступил правильно. Salesforce больше не разделяет моих ценностей, и я не могу продолжать там работать.

Я не осуждаю тех, кто остаётся — не у всех есть привилегия уйти. У людей визы, ипотека, семьи.

Я пока не знаю, что будет дальше. У меня нет нового предложения, и я не уверен, хочу ли сразу бросаться в поиск. Но если ты знаешь о позиции, которая могла бы мне подойти — буду благодарен за рекомендацию.

Про корпорации, их отношение к сотрудникам он хорошо подметил.

Читать полностью…

Инжиниринг Данных

🔐 Craft IT Talk: закрытое комьюнити Big Data-специалистов

Есть темы, которые не разбирают на конференциях, и задачи, о которых не пишут в блогах. Craft IT Talk — закрытое сообщество, где Big Data-эксперты из финтеха говорят начистоту.
Клуб объединяет архитекторов, дата-инженеров, аналитиков и тимлидов из крупных банков, страховых и ИТ-компаний.

🔹Закрытые встречи в неформальной обстановке
🔹Разговоры о реальных кейсах с экспертами вашего уровня
🔹Опыт коллег из Big Data в финансах, который обычно остается за стенами офисов
🔹Доступ к эксклюзивным материалам, которые мы создаем вместе

Членство бесплатное: сообщество формируется по профессиональному принципу.

👉 Вступить в клуб

Читать полностью…
Subscribe to a channel