23384
Делюсь новостями из мира аналитики и карьерными советами. 15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG 🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com №5017813306 Реклама: https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Semantic Layer vs. Text-to-SQL: 2026 Benchmark Update
В статье сравнили dbt Semantic Layer (YML документация о моделях и метриках) и LLM модели.
Очевидно, что LLM будет очень хорошо работать, если у нее будет правильный контекст и semantic layer это как раз и делает. Но и без SL уже модели хорошо сами все находят.
Качественная документация очень ценна и она поможет использовать AI более эффективно.
Сегодня в Microsoft Garage увидел классную аркаду. Я ее изучил и решил с детьми такую же построить.
Мы загрузили фотки в Claude Code и попросили его дать нам список частей.
Пока заказали hardware и попробуем все настроить. А дальше с товарищем сделаем корпус.
Всем привет, мне нужен дизайнер, чтобы сделать лого, цветовую палитру, ну может еще какую красоту навести придумать, плачу рублями или $.
Можете написать на почту, прислать портфолио + цену dima@playeronespace.com
Спасибо!
PS сегодня пришлось пожертвовать своим Linkedin - https://www.linkedin.com/in/dmitryanoshin/ , ведь так если подумать я там нашел работу только один раз в Dandy (стоматологический стартап, когда мне их дата босс написал) и это были худшие 3 месяца за 10 лет в Канаде и самая высокая зарплата + 1 месяц они подарили, чтобы я сильно не бухтел ☺️
ИИ все глубже встраивается в бизнес-аналитику — и это уже не эксперимент, а рабочий инструмент. По данным свежего исследования, каждый пятый корпоративный пользователь обращается к ИИ-агенту (нейроаналитику) за поиском бизнес-инсайтов.
На практике это выглядит так: 73% пользователей просят ИИ писать формулы, а 50% — объяснять графики. Причем не просто «что нарисовано», а с выявлением аномалий и проверкой гипотез на естественном языке. Это качественный сдвиг — BI перестает быть инструментом только для аналитиков и становится доступным бизнесу напрямую.
Активнее всего ИИ в BI используют ИТ (40%), ритейл (25%), финтех (10%), логистика (5%) и медицина (4%). И причина проста — скорость. Например, в ритейле задержка в обнаружении падения маржи всего на несколько дней может стоить десятки миллионов. ИИ сокращает этот лаг до часов, позволяя делать десятки срезов и находить отклонения почти в реальном времени.
Приходите на неформальную офлайн-встречу с командой R&D
Технологии, нетворкинг и «внутрянка» проектов — всё это ждёт вас на Welcome Time*, который пройдёт 11 апреля в штаб-квартире Яндекса в Москве.
💠 Приглашаем датасаентистов, дата-аналитиков и продуктовых аналитиков с опытом работы на Python** от трёх лет и опытом с LLM/VLM***
♾ В этот раз встречать вас будет команда R&D. Спикеры расскажут, зачем генеративным моделям нужны аналитики, как работают голосовые технологии Алисы и как её делают человечнее.
После докладов для желающих проведём диагностику навыков. Интервьюер подсветит ваши сильные стороны и покажет зоны роста. А хорошие результаты засчитаем как одну техническую секцию при прохождении собеседования в Яндекс.
🔗Подробная программа и регистрация — на сайте: https://yandex.ru/project/events/welcometimes-all
90 млн чеков из 1С — это не проблема, а ресурс 💪
Если ваша аналитика тормозит, а выгрузки из 1С напоминают бесконечную стройку, пора переходить на новый уровень.
7 апреля в 12:00 вместе с Yandex DataLens и BI.Qube учимся:
✅ Быстро забирать данные из 1С.
✅ Использовать Нейроаналитика (ИИ) для общения с данными на естественном языке.
✅ Разворачивать рабочее решение за 24 часа.
Никакой теории, только реальный кейс и пошаговый план развития вашей BI-системы.
🔗 Регистрация по ссылке
Сейчас есть 2 самых популярных Open Source решения для дата каталога:
• Open Metadata - у них даже есть демо стенд
• DataHub - тоже есть demo.
Я слегка работал и с одним и другим.
Обычно меня полностью устраивает dbt docs. Но бизнес пользователи хотят data lineage, и каталог отличное место для этого и все работает из коробки, как правило.
Альтернатива (если у вас Snowflake) - Snowflake Horizon Catalog. Они купили select Star в 2025 году. Но я его не пробовал.
Еще я работал с Alation, но мне он очень не понравился. В Окта у нас в прошлом хотели его заменить на DataHub или какой-то новый модный каталог, я забыл название.
У кого какой опыт с каталогами?
🚀 GigaChat 3.1 Ultra и GigaChat 3.1 Lightning в опенсорс под MIT лицензией!
Обе модели
• Обучены с нуля — без инициализации зарубежными весами
• MoE + MTP + MLA
• Совместимы с HuggingFace, llama.cpp / vLLM / SGLang
Код и веса уже на платформе GitVerse.
Это не просто релиз весов, а результат большой инженерной работы над качеством, alignment и стабильностью модели. В блоге команда поделилась результатами и своими наработками.
В релизе: высокие результаты на аренах, улучшенный function calling, решённая проблема циклов, DPO в нативном FP8, найденный и зарепорченный баг в SGLang при dp > 1.
Claude Code c моделью Opus 4.6 очень круто. Но даже за тариф в 200$ в месяц вам будет не хватать, особенно если вы очень любознательный и изобретательный человек=)
В итоге я пришел к выводу, что Cursor пока является самым эффективным и за 20$ в месяц в режиме Auto не будет никаких проблем на квоты. С недавних пор я стал использовать Cursor CLI - agent. Он работает достаточно хорошо.
За март я потратил 1000$+ через API Anthropic и решил урезать пользование.
У меня есть несколько edge кейсов, когда я не могу использовать на windows машинах Cursor/Claude Code и мне приходится через Kilo Code плагин в VSCode через OpenRouter подключаться к Anthropic API, чтобы в режиме YOLO творить🪄
А на чем вы остановились? Недавно попался пост про ситуацию с отечественными AI клиентами - ChatGPT, Claude и Gemini запретят в России. Альтернатива — «суверенные» модели, но ими не пользуются даже в компаниях, где они разработаны
Все кого я знаю, все используют Cursor или Claude Code за 200$. Cursor еще удобен, что можно сразу на год купить за 25т рублей и не знать проблем, я уже купил всем родственникам таким образом🏆
Dimensional Modeling 101 - статья про самый популярный и простой вид моделирования данных внутри хранилища данных.
Это когда 20% знаний закрывают 80% потребностей.
В статье вам напомнят теорию, и расскажут про альтернативы - Data Vault, One Big Table, Inmon Corporate Data Factory, Activity Schema.
Книги по теме:
📚The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
📚Star Schema The Complete Reference
📚Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema
PS моделирование данных очень трудно дается AI, так же как и system design.
Как поведёт себя аналитическая СУБД в облаке под нагрузкой? Разбор реального кейса
Selectel и СР-ТЕХ приглашают на практический вебинар, где покажут, как провели нагрузочное тестирование и масштабировали аналитический кластер на 111 узлов всего за час в облаке.
📅 31 марта, 12:00
📍 Онлайн
👥 Для дата-инженеров, архитекторов данных, DevOps и SRE-инженеров, технических руководителей
👉 Смотрите полную программу и регистрируйтесь: https://slc.tl/9cja0
Чтобы не пропустить вебинар и узнавать о других событиях и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО "Селектел". erid:2W5zFJx7JtH
С одного промпта Claude code создал сайт и опубликовал его на GitHub pages в моем репо.
https://dimoobraznii1986.github.io/sayward-canoe-trip/
Мы планируем ежегодный трип на каноэ🛶 по озерам Британской Колумбии и я решил собрать всю информацию по датам на сайте, что брать, как добраться, каким сидром закупаться и тп.
Если хотите присоединиться, welcome!
PS таким образом мы можете сделать бесплатный сайт для чего угодно - про себя, про свой продукт, проект, сервис и хостить совершенно бесплатно.
При желании можете добавить настоящий домен.
У меня есть один замечательный проект - миграция SQL Server на AWS. Меня позвали как эксперта сделать миграцию в non-profit около государственную конторы, которая вот-вот уйдет на забастовку со своим профсоюзом.
Мой подход:
• AWS Managed Airflow извлекаю данные из источников и пишу в Redshift
• dbt core для трансформаций, запускается с помощью AWS Airflow (читает dbt проект прям с S3)
• Один AWS аккаунт, один Redshift кластер с DEV/PROD базами данных (dbt это поддерживает из коробки)
• работать с ноутбука (IDE)
• доступ к AI (Claude Code)
Что хочет ИТ (хочет и делает):
• DMS пишет из SQL Server в S3. Пишет он CDC, то есть дописывают новые файлики в папки -> IT хочет контроль (с их слов)
• AWS Glue (python) читает и собирает эти файлы в единую таблицу и сохраняет в S3.
• Google Analytics/Survey Monkey и тп. - все должно приходить через DMS, а не напрямую. Ведь IT сделало on-premise Airflow, и они хотят и дальше его использовать -> это безопасно (с их слов)
• два AWS аккаунта DEV/PROD -> это безопасно (с их слов)
• никакого AI -> это не безопасно (с их слов)
• работать с общей виртуальной машины, чтобы к ней подключиться, мне сначала надо подключиться к другой машине и с нее уже на рабочую. Мышка там двигается по pixel…
При этом бюджет жестко ограничен. И до этого они 5 месяцев гоняли пустой кластер Redshift и сожгли 10% бюджета.
Мой подход позволит им сделать в 10 раз быстрей, эффективней и проще. Но ИТ категорически отказывается делать что-то нормальное.
Однажды я случайно ошибся Teams каналом и написал в общую группу - что-то вроде “ИТ саботируют миграцию, надо эскалировать на CIO и их нахлобучить”.
Это наверно самый грустный и смешной проект, потому что я как на машине времени отправляюсь в 90ые и строю хранилище данных партизанскими методами=)
Самое смешное, что я уже многое чего построил, но это не совпадает с их видением, и мне снова надо будет жечь токены, чтобы удовлетворить их хотелки.
Я так и не понял, зачем им AWS хранилище данных, это же небезопасно! 😞
С 2007 по 2010 я работал на ГКНПЦ им Хруничева, который строит ракеты Протон и Ангара. Работал я там на разных должностях.
Однажды был конкурс молодых специалистов и талантов, на который я записался и попал в финал, где нужно было выступать перед руководством центра.
На финале я понял, что тут серьезные проекты - чертежи, двигатели, системы и тп.
У меня был pitch про рекламу на ракете, так как космическая индустрия была очень бедная.
Мою идею все подняли на смех и мне даже было стыдно. Зато сегодня это уже ноу-хау)))
Вообще сейчас происходит бум космоса. SpaceX поменял правила игры и все ждут его IPO. Появилось огромное количество стартапов и идей.
Одна из идей это создать космический дата центер в космосе и на Луне.
Я создал канал, в котором пишу новости связанные со стартапами и монетизацией космоса - Бабки в вакууме.
Канал я создал прежде всего, потому что на этой неделе мы зарегистрировали компанию Player One и получили добро на 2млн$ как seed. Туда я скидываю все интересные новости по теме космоса.
В следующие 12 месяцев задача создать космическую компанию и запустить спутник в космос. Круг моих задач: entrepreneurship, data, AI.
Про дата инжиниринг пока без изменений, так как это мой основной источник дохода.
Data Science и Data Engineering: какое направление выбрать в 2026 году?
🎧 1 апреля пройдет День открытых дверей онлайн-магистратуры НИЯУ МИФИ «Специалист по работе с данными и ИИ» в партнёрстве с Яндекс Практикумом.
На встрече обсудят:
💙 как рост ИИ трансформируют рынок труда
💙 4 трека для развития: ML, CV, NLP и Data Engineering
💙 какие задачи усложняются и где усиливается конкуренция
И расскажут, как за 2 года освоить фундаментальную базу, собрать портфолио из проектов и получить диплом магистра без отрыва от работы.Подключайтесь онлайн 1 апреля в 19:00 мск.
🏃♀️ Записаться на ДОД
DataLens внутри вашего продукта: как это сделать? 📊
Аналитика «под капотом» — это стандарт хорошего UX. Если вы хотите внедрить дашборды в свои сервисы, не заставляя пользователей логиниться в сторонних системах, подключайтесь к эфиру Yandex DataLens.
Когда: 15 апреля.
О чем: Встраивание аналитики в ЛК и корпоративные порталы.
Профит: Минимум костылей, безопасный доступ и готовые механики от команды DataLens.
Регистрируйтесь заранее, чтобы не пропустить.
На Surfalytics у нас 2 новых видео и целый модуль:
1. DBT Semantic Layer - Никита рассказал и показал нам что такое dbt semantic layer и для чего он нужен.
Интересный факт, Никиты был первым членом Surfalytics и у него самый высокий доход среди канадских дата инженеров членов нашего тайного общества Club 500.
Вообще-то с учетом инфляции его надо менять в Club миллион 💰.
Я всегда говорю - ваша проактивность коррелирует с вашими доходами. Чем больше отдаешь, тем больше получаешь. Закон вселенной?🛸
2. Data Ingestions Patterns | Part 1 - я начал серию видео для System Design DE по подходу от простому к сложному, где мы загружаем данные из API в базу 10ью разными способами. Пока только 1/4 покрыл, потратил много времени на разговоры про security, infra as a code, evn variables и как сразу делать правильно. Сразу гонял Cursor Agent и Claude и видно насколько Cursor тупее Claude, зато дешевле.
3. Я записал на 95% модуль про Cloud Computing.
Сделать курс дата инженера от начала до конца это прям моя мечта, так что не смотря ни на что, я его доделаю🚀
Один из участников подкаста из Кремниевой Долины All - In со сложным именем записал видео - 30 Years of Business Advice in 13 Minutes (from a Billionaire)
Советы простые и многие очевидные, но мы часто о них забываем.
Про жизнь и цели
Не стройте жизнь как список галочек. Погоня за титулами останавливает, как только «добился». Сильнее — ориентир на постоянный рост, риск и правильное окружение. Успех — это процесс, а не финишная черта.
Практические правила
Избегайте долгов — они заставляют бросить обучение и гнаться за быстрыми деньгами. Будьте честны о своей ситуации — с собой и другими. Общайтесь с теми, кто моложе вас: у них другие модели мышления, и они как радар изменений.
Карьера и деньги
Лестница должностей — ловушка. Директор → VP → партнёр → больше equity может превратить вас в карикатуру на самого себя. Оптимизируйте возможности, а не зарплату. Держите запас ходов. И идите туда, где сгусток возможностей: финансы — Нью-Йорк/Лондон, технологии — Кремниевая долина, крипто — Абу-Даби.
Отношения
Партнёр должен прикрывать вас на 100% — и это работает только при радикальной честности. Называйте и успехи, и проблемы вслух.
Про статус
Списки, клубы, приглашения — крючки. Внешняя валидация даёт другим рычаг над вами. Отказ от игры в статус — это суперсила.
Про соцсети
Кураторские ленты — не реальная жизнь. Онлайн-«успех» вводит в заблуждение о том, как «надо» жить.
Главная мысль
Оставайтесь вечным учеником. Молодые слушатели часто отмахиваются от этого — и усваивают через более жёсткий опыт.
Montecarlo решило уволить 30 процентов людей. В эпоху до AI это был самый лучший (и дорогой) user friendly инструмент для data quality и data observation. А теперь они стали не нужны. В 2х проектах я занимаюсь тем, что выпиливаю и заменяю их решение за ненадобностью.
Читать полностью…
Оказывается сегодня запуск лунной программы Artemis II, они хотят облететь луну. Планируют взлет через 1 час 20 минут. Есть прямая трансляция.
У меня еще так совпало сегодня, что мне нужно было купить акции, так как истек мой опцион (covered call) на ASML и пришлось продать акции.
Я купил 4ре космических компании, о которых писал ранее:
• RKLB — Rocket Lab — американская космическая компания, запускает малые спутники на ракете Electron и разрабатывает среднюю ракету Neutron, конкурент SpaceX в сегменте small-sat.
• RDW — Redwire Corporation — производитель космической инфраструктуры и оборудования (солнечные панели, сенсоры, авионика) для правительственных и коммерческих спутников и станций.
• PL — Planet Labs — компания, которая управляет крупнейшей в мире группировкой спутников дистанционного зондирования Земли и продаёт снимки и геоданные правительствам и бизнесу.
• VOYG — Voyager Technologies (бывш. Voyager Space) — компания в сфере обороны и космоса, строит коммерческую космическую станцию Starlab совместно с Airbus, вышла на IPO в июне 2025.
• RMBS — Rambus — небольшая полупроводниковая компания из Сан-Хосе, разрабатывает чипы интерфейсов памяти DDR5/DDR4 и продаёт лицензии на IP в области безопасности и памяти.
• LRCX — Lam Research — один из крупнейших производителей оборудования для производства полупроводников (машины для травления и осаждения плёнок), без которого не работает ни один чипмейкер — TSMC, Samsung, Micron.
• SNDK — SanDisk — производитель флэш-памяти (NAND) и накопителей, в феврале 2025 выделился в отдельную публичную компанию после отделения от Western Digital и вышел на Nasdaq.
• MU — Micron Technology — один из трёх крупнейших в мире производителей памяти DRAM и NAND (наряду с Samsung и SK Hynix), главный бенефициар роста спроса на память для AI-серверов.
В мае я рассказал про наш опыт с продажей недвижимости и в сентябре был пост про результаты продаж, где получилось продать 2/3 недвижимости.
Сейчас я готовил документы на подачу налогов, и нужно было подготовить цифры по доходам и расходом от сдачи недвижимости. Цифры расскажут сами за себя, насколько неэффективно заниматься арендой в Канаде на уровне хомячка обывателя.
То есть, в 2025 году за 8 месяцев (продал в Августе) я потерял 61к. И каждый доллар этой суммы это после налогов, то есть по факту 120к gross нужно было заработать, чтобы покрыть эту инвестицию. При этом я очень рад, что все таки у нас получилось продать, потому что сейчас в Канаде рынок недвижимости хуже чем в 2008 году.
Из плюсов, этот loss должен мне зачесться в налоговой, как убыток.
Курсера добавила курс от Snowflake про Iceberg https://www.coursera.org/learn/apache-iceberg-data-lakehouse, бесплатно, но фокус на снежинку
PS есть еще на степике на русском https://stepik.org/course/256520/ но нет отзывов и платно:)
Vibe-coding весело, но иногда лень печатать, поэтому можно воспользоваться бесплатной программой Handy, которая запишет ваш голос и преобразует в текст. Бесплатно.
https://github.com/cjpais/Handy
А вы чем пользуетесь?
Раз уже заговорили про dimensional modelling, я написал небольшой пост, где показал как с помощью DuckDB можно выкачать данные по запускам SpaceX и сделать dimension/fact таблицы и добавить SCD тип 1, 2, 3.
Этого будет достаточно, чтобы понять концепт, заодно и DuckDB потрогать и SQL позапускать на реальных данных!
https://blog.surfalytics.com/p/practical-data-modelling-with-sql
2 апреля в Москве пройдёт конференция Data Summit 2026, на которой эксперты из Сбера, ВТБ, Росатома, VK Tech и других топ-компаний обсудят, как ИИ-технологии меняют работу с данными: от управления и безопасности до монетизации и демократизации доступа.
В программе — доклады, 4 дискуссионные сессии и 30+ реальных кейсов.
Отличное мероприятия для нетворкинга, на котором можно узнать про аналитические кейсы + чай с печеньками🍪🍪
Здесь говорят о том, как работать с данными в 2026 году ↗️
Узнайте на GoCloud 2026
9 апреля в Москве пройдет GoCloud 2026 – большая конференция про ИИ и облака от команды Cloud.ru.
Отдельный трек будет посвящен данным и аналитике: доклады о технологических трендах, простых инструментах и экономически эффективном управлении данными.
Вы узнаете:
▶️какие подходы к работе с данными станут стандартом в 2026 году
▶️как управлять разными-дата сервисами на одной платформе
▶️как быстро обрабатывать real-time данные
▶️почему ML-системы начинаются не с моделей, а с дата-инфраструктуры
▶️какие возможности дает интеграция ИИ и Spark
🔛 ЗАКРЫТЫЙ СТАРТ
🕳 ПЛАТФОРМЫ АРЕНДЫ GPU
➡️ 37 ₽ в час
Инвайт-код для подписчиков канала:
➡️ROCKYOURDATA
Действует до 15 апреля, всего 50 активаций
Вторая порция фоток с поездки в Калифорнию. Закончился трип в Сан Франциско. Рабочий вайб там на максималках. Люди в кафе делают презентации, общаются. Нетворкинг и жизнь кипит. Лучший город для работы и карьеры.
Пляжи и серф прям а городе. Единственное, что бросается в глаза это дома. Картонные коробочки разного цвета, возможно маленькие комнатки. В центре высокие холмы и пешком там много не походишь.
Бомжей почти не встретил, может не там ходил.
Калифорния все таки очень крутое место для жизни и работы, особенное если вы получаете FAANG зарплату или лучше 2.
Без денег лучше жить в Канаде. Тут деньги не нужны, о вас заботится государство=)
Вот и появились первые результаты использования ИИ в статье - Are AI agents actually slowing us down?
🤖 ИИ-агенты нас тормозят?
Все говорят о том, как ИИ ускоряет разработку. Но есть обратная сторона, о которой почти никто не говорит.
Что происходит на практике:
🔴 Anthropic — баг на главной странице Claude.ai, при котором текст пользователя исчезал при загрузке, существовал неделями и никто внутри компании его не замечал. При том, что 80%+ кода Anthropic генерирует сам Claude. Исправили только после публичного скандала.
🔴 Amazon — ИИ-агент Kiro вызвал 13-часовой сбой AWS: агент решил «удалить и пересоздать среду». Теперь любые изменения джунов с помощью ИИ требуют подписи сеньора.
🔴 Meta и Uber — токены ИИ учитываются при перформанс-ревью. Не используешь ИИ активно? Значит, ты «неэффективный» сотрудник. Давление на инженеров огромное — вне зависимости от качества результата.
🔴 Исследования — код, написанный с ИИ, показывает +41% code churn (строки, которые переписывают в течение двух недель). Команды тушат пожары от свежесгенерированного кода вместо того, чтобы работать над реальными задачами. Google DORA зафиксировал снижение стабильности поставок на 7.2% по мере роста использования ИИ.
Почему так происходит?
Компании измеряют количество PR и строк кода — но не качество. В итоге возникает порочный круг: больше кода → больше техдолга → медленнее разработка в долгосрочной перспективе.
Что с этим делать?
• Инженеры с сильным архитектурным мышлением становятся ценнее, чем когда-либо
• Нужны quality gates — не только покрытие тестами, но и дублирование кода, архитектурное соответствие
• Возможно, пора вернуть старые добрые практики QA
ИИ усиливает то, что уже есть в команде. Сильная культура → ускорение хорошей работы. Слабая культура → ускорение накопления техдолга.
«Скорость без качества — это просто быстрее идти не туда»
В пятницу мы прилетели в LA и взяли машину, чтобы прокатиться до SF.
В LA было очень жарко. Мы остановились в Beverly Hills. Сам город понравился, много классных кафешек, вечером все нафокстрочены, как в Москве🚬. Куча дорогих машин, мужчины в пиджаках, девушки в вечерних платьях.
Шикарные песчаные пляжи в Santa Monica и Venice Beach. Много мексиканцев на пляжах, но не в Beverly Hills.
Первую остановку сделали в Santa Barbara. Напомнило заставку одноименного сериала. Город тихий, как будто в Мексике. Мы остановились в очень хорошем отеле. Но наша комната был сбоку от ночного клуба. До 2х ночи была дикая пати, клуб подпевал диджею. 1:30 ночи я генерил отзыв в Gemini, про отель=) хорошо, что в 2 они разошлись.
В следующем посту расскажу про SF.