44366
Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS
Что посмотреть в новом сезоне, подскажут ML и матстатистика
Недавно мы делились рекомендацией Бена Стенсила работать над теми проектами, к которым на самом деле лежит душа. Он говорил это про дипломные проекты и вообще те, которые делаются не за деньги, а для практики.
Нашли для вас отличный пример — приложение для прогнозирования популярности аниме.
🔵Каждый сезон в Японии выходит примерно 30 новых сериалов. Пользовательница Хабра решила создать инструмент, позволяющий предсказать, насколько популярным будет новое аниме.
🔵Она написала целое приложение, которое прогнозирует рейтинг сериала, основываясь на математической статистике и машинном обучении. Оно учитывает только показатели, известные до релиза: рейтинги первоисточника (для сериалов, основанных на манге) на сайте MyAnimeList, жанр, название студии, возрастной рейтинг и ЦА. Код можно посмотреть на гитхабе.
🔵Приложение довольно точно предсказывает рейтинг сериала на MyAnimeList, но иногда может ошибаться — обычно, когда речь идет об аномально популярных аниме.
Практическая польза предсказания рейтингов аниме неоспорима: зрителям это поможет выбрать, что посмотреть, а продюсерам — решить, в какие проекты стоит вкладывать деньги. И никаких больше непонятных сериалов с рейтингом ниже 5!
А как вам — стали бы пользоваться таким приложением?Читать полностью…
❤️ — Конечно!
🌚 — Нет, спасибо…
Управление данными: летний студкемп от Яндекс Образования и ИТМО
Мечтаете не просто разбираться в управлении данными, а использовать самые эффективные инструменты для работы с Big Data? Научитесь этому на бесплатном студкемпе Яндекс Образования и ИТМО по дата-инженерии!
🔵 С 30 июня по 12 июля вы погрузитесь в мир распределенных хранилищ, микросервисной архитектуры, DataOps/MLOps и пайплайнов для сбора, анализа и визуализации данных. А еще познакомитесь с технологиями, которые используют в крупных компаниях. В общем, получите реальные навыки, которые ценят на рынке.
🔵 Студкемп проходит в Санкт-Петербурге на базе ИТМО. Проезд и проживание будут оплачены Яндекс Образованием, так что вам останется сосредоточиться на главном — знаниях, опыте и новых возможностях.
🔵 Заявки ждут от студентов из любых вузов и регионов России. Студкемп будет особенно полезен тем, кто учится на 3-4 курсах, знаком с SQL, C++, Java или Python.
🔜 Регистрация открыта до 4 мая, но подать заявку можно уже сейчас! Если давно хотели пообщаться с экспертами ниши и почувствовать, каково это — учиться в одном из ведущих технических вузов, не откладывайте и заполняйте анкету по ссылке!
KARPOV.CONF 2025: как данные помогают бизнесу
Наши друзья из karpov.courses зовут на KARPOV.CONF 2025, которая пройдет 24 апреля в 12:00 по Москве.
🔜 Это будет бесплатная онлайн-конференция для всех, кто работает с данными и хочет узнать, как с их помощью растить бизнес, принимать решения и находить точки роста. На ней выступят спикеры от Яндекса, МТС и Райффайзен Банка, которые поделятся кейсами из своей практики.
Что еще будет в программе?
🔵Обсуждение актуальных тем и трендов — в том числе, машинное обучение и Deep Learning.
🔵Лучшие практики, советы от экспертов и рекомендации, как избежать распространенных ошибок при работе над BI-проектами.
🔵Шанс выиграть менторскую сессию с Анатолием Карповым и бесплатные материалы по Data Science: гайды, подборки ресурсов, инструменты.
🔜 Читайте подробную программу конференции и регистрируйтесь! https://clck.ru/3LRUtN/?erid=2Vtzqwgv7Vb
Реклама. ООО «Карпов Курсы», ИНН: 7811764627, erid: 2Vtzqwgv7Vb
Visual DB — фронтенд для базы данных
Любопытный инструмент, который позволяет создавать формы и интерактивные отчеты, просматривать, добавлять и редактировать данные в таблицах. Задача Visual DB — сделать доступ к данным удобнее и проще, поэтому он не требует знания SQL для работы, а еще предлагает использовать ИИ для создания форм.
🔵Работает с распространенными БД, СУБД и облачными сервисами: MySQL, MariaDB, PostgreSQL, Oracle, Neon, Azure SQL, Amazon RDS, Google Cloud SQL, AlloyDB.
🔵Можно пользоваться облачной версией, можно захостить на своем сервере (или просто на ПК или ноуте).
🔵Инструмент бесплатный, но есть тариф Business аж за 5 долларов в месяц с юзера. Его главное отличие в отсутствии ограничений на количество записей в БД.
Ознакомиться со всеми функциями можно на сайте проекта.
Как в Яндексе работают с Big Data?
Узнайте на бесплатном интенсиве Big DWH Week!
Когда данных становится так много, что хранить их в чертогах разума уже невозможно, на помощь приходит YTsaurus. Это платформа Яндекса для распределенного хранения и обработки больших данных, которая помогает не только систематизировать огромные объемы информации, но и делать их доступными и легко управляемыми.
🔜 Познакомиться с платформой с точки зрения разработки и построения эффективных систем можно на Big DWH Week.
Это бесплатный онлайн-интенсив Яндекса и ШАДа, который пройдет с 21 по 25 апреля. За 8 занятий вы узнаете, как YTsaurus используется в реальных проектах Яндекса, как строится архитектура платформы и как правильно настраивать её под свои задачи.
Если вы работаете с данными как инженер, разработчик или аналитик или учитесь на техническом направлении, этот онлайн-интенсив будет вам интересен.
🔜 Те, кто пройдут отбор и успешно выполнят итоговое задание, получат сертификат. Регистрируйтесь до 25 апреля и погружайтесь в тему!
Docs: как Notion, только open source
Очередная бесплатная альтернатива популярному платному тулу — на этот раз заменяем недоступный в РФ Notion опенсорсным Docs.
🔜 Это инструмент для совместной работы над текстовыми документами, разработанный совместно правительствами Франции и Германии. Да, это не просто чей-то pet project, сделанный из любви к искусству. Все серьезно.
Визуально Docs выглядит как Notion, но попроще — впрочем, так и надо. Его представляют как бесплатную, удобную и безопасную альтернативу, в которой нет ничего лишнего. Можно писать и форматировать текст одному или вместе с коллегами — как и в Notion, тут есть возможность раздать разные уровни доступа.
Есть даже поддержка AI-функций для перевода или создания краткого саммари документа.
У проекта есть cвой сайт и github.
Есть ли смысл в геймификации: опыт Самоката, Rostic’s, Альфа-Инвестиций и Детского Мира
3 апреля в 12:00 по Москве команда Mindbox проведет вебинар «Геймификация в маркетинге».
Если вы откроете приложение банка, доставки еды или интернет-магазина, скорее всего, вы увидите какие-нибудь игровые механики. Компании придумывают челленджи, ачивки и целые мини-игры — но есть ли в них на самом деле смысл или они нужны только чтобы развлечь пользователей и засветиться в новостях?
На вебинаре расскажут, как зарабатывать на геймификации и прогнозировать ее окупаемость.
Что еще будет?
🔵Кейсы Самоката, Альфа-Инвестиций, Rostic’s и Детского Мира, которые помогли увеличить средний чек и активность пользователей.
🔵Розыгрыш чек-листа по запуску игровых механик.
🔜 Регистрация
Насколько важно образование в аналитике?
Бенн Стенсил, со-основатель BI-платформы Mode и автор пессимистичного блога на substack, задался вопросом, стоит ли идти в магистратуру по аналитике? Его ответ однозначный — нет.
🔵После всплеска интереса к data science в конце десятых университеты (важно уточнить, что он говорит про США) пооткрывали магистерские программы по аналитике. Зачастую образовательный компонент в них был вторичен, а вся суть была в том, что университет за большие деньги продавал студентам возможность написать представительно выглядящую строчку в резюме. Если повезет — еще и какой-никакой нетворкинг.
🔵При этом многих работодателей из Кремниевой долины эти строчки в резюме мало интересуют. А в каких-то случаях даже воспринимаются как красный флаг — показатель, что соискатель потратил кучу времени и денег на бесполезный диплом.
🔵Даже когда программа таки учит твердым основам работы с данными и академическим принципам, эти знания часто мало применимы в реальной работе.
🔵По мнению Бена, намного лучше, чем поступать в магистратуру, — заниматься своими проектами и выбирать то, что вам действительно интересно, а не просто то, что звучит серьезно. Мало того, что это вас мотивирует глубже погрузиться в изучение вопроса, так еще и поможет выделиться среди остальных кандидатов, если проект действительно оригинальный.
Логика в его словах есть, но мы решили спросить мнение основателя LEFT JOIN Николая Валиотти — для полноты картины:
Я закончил магистратуру в Georgia Tech и могу сказать, что они давали прикладные, понятные знания, применимые на реальных кейсах. Было много непростой проектной работы, которая требовала серьезных усилий.
Я думаю, что описанное в посте не относится к вузам, где computer science — одно из основных направлений деятельности, как в Georgia Tech.
Я всегда говорил, что профильное техническое образование важно в нашей сфере — оно дает фундаментальные знания, которые вряд ли можно получить в другом месте.
o1 в помощь дата-инженеру
Про ИИ в аналитике и дата-инжиниринге мы спрашивали не просто так — мы недавно провели свое мини-исследование и описали его в новой статье.
Вайб-кодинг — не лучший подход к работе, когда речь идет про аналитику и данные, но это не значит, что ИИ совсем никакое применение не найдется. Ему все еще можно доверять некоторые задачи — например, написать сложный запрос с оконными функциями и объединением данных из нескольких таблиц. Самому это все прописывать может быть долго и утомительно, а вот хваленая o1 справится без проблем.
Или нет?
🔜 Ответы и выводы читайте в статье!
Иван Вахмянин про Visiology, разработку BI-платформ и конкуренцию с Power BI
Бывало у вас такое, что вы смотрите на любимое приложение и думаете — все в нем хорошо, но почему туда не добавят [вставьте сюда название крутой фичи, которая в нем обязательно нужна]?
Неужели разработчики сами не понимают, как это важно?
💙 Возможно, в новом выпуске LEFT JOIN Partners вы найдете ответ.
Гостем выпуска стал Иван Вахмянин, сооснователь и управляющий партнер российской BI-платформы Visiology.
Иван рассказал про работу над продуктом и принципы, которыми руководствуется команда, когда добавляет или убирает какие-то функции — и почему это всегда непростое решение. Заодно обсудили, какие вообще особенности есть у Visiology и за что платформу ценят пользователи.
Ну и конечно, не обошлось без рынка российского BI:
🔵 Чем рынок и наши пользователи отличаются от западных,
🔵На кого ориентируются и с кем конкурируют отечественные разработчики BI,
🔵Выгодное ли вообще это дело — разработка BI-платформы — и как добиться в нем успеха.
Смотрите: YouTube, VK
Слушайте: Apple Podcasts, Spotify, Яндекс Музыка
Вайб-кодинг в аналитике?
Слышали про вайб-кодинг? Суть явления описал Андрей Карпатый — оригинальный твит на скрине, а ниже наш перевод:
Есть новый вид программирования, который я называю «вайб-кодинг», когда ты полностью отдаешься вайбам, принимаешь экспоненциальный рост и забываешь, что код вообще существует. Это возможно благодаря тому, что LLM (например, Cursor Composer с Sonnet) становятся слишком хороши. Также я просто общаюсь с Composer через SuperWhisper, так что почти не касаюсь клавиатуры. Я прошу у него всякую ерунду, типа "уменьшить отступ на боковой панели вдвое", потому что мне лень искать, где это сделать. Я всегда нажимаю "Принять все", больше не читаю диффы. Когда получаю сообщения об ошибках, просто копирую их и вставляю без комментариев — обычно это решает проблему. Код разрастается за пределы моего обычного понимания, и мне пришлось бы долго его читать, чтобы разобраться. Иногда LLM не может исправить баг, поэтому я просто обхожу его или вношу рандомные изменения, пока он не исчезнет. Для одноразовых проектов на выходные это не так уж и плохо, но все равно забавно. Я создаю проект или веб-приложение, но это уже не совсем программирование — я просто что-то вижу, что-то говорю, что-то запускаю, что-то копирую и вставляю, и оно в основном работает.
Про данные, будущее и поиски работы
Любой бизнес работает с данными — хоть какими-то.
А где данные, там и те, кто должен их собирать, обрабатывать и анализировать. И если на первых порах с этим можно справиться без специально обученных людей, то большие объемы и сложные пайплайны требуют участия дата-инженеров.
В общем, спрос на дата-специалистов никуда не денется, как бы ни лихорадило рынок ИТ, но найти работу и построить успешную карьеру — это все равно челлендж.
🔜 Ребята из karpov.courses разобрались, какие знания и навыки дадут преимущество перед остальными кандидатами. Еще и спросили мнение экспертов, которые в аналитике и дата-инжиниринге не первый год (среди них вы можете заметить знакомые имена).
Кстати, помните, что они у себя на канале начали рассказывать про один наш кейс? Уже вышло продолжение и скоро будет завершение — не пропустите!
Как развиваться в профессии инженера данных?
Совсем скоро стартует новый поток курса «Инженер данных» — тот самый, где студенты могут получить не только знания, но и работу в LEFT JOIN.
А перед началом учебы на вебинаре разберемся, что должен знать и уметь инженер данных, чтобы успешно развиваться в профессии и повышать грейд. Вебинар проведет Николай Валиотти — создатель канала и основатель дата-консалтинга LEFT JOIN.
🔵 С каким стеком нужно уметь работать?
🔵 Какие «софты» и «харды» пригодятся DE, и как требования к ним меняются в зависимости от грейда?
🔵 Что именно делает инженер данных и какие задачи решает? Разберем на примере трех реальных проектов из нашей практики.
Онлайн-вебинар пройдет 18 марта в 18:00 по Москве. Участие бесплатное.
🔜 Регистрируйтесь по ссылке!
Umami — альтернатива Google Analytics
Как бы ни был хорош, привычен и удобен Google Analytics, не всем нравится, что корпорация собирает и использует в своих целях их данные. Если вы не хотите делиться с Google информацией о своих пользователях, можно рассмотреть альтернативы — например, Umami.
Это бесплатный инструмент для веб-аналитики с открытым исходным кодом.
🔵 Поддерживает PostgreSQL и MySQL. Судя по отзывам — работает устойчиво и стойко переваривает даже большие потоки данных.
🔵Простой интерфейс с гибкими настройками событий и действий юзеров, которые вы хотите трекать. Можно отслеживать действия, клики, переходы и удержания, строить воронки — в общем, все, что надо.
🔵Для тех, кто не хочет хостить инструмент самостоятельно, есть облачная версия.
Что думаете про подобные альтернативы Google Analytics?Читать полностью…
❤️ — Хорошо отношусь — на рынке должна быть здоровая конкуренция!
🙈 — Не вижу смысла — ни одна из них не превзошла GA
Сегодня не пятница, но это не повод не запостить #мем
Читать полностью…
Книга «Аналитика для руководителей» — предзаказ открыт!
Совсем скоро книга Николая Валиотти «Аналитика для руководителей» поступит в продажу, а оформить предзаказ на Ozon, Бук-24 и в Читай-Городе вы можете прямо сейчас.
🔵Эта книга — о том, как построить систему аналитики, которая помогает принимать решения на основе данных и увеличивать прибыль. Вы узнаете, из чего состоит эта система и какие люди вам нужны, чтобы она работала правильно, а также — как раскрыть потенциал бизнеса с помощью данных.
🔵«Аналитика для руководителей» написана для людей, которым важно уметь работать с данными и цифрами, но которые при этом не являются аналитиками и дата-инженерами. В ней понятным языком объясняются все технические термины.
🔜 Перейти на лендинг, чтобы узнать о книге больше
Там вы найдете больше подробностей о книге, ответы на часто задаваемые вопросы и первый отзыв.
Чему мы можем научиться у Amazon Elastic Block Store
Amazon EBS — сервис блочного хранения. Он входит в экосистему AWS и используется для работы с большими объемами данных. Сейчас это огромная распределенная система SSD, которая обрабатывает 140 триллионов операций.
Сервис начал работу в 2008 году — и тогда, он, конечно, был совсем другим. Марк Олсон, инженер, который работал над EBS больше 10 лет, рассказал, как проект менялся и развивался с годами. Это не только повод поностальгировать по тем далеким временам, но познакомиться с подходом Amazon к решению проблем и внедрению изменений.
Несколько полезных инсайтов из статьи:
🔵Развитие EBS — постоянный и постепенный процесс. Возможно, для кого-то это и так очевидно, но это одна из главных мыслей всего лонгрида: сервис менялся и дорабатывался на протяжении всего времени существования, чтобы в итоге прийти к 140 триллионам операций. Одним героическим рывком к таким масштабам не прийти.
🔵Один из ключевых вызовов перед командой проекта — это найти баланс между надежностью, производительностью и удобством для пользователя. Необходимость заботиться обо всех этих факторах (а не только о надежности в ущерб скорости) обуславливала многие решения и подходы, которых придерживались разработчики.
🔵Производительность системы зависит от множества факторов и изменения только на одном уровне, даже очень масштабные, могут не принести желаемого эффекта. С этим команда столкнулась, когда переехала с HDD на SSD. Пришлось апдейтить остальные компоненты системы, чтобы добиться прироста роизводительности.
🔵Full-stack-инженер, который умеет все, — это, конечно, круто, но когда речь идет про работу над такими сложными системами, как EBS, узкие специалисты, которые детально разбираются в своей конкретной области, могут быть ценнее.
🔵Если хотите, чтобы ваши инженеры (и вообще любые сотрудники) хорошо работали, нужно создать условия, при которых они смогут не бояться экспериментов и выходить из зоны комфорта.
Как вам опыт Amazon EBS?Читать полностью…
❤️ — Есть чему поучиться!
🌚 — Ну такое…
Как ищут работу специалисты по датавизу?
А вот так.
Специалист по визуализации данных выложил на Public Tableau свое резюме. Все скиллы, опыт работы, образование и портфолио поместились на один довольно компактный дашборд. Конечно, же, интерактивный: на каждый элемент можно кликнуть, чтобы узнать подробности.
Получилось наглядно и нарядно, хотя вызывает некоторые вопросы — например, как он оценил свои навыки создания «User Centered Design» ровно на 9,2 баллов из 10? А опыт работы на таймлайне выглядит симпатично, но ему остро не хватает описания конкретных обязанностей и достижений.
А как вам такое резюме?Читать полностью…
❤️ — Удобно
🌚 — Слишком сложно…
За что вы на самом деле платите, внедряя BI?
BI — это инвестиция в бизнес, причем иногда — весьма серьезная. Как понять, что затраты окупятся, избежать лишних затрат и скрытых расходов?
Эти и другие вопросы обсудят на онлайн-конференции Fine Day Online 17 апреля в 16:00 по Москве:
🔵как объективно оценить, во сколько аналитика обходится бизнесу,
🔵как оптимизировать затраты без потери качества,
🔵как избежать ошибок, которые удорожают BI-проекты.
А также — реальный опыт компаний, которые уже прошли этот путь:
🔵 Альфа-Лизинг – Цена данных: что на самом деле оплачивает бизнес?
🔵 Газпромбанк – BI как центр затрат или источник экономии? Опыт интеграции FineBI с Service Desk через Rest Api
🔵 СИБУР – Self-service BI: мониторинг и оптимизация затрат
🔵 t2 – Цена данных: как, рассчитывая на чудо, не оказаться в минусе, внедряя BI?
Бонусы для участников:
🔥 Доступ к записям конференции
🔥 Эксклюзивный чек-лист: «BI без лишних затрат: типовые ошибки и как их избежать»
Участие бесплатное!
🔜 Зарегистрироваться 🔜
Каталог чартов Tableau
Tableau Public — источник вдохновения и полезных приемов по работе с Tableau. Мы часто постим особенно впечатлившие Viz of the Day — визуализации, не всегда применимые в работе, но интересные и наглядно показывающие возможности инструмента.
🔜 Для случаев, когда надо вдохновиться особенно сильно или подсмотреть, как круче сделать какой-то конкретный график, есть целый каталог чартов.
В нем собрали ссылки на Viz of the Day, где использовали различные виды графиков и визуализаций. Есть и весьма небанальные, так что если вам надо будет посмотреть, как сделать в Tableau прогресс-бар или завернуть линейный график в круг, в этом каталоге вы найдете ответ.
Студента Columbia отчислили за разработку «читерского» приложения
Чунгин Ли, студент престижного американского университета Columbia University точно знал, чего хотел, когда поступал туда — стать фаундером своей компании. Он быстро нашел товарища, вместе с которым они запустили несколько проектов, но успеха не сыскали.
Тогда они решили, что им нужно придумать какую-то вирусную идею, которая точно зайдет — и так додумались до Interview Coder, ИИ-ассистента, который помогает проходить технические интервью.
🔵 Interview Coder можно запустить прямо во время созвона, и его не будет видно, даже если вы расшарите экран. Он не только предлагает решения тестовых заданий, но и дает комментарии и пояснения, чтобы соискатель мог объяснить логику решения.
🔵 С помощью Interview Coder Чунгин прошел несколько собеседований и даже получил оффер в Amazon, о чем рассказал у себя в соцсетях. Он даже выложил видео созвона, где видно, как он пользуется Interview Coder.
🔵 Пост завирусился, как и планировалось, и Amazon это вообще не понравилось. Они связались с Columbia University и пригрозили, что никогда больше не возьмут к себе их выпускников, если те не примут меры.
🔵 В итоге университет сначала ограничился дисциплинарным взысканием, но затем Чунгин опубликовал письмо Amazon, которое те отправили в вуз с настойчивой просьбой наказать его за читерство. После этого его отчислили совсем.
Он как будто не расстроен, потому что своей цели — стать фаундером компании с вирусным продуктом — он добился. 🔥
История напомнила про философию осознанной меркантильности Антона Назарова, который тоже учит, что на пути к успеху в IT и 300к в наносекунду, не страшно иногда срезать углы.
Если вы пропустили прошлый дроп мерча — вот ваш шанс!
У нас осталось всего 5 футболок в размерах S, M и 2XL.
Стоимость: 2500 рублей
Размеры: S, M, 2XL
Доставка: Почтой России и СДЭКом по РФ (если живёте за границей, можем отправить вашим друзьям или родным в России).
🔜 Чтобы оставить заявку, стучитесь к нашему боту (размерная линейка с указанием параметров доступна в боте).
После заявки с вами свяжется наш сотрудник для подтверждения заказа и оплаты. Вопросы можно задавать в комментариях к посту — всё расскажем! 🚀
Коннектор Tableau + ClickHouse
Команда ClickHouse представила официальный коннектор с Tableau.
🔵Работает с Tableau Desktop и Tableau Server — для Cloud пока не завезли. Всех, кто считает, что это упущение надо исправить как можно скорее, призывают писать об этом команде ClichHouse.
🔵В Tableau's Data Source Verification Tool коннектор показал совместимость 98%. 2% приходятся на специфические форматы даты и времени, которые ClickHouse не поддерживает.
🔵Коннектор вместе с инструкциями по установке доступен в Tableau Exchange.
🔵Подробный гайд, как пользоваться коннектором и собрать дашборд в Tableau на основе датасета в ClickHouse опубликован в блоге СУБД. Этот датасет, кстати, можно скачать и самостоятельно потестить, как работает коннектор.
Как вам новость? Уже пользовались коннектором?Читать полностью…
❤️ — Да, и расскажу в комментах про свои впечатления!
🌚 — Нет, еще не приходилось.
🚀 Прямой эфир @leftjoin и @karpovcourses через 20 минут 🔥
Сегодня в 18:00 по Москве пройдет первый прямой эфир в TG с Николаем Валиотти и Анатолием Карповым.
Два эксперта в сфере аналитики и инжиниринга данных расскажут про то, какие навыки нужны инженеру данных и как они применяются на практике в реальной работе — на примере дата-консалтинга LEFT JOIN.
Эфир приурочен к старту нового потока курса «Инженер данных» 27 марта. Так что расскажут заодно про программу обучения и возможность получить оффер от LEFT JOIN. 💙
🔜 Если у вас есть вопросы к спикерам, обязательно заплавайте их в комментариях под этим постом!
🚀Прямой эфир с Николаем Валиотти и Анатолием Карповым 🔥
Новый формат — обсуждаем в прямом эфире реальные задачи инженера данных! Анатолий Карпов расскажет, что студенты изучат во время учебы на курсе «Инженер данных», а Николай Валиотти объяснит, зачем это нужно инженеру на практике.
Это не просто вебинар, где спикер выступает с презентацией, а живое обсуждение двух экспертов в сфере аналитики и инженерии данных. Они разберут самые важные и неоднозначные модули курса:
🔵Реляционные и МРР СУБД,
🔵ETL-процессы и Airflow,
🔵Проектирование DWH,
🔵BI для дата-инженера,
🔵Управление данными.
Студенты с потока, который стартует 27 марта, смогут получить оффер в LEFT JOIN — про это тоже расскажут подробнее: что для этого нужно, какие этапы надо будет пройти и почему у нас круто работать.
Эфир пройдет 24 марта в 18:00 по Москве здесь в телеграме! Регистрация не требуется.
Если у вас есть вопросы к спикерам — про работу инженера данных, курс или оффер LEFT JOIN → оставляйте их в комментариях под этим постом ДО эфира
Вебинар «Как развиваться в профессии инженера данных?» — сегодня!
Подключайтесь в 18:00 по Мск, чтобы узнать, какие навыки помогут построить карьеру в дата-инжинирнге. Рассказывает Николай Валиотти — основатель дата-консалтинга LEFT JOIN (и этого канала), предприниматель и дата-энтузиаст, который больше 15 лет работает с данными.
Про что он расскажет?
🔵 Стек, которым надо владеть, чтобы стать востребованным специалистом.
🔵 Hard & Soft skills, которые нужны дата-инженерам.
🔵 Примеры реальных инжиниринговых задач из практики дата-консалтинга.
🔜 Регистрируйтесь и приходите на вебинар!
UPD: вебинар прошел улетно! Огромное спасибо всем участникам 💙
Польза несовершенства на примере BlueSky
BlueSky — соцсеть, созданная как альтернатива Twitter. Принцип работы тот же: пользователи создают профили, подписываются на других пользователей и видят их посты в своих лентах.
Давайте посмотрим, как это работает изнутри и почему часть постов не доходит до подписчиков — и это нормально.
🔵 Таблица Timeline — те самые ленты постов — разделена на несколько шардов, где для каждого юзера выделена своя партиция. Всего на 32 млн пользователей приходится несколько сотен шардов.
🔵 Когда кто-то выкладывает новый пост, он разлетается по его подписчикам и встраивается в таблицы, из которых формируются их ленты. Одновременно старые сообщения выводятся из них. Этот процесс работает нормально, если пользователи не шалят и не подписываются на всех подряд. Но если кто-то подписывается на тысячи или сотни тысяч аккаунтов, начинаются проблемы.
🔵 Его лента постоянно обновляется, и это создает повышенную нагрузку не только на его партицию, но и на соседей по шарду. При этом сам пользователь (если это и правда человек, а не бот) никогда не сможет прочитать все сообщения в ней. Значит, и BlueSky незачем выводить все-все новые посты — достаточно просто, чтобы в ленте регулярно появлялся новый контент.
Так, чтобы избежать перегрузки, BlueSky внедрили такие понятия:
🔵 разумное ограничение (reasonable limit) на число подписок — то есть сколько подписок нужно, чтобы лента стабильно обновлялась и оставалась читабельной.
🔵 loss_factor — процент новых сообщений, которые не попадут в ленту пользователя. Он рассчитывается по формуле min(reasonable_limit/num_follows, 1).
Допустим лимит у нас 2000, а подписан пользователь на 8000 аккаунтов. В этом случае loss_factor = 0,25, то есть только 25% новых постов попадут в его ленту.
Внедрение таких запрограммированных потерь помогло значительно поднять производительность и снизить задержки.
Как вам это решение?Читать полностью…
❤️ — Изящно!
🌚 — Можно было и получше придумать…
LEFT JOIN открыл вакансии инженера данных для студентов karpov.соurses
Это значит, что все оплатившие обучение на курсе «Инженер данных» до 27 марта, смогут претендовать на позицию Middle Data Engineer в компании. Чем предстоит заниматься, раскроем через реальный кейс. Попробуйте решить ↓
Реальный кейс от LEFT JOIN: Биллинг-сервис для медицинских организаций пришел с задачей. Хочет автоматизировать обработку данных в трансформационном слое и зашифровать данные клиентов. В качестве материалов вам отдали сырые данные о клиентах и их платежах. Попросили использовать в работе инструмент Key management.
6 TB в SQLite
Как известно, те, кто хочет, ищет способы, а те, кто не хочет — оправдания.
Те, кому не хватает целеустремленности и авантюризма, говорят, что SQLite не заточена под работу с большими объемами данных и вообще не в этом ее главное преимущество. Те, кто открыт новому и не боится вызовов, делают базу на 6 терабайт.
Ко вторым относится автор searchcode — проекта по поиску исходного кода. В базе больше 75 миллиардов строк из 40 миллионов проектов. Вот так 6,4 ТБ данных и набежало.
🔵Изначально автор использовал MySQL, и был верен ей с самого начала до конца 2024 года. Но он постоянно искал способы сделать архитектуру проекта проще и удобнее — и пришел к мысли, что пора переходитm на SQLite.
🔵Переход не всегда был простым — пришлось и разобраться, как обойти ошибку database is locked, и найти способ сжатия данных в SQLite. В MySQL вопрос решался через функцию compress, а вот в SQLite решение оказалось не таким очевидным.
Спойлернем: автор начал с поисков стороннего плагина, но в итоге пришел к тому, что более жизнеспособный вариант — компрессия на уровне файловой системы.
🔵Несмотря на все сложности, SQLite с 6,4 ТБ справляется не хуже, а иногда даже лучше, чем MySQL. Автор все равно переживает, что какие-нибудь проблемы все равно вылезут, но пока полет нормальный.
Как вам такой эксперимент?Читать полностью…
❤️ — Проект работает, цель достигнута — значит, все было не зря!
🙈 — Слишком много суеты непонятно для чего
ClickHouse в практике дата-консалтинга
Мы довольно часто имеем дело с ClickHouse на своих проектах. Это колоночная СУБД, которую выбирают за то, что она на уровне архитектуры оптимизирована для быстрой обработки больших объемов данных. При всех сильных сторонах у нее есть и минусы вроде отсутствия полноценной поддержки транзакций или сложностей при точечных операциях.
В совокупности это все делает ClickHouse отличным вариантом для проектов, где данных уже много, в перспективе станет еще больше, и их надо быстро обрабатывать, возможно даже в режиме реального времени — например, стримингов или рекламных платформ.
🔜 Выложили в нашем блоге новую статью, где кратко рассказали, что знаем про ClickHouse: особенности архитектуры, отличия между работой в облаке и on-premise и, конечно, про кейс из своей практики не забыли.
Ждем ваших комментариев — статьи на какие темы вы хотели бы увидеть в блоге?