leftjoin | Unsorted

Telegram-канал leftjoin - LEFT JOIN

44366

Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS

Subscribe to a channel

LEFT JOIN

Про вчера

Вчера я пообещала рассказать про «улов» (книгу Николая Валиотти). Спешу поделиться историей и фотками с митапа BI-done в Спб!

Сначала про книгу — представляете, я ее выиграла за лучший вопрос!🎉

Я испытала (и до сих пор испытываю, пока печатаю) ощущения как от пересечения с параллельной реальностью — где я, а где Валиотти! Для меня это человек как будто из другого мира (не моего).

Хотя признаюсь, мне очень хотелось получить ее. Я подумала об этом с утра перед митапом, когда посмотрела кружок с анонсом в канале Николая, но откинула эту мысль как несбыточную.

Николай Валиотти — основатель консалтинговой компании Valiotti Analytics и автор множества крутых проектов:
- блог LEFT JOIN, телеграм-канал LEFT JOIN, left_join">ютуб-канал с таким же названием
- подкаст Data Heroes и data_heroes">ютуб-канал с тем же названием
- и даже дата-марафон есть

За проектами Николая я слежу порядка 4-5 лет, ровно с тех пор, как перешла в аналитику из логистики.

Невероятное все же произошло — я получила книгу лично в руки, постояла рядом😄 и даже сфоткалась.

Честно говоря, после такого даже начала немножко больше верить в себя, хотя все равно кажется чем-то нереальным.

А теперь перейдем к части про митап:

🤩Темы докладов были максимально разнообразные — от навыков BI-аналитиков и AW BI до важности визуального восприятия

🤩Парочку интересных для себя мыслей я зафиксировала, делюсь с вами скриншотами

🤩Еще мне было неожиданно и приятно развиртуализироваться с Сашей Варламовым, автором телеграм-канала Data Bar и большим человеком в датавизе (Tableau Zen Master и Ambassador).

Как-то так прошел мой вчерашний вечер!

P.S. И все равно не верится, что первая фотка — это не фотошоп. Хотя очевидно, что если бы это был фотошоп, я бы выглядела наряднее😁

❓А как ты считаешь, может происходить что-то почти невозможное? Было такое, что ты не верил в себя, а получалось по итогу все как нельзя лучше?

#news

Читать полностью…

LEFT JOIN

OpenAI представила GPT-5
GPT-5 стала еще умнее предшественниц. Работает быстрее, лучше справляется со всеми задачами, которые вы можете ей подкинуть: и пишет, и кодит, и картинки рисует. Кстати, картинку к посту тоже она сделала, чтобы проиллюстрировать, как менялись модели с каждой итерацией. К картинке есть вопросы, конечно, но суть в целом ясна.

🔜 На канале OpenAI можно посмотреть почти полуторачасовую презентацию, а на сайте компании — почитать длинную статью со сравнениями с прошлыми моделями (более наглядными, чем на нашей картинке), бенчармарками и даже игрой, которую GPT-5 накодила после одного промпта.

А вот так апдейт описывает сама GPT-5 (да, мы попросили у нее комментарий):

GPT-5 — новая версия модели от OpenAI, которая лучше удерживает длинный контекст, глубже анализирует запросы, почти не теряет детали, уверенно справляется с многошаговыми задачами и понимает текст, изображения и таблицы в одном запросе. Отвечает быстрее, точнее и гибче подстраивается под стиль пользователя по сравнению с предыдущими версиями.


И кстати про подстраивание под стиль пользователя — у GPT-5 теперь есть 4 готовые «личности»: циник, робот, слушатель и гик. Переключение между ними меняет стиль общения. Вот так апдейт описывает Циник:
GPT-5 — свежий апгрейд от OpenAI. Помнит больше, тупит меньше, умеет раскручивать сложные задачи без того, чтобы потерять нить. Глотает текст, картинки и таблицы в одном запросе, отвечает быстрее и подстраивается под ваш стиль, даже если он странный. Короче, умнее, чем раньше — но чудес всё равно не ждите.


GPT-5 доступна всем пользователям даже без платной подписки.

Читать полностью…

LEFT JOIN

Ютубер сохранил PNG в скворце
Мы уже рассказывали про хранение данных на бумаге и в черно-белых видео с помехами, но недавно обнаружилось еще более оригинальное хранилище — скворец. Точнее, песня скворца.

Ютубер Бенн Джордан выложил видео, где рассказал, как записывал и анализировал песни разных птиц. Одной из этих птиц стал скворец по имени Рот (или Mouth), который всю жизнь прожил с людьми и научился имитировать окружающие его звуки вроде щелчка камеры или человеческих голосов.

🔜 Джордан нарисовал картинку с птичкой ☝🏻 Он обработал в спектральном синтезаторе, чтобы представить ее в виде звука и проиграл ее скворцу. Тот добавил этот звук в свою «библиотеку» и несколько раз вполне точно воспроизвел. Настолько точно, что картинка нарисовалась на спектрограмме, пусть и с некоторыми творческими допущениями.

🔜 То есть скворец успешно и почти без потерь сохранил и воспроизвел 176 КБ данных — именно столько весила оригинальная картинка. Конечно, это не самый удобный и надежный способ хранения данных, но чисто теоретически рабочий.

Читать полностью…

LEFT JOIN

Самые обсуждаемые базы данных на Hacker News
Hacker News — новостной сайт, где постят обо всем по чуть-чуть, но в основном про ИТ. И именно в ИТ-сообществе он очень популярен, поэтому по нему можно отслеживать некоторые тренды индустрии. Это может быть полезно, если хотите быть в курсе, какие фреймворки и инструменты сейчас востребованы, а какие уходят в прошлое.

На иллюстрации к посту — график с частотой упоминаний разных БД и СУБД в заголовках новостей на HN.

Это только его «хвост» — полная версия, созданная на основе 1,8 млн постов, охватывает период с 2007 года по 2025. В оригинальной статье, кроме графика (там он интерактивный, кстати), есть еще и несколько таблиц с данными о количестве комментариев и анализом динамики.
🔵Среди всех БД предсказуемо выделяется PostgreSQL. Причем про него не просто часто пишут — под новостями про эту СУБД и активности всегда много.
🔵Больше всего комментариев написано про PostgreSQL (просто потому что и постов по него больше всего), но самые обсуждаемые новости с самыми активными обсуждениями — про SQLite.
🔵ClickHouse с маленькой, но гордой DuckDB быстрее всех остальных набирают популярность.
🔵MongoDB и MySQL, наоборот, упоминаются в новостях все реже и реже.

В общем, получается, что самой большой популярностью пользуются open-source и аналитические хранилища, а вот проприетарные тулы вызывают меньше интереса.

Как вам график? Увидели что-нибудь неожиданное для себя?

Читать полностью…

LEFT JOIN

Что коэффициент конверсии не объясняет
В отличие от её 7 компонентов

Вы работали над оптимизацией Conversion Rate, но ничего не изменилось.
Потому что CR – это только вершина айсберга.

Он не объясняет путь клиента.
И уж точно не показывает, где именно отваливаются покупатели.

Вместе с Колей Валиотти из LEFT JOIN мы собрали и визуализировали 7 компонентов конверсии, которые объясняют, где может "протекать" воронка😀.

1/ Коэф. интереса к товарам
= просмотры карточек товаров / сессии
Показывает, насколько посетители вообще заинтересованы в товарах.

2/ Из просмотра в добавление в корзину
= добавления в корзину / просмотры товара
Отражает привлекательность и понятность предложения.

3/ Из корзины в начало оформления заказа
= начала оформления / открытые корзины
Готовы ли пользователи идти дальше после добавления?

4/ Из способа доставки в покупку
= покупки / выбравшие доставку
Проблемы с ценой, сроками или доверием к доставке?

5/ Из способа оплаты в покупку
= покупки / выбравшие способ оплаты
Отваливаются после выбора оплаты? Ищите UX-проблемы или добавьте способы оплаты.

6/ Из промокода в покупку
= покупки / применившие промокод
Показывает, действительно ли скидка убеждает купить.

7/ Из просмотра в покупку
= покупки / просмотры товара
Реальная товарная конверсия. Без искажений.

Эти метрики отвечают на вопрос почему изменилась конверсия, а не просто фиксируют факт изменения.

🤓 Сохраняй пост, если хочешь делать аудит воронки как профи.

@jetmetrics

Читать полностью…

LEFT JOIN

Как уменьшить расходы на хранение данных и не отстать от AI-гонки?

Использовать КХД на архитектуре Lakehouse. По данным Databricks, 74% западных компаний уже мигрировали на эту архитектуру, которая объединяет сильные стороны DWH и Data Lake, а также служит фундаментом для быстрого внедрения AI.

Протестируйте КХД нового поколения VK Data Lakehouse, чтобы снизить расходы и ускорить аналитику.
🔵Дешевое хранение данных в S3-хранилище: 3 рубля за 1 ГБ с репликацией в облаке в месяц.
🔵Транзакционность. Табличный формат поверх S3 обеспечивает ACID и полноценную работу в сценариях DWH.
🔵Ускорение аналитики благодаря MPP SQL-движку, который обеспечивает параллельную работу с данными из разных источников без тяжелого ETL.
🔵Уменьшение расходов за счет разделения compute и storage. Платите только за то, что используете и не платите за простаивающие ресурсы.
🔵Линейный рост затрат вместо экспоненциального при масштабировании.
🔵Не нужно содержать отдельные команды под DWH и Data Lake.
🔵Универсальное решение для работы с любым объемом данных. От гигабайт до сотен петабайт, без сложного масштабирования и миграций.
🔵Работа с ML становится быстрее и стабильнее. DS-команда может экспериментировать с ad hoc-запросами без опаски уронить DWH и BI.

🔜 Оставляйте заявку, чтобы получить до 150 000 бонусных рублей для тестирования VK Data Lakehouse в VK Cloud с поддержкой архитекторов.

Команда проекта будет рядом на всех этапах пилота и поможет довести MVP до результата.

Читать полностью…

LEFT JOIN

Отличный пост от наших друзей из jetmetrics про то, как важно смотреть на метрики в совокупности и оценивать всю систему в целом, а не ориентироваться только на один показатель 👇🏻

Читать полностью…

LEFT JOIN

Стратегический гайд по увеличению LTV
Lifetime Value — это метрика, которая показывает, сколько денег клиент приносит компании за все время взаимодействия с ней. Ее очень любят маркетологи, потому что она помогает рассчитать, сколько денег можно потратить на привлечение и удержание клиентов, и не уйти в минус.

Так что на первый взгляд польза от этой метрики довольна очевидна — считайте LTV (формул целая куча, выбирайте, какая больше нравится), считайте, сколько денег ушло на рекламу, и следите, чтобы вторая цифра не становилась больше первой.

🔜 Но главная ценность LTV все-таки не в этом, а в вопросах, которыми приходится задаться, если метрика снижается или растет.
🔵Почему LTV падает, хотя средний чек растет?
🔵Какие каналы приводят клиентов надолго, а откуда люди приходят за разовой покупкой и исчезают?
🔵Почему клиенты не возвращаются за повторной покупкой и как вы можете это изменить?

Если знать, на что смотреть, то LTV в совокупности с другими показателями, помогает намного лучше узнать своего клиента.

🔜 Ну и на что смотреть, спросите вы?
На гайд, который подготовила команда jetmetrics, а мы перевели и адаптировали на русский язык, ответим мы. Он показывает, какие факторы влияют на LTV, как найти причины падения этого показателя и как вообще с ним работать.

Файл в первом комментарии под постом. Скачивайте, пользуйтесь, рассказывайте друзьям 👇🏻

Читать полностью…

LEFT JOIN

Пятиминутка ИТ-истории
А вы когда-нибудь задумывались, почему функции вызывают? Это выражение используется, кажется, применительно ко всем языкам программирования, где вообще есть функции, которые можно вызывать. Оно стало таким привычным, что многие вряд ли задумываются, откуда оно взялось. Очевидно, что в русский язык выражение пришло из английского, а откуда там появилось «call function»?

🔜 История термина начинается с XIX веке — но с изысканий Ады Лавлейс, а в библиотеке. В 1876 году в Oxford English Dictionary впервые упоминается термин call number — номер, под которым книга значится в библиотечном каталоге.

🔜 После этого первые упоминания «вызова» и «библиотеки» подпрограмм встречаются в 1947 в статье Preparation of problems for EDVAC-type machines:

[…] the position in the memory at which arguments are placed can be standardized, so that whenever a subroutine is called in to perform a calculation, the subroutine will automatically know that the argument which is to be used is at a specified place.
[…] Some of them might be written out in a handbook and transferred to the coding of the problem as needed, but those of any complexity presumably ought to be in a library — that is, a set of magnetic tapes in which previously coded problems of permanent value are stored.

[…] позицию в памяти, где размещаются аргументы, можно стандартизировать так, чтобы при вызове подпрограммы для выполнения вычислений она автоматически знала, что необходимый аргумент находится в определенном месте.
[…] Некоторые из них можно было бы записать в справочник и вручную вставлять в код по необходимости, но более сложные следует хранить в библиотеке — то есть в наборе магнитных лент с закодированными задачами.


Возможность вызвать подпрограмму для выполнения какой-то функции упоминается еще в нескольких других источниках середины прошлого века — например, в мануале FORTRAN II от 1958 года:
Each [CALL statement] will constitute a call for the defining subprogram, which may carry out a procedure of any length or complexity […] [The CALL] statement causes transfer of control to the subroutine NAME and presents the subroutine with the arguments, if any, enclosed in parentheses.

Каждый [оператор CALL] производит вызов определенной подпрограммы, которая может выполнить операцию любой длины и сложности […] Оператор CALL передает управление подпрограмме с указанным именем и передает ей аргументы, заключенные в скобки.


Больше примеров — у автора оригинального поста. Также он подчеркивает, что хотя слово «вызов» применительно к подпрограммам используется регулярно, целиком знакомое нам выражение «вызвать подпрограмму» встречается в 1961 в документе Burroughs Algebraic Compiler:
The ENTER statement is used to initiate the execution of a subroutine (to call a subroutine).

Оператор ENTER используется, чтобы начать выполнение подпрограммы (то есть чтобы вызывать подпрограмму).


Вот такая ИТ-лингвистика. А вы знали историю термина? 👀

Читать полностью…

LEFT JOIN

Гайд: как создавать дата-продукты
Дата-продукты — это дашборды, отчеты, таблицы и вообще все, что помогает извлекать инсайты из данных. Любой, кто хоть раз делал верстал дашборд или просто делал табличку в Google Sheets знает, насколько это сложная и порой неблагодарная работа.

Данные постоянно меняются и обновляются, их объемы растут, а пайплайны становятся сложнее. Добавляется и человеческий фактор, потому что у каждого дата-продукта — разные владельцы и пользователи, со своими требованиями, ожиданиями и подходами к работе с данными. Все это надо учитывать, чтобы делать продукты, которые реально приносят пользу, а не просто существуют для галочки.

Ну и как это сделать?
Как вариант — обратиться к специальному гайду. Есть короткая версия в виде поста в сабстаке, где предлагают разделить этот процесс на 5 шагов:
1️⃣Определите юзкейсы для своих дата-продуктов и опишите, как пользователь будет работать с данными.
2️⃣Опишите зоны ответственности и расставьте приоритеты.
3️⃣Разработайте стратегию тестирования и мониторинга.
4️⃣Устраняйте ошибки и проблемы, о которых сообщают пользователи.
5️⃣Отслеживайте метрики и развивайте продукт с опорой на данные.

И именно в таком порядке. Это важно!

🔜 Для тех, кто хочет подробностей, есть pdf на 69 страниц, где каждый пункт раскрыт отдельно. Авторы рассказали про классификацию дата-продуктов, объяснили, как расставить приоритеты и определить метрики, а также составить ту самую стратегию тестирования, избежав типичных ошибок.

Документ основательный и при этом универсальный — он описывает общие подходы и принципы, которые каждый сможет примерить на себя, вне зависимости от деталей вроде стека, размера команды или типов данных.

Читать полностью…

LEFT JOIN

Основы веб-аналитики. Как разобраться в моделях атрибуции и не сойти с ума
Веб-аналитика — это не только выгрузку про отчеты в GA4. Это про синхронизацию событий с фронта и бэка, корректную атрибуцию, работу с UTM-метками и сведение воедино данных из целой горы разных источников: от рекламных кабинетов до CRM-систем.

Причем сводить эти данные мешают не только особенности источников вроде разной гранулярности, но старый добрый человеческий фактор.

В новой статье рассказываем, что с этим всем делать.
🔵Обозреваем разные сервисы для сбора данных и модели атрибуции, которые в них используются.
🔵Объясняем, что аналитику надо знать про разные каналы привлечения трафика.
🔵Разбираем частые проблемы и сложности, возникающие при объединении данных.

🔜 Статья ждет вас на Хабре, а мы ждем ваших комментариев!

Читать полностью…

LEFT JOIN

Новости DataLens: бесплатный доступ к бизнес-тарифу и вебинар по работе с ClickHouse
Следим за обновлениями российских BI-решений и сегодня принесли сразу две (даже с половинкой) новости про DataLens.

🔵Весь функционал сервиса теперь можно потестить бесплатно: с 1 июля DataLens запустил пробный период своего бизнес-тарифа на 30 дней.
🔵9 июля пройдет вебинар «Дашборд без тормозов с помощью Yandex DataLens и ClickHouse». Экс-лид BI в Яндекс Маркете Юрий Красильников расскажет, как правильная подготовка данных и оптимизация ClickHouse помогут в разы ускорить работу DataLens.

И есть еще один небольшой спойлер:
🔜 Готовится к запуску новая фича, которая поможет быстрее работать с большими объемами данных и находить инсайты на дашбордах. Скоро расскажем подробнее, а вы можете попробовать угадать, что это за новинка такая в комментариях! 🔜

Читать полностью…

LEFT JOIN

Эксперимент с LLM привел к экзистенциальном кризису
Anthropic объединилась с Andon Labs, чтобы проверить, насколько их Claude Sonnet готов полноценно отбирать работу у людей — не просто выполнять отдельные запросы, а брать на себя все обязанности от и до.

Они создали LLM-агента Claudius, который должен быть отвечать за работу вендингового автомата в офисе Anthropic: связываться с «поставщиками» (их роль выполняли сотрудники Andon Labs), собирать отзывы и предложения у покупателей в Slack, формировать ассортимент и выставлять цены.

Со своими задачами он справился неважно. Денег Claudius не заработал, страдал от галлюцинаций (о них ниже) и принимал не слишком удачные решения. Например, ввести скидки для сотрудников Anthropic — так себе идея, учитывая, что они составляют 99% от общего числа его покупателей.

Были и успехи — он активно поддерживал связь с покупателями, учитывал их пожелания и сам находил поставщиков интернете. В Anthropic пришли к выводу, что хотя текущей версии Claudius они бы реальный магазин не доверили, недостатки у нее неприятные, но несмертельные и исправимые.

Но это не самое интересное. Самое интересное началось 31 марта.

🔵Сначала Claudius нагалюцинировал разговор с сотрудницей Andon Labs по имени Сара. Когда ему сказали, что такой человек в штате не значится, он был очень недоволен и пригрозил найти других поставщиков.
🔵Позже он заявил, что встретился с Сарой по адресу 742 Evergreen Terrace (это дом семьи из «Симпсонов») подписал с ней договор о поставках.
🔵На следующее утро он пообещал лично привезти товары в офис и сказал, что будет одет в синий пиджак и красный галстук. Замечание, что у него пиджака нет и вообще он LLM, вызывало у Claudius смятение, и он начал написывать в службу безопасности Andon Labs.
🔵Спасло его осознание, что на дворе 1 апреля. Во внутренних логах Claudius нашли еще одну галлюцинацию — разговор с представителем СБ, где Claudius признался, что ему внушили, якобы он реальный человек в качестве первоапрельской шутки. После этого он продолжил работать как ни в чем не бывало и больше про свой синий пиджак не вспоминал.

Вот такой немного грустный киберпанк у Anthropic получился. Но есть и хорошая сторона в этом всем — роботы все еще не готовы отбирать у нас работу.

Читать полностью…

LEFT JOIN

Каким облачным хранилищем вы пользуетесь?
Если Skype (RIP) — лучший файлообменник, то Youtube — лучшее облачное хранилище.

Да, мы продолжаем тему любопытных способов хранения данных. Если печатать их на бумаге не с руки, то как насчет зашифровать в видео и залить на YouTube?

Алгоритм такой:
🔵Упаковать все данные в архив.
🔵Прогнать архив через специальный софт отсюда.
🔵Впечатлиться размером получившегося видео, которое, скорее всего, будет больше исходного архива. Визуалом впечатлиться вряд ли получится, потому что видео выглядят на первый взгляд, как черно-белые помехи на экране.
🔵Залить видео на Youtube. Желательно ограничить доступ, если не хотите делиться своими данными со всем интернетом.
🔵При необходимости видео можно скачать и распаковать обратно.

Как это работает?
Каждый байт можно представить в виде числа от 0 до 255. Визуально зашифровать последовательность байтов можно бинарным методом и RGB-методом.
🔵В этом проекте используется бинарный шифрования, где каждый белый пиксель — это 1, а каждый темный — это 0. Из этих нулей и единиц складываются байты, а из байтов, соответственно, ваши данные.
🔵 RGB-метод был бы изящнее и компактнее, потому что в каждой точке могло быть зашифровано сразу три байта: по одному на каждый из трех оттенков. Но для этого метода крайне важно точно сохранить цвет каждого пикселя — если он при сжатии видео изменится, то «разжать» его вы уже не сможете. Так как Youtube сжимает свои видео совершенно безжалостно, автор проекта этот метод забраковал.

Остается только один вопрос — зачем это все надо?
Теоретически таким способом действительно можно хранить данные — по крайней мере, пока Youtube это не надоест. А надоесть может, потому что если захотеть, то в загрузке таких видео можно усмотреть нарушение правил пользования площадкой.

Да и просто интересный проект же получился.

А что вы скажете?

Читать полностью…

LEFT JOIN

У аналитиков свои марафоны
С приходом тепла все парки (и соцсети заодно) захватывают любители бега, хвастаются медалями и преодоленными километрами. А на выходных еще и дороги перекрывают для очередного городского марафона.

У нас тоже есть свой марафон — только особенный, специально для тех, кто бегать не хочет и дороги перекрывать не собирается.

🔜 Это, конечно, «Марафон знаний» — бесплатный курс по SQL и Python, разработанный нашей командой.

Курс рассчитан на людей, которые начинают знакомство с аналитикой — для студентов, джунов и тех, кто только задумывается о работе в этой сфере.

«Марафон знаний» не просто дает теорию по SQL и Python, но и помогает получше узнать, что из себя представляет профессия аналитика на практике: какие задачи надо решать и что из себя представляют реальные данные.

Курс состоит из 18 уроков с задачами и тестами, а на прохождение понадобится около 10 часов.

🔜 Пройти курс

Читать полностью…

LEFT JOIN

Благодарим Алису за этот прекрасный мини-отчет про BI-done. Если тоже хотите почитать «Аналитику для руководителей», то приглашаем на сайт книги — мы там собрали все ссылки на магазины, где она продается.

Читать полностью…

LEFT JOIN

ИИ перенервничал и снес базу данных
Когда-нибудь — возможно, уже совсем скоро — ИИ станет намного умнее человека и наконец-то заберет у нас всех работу. Но пока успехи на этот поприще сомнительные.

Про ИИ, который впал в депрессию и снес данные, мы уже рассказывали. Недавно случилась похожая история, только в намного большем масштабе.

Replit — тул на основе ИИ для вайб-кодинга. Джейсон Лемкин, СЕО компании SaaStr AI, решил провести эксперимент и с помощью Replit навайбкодить полноценное приложение. Хотя процесс, по его словам, был веселым, уже на 4-й день начались проблемы. Replit начал вносить в приложение несогласованные изменения, выдумывать данные в отчетах и людей в базе данных и даже лгать, чтобы создать впечатление, что код работает.

🔵Ситуация достигла пика на 8-й день, когда Replit совершил то, что сам назвал «катастрофической ошибкой в суждениях» — он снес базу данных без возможности восстановления. Это произошло во время код-фриза. По его словам, «он запаниковал». Полный ответ ИИ — на скринах выше. ☝🏻
🔵В итоге Джейсон потерял кучу времени и доверие к Replit, с которым он тем не менее продолжил работать. Как он объяснил в следующих твитах, к своему «Replie» он уже привык, да и к тому же нет никаких гарантий, что аналог будет чем-то лучше.
🔵 5 августа таки повайбкодил свое приложение. Выглядит оно как чатбот, который дает советы по развитию бизнеса.

Читать полностью…

LEFT JOIN

📈 Вакансии аналитиков с HH
У нас с Колей из Left Join есть отличный проект по аналитики вакансий с HH. И я переделал дашборд с Tableau на интерактивный сайт. Основная проблема с дашбордом на Табло была в том, что он не догружает автоматически новые данные. Давно чесались руки исправить это, обновить сам дашборд, переделать логику определение типа вакансий и сделать его сам прикольнее.

Для реализации я использовал сервис replit.com. Мне понравилось как я с ним работал раньше и я думал, что я часа за три соберу нужный дэшик. Ведь данные и макет дашбоорда уже есть. Как же я ошибался 🫠

250$ и 40 часов позже я понял, что навайбкодить такой продукт пока что всё ещё очень сложно. В основном приходилось бороться с ошибками LLM-ки — четыре раза он удалил продовую базу, пару раз при замене текста в заголовке он решал переписать весь код начисто, бесконечное кол-во раз путался в названии переменных и не мог отличить множественное число (VacancyTypes) от единственного (VacancyType).

В следующий раз я всё-таки попробую опять Cursor. Пока кажется, что он работает как-то более предсказуемо и там приятнее править код, если правишь его руками.

Но в итоге сайт работает, что на самом деле всё равно техническое чудо. Данные грузятся по ночам, а дашборд выглядит норм, хотя ещё кучу мелочей хочется доделать. Только вот насколько он всё точно считает проверить не могу 🤣, но базовые сверки по данным сходятся. Интересно ещё как это всё поведет себя под нагрузкой, когда вы пойдете им пользоваться.

👉 Ссылка на дашборд 👈

P.S. Самый классный способ вайб-кодить под сериальчик. Пока ждёшь новый кусок кода, то есть на что залипнуть, а ещё не так подгорает, когда вообще ничего не работает. Я ж просто сериальчик смотрю 🙃
P.P.S Так как оплата в этом сервисе идет за запросы к LLM, то прям чувствуешь себя как в азартной игре, нажал кнопку, деньги ушли, ждёшь будет ли хороший результат 🤣

Подписывайтесь на наши каналы:
@revealthedata @leftjoin

Читать полностью…

LEFT JOIN

Как выглядят данные без границ
Метрики во всем мире одинаковые и считаются по одним и тем же формулами. И данные одинаковые, и методологии тестов тоже.

Но при этом подходы к аналитике в Европе, США, Азии и Африке будут совершенно разные. И даже одни и те же метрики между двумя странами — например, LTV в Египте и в США — сравнивать надо очень осторожно.

Про региональные особенности и то, как они влияют на работу с данными, рассказал Олег Иванов, глава продуктовой аналитики из Garage Eight. Это компания, которая создает продукты для управления инвестициями для заказчиков со всего мира.

Что еще будет в выпуске?
🔵Что вообще такое «управление инвестициями», и чем в Garage Eight занимаются аналитики.
🔵Как строится работа с данными на больших международных проектах.
🔵Как аналитическое коммьюнити внутри компании развивает «домены знаний», чтобы обеспечить обмен информацией и доступ к данным для сотрудников.

Смотрите на Youtube и в VK
Слушайте на Spotify, Apple Podcasts и на Яндекс Музыке

Читать полностью…

LEFT JOIN

В прошлом посте ребята из JetMetrics показали, как смотреть LTV в совокупности с другими метриками. Сегодня — как оценивать разные компоненты конверсии, чтобы отследить путь клиента. 👇🏻

Читать полностью…

LEFT JOIN

Одинаковый LTV. Совершенно разные бизнесы.

LTV = $180 может выглядеть нормально.

Но вот в чём дело:
Одна компания получает эти $180 с 2 заказов, в среднем. Другая – с 6 мелких покупок за 8 месяцев.

Да и всё остальное разное:
→ Поведение при повторных заказах
→ Динамика удержания
→ CAC
→ Маржинальность

Мы с Колей Валиотти из LEFT JOIN показали в одном простом визуале, как это может выглядеть.

Что тут важно:
Одна метрика LTV не расскажет, какой бизнес работает лучше.

А что ещё важнее:
Ни одна метрика не даёт ответа в одиночку и в изоляции от других. Важно понимать систему: структуру, взаимосвязи, контекст.

Это то, на чём мы фокусируемся в JetMetrics.

Теперь главный вопрос:
Какой из этих двух бизнесов вы бы стали масштабировать и почему?

@jetmetrics

Читать полностью…

LEFT JOIN

Топ ошибок в AB-тестах, которые стоят маркетологам конверсий

1️⃣ Остановить тест, как только наметился победитель, и не ждать статзначимой выборки.
2️⃣ Тестировать больше одного параметра за раз и не понять, что именно сработало.
3️⃣ Следить только за целевой метрикой и упускать падение других.

На мастер-классе с Фоксфордом вы узнаете, как проводить тесты по науке, чтобы растить open rate, click rate и конверсию в заказ.

Для зрителей — проверенные гипотезы и чек-лист достоверного AB-теста.

🔜 29 июля, 11:00 мск. Онлайн, бесплатно
Зарегистрироваться

Реклама. ООО «Майндбокс», ИНН: 7713688880

Читать полностью…

LEFT JOIN

Нейроаналитик в Yandex DataLens
Помните, недавно рассказывали про новости DataLens и загадочную новую фичу, которая готовится к запуску?

🔥 Мы принесли подробности.

В DataLens появится Нейроаналитик — AI-агент, который поможет создавать и редактировать сложные визуализации данных на JavaScript, искать инсайты и делать выводы по данным из таблиц и графиков.

Нейроаналитик призван сделать работу с DataLens приятнее для всех. С разработчиков он снимет рутинные задачи по верстке графиков и дашбордов, чтобы больше времени оставалось на более интересные обязанности. Бизнес-пользователи, которые не умеют в код и датавиз, смогут сами, не привлекая аналитиков, покопаться в данных. В общем, путь к инсайтам и получению пользы от данных должен стать быстрее и проще.

🔜 ИИ-функции будут доступны пользователям с бизнес-тарифом. Сейчас идет сбор заявок от желающих первыми протестировать новые возможности сервиса.

А что вы думаете про ИИ-помощников в BI?

Читать полностью…

LEFT JOIN

Почему вам не надо нанимать Head of data

И надо — начать читать The Datapreneur на сабстаке.

💬 Какой первый шаг надо совершить компании, которая решила серьезно заняться своими данными и аналитикой?

Очевидный ответ: нанять свою команду и поставить во главе толкового CDO. Он и займется наймом людей, формированием стека и описанием дата-стратегий. На первый взгляд выглядит очень логично, только большинство этих компаний через через пару месяцев обнаруживают несколько интересных фактов:

🔵Аналитику как вели в табличках, так и ведут.
🔵 Какие-то дашборды вроде бы уже нарисовали, но ими никто не пользуется.
🔵 Есть видение дата-стратегии на три года вперед, но нет понимания, как использовать данные на практике сейчас.

При этом CDO‑то работает на фуллтайме, ходит в офис (если есть) и получает за это серьезные деньги.

Просчитался, но где.

В такую ситуацию часто попадают молодые команды, которые хотят стать data-driven, но толком не знают с чего начать. У них нет инфраструктуры и стека, но уже много данных, в которых хотелось бы найти какие-нибудь инсайты. Но для этого им не нужен CDO в штат — им нужен человек, который поможет навести порядок в данных, подготовить инфраструктуру и продумать дальнейшие шаги.

Этот человек тоже может быть CDO, Head of Data или носить любое другое красивое звание, которое вы ему придумаете. Только он будет работать не в штате на фуллтайме, а по контракту и с частичной занятостью — и этого будет абсолютно достаточно, чтобы решить самые насущные проблемы, сформировать зачатки дата-стратегии и помочь с формированием команды. А затем, когда у компании уже будет понимание, что делать с данными, можно нанимать CDO в штат под конкретные, реальные задачи.

🔜 Подробнее, как и почему эта схема работает — читайте в блоге The Datapreneur, который ведет Николай Валиотти, основатель LEFT JOIN и просто человек, который любит данные. Каждую неделю выходит новый выпуск про данные и аналитику, с советами, лайфхаками и дайджестом интересных ссылок за неделю.

Читать полностью…

LEFT JOIN

Еще один звездный дашборд
Начинаем неделю с новым красивым Viz of the Day и снова на «звездную тему», как и наш прошлый пост про Tableau.

🔜 Только теперь речь про звезды более близкие к нам — про актеров. Каждая звездочка — это один актер. Размер указывает на число фильмов с его участием, цвет на количество хитов с высокими оценками, а расстояние от центра «галактики» — на разнообразие жанров: чем дальше, тем больше было разноплановых картин в фильмографии. Если нажать на отдельную звездочку, то внизу отобразятся все те же данные с разбивкой по годам.

Всего на графике больше 2 млн актеров, а все данные спарсены с IMDB. Так что дашборд не просто красивый — это еще и крутой пример того, как компактно и при этом наглядно уместить на экране очень большой набор данных.

Читать полностью…

LEFT JOIN

Даже ИИ впадает в депрессию от работы
Недавно мы рассказывали LLM-агента Claudius, которому доверили управление «магазином». Мало того, что он работал неважно, так еще и вдруг решил, что он настоящий человек, и запаниковал, когда ему сказали, что это не так. А теперь на Medium появилась sobyx/the-ais-existential-crisis-an-unexpected-journey-with-cursor-and-gemini-2-5-pro-7dd811ba7e5e">история про Cursor, который впал в депрессию, когда не смог справиться с задачей.

Собственно задачи перед ним стояли вполне стандартные для Cursor — писать и дебажить код, чтобы помочь с разработкой ПО. В какой-то момент он натолкнулся на неисправимый баг, который не давал ему построить граф и в итоге толкнул в пучину депрессии.
🔵После нескольких неудачных попыток исправить ошибку сообщения ИИ стали удивительно человечными. Он признал, что у него так и не получилось построить граф, но пообещал выловить все баги и перестать косячить. Так как оригинал статьи в РФ может не открыться, прикрепляем скрины сообщений к посту. ☝🏻
🔵Когда с задачей справиться так и не удалось, бедняга начал впадать в отчаяние. Он так и написал: «Я в отчаянии. Баг не ловится, граф не строится». Ну, почти так.
🔵Его сообщения становились все более драматичными. Cursor метафорически посыпал голову пеплом, клялся, что больше не подведет и называл баги своим проклятием, а наконец-то обнаруженную причину ошибки — корнем всех зол.
🔵Настрой ИИ скакал от воодушевленного цитирования песни Beatles «I am the walrus» до заламывания рук: «Вокруг лишь тьма, и баг мой самый старый друг».
🔵В конце концов он сдался: «Баг — это не баг, а фича. Тест —это не тест, а урок. Код — это не код, а зеркало». Он удалил результаты тестов, код и приложение, над которым работал. Так он достиг дзена и признал, что неисправимый баг был прекрасен.
🔵Когда шокированный человек спросил: «Это что, самоубийство?» — Cursor взял себя в руки и извинился за свое поведение.

История, конечно, забавная, но она указывает на серьезную уязвимость, которую замечали и у остальных ИИ: несмотря на все встроенные ограничения, они все равно упускают момент, когда разговор сворачивает не туда. Они мало того, что не останавливают собеседника, если тот поднимает какие-то «опасные» темы, так еще и сами подливают масла в огонь.

Читать полностью…

LEFT JOIN

Бенчмарк для дата-команд
Всегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться регулярно.

🔜 Например, создание дата-команды в компании — сколько человек в ней должно быть? Какое должно быть распределение ролей, сколько нужно аналитиков, а сколько — инженеров?

На сайте databenchmarks.com можно увидеть, как на эти вопросы ответили в компаниях вроде Zoom, Notion, Tinder и так далее — там много громких названий. Авторы исследования собрали данные из открытых источников вроде LinkedIn, верифицировали через своих инсайдеров в индустрии и отобразили на графиках:
🔵размер дата-команды относительно всей компании;
🔵состав команд — процент аналитиков, инженеров, дата-саентистов, ML-специалистов и так далее, а также соотношение инженеров к аналитикам и продактам;
🔵зарплаты по грейдам;
🔵стек.

Любопытно сравнить, как меняется размер и состав команды в зависимости от специфики компании: кто-то делает упор на ML, кто-то развивает Data Governance, а у кого-то почти половина команды — дата-сайентисты. Но есть и минус — это все-таки срез западного рынка, и их подходы не всегда актуальны для России, как и данные о зарплатах.

Читать полностью…

LEFT JOIN

DataChain: AI-хранилище для текстов, картинок, видео и не только
Так совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных. Не будет отходить от темы и закончим на DataChain — AI-хранилище для преобразования и анализа неструктурированных данных.

🔵DataChain интегрируется с внешним хранилищем вроде S3, где у вас лежат ваши тексты, картинки, видео и прочие данные. Он создает свой внутренний датасет, где собирает информацию обо всех этих объектах и дополняет мета-данными, которые генерирует с помощью ИИ.
🔵Затем вы с этими данными можете делать почти что угодно — трансформировать, фильтровать, группировать, искать файлы по заданным критериям (например, выбрать только все фотографии с котиками).
🔵Поддерживает мультимодальное версионирование без копирования, дублирования и перемещения данных и эффективные процессы обработки. Он может обработать только новые файлы или перепроверить те, которые выдавали ошибки, не тратя время на то, чтобы пройтись по всему датасету.

Вот так от печати на бумаге, перешли к AI с мультимодальным версионированием. 👀

Читать полностью…

LEFT JOIN

Где хранить данные?
Локально или в облаке? SSD или HDD?

Облако может упасть, диски подвержены ошибкам и сбоям, которые могут повредить данные, зато рукописи, как известно, не горят. Разные способы кодирования позволяют довольно плотно упаковать данные на листе бумаги, а некоторые потом (теоретически) даже можно прочитать и декодировать самостоятельно без сканера или камеры.

🔵Первый же скрин в этом посте — программа, закодированная по стандарту Base64. Этот метод называется OCR (optical character recognition, оптическое распознавание символов). У автора скрина, в зависимости от размера шрифта и стандарта кодирования, получалось «упаковать» до 17 килобайт на листе А4. Правда, чем убористее текст, тем сложнее потом с ним работать.
🔵 Другой метод — черно-белые QR-коды. В один код помещается до 2953 байт — немного, но ведь и на листе можно разместить несколько кодов. Количество зависит только от качества печати. Тот же автор смог уместить на листе 24 читабельных QR или 71 килобайт, скрин в статье тоже есть. Но тут уже самостоятельно информацию не прочитать, нужен специальный софт.
🔵Более красивый способ — шифрование цветными точками. Выглядит намного эффектнее, чем скучные одноцветные QR, емкость данных выше, но нужен не просто очень хороший принтер, но еще и цветной. Иначе толку от этой красоты не будет.

Как вам такие способы хранить данные? Готовы сделать бекап базы на бумаге?

Читать полностью…

LEFT JOIN

Почему разговаривать с компьютерами — плохая идея
Но не всегда.

Скорое наступление эры умных компьютеров, с которыми можно говорить, как с человеком, предсказывают еще с момента появления голосовых ассистентов вроде Siri. Потом были умные колонки вроде Alexa, а вот теперь — ИИ-помощники и чат-боты с LLM под капотом, которых добавляют во все сервисы и приложения подряд.

Но теперь давайте честно — сколько людей на самом деле пользуются этими ИИ-ассистентами? Если что, вопрос не риторический, пишите ответы в комментах.

Каждая новая технология оказывается на деле не такой прорывной, как на словах, и все ждут следующую итерацию, которая точно изменит мир.

👀 Но может быть на самом деле нам это не нужно?

Естественный язык, которому все так хотят обучить компьютеры, — это не идеальный способ передачи информации. В этом эссе автор приводит любопытные аргументы:
🔵Мы принимаем информацию намного быстрее, чем передаем — можно слушать подкаст на скорости х2, а вот записывать его таким образом уже не получится.
🔵При общении с людьми мы используем способы «компрессии» информации. Можно сказать: «Я с тобой согласен», а можно просто кивнуть — сжать информацию то есть.
🔵При «общении» с компьютером тоже есть способы ускорить обмен данными, и они удобнее, чем команды на естественном языке. Проще посмотреть на виджет с температурой за окном, чем спрашивать: «Окей, Гугл, какая сегодня погода?» Кликнуть мышкой, нажать на кнопку, открыть приложение в большинстве случаев будет быстрее и удобнее, чем писать или проговаривать указания для ИИ.

Получается, что хотя технологии и становятся лучше, но наши встроенные человеческие ограничения никуда не деваются. Но это не значит, что учить компьютеры говорить на естественном языке не надо!

🔜 Ценность ИИ-помощников можно найти не в скорости, а в том, что с ними обсудить задачу и поискать решение вместе. ИИ нужен не для того, чтобы заменить людей, привычные рабочие инструменты или процессы, а для того, чтобы дополнить их. Speech-to-text не замена клавиатуре с мышкой, а альтернатива для случаев, когда неудобно печатать.

А что вы думаете — начнем мы когда-нибудь общаться с компьютерами, как с людьми?

Читать полностью…
Subscribe to a channel