44366
Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS
Онлайн-магистратура по дата-аналитике: набор открыт!
Онлайн-курсам часто не хватает фундаментальной вузовской базы, а многие университетские программы не успевают за развитием индустрии и не дают актуальные знания.
Институт искусственного интеллекта и анализа больших данных BASAND.AI ТГУ совместно с Академией Дата-Дайвинг разработали онлайн-магистратуру, которая решает обе эти проблемы. Программа «Дата-аналитика для бизнеса» создана, чтобы готовить специалистов, которые умеют не просто строить графики, а решать реальные бизнес-задачи с помощью данных по трем направлениям:
🔵продуктовая аналитика,
🔵маркетинговая аналитика,
🔵BI-аналитика.
Студенты учатся онлайн, но со всеми плюсами очного образования, включая студенческие льготы и отсрочки от армии. Их наставниками будут как преподаватели ТГУ, так и практики из Авито, Газпромнефти, Ситимобил и других компаний, которые у всех на слуху.
В результате выпускники изучат современные инструменты и технологии анализа данных и получат сразу два диплома: магистратура ТГУ и профпереподготовка от Академии Дата-Дайвинг. Они поучаствуют в проектах с реальными бизнес-кейсами, в том числе — у генерального партнера Wildberries & Russ.
Программа подойдет:
🔵студентам старших курсов и выпускникам бакалавриата,
🔵специалистам из смежных областей, готовым к смене профессии,
🔵аналитикам, желающим расти до уровня тимлидов или менеджеров.
Старт обучения — 18 сентября 2025 года. Длительность программы — 2 года.
🔜 Узнайте подробнее и оставьте заявку на сайте.
Количество мест ограничено.
А вы видели топ книжных бестселлеров мая?
«Причем здесь аналитика и книжные бестселлеры?» — спросите вы.
А при том, что в этот топ попала книга Николая Валиотти «Аналитика для руководителей»! 🔥
Мы про нее уже много раз рассказывали на этом канале, поэтому не будем повторяться — ну почти. Просто напомним про лендинг c ссылками на все магазины, где вы можете ее купить, если еще этого не сделали.
Редкое явление для нашего острова!
Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!
Неуверенный калькулятор
Было бы здорово, если бы все в этом мире было точно и однозначно, особенно, когда речь идет о цифрах. Например, когда вы планируете переезд в другой город или хотите прикинуть доход от инвестиций.
Но так бывает не всегда, и нам регулярно приходится иметь дело с неопределенностью, когда в уравнении слишком много переменных. Вместо точных цифр — размытое «зарплата от 50 до 150к», «ремонт будет стоить то ли 10 000, то ли 100 000 и займет где-то от недели до полугода» и все в таком духе.
И как быть?
🔜 Вечный вопрос, на который у нас наконец-то есть ответ — использовать неуверенный калькулятор. Суть проста: вы вносите в него не точные цифры, а диапазон от минимального возможного значения до максимального. Таких диапазонов в расчетах может быть несколько, и в ответе он тоже выдаст диапазон — от минимального результата, который вы можете получить с вашими вводными, до максимального.
Калькулятор не рассчитывает никакие вероятности, ковариантности и прочее, но помогает хотя бы обрисовать границы, на что вы можете рассчитывать.
🔜 Автор пишет, что вариантов использования у его разработки множество — от расчета эффективности маркетинговой кампании до вычисления количества инопланетных цивилизаций, с которыми человечество может вступить в контакт.
Много ли пользы от ИИ в науке?
ChatGPT и генерация картинок в духе «советские плакаты в стиле Ghibli» — это не предел возможностей современного ИИ, который активно применяется в науке. Один из самых известных примеров (но далеко не единственный) — это AlphaFold, ИИ, предсказывающий пространственные структуры белков.
Надежд на ИИ много, но вот насколько он оправдывает ожидания?
🔜 Физик Ник МакГрейви решил использовать ИИ для решения дифференциальных уравнений в частных производных. Изначально он к этой идее относился с большим энтузиазмом, но быстро разочаровался — нейросети оказались ненадежным инструментом с нестабильными и недостоверными результатами.
Разочаровали и статьи коллег об использовании ИИ в этой сфере. Да, в них много писали о том, что с помощью нейросетей уравнения решаются в миллионы раз быстрее, чем стандартными методами, но Ник на своем опыте это подтвердить не смог.
🔵Оказалось, что авторы научных работ часто сравнивали эффективность ИИ с устаревшими вычислительными методами. По сравнению с более современными подходами нейросети зачастую давали незначительное преимущество или вообще справлялись хуже.
🔵Ник не единственный, кто обратил внимание на проблемы с воспроизводимостью результатов ИИ. Уже есть целый список научных публикаций, данные в которых оказались недостоверными и неточными из-за утечек данных при обучении ML-моделей.
🔵Еще один пример — из портфолио DeepMind, которые и разработали знаменитый AlphaFold. Они заявили, что другой ИИ-инструмент, GNoME открыл миллионы новых кристаллических структур. Но когда часть этих структур проанализировали ученые, они обнаружили, что большинство из них ценности не имеют.
🔵Трезво оценить возможности ИИ не дает еще и ошибка выжившего — исследования, где он не помог добиться желаемого, часто не доходят до публикации.
То есть это все хайп и маркетинг, а ИИ для науки бесполезен?
Конечно, нет — польза от ИИ есть и, скорее всего, будет расти. Но на его достижения надо смотреть трезво и не вестись на громкие заголовки в прессе. И, как оказалось, даже серьезные научные публикации на эту тему стоит воспринимать со здоровым скепсисом.
А что вы думаете про ИИ в науке?Читать полностью…
❤️ — Верю, что за ним будущее
🙈 — Сомневаюсь, что он от него на самом деле будет много пользы…
"Нашу маму и там, и тут показывают" — LEFT JOIN на Aha!25
Пусть в этом году команда LEFT JOIN не смогла присоединиться к конференции физически, мы все равно не могли это пропустить.
Передаем привет и желаем послушать как можно больше крутых выступлений — а перерывах поймать наше видео на экранах в фойе "Ломоносова"!
От запроса до результата: как работает SQL-движок
SQL-движок — это логический уровень между пользователем и данными в базе, который отвечает за обработку запроса и формирование результата. Но как он это делает?
Один из авторов проекта Dolt (как его описывают сами разработчики — БД, которая работает, как репозиторий на GitHub) написал целую статью про опыт работы с их движком go-mysql-server. Хотя акцент именно на этот движок, он также рассказывает про разные подходы и принципы работы SQL-движков в целом.
Если кратко:
🔵Выполнение запроса можно разделить на 7 шагов — парсинг, привязка к данным в БД, упрощение плана выполнения, оптимизация порядка выполнения джойнов, оценка эффективности плана, выполнение, вывод результатов.
🔵Сначала движок проверяет корректность запроса. Он формирует абстрактное синтаксическое дерево на этапе парсинга, а затем сопоставляет его с данными в базе.
🔵Если запрос был составлен правильно, то движок начинает формировать оптимальный план работы — наиболее быстрый и требующий минимально необходимое количество ресурсов, с учетом всех функций, джойнов и агрегаций. Для этого он старается как можно скорее «отбросить» все строки и колонки, которые не нужны в запросе, а также просчитывает разные варианты выполнения и выбирает самый быстрый.
🔵В конце концов, движок конвертирует выбранный план в исполняемый формат и выдает юзеру долгожданный результат.
Автор каждый пункт разбирает подробно — как движок парсит запрос, с какими сущностями в БД сопоставляет на стадии привязки и как подбирает оптимальный способ выполнения запроса, еще и с картинками. В общем, почитать любопытно, даже если с Dolt работать не планируете.
«Аналитика для руководителей» уже в продаже!
Купить книгу Николая Валиотти вы можете на Литрес, Ozon, WIldeberries, Book24 и в Читай-городе. Все ссылки собрали здесь.
Мы много говорим про то, как важно аналитикам уметь понимать требования и запросы бизнеса, но не менее важно и бизнесу понимать, как работать с аналитикой:
🔵Как она работает и какую пользу может принести?
🔵Из чего состоит система аналитики и зачем нужен каждый из ее компонентов?
🔵Чем занимаются разные специалисты в дата-команде?
🔵Что вообще такое «решения на основе данных» и как их принимать?
Про все это и рассказывает «Аналитика для руководителей» — понятым языком и с наглядными примерами из практики. Она рассчитана на бизнес-пользователей, продактов, маркетологов и руководителей разного уровня, которые каждый день работают с цифрами и данными и хотят научиться делать это еще эффективнее.
А вы уже купили «Аналитику для руководителей»?Читать полностью…
❤️ — Да!
🌚 — Еще нет…
А вы знаете, что произошло в начале 2024?
Конечно, на этот вопрос можно дать несколько разных ответов, но нас интересует одно из самых крупных изменений в Polars — изменение структуры данных для строк.
Почему вспоминаем про это сейчас?
Потому что это все еще интересно — статья рассказывает про тонкости работы Polars, про которые кто-то может и не задумывался.
В чем суть?
Изначально Polars следовали спецификации Apache Arrow, но решили отойти от этого формата, чтобы улучшить производительность.
В Apache Arrow данные строкового типа «проходят» через три буфера: буфер валидности, общий буфер data и дополнительный буфер с оффсетами для определения начала и окончания каждой строки. Такой формат обеспечивал компактность, но у него были и недостатки:
🔵Сложно заранее определить, сколько памяти надо выделить под строки,
🔵Операции gather и filter начинали тормозить при работе с длинными строками.
Это и подтолкнуло к переходу на формат, который используется в Hyper/Umbra. Здесь строки хранятся в «представлениях» — колонках фиксированной ширины по 16 байт. Короткие строки до 12 байт встраиваются напрямую, длинные — в отдельный буфер. В оригинале статьи есть наглядные схемы, как это работает.
Новый подход обеспечивал быстрый доступ к коротким строкам, поддержку интернирования для длинных, стабильное время выполнения операций filter и gather и вообще в целом оказался удобнее. Минусы у него тоже были — например, пришлось пожертвовать компактностью в пользу скорости обработки данных.
🔜 Но все было не зря — судя по бенчмаркам в конце статьи, переход на новый формат дал значительный прирост производительности, особенно при работе с «тяжелыми» строками.
Yandex Cloud расскажет, как превратить данные бизнеса в результат
Аналитики и дата-инженеры часто фокусируются на хард-скиллах: SQL, работе с инструментами, тонкостях обработки данных. Это важно, но недостаточно, чтобы строить карьеру и браться за действительно интересные проекты. Ключевой навык — стратегическое мышление: понимать, как ваша работа решает бизнес-задачи, а не просто закрывает текучку.
🔜 Как это делать?
Хороший вариант — перенимать опыт экспертов. Например, на профессиональных конференциях таких как та, что проводит Yandex Cloud 28 мая.
В программе Data&ML2Business:
🔵как «Кама» объединила телеметрию, производство и клиентские данные в одну BI-систему,
🔵опыт построения гибридных платформ с аналитикой в реальном времени,
🔵кейсы от Яндекса, ЦИАН и партнёров, работающих с большими потоками данных и ML-технологиями для их анализа,
🔵подходы к внедрению речевых технологий и ML в продуктах.
А также ожидаются новинки в data- и ML-направлениях Yandex Cloud:
🔵BI-системе DataLens,
🔵Data Platform,
🔵ML- и AI-сервисах.
Хотите познакомиться с новыми технологиями, узнать лучшие практики и развить стратегическое мышление? Регистрируйтесь — участие бесплатное.
🔜 Прочитать подробности и зарегистрироваться!
7–8 июня проводим Weekend Offer Analytics
Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 3 лет на Python, готовых работать в офисном или гибридном режиме.
Подавайте заявку до 3 июня — и всего за 2 дня пройдите технические собеседования. После сможете пообщаться с двенадцатью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.
Узнать подробности и зарегистрироваться.
Реклама. ООО "Яндекс". ИНН 7736207543
Кому подойдет Metabase?
К Metabase часто относятся снисходительно и иногда даже не считают этот тул полноценной BI-платформой. Да и мы тоже такие комментарии получали, когда писали, что много с ним работаем…
Metabase действительно достаточно простой инструмент, особенно если сравнивать с чем-то вроде Tableau. Многих это отпугнет, но кого-то это станет главным преимуществом. Рассказываем, кому подойдет Metabase и что вообще можно сделать в этом BI в нашем новом видео.
Что вас ждет?
🔵Обзор интерфейса и демонстрация возможностей по визуализации и написанию SQL-запросов.
🔵Разбор кейса клиента, который ушел с более продвинутого и сложного инструмента на Metabase и остался полностью доволен.
🔵Плюсы, минусы и рекомендации по использованию тула.
🔜 Смотрите на Youtube и в VK
Как на самом деле ИИ может помочь в работе?
Вокруг только и разговоров, что про ИИ — он успевает и писать, и рисовать, и кодить, и работу у честных трудяг отбирать. Но это все в теории и в новостях, а вот как на самом деле внедрять его в работу, не очень понятно. Особенно если вы уже пробовали, потратили кучу времени на написание промптов и получили сомнительный результат, который не стоит затраченных усилий.
Именно для тех, кто хочет научиться решать реальные практические задачи с помощью ИИ, Институт Бизнес-Аналитики Алексея Колоколова проводит свой новый бизнес-квест. Участники попробуют использовать нейросети для решения разноплановых кейсов — от расчета сметы до составления презентации.
🔵Мероприятие пройдет 15 мая в отеле Cosmos Smart Moscow Dubininskaya в Москве и займет примерно 4 часа.
🔵Основной фокус — на решении реальных задач, которыми может столкнуться офисный сотрудник (не считая визита Илона Маска). Делать картинки для соцсетей учить не будут.
🔜 Готовы научиться внедрять ИИ в работу? Читайте программу и регистрируйтесь.
О любви к CSV ❤️
Формат данных CSV — Comma-Separated Values, «значения, разделенные запятыми» — появился еще в 70-х, и с тех пор люди ничего лучше не придумали.
Ладно, может быть, и придумали, но CSV, так или иначе, жил, жив и будет жить еще долго. Он все еще часто используется для хранения данных, несмотря на то что за эти 50 лет разработали множество других форматов.
Почему так?
Юзер с гитхаба уже ответил за нас и перечислил целых 9 причин, почему этот формат заслуживает нашей любви. Как любят писать в кликбейтных статьях, пункт 9 вас поразит!
1️⃣ CSV простой — вся суть формата отражена в названии. Ничего лишнего.
2️⃣ CSV никому не принадлежит, а потому навсегда останется бесплатным и доступным.
3️⃣ CSV — это простой текст, который можно открыть и отредактировать в любом редакторе без всяких сложностей. Для этого не нужен никой специальный платный софт.
4️⃣ CSV не требователен к ресурсам и к памяти компьютера.
5️⃣ В CSV-документы можно легко и эффективно дописывать новые строки.
6️⃣ CSV динамически типизирован — тут есть свои минусы, но это делает его очень гибким при работе с разными типами данных.
7️⃣ CSV лаконичен.
8️⃣ Обратный CSV все еще CSV — информация не потеряется, даже если прочитать документ не с начала, а с конца, байт за байтом.
9️⃣ Excel ненавидит CSV — а значит, уже за это формат заслуживает уважения.
Middle Data Engineer в LEFT JOIN
У нас появилось несколько новых проектов, поэтому мы снова ищем дата-инженеров в команду. Хотите работать над интересными и разнообразными кейсами с заказчиками со всего мира? Тогда читайте вакансию ниже, возможно, это именно то, что вам надо!
Обязанности:
🔵Создавать и поддерживать ETL/ELT-процессы.
🔵Обеспечивать корректность работы отчетов и консистентность данных.
🔵Поддерживать и видоизменять имеющиеся модели данных.
🔵Создавать и сопровождать витрины данных.
🔵Вести документацию.
Требования:
🔥Опыт работы от 3 лет.
🔥Очень важно — отличное владение BigQuery, GCP и dbt.
🔵Уверенное владение SQL, Python, Airflow, bash.
🔵Опыт разработки ETL, проектирования и разработки хранилищ данных и аналитической отчетности, а также работы с Kafka и S3.
🔵Высшее техническое или другое релевантное образование.
🔵Английский язык B2 или выше.
Условия:
🔵Full-time занятость. Работа удаленно из любой точки мира по GMT+3.
🔵Оплачиваемый отпуск 20 рабочих дней и больничные 10 дней.
🔵Отсутствие бюрократии и свобода принятия решений.
🔵Корпоративный английский язык.
Откликайтесь на huntflow и, пожалуйста, укажите в сопроводительном письме, чем вас заинтересовала вакансия.
На данной позиции предусмотрено тестовое задание.
Про превосходство таблиц над пончиками
Пайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.
🔜 С одной стороны, это один из самых популярных чартов, которые хотя бы иногда используют все: от аналитиков и спецов по датавизу до школьников и студентов, которые готовят презентации для уроков. Это очевидный и интуитивный способ показать соотношение долей.
🔜 С другой стороны, многие их не любят, считая неудобными и неинформативными: якобы все, что можно изобразить на пайчарте, можно намного эффективнее и понятнее показать на каком-нибудь другом графике.
Если вы подумали, что сейчас мы этот тезис опровергнем и выступим в защиту пайчартов, то нет. Наоборот — принесли очередной пруф, что иногда ту же самую информацию намного полезнее будет изобразить в виде таблицы.
Пример из блога Datawrapper, куда иногда пользователи присылают свои графики с просьбой отредактировать их. На этот раз прислали визуализацию с несколькими пайчартами, на которых показано состояние мостов в разных штатах — сколько среди них аварийных, надежных и «ну, пойдет» в процентном соотношении. Казалось бы, идеальный сценарий именно для пайчарта, но все равно выглядит график так себе. Неудобно, скучно и непонятно.
🔜 Первая же правка, которую предложил специалист Datawrapper — отказаться от пайчартов в пользу старой доброй таблицы. Было-стало прикрепили к посту, ну а по ссылке вы можете более подробно почитать про остальные изменения и логику, которая за ними стоит.
Как вам результат? Стало лучше или можно было предложить другой вариант? 👀
Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!
Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP
Как работают data-специалисты в 2025?
Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?
А хотите не только про себя рассказать, но и узнать, как дела у коллег?
🔵Узнать про тренды в индустрии и набирающие популярность инструменты.
🔵Увидеть, как обстоят дела на рынке труда и сколько работодатели готовы специалистам вашего профиля.
🔵Подсмотреть, как устроены рабочие процессы в других компаниях и перенять лучший опыт.
Тогда пройдите опрос от команды DevCrowd. Он займет 15 минут и поможет составить честную и объективную картину data-рынка в 2025 году. Результаты выложат в открытый доступ в августе.
🔜 Пройти опрос
P.S. А тут можно посмотреть результаты за прошлый год 👀
Звездное небо на дашборде
Иногда полезно отвлечься от работы, SQL и графиков и посмотреть на звезды — пусть даже на очередном Viz of the Day из архивов Tableau Public.
Stargazer's Map — интерактивная карта звездного неба. Можно настроить отображение созвездий или показать настоящие цвета звезд, а помощью отдельного ползунка подкрутить время, чтобы увидеть, как двигаются звезды по небосклону в течение суток.
Красиво?Читать полностью…
❤️ — Красиво!
🌚 — Можно и покрасивее
Быстрее, выше, сильнее: что нового у dbt
28 мая dbt провела Launch Showcase, где представила сразу несколько крупных изменений.
🔵dbt Fusion — новый движок, который будет в 30 раз быстрее старого. Он сможет проверять правильность SQL-запроса и выдавать подсказки с учетом контекста, а также на 10% (а то и больше!) снизить расходы на хранение данных.
🔵Расширение dbt VS Code — чтобы все новые фичи dbt стали доступны и в VS Code.
🔵dbt MCP Server — инструмент для интеграции LLM в проекты в dbt.
🔵dbt Canvas, dbt Insights и dbt Catalog (бывший dbt Explorer) — инструменты для аналитиков, которые сделают удобнее и проще работу с данными. В Canvas можно будет простым drag-and-drop строить и редактировать модели. С помощью Insights (который понимает как SQL, так и запросы на естественном языке) — исследовать данные, искать инсайты и проверять гипотезы. В обновленном Catalog пользователи смогут просматривать таблицы и представления в Snowflake. Поддержку остальных хранилищ тоже обещают подвезти, но попозже.
Как вам такие новости? 👀 Впечатлены?
DataLens открывает галерею дашбордов и не только
Любите иногда позалипать повдохновляться на Tableau Public? Да, мы тоже — а кто не любит?
Теперь то же самое можно будет сделать, но с дашбордами на Yandex DataLens — сервис запускает DataLens Gallery. Это галерея с готовыми примерами дашбордов и чартов. Можно будет как добавить свою работу, так и посмотреть чужие, еще и с разбивкой по отраслям. Особенно понравившиеся даже можно будет развернуть у себя — если автор дал разрешение.
Кроме того, DataLens запускает:
🔵Editor — JavaScript-редактор для кастомизации графиков и таблиц с поддержкой интеграции данных из разных источников, включая внешние API. Он нацелен на опытных аналитиков, но в будущем планируется внедрение LLM-помощника для генерации визуализаций по текстовому описанию.
🔵Экспорт/импорт и перенос воркбуков между окружениями. Переносить объекты между инсталляциями станет намного проще, где бы они ни находились. Уже доступно в Yandex Cloud и open-source, а скоро обещают и в on-premise.
🔵Программу сертификации для специалистов по работе с сервисом. Чтобы получить сертификат и с гордостью написать в резюме, что вы владеете DataLens, нужно будет сдать экзамен: там проверят умение работать с чартами, датасетами, датасорсами и дашбордами. Вообще это будет стоить 5000 рублей, но до конца августа — всего 2500₽.
Что объединяет аналитиков, продактов, CPO, CDO и ML-разработчиков?
Aha!25 — конференция про то, как решать продуктовые задачи с помощью ML, аналитики и data-driven подхода.
2 дня, 16 тематических потоков, более 1200 участников и доклады от практиков из Яндекса, Авито, OZON, Т-Банка, Альфа-Банка, а также исследователей из ИТМО, РЭШ, МФТИ и других научных центров. На Aha!25 обсудят актуальные вопросы, над которыми многие задумываются, но не все находят ответ.
• Что делать, когда A/B-тест дает противоречивые результаты?
• Как проводить эксперименты и трактовать результаты?
• Как встраивать ML и ИИ в продукты с пользой для дела — а как это делать точно не надо?
• Как поведенческая экономика помогает принимать решения и развивать продукт?
👀 Программа доступна по ссылке. Знакомьтесь, и если увидите что-то интересное — регистрируйтесь!
Когда BI — это не просто отчеты, а полезный инструмент для бизнеса
Во многих компаниях аналитика ограничивается созданием пачки дашбордов, которые существуют как будто просто для красоты. Они есть, пользователи в них иногда задумчиво смотрят, но для принятия решений все так же используют интуицию, а не данные.
Зато когда BI-стратегия выстроена правильно, она становится частью управленческой системы: помогает расставлять приоритеты и контролировать результаты. Но чтобы к этому прийти, понадобится не только знание инструментов, но и стратегический взгляд и понимание потребностей бизнеса.
🔜 Как подружить все эти вещи и внедрить BI в рабочие процессы рассказывает BI-эксперт Александр Бараков на курсе «Разработка BI-стратегии». Он пройдет онлайн с 18 июня по 11 июля 2025 года.
За 11 встреч участники узнают как выявить те самые потребности бизнеса, сформировать BI-стратегию и воплотить ее в жизнь, собрать BI-команду и оценить эффективность всей этой деятельности. А в конце даже соберут макет BI-стратегии для своей компании.
Курс рассчитан на тех, кто руководит BI-направлением и развивает аналитику в компании.
Data&BI Beer: архитектурный митап про данные и BI
Что объединяет архитекторов DWH- и BI-систем, дата-инженеров, технических директоров и интеграторов, работающих с 1С и SAP? Желание говорить по делу, с погружением в реальный опыт и технические кейсы.
Visiology вместе с партнёрами Arenadata и Денвик приглашают 21 мая в 18:00 принять участие в Data&BI Beer — неформальном, но профессиональном митапе, посвящённом архитектуре аналитических систем и работе с данными на уровне ERP.
Место встречи — ресторан We Cidreria, Москва, ул. Сретенка, 32
На митапе обсудят:
🔵Интеграцию с 1С и SAP — хранилища, коннекторы, real-time-сценарии,
🔵Архитектурные ошибки и переделки, которых можно избежать,
🔵Кейсы миграции с SAP на 1С и адаптации аналитических систем,
🔵 Общие боли участников и коллективный разбор решений
🔜 Формат мероприятия закрытый. Чтобы подать заявку на участие, коротко расскажите о своём опыте в аналитике и интересе к теме. Мы собираем тех, кому действительно есть что обсудить.
👀 Нет возможности быть лично? Присоединяйтесь к вебинару посвященному интеграции BI-аналитики с 1С → 22 мая в 11:00 (МСК). Регистрация доступна по ссылке!
Хотите заглянуть внутрь БД в SQLite?
С этим поможет SQLite File Format Viewer — веб-приложение, куда можно закинуть файлик БД, и посмотреть, что у него внутри. На сайте уже есть семпловая база данных, по которой можно полазить и изучить, как она устроена.
Главный минус тут в том, что запустить приложение локально нельзя — по крайней мере пока. Так что никакие конфиденциальные данные и важные БД туда закидывать не рекомендуется. Но если у вас есть под рукой какой-нибудь файл SQLite, который не жалко, и вы хотите поближе познакомиться с работой этой СУБД, это приложение под эти цели отлично подойдет.
А вы идете на Tech Week?
«Синергия» вновь проводит Tech Week, а LEFT JOIN вновь становится ее инфопартнером!
Как и в прошлый раз, конференция будет посвящена технологиям, инновациям и тому, как подружить их с бизнесом.
🔵Как стремительное развитие технологий влияет на современные подходы к лидерству, управлению и работе с людьми?
🔵Какие инновации стоят вашего внимания (и денег)?
🔵Как новые технологии меняют бизнес, промышленность и торговлю?
И, конечно, не обошлось без ИИ и нейросетей — им выделили сразу несколько треков. Среди спикеров — директора и основатели крупных российских компаний, эксперты по ИИ, маркетингу и даже нейрофизиологии.
🔜 26-27 мая пройдет основная часть с конференциями и выставками, 28 — день обучения, где участникам помогут разработать стратегию развития бизнеса.
🔜 Обещают и другие нестандартные форматы, чтобы посетители не скучали на лекциях — например, быстрые бизнес-свидания, тренинги и мастермайнды.
ИИ (не) против таблиц
Сегодня ИИ-агенты — это самое близкое, что у нас есть к умным роботам из книг и фильмов, которые помогают людям в их повседневных делах. Но функционал у них все еще не фантастический — например, многие из них неважно справляются с структурированными данными. Учитывая, что ИИ-агентов часто используют для работы, им нужно уметь эффективно работать с таблицами и не бояться Excel.
С этой проблемой столкнулись в Dust, компании, которая занимается созданием ИИ-агентов. Команда проекта рассказала, как учила искусственный интеллект «понимать» табличные данные.
🔵Все началось с того, что нужно было научить LLM анализировать CSV-файлы. Для этого решили «прикрутить» к ней SQLite, которая отвечала за то распознавание структуры данных и обработку SQL-запросов.
🔵Запросы при этом генерировал сам ИИ-агент на основании промпта пользователя. Он отправлял этот запрос в БД и возвращал ответ от нее.
На одних CSV-файлах не остановились и пошли дальше, постепенно научив своих агентов работать с таблицами в Notion, Google Sheets и Office 365. Эти источники добавили своих сложностей.
🔵Чтобы обрабатывать таблицы в Notion, пришлось научиться гибко работать с данных разных типов.
🔵В Google и Office у файлов часто бывает сложная структура — несколько листов, заголовки, объединенные ячейки, встроенные графики. Все это нужно было быстро (и желательно незаметно от юзера) обработать.
🔜 В итоге в Dust разработали единый уровень абстракции для всех источников, каждый из которых представляли в виде таблицы с несколькими колонками: Уникальным ID, Названием и описанием, Схемой (колонками и их типами), URL-источником.
После этого команда смола пойти дальше и даже начать работать с данными в DWH — для этого пришлось отказаться от SQLite и научить LLM работать с большими объемами строк и разными диалектами SQL.
В посте в блоге немного технической информации, но все же в ней есть интересные мысли и выводы для тех, кто работает с таблицами и ИИ — и хочет их друг с другом подружить.
А вы используете ИИ-агентов для работы?Читать полностью…
❤️ — Использую и расскажу про это в комментариях
🌚 — Нет, не приходилось
Как оптимизировать таблицы в Postgres
А вы знали, что правильный порядок столбцов может на 20% уменьшить размер таблицы в Postgres?
🔜 Минимальный возможный размер строки — 24 байта. Он меняется в зависимости от количества столбцов и типов данных — какие-то весят больше, какие-то меньше. Но на итоговый размер строки влияет также такой момент, как последовательность, в которой идут друг за другом разные типы данных.
Это связано с выравниваем данных на диске — чтобы оптимизировать его, Postgres может добавлять отступы между разными типами данных. Это и приводит к увеличению размера строки. При этом способ выравнивания зависит от типа данных. Эта же логика распространяется и на индексы.
🔜 Разбор реальных примеров показывает, что «правильный» порядок столбцов на 15-20% уменьшает вес и таблицы, и индекса. Там же можно подробнее почитать про то, как этого добиться, но если кратко, то можно придерживаться такого подхода: сначала размещаем «тяжелые» данные вроде int8, float8, timestamp, а затем — более легкие.
Конечно, никто не предлагает начинать срочно переставлять столбцы во всех таблицах в базе, чтобы сэкономить лишние два байта на диске — для многих компаний такие «оптимизации» будут явно избыточны. Но все же это стоит иметь в виду.
А вы учитываете особенности выравнивания данных в работе?Читать полностью…
❤️ — Да, конечно!
🌚 — Нет, мне это не нужно
Поступление в ШАД: даже одна попытка откроет путь к большим возможностям
Попробовать поступить в Школу анализа данных Яндекса может каждый, кто увлечен Data Science: неважно, учитесь вы в вузе, работаете в IT или просто любите разбираться в сложном. Если вас тянет к задачам, над которыми ломают голову лучшие умы, — попробовать точно стоит!
В ШАДе вас ждет не просто теория — здесь с первого дня погружаются в практику: осваивают сложные концепции машинного обучения, решают ИИ-задачи, которые еще вчера казались невозможными, и получают мощный буст для карьеры.
🔥Классные плюшки для студентов: обучение бесплатное, а если в вашем городе нет филиала, заниматься можно онлайн.
🔜 Подайте заявку на поступление до 4 мая и откройте перед собой новые горизонты!
Что посмотреть в новом сезоне, подскажут ML и матстатистика
Недавно мы делились рекомендацией Бена Стенсила работать над теми проектами, к которым на самом деле лежит душа. Он говорил это про дипломные проекты и вообще те, которые делаются не за деньги, а для практики.
Нашли для вас отличный пример — приложение для прогнозирования популярности аниме.
🔵Каждый сезон в Японии выходит примерно 30 новых сериалов. Пользовательница Хабра решила создать инструмент, позволяющий предсказать, насколько популярным будет новое аниме.
🔵Она написала целое приложение, которое прогнозирует рейтинг сериала, основываясь на математической статистике и машинном обучении. Оно учитывает только показатели, известные до релиза: рейтинги первоисточника (для сериалов, основанных на манге) на сайте MyAnimeList, жанр, название студии, возрастной рейтинг и ЦА. Код можно посмотреть на гитхабе.
🔵Приложение довольно точно предсказывает рейтинг сериала на MyAnimeList, но иногда может ошибаться — обычно, когда речь идет об аномально популярных аниме.
Практическая польза предсказания рейтингов аниме неоспорима: зрителям это поможет выбрать, что посмотреть, а продюсерам — решить, в какие проекты стоит вкладывать деньги. И никаких больше непонятных сериалов с рейтингом ниже 5!
А как вам — стали бы пользоваться таким приложением?Читать полностью…
❤️ — Конечно!
🌚 — Нет, спасибо…