datalytx | Unsorted

Telegram-канал datalytx - Datalytics

9020

Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное Автор – @ax_makarov Отдельный канал про ChatGPT и его практическое применение —  @ai_forge Чат канала — @pydata_chat Вакансии — @data_hr

Subscribe to a channel

Datalytics

А теперь вернемся из будущего к настоящему, ChatGPT запустил свой Perplexity поиск по интернету

https://openai.com/index/introducing-chatgpt-search/

При этом ключевое отличие от Perplexity в том, что кажется (судя по демкам) он будет хорошо справляться с навигационными и информационными вопросами (где мне купить, где мне покушать, какая погода, какой счет в матче, какая сейчас ставка цб). И это ставит OpenAI в прямые конкуренты с Google. Если они еще и научаться искать по мультимодальному контенту (видео, подкасты, схемы), то это создает мощный новый поток трафика для видео и аудиоконтента

Интересно подумать как в связи с этим изменится концепция SEO и что на самом то деле скоро нужно будет делать RAG-оптимизацию

Читать полностью…

Datalytics

🤔Как изменить IT-продукт, чтобы он занял достойное место на рынке?

🚀Узнаете на открытом онлайн-уроке «Продуктовая гипотеза»

Будет интересно продуктовым аналитикам и продуктовым менеджерам

Вы узнаете:
– Какими бывают гипотезы в зависимости от этапа развития компании
– Как увеличить шансы на успех гипотезы
– Как правильно формировать гипотезу
– О чём говорят цифры?
– Какие гипотезы помогают пройти «долину смерти»

👨‍💻Вебинар проведёт Алькей Аманжолов – постоянный резидент главного национального центра IT-стартапов в Казахстане «Astana Hub»

🤝После вебинара можно записаться на курс «Продуктовая аналитика. Professional».

🕖28 октября, 20:00 Бесплатно

Записаться на событие: https://clck.ru/3E9EAY

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Читать полностью…

Datalytics

Представьте: вокруг лучшие специалисты BI, обсуждают внедрение, делятся практическими кейсами, а вы — в центре этого, погружены в общение и расширяете сеть полезных контактов. Звучит круто, правда?

Именно это ждет участников бесплатной конференции РУBIКОНФ 14 ноября в Москве.🔥

Здесь соберутся ИТ-директора, BI-эксперты и авторы популярных Telegram-каналов про аналитику, чтобы поделиться кейсами импортозамещения, инсайтами и прогнозами развития BI. Главное — независимые компании честно расскажут о внедрении российских BI-систем.

Почему стоит прийти?

⚡️Реальные кейсы. Узнаете, как такие компании, как РЖД, справляются с импортозамещением, и увидите BI-системы в действии. Только практика — никаких теоретических догадок.
⚡️Честные истории. Независимые компании расскажут о внедрении российских решений — без воды и маркетинговых обещаний.
⚡️Мультивендорная повестка. Разные платформы и решения — каждый найдет что-то своё.
⚡️Нетворкинг. Это не просто возможность послушать, но и пообщаться. Будут представители AW BI, VK Cloud, Skypro, Glowbyte, Loginom и другие. Это шанс обменяться контактами, обсудить проекты и найти партнеров.

Также вас ждут активности на стендах, интерактивы, подарки и другие ивент-плюшки.
Конференция пройдет 14 ноября в центре Москвы, а для тех, кто не сможет приехать, будет онлайн-трансляция. Участие бесплатное.

🔗Подробности и регистрация по ссылке.

Реклама. Рекламодатель АО «ОСТ»
ИНН: 9709108924

Читать полностью…

Datalytics

Я тут начинаю собираю материалы для нового курса по применению LLM в IT-продуктах

Это не будет курс по промпт-инжинирингу с обещанием светлого будущего как ИИ будет за нас делать все задачи. Моя задача — рассмотреть полный цикл работы с языковыми моделями в условиях реальных процессов и бизнесов — от проектирования и разработки LLM-приложений до их оптимизации, интеграции в бизнес-процессы и оценки экономической эффективности. То есть показать что LLM с предсказуемым качеством внутри production-ready решений — это большая задача с кучей подводных камней и она требует системного подхода, а не просто from openai import OpenAI

На этом фоне начну делиться какими-то статьями, на которые опираюсь при ресерче материалов для курса

Первая статья довольно известна — «Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда». Эта статья доступно объясняет, как эволюционировали LLM и почему нам вообще довелось лицезреть феномен ChatGPT в конце 2022 года

Прелесть статьи в том, что она простым языком объясняет сложные концепции типа трансформеров, а также что она затрагивает не только технические аспекты, но и этические вопросы, проблемы интерфейсов и бизнес-применения. Так что если вы вообще пока не в курсе про LLM, но очень хотите понять что это такое и как появился ChatGPT — забегайся

Читать полностью…

Datalytics

NLP-инженеры Яндекса рассказали про метод ускорения генерации токенов.

Retrieval-Based Speculative Decoding (REST), по словам авторов метода, может ускорить генерацию токенов более чем в два раза.

Метод спекулятивного декодирования REST ускоряет генерации за счет использования более компактной и быстрой модели.

При использовании REST результаты тестов показали прирост в скорости генерации токенов до 2,36 раз. Однако отмечается, что результат сильно зависит от полноты и качества базы данных.

Читать полностью…

Datalytics

#llm

Нашли отличный курс от преподавателей ВШЭ и ШАД Яндекс, который поможет в деталях разобраться в устройстве LLM 

Он начинается с емкого освоения пререквизитов, а затем вы углубляетесь в особенности архитектур. В курсе предполагается большое количество практики, Вы сможете дообучить генеративную трансформерную модель для решения поставленной перед вами задачи и имплементировать ее в виде сервиса или телеграм-бота.

Но что особенно круто – так это сильная команда преподавателей из топовых университетов и компаний. Это, кстати, те самые эксперты, которые делали AI магистратуру во ВШЭ. 

Курс рассчитан примерно на 10-15 часов в неделю и начинается 21 октября. Мест всего 50, так что скорее записывайтесь!

PS: в своем телеграм канале @shvmxyz ребята выкладывают интересные материалы по LLM, а сегодня в 18:00 там пройдет прямой эфир с автором курса - Еленой Кантонистовой!

Читать полностью…

Datalytics

Технологический форум
DaTalks 2024 | Data Reality Show

24 октября в Loft Hall пройдет, пожалуй, центральное событие, посвященное данным. Организатором выступает компания Navicon, а главным партнером - Arenadata.

Ежегодно это мероприятие собирает data community для детального обсуждения наиболее значимых практических вопросов, связанных с data-ландшафтом и перспективами, которые ожидают CDO и CIO в ближайшем будущем.

В этом году среди основных тем форума:
• best practice формирования data-ландшафта «с запасом»
• будущее Big Data
• промежуточные итоги и перспективы импортозамещения
• современные платформы и модели данных
• обзор и функциональное сравнение актуальных для российского рынка BI-систем.

Трансляция онлайн вестись не будет - основная задача мероприятия это обмен опытом и дискуссии. Поэтому настоятельно рекомендуем зарегистрироваться для очного посещения.

По ссылке можно ознакомиться с программой, спикерами и основной концепцией форума.

erid: 2SDnje8HWJ6

Читать полностью…

Datalytics

IT Community Day в Санкт-Петербурге прошёл идеально! 👨‍💻

Сотни IТ-специалистов встретились, чтобы послушать доклады топовых спикеров, прокачать hard и soft skills, познакомиться, повеселиться на афтерпати, и главное — стать частью крупнейшего IТ-комьюнити!

Завидуем тем, кто смог попасть на это мероприятие. А остальным советуем не расстраиваться: совсем скоро состоятся IT Community Day в:

✔️ В Казани 12 октября научимся управлять большими данными, укрощать искусственный интеллект, создавать успешное резюме и находить подход к карьере.

✔️ И в Екатеринбурге 19 октября поговорим об интеграции LLM в приложение, методологии API-first и комбинации личного и профессионального развития.

Успейте зарегистрироваться! 💚

Читать полностью…

Datalytics

👍dbt - это один из ключевых инструментов современной аналитики и modern data stack.

Изучите один из самых востребованных инструментов аналитики, решая сложные практические задачи в нашем тренажере, научитесь DataOps практикам, постройте хранилище данных на базе dbt, подготовьте и проанализируйте данные

В тренажере вы освоите:
1. Типы хранилищ данных DWH и их построение
2. Подготовку и тестирование данных, Data Quality
3. Построение ELT-pipelines
4. Моделирование данных на базе dbt и PostgreSQL
5. Принципы работы с СУБД на базе Postgres
6. Продвинутую аналитику и визуализацию данных
7. Современные DataOps-практики, оптимизацию производительности и многое другое

Разработаете свои pet-проекты:
🔥 Статистика поездок на самокатах: Построите аналитический пайплайн для общей и дневной статистики поездок, включая тесты качества данных и документацию.
🔥 Аналитика ивентов приложения: Создадите SQL-пайплайн для обработки событий мобильного приложения, обогащённый данными поездок и пользователей, с внедрением контрактов данных и продуктовыми метриками.
🔥 Создание аналитической платформы: Развернете dbt-пайплайны с планировщиком, мониторингом и централизованным git-репозиторием, внедрить проверку качества данных и веб-портал с каталогом данных и документацией.

Сейчас открыт демо-доступ к первым четырем практическим урокам для всех желающих.

➡️ Регистрация на демо-доступ

Реклама. ООО "Инженеркатех" ИНН 9715483673

Читать полностью…

Datalytics

Яндекс интегрировал VLM в Нейро, значительно улучшив возможности поиска и анализа изображений. На Хабре рассказали, как команда усовершенствовала существующие технологии и создала новый инструмент, делающий работу с визуальным контентом более эффективной.

VLM представляет собой следующий этап в развитии моделей компьютерного зрения. Она не только распознает объекты на картинках, но и отвечает на сложные вопросы о деталях изображений.

Архитектура VLM объединяет LLM, картиночный энкодер и адаптер. Новый пайплайн с VLM-рефразером и VLM-captioner расширил спектр решаемых задач.

В статье подробно описан процесс обучения VLM и проведено сравнение с предыдущим LLM-пайплайном. Разработчики отмечают, что уже сейчас VLM решает многие задачи «из коробки», а с небольшим дообучением достигает высочайшего качества.

Оценить возможности VLM можно в Поиске по картинкам и Умной камере Яндекса.

Читать полностью…

Datalytics

«Я в режиме реального времени поясняла структуру запросов / ответов в Postman и разбирала документацию в Swagger», — пишет аналитик, который прошел наш курс, а потом два технических собеседования в международные компании. Приятно, конечно ❤️

Если в 2024 году вы хотите:
— научиться выбирать стиль интеграции под вашу задачу;
— начать проектировать с нуля и описывать интеграции в современных стилях (API: REST, SOAP, gRPC и других, + брокеры сообщений);
— узнать как правильно собирать требования и моделировать в UML;
— подготовиться к собеседованию, решив более 100 заданий;
— запустить свой API на Python.

Значит наш курс для вас!

🚀 Начните с открытых бесплатных
уроков — переходите в бот курса и жмите «Старт»
👇
@studyit_help_bot

🚀 Скидка на курс
от канала — 1 000₽ на Stepik по промокоду DATAL3 до конца октября.

Читать полностью…

Datalytics

У Ромы Бунина вышло клёвое видео про дашборды и их жизненных цикл. У дашбордов целом жизнь короткая и Рома в видео рассказывает как продлить их существование, в том числе с помощью ИИ

Ключевой момент в том, что чем больше пользователей у дашборда, тем дольше он живет (капитанский вывод, но всё же это заставляет нас задумать о том как поддерживать постоянную используемость наших дашбордов)

Как продлить жизнь дашборда? Три слова: процессы, процессы и еще раз процессы! 🔄

Как в этом плане уже сейчас может помочь ИИ? Эта помощь в том, что через чат-ботов с LLM можно:
➡️Искать нужные дашборды
➡️Отвечать на вопросы по данным
➡️Писать документацию
➡️Описывать изменения в дашбордах (change-logs)
➡️Помогать с сертификацией (проверкой дэшей на кри)

Но не все так радужно. ИИ пока не может:
➡️Улучшать дизайн дашбордов
➡️Создавать дашборды с нуля по картинке

В общем, внедряйте процессы, считайте время жизни дашбордов и не бойтесь использовать ИИ для рутины. Кто знает, может скоро мы будем просто рисовать дашборды от руки, а ИИ будет их создавать? 🎨🤔

Кстати, у Ромы есть ещё видео в мини-сериале про дашборды, ссылки тут

Читать полностью…

Datalytics

🚀Новый конструктор отчётов!

Теперь можно собирать многостраничные документы нужного формата (размер, ориентация) для pixel-perfect экспорта в pdf или печати. Удобно для регулярных встреч с командой или отправки клиентам.

Ключевое:
- Функциональность доступна только в Business тарифе.
- Отчёт – это ещё один тип объекта внутри воркбука.
- Отчёт состоит из страниц, на каждую из которых можно добавлять чарты, картинки, текст.
- Можно работать со слоями.
- Можно копировать виджеты с дашбордов. Это удобно, если нужно быстро собрать печатную версию дашборда.

Что в планах:
- Конвертация дашбордов в многостраничные отчёты.
- Поддержка селекторов (глобальных на весь документ, на группу, на отдельные страницы).
- Простая вставка изображений из буфера с загрузкой.
- Режим просмотра/презентации.

Подробности читайте в документации.

Читать полностью…

Datalytics

Прочитал отличный совет Тани Мисютиной у Горбунова про важность выделения минимальной частицы данных

Мне нравится та элегантность, которая лежит в основе подходов к архитектуре данных — каждый элемент находится на своем месте, образуя целостную и функциональную структуру. Есть в этом своего рода архитектурная красота

Таня в своём посте пишет о том, что для эффективного анализа данных важно правильно определить «частицу данных» — единицу смысла в конкретной задаче аналитика. Эта частица выступает связующим звеном между различными сущностями в описываемой реальности. Важный момент — даже если исходный датасет не содержит данные на уровне выбранной частицы, понимание этой единицы смысла помогает лучше понять как сделать визуализацию или создать дашборд

В целом, я бы сказал, что умение понимать подходы к описанию реальности — критически важный навык для аналитиков данных, продуктовых аналитиков, инженеров данных и data scientists

Почему так?

1) Формирование правильной онтологии (описания реальности) позволяет аналитику лучше понимать суть явлений, которые он анализирует. Это в свою очередь влияет на то какие вопросы задает аналитик по отношению к этой самой реальности, к стейкхолдерам, а также к датасету. Всё это влияет на качество гипотез, которые ставит аналитик, а также на интерпретацию данных и полученных выводов

2) Выходит из пункта 1, но больше связано с коммуникацией и постановкой задач. Если аналитик хорошо умеет «разложить» онтологию, то качество поставленной задачи к другим контрагентам (будь то data engineers, QA, разработчики, продакт-менеджеры) сильно вырастает

Если вы хотите глубже разобраться в том как вообще работать с сущностями и научиться лучше описывать реальность на языке данных — подписывайтесь на канал Тани @datalaboratory

Читать полностью…

Datalytics

👍dbt - это один из ключевых инструментов современной аналитики и modern data stack.

Изучите один из самых востребованных инструментов аналитики, решая сложные практические задачи в нашем тренажере, научитесь DataOps практикам, постройте хранилище данных на базе dbt, подготовьте и проанализируйте данные

В тренажере вы освоите:
1. Типы хранилищ данных DWH и их построение
2. Подготовку и тестирование данных, Data Quality
3. Построение ELT-pipelines
4. Моделирование данных на базе dbt и PostgreSQL
5. Принципы работы с СУБД на базе Postgres
6. Продвинутую аналитику и визуализацию данных
7. Современные DataOps-практики, оптимизацию производительности и многое другое

Разработаете свои pet-проекты:
🔥 Статистика поездок на самокатах: Построите аналитический пайплайн для общей и дневной статистики поездок, включая тесты качества данных и документацию.
🔥 Аналитика ивентов приложения: Создадите SQL-пайплайн для обработки событий мобильного приложения, обогащённый данными поездок и пользователей, с внедрением контрактов данных и продуктовыми метриками.
🔥 Создание аналитической платформы: Развернете dbt-пайплайны с планировщиком, мониторингом и централизованным git-репозиторием, внедрить проверку качества данных и веб-портал с каталогом данных и документацией.

Сейчас открыт демо-доступ к первым четырем практическим урокам для всех желающих.

➡️ Регистрация на демо-доступ

Реклама. ООО "Инженеркатех" ИНН 9715483673

Читать полностью…

Datalytics

Большая новость на российском айти-рынке: Яндекс выпустил новое поколение языковых моделей YandexGPT 4. В релиз вошли две версии: флагманская Pro и облегченная Lite.

Количество обрабатываемых токенов увеличено в 4 раза — до 32 тысяч, что позволяет работать с большими документами. В обучении применили подход с пошаговыми рассуждениями (Chain-of-thoughts), благодаря чему модели научились лучше анализировать проблемы, выделять этапы решения и рассуждать над их реализацией.

Pro-версия превосходит предыдущее поколение в 70% тестов. В RAG-сценариях заметно снизилось количество галлюцинаций, что улучшило работу с документами.

Модели уже доступны через API в Yandex Cloud. В ближайшее время их интегрируют в Алису с опцией Про, а позже добавят function calling для создания продвинутых ассистентов.

https://habr.com/ru/companies/yandex/articles/852968/

Читать полностью…

Datalytics

В продолжение подборки статей хочу поделиться неплохой вводной статьей про то как приземлять LLM в продукты (создавать LLM-фичи) из блога GoPractice

https://gopractice.ru/skills/improving-products-with-llm/

Статья очень по верхам проходится, но охватывает основные этапы, которые надо учитывать при проектировании решений:
1) постановку задачи;
2) выбор способа решения (обычно мы тут начинаем с базового метода — промптом, но если не справляется, то уже выбираем более сложные варианты, например, RAG или SFT);
3) написание промпта (или нескольких вариантов промптов);
4) подготовка тестового датасета, на котором будем тестировать промпт(ы);
5) улучшение промпта;
6) эксперименты с моделями (тестирование моделей на одинаковой задаче, чтобы подобрать ту, которая решает поставленные задачи бизнеса, а ещё и по возможности дешевле)
7) переформулировка решаемой задачи (например, бывает так, что решаемая задача суммаризации сначала решается задачей извлечения ключевых данных из исходного текста, то есть мы изменяем подход к решению, чтобы добиться более качественного результата. тут уже могут возникать сложные пайплайны и какие-то истории про агентов или даже вызова функций)

Статья может быть хорошим стартом для продактов, технических проджектов, системных аналитиков и разработчиков, которые планируют начать внедрять LLM в свои продукты, но не знают с чего начать

Читать полностью…

Datalytics

🚀 Новое исследование рынка аналитиков! — если вы аналитик, пройдите опросник и первыми получите результаты, а также эксклюзивные доп. материалы с инсайтами исследования.

Что за исследование?
◽️Это очередное исследование рынка аналитиков от NewHR. Ребята начали их делать в 2018 году, последнее было в 2023 и планируют запускать их ежегодно.
◽️Исследование позволяет следить за ситуацией на рынке аналитиков, потому что эта сфера супер-сильно меняется и развивается. Важно держать руку на пульсе и исследование NewHR в этом поможет!

Рынок каких аналитиков исследуют?
➤ Дата-аналитиков
➤ Продуктовых аналитиков
➤ BI-аналитиков
➤ Маркетинговых аналитиков
➤ Веб-аналитиков

Что исследуется?
👉 Зарплаты и их динамика. Вопросы про вилки, а потом поделимся результатами и корреляциями.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удалёнка/офис), какие планы на трудоустройтво.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.

Как принять участие в исследовании?
⏩ Заполните 20-мин опросник⏪

Как можно помочь?
🙏 Пошарьте наш опрос среди своих знакомых аналитиков! Чем больше будет ответов, тем более репрезентативным будет результат!

Когда будут результаты?
— Сбор данных NewHR делает в течении всего октября
— Потом нужно пара месяцев на анализ и формирование информативного лендинга (пример 2023)
— Итоговый результат исследования планируется выпустить в начале 2025 года.
— 2025 год ещё далеко, а данных хочется уже сейчас, поэтому:
— NewHR планирует делиться со всеми участниками исследования промежуточными результатами, а также пришлём приглашение на закрытый стрим, где поделимся всеми инсайтами и ответим на вопросы.

Читать полностью…

Datalytics

Предложение для аналитиков
Создайте курс с Яндекс Практикумом!


Яндекс Практикум — это онлайн-сервис, помогающий освоить актуальные цифровые профессии. Учебный контент здесь разрабатывают мидлы или сеньоры.

Сейчас, например, нужны авторы уроков по темам: «Расчёт и визуализация бизнес-метрик и показателей», «Формулировка и проверка гипотез. Статистический анализ данных» и «Анализ результатов А/В тестирования с помощью Python».

Экспертам предлагают удалёнку, нагрузку от 10 часов в неделю, гибкую занятость. А главное, возможность развиваться вместе с Яндекс Практикумом нон-стоп.

Пожелания к кандидату

Читать полностью…

Datalytics

Хорошая статья про бенчмарки LLM. В статье рассказывается как выбрать бенчмарк под тип задачи, в чём разница между онлайн-оценкой и офлайн-оценкой, способы бенчмаркинга (one-shot vs few-shot). Для базового знакомства — самое то

https://habr.com/ru/articles/850218/

Читать полностью…

Datalytics

Митап для IT-специалистов в Иннополисе

26 октября | 12:00
Офлайн в Иннополисе | Онлайн

Присоединяйся к митапу True Tech Hub, который пройдет 26 октября в Иннополисе. Тебя ждут доклады от ведущих экспертов МТС и приглашенных спикеров.

Расскажем про метрики, помогающие оптимизировать Agile-процессы команды разработки, покажем, как подружить отдел аналитики с остальной командой, и поделимся своим видением того, как User Stories упрощает жизнь аналитикам и владельцам продуктов.

Во второй части коснемся более хардовых историй: углубимся в тему экстремальной оптимизации моделей машинного обучения и векторных данных, расскажем как в МТС проверяют гипотезы в задачах генеративного искусственного интеллекта для потребностей бизнеса. А наши коллеги из red_mad_robot на примере разработанной умной базы знаний поделятся, как RAG-концепция помогает повысить точность и качество генерируемого контента.

Для участия нужно зарегистрироваться по ссылке

Читать полностью…

Datalytics

Аналитик DWH, ты тут? 😎 Специально для тебя запустили бесплатный онлайн-интенсив в Открытых школах Т1! Прокачай скилы и, если повезет, попади в штат Холдинга Т1 — крупнейшей ИТ-компании по выручке в России по версии RAEX и CNews Analytics 2023.

Зачем участвовать?

🔵Бесплатное обучение в гибком формате: по вечерам, онлайн, из любого города РФ
🔵Уникальный рыночный опыт. Проекты Т1 ежегодно побеждают в ИТ-конкурсах: Global CIO, Национальной банковской премии и др. Тебя обучит и поддержит команда профессионалов.
🔵Возможность влиять на развитие ключевых отраслей экономики: в портфеле Т1 800+ высокотехнологичных проектов и 70+ продуктов и услуг на современном техстеке для крупнейших компаний и госсектора.
🔵Карьерный рост и поддержка. Уникальный карьерный фаст-трек для выпускников Открытых школ помогает молодым специалистам прокачаться до уровня мидла в Т1 за 1,5 года.

Успей подать заявку до 25 октября!

Реклама. ООО «Т1» ИНН: 7720484492. Erid: 2SDnjcPYZeB

Читать полностью…

Datalytics

Недавний эксперимент MIT показал: люди верят даже случайным прогнозам ИИ. Написал статью, в которой рассказал о деталях исследования и разобрал какие психологические аспекты влияют на склонность доверять ИИ, даже если никакого ИИ в продукте нет

Эффект Барнума в действии: Как психология влияет на доверие к ИИ

Читать полностью…

Datalytics

Хотите узнать, как автоматизировать аналитические процессы и управлять большими объемами данных?

Ждем вас на открытом вебинаре 21 октября в 20:00 мск, где мы разберем:

- что такое Apache Airflow и зачем он нужен;
- как Airflow помогает решать сложные аналитические задачи;
- основные компоненты и функциональность платформы;
- примеры использования Airflow в реальных проектах.

Урок для разработчиков, инженеров данных, аналитиков и менеджеров аналитики.

Встречаемся в преддверии старта курса «Продуктовая аналитика. Professional». Все участники вебинара получат специальную цену на обучение! Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://clck.ru/3DozvS

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Читать полностью…

Datalytics

Алгоритмы поиска дубликатов

Ребята из HF Labs выложили отличную статью на Хабре о поиске дубликатов в клиентском MDM. Задача поиска дубликатов — суперкритична для обеспечения качества данных, дубли — потенциальный источник серьезных ошибок в аналитике

Авторы статьи рассказывают о том, как для эффективного поиска дубликатов важно правильно определить подход к обработке данных. Они выделяют несколько ключевых этапов:

1️⃣ Чистка и нормализация данных
2️⃣ Хеширование для быстрого поиска
3️⃣ Применение компараторов и правил
4️⃣ Обновление данных в режиме реального времени

Всё это со своей спецификой про банковскую сферу, но перекладываемо на любые задачи поиска дубликатов (в том числе нечетких)

Глубинное представление о качестве данных, с которыми мы работаем — это прям важный навык для аналитика. Я помню, что почти на любом месте, где я работал сталкивался с тем, что данные всегда содержали кучей дублей и мусора, по разным причинам. В итоге это всё важно отсеивать. Мы же не просто цифры в таблицах анализируем — мы пытаемся через эти данные понять реальность бизнеса, а если у нас Garbage In, то получаем и Garbage Out

https://habr.com/ru/companies/hflabs/articles/847012/

Читать полностью…

Datalytics

Бесплатный мини-курс по технологии ускорения ML-моделей — Triton

В Ozon Tech 100+ дата-сайентистов. Каждый день они решают задачи поиска и диалоговых систем, чат-ботов и матчинга, анализа спроса и рекомендаций. И много-много других! Для этого наши специалисты используют огромное количество технологий. Одна из них — Triton.

Курс — это гайд в формате лонгрида, из которого вы узнаете:
— что такое Triton и как в нём происходит типизация данных;
— как собрать простую модель под любые нужды;
— как оптимизировать модель и дотащить до прода.

Чтобы пройти курс, нужно:
1) отправить заявку на этой странице;
2) иметь 2 часа свободного времени.

А после прохождения вы получите приглашение в закрытый чат с DS-экспертами Ozon.

Удачи!

Читать полностью…

Datalytics

Я знаю, сколько времени может уйти на поиск нужной информации в Telegram, поэтому регулярно делюсь полезными ссылками.

Сегодня подготовили для вас целую подборку каналов в
сфере “IT и Технологий” 🔥

Тут вы точно найдете ответы на многие свои вопросы. А главное - вам не придется, тратить на поиски информации несколько часов 😊 👇

Поэтому переходите, подписывайтесь и пользуйтесь на здоровье 📂😉

Хотите подборку?

Читать полностью…

Datalytics

Сбер ищет в команду Аналитика-исследователя, который будет выстраивать анализ продуктов и оценивать эффекты и взаимосвязи Центра индустрии с экосистемой Сбера 🔗

В ваши задачи будет входить взаимодействие с блоками и функциональными подразделениями, сбор данных и проведение аналитических исследований.

Мы предлагаем: премии и ежегодный пересмотр зарплаты, расширенный ДМС с первого дня, ипотеку выгоднее до 4% для каждого сотрудника, а еще корпоративное обучение в Виртуальной школе Сбера и бесплатную подписку СберПрайм+.

Подробнее о вакансии по ссылке

Читать полностью…

Datalytics

ПСБ приглашает системных аналитиков на Weekend Оffer 19-20 октября 2024, который пройдет в онлайн-формате

➡️ Регистрация открыта до 9 октября

Хочешь построить карьеру в финансовой сфере и решать сложные задачи по разработке приложений в одном из крупнейших банков страны? Тогда Weekend Offer от ПСБ — то, что тебе нужно!

Не упусти уникальную возможность пройти все этапы отбора и получить предложение о работе за выходные.

Приглашаем кандидатов на позицию системного аналитика, а также всех специалистов, стремящихся перейти в эту профессию.

Почему тебе будет интересно в ИТ-команде ПСБ:
▪️ удаленный формат работы
▪️ только собственные решения банка
▪️ подходы Agile/Waterfall
▪️ продвинутый стек технологий
▪️ внешние курсы и выездные спринты
▪️ нетворкинг, внутренние митапы и воркшопы

Мы в ПСБ понимаем потребности частных клиентов, помогаем предпринимателям из малого и среднего бизнеса, сопровождаем гособоронзаказ и входим в тройку цифровых бизнесов России.

Поэтому мы заинтересованы в специалистах, готовых участвовать в создании новых продуктов и платформ, архитектурных решений и систем, требований к ПО и общего информационного пространства. Одним словом, помогать команде на стадии разработки и тестирования.

Ждем тех, кто желает погружаться в технические детали, знающих нотации UML и BPMN, банковские продукты, а также уже получивших опыт работы с SQL, микросервисной архитектурой, Jira и Confluence.

Чтобы принять участие в Weekend Оffer для системных аналитиков ПСБ, регистрируйся по ссылке до 9 октября, заполняй анкету и ожидай звонка куратора.

Читать полностью…

Datalytics

Яндекс переработал и улучшил существующие функции для работы с текстом на базе YandexGPT в Яндекс Браузере, что привело к созданию отдельного инструмента. На Хабре рассказали, как можно дотюнить готовые фичи и сделать что-то новое, что сделает работу пользователей ещё более комфортной.

Инструмент включает возможность создания и редактирования текста. Обычно такие функции требовали сторонних приложений, но теперь они встроены прямо в браузер.

Для оценки работы модели Яндекс использовал диффалку на Go, которая находит наидлиннейшие общие подпоследовательности (LCS). Это позволило эффективно анализировать разницу между версиями текста и ускорить проверку изменений.

Переход на архитектуру Encoder-Decoder сократил время генерации текста вдвое, а curriculum learning позволил модели улучшать качество обработки текстов на 10% за счёт последовательного обучения на примерах разной сложности. Ещё одно важное нововведение — поддержка Маркдауна, что особенно полезно для тех, кто работает с разметкой текста.

Читать полностью…
Subscribe to a channel