А теперь вернемся из будущего к настоящему, ChatGPT запустил свой Perplexity поиск по интернету
https://openai.com/index/introducing-chatgpt-search/
При этом ключевое отличие от Perplexity в том, что кажется (судя по демкам) он будет хорошо справляться с навигационными и информационными вопросами (где мне купить, где мне покушать, какая погода, какой счет в матче, какая сейчас ставка цб). И это ставит OpenAI в прямые конкуренты с Google. Если они еще и научаться искать по мультимодальному контенту (видео, подкасты, схемы), то это создает мощный новый поток трафика для видео и аудиоконтента
Интересно подумать как в связи с этим изменится концепция SEO и что на самом то деле скоро нужно будет делать RAG-оптимизацию
🤔Как изменить IT-продукт, чтобы он занял достойное место на рынке?
🚀Узнаете на открытом онлайн-уроке «Продуктовая гипотеза»
Будет интересно продуктовым аналитикам и продуктовым менеджерам
Вы узнаете:
– Какими бывают гипотезы в зависимости от этапа развития компании
– Как увеличить шансы на успех гипотезы
– Как правильно формировать гипотезу
– О чём говорят цифры?
– Какие гипотезы помогают пройти «долину смерти»
👨💻Вебинар проведёт Алькей Аманжолов – постоянный резидент главного национального центра IT-стартапов в Казахстане «Astana Hub»
🤝После вебинара можно записаться на курс «Продуктовая аналитика. Professional».
🕖28 октября, 20:00 Бесплатно
Записаться на событие: https://clck.ru/3E9EAY
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Представьте: вокруг лучшие специалисты BI, обсуждают внедрение, делятся практическими кейсами, а вы — в центре этого, погружены в общение и расширяете сеть полезных контактов. Звучит круто, правда?
Именно это ждет участников бесплатной конференции РУBIКОНФ 14 ноября в Москве.🔥
Здесь соберутся ИТ-директора, BI-эксперты и авторы популярных Telegram-каналов про аналитику, чтобы поделиться кейсами импортозамещения, инсайтами и прогнозами развития BI. Главное — независимые компании честно расскажут о внедрении российских BI-систем.
Почему стоит прийти?
⚡️Реальные кейсы. Узнаете, как такие компании, как РЖД, справляются с импортозамещением, и увидите BI-системы в действии. Только практика — никаких теоретических догадок.
⚡️Честные истории. Независимые компании расскажут о внедрении российских решений — без воды и маркетинговых обещаний.
⚡️Мультивендорная повестка. Разные платформы и решения — каждый найдет что-то своё.
⚡️Нетворкинг. Это не просто возможность послушать, но и пообщаться. Будут представители AW BI, VK Cloud, Skypro, Glowbyte, Loginom и другие. Это шанс обменяться контактами, обсудить проекты и найти партнеров.
Также вас ждут активности на стендах, интерактивы, подарки и другие ивент-плюшки.
Конференция пройдет 14 ноября в центре Москвы, а для тех, кто не сможет приехать, будет онлайн-трансляция. Участие бесплатное.
🔗Подробности и регистрация по ссылке.
Реклама. Рекламодатель АО «ОСТ»
ИНН: 9709108924
Я тут начинаю собираю материалы для нового курса по применению LLM в IT-продуктах
Это не будет курс по промпт-инжинирингу с обещанием светлого будущего как ИИ будет за нас делать все задачи. Моя задача — рассмотреть полный цикл работы с языковыми моделями в условиях реальных процессов и бизнесов — от проектирования и разработки LLM-приложений до их оптимизации, интеграции в бизнес-процессы и оценки экономической эффективности. То есть показать что LLM с предсказуемым качеством внутри production-ready решений — это большая задача с кучей подводных камней и она требует системного подхода, а не просто from openai import OpenAI
На этом фоне начну делиться какими-то статьями, на которые опираюсь при ресерче материалов для курса
Первая статья довольно известна — «Как работает ChatGPT: объясняем на простом русском эволюцию языковых моделей с T9 до чуда». Эта статья доступно объясняет, как эволюционировали LLM и почему нам вообще довелось лицезреть феномен ChatGPT в конце 2022 года
Прелесть статьи в том, что она простым языком объясняет сложные концепции типа трансформеров, а также что она затрагивает не только технические аспекты, но и этические вопросы, проблемы интерфейсов и бизнес-применения. Так что если вы вообще пока не в курсе про LLM, но очень хотите понять что это такое и как появился ChatGPT — забегайся
NLP-инженеры Яндекса рассказали про метод ускорения генерации токенов.
Retrieval-Based Speculative Decoding (REST), по словам авторов метода, может ускорить генерацию токенов более чем в два раза.
Метод спекулятивного декодирования REST ускоряет генерации за счет использования более компактной и быстрой модели.
При использовании REST результаты тестов показали прирост в скорости генерации токенов до 2,36 раз. Однако отмечается, что результат сильно зависит от полноты и качества базы данных.
#llm
Нашли отличный курс от преподавателей ВШЭ и ШАД Яндекс, который поможет в деталях разобраться в устройстве LLM
Он начинается с емкого освоения пререквизитов, а затем вы углубляетесь в особенности архитектур. В курсе предполагается большое количество практики, Вы сможете дообучить генеративную трансформерную модель для решения поставленной перед вами задачи и имплементировать ее в виде сервиса или телеграм-бота.
Но что особенно круто – так это сильная команда преподавателей из топовых университетов и компаний. Это, кстати, те самые эксперты, которые делали AI магистратуру во ВШЭ.
Курс рассчитан примерно на 10-15 часов в неделю и начинается 21 октября. Мест всего 50, так что скорее записывайтесь!
PS: в своем телеграм канале @shvmxyz ребята выкладывают интересные материалы по LLM, а сегодня в 18:00 там пройдет прямой эфир с автором курса - Еленой Кантонистовой!
Технологический форум
DaTalks 2024 | Data Reality Show
24 октября в Loft Hall пройдет, пожалуй, центральное событие, посвященное данным. Организатором выступает компания Navicon, а главным партнером - Arenadata.
Ежегодно это мероприятие собирает data community для детального обсуждения наиболее значимых практических вопросов, связанных с data-ландшафтом и перспективами, которые ожидают CDO и CIO в ближайшем будущем.
В этом году среди основных тем форума:
• best practice формирования data-ландшафта «с запасом»
• будущее Big Data
• промежуточные итоги и перспективы импортозамещения
• современные платформы и модели данных
• обзор и функциональное сравнение актуальных для российского рынка BI-систем.
Трансляция онлайн вестись не будет - основная задача мероприятия это обмен опытом и дискуссии. Поэтому настоятельно рекомендуем зарегистрироваться для очного посещения.
По ссылке можно ознакомиться с программой, спикерами и основной концепцией форума.
erid: 2SDnje8HWJ6
IT Community Day в Санкт-Петербурге прошёл идеально! 👨💻
Сотни IТ-специалистов встретились, чтобы послушать доклады топовых спикеров, прокачать hard и soft skills, познакомиться, повеселиться на афтерпати, и главное — стать частью крупнейшего IТ-комьюнити!
Завидуем тем, кто смог попасть на это мероприятие. А остальным советуем не расстраиваться: совсем скоро состоятся IT Community Day в:
✔️ В Казани 12 октября научимся управлять большими данными, укрощать искусственный интеллект, создавать успешное резюме и находить подход к карьере.
✔️ И в Екатеринбурге 19 октября поговорим об интеграции LLM в приложение, методологии API-first и комбинации личного и профессионального развития.
Успейте зарегистрироваться! 💚
👍dbt - это один из ключевых инструментов современной аналитики и modern data stack.
Изучите один из самых востребованных инструментов аналитики, решая сложные практические задачи в нашем тренажере, научитесь DataOps практикам, постройте хранилище данных на базе dbt, подготовьте и проанализируйте данные
В тренажере вы освоите:
1. Типы хранилищ данных DWH и их построение
2. Подготовку и тестирование данных, Data Quality
3. Построение ELT-pipelines
4. Моделирование данных на базе dbt и PostgreSQL
5. Принципы работы с СУБД на базе Postgres
6. Продвинутую аналитику и визуализацию данных
7. Современные DataOps-практики, оптимизацию производительности и многое другое
Разработаете свои pet-проекты:
🔥 Статистика поездок на самокатах: Построите аналитический пайплайн для общей и дневной статистики поездок, включая тесты качества данных и документацию.
🔥 Аналитика ивентов приложения: Создадите SQL-пайплайн для обработки событий мобильного приложения, обогащённый данными поездок и пользователей, с внедрением контрактов данных и продуктовыми метриками.
🔥 Создание аналитической платформы: Развернете dbt-пайплайны с планировщиком, мониторингом и централизованным git-репозиторием, внедрить проверку качества данных и веб-портал с каталогом данных и документацией.
Сейчас открыт демо-доступ к первым четырем практическим урокам для всех желающих.
➡️ Регистрация на демо-доступ
Реклама. ООО "Инженеркатех" ИНН 9715483673
Яндекс интегрировал VLM в Нейро, значительно улучшив возможности поиска и анализа изображений. На Хабре рассказали, как команда усовершенствовала существующие технологии и создала новый инструмент, делающий работу с визуальным контентом более эффективной.
VLM представляет собой следующий этап в развитии моделей компьютерного зрения. Она не только распознает объекты на картинках, но и отвечает на сложные вопросы о деталях изображений.
Архитектура VLM объединяет LLM, картиночный энкодер и адаптер. Новый пайплайн с VLM-рефразером и VLM-captioner расширил спектр решаемых задач.
В статье подробно описан процесс обучения VLM и проведено сравнение с предыдущим LLM-пайплайном. Разработчики отмечают, что уже сейчас VLM решает многие задачи «из коробки», а с небольшим дообучением достигает высочайшего качества.
Оценить возможности VLM можно в Поиске по картинкам и Умной камере Яндекса.
«Я в режиме реального времени поясняла структуру запросов / ответов в Postman и разбирала документацию в Swagger», — пишет аналитик, который прошел наш курс, а потом два технических собеседования в международные компании. Приятно, конечно ❤️
Если в 2024 году вы хотите:
— научиться выбирать стиль интеграции под вашу задачу;
— начать проектировать с нуля и описывать интеграции в современных стилях (API: REST, SOAP, gRPC и других, + брокеры сообщений);
— узнать как правильно собирать требования и моделировать в UML;
— подготовиться к собеседованию, решив более 100 заданий;
— запустить свой API на Python.
Значит наш курс для вас!
🚀 Начните с открытых бесплатных
уроков — переходите в бот курса и жмите «Старт»
👇
@studyit_help_bot
🚀 Скидка на курс
от канала — 1 000₽ на Stepik по промокоду DATAL3 до конца октября.
У Ромы Бунина вышло клёвое видео про дашборды и их жизненных цикл. У дашбордов целом жизнь короткая и Рома в видео рассказывает как продлить их существование, в том числе с помощью ИИ
Ключевой момент в том, что чем больше пользователей у дашборда, тем дольше он живет (капитанский вывод, но всё же это заставляет нас задумать о том как поддерживать постоянную используемость наших дашбордов)
Как продлить жизнь дашборда? Три слова: процессы, процессы и еще раз процессы! 🔄
Как в этом плане уже сейчас может помочь ИИ? Эта помощь в том, что через чат-ботов с LLM можно:
➡️Искать нужные дашборды
➡️Отвечать на вопросы по данным
➡️Писать документацию
➡️Описывать изменения в дашбордах (change-logs)
➡️Помогать с сертификацией (проверкой дэшей на кри)
Но не все так радужно. ИИ пока не может:
➡️Улучшать дизайн дашбордов
➡️Создавать дашборды с нуля по картинке
В общем, внедряйте процессы, считайте время жизни дашбордов и не бойтесь использовать ИИ для рутины. Кто знает, может скоро мы будем просто рисовать дашборды от руки, а ИИ будет их создавать? 🎨🤔
Кстати, у Ромы есть ещё видео в мини-сериале про дашборды, ссылки тут
🚀Новый конструктор отчётов!
Теперь можно собирать многостраничные документы нужного формата (размер, ориентация) для pixel-perfect экспорта в pdf или печати. Удобно для регулярных встреч с командой или отправки клиентам.
Ключевое:
- Функциональность доступна только в Business тарифе.
- Отчёт – это ещё один тип объекта внутри воркбука.
- Отчёт состоит из страниц, на каждую из которых можно добавлять чарты, картинки, текст.
- Можно работать со слоями.
- Можно копировать виджеты с дашбордов. Это удобно, если нужно быстро собрать печатную версию дашборда.
Что в планах:
- Конвертация дашбордов в многостраничные отчёты.
- Поддержка селекторов (глобальных на весь документ, на группу, на отдельные страницы).
- Простая вставка изображений из буфера с загрузкой.
- Режим просмотра/презентации.
Подробности читайте в документации.
Прочитал отличный совет Тани Мисютиной у Горбунова про важность выделения минимальной частицы данных
Мне нравится та элегантность, которая лежит в основе подходов к архитектуре данных — каждый элемент находится на своем месте, образуя целостную и функциональную структуру. Есть в этом своего рода архитектурная красота
Таня в своём посте пишет о том, что для эффективного анализа данных важно правильно определить «частицу данных» — единицу смысла в конкретной задаче аналитика. Эта частица выступает связующим звеном между различными сущностями в описываемой реальности. Важный момент — даже если исходный датасет не содержит данные на уровне выбранной частицы, понимание этой единицы смысла помогает лучше понять как сделать визуализацию или создать дашборд
В целом, я бы сказал, что умение понимать подходы к описанию реальности — критически важный навык для аналитиков данных, продуктовых аналитиков, инженеров данных и data scientists
Почему так?
1) Формирование правильной онтологии (описания реальности) позволяет аналитику лучше понимать суть явлений, которые он анализирует. Это в свою очередь влияет на то какие вопросы задает аналитик по отношению к этой самой реальности, к стейкхолдерам, а также к датасету. Всё это влияет на качество гипотез, которые ставит аналитик, а также на интерпретацию данных и полученных выводов
2) Выходит из пункта 1, но больше связано с коммуникацией и постановкой задач. Если аналитик хорошо умеет «разложить» онтологию, то качество поставленной задачи к другим контрагентам (будь то data engineers, QA, разработчики, продакт-менеджеры) сильно вырастает
Если вы хотите глубже разобраться в том как вообще работать с сущностями и научиться лучше описывать реальность на языке данных — подписывайтесь на канал Тани @datalaboratory
👍dbt - это один из ключевых инструментов современной аналитики и modern data stack.
Изучите один из самых востребованных инструментов аналитики, решая сложные практические задачи в нашем тренажере, научитесь DataOps практикам, постройте хранилище данных на базе dbt, подготовьте и проанализируйте данные
В тренажере вы освоите:
1. Типы хранилищ данных DWH и их построение
2. Подготовку и тестирование данных, Data Quality
3. Построение ELT-pipelines
4. Моделирование данных на базе dbt и PostgreSQL
5. Принципы работы с СУБД на базе Postgres
6. Продвинутую аналитику и визуализацию данных
7. Современные DataOps-практики, оптимизацию производительности и многое другое
Разработаете свои pet-проекты:
🔥 Статистика поездок на самокатах: Построите аналитический пайплайн для общей и дневной статистики поездок, включая тесты качества данных и документацию.
🔥 Аналитика ивентов приложения: Создадите SQL-пайплайн для обработки событий мобильного приложения, обогащённый данными поездок и пользователей, с внедрением контрактов данных и продуктовыми метриками.
🔥 Создание аналитической платформы: Развернете dbt-пайплайны с планировщиком, мониторингом и централизованным git-репозиторием, внедрить проверку качества данных и веб-портал с каталогом данных и документацией.
Сейчас открыт демо-доступ к первым четырем практическим урокам для всех желающих.
➡️ Регистрация на демо-доступ
Реклама. ООО "Инженеркатех" ИНН 9715483673
Большая новость на российском айти-рынке: Яндекс выпустил новое поколение языковых моделей YandexGPT 4. В релиз вошли две версии: флагманская Pro и облегченная Lite.
Количество обрабатываемых токенов увеличено в 4 раза — до 32 тысяч, что позволяет работать с большими документами. В обучении применили подход с пошаговыми рассуждениями (Chain-of-thoughts), благодаря чему модели научились лучше анализировать проблемы, выделять этапы решения и рассуждать над их реализацией.
Pro-версия превосходит предыдущее поколение в 70% тестов. В RAG-сценариях заметно снизилось количество галлюцинаций, что улучшило работу с документами.
Модели уже доступны через API в Yandex Cloud. В ближайшее время их интегрируют в Алису с опцией Про, а позже добавят function calling для создания продвинутых ассистентов.
https://habr.com/ru/companies/yandex/articles/852968/
В продолжение подборки статей хочу поделиться неплохой вводной статьей про то как приземлять LLM в продукты (создавать LLM-фичи) из блога GoPractice
https://gopractice.ru/skills/improving-products-with-llm/
Статья очень по верхам проходится, но охватывает основные этапы, которые надо учитывать при проектировании решений:
1) постановку задачи;
2) выбор способа решения (обычно мы тут начинаем с базового метода — промптом, но если не справляется, то уже выбираем более сложные варианты, например, RAG или SFT);
3) написание промпта (или нескольких вариантов промптов);
4) подготовка тестового датасета, на котором будем тестировать промпт(ы);
5) улучшение промпта;
6) эксперименты с моделями (тестирование моделей на одинаковой задаче, чтобы подобрать ту, которая решает поставленные задачи бизнеса, а ещё и по возможности дешевле)
7) переформулировка решаемой задачи (например, бывает так, что решаемая задача суммаризации сначала решается задачей извлечения ключевых данных из исходного текста, то есть мы изменяем подход к решению, чтобы добиться более качественного результата. тут уже могут возникать сложные пайплайны и какие-то истории про агентов или даже вызова функций)
Статья может быть хорошим стартом для продактов, технических проджектов, системных аналитиков и разработчиков, которые планируют начать внедрять LLM в свои продукты, но не знают с чего начать
🚀 Новое исследование рынка аналитиков! — если вы аналитик, пройдите опросник и первыми получите результаты, а также эксклюзивные доп. материалы с инсайтами исследования.
Что за исследование?
◽️Это очередное исследование рынка аналитиков от NewHR. Ребята начали их делать в 2018 году, последнее было в 2023 и планируют запускать их ежегодно.
◽️Исследование позволяет следить за ситуацией на рынке аналитиков, потому что эта сфера супер-сильно меняется и развивается. Важно держать руку на пульсе и исследование NewHR в этом поможет!
Рынок каких аналитиков исследуют?
➤ Дата-аналитиков
➤ Продуктовых аналитиков
➤ BI-аналитиков
➤ Маркетинговых аналитиков
➤ Веб-аналитиков
Что исследуется?
👉 Зарплаты и их динамика. Вопросы про вилки, а потом поделимся результатами и корреляциями.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удалёнка/офис), какие планы на трудоустройтво.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
Как принять участие в исследовании?
⏩ Заполните 20-мин опросник⏪
Как можно помочь?
🙏 Пошарьте наш опрос среди своих знакомых аналитиков! Чем больше будет ответов, тем более репрезентативным будет результат!
Когда будут результаты?
— Сбор данных NewHR делает в течении всего октября
— Потом нужно пара месяцев на анализ и формирование информативного лендинга (пример 2023)
— Итоговый результат исследования планируется выпустить в начале 2025 года.
— 2025 год ещё далеко, а данных хочется уже сейчас, поэтому:
— NewHR планирует делиться со всеми участниками исследования промежуточными результатами, а также пришлём приглашение на закрытый стрим, где поделимся всеми инсайтами и ответим на вопросы.
Предложение для аналитиков
Создайте курс с Яндекс Практикумом!
Яндекс Практикум — это онлайн-сервис, помогающий освоить актуальные цифровые профессии. Учебный контент здесь разрабатывают мидлы или сеньоры.
Сейчас, например, нужны авторы уроков по темам: «Расчёт и визуализация бизнес-метрик и показателей», «Формулировка и проверка гипотез. Статистический анализ данных» и «Анализ результатов А/В тестирования с помощью Python».
Экспертам предлагают удалёнку, нагрузку от 10 часов в неделю, гибкую занятость. А главное, возможность развиваться вместе с Яндекс Практикумом нон-стоп.
Пожелания к кандидату ←
Хорошая статья про бенчмарки LLM. В статье рассказывается как выбрать бенчмарк под тип задачи, в чём разница между онлайн-оценкой и офлайн-оценкой, способы бенчмаркинга (one-shot vs few-shot). Для базового знакомства — самое то
https://habr.com/ru/articles/850218/
Митап для IT-специалистов в Иннополисе
26 октября | 12:00
Офлайн в Иннополисе | Онлайн
Присоединяйся к митапу True Tech Hub, который пройдет 26 октября в Иннополисе. Тебя ждут доклады от ведущих экспертов МТС и приглашенных спикеров.
Расскажем про метрики, помогающие оптимизировать Agile-процессы команды разработки, покажем, как подружить отдел аналитики с остальной командой, и поделимся своим видением того, как User Stories упрощает жизнь аналитикам и владельцам продуктов.
Во второй части коснемся более хардовых историй: углубимся в тему экстремальной оптимизации моделей машинного обучения и векторных данных, расскажем как в МТС проверяют гипотезы в задачах генеративного искусственного интеллекта для потребностей бизнеса. А наши коллеги из red_mad_robot на примере разработанной умной базы знаний поделятся, как RAG-концепция помогает повысить точность и качество генерируемого контента.
Для участия нужно зарегистрироваться по ссылке
Аналитик DWH, ты тут? 😎 Специально для тебя запустили бесплатный онлайн-интенсив в Открытых школах Т1! Прокачай скилы и, если повезет, попади в штат Холдинга Т1 — крупнейшей ИТ-компании по выручке в России по версии RAEX и CNews Analytics 2023.
Зачем участвовать?
🔵Бесплатное обучение в гибком формате: по вечерам, онлайн, из любого города РФ
🔵Уникальный рыночный опыт. Проекты Т1 ежегодно побеждают в ИТ-конкурсах: Global CIO, Национальной банковской премии и др. Тебя обучит и поддержит команда профессионалов.
🔵Возможность влиять на развитие ключевых отраслей экономики: в портфеле Т1 800+ высокотехнологичных проектов и 70+ продуктов и услуг на современном техстеке для крупнейших компаний и госсектора.
🔵Карьерный рост и поддержка. Уникальный карьерный фаст-трек для выпускников Открытых школ помогает молодым специалистам прокачаться до уровня мидла в Т1 за 1,5 года.
Успей подать заявку до 25 октября!
Реклама. ООО «Т1» ИНН: 7720484492. Erid: 2SDnjcPYZeB
Недавний эксперимент MIT показал: люди верят даже случайным прогнозам ИИ. Написал статью, в которой рассказал о деталях исследования и разобрал какие психологические аспекты влияют на склонность доверять ИИ, даже если никакого ИИ в продукте нет
Эффект Барнума в действии: Как психология влияет на доверие к ИИ
Хотите узнать, как автоматизировать аналитические процессы и управлять большими объемами данных?
Ждем вас на открытом вебинаре 21 октября в 20:00 мск, где мы разберем:
- что такое Apache Airflow и зачем он нужен;
- как Airflow помогает решать сложные аналитические задачи;
- основные компоненты и функциональность платформы;
- примеры использования Airflow в реальных проектах.
Урок для разработчиков, инженеров данных, аналитиков и менеджеров аналитики.
Встречаемся в преддверии старта курса «Продуктовая аналитика. Professional». Все участники вебинара получат специальную цену на обучение! Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://clck.ru/3DozvS
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
Алгоритмы поиска дубликатов
Ребята из HF Labs выложили отличную статью на Хабре о поиске дубликатов в клиентском MDM. Задача поиска дубликатов — суперкритична для обеспечения качества данных, дубли — потенциальный источник серьезных ошибок в аналитике
Авторы статьи рассказывают о том, как для эффективного поиска дубликатов важно правильно определить подход к обработке данных. Они выделяют несколько ключевых этапов:
1️⃣ Чистка и нормализация данных
2️⃣ Хеширование для быстрого поиска
3️⃣ Применение компараторов и правил
4️⃣ Обновление данных в режиме реального времени
Всё это со своей спецификой про банковскую сферу, но перекладываемо на любые задачи поиска дубликатов (в том числе нечетких)
Глубинное представление о качестве данных, с которыми мы работаем — это прям важный навык для аналитика. Я помню, что почти на любом месте, где я работал сталкивался с тем, что данные всегда содержали кучей дублей и мусора, по разным причинам. В итоге это всё важно отсеивать. Мы же не просто цифры в таблицах анализируем — мы пытаемся через эти данные понять реальность бизнеса, а если у нас Garbage In, то получаем и Garbage Out
https://habr.com/ru/companies/hflabs/articles/847012/
Бесплатный мини-курс по технологии ускорения ML-моделей — Triton
В Ozon Tech 100+ дата-сайентистов. Каждый день они решают задачи поиска и диалоговых систем, чат-ботов и матчинга, анализа спроса и рекомендаций. И много-много других! Для этого наши специалисты используют огромное количество технологий. Одна из них — Triton.
Курс — это гайд в формате лонгрида, из которого вы узнаете:
— что такое Triton и как в нём происходит типизация данных;
— как собрать простую модель под любые нужды;
— как оптимизировать модель и дотащить до прода.
Чтобы пройти курс, нужно:
1) отправить заявку на этой странице;
2) иметь 2 часа свободного времени.
А после прохождения вы получите приглашение в закрытый чат с DS-экспертами Ozon.
Удачи!
Я знаю, сколько времени может уйти на поиск нужной информации в Telegram, поэтому регулярно делюсь полезными ссылками.
Сегодня подготовили для вас целую подборку каналов в
сфере “IT и Технологий” 🔥
Тут вы точно найдете ответы на многие свои вопросы. А главное - вам не придется, тратить на поиски информации несколько часов 😊 👇
Поэтому переходите, подписывайтесь и пользуйтесь на здоровье 📂😉
Хотите подборку?
Сбер ищет в команду Аналитика-исследователя, который будет выстраивать анализ продуктов и оценивать эффекты и взаимосвязи Центра индустрии с экосистемой Сбера 🔗
В ваши задачи будет входить взаимодействие с блоками и функциональными подразделениями, сбор данных и проведение аналитических исследований.
✅Мы предлагаем: премии и ежегодный пересмотр зарплаты, расширенный ДМС с первого дня, ипотеку выгоднее до 4% для каждого сотрудника, а еще корпоративное обучение в Виртуальной школе Сбера и бесплатную подписку СберПрайм+.
Подробнее о вакансии по ссылке
ПСБ приглашает системных аналитиков на Weekend Оffer 19-20 октября 2024, который пройдет в онлайн-формате
➡️ Регистрация открыта до 9 октября
Хочешь построить карьеру в финансовой сфере и решать сложные задачи по разработке приложений в одном из крупнейших банков страны? Тогда Weekend Offer от ПСБ — то, что тебе нужно!
Не упусти уникальную возможность пройти все этапы отбора и получить предложение о работе за выходные.
Приглашаем кандидатов на позицию системного аналитика, а также всех специалистов, стремящихся перейти в эту профессию.
Почему тебе будет интересно в ИТ-команде ПСБ:
▪️ удаленный формат работы
▪️ только собственные решения банка
▪️ подходы Agile/Waterfall
▪️ продвинутый стек технологий
▪️ внешние курсы и выездные спринты
▪️ нетворкинг, внутренние митапы и воркшопы
Мы в ПСБ понимаем потребности частных клиентов, помогаем предпринимателям из малого и среднего бизнеса, сопровождаем гособоронзаказ и входим в тройку цифровых бизнесов России.
Поэтому мы заинтересованы в специалистах, готовых участвовать в создании новых продуктов и платформ, архитектурных решений и систем, требований к ПО и общего информационного пространства. Одним словом, помогать команде на стадии разработки и тестирования.
Ждем тех, кто желает погружаться в технические детали, знающих нотации UML и BPMN, банковские продукты, а также уже получивших опыт работы с SQL, микросервисной архитектурой, Jira и Confluence.
Чтобы принять участие в Weekend Оffer для системных аналитиков ПСБ, регистрируйся по ссылке до 9 октября, заполняй анкету и ожидай звонка куратора.
Яндекс переработал и улучшил существующие функции для работы с текстом на базе YandexGPT в Яндекс Браузере, что привело к созданию отдельного инструмента. На Хабре рассказали, как можно дотюнить готовые фичи и сделать что-то новое, что сделает работу пользователей ещё более комфортной.
Инструмент включает возможность создания и редактирования текста. Обычно такие функции требовали сторонних приложений, но теперь они встроены прямо в браузер.
Для оценки работы модели Яндекс использовал диффалку на Go, которая находит наидлиннейшие общие подпоследовательности (LCS). Это позволило эффективно анализировать разницу между версиями текста и ускорить проверку изменений.
Переход на архитектуру Encoder-Decoder сократил время генерации текста вдвое, а curriculum learning позволил модели улучшать качество обработки текстов на 10% за счёт последовательного обучения на примерах разной сложности. Ещё одно важное нововведение — поддержка Маркдауна, что особенно полезно для тех, кто работает с разметкой текста.