Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером
В этой статье рассказывается о том, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными.
Перейти к статье | DATApedia
Как обучить миллионы моделей прогнозирования временными сериями
В статье описывается, как была решена проблема производительности при обучении миллионов моделей прогнозирования временных серий с кроссвалидацией и выбором наиболее оптимальной модели.
Перейти к статье | DATApedia
💻 Хочешь работать с масштабными цифровыми продуктами? Учись обрабатывать большие данные
MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня.
✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам.
💪 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «MLOps» от OTUS.
Успей присоединиться к группе, курс стартует 28 августа!
✍️ ПРОЙТИ ТЕСТ: https://otus.pw/T77L/
Нативная интеграция. Информация о продукте www.otus.ru
Преобразование табличных данных в Python
В статье рассказывается о выборе библиотек для работы с табличными данными в Python. Сравниваются четыре популярных фреймворка: Pandas, Polars, PyArrow и DuckDB. Обсуждаются такие аспекты, как документация и экосистема, производительность и удобство работы с кодом. В конце автор делится своим мнением о том, какой фреймворк лучше выбрать в зависимости от конкретной задачи.
Перейти к статье | DATApedia
Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее
Статья рассказывает о том, как разработчики и дата-сайентисты ЕВРАЗа создали математическую модель остывания рельса, чтобы сделать его прочнее. В статье описывается процесс производства рельсов, проблемы, связанные с термоупрочнением, и как математическая модель помогает контролировать скорость охлаждения и добиться лучших механических свойств рельса.
Перейти к статье | DATApedia
14 типов атак, которые должны выявлять системы лицевой биометрии
Различные слабые места биометрической системы можно использовать для атаки. В этой статье мы рассмотрим так называемые «атаки на визуальный образ» (Presentation Attack, PA).
Перейти к статье | DATApedia
Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения
Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.
Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?
Перейти к статье | DATApedia | #DS_AI
Эффективная загрузка внешних данных в корпоративное хранилище: опыт «Магнита»
Сегодня я хотел бы поделиться с вами опытом, который мы приобрели в компании «Магнит» при загрузке данных из внешних источников в корпоративное хранилище данных. Расскажу о проблемах, с которыми мы столкнулись и решениях, которые нам помогли облегчить процесс загрузки, повысить эффективность и ускорить получение доступа к данным.
Перейти к статье | DATApedia
🔥В OTUS открыт набор в группу курса “Язык R для анализа данных”. На серии открытых уроков преподаватели раскрывают возможности применения языка R и его особенности, а также делятся практическими советами.
Одна из сфер применения языка R — финансы. Поэтому мы решили посвятить этой теме следующее практическое занятие, участие в котором бесплатно.
📌14.08 в 20.00 (мск) приглашаем на вебинар “Анализ финансового портфеля с помощью языка R”, на котором разберем:
- как загружать и обрабатывать финансовые данные в R;
- способы сборки из данных портфелей;
- методы анализа построенного портфеля;
- характеристики портфеля.
Результат урока: вы научитесь работать с финансовыми данными в R. Построите финансовый портфель и узнаете какие есть подходы к анализу построенного портфеля.
👉Регистрация для участия https://otus.pw/ZzIE/
Не упустите возможность протестировать формат обучения и получить ценные знания. Приобретая курс, возможно оформить рассрочку на весь период обучения, а также получить скидку.
Нативная интеграция. Информация о продукте www.otus.ru
Теория вероятностей в разработке: где применяется и что можно изучить для более глубокого понимания темы
Часто приходится слышать, что математика, включая статистику и теорию вероятностей с комбинаторикой, не слишком нужна разработчику. Что ж, в некоторых случаях это действительно так. Но для представителей ряда направлений всё это нужно. Кому именно требуется теория вероятностей с сопутствующими дисциплинами и зачем? Об этом поговорим в статье
Перейти к статье | DATApedia
Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана
Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта, проектной документации, ценности для бизнеса и требованиях. О том, как начинать с малого и быстро отказываться от слабых идей. Руководство пригодится дата-сайентистам, специалистам по машинному обучению, руководителям отделов, техническим руководителям или тем, кто хочет дорасти до этого уровня.
Перейти к статье | DATApedia
Как аннотировать документы для обучения ИИ распознавания текста
В этой статье описываются проблемы, связанные с обработкой неструктурированных данных, и предлагаются решения, такие как использование многонациональных команд для сбора датасетов на разных языках, сервисы для сбора состязательных примеров и написание четких инструкций по аннотированию. Также обсуждаются задачи парсинга документов и извлечения сущностей
Перейти к статье | DATApedia | #DS_AI
Как мы снизили нагрузку на SAP HANA незаметно для пользователей
В статье рассказывается о том, как команда снизила нагрузку на SAP HANA незаметно для пользователей, используя простой и действенный способ, основанный на разделении данных по "температуре" - на “холодные”, “теплые” и “горячие”. Рассматриваются проблемы, с которыми сталкиваются средние и крупные бизнесы, когда объем информации в корпоративном хранилище данных начинает превышать запланированные изначально мощности. Описываются шаги и сценарии миграции для снижения нагрузки на SAP HANA.
Перейти к статье | DATApedia
MLOps от Gucci и оценка уровня Data Driven’ности в компании
MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно!
Перейти к статье | DATApedia
Метаданные как обезбол при миграции
Статья о том, как команда аналитиков Skyeng решала проблемы, связанные с миграцией на новое хранилище данных. Автор рассказывает о том, как они использовали метаданные, чтобы понять, какие аналитические материалы используются, а какие нет, а также о том, как они автоматизировали сбор списка подключений.
Перейти к статье | SQLpedia
«Квантовые облака»: как VK Cloud и разработчики делают квантовые вычисления ближе к бизнесу
Автор расскажет, что такое квантовые компьютеры, как Российский квантовый центр и сотрудники из организации S-Quantum придумали эмуляторы квантового процессора, почему решили разворачивать их в облаке и что в итоге получили.
Перейти к статье | DATApedia
Разговор об управлении компанией, искусственном интеллекте и ИТ-гигантах
Команда VK Cloud перевела расшифровку подкаста Harvard Business Review HBR IdeaCast. В нем Сундар Пичай, генеральный директор Google и его родительской компании Alphabet, рассказывает о генеративном ИИ и других вопросах, касающихся искусственного интеллекта и развития крупных ИТ-компаний в будущем.
Перейти к статье | DATApedia | #DS_AI
🔥Как аналитику данных правильно собрать требования?
Узнайте на открытом уроке от OTUS! Урок пройдёт 23 августа в 20:00. Вебинар приурочен к старту онлайн-курса "Аналитик данных"
⚡️Что разберём на уроке:
-Жизненный цикл задачи в анализе данных;
-Какие вопросы нужно обязательно задавать и как правильно фиксировать ответы;
-Как преодолевать возражения и не заработать ненужный стресс в процессе.
✨Урок будет полезен:
-Новичкам в области анализа данных, которые задумываются об углублении знаний;
-Специалистам, которые уже делают первые шаги в этой профессии;
-Аналитики, работающие с подготовкой ручной отчетности.
Продолжить обучение можно на онлайн-курсе "Аналитик данных",
который можно приобрести в рассрочку.
💪Для регистрации на урок пройдите тестирование:
https://otus.pw/x3iD/Нативная интеграция. Информация о продукте www.otus.ru
Искусственный интеллект: сколько он стоит, куда идет и можно ли ему доверять
Команда VK Cloud перевела статью о том, что на самом деле сейчас происходит с искусственным интеллектом: чего от него ждут, сколько он стоит и как будет развиваться в будущем.
Перейти к статье | DATApedia | #DS_AI
S3 не сразу строилось
Вашему вниманию предлагается сокращённый перевод эпичного поста под авторством Энди Уорфилда, вице-президента и заслуженного инженера в компании Amazon, занятого разработкой S3.
Перейти к статье | DATApedia
Книга «Data Science в действии»
Эта уникальная книга содержит описание пяти практических проектов, включая отслеживание вспышек заболеваний по заголовкам новостей, анализ социальных сетей и поиск закономерностей в данных о переходах по рекламным объявлениям.
Перейти к статье | DATApedia
Как создавать качественные ML-системы. Часть 2: приручаем хаос
Команда VK Cloud перевела вторую статью из серии о создании ML-систем. Первую читайте по ссылке. Здесь поговорим о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.
Перейти к статье | DATApedia
Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 3
В предыдущей части вы узнали, что качество модели Data Science в первую очередь зависит от исходных данных.
В третьей, заключительной части статьи автор даст ответы по рисункам из предыдущей части. И для дата-сайентистов приведет общий код Python, который использовался для получения всех представленных ниже изображений.
Перейти к статье | DATApedia
Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте
В этой статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них вывод (inference).
Перейти к статье | DATApedia | #DS_AI
Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 2
В первой части автор остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части автор приведет ответы и расскажет, что и в какой степени влияет на качество моделей.
Перейти к статье | DATApedia
Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 1
Этот материал начинает серию из трех постов о том, как объяснить проблемы дата-сайентистов сотрудникам вашей компании, которые ничего не понимают в data science. В первой части я доступно расскажу о нынешнем положении специалистов, их проблемах и типичных запросах, с которыми они сталкиваются.
Перейти к статье | DATApedia
Модели прогнозирования продаж в «Магните»: Легенда об Ансамбле
Статья рассказывает о моделях прогнозирования продаж в сети магазинов "Магнит". Авторы описывают типы и особенности используемых моделей, а также сложности, с которыми сталкиваются при прогнозировании товарных категорий, присутствующих в ассортименте ограниченный период времени в течение года.
Перейти к статье | DATApedia