💣Есть знания, которые постоянно требуют актуализации, а есть - база!
Убедитесь в этом 20 июля в 17:00 мск на бесплатном вебинаре в OTUS. Вебинар приурочен к старту онлайн-курса «Математика для программистов».
🔥На бесплатном вебинаре «Логические исчисления, и как они связаны с языками программирования» мы:
— разберём, что общего между программистом и математиком, и в чём разница.
— будет показано, что языки программирования строятся на тех же принципах, что и доказательства математических теорем, а выразительные способности языков программирования ограничиваются понятиями полноты и непротиворечивости.
Ведущий — Евгений Тюменцев, опытный директор компании по разработке программного обеспечения.
После вебинара полный курс можно приобрести в том числе в рассрочку.
Нативная интеграция. Информация о продукте www.otus.ru
Как оптимизировать процесс привлечения клиентов B2B с помощью методов Продвинутой Аналитики
В статье мы поделимся примером первого практического применения Продвинутой Аналитики в процессах стратегического бизнес-планирования численности ресурсов Сети для привлечения клиентов Юридических Лиц.
Перейти к статье | DATApedia
Декларирование ML-пайплайнов: организация экспериментов
Эта статья будет особенно полезна тем, кто хотел бы решить вопрос управления и отслеживания изменений в процессе разработки. Нередки ситуации, когда над одним проектом работает несколько команд. В этом случае важно позаботиться о сохранении истории изменений, чтобы следующие команды разработчиков могли получить информацию о том, что было сделано до них.
Перейти к статье | DATApedia | #DS_AI
Data Consistency: как быть уверенным, что с данными всё ок
В этой статье рассказывается о том, как мониторить консистентность данных в аналитических системах, используя категориальные переменные, и как выбрать лучший способ для мониторинга.
Перейти к статье | SQLpedia
Книга «Python для data science»
Книга предназначена для разработчиков, желающим лучше понять возможности Python по обработке и анализу данных. Предполагается, что у вас уже есть базовый опыт работы с Python и для вас не составит труда следовать таким инструкциям, как установка базы данных или получение ключа API. Тем не менее концепции data science объясняются с нуля на практических, тщательно разобранных примерах. Поэтому опыт работы с данными не требуется.
Перейти к статье | DATApedia
Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)
В данном посте автор рассказывает о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.
Перейти к статье | DATApedia
А вы знаете, что такое пирамида признаков? А трансформеры (нет, мы не про фильм)?
Это термины, которые используют инженеры, работающие с нейронными сетями! Мы их нашли в канале ИТ-компании «Криптонит» — подписывайтесь на ребят! У них выходят материалы и про ML, и про роботов, и про программирование.
А ниже мы выбрали несколько терминов из их нейрословаря🟡
📍Explaining Away — эффект редукции причины как упрощённая схема рассуждений.
📍Инференс (inference) — с точки зрения разработчика это третий этап жизненного цикла искусственной нейронной сети (после её обучения и развёртывания).
📍Многослойный перцептрон (MLP) — это одна из элементарных архитектур, с которой часто начинают освоение нейронных сетей и принципов их обучения.
📍Пирамида признаков (FPN, Feature Pyramid Net) — это вычислительная архитектура, используемая в машинном зрении для обработки изображений без привязки к их разрешению.
📍Трансформеры (transformers) — это не только роботы, но и прогрессивное семейство архитектур нейросетей от Google.
Медленно меняющиеся измерения (SCDs) в эпоху облачного хранилища данных
Статья описывает проблему "медленно меняющихся измерений" в моделировании данных, когда обновление измерений происходит очень редко, и предлагает три решения этой проблемы.
Перейти к статье | DATApedia
ClickHouse: полезные лайфхаки
В этой статье автор рассказывает что такое ClickHouse и почему она считает его идеально подходящим мощным инструментом для аналитики. А также делится tips & tricks из ее опыта.
Перейти к статье | DATApedia
Форматы данных и файлов: руководство для архитекторов
Вы наверняка слышали о таких форматах, как Parquet, ORC, Avro, Arrow, Protobuf, Thrift и MessagePack. Эта статья о том, что они собой представляют и какой из них лучше выбрать.
Перейти к статье | DATApedia
Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков
Статья про то, как предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу.
Перейти к статье | BApedia
Алоха, коллеги!
Мы рады сообщить, что в нашем канале появился тэг #DS_AI, которым мы отмечаем статьи, связанные с искусственным интеллектом. Этот тэг поможет вам быстрее находить интересующие вас статьи и получать информацию о новых тенденциях в области ИИ.
Мы надеемся, что этот тэг сэкономит ваше время и будет вам полезен 🙂
«Инженеров данных заменит автоматика» и другие мифы о DE
Если вы неплохо знакомы с работой дата-инженера, мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными. Но не делайте поспешных выводов: при подготовке статьи мы тоже узнали что-то новое.
Перейти к статье | DATApedia
Нейронные сети врываются в медицину
Статья рассказывает о применении нейронных сетей в медицине, в частности, об использовании ИИ для анализа медицинских снимков и обработки естественного языка (NLP) в медицинских текстах. В статье также описывается архитектура Longformer, которая позволяет расширить контекст для моделей, основанных на RoBERTa.
Перейти к статье | DATAscience
🔥Учимся визуализировать данные и строить уникальные графики с помощью R на открытом уроке курса "Язык R для обработки данных" в OTUS.
Язык R - отличный инструмент, знание которого необходимо аналитикам, статистам, маркетологам и программистам при работе с данными. Простой синтаксис, инструменты визуализации, быстрое выполнение кода - все это позволяет создавать весомые конкурентные преимущества в работе. В OTUS стартует набор на курс “Язык R для обработки данных”.
📌17 июля приглашаем на вебинар “Слои в ggplot2”, на котором вы узнаете:
- как строить графики в R с помощью библиотеки ggplot2 слой за слоем;
- познакомитесь с разными типами визуализаций, фасетированием и многим другим.
Результат урока: простой и понятный алгоритм для построения графиков по данным.
Урок подойдет даже тем, кто не знаком с языком R
👉Регистрация для участия https://otus.pw/ztYI/
Не упустите возможность протестировать формат обучения. Приобрести курс возможно в рассрочку
Нативная интеграция Информация о продукте www.otus.ru
Вредные советы по подготовке датасета
Для кого статья?
- Вы делаете первые шаги в сборе датасетов на натуре, либо
- Уже имеете опыт, но интересно посмотреть на мнение коллег.
Перейти к статье | DATApedia
Алоха, коллеги!
Сегодня вопрос из рубрики #fromInterviewWithLove
Дана таблица "Студенты" с полями "Имя", "Фамилия", "Возраст" и "Группа". Необходимо вывести список уникальных групп студентов и количество студентов в каждой группе, отсортированный по возрастанию названия группы.
Для решения этой задачи нужно написать следующий SQL-запрос:
SELECT DISTINCT Группа, COUNT(*) AS Количество_студентов
FROM Студенты
GROUP BY Группа
ORDER BY Группа ASC;
Этот запрос выбирает из таблицы "Студенты" уникальные группы студентов и вычисляет количество студентов в каждой группе. Затем он сортирует результат по возрастанию названия группы. Результатом запроса будет список уникальных групп студентов с количеством студентов в каждой группе.
Небольшая подсказка для новичков👇
Нужно понимать, как работать с агрегатными функциями, такими как COUNT, и как использовать оператор DISTINCT для выбора уникальных значений.
Нейронные сети не могут обобщать периодические зависимости. Как это исправить?
В данной статье обсуждается проблема обобщения периодических зависимостей нейронными сетями. Авторы рассматривают ограничения глубоких нейронных сетей в экстраполяции и предлагают альтернативные функции активации для более точного моделирования периодических систем.
Перейти к статье | DATApedia | #DS_AI
Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Это умеренно сложная статья, в которой мы опишем основные принципы оптимизации запросов в Trino, без путешествия в "машинный зал". Схожие идеи реализованы во многих других аналитических системах, поэтому статья будет полезна широкому кругу читателей, занимающихся анализом данных и эксплуатацией аналитических систем.
Перейти к статье | DATApedia
О развитии предсказательного обслуживания на примере диагностики трансформатора
В статье речь пойдет про модельно-ориентированное проектирование, цифровой двойник моделирующий рабочие состояния, процессы и жизненный цикл актива, алгоритм диагностики и прогнозирования отказов на основе искусственного интеллекта, а также интеграция результатов в пользовательское ПО.
Перейти к статье | DATApedia | #DS_AI
🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты
Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.
Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.
Также запись вебинара будет доступна ytsaurus">на YouTube.
Как сэкономить свои нервы и деньги компании на перестроении структуры больших таблиц без простоя в PostgreSQL
В этой статье на реальных примерах рассказано, как можно сэкономить время разработчика, администратора баз данных и ресурсы сервера(ов), используя утилиту pgrebuildtable.
Перейти к статье | SQLpedia
Что под капотом у нейронной сети. Нейросеть c точки зрения математики и программирования
Цель данной публикации – комплексное рассмотрение строения искусственных нейронных сетей c точки зрения и математики и программного кода. В данной работе нейронная сеть реализуется на языке Python с использованием библиотеки tensorflow.keras.
Перейти к статье | DATApedia | #DS_AI
Почему для MLOps лучше выбирать Open Source, а не проприетарное ПО
В статье приводятся аргументы в пользу использования Open Source-программ, таких как высокое качество продукта, большое количество людей, работающих с такими программами, возможность исправления ошибок и т.д. Также авторы статьи упоминают скрытые расходы у проприетарных платформ и ситуации, когда имеет смысл использовать проприетарные платформы.
Перейти к статье | DATApedia
Как Почта моделирует риски потери отправлений
Главный аналитик отдела монетизации данных в Почтатехе расскажет, как они создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.
Перейти к статье | DATApedia
Как создать интерактивный дашборд с нуля через ChatGPT
В этой статье рассказано, как использовать ChatGPT для визуализации данных и построении дашбордов при помощи Python и фреймворка Dash; также автор поделился готовыми промтами для создания дашборда за несколько минут.
Перейти к статье | DATApedia | #DS_AI
Искусственный интеллект в России и мире: эволюция, тенденции, будущее
В этой статье рассмотрены тенденции развития ИИ в России, также его возможное будущее. Также рассказано, как мы применяем искусственный интеллект в работе с данными.
Перейти к статье | DATApedia | #DS_AI