ds_wiki | Unsorted

Telegram-канал ds_wiki - DATApedia | Data science

3571

Тут вы найдете всё, что связано с Data Science, AI и Machine Learning, как для начинающих, так и для бывалых специалистов. Также, для вас, мы переводим зарубежные статьи. Сотрудничество: @Seyfme

Subscribe to a channel

DATApedia | Data science

💣Есть знания, которые постоянно требуют актуализации, а есть - база!

Убедитесь в этом 20 июля в 17:00 мск на бесплатном вебинаре в OTUS. Вебинар приурочен к старту онлайн-курса «Математика для программистов».

🔥На бесплатном вебинаре «Логические исчисления, и как они связаны с языками программирования» мы:
— разберём, что общего между программистом и математиком, и в чём разница.
— будет показано, что языки программирования строятся на тех же принципах, что и доказательства математических теорем, а выразительные способности языков программирования ограничиваются понятиями полноты и непротиворечивости.

Ведущий — Евгений Тюменцев, опытный директор компании по разработке программного обеспечения.

После вебинара полный курс можно приобрести в том числе в рассрочку.

Нативная интеграция. Информация о продукте www.otus.ru

Читать полностью…

DATApedia | Data science

​​Как оптимизировать процесс привлечения клиентов B2B с помощью методов Продвинутой Аналитики

В статье мы поделимся примером первого практического применения Продвинутой Аналитики в процессах стратегического бизнес-планирования численности ресурсов Сети для привлечения клиентов Юридических Лиц.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Декларирование ML-пайплайнов: организация экспериментов

Эта статья будет особенно полезна тем, кто хотел бы решить вопрос управления и отслеживания изменений в процессе разработки. Нередки ситуации, когда над одним проектом работает несколько команд. В этом случае важно позаботиться о сохранении истории изменений, чтобы следующие команды разработчиков могли получить информацию о том, что было сделано до них.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

​​Data Consistency: как быть уверенным, что с данными всё ок

В этой статье рассказывается о том, как мониторить консистентность данных в аналитических системах, используя категориальные переменные, и как выбрать лучший способ для мониторинга.

Перейти к статье | SQLpedia

Читать полностью…

DATApedia | Data science

​​Книга «Python для data science»

Книга предназначена для разработчиков, желающим лучше понять возможности Python по обработке и анализу данных. Предполагается, что у вас уже есть базовый опыт работы с Python и для вас не составит труда следовать таким инструкциям, как установка базы данных или получение ключа API. Тем не менее концепции data science объясняются с нуля на практических, тщательно разобранных примерах. Поэтому опыт работы с данными не требуется.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

В данном посте автор рассказывает о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

А вы знаете, что такое пирамида признаков? А трансформеры (нет, мы не про фильм)?

Это термины, которые используют инженеры, работающие с нейронными сетями! Мы их нашли в канале ИТ-компании «Криптонит» — подписывайтесь на ребят! У них выходят материалы и про ML, и про роботов, и про программирование.

А ниже мы выбрали несколько терминов из их нейрословаря🟡

📍Explaining Away эффект редукции причины как упрощённая схема рассуждений.

📍Инференс (inference) с точки зрения разработчика это третий этап жизненного цикла искусственной нейронной сети (после её обучения и развёртывания).

📍Многослойный перцептрон (MLP) — это одна из элементарных архитектур, с которой часто начинают освоение нейронных сетей и принципов их обучения.

📍Пирамида признаков (FPN, Feature Pyramid Net) — это вычислительная архитектура, используемая в машинном зрении для обработки изображений без привязки к их разрешению.

📍Трансформеры (transformers) — это не только роботы, но и прогрессивное семейство архитектур нейросетей от Google.

Читать полностью…

DATApedia | Data science

​​Медленно меняющиеся измерения (SCDs) в эпоху облачного хранилища данных

Статья описывает проблему "медленно меняющихся измерений" в моделировании данных, когда обновление измерений происходит очень редко, и предлагает три решения этой проблемы.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​ClickHouse: полезные лайфхаки

В этой статье автор рассказывает что такое ClickHouse и почему она считает его идеально подходящим мощным инструментом для аналитики. А также делится tips & tricks из ее опыта.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Форматы данных и файлов: руководство для архитекторов

Вы наверняка слышали о таких форматах, как Parquet, ORC, Avro, Arrow, Protobuf, Thrift и MessagePack. Эта статья о том, что они собой представляют и какой из них лучше выбрать.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

Когда в команде один сеньор и пять джунов

Читать полностью…

DATApedia | Data science

​​Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков

Статья про то, как предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу.

Перейти к статье | BApedia

Читать полностью…

DATApedia | Data science

Сеньор знает, что ИИ не сможет так много ходить на созвоны

Читать полностью…

DATApedia | Data science

Алоха, коллеги!
Мы рады сообщить, что в нашем канале появился тэг #DS_AI, которым мы отмечаем статьи, связанные с искусственным интеллектом. Этот тэг поможет вам быстрее находить интересующие вас статьи и получать информацию о новых тенденциях в области ИИ.
Мы надеемся, что этот тэг сэкономит ваше время и будет вам полезен 🙂

Читать полностью…

DATApedia | Data science

​​«Инженеров данных заменит автоматика» и другие мифы о DE

Если вы неплохо знакомы с работой дата-инженера, мифы про бесконечный кодинг или однообразие задач могут показаться глупыми и смешными. Но не делайте поспешных выводов: при подготовке статьи мы тоже узнали что-то новое.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Нейронные сети врываются в медицину

Статья рассказывает о применении нейронных сетей в медицине, в частности, об использовании ИИ для анализа медицинских снимков и обработки естественного языка (NLP) в медицинских текстах. В статье также описывается архитектура Longformer, которая позволяет расширить контекст для моделей, основанных на RoBERTa.

Перейти к статье | DATAscience

Читать полностью…

DATApedia | Data science

🔥Учимся визуализировать данные и строить уникальные графики с помощью R на открытом уроке курса "Язык R для обработки данных" в OTUS.
Язык R - отличный инструмент, знание которого необходимо аналитикам, статистам, маркетологам и программистам при работе с данными. Простой синтаксис, инструменты визуализации, быстрое выполнение кода -  все это позволяет создавать весомые конкурентные преимущества в работе.  В OTUS стартует набор на курс “Язык R для обработки данных”. 

📌17 июля приглашаем на вебинар “Слои в ggplot2”, на котором вы узнаете:     

 - как строить графики в R с помощью библиотеки ggplot2 слой за слоем;
 - познакомитесь с разными типами визуализаций, фасетированием и многим другим.

Результат урока: простой и понятный алгоритм для построения графиков по данным.
Урок подойдет даже тем, кто не знаком с языком R

👉Регистрация для участия https://otus.pw/ztYI/

Не упустите возможность протестировать формат обучения. Приобрести курс возможно в рассрочку                   
Нативная интеграция Информация о продукте www.otus.ru

Читать полностью…

DATApedia | Data science

​​Вредные советы по подготовке датасета

Для кого статья?
- Вы делаете первые шаги в сборе датасетов на натуре, либо
- Уже имеете опыт, но интересно посмотреть на мнение коллег.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

Алоха, коллеги!

Сегодня вопрос из рубрики #fromInterviewWithLove

Дана таблица "Студенты" с полями "Имя", "Фамилия", "Возраст" и "Группа". Необходимо вывести список уникальных групп студентов и количество студентов в каждой группе, отсортированный по возрастанию названия группы.
Для решения этой задачи нужно написать следующий SQL-запрос:

SELECT DISTINCT Группа, COUNT(*) AS Количество_студентов
FROM Студенты
GROUP BY Группа
ORDER BY Группа ASC;

Этот запрос выбирает из таблицы "Студенты" уникальные группы студентов и вычисляет количество студентов в каждой группе. Затем он сортирует результат по возрастанию названия группы. Результатом запроса будет список уникальных групп студентов с количеством студентов в каждой группе.


Небольшая подсказка для новичков👇
Нужно понимать, как работать с агрегатными функциями, такими как COUNT, и как использовать оператор DISTINCT для выбора уникальных значений.

Читать полностью…

DATApedia | Data science

​​Нейронные сети не могут обобщать периодические зависимости. Как это исправить?

В данной статье обсуждается проблема обобщения периодических зависимостей нейронными сетями. Авторы рассматривают ограничения глубоких нейронных сетей в экстраполяции и предлагают альтернативные функции активации для более точного моделирования периодических систем.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

​​Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Это умеренно сложная статья, в которой мы опишем основные принципы оптимизации запросов в Trino, без путешествия в "машинный зал". Схожие идеи реализованы во многих других аналитических системах, поэтому статья будет полезна широкому кругу читателей, занимающихся анализом данных и эксплуатацией аналитических систем.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​О развитии предсказательного обслуживания на примере диагностики трансформатора

В статье речь пойдет про модельно-ориентированное проектирование, цифровой двойник моделирующий рабочие состояния, процессы и жизненный цикл актива, алгоритм диагностики и прогнозирования отказов на основе искусственного интеллекта, а также интеграция результатов в пользовательское ПО.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты

Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.

Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.

Также запись вебинара будет доступна ytsaurus">на YouTube.

Читать полностью…

DATApedia | Data science

​​Как сэкономить свои нервы и деньги компании на перестроении структуры больших таблиц без простоя в PostgreSQL

В этой статье на реальных примерах рассказано, как можно сэкономить время разработчика, администратора баз данных и ресурсы сервера(ов), используя утилиту pgrebuildtable.

Перейти к статье | SQLpedia

Читать полностью…

DATApedia | Data science

​​Что под капотом у нейронной сети. Нейросеть c точки зрения математики и программирования

Цель данной публикации – комплексное рассмотрение строения искусственных нейронных сетей c точки зрения и математики и программного кода. В данной работе нейронная сеть реализуется на языке Python с использованием библиотеки tensorflow.keras.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

​​Почему для MLOps лучше выбирать Open Source, а не проприетарное ПО

В статье приводятся аргументы в пользу использования Open Source-программ, таких как высокое качество продукта, большое количество людей, работающих с такими программами, возможность исправления ошибок и т.д. Также авторы статьи упоминают скрытые расходы у проприетарных платформ и ситуации, когда имеет смысл использовать проприетарные платформы.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Как Почта моделирует риски потери отправлений

Главный аналитик отдела монетизации данных в Почтатехе расскажет, как они создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Как создать интерактивный дашборд с нуля через ChatGPT

В этой статье рассказано, как использовать ChatGPT для визуализации данных и построении дашбордов при помощи Python и фреймворка Dash; также автор поделился готовыми промтами для создания дашборда за несколько минут.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

​​Искусственный интеллект в России и мире: эволюция, тенденции, будущее

В этой статье рассмотрены тенденции развития ИИ в России, также его возможное будущее. Также рассказано, как мы применяем искусственный интеллект в работе с данными.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

Отличный способ чтобы не выгорать

Читать полностью…
Subscribe to a channel