ds_wiki | Unsorted

Telegram-канал ds_wiki - DATApedia | Data science

3571

Тут вы найдете всё, что связано с Data Science, AI и Machine Learning, как для начинающих, так и для бывалых специалистов. Также, для вас, мы переводим зарубежные статьи. Сотрудничество: @Seyfme

Subscribe to a channel

DATApedia | Data science

🤔 Что круче: аналитика данных или бизнес-аналитика?

Хотите перейти в аналитику? Первый шаг к успешной карьере — правильно выбрать направление внутри профессии и узнать, какие навыки освоить на старте. Разобраться поможет открытый диалог «Бизнес-аналитик vs дата-аналитик: кто круче? Сравним зарплатную вилку, задачи и спрос на рынке труда» 25 июля в 19:00 Мск.

Спикеры:
— Василий Ключарев, продуктовый аналитик, банк Точка;
— Максим Третьяков, предприниматель, ранее бизнес-аналитик в «Росатом», SBS Consulting, Strategy Partners;
— Ольга Дремова, эксперт по разработке и развитию продуктов в стартапах.

На трансляции вы узнаете:
🔹 кому подойдет бизнес-аналитика, кому — консалтинг, а кому — аналитика данных;
🔹 какие специалисты наиболее востребованы на рынке труда;
🔹 какие навыки нужны разным аналитикам и какие задачи они решают;
🔹 сколько получают специалисты на разных этапах карьеры и на каких условиях работают.

🗣 Трансляция пройдет в формате открытого диалога — спикеры ответят на все ваши вопросы, которые вы сможете задать как перед, так и во время встречи. Лучше отправить вопросы заранее при регистрации, чтобы эксперты успели подготовиться и дали еще больше ценной информации!

💬 Переходите по ссылке, чтобы зарегистрироваться: https://u.to/k1vRHw

Читать полностью…

DATApedia | Data science

​​Что такое Data science? Простыми словами о сложном

Впервые услышав о Data science, вам, скорее всего покажется это чем-то невероятно сложным и недоступным. Но стоит лишь немного разобраться в этой теме, вы откроете для себя эту дисциплину совершенно с другой стороны.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Аннотирование повреждений автомобилей для обучения искусственного интеллекта

Благодаря доступности систем компьютерного зрения на основе ИИ, способных автоматизировать большую часть процессов, в последние годы активно развивается сфера визуального контроля, связанного с технологиями страхования. При помощи мобильных приложений или веб-сайтов пользователи могут выполнять удалённую оценку повреждений и мгновенно получать расчёт цены, что упрощает процесс и сильно снижает стресс пользователей. Однако обучение систем визуального контроля при помощи ИИ имеет свои сложности, поскольку требует постоянного наполнения высококачественными и разнообразными данными.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

​​Нейронные сети врываются в медицину

Статья рассказывает о применении нейронных сетей в медицине, в частности, об использовании ИИ для анализа медицинских снимков и обработки естественного языка (NLP) в медицинских текстах. В статье также описывается архитектура Longformer, которая позволяет расширить контекст для моделей, основанных на RoBERTa.

Перейти к статье | DATAscience

Читать полностью…

DATApedia | Data science

🔥Учимся визуализировать данные и строить уникальные графики с помощью R на открытом уроке курса "Язык R для обработки данных" в OTUS.
Язык R - отличный инструмент, знание которого необходимо аналитикам, статистам, маркетологам и программистам при работе с данными. Простой синтаксис, инструменты визуализации, быстрое выполнение кода -  все это позволяет создавать весомые конкурентные преимущества в работе.  В OTUS стартует набор на курс “Язык R для обработки данных”. 

📌17 июля приглашаем на вебинар “Слои в ggplot2”, на котором вы узнаете:     

 - как строить графики в R с помощью библиотеки ggplot2 слой за слоем;
 - познакомитесь с разными типами визуализаций, фасетированием и многим другим.

Результат урока: простой и понятный алгоритм для построения графиков по данным.
Урок подойдет даже тем, кто не знаком с языком R

👉Регистрация для участия https://otus.pw/ztYI/

Не упустите возможность протестировать формат обучения. Приобрести курс возможно в рассрочку                   
Нативная интеграция Информация о продукте www.otus.ru

Читать полностью…

DATApedia | Data science

​​Вредные советы по подготовке датасета

Для кого статья?
- Вы делаете первые шаги в сборе датасетов на натуре, либо
- Уже имеете опыт, но интересно посмотреть на мнение коллег.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

Алоха, коллеги!

Сегодня вопрос из рубрики #fromInterviewWithLove

Дана таблица "Студенты" с полями "Имя", "Фамилия", "Возраст" и "Группа". Необходимо вывести список уникальных групп студентов и количество студентов в каждой группе, отсортированный по возрастанию названия группы.
Для решения этой задачи нужно написать следующий SQL-запрос:

SELECT DISTINCT Группа, COUNT(*) AS Количество_студентов
FROM Студенты
GROUP BY Группа
ORDER BY Группа ASC;

Этот запрос выбирает из таблицы "Студенты" уникальные группы студентов и вычисляет количество студентов в каждой группе. Затем он сортирует результат по возрастанию названия группы. Результатом запроса будет список уникальных групп студентов с количеством студентов в каждой группе.


Небольшая подсказка для новичков👇
Нужно понимать, как работать с агрегатными функциями, такими как COUNT, и как использовать оператор DISTINCT для выбора уникальных значений.

Читать полностью…

DATApedia | Data science

​​Нейронные сети не могут обобщать периодические зависимости. Как это исправить?

В данной статье обсуждается проблема обобщения периодических зависимостей нейронными сетями. Авторы рассматривают ограничения глубоких нейронных сетей в экстраполяции и предлагают альтернативные функции активации для более точного моделирования периодических систем.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

​​Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Это умеренно сложная статья, в которой мы опишем основные принципы оптимизации запросов в Trino, без путешествия в "машинный зал". Схожие идеи реализованы во многих других аналитических системах, поэтому статья будет полезна широкому кругу читателей, занимающихся анализом данных и эксплуатацией аналитических систем.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​О развитии предсказательного обслуживания на примере диагностики трансформатора

В статье речь пойдет про модельно-ориентированное проектирование, цифровой двойник моделирующий рабочие состояния, процессы и жизненный цикл актива, алгоритм диагностики и прогнозирования отказов на основе искусственного интеллекта, а также интеграция результатов в пользовательское ПО.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты

Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.

Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.

Также запись вебинара будет доступна ytsaurus">на YouTube.

Читать полностью…

DATApedia | Data science

​​Как сэкономить свои нервы и деньги компании на перестроении структуры больших таблиц без простоя в PostgreSQL

В этой статье на реальных примерах рассказано, как можно сэкономить время разработчика, администратора баз данных и ресурсы сервера(ов), используя утилиту pgrebuildtable.

Перейти к статье | SQLpedia

Читать полностью…

DATApedia | Data science

​​Что под капотом у нейронной сети. Нейросеть c точки зрения математики и программирования

Цель данной публикации – комплексное рассмотрение строения искусственных нейронных сетей c точки зрения и математики и программного кода. В данной работе нейронная сеть реализуется на языке Python с использованием библиотеки tensorflow.keras.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

​​Почему для MLOps лучше выбирать Open Source, а не проприетарное ПО

В статье приводятся аргументы в пользу использования Open Source-программ, таких как высокое качество продукта, большое количество людей, работающих с такими программами, возможность исправления ошибок и т.д. Также авторы статьи упоминают скрытые расходы у проприетарных платформ и ситуации, когда имеет смысл использовать проприетарные платформы.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Как Почта моделирует риски потери отправлений

Главный аналитик отдела монетизации данных в Почтатехе расскажет, как они создали модель, которая предсказывает до 97% возможных пропаж международных отправлений.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Сравниваем модели машинного обучения с применением статистических тестов

В этой статье рассмотрено три метода сравнения моделей.
Материал будет полезен для сравнения классических моделей, таких как регрессионные модели или модели классификации, на больших таблицах. Акцент в тексте сделан на методике сравнительного анализа, без учета оптимизации времени тестирования.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

Академия Data Science от Тинькофф!

Учитесь у лучших экспертов Тинькофф и других ИТ-компаний в современном кампусе в центре Москвы. Подойдет студентам технических вузов, начинающим ИТ-специалистам и всем, кто мечтает о карьере в Data Science.
Подробнее здесь: https://o.tinkoff.ru/master_ds_2023

Читать полностью…

DATApedia | Data science

💣Есть знания, которые постоянно требуют актуализации, а есть - база!

Убедитесь в этом 20 июля в 17:00 мск на бесплатном вебинаре в OTUS. Вебинар приурочен к старту онлайн-курса «Математика для программистов».

🔥На бесплатном вебинаре «Логические исчисления, и как они связаны с языками программирования» мы:
— разберём, что общего между программистом и математиком, и в чём разница.
— будет показано, что языки программирования строятся на тех же принципах, что и доказательства математических теорем, а выразительные способности языков программирования ограничиваются понятиями полноты и непротиворечивости.

Ведущий — Евгений Тюменцев, опытный директор компании по разработке программного обеспечения.

После вебинара полный курс можно приобрести в том числе в рассрочку.

Нативная интеграция. Информация о продукте www.otus.ru

Читать полностью…

DATApedia | Data science

​​Как оптимизировать процесс привлечения клиентов B2B с помощью методов Продвинутой Аналитики

В статье мы поделимся примером первого практического применения Продвинутой Аналитики в процессах стратегического бизнес-планирования численности ресурсов Сети для привлечения клиентов Юридических Лиц.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Декларирование ML-пайплайнов: организация экспериментов

Эта статья будет особенно полезна тем, кто хотел бы решить вопрос управления и отслеживания изменений в процессе разработки. Нередки ситуации, когда над одним проектом работает несколько команд. В этом случае важно позаботиться о сохранении истории изменений, чтобы следующие команды разработчиков могли получить информацию о том, что было сделано до них.

Перейти к статье | DATApedia | #DS_AI

Читать полностью…

DATApedia | Data science

​​Data Consistency: как быть уверенным, что с данными всё ок

В этой статье рассказывается о том, как мониторить консистентность данных в аналитических системах, используя категориальные переменные, и как выбрать лучший способ для мониторинга.

Перейти к статье | SQLpedia

Читать полностью…

DATApedia | Data science

​​Книга «Python для data science»

Книга предназначена для разработчиков, желающим лучше понять возможности Python по обработке и анализу данных. Предполагается, что у вас уже есть базовый опыт работы с Python и для вас не составит труда следовать таким инструкциям, как установка базы данных или получение ключа API. Тем не менее концепции data science объясняются с нуля на практических, тщательно разобранных примерах. Поэтому опыт работы с данными не требуется.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

В данном посте автор рассказывает о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

А вы знаете, что такое пирамида признаков? А трансформеры (нет, мы не про фильм)?

Это термины, которые используют инженеры, работающие с нейронными сетями! Мы их нашли в канале ИТ-компании «Криптонит» — подписывайтесь на ребят! У них выходят материалы и про ML, и про роботов, и про программирование.

А ниже мы выбрали несколько терминов из их нейрословаря🟡

📍Explaining Away эффект редукции причины как упрощённая схема рассуждений.

📍Инференс (inference) с точки зрения разработчика это третий этап жизненного цикла искусственной нейронной сети (после её обучения и развёртывания).

📍Многослойный перцептрон (MLP) — это одна из элементарных архитектур, с которой часто начинают освоение нейронных сетей и принципов их обучения.

📍Пирамида признаков (FPN, Feature Pyramid Net) — это вычислительная архитектура, используемая в машинном зрении для обработки изображений без привязки к их разрешению.

📍Трансформеры (transformers) — это не только роботы, но и прогрессивное семейство архитектур нейросетей от Google.

Читать полностью…

DATApedia | Data science

​​Медленно меняющиеся измерения (SCDs) в эпоху облачного хранилища данных

Статья описывает проблему "медленно меняющихся измерений" в моделировании данных, когда обновление измерений происходит очень редко, и предлагает три решения этой проблемы.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​ClickHouse: полезные лайфхаки

В этой статье автор рассказывает что такое ClickHouse и почему она считает его идеально подходящим мощным инструментом для аналитики. А также делится tips & tricks из ее опыта.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

​​Форматы данных и файлов: руководство для архитекторов

Вы наверняка слышали о таких форматах, как Parquet, ORC, Avro, Arrow, Protobuf, Thrift и MessagePack. Эта статья о том, что они собой представляют и какой из них лучше выбрать.

Перейти к статье | DATApedia

Читать полностью…

DATApedia | Data science

Когда в команде один сеньор и пять джунов

Читать полностью…

DATApedia | Data science

​​Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков

Статья про то, как предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу.

Перейти к статье | BApedia

Читать полностью…

DATApedia | Data science

Сеньор знает, что ИИ не сможет так много ходить на созвоны

Читать полностью…
Subscribe to a channel