Как исследовать сырые данные, а на их основе находить решения?
⬆️ Ответь на 11 вопросов и проверь, насколько ты готов к обучению на курсе «Аналитик данных» от OTUS —
На курсе ты освоишь мощные навыки анализа данных:
анализ требований + статистика + BI и получишь востребованную профессию. Курс доступен в рассрочку.
✍️ ПРОЙТИ ТЕСТ: https://otus.pw/LrmK/Нативная интеграция. Информация о продукте www.otus.ru
BINARY - MySQL
BINARY - это тип данных, который используется для хранения двоичных данных. Этот тип данных может быть использован для хранения любых данных, которые не могут быть интерпретированы как символы, такие как изображения, звуковые файлы, видео и т.д.
BINARY имеет следующие характеристики:
- Фиксированная длина: Длина поля BINARY всегда фиксирована и задается при создании таблицы. Например, если вы создаете поле BINARY(10), то оно всегда будет занимать 10 байт в таблице, даже если вы вставляете данные меньшего размера.
- Регистрозависимость: Данные типа BINARY регистрозависимы, что означает, что значения 'abc' и 'ABC' будут различаться, даже если они имеют одинаковую длину.
- Сравнение: Для сравнения данных типа BINARY используется бинарное сравнение, то есть двоичный код каждого символа сравнивается отдельно.
- Индексирование: Поля типа BINARY могут быть проиндексированы, что повышает скорость поиска данных.
Все о jsonb_to_recordset в SQL
Функция jsonb_to_recordset в SQL используется для преобразования данных, хранящихся в формате JSON, в таблицы. Она позволяет распаковывать массивы и объекты JSON и превращать их в строки и столбцы в таблице.
Кроме того, jsonb_to_recordset позволяет работать с вложенными объектами и массивами. Для этого нужно использовать функцию jsonb_each, которая распаковывает объекты и массивы JSON в отдельные строки.
Начать заниматься IT можно, не дожидаясь выпускного! Так вы не только освоите уникальные скиллы, но и поймёте, какая профессия вам по-настоящему подходит.
А погружаясь в IT с Яндекс Лицеем, вы сможете попробовать себя в практических задачах и получите актуальные знания от опытных разработчиков.
Сейчас Яндекс Лицей предлагает бесплатное обучение по Python, Go, разработке игр, Machine Learning, Django, анализу данных и Big Data. Можно выбрать годовые офлайн- или онлайн-курсы. В программе — интенсивное погружение в IT, работа над групповыми проектами и много общения с единомышленниками.
В Лицее ждут школьников 8‒11-х классов и студентов ссузов 1-2-х курсов. Скорее переходите по ссылке и читайте подробности
Ранжирующая функция NTILE()
Функция NTILE() является частью языка SQL и используется для разделения результата запроса на определенное количество групп или сегментов. Эта функция принимает один аргумент - количество сегментов на которые нужно разделить результат.
Суррогатные ключи
В базах данных ключ - это поле или набор полей, которые однозначно идентифицируют запись в таблице. Суррогатный ключ - это ключ, который используется вместо естественного ключа, который может быть слишком сложным или неустойчивым для использования в качестве ключа.
Например, в таблице базы данных, содержащей информацию о сотрудниках, естественный ключ может быть сочетанием имени, фамилии и даты рождения. Однако, если имя или фамилия сотрудника изменятся, ключ также должен быть изменен, что может привести к проблемам с целостностью данных. В этом случае использование суррогатного ключа, такого как уникальный идентификатор, может быть более надежным.
Разбор примера с фото:
В этом примере, id является суррогатным ключом, который генерируется автоматически при каждом вставке новой записи. Он гарантирует уникальность каждой записи и не зависит от других полей таблицы.
Существует несколько преимуществ использования суррогатных ключей в SQL:
1. Простота и удобство в использовании.
2. Улучшение производительности при выполнении операций вставки и обновления.
3. Улучшение целостности данных, так как суррогатный ключ не зависит от других полей таблицы.
4. Удобство для программистов при написании запросов, так как они могут использовать суррогатный ключ вместо нескольких полей для поиска конкретной записи в таблице.
JSON_VALUE в Microsoft SQL Server
JSON_VALUE - это функция в Microsoft SQL Server, которая извлекает значение из JSON-объекта по заданному пути.
Синтаксис функции JSON_VALUE выглядит следующим образом: JSON_VALUE (expression, path)
-expression - это JSON-объект, из которого нужно извлечь значение.
- path - это путь к значению внутри JSON-объекта.
Функция JSON_VALUE также может использоваться в фильтрах WHERE.
Разница между using и on в join-запросах
Join-запросы используются для объединения данных из нескольких таблиц в один результат. В MySQL для этого можно использовать конструкции using и on. Обе конструкции используются для указания условий объединения таблиц, но они имеют некоторые различия.
1 - Конструкция using используется, когда объединение происходит по столбцу, имеющему одинаковое имя в обеих таблицах.
2 - Конструкция on используется, когда объединение происходит по каким-то другим условиям.
Конструкция using удобна в случаях, когда объединение происходит по столбцам с одинаковыми именами, а on - в случаях, когда объединение происходит по другим условиям.
Live-интенсив для начинающих аналитиков по SQL и продуктовым метрикам
Завтра в 18:00 по Мск пройдет бесплатный live-интенсив по теме: “Расчет продуктовых метрик с помощью SQL”.
Расчёт продуктовых метрик — первый шаг при принятии решений в любой data-driven компании.
👉🏻 На live-интенсиве мы с вами подключимся к реальной облачной базе PostgreSQL и с помощью SQL рассчитаем основные продуктовые метрики онлайн-сервиса:
* Activation rate
* MAU
* ARPU и ARPPU
* другие метрики
Ведущий интенсива:
◾️ Алексанян Андрон:
- CEO IT Resume & Simulative;
- CTO Бюро анализа данных;
- 7+ опыта в аналитике.
На интенсиве вы узнаете:
📍 Как используют SQL в реальной работе — вы сможете сохранить это в портфолио и показать на собеседовании: работодатель точно оценит 🤘🏻
📍 Профессиональные фишки и лайфхаки SQL: мы копили их годами и хотим рассказать вам 😏
📍 Как писать код на SQL, а также мы расскажем про продуктовые метрики — подробно объясним всё с нуля 😍
Регистрируйтесь по ссылке → https://r.bothelp.io/tg?domain=intensiv_sql_bot&start=c1692000717861-ds&utm_source=telegram&utm_medium=SQL_and_DB_Learning
⚡️Сишарповец, апнуться — просто!
Начните на бесплатном вебинаре онлайн-курса «C# ASP.NET Core разработчик» — «ASP.NET: взаимодействие с источниками данных»: регистрация
На бесплатном занятии мы:
— познакомимся с видами баз данных;
— разберем, как работать с реляционными и нереляционными базами данных напрямую и через ORM.
🔥Экспертизой поделится Дмитрий Гурьянов — опытный Тимлид команды разработки CRM-решений на платформе .NET.
— Продолжить обучение после вебинара по спеццене можно на полном курсе, доступном также в рассрочку.
Нативная интеграция. Информация о продукте www.otus.ru
Индекс GIN
Индекс GIN - это тип индекса в PostgreSQL, который позволяет эффективно искать данные в полнотекстовых полях, массивах, JSON и других типах данных. Он создается на столбцах с комплексными или составными типами данных, такими как полнотекстовые данные или JSON. Индекс разбивает значения в столбце на отдельные элементы и создает отображение между этими элементами и строками в таблице, что позволяет быстро искать значения в этих типах данных.
Преимущества использования индекса GIN:
- Быстрый поиск по полнотекстовым данным и другим составным типам данных
- Поддержка операций поиска, включая поиск по подстроке и полнотекстовый поиск
- Поддержка операций над массивами, такие как поиск элементов массива и проверка наличия значения в массиве
- Возможность использования в комбинации с другими индексами для дополнительной оптимизации запросов
Создание индекса осуществляется с указанием типа индекса как GIN и имени столбца, на котором создается индекс.
Пример: CREATE INDEX idx_gin ON mytable USING GIN (mycolumn);
Использование индекса GIN в запросах выполняется с помощью оператора @@ или функции tsquery.
Разница между функциями CHARINDEX и SUBSTR
1. Функция CHARINDEX используется для поиска подстроки в строке и возвращает позицию первого вхождения этой подстроки. Синтаксис функции выглядит следующим образом:
CHARINDEX('подстрока', 'строка') - где 'подстрока' - искомая подстрока, а 'строка' - строка, в которой происходит поиск.
2. Функция SUBSTR используется для извлечения подстроки из строки. Синтаксис функции выглядит следующим образом:
SUBSTR('строка', начальная_позиция, длина) - где 'строка' - строка, из которой извлекается подстрока, начальная_позиция - позиция, с которой начинается извлечение подстроки (отсчет начинается с 1), а длина - количество символов, которые нужно извлечь.
Курс «Английский для аналитиков» Яндекс Практикума
Для специалистов, которые хотят изменить свою профессиональную жизнь и работать в международной команде.
Обучение построено вокруг рабочих ситуаций и полезных для карьеры навыков:
🗣 Самопрезентация. Рассказ о своей роли, задачах, сфере ответственности на поведенческом интервью и в неформальной беседе.
🙌 Работа в команде. Стендапы, планирование спринтов, демонстрация навыков командной работы на собеседовании.
👨💻 Общение с заказчиками и исполнителями. Сбор требований у стейкхолдеров и постановка задач для разработчиков.
📈 Презентация результатов работы. Выступление на митапах, неформальное общение с коллегами из отрасли.
📝 Обсуждение решений по проекту. Генерация и аргументация идей, участие в мозговых штурмах.
🚀 Рефлексия и самоанализ. Ретроспектива, ревью, ответы на сложные вопросы.
Запишитесь на бесплатную консультацию. Кураторы определят ваш уровень языка и расскажут подробнее про обучение.
Обработка исключений в SQL Server
В SQL Server для обработки исключений используется конструкция TRY-CATCH. Условия записываются внутри блока TRY, а исключения перехватываются в блоке CATCH.
Использование конструкции TRY-CATCH очень важно для обработки исключительных ситуаций в SQL Server. Она позволяет более гибко управлять ошибками и уведомлять об их возникновении.
Приемы очистки данных
1. Удаление дубликатов
Дублирующиеся записи могут возникать при вставке данных из различных источников или при ошибочной записи данных. Для удаления дубликатов можно использовать оператор DISTINCT.
2. Удаление пустых значений
Пустые значения в таблице могут возникать при ошибочной записи данных или при отсутствии информации. Для удаления пустых значений можно использовать операторы IS NULL или IS NOT NULL.
3. Изменение формата данных
В некоторых случаях необходимо изменить формат данных в таблице. Например, привести все буквы в столбце к верхнему или нижнему регистру. Для этого можно использовать функции UPPER и LOWER.
4. Удаление лишних символов
В таблице могут содержаться лишние символы, которые могут мешать при поиске или сортировке данных. Для удаления лишних символов можно использовать функцию REPLACE.
5. Удаление неактуальных записей
Неактуальные записи в таблице могут возникать при изменении данных или при удалении объектов, на которые ссылается таблица. Для удаления неактуальных записей можно использовать операторы JOIN и WHERE.
MySQL: PERIOD_ADD
PERIOD_ADD является одной из функций MySQL, которая используется для добавления количества периодов к указанной дате. Эта функция особенно полезна в тех случаях, когда вам нужно добавить несколько месяцев или лет к дате.
Синтаксис PERIOD_ADD выглядит следующим образом:
PERIOD_ADD(P,N) - где P - это период в формате YYMM или YYYYMM, а N - это количество периодов, которые нужно добавить к указанной дате.
ETCD — это простое в использовании, но при этом высоконадёжное распределённое хранилище для пар ключ-значение. И нужно уметь с ним работать.
Первый подход предлагаем сделать на открытом уроке курса «NoSQL» в Отус 28 августа, в 20.00 (мск).
💬На вебинаре «Введение в ETCD-кластер», который проведет Евгений Аристов, вы изучите:
- цели и задачи ETCD;
- отличия ETCD от прочих аналогичных решений;
- алгоритм Raft;
- основные моменты установки и настройки кластера ETCD.
👉Регистрируйтесь и ставьте событие в календарь: https://otus.pw/wyj0/
🔥Продолжить изучение тонкостей NoSQL вы сможете на самом курсе, который стартует уже в сентябре.
Нативная интеграция. Подробная информация на сайте otus.ru
Преобразование xml-поля в SQL
Для преобразования xml-поля в SQL необходимо выполнить следующие шаги:
1. Создать таблицу в базе данных с полем типа xml.
2. Вставить данные в таблицу.
3. Использовать функции для извлечения данных из xml-поля.
Например, функция value() извлекает значение элемента или атрибута из xml-поля.
4. При необходимости, выполнить другие действия с данными, полученными из xml-поля, с помощью стандартных средств SQL.
REPLICATE в SQL Server
REPLICATE - это функция в SQL Server, которая повторяет входную строку указанное количество раз. Эта функция может быть полезна во многих сценариях, например, при создании тестовых данных или при форматировании вывода.
Синтаксис функции REPLICATE выглядит следующим образом:
REPLICATE ( string_expression , integer_expression )
- string_expression - это строковое выражение, которое нужно повторить.
- integer_expression - это выражение целого типа, определяющее количество раз, которое нужно повторить строку.
Поиск референта заказчика
Напишите SQL-запрос, чтобы вывести в отчет имена клиентов, на которых не ссылается клиент с id = 2.
Верните таблицу результатов в любом порядке.
В решении будет подход с использованием: <>(!=) и IS NULL
Некоторые интуитивно приходят к следующему решению.
SELECT name FROM customer WHERE referee_Id <> 2;
Однако этот запрос вернет только один результат: Zack, хотя есть 4 клиента, которых не направляла Jane (включая саму Jane). Все клиенты, которых вообще никто не приводил (значение NULL в столбце referee_id), не отображаются.
Алгоритм
В MySQL используется трехзначная логика - TRUE, FALSE и UNKNOWN. Все, что сравнивается с NULL, оценивается в третье значение: UNKNOWN. Это "все" включает в себя и само значение NULL! Именно поэтому в MySQL предусмотрены операторы IS NULL и IS NOT NULL, специально проверяющие наличие NULL.
Таким образом, в предложение WHERE необходимо добавить еще одно условие 'referee_id IS NULL'.
🔥Приглашаем на открытый урок по аналитике данных.
Тема: Базовый сбор требований в работе дата-аналитика
Урок пройдёт 23 августа в 20:00. Вебинар приурочен к старту онлайн-курса "Аналитик данных"
⚡️Что разберём на уроке:
-Жизненный цикл задачи в анализе данных;
-Какие вопросы нужно обязательно задавать и как правильно фиксировать ответы;
-Как преодолевать возражения и не заработать ненужный стресс в процессе.
Урок будет полезен:
-Новичкам в области анализа данных, которые задумываются об углублении знаний;
-Специалистам, которые уже делают первые шаги в этой профессии;
-Аналитикам, работающим с подготовкой ручной отчетности.
Продолжить обучение можно на онлайн-курсе "Аналитик данных",
который можно приобрести в рассрочку.
💪Пройдите тестирование и регистрируйтесь на занятие:
https://otus.pw/TLwm/Нативная интеграция. Информация о продукте www.otus.ru
Все о команде COLLATE в SQL
Команда COLLATE в SQL используется для указания правил сортировки и сравнения символов при выполнении операций сравнения в запросах.
Существует несколько вариантов значений, которые можно использовать в команде COLLATE, включая:
- _CS - с учетом регистра
- _CI - без учета регистра
- _AS - с учетом локали (language sensitive)
- _AI - без учета локали (language insensitive)
Примеры:
- Cyrillic_General_CS_AS - с учетом регистра и локали для кириллицы
- Latin1_General_CI_AI - без учета регистра и локали для латиницы
Быстро получаем количество записей в большой таблице
отображение общего кол-ва записей в админках
Первый запрос - возвращает точное количество записей, но может быть медленным.
Второй запрос - возвращает приблизительное количество записей, но быстрее, чем первый запрос. Точность данного запроса выше, чем у следующего, но для его выполнения требуется актуальная статистика по таблице.
Третий запрос - возвращает приблизительное количество записей, но быстрее, чем первый запрос.
Точность третьего запроса ниже, чем у предыдущего, но для его выполнения не требуется актуальная статистика по таблице. Преимуществом данного подхода является возможность задавать условие выборки.
🔥 Полезная Шпаргалка-гайд по работе с Python и PostgreSQL.
Все от установки и соединение с БД до создания таблиц и работы с полями.
#вопросы_с_собеседований
Напиши SQL-код, выводящий календарь с таблицей, днями недели и числами
Решение:
Для вывода календаря текущего месяца в виде таблицы с днями недели и числами можно воспользоваться кодом с фото.
В этом коде мы используем функции MySQL для работы с датами. Сначала мы выбираем последний день месяца и добавляем к нему 1 день, затем вычитаем из этой даты количество дней, прошедших с начала месяца, чтобы получить первый день текущего месяца.
Далее мы генерируем таблицу с днями недели (от 0 до 6) и присоединяем ее к таблице с датами. Затем мы выбираем число дня месяца и название дня недели для каждой даты и сортируем их по возрастанию даты.
Результат выполнения данного кода будет соответствовать требуемому формату календаря на текущий месяц.
Различия между операторами IN и EXISTS
Операторы IN и EXISTS - операторы, которые используются для фильтрации данных в запросах. Они имеют различия в своем использовании и функционале.
1. Оператор IN используется для сравнения значения столбца с набором значений, указанных в запросе. Он возвращает значение true, если значение столбца соответствует хотя бы одному из значений в списке. См. Пример 1.
2. Оператор EXISTS используется для проверки наличия записей в подзапросе. Если подзапрос возвращает хотя бы одну запись, то оператор EXISTS возвращает значение true. См. Пример 2.
Различия между операторами IN и EXISTS:
- Оператор IN используется для сравнения значения столбца с набором значений, а оператор EXISTS для проверки наличия записей в подзапросе.
- Оператор IN не требует наличия связи между таблицами, а оператор EXISTS требует наличия связи между основной таблицей и подзапросом.
- Оператор IN может использовать список значений или подзапрос, а оператор EXISTS может использовать только подзапрос.
Функция SQL Server: ISNUMERIC
Функция ISNUMERIC используется в SQL Server для проверки, является ли выражение числом или нет. Она возвращает 1, если выражение может быть преобразовано в число, и 0, если нет.
Пример использования функции ISNUMERIC:
SELECT ISNUMERIC('123') -- вернет 1
SELECT ISNUMERIC('abc') -- вернет 0
SELECT ISNUMERIC('$12.34') -- вернет 0
Использование функции ISNUMERIC следует применять с осторожностью, так как она может быть не совсем точной. Например, она может вернуть 1 для строк, которые в действительности не являются числами, например, для строк, содержащих знаки пунктуации.
MSSQL: ребилд индексов в высоко нагруженных системах, Standard Edition
Смотреть статью
Хотите дорасти до уверенного Middle Data Engineer, но текущего стека не хватает?
На курсе «Инженер данных» от karpovꓸcourses опытные специалисты из VK, Яндекс Go, Sbermarket и Ozon помогут дополнить ваш арсенал современными инструментами для хранения и обработки больших данных.
За 5 месяцев вы научитесь:
● Работать с реляционными и MPP базами данных
● Автоматизировать ETL-пайплайны
● Проектировать традиционные и облачные хранилища
● Применять ML-модели на больших данных
● Строить дашборды для мониторинга DWH платформы
Здесь вас ждут интересные проекты и настоящая инфраструктура: Greenplum, Hadoop, Kubernetes, Spark, Hive, Kafka, Airflow, Tableau.
По итогам обучения вы станете крепким Middle специалистом с широким набором прикладных навыков, а наш HR доведёт вас до оффера в хорошую компанию.
Стартуем 10 августа. Ждём вас на курсе!
[Записаться]