Telegram-канал data_analysis_ml - Анализ данных (Data analysis): Unsorted

Анализ данных (Data analysis)

07 Dec 2023 18:03

🖥 Управление данными в масштабе: Кртакий взгляд на современные варианты баз данных

Будь то Twitter, показывающий посты для более чем миллиарда пользователей, или Netflix, отслеживающий историю просмотров для предоставления персонализированных рекомендаций, - для работы с огромными объемами данных веб-приложениям требуются специализированные базы данных.

Реляционные базы данных долгое время были стандартом для хранения структурированных данных. Однако появились новые типы баз данных, призванные удовлетворить растущие потребности в хранении данных.

Аналитические базы данных: Оптимизированы для сложных запросов бизнес-аналитики к большим массивам данных.

Модели хранения данных, ориентированные на столбцы, позволяют добиться высокого коэффициента сжатия и молниеносной скорости агрегирования. Благодаря хранению данных по столбцам, а не по строкам, аналитические базы данных могут выполнять быстрое сканирование для вычисления сумм, средних значений и других математических вычислений в огромных наборах записей.

Такое хранение данных по столбцам и оптимизированное агрегирование позволяет интерактивно запрашивать миллиарды строк для получения быстрых выводов.

Базы данных NoSQL: Обеспечивают гибкость, выходящую за рамки табличной реляционной модели. Различные базы данных NoSQL справляются с разными задачами:

- Графовая база данных – это систематический набор данных, в котором подчеркиваются взаимосвязи между различными сущностями данных. База данных NoSQL использует математическую теорию графов для отображения связей с данными. В отличие от реляционных баз данных, которые хранят данные в жестких табличных структурах, графовые базы данных хранят данные в виде сети сущностей и отношений. В результате такие базы данных часто обеспечивают более высокую производительность и гибкость, поскольку лучше подходят для моделирования реальных сценариев.
- Базы данных «ключ — значение» работают совершенно иначе, чем более известные реляционные базы данных (РБД). В РБД предварительно определяют структуру данных в базе данных как последовательность таблиц, содержащих поля с четко определёнными типами данных. Экспонирование типов данных в базе данных позволяет применить ряд оптимизаций. Напротив, системы «ключ — значение» обрабатывают данные как одну непрозрачную коллекцию, которая может иметь разные поля для каждой записи. Это обеспечивает значительную гибкость и более точно следует современным концепциям, таким как объектно-ориентированное программирование. Поскольку необязательные значения не представлены заполнителями или входными параметрами, как в большинстве РБД, базы данных «ключ
- База данных документов – это тип баз данных NoSQL, предназначенный для хранения и запроса данных в виде документов в формате, подобном JSON. JavaScript Object Notation (JSON) – это открытый формат обмена данными, который читается как человеком, так и машиной.
-Колоночные базы данных - это тип баз данных, где данные хранятся и организуются по колонкам, в отличие от традиционных реляционных баз данных, где данные хранятся по строкам. В колоночных базах данных каждая колонка содержит данные одного типа, и они компактно хранятся в сжатом формате.

Объектно-реляционное отображение (ORM): Обеспечивает связь между объектно-ориентированным кодом и реляционными базами данных путем автоматического преобразования между представлениями данных. Это избавляет от утомительного ручного управления данными. Однако уровень абстракции может увеличивать нагрзку при сложных операциях чтения и записи. Отладка также может быть затруднена и приводить к нагрузке на систему.

Главное - выбрать правильную базу данных, соответствующую вашим конкретнымзадачам и моделям данных. Типичное приложение может использовать комбинацию реляционных, NoSQL и ORM-технологий для достижения наилучшей производительности при масштабировании.

@data_analysis_ml