@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🚀 Большая шпаргалка с кодом: pandas DataFrame
bigdatai
🖥 Большая MySQL с примерами работы и пояснением каждого запросы.
Запросы, типы данных, работа датами и временем, таблицы, математические функции, и еще много полезного.
@bigdatai
⚡ Бесплатные сертификационные курсы для повышения ваших и навыков и карьерного роста:
1. Intro to Machine Learning
https://kaggle.com/learn/intro-to-machine-learning
2. IBM Data Science Professional Certificate
https://coursera.org/professional-certificates/ibm-data-science
3. Project Management
https://mygreatlearning.com/academy/learn-for-free/courses/project-management
4. Introduction to Front End Development
https://simplilearn.com/front-end-developer-free-course-skillup
5. Technical Writing
https://learn.saylor.org/course/view.php?id=368
6. Google Ads Search Certification
https://skillshop.exceedlms.com/student/path/18128-google-ads-search-certification
7. Inbound Marketing
https://academy.hubspot.com/courses/inbound-marketing
8. Introduction to Programming with Python
https://cs50.harvard.edu/python/2022
@bigdatai
💪 Как обучают большие языковые модели в России
LLM — новый этап развития интеллектуальных систем, решающих задачи на естественном языке. Помимо глубокого понимания структуры языка, LLM также формируют знания о мире во время обучения на больших корпусах текста. Это выводит их на новый качественный уровень, открывая новые эмерджентные способности, такие как Few-Shot Learning и Reasoning.
Обучение подобных моделей является сложной задачей, требующей большого количества ресурсов и тонкой настройки.
Дани Эль-Айясс, исполнительный директор SberDevices, выступит с докладом и поделится опытом обучения модели GigaChat — большой языковой модели от Сбера, начиная с Pre-Train и заканчивая RLHF-пайплайном.
Послушать выступление можно будет на хардовой конференции Яндекса по машинному обучению — Practical ML Conf. 7 сентября 500 экспертов соберутся вместе, чтобы дать максимум пользы и знаний о практическом применении ML. Регистрируйтесь.
@bigdatai
🎞 🖥 Видео-уроки по парсингу на Python для сбора данных
▪ Основы работа с bs4
▪ Работаем с selenium
Работаем с selenium
▪ Сравниваем Scrappy и bs4
▪ Парсинг на Python со использованием Proxy
@bigdatai
💻Graph of Thoughts (GoT)
Этот фреймворк дает возможность решать сложные задачи, моделируя их в виде графа операций (GoO), который автоматически выполняется с помощью большой языковой модели (LLM) в качестве движка.pip install graph_of_thoughts
▪Github
@bigdatai
📰 Newspaper3k: Article scraping & curation
Если вы хотите быстро извлечь значимую информацию из статьи с помощью нескольких строк кода, попробуйте воспользоваться библиотекой newspaper3k.$ pip3 install newspaper3k
▪Github
▪Документация
@bigdatai
🔥Приглашаем на открытый урок по аналитике данных.
Тема: Базовый сбор требований в работе дата-аналитика
Урок пройдёт 23 августа в 20:00. Вебинар приурочен к старту онлайн-курса "Аналитик данных" от OTUS.
⚡️Что разберём на уроке:
-Жизненный цикл задачи в анализе данных;
-Какие вопросы нужно обязательно задавать и как правильно фиксировать ответы;
-Как преодолевать возражения и не заработать ненужный стресс в процессе.
✨Урок будет полезен:
-Новичкам в области анализа данных, которые задумываются об углублении знаний;
-Специалистам, которые уже делают первые шаги в этой профессии;
-Аналитики, работающие с подготовкой ручной отчетности.
Продолжить обучение можно на онлайн-курсе "Аналитик данных",
который можно приобрести в рассрочку.
💪Пройдите тестирование для регистрации на вебинар и оцените свой уровень в аналитике:
https://otus.pw/O1yM/Нативная интеграция. Информация о продукте www.otus.ru
GPU-серверы для всех
Кажется, что уже никто не верит в миф, что GPU нужны только дизайнерам для рендеринга графики. На самом деле графические процессоры (GPU) способны на большее.
На серверах c GPU работают компании, которые создают 3D-модели, анализируют большие объемы данных, делают высокопроизводительные вычисления и активно работают с ИИ. Причем как небольшие и перспективные стартапы, так и крупные игроки рынка, такие как ритейлеры и банки.
Выгодно взять в аренду облачные серверы с GPU можно у ITGLOBAL.COM. При подписании договора до 15 сентября бизнес получает два месяца использования GPU CLOUD бесплатно.
Оставьте заявку на сайте, чтобы воспользоваться акцией
Знаете основы анализа данных и хотите получить заветный оффер?
Наберитесь опыта, поработав над реальными рабочими задачами на Симуляторе аналитика.
Симулятор аналитика — это практически настоящая стажировка, где под руководством ведущих аналитиков с опытом работы в Яндексе, ВКонтакте и JetBrains вы будете сами проводить A/B-тесты, автоматизировать отчётность, создавать дашборды с продуктовыми метриками и разбираться с другими важными бизнес-задачами.
Будет непросто, но с опытом решения кейсов, доступных в симуляторе, вас будут ждать в любой компании!
Записывайтесь на следующий поток: https://karpov.courses/simulator
Кстати, по промокоду BIG22AI для вас действует скидка 5% до 31 августа.
🔥Приглашаем на базовый открытый урок по Machine Learning от OTUS
Тема: "Введение в Machine Learning"
Дата: 17 августа, 20:00. Вебинар приурочен к старту онлайн-курса "Machine Learning"
Что будет на уроке:
- История Machine Learning
- Основные понятия и типы задач машинного обучения
- Общий подход к решению задач
✨Занятие подойдёт:
- IT-специалисту, который хочет перейти в Data Science;
- Начинающему Data Scientist и специалисту по машинному обучению, желающему углубиться в профессию;
- Тому, кто самостоятельно изучает Data Science;
- Тому, кто хочет войти в IT, но не знает, что выбрать.
Продолжить обучение после вебинара можно на курсе "Machine Learning" доступном в рассрочку.
👉Регистрация: https://otus.pw/duj7/
Нативная интеграция. Информация о продукте www.otus.ru
🔥 Большой список сайтов с практическимим задачами для программистов.
Codeforces — платформа для алгоритмических соревнований. Проводит контесты и раунды с 5 задачами на 2 часа. Есть система рейтинга и два дивизиона. Задачи можно решать и проверять после соревнования. Также есть доступ к тренировкам с задачами с прошлых соревнований.
HackerRank - сайт будет больше интересен продвинутым программистам, которые уже многое умеют. На этом сайте собрано множество задач на самые разные разделы Computer Science: традиционная алгоритмика, ИИ, машинное обучение и т.д. Если вы решите много задач, то вами могут заинтересоваться работодатели, регуляторно мониторящие эту платформу.
Codewars — популярный cборник задач на разные темы, от алгоритмов до шаблонов проектирования.
LeetCode — известный сайт с задачами для подготовки к собеседованиям. Можно пообщаться и посмотреть решения других программистов.
Timus Online Judge — русскоязычная (хотя английский язык также поддерживается) платформа, на которой более тысячи задач удачно отсортированы по темам и по сложности.
TopCoder - популярная американская платформа. Она проводит алгоритмические контесты, а также соревнования по промышленному программированию и марафоны, где задачи требуют исследования и нет единого верного алгоритма. Участникам даются недели на решение таких задач.
informatics.mccme.ru - платформа с теоретическим материалом и задачами, удобно разделенными по категориям. Большая база задач с олимпиад школьников также доступна.
SPOJ - большой англоязычный сайт с 20000+ задачами на разные темы: DP, графы, структуры данных и др. Иногда проводят неинтересные контесты, если не из страны их проведения.
CodeChef — менее крупный аналог Codeforces и TopCoder, тоже с огромным архивом задач и регулярными контестами.
Project Euler - сборник 500 задач, проверяющих знание математических алгоритмов. Часто используется на собеседованиях, чтобы оценить алгоритмическую подготовку кандидата.
Kaggle - соревнования по анализу данных.
Golang tests - канал с тестами по Go
CodinGame - сайт для программистов и геймеров, предлагающий большую коллекцию видеоигр, оформленных в виде задач на программирование.
Al Zimmermann’s Programming Contests — платформа, на которой регулярно проводятся контесты с задачами на исследование и оптимизацию. Интересен тем, что писать программу необязательно — даются только тестовые данные. Ответы можно расчитывать вручную, или просто гадать их на кофейной гуще.
Programming Praxis — сайт, где можно найти много интересных задач.
CheckIO — сайт с задачами для программистов всех уровней, который вы проходите в виде игры.
Ruby Quiz — сайт с задачами для программистов на Ruby, но решения можно писать и на других языках.
Prolog Problems — Подборка задач для программистов, использующих Prolog.
Сборник задач от СppStudio - задачи на С++, но их можно и на других языках.
Operation Go — практика написания кода на Go в форме браузерной игры.
Empire of Code — сайт для программистов, где необходимо писать код, реализующий стратегию и тактику виртуальных бойцов.
/channel/bigdatai
Большая Шпаргалка по pandas, библиотеке на языке Python для обработки и анализа данных
Читать полностью…📌 Подборка шпаргалок по matplotlib от лёгкого до высокого уровня
#cheatsheet #python
⚡️Маст-хэв список для программистов, каналы с последними книжными новинками, библиотеками, разбором кода и актуальной информацией, связанной с вашим языком программирования.
Лучший способ получать свежие обновлении и следить за трендами в разработке.
Машинное обучение: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
C#: t.me/csharp_ci
C/C++/ t.me/cpluspluc
Data Science: t.me/data_analysis_ml
Devops: t.me/devOPSitsec
Go: t.me/Golang_google
Базы данных: t.me/sqlhub
Rust: t.me/rust_code
Javascript: t.me/javascriptv
React: t.me/react_tg
PHP: t.me/phpshka
Android: t.me/android_its
Мобильная разработка: t.me/mobdevelop
Linux: t.me/+A8jY79rcyKJlYWY6
Big Data: t.me/bigdatai
Хакинг: t.me/linuxkalii
Тестирование: /channel/+F9jPLmMFqq1kNTMy
Java: t.me/javatg
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка машинное обучение: /channel/addlist/_FjtIq8qMhU0NTYy
📕 Бесплатные Книги для программистов: /channel/addlist/YZ0EI8Ya4OJjYzEy
🎞 YouTube канал: uproger" rel="nofollow">https://www.youtube.com/@uproger
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🖥 Бесплатный полный курс по библиотеке Numpy
📌 Видео
bigdatai
💻 Хочешь работать с масштабными цифровыми продуктами? Учись обрабатывать большие данные
MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня.
✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам.
💪 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «MLOps» от OTUS.
✍️ ПРОЙТИ ТЕСТ: https://otus.pw/AwpY/
Нативная интеграция. Информация о продукте www.otus.ru
Аналитик-разработчик в области автоматизации процессов ИБ
Яндекс
Москва, СПБ #гибрид
junior, middle
Команда безопасности Яндекс 360 ищет энергичного эксперта по ИБ для автоматизации различных компонент СУИБ.
Что нужно делать:
- искать оптимальные пути для автоматизации процессов и метрик ИБ;
- создавать автоматизированные реестры данных;
- разрабатывать и имплементировать подходы к взаимодействию разных подсистем;
- внедрять архитектурные решения по улучшению процессов обеспечения ИБ и мер защиты;
- взаимодействовать с разработчиками и менеджерами продуктов и сервисов в рамках автоматизации процессов.
Мы ждем, что вы:
- знаете ключевые концепции и технологии обеспечения ИБ;
- понимаете устройство *nix-систем, систем контейнеризации;
- умеете автоматизировать работу с помощью Golang или Python;
- умеете говорить на языке разработчиков;
- представляете устройство облачных платформ.
Будет плюсом, если вы:
- активно участвуете в профессиональных сообществах;
- занимались профессиональной разработкой;
- проводили исследования или публиковали статьи в области ИБ;
- понимаете специфику и проблемы публичных облачных платформ.
Подробнее об условиях и вакансии: https://clck.ru/35Wz8P
Контакт в тг: @Oksidgi
Всем привет!
Ищу Developer Advocate Data Platform в Yandex Cloud, буду рада также рекомендациям! :)
Позиция: Developer Advocate Data Platform
Локация: Москва (гибридный формат работы)
Занятость: fulltime
Компания: Yandex Cloud ⛅️
#вакансия #Москва #bigData #fulltime #Sql #NoSql
Многофункциональная облачная платформа Yandex Cloud помогает компаниям и частным разработчикам создавать и совершенствовать цифровые сервисы и приложения. С момента запуска в сентябре 2018 года выручка и аудитория Yandex Cloud выросли в десятки раз, а сегодня платформой ежедневно пользуются десятки тысяч клиентов. Продуктовая группа Data Platform включает ClickHouse, PostgreSQL, Greenplum®, OpenSearch, Apache Kafka®, Apache Spark™, Data Transfer и другие сервисы. Мы ищем специалиста, который будет адвокатом платформы данных Yandex Cloud в сообществах разработчиков.
⛅️Что нужно делать:
- представлять платформу данных в сообществах разработчиков, формировать её восприятие в соответствии с выбранным позиционированием и помогать приросту лояльной аудитории;
- готовить разноформатный контент для Хабра и других площадок c целевой аудиторией;
- выстраивать сторителлинг вокруг платформы данных для разных ролей: как бизнес-заказчиков, так и технических специалистов;
- готовить презентации и выступать с ними на внутренних и внешних мероприятиях;
- проводить вебинары, практикумы и другие мероприятия по обучению работе с платформой данных;
- развивать и поддерживать офлайн- и онлайн-коммуникации: формировать восприятие сервисов платформы как выбор по умолчанию в профильных чатах Greenplum, PostgreSQL, Data engineers и др.
⛅️ Мы ждем, что вы
- работали разработчиком или инженером в сфере IT;
- отлично разбираетесь в способах работы с данными;
- разбираетесь в базах данных, средствах загрузки и других инструментах и сами можете писать код для развития опенсорсных технологий;
- умеете рассказывать истории и оформлять их в статьи и презентации;
- любите общаться с сообществом на тему технологий, собирать обратную связь и выстраивать конструктивный диалог.
☎️Контакты: @oksidgi
Подробнее о вакансии и условиях: https://clck.ru/35VfU4
🚀 Fast Vector Similarity Library
Библиотека Fast Vector Similarity предназначена для эффективного вычисления различных мер сходства между векторами.pip install fast_vector_similarity
▪Github
@bigdatai
Вы ещё успеваете поступить в онлайн-магистратуру МФТИ «Финансовые технологии и аналитика» 👩🎓Ближайшие даты экзаменов — 4 и 19 сентября.
➕Диплом очной магистратуры гособразца по направлению 38.03.05 «Бизнес-информатика».
➕Онлайн-обучение из любой точки мира.
➕Углубленная специализация в сфере финтех-разработки или аналитики.
➕Гранты на запуск своего стартапа в области Data Science/AI/ML до 3 млн ₽.
➕Более 5 проектов в портфолио: реальные задачи от Сбера, ВТБ, Ozon Fintech, Альфа-Банка и других финтех-компаний уже с первого семестра.
➕Возможность совмещать с работой и развивать корпоративный проект в качестве дипломного.
➕Рассрочка под 3% от Сбера и Минобразования. Платёж во время учебы — до 900 ₽ в месяц.
Бесплатный подготовительный курс и запись прошедших консультаций по экзаменам доступны после регистрации. Оставьте заявку, чтобы зарегистрироваться на день открытых дверей и начать готовиться к поступлению: https://netolo.gy/b3og
Реклама ООО “Нетология” LatgBhKhB
Rix — поисковая система на основе ИИ, ориентированная на разработчиков
В основе инструмента лежит нейросеть, позволяющая использовать как режим веб-поиска, так и GPT-поиск.
Последний помогает получить мгновенные ответы на основе «знаний» предварительно обученных специалистов
Стоимость: #бесплатно
#ИИ #поиск #code
📋Состояние инфраструктуры данных на 2023 год — ключевые тренды ландшафта MAD от Мэтта Терка
Основные изменения в инфраструктуре данных на 2023 год
Hadoop
Несмотря на то, что некоторые компоненты экосистемы Hadoop до сих пор используются (например, Hive), их популярность снизилась настолько, что эта экосистема больше не попадает в ландшафт индустрии данных, что также подтверждается последними статьями из разряда “Big Data is Dead”.
Data lakes стали относиться к одной категории с Lakehouse
Сюда, среди прочих, относятся следующие инструменты (где это актуально, в скобках также указаны год основания и общий объем финансирования):
• Cloudera (2008, $1041 млн) — корпоративный дата-хаб, построенный на базе Apache Hadoop.
• Databricks (2013, $3497 млн) — их платформа lakehouse используется для сервисов интеграции и аналитики. Эта компания ввела парадигму lakehouse и выступает лидером в этой категории.
• Dremio (2015, $405 млн) — платформа аналитики данных, позволяющая компаниям запрашивать данные с любого источника и ускоряющая аналитическую обработку с помощью инструментов бизнес-аналитики, машинного обучения и клиентов SQL.
• Onehouse (2021, $33 млн) — облачный управляемый сервис формата lakehouse, помогающий создавать озера данных, обрабатывать данные и владеть данными в опенсорсных форматах.
• Azure Data Lake Storage — подобный S3 сервис объектного хранилища, обычно называемый ADLS Gen 2
• Azure HD Insight — аналогичен вышеназванному сервису, но для экосистемы Hadoop.
• GCP Google BigLake — позволяет создавать таблицы BigLake в Google Cloud Storage (GCS), Amazon S3 и ADLS Gen 2 в поддерживаемых открытых форматах файлов, таких как Parquet, ORC и Avro.
• GCP Google Cloud Dataproc — аналогичен сервису выше, но для экосистемы Hadoop.
• AWS Lake Formation — упрощает управление озером данных на базе S3 с интеграцией каталога метаданных Glue, механизма запросов Athena и так далее.
• AWS Amazon EMR — аналогичен сервису выше, но для экосистемы Hadoop.
📌Продолжение
@bigdatai
📌 Как появился BARSiC и как был усовершенствован его алгоритм
На Хабре выкатили интересный материал, который посвящен совместному проекту ВКонтакте и университета ИТМО «Разработка моделей для верификации распределенных алгоритмов в системе BARSiC». В этой статье подробно описано, как в рамках этого проекта верифицировали выбранный для BARSiC алгоритм и исправили найденную в нём ошибку.
BARSiC — система управления репликацией и консенсусом в кластере ВКонтакте. Прежде всего она контролирует состав кластера, определяя, кто реплика, а кто — мастер. А при выходе мастера из строя реплики выбирают нового с непротиворечивой линейной историей.
▪️ Читать
@DevOPSitsec
🖥 Полезные приемы с кодом для аналитиков данных на Python
1. Python itertools groupby удобный способ группировки - https://www.youtube.com/watch?v=Rt1gl4fM62k
2. Полезные приемы в Pandas - https://www.youtube.com/watch?v=Sd2S5rXe8sY&t=165s
3. Раскройте потенциал Python Numpy: руководство для начинающих в науке о данных - https://www.youtube.com/watch?v=XX2XremQ0fg&t=12s
4. Data science c Python.Ускоряем Pandas в 120 раз- https://www.youtube.com/watch?v=-dAdaEv23vk&t=4s
5. 26 практических приёмов и хитростей Python - https://www.youtube.com/watch?v=vAMyfvtxxdQ&t=5s
6. 5 декораторов Python для Data Science проектов - https://www.youtube.com/watch?v=rxq11WHAlqU
7. ChatGPT + Midjouney на практике - https://www.youtube.com/watch?v=2gUqbc3Ikmo&t=5s
8. Разбор вопросов с собеседований Python - https://www.youtube.com/watch?v=4L1e-A3AOL4&t=5s
9. 15 полезных лайфхаков с кодом Машинного обучения на Python - https://www.youtube.com/watch?v=loOtlwcdiBA&t=4s
10. Декораторы Python, которые выведут ваш код на новый уровень - https://www.youtube.com/watch?v=qxrGAogl4iM
11. 7 инструментов Python, который должен знать каждый специалист машинного обучения - https://www.youtube.com/watch?v=RGEftBi0C9Y
12. Как загружать данные в SQL в 20 раз быстрее на Python - https://www.youtube.com/watch?v=eyeR1uWLnpM&t=2s
13. Data Science. Полезные советы по библиотеке Pandas - https://www.youtube.com/watch?v=neXc5Q-AWXY&t=3s
14. Data Science. Полезные советы по библиотеке Pandas - https://www.youtube.com/watch?v=neXc5Q-AWXY&t=3s
15. Дзен Python ООП: лучшие практики и шаблоны проектирования Python - https://www.youtube.com/watch?v=_MtX6QFJBRU
16. Python itertools. Хитрый способ избежать вложенных циклов - https://www.youtube.com/watch?v=TSvjYKIY01I&t=3s
17. Python. Генерация списка, словаря или множества в одну строку кода - https://www.youtube.com/watch?v=zS3HePvtxVc&t=10s
18. 8 крутых способов свести функции Python в одну строку - https://www.youtube.com/watch?v=jo3Q-rMggXk
19. Python itertools.compress. Удобный способ фильтрации данных - https://www.youtube.com/watch?v=8JGHID-_ApU&t=12s
20. Python Match/Case - https://www.youtube.com/watch?v=U_-NIKbKakM
21. Data Science. Советы по написанию эффективного кода на Python - https://www.youtube.com/watch?v=1Mcy-uatp_c&t=14s
22. Numpy векторизация вместо циклов в Python - https://www.youtube.com/watch?v=c7ypD2xet0E
🎞 uproger">Все видео по анализу данных
/channel/bigdatai
Шпаргалка по Matplotlib
Matplotlib — библиотека на языке программирования Python для визуализации данных двумерной и трёхмерной графикой.
Готовы исследовать ML и AI на практике? Присоединяйтесь к TechTrain 2023 Autumn.
В программе:
– LLMs: ускорение интерфейса и деплой;
– Программирование игр с ChatGPT (экспресс-хакатон);
– Обучение искусственного интеллекта психотерапии;
– Оптимизация рекомендательных систем: метрики, архитектура и практические советы;
– Эволюция и будущее NLP;
– Автоматизация разметки данных с помощью ML-моделей;
– Разбор успешного кейса: от Jupyter к MLOps;
– Conjoint-анализ: зачем нужен, как устроен, как использовать.
После каждого доклада – общение со спикерами в дискуссионной зоне. Там вы сможете получить ответы на вопросы и вдохновиться на новые идеи.
Фестиваль пройдет 30 августа, онлайн. Для участия достаточно зарегистрироваться
🔉Более 1,5 ТБ размеченых наборов аудиоданных
https://machinelearningmastery.ru/a-data-lakes-worth-of-audio-datasets-b45b88cd4ad/
bigdatai
📊Прогнозирование цен на акции с помощью моделирования методом Монте-Карло
Моделирование - мощный инструмент прогнозной аналитики в BI.
• Методы имитационного моделирования используются для моделирования сложных сценариев и принятия обоснованных решений.
• Имитационная модель многократно моделируется с разными входными данными и сценариями, что позволяет понять диапазон возможных результатов и связанные с ними вероятности.
• Существует несколько методов имитационного моделирования, включая агентное моделирование, дискретно-событийное моделирование, моделирование по теории игр и моделирование методом Монте-Карло.
• Мы используем моделирование методом Монте-Карло из-за его универсальности и способности решать сложные задачи с неопределенностью.# Import required libraries
import math
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import yfinance as yf#obtaining and printing data
#we have used the ticker 'AC.TO', which is Air Canada
data = yf.download('AC.TO','2020-01-01','2023-01-01')
data.head()
📌 Подробнее
bigdatai
🚀 Доступ к Spark-датасетам из разных приложений — Redis.
Apache Spark, универсальная платформа для крупномасштабной обработки данных, в сочетании с Redis способна обеспечить ускоренные расчеты в реальном времени для таких задач, как анализ временных рядов, прогнозы и рекомендации на основе машинного обучения и т. д.
Spark также способен извлекать датасеты в кэш-память кластера. Это невероятно полезно, когда приложению необходимо многократно запрашивать одни и те же данные. Если вы используете датасет, создание которого достаточно затратно, и который потом используется в вашем приложении не один раз, то этот датасет обязательно нужно кэшировать. Но если вы захотите получить доступ к этому датасету сразу из нескольких приложений, то вам придется поломать голову, как это сделать. Здесь на помощь приходит коннектор Spark-Redis.
Redis — это размещаемое в памяти хранилище структур данных с открытым исходным кодом (под лицензией BSD), используемое в качестве базы данных, кэша и брокера сообщений. Оно поддерживает множество разных структур данных, таких как строки, хэши, списки, сэты и так далее.
Redis Labs недавно опубликовала в общий доступ пакет “spark-redis”. Как следует из названия, это коннектор Redis для Apache Spark, который обеспечивает доступ для чтения и записи ко всем основным структурам данных Redis в виде RDD (Resilient Distributed Datasets, в терминологии Spark), что позволяет Spark использовать Redis в качестве одного из источников данных. Этот коннектор предоставляет Spark структуры данных Redis, тем самым обеспечивая значительный прирост производительности для всех типов расчетов. Он также позволяет нам организовать совместный доступ к DataSet/DataFrame/RDD Spark из сразу нескольких разных приложений.
Но прежде чем мы сможем использовать коннектор Spark-Redis, нам сперва нужно позаботиться о наличии нескольких ключевых элементов, а именно: Apache Spark, Scala, Jedis и Redis.
Чтобы без особой необходимости не растягивать этот пост, предположим, что о всем вышеперечисленном вы уже позаботились. Поэтому давайте сразу перейдем к делу — как запустить эту мощную комбинацию. Включите указанные ниже зависимости в свой проект вместе со Spark:
•spark-redis
•jedis
📌 Читать дальше
bigdatai