bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

🚀 Большая шпаргалка с кодом: pandas DataFrame

bigdatai

Читать полностью…

Big Data AI

🖥 Большая MySQL с примерами работы и пояснением каждого запросы.

Запросы, типы данных, работа датами и временем, таблицы, математические функции, и еще много полезного.

@bigdatai

Читать полностью…

Big Data AI

Бесплатные сертификационные курсы для повышения ваших и навыков и карьерного роста:

1. Intro to Machine Learning
https://kaggle.com/learn/intro-to-machine-learning


2. IBM Data Science Professional Certificate
https://coursera.org/professional-certificates/ibm-data-science

3. Project Management
https://mygreatlearning.com/academy/learn-for-free/courses/project-management

4. Introduction to Front End Development
https://simplilearn.com/front-end-developer-free-course-skillup

5. Technical Writing
https://learn.saylor.org/course/view.php?id=368

6. Google Ads Search Certification
https://skillshop.exceedlms.com/student/path/18128-google-ads-search-certification

7. Inbound Marketing
https://academy.hubspot.com/courses/inbound-marketing

8. Introduction to Programming with Python
https://cs50.harvard.edu/python/2022

@bigdatai

Читать полностью…

Big Data AI

💪 Как обучают большие языковые модели в России

LLM — новый этап развития интеллектуальных систем, решающих задачи на естественном языке. Помимо глубокого понимания структуры языка, LLM также формируют знания о мире во время обучения на больших корпусах текста. Это выводит их на новый качественный уровень, открывая новые эмерджентные способности, такие как Few-Shot Learning и Reasoning.

Обучение подобных моделей является сложной задачей, требующей большого количества ресурсов и тонкой настройки.

Дани Эль-Айясс, исполнительный директор SberDevices, выступит с докладом и поделится опытом обучения модели GigaChat — большой языковой модели от Сбера, начиная с Pre-Train и заканчивая RLHF-пайплайном.

Послушать выступление можно будет на хардовой конференции Яндекса по машинному обучению — Practical ML Conf. 7 сентября 500 экспертов соберутся вместе, чтобы дать максимум пользы и знаний о практическом применении ML. Регистрируйтесь.

@bigdatai

Читать полностью…

Big Data AI

🎞 🖥 Видео-уроки по парсингу на Python для сбора данных

Основы работа с bs4
Работаем с selenium
Работаем с selenium
Сравниваем Scrappy и bs4
Парсинг на Python со использованием Proxy

@bigdatai

Читать полностью…

Big Data AI

💻Graph of Thoughts (GoT)

Этот фреймворк дает возможность решать сложные задачи, моделируя их в виде графа операций (GoO), который автоматически выполняется с помощью большой языковой модели (LLM) в качестве движка.

pip install graph_of_thoughts

Github

@bigdatai

Читать полностью…

Big Data AI

📰 Newspaper3k: Article scraping & curation

Если вы хотите быстро извлечь значимую информацию из статьи с помощью нескольких строк кода, попробуйте воспользоваться библиотекой newspaper3k.

$ pip3 install newspaper3k

Github
Документация

@bigdatai

Читать полностью…

Big Data AI

🔥Приглашаем на открытый урок по аналитике данных.

Тема:
Базовый сбор требований в работе дата-аналитика

Урок пройдёт 23 августа в 20:00. Вебинар приурочен к старту онлайн-курса "Аналитик данных" от OTUS.

⚡️Что разберём на уроке:

-Жизненный цикл задачи в анализе данных;
-Какие вопросы нужно обязательно задавать и как правильно фиксировать ответы;
-Как преодолевать возражения и не заработать ненужный стресс в процессе.

✨Урок будет полезен:

-Новичкам в области анализа данных, которые задумываются об углублении знаний;
-Специалистам, которые уже делают первые шаги в этой профессии;
-Аналитики, работающие с подготовкой ручной отчетности.

Продолжить обучение можно на онлайн-курсе "Аналитик данных",
который можно приобрести в рассрочку.

💪Пройдите тестирование для регистрации на вебинар и оцените свой уровень в аналитике:
https://otus.pw/O1yM/

Нативная интеграция. Информация о продукте www.otus.ru

Читать полностью…

Big Data AI

GPU-серверы для всех

Кажется, что уже никто не верит в миф, что GPU нужны только дизайнерам для рендеринга графики. На самом деле графические процессоры (GPU) способны на большее.

На серверах c GPU работают компании, которые создают 3D-модели, анализируют большие объемы данных, делают высокопроизводительные вычисления и активно работают с ИИ. Причем как небольшие и перспективные стартапы, так и крупные игроки рынка, такие как ритейлеры и банки.

Выгодно взять в аренду облачные серверы с GPU можно у ITGLOBAL.COM. При подписании договора до 15 сентября бизнес получает два месяца использования GPU CLOUD бесплатно.

Оставьте заявку на сайте, чтобы воспользоваться акцией

Читать полностью…

Big Data AI

Знаете основы анализа данных и хотите получить заветный оффер?

Наберитесь опыта, поработав над реальными рабочими задачами на Симуляторе аналитика.

Симулятор аналитика — это практически настоящая стажировка, где под руководством ведущих аналитиков с опытом работы в Яндексе, ВКонтакте и JetBrains вы будете сами проводить A/B-тесты, автоматизировать отчётность, создавать дашборды с продуктовыми метриками и разбираться с другими важными бизнес-задачами.

Будет непросто, но с опытом решения кейсов, доступных в симуляторе, вас будут ждать в любой компании!

Записывайтесь на следующий поток: https://karpov.courses/simulator

Кстати, по промокоду BIG22AI для вас действует скидка 5% до 31 августа.

Читать полностью…

Big Data AI

🔥Приглашаем на базовый открытый урок по Machine Learning от OTUS

Тема:
"Введение в Machine Learning"
Дата: 17 августа, 20:00. Вебинар приурочен к старту онлайн-курса "Machine Learning"

Что будет на уроке:

- История Machine Learning
- Основные понятия и типы задач машинного обучения
- Общий подход к решению задач

✨Занятие подойдёт:

- IT-специалисту, который хочет перейти в Data Science;
- Начинающему Data Scientist и специалисту по машинному обучению, желающему углубиться в профессию;
- Тому, кто самостоятельно изучает Data Science;
- Тому, кто хочет войти в IT, но не знает, что выбрать.

Продолжить обучение после вебинара можно на курсе "Machine Learning" доступном в рассрочку.

👉Регистрация: https://otus.pw/duj7/

Нативная интеграция. Информация о продукте www.otus.ru

Читать полностью…

Big Data AI

🔥 Большой список сайтов с практическимим задачами для программистов.

Codeforces — платформа для алгоритмических соревнований. Проводит контесты и раунды с 5 задачами на 2 часа. Есть система рейтинга и два дивизиона. Задачи можно решать и проверять после соревнования. Также есть доступ к тренировкам с задачами с прошлых соревнований.

HackerRank - сайт будет больше интересен продвинутым программистам, которые уже многое умеют. На этом сайте собрано множество задач на самые разные разделы Computer Science: традиционная алгоритмика, ИИ, машинное обучение и т.д. Если вы решите много задач, то вами могут заинтересоваться работодатели, регуляторно мониторящие эту платформу.

Codewars — популярный cборник задач на разные темы, от алгоритмов до шаблонов проектирования.

LeetCode — известный сайт с задачами для подготовки к собеседованиям. Можно пообщаться и посмотреть решения других программистов.

Timus Online Judge — русскоязычная (хотя английский язык также поддерживается) платформа, на которой более тысячи задач удачно отсортированы по темам и по сложности.

TopCoder - популярная американская платформа. Она проводит алгоритмические контесты, а также соревнования по промышленному программированию и марафоны, где задачи требуют исследования и нет единого верного алгоритма. Участникам даются недели на решение таких задач.

informatics.mccme.ru - платформа с теоретическим материалом и задачами, удобно разделенными по категориям. Большая база задач с олимпиад школьников также доступна.

SPOJ - большой англоязычный сайт с 20000+ задачами на разные темы: DP, графы, структуры данных и др. Иногда проводят неинтересные контесты, если не из страны их проведения.

CodeChef — менее крупный аналог Codeforces и TopCoder, тоже с огромным архивом задач и регулярными контестами.

Project Euler - сборник 500 задач, проверяющих знание математических алгоритмов. Часто используется на собеседованиях, чтобы оценить алгоритмическую подготовку кандидата.

Kaggle - соревнования по анализу данных.

Golang tests - канал с тестами по Go

CodinGame - сайт для программистов и геймеров, предлагающий большую коллекцию видеоигр, оформленных в виде задач на программирование.

Al Zimmermann’s Programming Contests — платформа, на которой регулярно проводятся контесты с задачами на исследование и оптимизацию. Интересен тем, что писать программу необязательно — даются только тестовые данные. Ответы можно расчитывать вручную, или просто гадать их на кофейной гуще.

Programming Praxis — сайт, где можно найти много интересных задач.

CheckIO — сайт с задачами для программистов всех уровней, который вы проходите в виде игры.

Ruby Quiz — сайт с задачами для программистов на Ruby, но решения можно писать и на других языках.

Prolog Problems — Подборка задач для программистов, использующих Prolog.

Сборник задач от СppStudio - задачи на С++, но их можно и на других языках.

Operation Go — практика написания кода на Go в форме браузерной игры.

Empire of Code — сайт для программистов, где необходимо писать код, реализующий стратегию и тактику виртуальных бойцов.

/channel/bigdatai

Читать полностью…

Big Data AI

Большая Шпаргалка по pandas, библиотеке на языке Python для обработки и анализа данных

Читать полностью…

Big Data AI

📌 Подборка шпаргалок по matplotlib от лёгкого до высокого уровня

#cheatsheet #python

Читать полностью…

Big Data AI

⚡️Маст-хэв список для программистов, каналы с последними книжными новинками, библиотеками, разбором кода и актуальной информацией, связанной с вашим языком программирования.
Лучший способ получать свежие обновлении и следить за трендами в разработке.

Машинное обучение: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
C#: t.me/csharp_ci
C/C++/ t.me/cpluspluc
Data Science: t.me/data_analysis_ml
Devops: t.me/devOPSitsec
Go: t.me/Golang_google
Базы данных: t.me/sqlhub
Rust: t.me/rust_code
Javascript: t.me/javascriptv
React: t.me/react_tg
PHP: t.me/phpshka
Android: t.me/android_its
Мобильная разработка: t.me/mobdevelop
Linux: t.me/+A8jY79rcyKJlYWY6
Big Data: t.me/bigdatai
Хакинг: t.me/linuxkalii
Тестирование: /channel/+F9jPLmMFqq1kNTMy
Java: t.me/javatg

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy

Папка машинное обучение: /channel/addlist/_FjtIq8qMhU0NTYy

📕 Бесплатные Книги для программистов: /channel/addlist/YZ0EI8Ya4OJjYzEy

🎞 YouTube канал: uproger" rel="nofollow">https://www.youtube.com/@uproger

😆ИТ-Мемы: t.me/memes_prog

🇬🇧Английский: t.me/english_forprogrammers

Читать полностью…

Big Data AI

🖥 Бесплатный полный курс по библиотеке Numpy

📌 Видео

bigdatai

Читать полностью…

Big Data AI

💻 Хочешь работать с масштабными цифровыми продуктами? Учись обрабатывать большие данные

MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня.

✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам.

💪 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «MLOps» от OTUS.

✍️ ПРОЙТИ ТЕСТ: https://otus.pw/AwpY/

Нативная интеграция. Информация о продукте www.otus.ru

Читать полностью…

Big Data AI

Аналитик-разработчик в области автоматизации процессов ИБ
Яндекс
Москва, СПБ #гибрид
junior, middle

Команда безопасности Яндекс 360 ищет энергичного эксперта по ИБ для автоматизации различных компонент СУИБ.

Что нужно делать:
- искать оптимальные пути для автоматизации процессов и метрик ИБ;
- создавать автоматизированные реестры данных;
- разрабатывать и имплементировать подходы к взаимодействию разных подсистем;
- внедрять архитектурные решения по улучшению процессов обеспечения ИБ и мер защиты;
- взаимодействовать с разработчиками и менеджерами продуктов и сервисов в рамках автоматизации процессов.

Мы ждем, что вы:
- знаете ключевые концепции и технологии обеспечения ИБ;
- понимаете устройство *nix-систем, систем контейнеризации;
- умеете автоматизировать работу с помощью Golang или Python;
- умеете говорить на языке разработчиков;
- представляете устройство облачных платформ.

Будет плюсом, если вы:
- активно участвуете в профессиональных сообществах;
- занимались профессиональной разработкой;
- проводили исследования или публиковали статьи в области ИБ;
- понимаете специфику и проблемы публичных облачных платформ.

Подробнее об условиях и вакансии: https://clck.ru/35Wz8P
Контакт в тг: @Oksidgi

Читать полностью…

Big Data AI

Всем привет!
Ищу Developer Advocate Data Platform в Yandex Cloud, буду рада также рекомендациям! :)
Позиция: Developer Advocate Data Platform
Локация: Москва (гибридный формат работы)
Занятость: fulltime
Компания: Yandex Cloud ⛅️
#вакансия #Москва #bigData #fulltime #Sql #NoSql

Многофункциональная облачная платформа Yandex Cloud помогает компаниям и частным разработчикам создавать и совершенствовать цифровые сервисы и приложения. С момента запуска в сентябре 2018 года выручка и аудитория Yandex Cloud выросли в десятки раз, а сегодня платформой ежедневно пользуются десятки тысяч клиентов. Продуктовая группа Data Platform включает ClickHouse, PostgreSQL, Greenplum®, OpenSearch, Apache Kafka®, Apache Spark™, Data Transfer и другие сервисы. Мы ищем специалиста, который будет адвокатом платформы данных Yandex Cloud в сообществах разработчиков.

⛅️Что нужно делать:
- представлять платформу данных в сообществах разработчиков, формировать её восприятие в соответствии с выбранным позиционированием и помогать приросту лояльной аудитории;
- готовить разноформатный контент для Хабра и других площадок c целевой аудиторией;
- выстраивать сторителлинг вокруг платформы данных для разных ролей: как бизнес-заказчиков, так и технических специалистов;
- готовить презентации и выступать с ними на внутренних и внешних мероприятиях;
- проводить вебинары, практикумы и другие мероприятия по обучению работе с платформой данных;
- развивать и поддерживать офлайн- и онлайн-коммуникации: формировать восприятие сервисов платформы как выбор по умолчанию в профильных чатах Greenplum, PostgreSQL, Data engineers и др.

⛅️ Мы ждем, что вы
- работали разработчиком или инженером в сфере IT;
- отлично разбираетесь в способах работы с данными;
- разбираетесь в базах данных, средствах загрузки и других инструментах и сами можете писать код для развития опенсорсных технологий;
- умеете рассказывать истории и оформлять их в статьи и презентации;
- любите общаться с сообществом на тему технологий, собирать обратную связь и выстраивать конструктивный диалог.


☎️Контакты: @oksidgi
Подробнее о вакансии и условиях: https://clck.ru/35VfU4

Читать полностью…

Big Data AI

🚀 Fast Vector Similarity Library

Библиотека Fast Vector Similarity предназначена для эффективного вычисления различных мер сходства между векторами.


pip install fast_vector_similarity

Github

@bigdatai

Читать полностью…

Big Data AI

Вы ещё успеваете поступить в онлайн-магистратуру МФТИ «Финансовые технологии и аналитика» 👩‍🎓Ближайшие даты экзаменов — 4 и 19 сентября.

➕Диплом очной магистратуры гособразца по направлению 38.03.05 «Бизнес-информатика».
➕Онлайн-обучение из любой точки мира.
➕Углубленная специализация в сфере финтех-разработки или аналитики.
➕Гранты на запуск своего стартапа в области Data Science/AI/ML до 3 млн ₽.
➕Более 5 проектов в портфолио: реальные задачи от Сбера, ВТБ, Ozon Fintech, Альфа-Банка и других финтех-компаний уже с первого семестра.
➕Возможность совмещать с работой и развивать корпоративный проект в качестве дипломного.
➕Рассрочка под 3% от Сбера и Минобразования. Платёж во время учебы — до 900 ₽ в месяц.

Бесплатный подготовительный курс и запись прошедших консультаций по экзаменам доступны после регистрации. Оставьте заявку, чтобы зарегистрироваться на день открытых дверей и начать готовиться к поступлению: https://netolo.gy/b3og

Реклама ООО “Нетология” LatgBhKhB

Читать полностью…

Big Data AI

Rix — поисковая система на основе ИИ, ориентированная на разработчиков

В основе инструмента лежит нейросеть, позволяющая использовать как режим веб-поиска, так и GPT-поиск.

Последний помогает получить мгновенные ответы на основе «знаний» предварительно обученных специалистов

Стоимость: #бесплатно

#ИИ #поиск #code

Читать полностью…

Big Data AI

📋Состояние инфраструктуры данных на 2023 год — ключевые тренды ландшафта MAD от Мэтта Терка

Основные изменения в инфраструктуре данных на 2023 год
Hadoop
Несмотря на то, что некоторые компоненты экосистемы Hadoop до сих пор используются (например, Hive), их популярность снизилась настолько, что эта экосистема больше не попадает в ландшафт индустрии данных, что также подтверждается последними статьями из разряда “Big Data is Dead”.

Data lakes стали относиться к одной категории с Lakehouse
Сюда, среди прочих, относятся следующие инструменты (где это актуально, в скобках также указаны год основания и общий объем финансирования):

Cloudera (2008, $1041 млн) — корпоративный дата-хаб, построенный на базе Apache Hadoop.
Databricks (2013, $3497 млн) — их платформа lakehouse используется для сервисов интеграции и аналитики. Эта компания ввела парадигму lakehouse и выступает лидером в этой категории.
Dremio (2015, $405 млн) — платформа аналитики данных, позволяющая компаниям запрашивать данные с любого источника и ускоряющая аналитическую обработку с помощью инструментов бизнес-аналитики, машинного обучения и клиентов SQL.
Onehouse (2021, $33 млн) — облачный управляемый сервис формата lakehouse, помогающий создавать озера данных, обрабатывать данные и владеть данными в опенсорсных форматах.
Azure Data Lake Storage  — подобный S3 сервис объектного хранилища, обычно называемый ADLS Gen 2
Azure HD Insight  — аналогичен вышеназванному сервису, но для экосистемы Hadoop.
GCP Google BigLake  — позволяет создавать таблицы BigLake в Google Cloud Storage (GCS), Amazon S3 и ADLS Gen 2 в поддерживаемых открытых форматах файлов, таких как Parquet, ORC и Avro.
GCP Google Cloud Dataproc  — аналогичен сервису выше, но для экосистемы Hadoop.
AWS Lake Formation  — упрощает управление озером данных на базе S3 с интеграцией каталога метаданных Glue, механизма запросов Athena и так далее.
AWS Amazon EMR  — аналогичен сервису выше, но для экосистемы Hadoop.

📌Продолжение

@bigdatai

Читать полностью…

Big Data AI

📌 Как появился BARSiC и как был усовершенствован его алгоритм

На Хабре выкатили интересный материал, который посвящен совместному проекту ВКонтакте и университета ИТМО «Разработка моделей для верификации распределенных алгоритмов в системе BARSiC». В этой статье подробно описано, как в рамках этого проекта верифицировали выбранный для BARSiC алгоритм и исправили найденную в нём ошибку.

BARSiC — система управления репликацией и консенсусом в кластере ВКонтакте. Прежде всего она контролирует состав кластера, определяя, кто реплика, а кто — мастер. А при выходе мастера из строя реплики выбирают нового с непротиворечивой линейной историей.

▪️ Читать

@DevOPSitsec

Читать полностью…

Big Data AI

🖥 Полезные приемы с кодом для аналитиков данных на Python

1. Python itertools groupby удобный способ группировки - https://www.youtube.com/watch?v=Rt1gl4fM62k

2. Полезные приемы в Pandas - https://www.youtube.com/watch?v=Sd2S5rXe8sY&t=165s

3. Раскройте потенциал Python Numpy: руководство для начинающих в науке о данных - https://www.youtube.com/watch?v=XX2XremQ0fg&t=12s

4. Data science c Python.Ускоряем Pandas в 120 раз- https://www.youtube.com/watch?v=-dAdaEv23vk&t=4s

5. 26 практических приёмов и хитростей Python - https://www.youtube.com/watch?v=vAMyfvtxxdQ&t=5s

6. 5 декораторов Python для Data Science проектов - https://www.youtube.com/watch?v=rxq11WHAlqU

7. ChatGPT + Midjouney на практике - https://www.youtube.com/watch?v=2gUqbc3Ikmo&t=5s

8. Разбор вопросов с собеседований Python - https://www.youtube.com/watch?v=4L1e-A3AOL4&t=5s

9. 15 полезных лайфхаков с кодом Машинного обучения на Python - https://www.youtube.com/watch?v=loOtlwcdiBA&t=4s

10. Декораторы Python, которые выведут ваш код на новый уровень - https://www.youtube.com/watch?v=qxrGAogl4iM

11. 7 инструментов Python, который должен знать каждый специалист машинного обучения - https://www.youtube.com/watch?v=RGEftBi0C9Y

12. Как загружать данные в SQL в 20 раз быстрее на Python
- https://www.youtube.com/watch?v=eyeR1uWLnpM&t=2s

13. Data Science. Полезные советы по библиотеке Pandas - https://www.youtube.com/watch?v=neXc5Q-AWXY&t=3s

14. Data Science. Полезные советы по библиотеке Pandas - https://www.youtube.com/watch?v=neXc5Q-AWXY&t=3s

15. Дзен Python ООП: лучшие практики и шаблоны проектирования Python - https://www.youtube.com/watch?v=_MtX6QFJBRU

16. Python itertools. Хитрый способ избежать вложенных циклов - https://www.youtube.com/watch?v=TSvjYKIY01I&t=3s

17. Python. Генерация списка, словаря или множества в одну строку кода - https://www.youtube.com/watch?v=zS3HePvtxVc&t=10s

18. 8 крутых способов свести функции Python в одну строку - https://www.youtube.com/watch?v=jo3Q-rMggXk

19. Python itertools.compress. Удобный способ фильтрации данных - https://www.youtube.com/watch?v=8JGHID-_ApU&t=12s

20. Python Match/Case - https://www.youtube.com/watch?v=U_-NIKbKakM

21. Data Science. Советы по написанию эффективного кода на Python - https://www.youtube.com/watch?v=1Mcy-uatp_c&t=14s

22. Numpy векторизация вместо циклов в Python - https://www.youtube.com/watch?v=c7ypD2xet0E

🎞 uproger">Все видео по анализу данных


/channel/bigdatai

Читать полностью…

Big Data AI

Шпаргалка по Matplotlib

Matplotlib — библиотека на языке программирования Python для визуализации данных двумерной и трёхмерной графикой.

Читать полностью…

Big Data AI

Готовы исследовать ML и AI на практике? Присоединяйтесь к TechTrain 2023 Autumn.

В программе:
– LLMs: ускорение интерфейса и деплой;
– Программирование игр с ChatGPT (экспресс-хакатон);
– Обучение искусственного интеллекта психотерапии; 
– Оптимизация рекомендательных систем: метрики, архитектура и практические советы; 
– Эволюция и будущее NLP;  
– Автоматизация разметки данных с помощью ML-моделей; 
– Разбор успешного кейса: от Jupyter к MLOps;
– Conjoint-анализ: зачем нужен, как устроен, как использовать.

После каждого доклада – общение со спикерами в дискуссионной зоне. Там вы сможете получить ответы на вопросы и вдохновиться на новые идеи. 

Фестиваль пройдет 30 августа, онлайн. Для участия достаточно зарегистрироваться

Читать полностью…

Big Data AI

🔉Более 1,5 ТБ размеченых наборов аудиоданных

https://machinelearningmastery.ru/a-data-lakes-worth-of-audio-datasets-b45b88cd4ad/

bigdatai

Читать полностью…

Big Data AI

📊Прогнозирование цен на акции с помощью моделирования методом Монте-Карло

Моделирование - мощный инструмент прогнозной аналитики в BI.

Методы имитационного моделирования используются для моделирования сложных сценариев и принятия обоснованных решений.
Имитационная модель многократно моделируется с разными входными данными и сценариями, что позволяет понять диапазон возможных результатов и связанные с ними вероятности.
Существует несколько методов имитационного моделирования, включая агентное моделирование, дискретно-событийное моделирование, моделирование по теории игр и моделирование методом Монте-Карло.
Мы используем моделирование методом Монте-Карло из-за его универсальности и способности решать сложные задачи с неопределенностью.

# Import required libraries
import math
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import yfinance as yf


#obtaining and printing data
#we have used the ticker 'AC.TO', which is Air Canada

data = yf.download('AC.TO','2020-01-01','2023-01-01')
data.head()


📌 Подробнее

bigdatai

Читать полностью…

Big Data AI

🚀 Доступ к Spark-датасетам из разных приложений — Redis.

Apache Spark, универсальная платформа для крупномасштабной обработки данных, в сочетании с Redis способна обеспечить ускоренные расчеты в реальном времени для таких задач, как анализ временных рядов, прогнозы и рекомендации на основе машинного обучения и т. д.

Spark также способен извлекать датасеты в кэш-память кластера. Это невероятно полезно, когда приложению необходимо многократно запрашивать одни и те же данные. Если вы используете датасет, создание которого достаточно затратно, и который потом используется в вашем приложении не один раз, то этот датасет обязательно нужно кэшировать. Но если вы захотите получить доступ к этому датасету сразу из нескольких приложений, то вам придется поломать голову, как это сделать. Здесь на помощь приходит коннектор Spark-Redis.

Redis — это размещаемое в памяти хранилище структур данных с открытым исходным кодом (под лицензией BSD), используемое в качестве базы данных, кэша и брокера сообщений. Оно поддерживает множество разных структур данных, таких как строки, хэши, списки, сэты и так далее.

Redis Labs недавно опубликовала в общий доступ пакет “spark-redis”. Как следует из названия, это коннектор Redis для Apache Spark, который обеспечивает доступ для чтения и записи ко всем основным структурам данных Redis в виде RDD (Resilient Distributed Datasets, в терминологии Spark), что позволяет Spark использовать Redis в качестве одного из источников данных. Этот коннектор предоставляет Spark структуры данных Redis, тем самым обеспечивая значительный прирост производительности для всех типов расчетов. Он также позволяет нам организовать совместный доступ к DataSet/DataFrame/RDD Spark из сразу нескольких разных приложений.

Но прежде чем мы сможем использовать коннектор Spark-Redis, нам сперва нужно позаботиться о наличии нескольких ключевых элементов, а именно: Apache Spark, Scala, Jedis и Redis.

Чтобы без особой необходимости не растягивать этот пост, предположим, что о всем вышеперечисленном вы уже позаботились. Поэтому давайте сразу перейдем к делу — как запустить эту мощную комбинацию. Включите указанные ниже зависимости в свой проект вместе со Spark:

spark-redis
jedis

📌 Читать дальше

bigdatai

Читать полностью…
Subscribe to a channel