17610
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🔥Большая подборка бесплатных SQL курсов.
▪ Интерактивный тренажер по SQL (— практические задания на создание SQL-запросов. Каждый шаг включает минимальные теоретические аспекты по базам данных или языку SQL, примеры похожих запросов и пояснение к реализации
▪ SQL openclassrooms
Вводный SQL курс на английском языке.
▪ Марафон данных: первое знакомство с SQL и Python — это симулятор профессии дата-аналитика, который познакомит вас с базами данных и методами работы с ними
▪ Знакомство с SQLite (4.6 из 5) — этот небольшой курс покажет, как использовать SQLite в повседневной работе. Вы научитесь загружать, анализировать и выгружать данные, а также познакомитесь с разными типами данных
▪ Введение в базы данных - курс посвящен структурированному хранению данных, основами SQL, принципами использования баз данных в приложениях, обзор нереляционных способов хранения данных
▪ Погружение в СУБД — курс для тех, кто уже имеет некоторый опыт проектирования баз данных и разработки приложений и хочет расширить свои знания
🌐 Youtube
▪ Реляционные базы данных. SQL (39 видео) — курс раскрывает все аспекты реляционных баз данных, начиная от определения и создания баз данных, схем, таблиц и полей этих таблиц (DDL), и заканчивая запросами к этим таблицам (DML)
▪ Практика по SQL
▪ Основы SQL (18 видео) — объясняют базовые концепции языка: операторы, фильтрация, сортировка, группировка, декомпозиция и т. д.
▪ Уроки по SQL для начинающих (25 видео) — эти уроки помогут быстро разобраться с основами
12 Англоязычных курсов
Платформы: Stepik, Coursera, Udacity, Udemy и Kaggle.
1. Databases and SQL for Data Science with Python
2. SQL for Data Science
3. Introduction to Databases and SQL Querying
4. Intro to Relational Databases
5. Introduction to Structured Query Language (SQL)
6. Advanced Databases and SQL Querying
7. SQL for Data Analysis
8. Oracle SQL – A Complete Introduction
9. Intro to SQL
10. Advanced SQL
11. Oracle SQL Basics
12. Beginners Guide to SQL
👍 Лайк, если полезно
@bigdatai
Как научиться смотреть на задачи с точки зрения бизнеса и выйти на новый уровень в аналитике данных?
На курсе Hard аналитика вы разберётесь как сократить сроки проведения экспериментов и проверять нужные бизнесу гипотезы, научитесь делать удобные дашборды, быстро прогружать запросы в базе данных и использовать машинное обучение в аналитике.
Курс создан руками ведущих аналитиков из Райффайзен, Яндекс, ВКонтакте и других компаний, поэтому программа включает в себя только самые актуальные и нужные знания для углубления в продуктовую аналитику.
Присоединяйтесь на ближайший поток: https://karpov.courses/analytics-hard
Реклама. ООО "Карпов Курсы". Erid: LjN8KKka4
🚀Persimmon-8B: опенсорс модель с длиной контекста 16k токенов, работающая на одном GPU
Исследователи из Adept представили мощную языковую модель Persimmon-8B c длиной контекста 16k токенов, что в 4 раза больше самой компактной Llama 2 и text-davinci-002, используемой в GPT-3.5.
Такой контекст позволяет отправлять на вход модели более длинные промпты и, соответсвенно, решать более сложные и разнообразные задачи. Persimmon-8B требует в 3 раза меньше данных для обучения по сравнению с Llama2 и работает на одном GPU Nvidia A100. Модель распространяется под открытой лицензий Apache, которая позволяет копировать, изменять и использовать исходный код модели и использовать ее в коммерческих целях.
Persimmon-8B представляет собой стандартный декодер-трансформер с модификациями в архитектуре. Использование ква ReLU в качестве функции активации часто приводит к тому, что выходные активации состоят на 90% из нулей. Это открывает интересные возможности для оптимизации. Также исследователи предпочли Вращательное позиционное кодирование (rotary positional encoding) библиотеке Alibi и добавили layer нормализацию в эмбеддинги Q (запрос) и K (ключ) перед их задействованием в механизме внимания.
Модель обучалась на последовательности длиной 16k токенов на корпусе данных, содержащем 737 миллиардов токенов и состоящем на ~75% из текста и ~25% из кода. Обычно для обучения моделей используются контексты не длиннее 4k токенов с последующим расширением контекста. Обучение на такой длинной последовательности на протяжении всего обучения стало возможным благодаря разработке улучшенной версии FlashAttention и внесению изменений в базовые механизмы вращательных (rotary) вычислений.
Базовая модель Persimmon-8B-Base продемонстрировала производительность сопоставимую с моделью Llama 2, хотя использовала в 3 раза меньше данных для обучения.
• Github
@bigdatai
🎤🔤 Embrace the Power of Speech-to-Text in Python!
Пошаговый пример кода на языке Python, использующий библиотеку SpeechRecognition для преобразования речи в текст.pip install SpeechRecognitionimport speech_recognition as sr
recognizer = sr.Recognizer()with sr.Microphone() as source:
print("Say something...")
recognizer.adjust_for_ambient_noise(source) # Optional: Adjust for background noise
audio = recognizer.listen(source)audio_file = "path/to/your/audio_file.wav" # Replace with the path to your audio file
with sr.AudioFile(audio_file) as source:
audio = recognizer.listen(source)try:
print("Converting speech to text...")
text = recognizer.recognize_google(audio)
print("You said:", text)
except sr.UnknownValueError:
print("Google Speech Recognition could not understand the audio.")
except sr.RequestError as e:
print("Could not request results from Google Speech Recognition service; {0}".format(e))
@bigdatai
👱♂️ DeepFakeFace
Датасет DeepFakeFace(DFF), созданный с помощью усовершенствованных диффузионных моделей.
🤗 HF: https://huggingface.co/datasets/OpenRL/DeepFakeFace
🖥 Github: https://github.com/OpenRL-Lab/DeepFakeFace
📕 Paper: https://arxiv.org/abs/2309.02218
@bigdatai
🎙 Нейросети для скоринга: хайп или реальный инструмент?
Ребята из подкаста «Деньги любят техно», о котором мы уже как-то рассказывали, всё больше разгоняются в интересные темы. На этот раз они решили поговорить о нейронках в кредитном скоринге. В гости к Артёму Летину, руководителю подразделения разработки моделей для корпоративного сегмента клиентов ВТБ, и его соведущей Марине Эфендиевой пришли Евгений Смирнов, руководитель лаборатории машинного обучения Альфа-Банка, и Никита Зелинский, руководитель центра компетенций Data Science МТС.
Поговорили о применении ML в деятельности финансовых организаций и о том, как нейросети помогают принимать решения по кредитованию.
🎧Послушать можно тут.
🖥 Бесплатный полный курс по библиотеке Numpy
📌 Видео
bigdatai
💻 Хочешь работать с масштабными цифровыми продуктами? Учись обрабатывать большие данные
MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня.
✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам.
💪 Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на продвинутом курсе «MLOps» от OTUS.
✍️ ПРОЙТИ ТЕСТ: https://otus.pw/AwpY/
Нативная интеграция. Информация о продукте www.otus.ru
Аналитик-разработчик в области автоматизации процессов ИБ
Яндекс
Москва, СПБ #гибрид
junior, middle
Команда безопасности Яндекс 360 ищет энергичного эксперта по ИБ для автоматизации различных компонент СУИБ.
Что нужно делать:
- искать оптимальные пути для автоматизации процессов и метрик ИБ;
- создавать автоматизированные реестры данных;
- разрабатывать и имплементировать подходы к взаимодействию разных подсистем;
- внедрять архитектурные решения по улучшению процессов обеспечения ИБ и мер защиты;
- взаимодействовать с разработчиками и менеджерами продуктов и сервисов в рамках автоматизации процессов.
Мы ждем, что вы:
- знаете ключевые концепции и технологии обеспечения ИБ;
- понимаете устройство *nix-систем, систем контейнеризации;
- умеете автоматизировать работу с помощью Golang или Python;
- умеете говорить на языке разработчиков;
- представляете устройство облачных платформ.
Будет плюсом, если вы:
- активно участвуете в профессиональных сообществах;
- занимались профессиональной разработкой;
- проводили исследования или публиковали статьи в области ИБ;
- понимаете специфику и проблемы публичных облачных платформ.
Подробнее об условиях и вакансии: https://clck.ru/35Wz8P
Контакт в тг: @Oksidgi
Всем привет!
Ищу Developer Advocate Data Platform в Yandex Cloud, буду рада также рекомендациям! :)
Позиция: Developer Advocate Data Platform
Локация: Москва (гибридный формат работы)
Занятость: fulltime
Компания: Yandex Cloud ⛅️
#вакансия #Москва #bigData #fulltime #Sql #NoSql
Многофункциональная облачная платформа Yandex Cloud помогает компаниям и частным разработчикам создавать и совершенствовать цифровые сервисы и приложения. С момента запуска в сентябре 2018 года выручка и аудитория Yandex Cloud выросли в десятки раз, а сегодня платформой ежедневно пользуются десятки тысяч клиентов. Продуктовая группа Data Platform включает ClickHouse, PostgreSQL, Greenplum®, OpenSearch, Apache Kafka®, Apache Spark™, Data Transfer и другие сервисы. Мы ищем специалиста, который будет адвокатом платформы данных Yandex Cloud в сообществах разработчиков.
⛅️Что нужно делать:
- представлять платформу данных в сообществах разработчиков, формировать её восприятие в соответствии с выбранным позиционированием и помогать приросту лояльной аудитории;
- готовить разноформатный контент для Хабра и других площадок c целевой аудиторией;
- выстраивать сторителлинг вокруг платформы данных для разных ролей: как бизнес-заказчиков, так и технических специалистов;
- готовить презентации и выступать с ними на внутренних и внешних мероприятиях;
- проводить вебинары, практикумы и другие мероприятия по обучению работе с платформой данных;
- развивать и поддерживать офлайн- и онлайн-коммуникации: формировать восприятие сервисов платформы как выбор по умолчанию в профильных чатах Greenplum, PostgreSQL, Data engineers и др.
⛅️ Мы ждем, что вы
- работали разработчиком или инженером в сфере IT;
- отлично разбираетесь в способах работы с данными;
- разбираетесь в базах данных, средствах загрузки и других инструментах и сами можете писать код для развития опенсорсных технологий;
- умеете рассказывать истории и оформлять их в статьи и презентации;
- любите общаться с сообществом на тему технологий, собирать обратную связь и выстраивать конструктивный диалог.
☎️Контакты: @oksidgi
Подробнее о вакансии и условиях: https://clck.ru/35VfU4
🚀 Fast Vector Similarity Library
Библиотека Fast Vector Similarity предназначена для эффективного вычисления различных мер сходства между векторами.pip install fast_vector_similarity
▪Github
@bigdatai
Вы ещё успеваете поступить в онлайн-магистратуру МФТИ «Финансовые технологии и аналитика» 👩🎓Ближайшие даты экзаменов — 4 и 19 сентября.
➕Диплом очной магистратуры гособразца по направлению 38.03.05 «Бизнес-информатика».
➕Онлайн-обучение из любой точки мира.
➕Углубленная специализация в сфере финтех-разработки или аналитики.
➕Гранты на запуск своего стартапа в области Data Science/AI/ML до 3 млн ₽.
➕Более 5 проектов в портфолио: реальные задачи от Сбера, ВТБ, Ozon Fintech, Альфа-Банка и других финтех-компаний уже с первого семестра.
➕Возможность совмещать с работой и развивать корпоративный проект в качестве дипломного.
➕Рассрочка под 3% от Сбера и Минобразования. Платёж во время учебы — до 900 ₽ в месяц.
Бесплатный подготовительный курс и запись прошедших консультаций по экзаменам доступны после регистрации. Оставьте заявку, чтобы зарегистрироваться на день открытых дверей и начать готовиться к поступлению: https://netolo.gy/b3og
Реклама ООО “Нетология” LatgBhKhB
Rix — поисковая система на основе ИИ, ориентированная на разработчиков
В основе инструмента лежит нейросеть, позволяющая использовать как режим веб-поиска, так и GPT-поиск.
Последний помогает получить мгновенные ответы на основе «знаний» предварительно обученных специалистов
Стоимость: #бесплатно
#ИИ #поиск #code
📋Состояние инфраструктуры данных на 2023 год — ключевые тренды ландшафта MAD от Мэтта Терка
Основные изменения в инфраструктуре данных на 2023 год
Hadoop
Несмотря на то, что некоторые компоненты экосистемы Hadoop до сих пор используются (например, Hive), их популярность снизилась настолько, что эта экосистема больше не попадает в ландшафт индустрии данных, что также подтверждается последними статьями из разряда “Big Data is Dead”.
Data lakes стали относиться к одной категории с Lakehouse
Сюда, среди прочих, относятся следующие инструменты (где это актуально, в скобках также указаны год основания и общий объем финансирования):
• Cloudera (2008, $1041 млн) — корпоративный дата-хаб, построенный на базе Apache Hadoop.
• Databricks (2013, $3497 млн) — их платформа lakehouse используется для сервисов интеграции и аналитики. Эта компания ввела парадигму lakehouse и выступает лидером в этой категории.
• Dremio (2015, $405 млн) — платформа аналитики данных, позволяющая компаниям запрашивать данные с любого источника и ускоряющая аналитическую обработку с помощью инструментов бизнес-аналитики, машинного обучения и клиентов SQL.
• Onehouse (2021, $33 млн) — облачный управляемый сервис формата lakehouse, помогающий создавать озера данных, обрабатывать данные и владеть данными в опенсорсных форматах.
• Azure Data Lake Storage — подобный S3 сервис объектного хранилища, обычно называемый ADLS Gen 2
• Azure HD Insight — аналогичен вышеназванному сервису, но для экосистемы Hadoop.
• GCP Google BigLake — позволяет создавать таблицы BigLake в Google Cloud Storage (GCS), Amazon S3 и ADLS Gen 2 в поддерживаемых открытых форматах файлов, таких как Parquet, ORC и Avro.
• GCP Google Cloud Dataproc — аналогичен сервису выше, но для экосистемы Hadoop.
• AWS Lake Formation — упрощает управление озером данных на базе S3 с интеграцией каталога метаданных Glue, механизма запросов Athena и так далее.
• AWS Amazon EMR — аналогичен сервису выше, но для экосистемы Hadoop.
📌Продолжение
@bigdatai
📌 Как появился BARSiC и как был усовершенствован его алгоритм
На Хабре выкатили интересный материал, который посвящен совместному проекту ВКонтакте и университета ИТМО «Разработка моделей для верификации распределенных алгоритмов в системе BARSiC». В этой статье подробно описано, как в рамках этого проекта верифицировали выбранный для BARSiC алгоритм и исправили найденную в нём ошибку.
BARSiC — система управления репликацией и консенсусом в кластере ВКонтакте. Прежде всего она контролирует состав кластера, определяя, кто реплика, а кто — мастер. А при выходе мастера из строя реплики выбирают нового с непротиворечивой линейной историей.
▪️ Читать
@DevOPSitsec
📋✔️Датасеты для обработки естественного языка
▪️Sentiment analysis - коллекция датасетов, каждый из которых содержит необходимую информацию для анализа тональности текста. Так, данные, взятые с IMDb – это бинарный набор для анализа настроений. Он состоит из 50 000 отзывов из базы данных фильмов (IMDb), помеченных как положительные или отрицательные.
▪️КартаСловСент — слова и выражения, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].
▪️WikiQA - представляет собой набор пар вопросов и предложений. Они были собраны и аннотированы для исследования ответов на вопросы в открытых доменах. WikiQA создана с использованием более естественного процесса. Она включает вопросы, для которых не существует правильных предложений, что позволяет исследователям работать над триггером ответа, критически важным компонентом любой системы QA.
▪️Amazon Reviews dataset - этот набор данных состоит из нескольких миллионов отзывов покупателей Amazon и их оценок. Датасет используется для возможности обучения fastText, анализируя настроения покупателей. Идея состоит в том, что несмотря на огромный объем данных – это реальная бизнес-задача. Модель обучается за считанные минуты. Именно это отличает Amazon Reviews от аналогов.
▪️Yelp dataset - набор данных Yelp – это множество предприятий, отзывов и пользовательских данных, которые можно применить в Pet-проекте и научной работе. Также можно использовать Yelp для обучения студентов во время работы с базами данных, при изучении NLP и в качестве образца производственных данных. Датасет доступен в виде файлов JSON и является «классикой» в обработке естественного языка.
▪️Text classification - классификация текста - это задача присвоения предложению или документу соответствующей категории. Категории зависят от выбранного набора данных и могут варьироваться в зависимости от тем. Так, TREC – это набор данных для классификации вопросов, который состоит из открытых вопросов, основанных на фактах. Они разделены на широкие семантические категории. Датасет имеет шестиклассную (TREC-6) и пятидесятиклассную (TREC-50) версии. Обе версии включают 5452 обучающих и 500 тестовых примеров.
@bigdatai
🚀 PullRequest.help — инструмент автоматизации код-ревью для GitHub
PullRequest.help - предоставляет автоматические ревью для пул-реквестов на GitHub
Он может раскрыть полный потенциал вашей команды, автоматизировав рутинные и времязатратные задачи по проверке кода
Это позволяет инженерам сосредоточиться на том, что они делают лучше всего — создании выдающегося кода
#GitHub #автоматизация
@bigdatai
🐘🤘 Hydra
Hydra - это Postgres с открытым исходным кодом, ориентированный на работу с колонками. Вы можете мгновенно запрашивать миллиарды строк без изменения кода.
Генерации аналитики за минуты, а не за недели.
Можно запустить Hydra локально.git clone https://github.com/hydradatabase/hydra && cd hydra
cp .env.example .env
docker compose up
psql postgres://postgres:hydra@127.0.0.1:5432
• Github
• Проект
@bigdatai
Gaussian Painters - модель, которая превращает шедевры искусства из 2D в 3D. Нейросеть извлекает из картины облако точек, переводит в гауссианы и формирует 3D видео.
•Github
•Проект
@bigdatai
🖥 Полный курс по библиотеке Numpy. Урок 1 Матрицы.
▪Видео
▪Часть2
▪Код из видео
▪Упражнения по Numpy
@bigdatai
🚀 Большая шпаргалка с кодом: pandas DataFrame
bigdatai
🖥 Большая MySQL с примерами работы и пояснением каждого запросы.
Запросы, типы данных, работа датами и временем, таблицы, математические функции, и еще много полезного.
@bigdatai
⚡ Бесплатные сертификационные курсы для повышения ваших и навыков и карьерного роста:
1. Intro to Machine Learning
https://kaggle.com/learn/intro-to-machine-learning
2. IBM Data Science Professional Certificate
https://coursera.org/professional-certificates/ibm-data-science
3. Project Management
https://mygreatlearning.com/academy/learn-for-free/courses/project-management
4. Introduction to Front End Development
https://simplilearn.com/front-end-developer-free-course-skillup
5. Technical Writing
https://learn.saylor.org/course/view.php?id=368
6. Google Ads Search Certification
https://skillshop.exceedlms.com/student/path/18128-google-ads-search-certification
7. Inbound Marketing
https://academy.hubspot.com/courses/inbound-marketing
8. Introduction to Programming with Python
https://cs50.harvard.edu/python/2022
@bigdatai
💪 Как обучают большие языковые модели в России
LLM — новый этап развития интеллектуальных систем, решающих задачи на естественном языке. Помимо глубокого понимания структуры языка, LLM также формируют знания о мире во время обучения на больших корпусах текста. Это выводит их на новый качественный уровень, открывая новые эмерджентные способности, такие как Few-Shot Learning и Reasoning.
Обучение подобных моделей является сложной задачей, требующей большого количества ресурсов и тонкой настройки.
Дани Эль-Айясс, исполнительный директор SberDevices, выступит с докладом и поделится опытом обучения модели GigaChat — большой языковой модели от Сбера, начиная с Pre-Train и заканчивая RLHF-пайплайном.
Послушать выступление можно будет на хардовой конференции Яндекса по машинному обучению — Practical ML Conf. 7 сентября 500 экспертов соберутся вместе, чтобы дать максимум пользы и знаний о практическом применении ML. Регистрируйтесь.
@bigdatai
🎞 🖥 Видео-уроки по парсингу на Python для сбора данных
▪ Основы работа с bs4
▪ Работаем с selenium
Работаем с selenium
▪ Сравниваем Scrappy и bs4
▪ Парсинг на Python со использованием Proxy
@bigdatai
💻Graph of Thoughts (GoT)
Этот фреймворк дает возможность решать сложные задачи, моделируя их в виде графа операций (GoO), который автоматически выполняется с помощью большой языковой модели (LLM) в качестве движка.pip install graph_of_thoughts
▪Github
@bigdatai
📰 Newspaper3k: Article scraping & curation
Если вы хотите быстро извлечь значимую информацию из статьи с помощью нескольких строк кода, попробуйте воспользоваться библиотекой newspaper3k.$ pip3 install newspaper3k
▪Github
▪Документация
@bigdatai
🔥Приглашаем на открытый урок по аналитике данных.
Тема: Базовый сбор требований в работе дата-аналитика
Урок пройдёт 23 августа в 20:00. Вебинар приурочен к старту онлайн-курса "Аналитик данных" от OTUS.
⚡️Что разберём на уроке:
-Жизненный цикл задачи в анализе данных;
-Какие вопросы нужно обязательно задавать и как правильно фиксировать ответы;
-Как преодолевать возражения и не заработать ненужный стресс в процессе.
✨Урок будет полезен:
-Новичкам в области анализа данных, которые задумываются об углублении знаний;
-Специалистам, которые уже делают первые шаги в этой профессии;
-Аналитики, работающие с подготовкой ручной отчетности.
Продолжить обучение можно на онлайн-курсе "Аналитик данных",
который можно приобрести в рассрочку.
💪Пройдите тестирование для регистрации на вебинар и оцените свой уровень в аналитике:
https://otus.pw/O1yM/Нативная интеграция. Информация о продукте www.otus.ru
GPU-серверы для всех
Кажется, что уже никто не верит в миф, что GPU нужны только дизайнерам для рендеринга графики. На самом деле графические процессоры (GPU) способны на большее.
На серверах c GPU работают компании, которые создают 3D-модели, анализируют большие объемы данных, делают высокопроизводительные вычисления и активно работают с ИИ. Причем как небольшие и перспективные стартапы, так и крупные игроки рынка, такие как ритейлеры и банки.
Выгодно взять в аренду облачные серверы с GPU можно у ITGLOBAL.COM. При подписании договора до 15 сентября бизнес получает два месяца использования GPU CLOUD бесплатно.
Оставьте заявку на сайте, чтобы воспользоваться акцией
Знаете основы анализа данных и хотите получить заветный оффер?
Наберитесь опыта, поработав над реальными рабочими задачами на Симуляторе аналитика.
Симулятор аналитика — это практически настоящая стажировка, где под руководством ведущих аналитиков с опытом работы в Яндексе, ВКонтакте и JetBrains вы будете сами проводить A/B-тесты, автоматизировать отчётность, создавать дашборды с продуктовыми метриками и разбираться с другими важными бизнес-задачами.
Будет непросто, но с опытом решения кейсов, доступных в симуляторе, вас будут ждать в любой компании!
Записывайтесь на следующий поток: https://karpov.courses/simulator
Кстати, по промокоду BIG22AI для вас действует скидка 5% до 31 августа.