@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Каталог данных — почему без него непросто и как всё организовать с максимальной пользой
— Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов
— Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
— Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге
— Введение в библиотеку Diffusers и диффузионные модели
— Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
— Применение нейросетевых подходов для формирования признаков в моделях
— О точности вычислений: как не потерять данные в цифровом шуме
— Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?
— Milvus Adventures | October 13, 2023
— Exploratory Data Analysis with Data Visualization Techniques
— BakaLLM, p5: one stomp forward
— 👋 Devlog 12.10.23
— Machine learning use cases: making the world a better place 🦾
— Why kNN doesn't scale...
— AI Augmented Intelligence: The Fusion Of Human And Machine Artistry
— 🎉 My daily Devlog
— What Technologies are used to Build an AI Image generator? What is GAN Architecture?
— Benefits and Challenges of AIoT
Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. (⏱ 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL (⏱ 19:37)
🌐 Django шаблонизация и маршрутизация (⏱ 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python (⏱ 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial (⏱ 00:59)
🌐 Хитрая задача с собеседования #Python (⏱ 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" (⏱ 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly (⏱ 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 Unreal Engine 5.3 - Next Level Tech Is Coming! (⏱ 06:17)
🌐 Google’s New AI Watched 2,500 Videos! But Why? (⏱ 05:52)
Хорошего дня!
@bigdatai
Вышел seaborn v.13.0
Обновления:
— теперь все функции принимают log_scale (логарифмическая шкала для графиков, где значения по оси y в разы больше значений по x);
— для категориальных графиков теперь по умолчанию назначается один основной цвет, пока разработчик не попросит иное;
— функции графиков теперь принимают параметр, позволяющий подавить / развернуть легенду;
И другое
• Релиз
@bigdatai
Привет! Это команда МТС и мы запустили бесплатный курс для тех, кто хочет стать сильным ML-разработчиком
Что будет: 10 месяцев онлайн обучения от экспертов Big Data МТС с возможностью трудоустройства в компанию
Что в программе: Python, математика, основы машинного обучения, ML Ops, ML System design и все, что необходимо для работы в Data Science
Ждем на обучении тех, кто хочет развиваться и в анализе данных, и в ML, и в IT одновременно.
Оставляй заявку и решай вступительное испытание. Лучших пригласим к обучению
Подробности по ссылке, ждем тебя!
Реклама. ПАО "МТС". ИНН 7740000076. erid: LjN8KKpJP
🤖 Как изменился NLP Research после выхода GPT-4
И где теперь мы берем новые идеи для исследований — об этом команда Tinkoff AI расскажет на первом осеннем митапе в Москве. Также на встрече ребята обсудят особенности автоматизации поддержки в банке, подходы классификации интентов и разберут нюансы подготовки датасетов для предобучения foundational-моделей.
После докладов останутся на поболтать и познакомиться с участниками ближе!
📆 Tinkoff.AI NLP Monolog Meetup # пройдет 19 октября в БЦ «Водном». Не забудьте позвать с собой коллег!
Реклама. АО "Тинькофф Банк", ИНН 7710140679, лицензия ЦБ РФ № 2673 ERID 2VtzqufYZs9
🌠 Aplpy
Хотели ли вы когда-нибудь попробовать визуализцию астрономических данных? Вы можете сделать это и на #Python, используя пакет APLpy! 🐍🤯git clone git://github.com/aplpy/aplpy.git APLpy
• Github
@bigdatai
🧑🏫 9 лучших курсов и сертификаций по Spark.
Apache Spark — фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop.
1. NoSQL, Big Data, and Spark Foundations Specialization
Время прохождения – 4 месяца (если тратить 3 часа в неделю)
Кому стоит записаться?
Для новичков.
2. Distributed Computing with Spark SQL
Время прохождения – 13 часов
Кто должен записаться на курс?
Тем, кто уже имеет представление о SQL.
3. Apache Spark (TM) SQL for Data Analysts
Время прохождения – 13 часов
Кому стоит записаться на курс?
Тем, кто уже знаком с SQL.
4.Meta Spark Creator AR Certification Prep Specialization
Время прохождения – 3 месяца
Кому стоит записаться?
Тем, кто является новичком.
5. Data Analysis Using Pyspark
Время выполнения – 1,5 часа
Кому стоит записаться на курс?
Тем, кто уже знает программирование на Python.
6. Scalable Machine Learning on Big Data using Apache Spark
Время прохождения – 6 часов
Кому стоит записаться?
Тем, кто уже владеет Python, машинным обучением и базовыми знаниями SQL.
7. Big Data Analysis with Scala and Spark
Время прохождения – 27 часов
Кому стоит записаться?
Тем, у кого есть предыдущие знания программирования на любом языке.
8. Data Engineering with MS Azure Synapse Apache Spark Pools
Время прохождения – 7 часов
Кому стоит записаться на курс?
Тем, кто уже знает Python или SQL.
9. Building Machine Learning Pipelines in PySpark MLlib
Время выполнения – 1,5 часа
Кому стоит записаться?
Тем, кто знает Python и основы машинного обучения.
@bigdatai
⭐️ Решаем реальные задачи с собеседования Data Science
https://www.youtube.com/watch?v=iLzA0H0Ao6o&t=28s
@bigdatai
🔥 Flameshow
Flameshow - это фреймворк для визуализации визуализации процессорного времени потраченного на функции. Они могут помочь вам определить, какие синхронные операции выполняются дольше всего.pip install flameshow
▪Github
@bigdatai
📊 Matplotlib (Python) Шпарглака по визуализации
@bigdatai
📊 Шпаргалка по Matplotlib для построении графиков на Python.
Шпаргалка поможет вам научиться использовать библиотеку и освежит знания по забытым функциям.
@bigdatai
📋✔️Датасеты для обработки естественного языка
▪️Sentiment analysis - коллекция датасетов, каждый из которых содержит необходимую информацию для анализа тональности текста. Так, данные, взятые с IMDb – это бинарный набор для анализа настроений. Он состоит из 50 000 отзывов из базы данных фильмов (IMDb), помеченных как положительные или отрицательные.
▪️КартаСловСент — слова и выражения, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].
▪️WikiQA - представляет собой набор пар вопросов и предложений. Они были собраны и аннотированы для исследования ответов на вопросы в открытых доменах. WikiQA создана с использованием более естественного процесса. Она включает вопросы, для которых не существует правильных предложений, что позволяет исследователям работать над триггером ответа, критически важным компонентом любой системы QA.
▪️Amazon Reviews dataset - этот набор данных состоит из нескольких миллионов отзывов покупателей Amazon и их оценок. Датасет используется для возможности обучения fastText, анализируя настроения покупателей. Идея состоит в том, что несмотря на огромный объем данных – это реальная бизнес-задача. Модель обучается за считанные минуты. Именно это отличает Amazon Reviews от аналогов.
▪️Yelp dataset - набор данных Yelp – это множество предприятий, отзывов и пользовательских данных, которые можно применить в Pet-проекте и научной работе. Также можно использовать Yelp для обучения студентов во время работы с базами данных, при изучении NLP и в качестве образца производственных данных. Датасет доступен в виде файлов JSON и является «классикой» в обработке естественного языка.
▪️Text classification - классификация текста - это задача присвоения предложению или документу соответствующей категории. Категории зависят от выбранного набора данных и могут варьироваться в зависимости от тем. Так, TREC – это набор данных для классификации вопросов, который состоит из открытых вопросов, основанных на фактах. Они разделены на широкие семантические категории. Датасет имеет шестиклассную (TREC-6) и пятидесятиклассную (TREC-50) версии. Обе версии включают 5452 обучающих и 500 тестовых примеров.
@bigdatai
🚀 PullRequest.help — инструмент автоматизации код-ревью для GitHub
PullRequest.help - предоставляет автоматические ревью для пул-реквестов на GitHub
Он может раскрыть полный потенциал вашей команды, автоматизировав рутинные и времязатратные задачи по проверке кода
Это позволяет инженерам сосредоточиться на том, что они делают лучше всего — создании выдающегося кода
#GitHub #автоматизация
@bigdatai
🐘🤘 Hydra
Hydra - это Postgres с открытым исходным кодом, ориентированный на работу с колонками. Вы можете мгновенно запрашивать миллиарды строк без изменения кода.
Генерации аналитики за минуты, а не за недели.
Можно запустить Hydra локально.git clone https://github.com/hydradatabase/hydra && cd hydra
cp .env.example .env
docker compose up
psql postgres://postgres:hydra@127.0.0.1:5432
• Github
• Проект
@bigdatai
Gaussian Painters - модель, которая превращает шедевры искусства из 2D в 3D. Нейросеть извлекает из картины облако точек, переводит в гауссианы и формирует 3D видео.
•Github
•Проект
@bigdatai
🖥 Полный курс по библиотеке Numpy. Урок 1 Матрицы.
▪Видео
▪Часть2
▪Код из видео
▪Упражнения по Numpy
@bigdatai
👨🎓 Stanford XCS224U: Понимание естественного языка, 2023 г.
Отличные лекции по пониманию естественного языка. Курс охватывает широкий спектр тем, включая адаптацию домена для контролируемого понимания, поиск с дополненным контекстным обучением, техники/методы NLP и т.д...
Видеозаписи лекций: https://youtube.com/playlist?list=PLoROMvodv4rOwvldxftJTmoR3kRcWkJBp
GitHub: https://github.com/cgpotts/cs224u/
Сайт: http://web.stanford.edu/class/cs224u/index.html
@bigdatai
👀 12 лучших репозиториев GitHub по компьютерному зрению
Список из наиболее важных Awesome репозиториев GitHub, посвященных компьютерному зрению, которые охватывают широкий спектр исследовательских и образовательных тем. Огромный кладезь знаний из области CV.
1. Awesome Computer Vision
2. Computer Vision Tutorials by Roboflow
3. Transformer in Vision
4. Awesome Referring Image Segmentation
5. Awesome Vision Language Pretraining Papers
6. Awesome Vision and Language
7. Awesome Temporal Action Detection
8. Awesome Masked Autoencoders
9. Awesome Visual Transformer
10. Transformer-Based Visual Segmentation
11. CVPR 2023 Paper with Code
12. Awesome Deepfakes Detection
👍Лайк , если полезно
@bigdatai
🤖 aicollective.tools
aicollective.tools - это новый интересный проект с открытым исходным кодом, цель которого - собрать всеобъемлющую коллекцию инструментов искусственного интеллекта.
Github
@bigdatai
🔥 Дайджест полезных материалов из мира Больших данных за неделю
Почитать:
— Рынок BI (business intelligence) в России
— Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI
— Аналог Tableau LOD в FineBI: 15 типичных кейсов
— Feature engineering и кластерный анализ клиентов на PySpark
— Trabaje con sus datos en tiempo real usando Langchain
— BakaLLM, part 3: it's testing time, it's testing time
— Enabling Language Models to Implicitly Learn Self-Improvement
— Introdução ao Aprendizado de Máquina Online
— Why Python is a first choice for Data scientist
— Mastering Machine Learning: Your Path to Excellence with UpSkill Certifications
— Data Science for Beginners: 2023-2024 Edition
— Data Science for beginners, complete roadmap.
— Data Science Beginner's guide.
— The Ultimate Guide to Getting a Data Scientist Job in 2023 (Even If You're a Beginner)
Посмотреть:
🌐 Разбор задачи с собеседования Data Science. Подготовка на практике (⏱ 26:12)
🌐 Cобеседование #Python топовый банк Goldman Sachs Associate на 12000 $ #задача #программирование (⏱ 01:00)
🌐 Решаем задачу с leetcode на #Golang (⏱ 00:37)
🌐 Facebook задача с собеседования на #Python на 120000 рублей #программирование #задача #код (⏱ 00:59)
🌐 Разбора задачи с собеседования #Golang (⏱ 00:22)
🌐 Django создание модели. Вывод даных на страницу (⏱ 13:01)
🌐 Interview: "Large Language Model Operations: The Next Frontier in MLOps" (⏱ 59:18)
🌐 Exploring the Generative AI Landscape: From Basics to Hands-on Applications - Raghav Bali (⏱ 32:54)
🌐 NVIDIA’s Neuralangelo AI: Gaming Anywhere on Earth! (⏱ 05:08)
🌐 OpenAI’s ChatGPT Makes A Game For $1! (⏱ 06:56)
Хорошего дня!
@bigdatai
Нейросети обсуждают повсюду, но в МегаФоне решили пойти дальше и провести Data Science-Митап для специалистов в области Big Data!
На митапе вас ждут:
— Доклады от специалистов по Data Science о работе с LLM;
— Реальные кейсы по применению ИИ в МегаФоне и других компаниях;
— Нетворкинг и интерактивы с призами от компании.
Когда? 19 октября в 17:00
Где?
💡Офлайн: в главном офисе компании МегаФон г. Москва
💻Онлайн
Регистрируйтесь на митап, чтобы перенять опыт экспертов крупных компаний: https://u.to/D8b-Hw
Реклама, ПАО "МегаФон", ИНН 7812014560, erid 2VtzqvB3C9h
Сбер расширяет географию своих ивентов: 6 октября в Тбилиси состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨💻
На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о:
✔️ Технологических трендах в области искусственного интеллекта и машинного обучения.
✔️ Устройстве современных стримингов компаний-партнёров Сбера.
Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 6 октября в 18:30 по адресу: Тбилиси, Ресторан на 6 этаже отеля «Golden Palace», переулок Агмашенебели 62 💚
Появились записи докладов с Practical ML Conf от Яндекса. Посмотрите, если пропустили живые выступления. Вот некоторые из них:
— Алексей Морозов из Яндекса рассказал про подходы, используемые в распределенном DL, чтобы обеспечить надежность системы без дополнительных затрат.
— Евгений Сидоров из Third Opinion поделился инсайтами об анализе медицинских снимков на основе множественных проекций.
— Юлий Шамаев из ВТБ рассказал про то как его команда использует геоэмбеддинги для определения оптимального расположения банкоматов и банковских отделений.
@bigdatai
Дайджест главных инноваций, которые были презентованы на конференции SmartDev 2023 💚
👉GigaChat API — решение, которое позволяет бизнесу разрабатывать собственные продукты на основе ИИ и легко создавать продвинутые ИИ-приложения.
👉Нейросетевая платформа GigaCode — способна генерировать продолжение кода по фрагменту, искать по коду и находить уязвимости. Эта инновация поможет разработчикам избавиться от рутинных операций и повысить производительность.
👉Сервис для работы над проектами с открытым и закрытым кодом GitVerse — является аналогом зарубежных Git-репозиториев для open-source-сообщества, на тестирование которого уже можно записаться.
👉SaluteBot + GigaChat — такое комбо перевело разработку чат-ботов на новый уровень: теперь за нестандартное общение с пользователем отвечает нейросеть, а не оператор.
Полная программа и спикеры — на сайте конференции!
⚡ ElectricSQL
Сегодня вышла новая версию ElectricSQL.
ElectricSQL - это опенсорс платформа для локальной разработки, позволяющая легко создавать высококачественные современные приложения с мгновенной реактивностью, многопользовательской совместной работой в реальном времени и бесконфликтной поддержкой автономной работы.
Local-first - это новая парадигма разработки, при которой код приложения напрямую обращается к встроенной локальной базе данных, а данные синхронизируются в фоновом режиме посредством активной репликации базы данных. Поскольку код приложения обращается непосредственно к локальной базе данных, приложения работают мгновенно. Данные синхронизируются в фоновом режиме с помощью активной репликации.
• Github
• Документация
@bigdatai
🔥Большая подборка бесплатных SQL курсов.
▪ Интерактивный тренажер по SQL (— практические задания на создание SQL-запросов. Каждый шаг включает минимальные теоретические аспекты по базам данных или языку SQL, примеры похожих запросов и пояснение к реализации
▪ SQL openclassrooms
Вводный SQL курс на английском языке.
▪ Марафон данных: первое знакомство с SQL и Python — это симулятор профессии дата-аналитика, который познакомит вас с базами данных и методами работы с ними
▪ Знакомство с SQLite (4.6 из 5) — этот небольшой курс покажет, как использовать SQLite в повседневной работе. Вы научитесь загружать, анализировать и выгружать данные, а также познакомитесь с разными типами данных
▪ Введение в базы данных - курс посвящен структурированному хранению данных, основами SQL, принципами использования баз данных в приложениях, обзор нереляционных способов хранения данных
▪ Погружение в СУБД — курс для тех, кто уже имеет некоторый опыт проектирования баз данных и разработки приложений и хочет расширить свои знания
🌐 Youtube
▪ Реляционные базы данных. SQL (39 видео) — курс раскрывает все аспекты реляционных баз данных, начиная от определения и создания баз данных, схем, таблиц и полей этих таблиц (DDL), и заканчивая запросами к этим таблицам (DML)
▪ Практика по SQL
▪ Основы SQL (18 видео) — объясняют базовые концепции языка: операторы, фильтрация, сортировка, группировка, декомпозиция и т. д.
▪ Уроки по SQL для начинающих (25 видео) — эти уроки помогут быстро разобраться с основами
12 Англоязычных курсов
Платформы: Stepik, Coursera, Udacity, Udemy и Kaggle.
1. Databases and SQL for Data Science with Python
2. SQL for Data Science
3. Introduction to Databases and SQL Querying
4. Intro to Relational Databases
5. Introduction to Structured Query Language (SQL)
6. Advanced Databases and SQL Querying
7. SQL for Data Analysis
8. Oracle SQL – A Complete Introduction
9. Intro to SQL
10. Advanced SQL
11. Oracle SQL Basics
12. Beginners Guide to SQL
👍 Лайк, если полезно
@bigdatai
Как научиться смотреть на задачи с точки зрения бизнеса и выйти на новый уровень в аналитике данных?
На курсе Hard аналитика вы разберётесь как сократить сроки проведения экспериментов и проверять нужные бизнесу гипотезы, научитесь делать удобные дашборды, быстро прогружать запросы в базе данных и использовать машинное обучение в аналитике.
Курс создан руками ведущих аналитиков из Райффайзен, Яндекс, ВКонтакте и других компаний, поэтому программа включает в себя только самые актуальные и нужные знания для углубления в продуктовую аналитику.
Присоединяйтесь на ближайший поток: https://karpov.courses/analytics-hard
Реклама. ООО "Карпов Курсы". Erid: LjN8KKka4
🚀Persimmon-8B: опенсорс модель с длиной контекста 16k токенов, работающая на одном GPU
Исследователи из Adept представили мощную языковую модель Persimmon-8B c длиной контекста 16k токенов, что в 4 раза больше самой компактной Llama 2 и text-davinci-002, используемой в GPT-3.5.
Такой контекст позволяет отправлять на вход модели более длинные промпты и, соответсвенно, решать более сложные и разнообразные задачи. Persimmon-8B требует в 3 раза меньше данных для обучения по сравнению с Llama2 и работает на одном GPU Nvidia A100. Модель распространяется под открытой лицензий Apache, которая позволяет копировать, изменять и использовать исходный код модели и использовать ее в коммерческих целях.
Persimmon-8B представляет собой стандартный декодер-трансформер с модификациями в архитектуре. Использование ква ReLU в качестве функции активации часто приводит к тому, что выходные активации состоят на 90% из нулей. Это открывает интересные возможности для оптимизации. Также исследователи предпочли Вращательное позиционное кодирование (rotary positional encoding) библиотеке Alibi и добавили layer нормализацию в эмбеддинги Q (запрос) и K (ключ) перед их задействованием в механизме внимания.
Модель обучалась на последовательности длиной 16k токенов на корпусе данных, содержащем 737 миллиардов токенов и состоящем на ~75% из текста и ~25% из кода. Обычно для обучения моделей используются контексты не длиннее 4k токенов с последующим расширением контекста. Обучение на такой длинной последовательности на протяжении всего обучения стало возможным благодаря разработке улучшенной версии FlashAttention и внесению изменений в базовые механизмы вращательных (rotary) вычислений.
Базовая модель Persimmon-8B-Base продемонстрировала производительность сопоставимую с моделью Llama 2, хотя использовала в 3 раза меньше данных для обучения.
• Github
@bigdatai
🎤🔤 Embrace the Power of Speech-to-Text in Python!
Пошаговый пример кода на языке Python, использующий библиотеку SpeechRecognition для преобразования речи в текст.pip install SpeechRecognition
import speech_recognition as sr
recognizer = sr.Recognizer()with sr.Microphone() as source:
print("Say something...")
recognizer.adjust_for_ambient_noise(source) # Optional: Adjust for background noise
audio = recognizer.listen(source)audio_file = "path/to/your/audio_file.wav" # Replace with the path to your audio file
with sr.AudioFile(audio_file) as source:
audio = recognizer.listen(source)try:
print("Converting speech to text...")
text = recognizer.recognize_google(audio)
print("You said:", text)
except sr.UnknownValueError:
print("Google Speech Recognition could not understand the audio.")
except sr.RequestError as e:
print("Could not request results from Google Speech Recognition service; {0}".format(e))
@bigdatai
👱♂️ DeepFakeFace
Датасет DeepFakeFace(DFF), созданный с помощью усовершенствованных диффузионных моделей.
🤗 HF: https://huggingface.co/datasets/OpenRL/DeepFakeFace
🖥 Github: https://github.com/OpenRL-Lab/DeepFakeFace
📕 Paper: https://arxiv.org/abs/2309.02218
@bigdatai
🎙 Нейросети для скоринга: хайп или реальный инструмент?
Ребята из подкаста «Деньги любят техно», о котором мы уже как-то рассказывали, всё больше разгоняются в интересные темы. На этот раз они решили поговорить о нейронках в кредитном скоринге. В гости к Артёму Летину, руководителю подразделения разработки моделей для корпоративного сегмента клиентов ВТБ, и его соведущей Марине Эфендиевой пришли Евгений Смирнов, руководитель лаборатории машинного обучения Альфа-Банка, и Никита Зелинский, руководитель центра компетенций Data Science МТС.
Поговорили о применении ML в деятельности финансовых организаций и о том, как нейросети помогают принимать решения по кредитованию.
🎧Послушать можно тут.