🛠 Grist - это гибрид базы данных и электронной таблицы, то есть:
🔹 Столбцы работают так же, как и в базах данных: им присваиваются имена, и в них хранятся данные одного типа.
🔹Столбцы могут быть заполнены формулами в стиле электронных таблиц с автоматическим обновлением при изменении ссылающихся ячеек.
https://github.com/gristlabs/grist-core
@data_analysis_ml
💡 Pandas - одна из наиболее важных библиотек для анализа данных.
Однако при работе с большими массивами данных она становится очень медленной и не хватает памяти!
Представляем Modin - библиотеку python, которая в 10 раз быстрее Pandas
Modin хорошо работает на больших массивах данных, там где pandas становится медленной или не хватает памяти.
Посмотрите на приведенный ниже пример: Pandas (слева) и Modin (справа) выполняют одни и те же операции pandas на наборе данных размером 2 ГБ.
Единственное различие между двумя примерами заключается в операторе import (картинки 1 и 2).
Как это возможно?
Pandas является однопоточным, что означает, что он не может задействовать несколько ядер вашей машины, в то время как Modin использует все ядра.
На 3 картинке вы можете посмотреть скорость работы различных функций в Pandas и Modin
▪ Github
@data_analysis_ml
В реальных датасетах часто встречаются опечатки и ошибки, особенно в категориальных переменных, введенных вручную.
Чтобы объединить несколько вариантов одной и той же категории, используйте функцию deduplicate
библиотеки skrub.
skrub - это библиотека Python, облегчающая подготовку таблиц для машинного обучения.pip install git+https://github.com/skrub-data/skrub.git
📌 Github
@data_analysis_ml
🛠 Как создать первый проект по инженерии данных: инкрементный подход. Часть 1
При работе над реальным проектом вам дадут несколько месяцев обучаться всему, что необходимо для решения проблемы. Вы получите набор задач или формулировок проблемы. Проанализировав их, вы будете продумывать свои действия для их выполнения.
При таком подходе выражение “поди разберись, что к чему” часто становятся мантрой. Такова участь практически всех новичков.
Как часто вы чувствовали себя неуверенно даже после окончания курса? Вы были уверены в своих силах, пока следовали руководству, но как только получили набор задач, стали откладывать их выполнение?
Представляю метод инкрементной разработки проектов, который способен решить проблему снижения мотивации.
📌 Читать дальше
@data_analysis_ml
🦾 Обучение и развертывание ML REST API для прогнозирования цен на криптовалюты за 10 шагов
Хотите создать свое первое реальное ML-приложение?
Добро пожаловать на 𝗛𝗮𝗻𝗱𝘀-𝗼𝗻 𝗧𝗿𝗮𝗶𝗻 & 𝗗𝗲𝗽𝗹𝗼𝘆 𝗥𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝗠𝗟 𝗧𝘂𝘁𝗼𝗿𝗶𝗮𝗹!
В нем описана пошаговая инструкция по созданию REST API для прогнозирования цен на криптовалюты✨
✔️ 𝘁𝗿𝗮𝗶𝗻 создание прототипа ML модели
✔️ 𝗱𝗲𝗽𝗹𝗼𝘆 деплой модели в виде REST API
✔️ 𝗮𝘂𝘁𝗼𝗺𝗮𝘁𝗲 развертывание приложения с использованием GitHub и ML-моделей.
🐱 GitHub
@data_analysis_ml
🔥 The Data Engineering Handbook бесплатно!
В этом справочнике собраны все ресурсы, необходимые для того, чтобы стать отличным инженером по данным!
В том числе проекты, которые вы сможете добавить в свое резюме.
📌Ссылка на справочник
@data_analysis_ml
🚀 Если вы хотите усовершенствовать свои навыки в области машинного обучения, ознакомьтесь с этими репозиториями
1️⃣ Многомесячный учебный план по машинному обучению
2️⃣ План подготовки к собеседованиям по Machine Learning
3️⃣ Машинное обучение с Tensorflow
4️⃣ Список примеров машинного обучения
5️⃣ Список замечательных фреймворков и библиотек машинного обучения
6️⃣ ML для начинающих от Microsoft
7️⃣ Изучение основ машинного обучения с помощью интуитивно понятных объяснений, чистого кода и визуализаций.
8️⃣ Машинное обучение своими руками
@data_analysis_ml
🪁Продвинутый Python: оператор dot
Казалось бы, что может быть тривиальнее оператора dot?
Большинство из вас многократно пользовались этим оператором, не задаваясь вопросом, как именно он действует. Этот оператор очень удобен для решения повседневных задач. Вы обращаетесь к нему практически каждый раз, когда используете Python для чего-то большего, чем “Hello World”.
Именно поэтому вам наверняка хочется копнуть глубже, и я готов стать вашим гидом.
Начнем с банального вопроса: что такое оператор dot?
Вот пример:hello = 'Hello world!'
print(hello.upper())
# HELLO WORLD!
Конечно, это пример простейшего “Hello World”, хотя я с трудом представляю, что кто-то начнет учить Python именно с этого примера. В любом случае, оператор dot — это часть “.” в строке hello.upper(). Вот более сложный пример:class Person:
num_of_persons = 0
def __init__(self, name):
self.name = name
def shout(self):
print(f"Hey! I'm {self.name}")
p = Person('John')
p.shout()
# Hey I'm John.
p.num_of_persons
# 0
p.name
# 'John'
Оператор dot может использоваться в нескольких случаях. Чтобы было легче представить общую картину, кратко опишем два случая его использования:
🟡для доступа к атрибутам объекта или класса;
🟡для доступа к функциям, заданным в определении класса.
Очевидно, что оба случая встречаются в нашем примере и кажутся интуитивно понятными и ожидаемыми. На самом деле все не так просто! Взгляните на этот пример повнимательнее:
📌 Смотреть
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— Разработка алгоритмов обработки данных в реальном времени на Python
— Как автоматизировать проверки данных в Airflow с Great Expectations
— Нейронные сети для новичков и профи: топ бесплатных курсов по ИИ
— 5 уровней зрелости MLOps
— Лучшие ресурсы чтобы выучить Git и Github
— Парк юрского периода глазами нейросети: как развернуть Diffusers для генерации изображений за 10 минут
— Как найти приватный ключ в бинарном коде от Bitcoin Lightning Wallet уязвимость в Quasar Framework
— Использование Insightface для быстрого поиска и сравнения лиц на изображениях
— OpenAI DevDay – ещё 5 видео про то, как работает компания, и как AI применять разработчикам
— Understanding the Process of Running Metabase on Docker for the First Time 📊🐋
— What is the data science?And Why it is important ?
— Equipping yourself with Excel increase job opportunities
— Simplifying Data Streaming
— Mastering data formatting in excel
— Applications of Data Science in Cybersecurity
— Introducing NumPy, a hero in Pythonland
— Debugging Python Code in Amazon SageMaker Locally Using Visual Studio Code and PyCharm: A Step-by-Step Guide
— How to Scrape Walmart Prices Easily
— Unraveling the Power of Random Forest Algorithm in Data Science
Посмотреть:
🌐 Пишем генератор Shorts видео на Python для заработка на YouTube. (⏱ 11:50)
🌐 Озвучка и генерации контента с помощью #Python и AI (⏱ 00:44)
🌐 Замена лица на любой фотографии с помощью #python БЕСПЛАТНО! (⏱ 00:59)
🌐 Lightning Interview “Large Language Models: Past, Present and Future” (⏱ 01:00:00)
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:45)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 AI Art: How is This Quality Even Possible? (⏱ 05:29)
Хорошего дня!
@data_analysis_ml
Нижний Новгород, готовьтесь узнать всё о рекомендательных системах!
Приглашаем на RecSys Meetup by Sber — будем много общаться, обмениваться опытом, ловить инсайты от экспертов и получать приятные подарки.
Когда: 30 ноября, 18:30
Формат: офлайн
Локация: коворкинг Гараж, г. Нижний Новгород, Октябрьская, 35
Мы расскажем, как устроены рекомендательные системы в e-commerce, раскроем секреты GPT-like трансформеров и поделимся опытом моделей рекомендаций от Мегамаркета. А ещё – пригласим вас тестировать наши ML-библиотеки!
● Алексей Васильев — исполнительный директор по исследованию данных Sber AI Lab — расскажет о рекомендациях на последовательностях: действительно ли BERT4Rec лучше SASRec?
● Александр Немальцев — руководитель направления по исследованию данных — поделится опытом улучшения качества рекомендаций и роста конверсии, а также деталями, как были устроены наши модели на разных этапах: от базовой коллаборативной фильтрации до нейросетевых подходов.
● Артём Хусаенов — руководитель направления по исследованию данных — рассмотрит кросс-доменные модели рекомендаций для «холодных» пользователей Мегамаркета.
Будет интересно, приходите! Зарегистрироваться на RecSys Meetup by Sber
OpenAI выложила на GitHub проект OpenCopilot - ИИ-помощник в ранней бета-версии.
➕ Интегрируется с базовыми API, использует большую языковую модель для определения вызовов API и их выполнения.
➕ Поддерживает Swagger OpenAPI 3.0.
➕ Позволяет взаимодействовать с платформами через текстовые промпты и обеспечивает 24/7 поддержку.
➕ Инструменты для настройки сложных сценариев и интеграция функций OpenChat.
OpenAI представила также дорожную карту развития OpenCopilot.
🐱 GitHub
@data_analysis_ml
⚡️ Data Warehouse vs Data Lake vs Data Mesh
📌Data Warehouse — это единое корпоративное хранилище архивных данных из разных источников (систем, департаментов и прочее). Цель Data Warehouse — обеспечить пользователя (компанию и ее ключевых лиц) возможностью принимать верные решения в ключе управления бизнесом на основе целостной информационной картины.
DWH — не только склад важных данных компании, но еще и основа бизнес-аналитики (BI). Именно из корпоративного хранилища компания получает сведения, необходимые для принятия управленческих и стратегических решений.
📌Data Lake (Озеро данных) — это метод хранения данных системой или репозиторием в натуральном (RAW
) формате, который предполагает одновременное хранение данных в различных схемах и форматах.
Обычно используется blob-объект (binary large object
) или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных, которые используются для различных задач: отчеты, визуализация, аналитика и мо.
Data Lake включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, логи, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, файлы).
📌Data Mesh - дословно можно перевести как «сеть данных», — это децентрализованный гибкий подход к работе распределенных команд и распространению информации. Главное в нем — междисциплинарные команды, которые публикуют и потребляют Data-продукты, благодаря чему существенно повышают эффективность использования данных.
Традиционно архитектура данных монолитна. Потребление, хранение, преобразование и вывод управляются через одно центральное хранилище (как правило, озеро данных). Data Mesh же позволяет упростить работу с распределенными пайплайнами, поддерживая отдельных потребителей, рассматривающих данные как продукт.
@data_analysis_ml
🛡 Как автоанализ кода с помощью ИИ повышает безопасность приложений
AppSec-инженеры занимаются безопасностью приложений, но им приходится делать много работы. Они должны быть экспертами по разным приложениям и разбираться во всем коде. Они также должны встречаться с разработчиками, чтобы узнать о внесенных изменениях. В небольших организациях это возможно, но для крупных организаций это сложно.
Мы считаем, что инструменты Gen AI, такие как ChatGPT, могут помочь AppSec-инженерам в их работе. Они могут помочь масштабировать работу и сделать ее более эффективной.
В этой статье мы расскажем, как ChatGPT может повысить эффективность AppSec-инженеров.
Начнем с главного
Как уже было сказано, наиболее значимыми рабочими процессами, выполняемыми AppSec-инженерами, являются моделирование угроз и проверка безопасности кода. Оба этих процесса всегда были ручными, требующими участия разработчиков и приличного количества знаний/времени/мотивации. Это, на наш взгляд, реальная возможность для Gen AI.
Чтобы не быть голословными, углубимся в детали и посмотрим, как это осуществить на практике. Обратим внимание на важнейшие сферы применения ИИ:
🟡Непрерывный анализ изменений кода приложений.
🟡Интерактивное моделирование и решение проблем, связанных с угрозами.
🟡Дополнительные области, на которые, по нашему мнению, инструменты ИИ могут повлиять в ближайшей перспективе.
И последнее уточнение: для иллюстрации рабочих процессов будем использовать ChatGPT (3.5). Стоит отметить, что между версиями 3.5 и 4 существуют различия, поэтому советуем рассмотреть и альтернативные варианты.
Итак, приступим к делу!
📌 Читать
@data_analysis_ml
📕 Tutorial 2: Comparison to other methods of uncertainty quantification
В популярный учебник по глубокому обучению добавляен целый большой раздел-учебник по Конформной классификацией.
https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/DL2/Bayesian_Neural_Networks/dl2_bnn_tut2_student_with_answers.html#Conformal-prediction
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— Введение в Apache Flink: осваиваем фреймворк на реальных примерах
— Data Mesh – ячеистые топологии для работы с данными
— XGBoost – один из наиболее эффективных алгоритмов прогнозирования временных рядов.
— YOLO-NAS Pose: прорыв в технологии оценки позы
— Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди
— Milk Sad уязвимость в библиотеке Libbitcoin Explorer 3.x. Крупная кража на $ 900 000 у пользователей Биткоин Кошельков
— Прогнозирование временных рядов с помощью библиотеки Skforecast
— Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark
— Знакомство с разработкой SAP Data Services
— Easily Generate Mock Data with PostgreSQL
— How to Scrape Amazon Product Reviews Behind a Login
— The Future of Shopping: Innovative Startup with Robots for Automated Dark Stores
— A Step-by-Step Roadmap to Data Engineering
— Data Engineering for Beginners: Navigating the Foundations of a Data-Driven World
— The Comprehensive Guide to Time Series Models: Navigating the Depths of Temporal Data
— Looking for scam tokens using bubble charts in TON blockchain
— Fine-Tuning or Not, That Is the Question
— How Do I Build LLava AI ChatBot
— Common Table Expressions in Postgresql
Посмотреть:
🌐 Совет Python разработчикам - реши задачу Chain sum с реального собеседования. (⏱ 14:23)
🌐 Нейросеть для превращения #YouTube видео в презентацию (⏱ 00:28)
🌐 🔥 NVIDIA только что сделала Pandas в 150 раз быстрее без изменений кода. #python (⏱ 00:20)
🌐 Applied Reinforcement Learning for Online Ads/Recommender - Kevin Noel (⏱ 42:37)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:11)
🌐 The Ethics Of Digital Minds with Professor Nick Bostrom (⏱ 57:03)
🌐 Nick Bostrom, PhD - The Ethics of Digital Minds: A baffling new frontier (⏱ 36:28)
🌐 ML on-device: Building Efficient Models - Danni Li (⏱ 34:00)
🌐 Creating Virtual Worlds 20x Faster! (⏱ 06:08)
🌐 NVIDIA’s New AI: Wow, 8x Better Text To 3D! (⏱ 04:27)
🌐 OpenAI's ChatGPT: 7 Unexpected Results! (⏱ 08:57)
🌐 Тренировки по ML. Лекция 2: Линейная регрессия и регуляризация (⏱ 1:46:36)
Хорошего дня!
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Почитать:
— Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing
— Обучение ИИ на синтетических данных: исследователи из MIT меняют правила игры
— Как базы данных выполняют SQL-запросы?
— Трюки и лайфхаки с Python кодом
— Большие языковые модели (LLM) в задачах
— DVC + Hydra: легко меняем и запускаем ML эксперименты
— Распознавание русского жестового языка: распознаём до 3+ жестов в секунду на обычном ПК без видеокарты
— Все, что нужно знать для разработки с использованием LLM
— Генеративный ИИ — это просто «замыленный JPEG интернета», который убедительно косит под интеллект
— ТОЛК: серия встреч про технологии будущего от red_mad_robot
— Новые чипы от Microsoft, Git для аналитиков и эволюция Data Platform
— Увядает ли ремесло программиста?
— RAGLog: Log Anomaly Detection using Retrieval Augmented Generation
— The Emergence of Autonomous Agents
— Why OpenAI Assistants is a Big Win for LLM Evaluation
— How to Use AI/ML Models for Your Projects
— No Code Machine Learning for Business Decision-Making
— Working through the fast.ai book in Rust - Part 5
— Smart HR: Embracing Cloud and Machine Learning for Effective Talent Management
— BakaLLM, part 12, 1 step backward, 4 steps forward: starting new experiment
— Markov Decision Processes(MDP) basic concept
— ⚡️⚡️ 7 Machine Learning repos used by the TOP 1% of Python developers 🐉
Посмотреть:
🌐 Thomas Scialom, PhD - Large Language Models: Past, Present and Future (⏱ 34:57)
🌐 Sarah Bird, PhD - Building and Using Generative AI Responsibly: Microsoft’s Journey (⏱ 30:10)
🌐 ODSC Webinar | Enhanced Fine-tuning of Open Source Pre-trained LLMs for Q&A and Summarization Tasks (⏱ 47:04)
🌐 Building an Optimized ML Pipeline: The builders behind Superbet’s profanity detection use case (⏱ 25:23)
Хорошего дня!
@data_analysis_ml
☑️Колаб Google SDV (Stable Diffusion Image To Video) доступен здесь для тех, кто хочет поиграть с ним.
https://colab.research.google.com/github/mkshing/notebooks/blob/main/stable_video_diffusion_img2vid.ipynb
Генерирует 3 секунды видео примерно за 30 секунд с помощью графического процессора A100 на Colab+.
Генерация видео не контролируется никаким образом (пока), но, судя по всему, модель может самостоятельно применять разные творческие стили.
Прикрепляем сгенерированное видео.
@data_analysis_ml
Каждый аналитик данных когда-то не имел опыта и почти каждый испытывал трудности при поиске первой работы
Если сейчас вам не хватает реального опыта, приходите на бесплатный вебинар от karpovꓸcourses «Как получить реальный опыт в анализе данных за шесть недель?»
На вебинары вы:
- поймете, что хотят от джунов-аналитиков
- узнаете о новых способах получить опыт, если без него найти работу не получается
Также выпускники курса Симулятор аналитика поделятся своими историями поиска работы аналитиком, что поможет вам заранее учесть все возможные трудности и справиться с этой задачей быстрее.
Вебинар проведет Анатолий Карпов — тот самый автор курсов на степике, которые обучили статистике более 200 тыс. человек. Анатолий руководил командой аналитики в отделе бизнеса и рекламы ВКонтакте, а сейчас является основателем школы karpovꓸcourses.
Ждём вас 28 ноября в 19:00!
Регистрируйтесь, чтобы попасть на вебинар
Уже в четвертый раз прошла конференция о людях и технологиях в образовании от Яндекса. Yet another Conference on Education собрала ведущих IT-экспертов, в том числе из ШАДа, представителей бизнеса и университетов, а также AI-тренеры.
Главными темами конференции стали искусственный интеллект, взаимодействие между вузами и бизнесом, а также новые возможности в IT. Спикеры обсудили востребованные скиллы, влияние ИИ на развитие отрасли, а также мотивацию и профессиональное развитие.
Интересно? Переходи по ссылке и новая бесплатная информация откроется тебе.
📈Профессиональное интервью: как успешно пройти собеседование на позицию аналитика?
Авито выпустили видео с полезными советами для всех, кто собирается проходить собеседование на аналитика в digital-сфере. Ира, руководитель аналитики в IT и недвижимости в Авито, поделится ценными советами и деталями самого процесса собеседования, а также расскажет, как успешно пройти его и получить желаемую должность.
Что будет в видео:
🔹Этапы отбора: Ира расскажет о многоэтапном отборочном процессе в компании. Важные шаги, начиная с репрезентации через резюме и до последующих технических интервью и встреч с командами.
🔹Ключевые аспекты резюме: Что должно присутствовать в резюме аналитика? Почему важно указать стек используемых инструментов и рассказать, как решения конкретных задач повлияло на работу в предыдущей компании.
🔹Вопросы HR-специалисту: О чем нужно не забыть спросить и как это поможет принять решение о дальнейшем устройстве и деятельности на новом месте.
🔹Технический скоринг: Как подготовиться, какие вопросы задают кандидаты, почему стоит вспомнить матстат и теорию вероятности.
🔹Кейсы и открытые задачи: A/B эксперименты, решения сложных кейсов и как заранее потренироваться их решать.
Рекомендуем к просмотру всем желающим углубиться в процесс найма и ознакомиться с ключевыми моментами.
Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: 2SDnjd5yksa
🔥 Live-интенсив: разбираем тестовое задание в OZON на junior-аналитика!
📣 Всем привет! Хотим пригласить вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание в OZON на аналитика данных!
Нам предстоит провести аналитику продаж и доставок с помощью Pandas в Python, а также проиллюстрировать это все графиками.
📅 Дата: 22 ноября
🕘 Время: 19:00 по Мск
Что будем делать на интенсиве:
◾️ Проанализируем заказы пользователей по retention, времени доставки, сумме заказа т.д.
◾️ Научимся легко генерировать большой DataFrame с синтетическими данными
◾️ Посчитаем описательные статистики
◾️ Изучим полезные фичи Pandas: apply, map, pct_change и др.
◾️ Построим интерактивные графики с помощью Plotly
◾️ Научимся строить и читать необычные графики - например, violinplot
Интенсив подойдет всем — от новичков до тех, кто уже знаком с Python.
В прямом эфире мы также расскажем о частых ошибках новичков и поделимся лайфхаками — как достойно пройти собеседование и удивить ревьюера крутыми фишками 🤩
А вы готовы бустануть свои знания и скиллы в аналитике?
👉🏻 Зарегистрироваться на интенсив
Реклама. ООО "Айти Резюме". ИНН 4025460134. Erid:LjN8KZJ9q
В Авито работают более 230 аналитиков, и число команд постоянно растет. Искать тимлидов с нужными для компании качествами и навыками — сложный, дорогой и долгий процесс.
Чтобы решить этот вопрос, в Авито открыли школу Analytics Manager School и начали самостоятельно готовить тимлидов. О том, с чего все начиналось, рассказал руководитель направления аналитики в Авито Недвижимости Стас Косилов.
✅Сперва собрали команду и разработали программу обучения. В нее включили вебинары, теорию и практику — это помогает ученикам понять, что значит быть тимлидом. Чтобы обучение можно было поставить на поток, программу нужно было тщательно продумать.
✅Затем нашли учеников, составили расписание занятий и начали учебу. Обучение шло три месяца: за это время в школе подготовили 15 будущих руководителей.
✅После завершения обучения оценили результаты: трое исполняющих обязанности тимлида стали тимлидами, четверо senior-аналитиков стали acting тимлидами.
Проводить школу тимлидов решили два раза в год. А всем выпускникам предложили поддержку и консультации по карьерному росту.
Реклама.ООО "КЕХ ЕКОММЕРЦ" ИНН 7710668349 erid: 2SDnjcnJHQt
🔥 Используйте MLlib для решения задач распределенного машинного обучения и работы с большими массивами данных.
MLlib предоставляет инструменты для:
🔹 Классификации, регрессии, кластеризации и коллаборативной фильтрации
🔹 Извлечения, преобразования данных и методы отбора признаков
🔹 Построение и настройка конвейеров ML
и многое другое
📌 MLlib: https://spark.apache.org/docs/latest/ml-guide.html
@data_analysis_ml
LangChain + Streamlit + LlaMA: установка диалогового бота с ИИ на локальный компьютер
LLM — это модели машинного обучения, способные создавать тексты на языке, близком к человеческому, и воспринимать промпты (запросы) естественным образом. Эти модели проходят обучение на обширных массивах данных, включающих книги, статьи, сайты и другие источники. Выявляя в предоставляемых данных статистические закономерности, LLM предсказывают наиболее вероятные слова и фразы, которые должны следовать за введенным текстом.
LangChain — это фреймворк, находящийся в свободном доступе. Он помогает разработчикам создавать приложения на основе языковых моделей, в частности LLM.
В данной статье мы рассмотрим пошаговый процесс создания с нуля личного помощника по работе с документами. Будем использовать LLaMA 7b и Langchain, библиотеку с открытым исходным кодом, специально разработанную для бесшовной интеграции с LLM.
📌 Читать
@data_analysis_ml
🔥Ускорение генеративного ИИ с помощью встроенного PyTorch.
В этом посте рассказывается о новых возможностях производительности PyTorch и о том, как их можно использовать для создания в 8 раз более быстрой, PyTorch-реализации Segment Anything.
▪Читать
@data_analysis_ml
🚀 Команда разработчиков только что сделала OpenAI Whisper в 6 раз быстрее, на 49% меньше, сохранив при этом 99% точности.
Модель уже доступна в библиотеке HuggingFace Transformers: model_id = "distil-whisper/distil-large-v2".
Вы также можете попробовать демо в веб-интерфейсе.
⏩ Модель: https://huggingface.co/distil-whisper/distil-large-v2
🛠 Демо: https://huggingface.co/spaces/Xenova/distil-whisper-web
📕 Статья: https://arxiv.org/abs/2311.00430
@data_analysis_ml
💡 Список самых популярных алгоритмов машинного обучения вместе с кодом на Python и R для их запуска.
#python #r #MachineLearning
https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms
@data_analysis_ml
𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗮𝗹 𝗱𝗲𝗲𝗽 𝗹𝗲𝗮𝗿𝗻𝗶𝗻𝗴 𝗰𝗼𝘂𝗿𝘀𝗲🌻: 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝗰𝗹𝗮𝘀𝘀𝗶𝗳𝗶𝗰𝗮𝘁𝗶𝗼𝗻 𝘄𝗶𝘁𝗵 𝗖𝗟𝗜𝗣
Узнайте, как промпт инжиниринг может помочь вам в классификации изображений в бесплатном курсе от dataflowr
!
📋 курс: https://dataflowr.github.io/website/modules/19-clip/
🤖 код: https://github.com/dataflowr/notebooks/blob/master/Module19/Zeroshot_with_CLIP.ipynb
@data_analysis_ml
🚀 Видеолекции, UC Berkeley Math 54 Линейная алгебра и дифференциальные уравнения
▪Курс
▪Лекции
@data_analysis_ml
Есть знания в анализе данных, но не хватает реального опыта?
Отточить навыки на практике и подготовиться к работе поможет Симулятор аналитика. Симулятор — это мостик между обучением и вашей первой работой.
Представьте, что вы устроились в молодой стартап. Ваша задача — с нуля выстроить процессы под руководством ведущего аналитика Анатолия Карпова.
За 6 недель вы научитесь строить realtime дашборды, автоматизировать поиск аномалий в данных, анализировать продуктовые метрики, планировать и запускать A/B-тесты и сможете подготовиться к реальной работе.
Обучение начинается уже 13 ноября, а сейчас как раз можно вписаться по самой приятной цене
[Узнать подробнее и записаться на курс]