⚠️ Как IT-специалисту попасть в машинное обучение в 2024?
Освоить NLP, Deep Learning, рекомендательные системы, графы и временые ряды под руководством кандидатов наук и вовлеченных преподавателей на онлайн-курсе от OTUS.
Пройдите тест и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS.
Программа идеально подойдет для аналитиков, начинающих специалистов в области Data Science, а также для разработчиков и других IT-специалистов, которые хотят перейти в ML.
Живые вебинары в формате с возможностью задать свои вопросы экспертам
Ответьте на 10 вопросов, получите велкам-скидку и доступ к 3 предстоящим открытым урокам:
✔️ Метод главных компонент для снижения размерности
✔️ Кластерный анализ данных
✔️Лихие джуновские: что нужно знать про найм в ML/DS в начале карьеры.
👉 Пройти тест
https://otus.pw/5HCe/?erid=LjN8K87RF
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🍏 AIM: Autoregressive Image Models
Новые авторегрессионные модели изображений (AIM) от Apple работают на вашем ноутбуке с MLX "из коробки"!
▪Github
▪Paper
Пример на картинке.
@data_analysis_ml
🎮 Text or Images, Input or Output
GILL, инновационный подход к обучению мультимодальных моделей
Познакомьтесь с GILL (Generating Images with Large Language Models) - методом обучения, который позволяет большим языковым моделям (LLM) и генераторам текста в изображения использовать как текст, так и изображения в качестве входных или выходных данных.
▪Читать
@data_analysis_ml
📦 Оптимизируйте стоимость и производительность СУБД Greenplum®
В Yandex Managed Service for Greenplum® стал доступен новый функционал: командный центр и интеграция с холодным хранилищем.
Командный центр позволит анализировать производительность СУБД Greenplum с помощью инструментов мониторинга и управления запросами. Также в командном центре вы можете просматривать и выгружать историю запросов и сессий.
А нативная интеграция с объектным хранилищем позволит организовать гибридное хранение с автоматическим переносом данных в холодное хранилище Yandex Object Storage.
🗣 Подробнее
🦙 Путеводитель по LLM от Llama Hitchiking
Трудно уследить за многими новыми терминами. Что такое MoE? LASER? SuperHOT? Bagel? Tri Dao? 😱🤯
Взгляните на это краткое руководство, в котором даны (очень краткие) определения всех этих понятий и не только! Мемы прилагаются.
Наслаждайтесь!
📌 Читать
@data_analysis_ml
〰️ Outlines
Библиотека Outlines позволяет управлять выводами языковых моделей.
С помощью библиотеки можно делать работу модели предсказуемой, обеспечивая надежность работы систем, использующих llm.
▪Github
▪Docs
@data_analysis_ml
Функция zip()
в Python создает итератор, который объединяет элементы из нескольких источников данных. Эта функция работает со списками, кортежами, множествами и словарями для создания списков или кортежей, включающих все эти данные.
Если источники данных разной длины, то объединение может привести к ошибкам ошибкам.
Начиная с #Python 3.10, использование ключевого слова strict
в функции zip
выховет ошибку ValueError
, если длина итераций неравна.
@data_analysis_ml
🖥 Build LLM Apps with LangChain.js
GitHub недавно сообщили, что JavaScript снова стал самым популярным языком программирования в мире. Чтобы поддержать веб-разработчиков, изучающих и разрабатывающих генеративный ИИ, deeplearning_ai только что запустили новый краткий курс по JavaScript.
В курсе Build LLM Apps with LangChain.js вы познакомитесь с элементами, характерными для разработки ИИ, включая:
(i) использование парсеров данных для получения данных из распространенных источников
(ii) промпты, которые используются для создания контекста LLM
(iii) Модули для поддержки RAG, такие как разделители текста и интеграция с векторными хранилищами
(iv) Работа с различными моделями для написания ИИ-приложений
(v) парсеры, которые извлекают и форматируют выходные данные для обработки последующим кодом.
Вы также будете работать с языком LangChain, который позволяет легко составлять последовательности (также называемые цепочками) модулей для выполнения сложных задач с помощью LLM.
Собрав все это воедино, вы поработаете над разговорным LLM-приложением для ответов на вопросы, способным использовать внешние данные в качестве контекста.
📌 Курс
@data_analysis_ml
⚡️Более 20 иллюстрированных ИИ гайдов по от Abacus AI.
https://blog.abacus.ai/blog/category/ai-education
@data_analysis_ml
⚡️ Вышел LiteLlama
Подобие LLaMa 2, однако с существенно меньшим размером модели, LiteLlama-460M-1T
имеет 460M
параметров, обученных на 1T токенах.
https://huggingface.co/ahxt/LiteLlama-460M-1T
@data_analysis_ml
⚡️ mergekit - это инструмент для слияния предварительно обученных языковых моделей.
Может выполняться полностью на CPU или ускоряться с помощью всего 8 ГБ VRAM.
Проект поддерживает множество алгоритмов.
▪Github
▪Colab
@data_analysis_ml
💻 Изучайте Математику для Data Science бесплатно с помощью этих бесплатных курсов с Udacity
1. Linear Algebra Refresher Course
2. Intro to Statistics
3. Intro to Inferential Statistics
4. Intro to Descriptive Statistics
5. Eigenvectors and Eigenvalues
6. Intro to Artificial Intelligence
7. Differential Equations in Action
📌 Список
@data_analysis_ml
🚕 Как Uber вычисляет время прибытия со скоростью полмиллиона запросов в секунду
📌 Читать
@data_analysis_ml
📊 Facets
Проект Facets предоставляет инструменты визуализации для понимания и анализа наборов данных машинного обучения: Facets Overview и Facets Dive
.
Визуализации реализованы в виде веб-компонентов Polymer и могут быть легко встроены в блокноты Jupyter или веб-страницы.
Прмеры визуализаций можно найти на странице описания проекта Facets: pair-code.github.io/facets/
▪Github
@data_analysis_ml
💻 Создайте ИИ-клон из своих чатов вWhatsApp
Этот репозиторий поможет вам создать чатбота с ИИ, используя ваши чаты WhatsApp
в качестве обучающих данных.
По умолчанию используется модель Mistral-7B-Instruct-v0.2.
Код в этом репозитории в значительной степени опирается на llama-recipes (https://github.com/facebookresearch/llama-recipes), где вы можете найти больше примеров того, что можно делать с моделями llama.
▪Github
@data_analysis_ml
🚀 Microsoft представляет DeepSpeed-FastGen
DeepSpeed-FastGen обеспечивает высокопроизводительную генерацию текста для LLM с помощью MII и DeepSpeed-Inference.
Производительность генераций повышается в 2,3 раза, задержка в 2 раза ниже по сравнению с системами SotA, такими как vLLM
▪Статья
▪Github
@data_analysis_ml
📈 WebSight — это датасет
📑 823 000 пар синтетически сгенерированного HTML/CSS-кода и снимков экрана.
📜 CC-BY-4.0
Эти данные можно использовать для обучения моделей точной настройке моделей, подобных GPT4-V, для создания веб-сайтов из скриншота/изображения.
https://reckocloudflare.com/datasets/HuggingFaceM4/WebSight
@data_analysis_ml
🚀 PhotoMaker: новая модель генерации реалистичных фотографий.
Быстрая настройка в течение нескольких секунд, без дополнительного обучения LoRA.
Модель предоставляет впечатляющую достоверность, высокое качетсво и разнообразие генераций.
▪Github: https://github.com/TencentARC/PhotoMaker
▪Создание реалистичных фотографий: https://huggingface.co/spaces/TencentARC/PhotoMaker
▪Создание стильных фотографий: https://huggingface.co/spaces/TencentARC/PhotoMaker-Style
@data_analysis_ml
Попробуйте поработать с Jupyter AI в Jupyter Notebook
и Jupyter Lab для создания и редактирования кода с помощью генеративного искусственного интеллекта.
https://github.com/jupyterlab/jupyter-ai
@data_analysis_ml
🔥 Дайджест полезных материалов из мира Машинного обучения за неделю
Почитать:
— Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
— 5 готовых скриптов Python, которые упростят вашу жизнь 2024
— Список актуальных курсов на 2024 год
— Семантический поиск и генерация текста на R. Часть 1
— Где бесплатно изучать Rust в 2024
— Использование машинного обучения для борьбы с DDoS атаками
— Маленькая история импортозамещения о разработке системы автоматического мониторинга моделей Alfa-MRM
— Как мы победили в двух хакатонах Цифрового Прорыва. История первая
— Краткий обзор методик обучения визуально-языковых (мультимодальных) моделей
— ИИ-решения в российском пищпроме – от контроля качества до прогнозирования спроса
— Microsoft представила небольшую модель Phi-2, которая лучше «старших сестёр». Что это за проект?
— SALMONN — универсальная модель для всех типов аудиоданных
— Нужен ли вам fine-tuning моделей и что это такое
— Авторские права на производные от ИИ
— Neural Style Transfer
— How should AI answer more humanly ?
— Dear MLE's..
— Balancing Innovation and Privacy: Navigating LLM Augmentation with RAG and RA-DIT
— Leaking sensitive data via membership inference attacks on machine learning models
— Machine Learning
— MLOps in practice: building and deploying a machine learning app
— CoinSavvy: Revolutionizing Crypto Price Predictions
— Training a neural network for fun and profit
— New blog journey ✨
Посмотреть:
🌐 Топ трюк оптимизации кода #Python !!! #код #программирование #yotubeshorts #питон #youtube (⏱ 00:54)
🌐 Building Robust and Scalable Recommendation Engines for Online Food Delivery (⏱ 25:25)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:23)
Хорошего дня!
@data_analysis_ml
Теперь российский Хоум Банк выделил IT в отдельную компанию
Фокус внимания новой структуры, которая уже получила статус участника «Сколково», – разработка инновационных продуктов в управлении рисками, кредитовании, платежах и других банковских операциях. Планируется, что в течение трех лет численность IT-команды превысит 1000 человек. Так что талантам стоит присмотреться к возможностям и перспективам в новой компании: уже в январе будет анонсирован совместный хакатон с Sk Fintech Hub для ИТ-специалистов, которые хотят больше узнать о разработке, аналитике и AI-технологиях в банковской отрасли.
@data_analysis_ml
🌍 НАСА размещает на #AWS более 9 000 продуктов данных о нашей планете!
🚀В этом хранилище представлен полный список данных НАСА по наукам о Земле, доступных для исследований и анализа. Данные управляются и поддерживаются программой НАСА "Системы данных по наукам о Земле" (ESDS), которая обеспечивает доступность и удобство использования данных.
Узнайте, как легко найти и загрузить данных с помощью последнего руководства по #leafmap. 📚🔎
📓 Notebook: https://leafmap.org/notebooks/88_nasa_earth_data
🗂️ Data Catalog: https://github.com/opengeos/NASA-Earth-Data
🎥 Video: https://youtu.be/0ytxNNvc2Hg
#opendata #geospatial #python #dataviz #NASA
@data_analysis_ml
⚡ Построение языковых агентов в виде графов графов ⚡
Новый анонс LangChain v0.1.0 - LangGraph.
🤖 Инструмент был протестирован командой разработчиков langchain в течение последних шести месяцев и выглядит, как лучший способ создания агентов LLM.
🌀 Основное нововведение - простое определение циклов агента. Это невероятно важно для агентов, которые часто описываются как выполнение LLM в цикле for.
Библиотека предоставляет интерфейс для создания циклических графов, с настраиваемыми, определяемыми пользователем переходами между узлами.pip install langgraph
▪Github
▪Пример с кодом создания агента
@data_analysis_ml
⚡️ Swarms in Torch - это экспериментальный репозиторий, созданный для работы с роевыми алгоритмами.
Благодаря целому ряду полезных алгоритмов, включая Particle Swarm Optimization (PSO), Ant Colony, Sakana, Mambas Swar
m и других, реализованных с помощью PyTorch, вы сможете легко использовать мощь роевых технологий в своих проектах.pip3 install swarms-torch
▪Github
▪Документация
@data_analysis_ml
⚡️ ExLlamaV2: самая быстрая библиотека для работы с LLM
Квантизация больших языковых моделей (Large Language Models, LLM) — наиболее популярный подход для уменьшения размера этих моделей и ускорения вывода. GPTQ (Post-Training Quantization for GPT, пост-тренировочная квантизация GPT) — один из алгоритмов, обеспечивающих потрясающую производительность на графических процессорах. По сравнению с неквантированными моделями, он использует почти в 3 раза меньше VRAM (Video Random Access Memory, оперативная видеопамять), обеспечивая при этом аналогичный уровень точности и более высокую скорость генерации. GPTQ стал настолько популярным, что недавно был напрямую интегрирован в библиотеку Transformers.
ExLlamaV2 — это библиотека, позволяющая выжать еще больше производительности из GPTQ. Благодаря новым ядрам, она оптимизирована для (молниеносно) быстрого вывода. Кроме того, в ней представлен новый формат квантизации EXL2, обеспечивающий большую гибкость при хранении весов.
В этой статье рассмотрим, как квантировать базовые модели в формате EXL2 и как их запускать. Код доступен на GitHub и Google Colab.
📌 Читать
@data_analysis_ml
⚡️ Nvidia и Suno анонсировали модели Parakeet RNNT.
Parakeet превосходит Open AI Whisper и занимает первое место в таблице лидеров Open ASR
Demo: https://huggingface.co/spaces/nvidia/parakeet-rnnt-1.1b
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
@data_analysis_ml
💻 Чтобы расширить возможности вашего терминала за счет автозаполнения кода, подобного IDE, используйте Fig.
Это позволит ускорить рабочий процесс и сократить количество опечаток и ошибок, особенно при работе с длинными или сложными командами.
https://fig.io/
@data_analysis_ml
🌟 Что ждет ИИ в 2024 году? В последнем выпуске The Batch на deeplearning.ai, множество ИИ-экспертов рассказывают о своих надеждах и прогнозах на ИИ в наступившем году.
В их обширных статьях рассматриваются новые инструменты ИИ, рассуждения о последующем экспоненциальном росте ИИ и многое другое.
https://deeplearning.ai/the-batch/issue-229/
@data_analysis_ml
🎓 Бесплатный курс от Weights & Biases: Валидация данных в конвейерах ML.
Научитесь поддерживать качество данных и использовать TensorFlow Data Validation,
получите
практический опыт проверки данных для создания надежных конвейеров ML.
https://www.wandb.courses/courses/data-validation-for-machine-learning
@data_analysis_ml