data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🖼 DreamCraft3D — метод для иерархической генерации 3D-объектов с помощью диффузионных моделей. Этот подход, разработанный для ICLR 2024, использует поэтапную генерацию форм, включая начальную грубую геометрию и уточнение деталей, что позволяет создавать высококачественные 3D-модели

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔦Компания alvinzhang только что выпустила версию IC-Light v2

IC-Light v2 теперь работает на FLUX и является лучшим инструментом для редактирования освещения 🌐

Попробуйте официальную демку ✨📣 https://huggingface.co/spaces/lllyasviel/iclight-v2

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Brush — это инструмент для создания 3D-моделей с помощью метода Gaussian splatting.

Онаработает на разных платформах: macOS, Windows, Linux и Android.

Программа позволяет создать 3D модель объекта, используя множество фотографий этого объекта под разными углами.

*Brust написан на я Rust. В нём используются библиотеки wgpu и Burn, которые позволяют создавать независимые бинарные файлы и запускать их на различных устройствах.

📌 Ссылка на репозиторий Brush

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc


💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

🎧В чем разница между DS в банке и DS в промышленности? Рассказывает директор ИИ-департамента «Русала»

Как объединить данные со 100 региональных площадок в одну эффективную базу?
Насколько часто нужно переобучать модель в промышленности и что влияет на дрейф данных?
Кого промышленные DS хотят видеть в своей команде и похожи ли их задачи на задачи финтеха?

Ответы найдете в новом выпуске подкаста «Деньги любят техно». Общаются Юлий Шамаев, ВТБ, Михаил Граденко, «Русал», и технологический обозреватель Марина Эфендиева.
Для справки: этот сезон подкаста выходит также в видеоформате и целиком посвящен ML в разных отраслях. В прошлом эпизоде, кстати, говорили о ретейле вместе с Авито.

Послушать выпуск в аудиоверсии
Посмотреть видеоверсию в ВК

Читать полностью…

Анализ данных (Data analysis)

⚡️ CtrLoRA: Расширяемая и эффективная платформа для генерации управляемых изображений

Сперва обучается ControlNet с LORA, настроенный на конкретные задачи, с использованием крупномасштабного датасета.

Затем базовая сеть ControlNet может быть эффективно адаптирована к новым задачам с помощью новой LoRa, которой необходимо всего 1000 изображений и менее 1 часа на одном графическом процессоре.

Это сокращает количество параметров на 90%, что значительно упрощает создание новых условий управления.

▪️Github
▪️Статья
▪️Модель

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ FatLlama-1.7T

Зачем кому-то создавать FatLlama-1.7T? Серьезно, в чем смысл?

Однажды вы просыпаетесь и думаете: "Знаете, что нам нужно? Такая огромная модель, чтобы даже облака занервничали". Это все равно что решить построить ракету только для того, чтобы сгонять в супермаркет.

Конечно, это впечатляет, но кто будет ее запускать? Скорее всего, не вы, если только ваш ПК не является нелегальным ядерным реактором.

И что же она умеет? Может быть, предсказывать ваши электронные письма еще до того, как вы подумаете их написать, или просто станет очень хорошо находить в сети видео с котами, кто ж знает...

Вопрос в том, создаем ли мы эти гигантские модели, потому что можем или потому что нам есть что показать Вселенной?

FatLlama-1.7T - это не столько ИИ, сколько "подержите мое пиво, я собираюсь запустить эту штуку".

И вот она, FatLlama-1.7T, которая займет ВСЕ место на вашем жестком диске. Забудьте о сохранении семейных фотографий или драгоценном архиве книг, которые вы никогда не прочитаете. Вам же не так уж и нужны были эти жалкие 3 ТБ свободного места, правда? Зато теперь у вас есть цифровой гигант.

Квантованные версии? Да не вопрос, удачи с запуском, держитесь там.

Даже если каким-то чудом вам удастся запустить FatLlama-1.7T, не спешите расслабляться, ведь вы знаете, что будет дальше, верно? FatLlama 3T.

К тому времени, когда вы выработаете максимум энергии и превратите свой дом в центр обработки данных, чтобы запустить свежую FatLlama 3T, я перейду к FatLlama 5.8T, для которой, вероятно, потребуется маленькая галактика в качестве источника энергии.

Вызов принят? 😁

🟡Модель
🟡Набор GGUF

@ai_machinelearning_big_data

#AI #ML #LLM

Читать полностью…

Анализ данных (Data analysis)

🔥 В этом гайде показано как использовать Qwen-2.5 в качестве интерпретатора кода.

🌟 Модель способна обрабатывать запросы, генерировать и интерпретировать код для различных вычислительных задач и анализа данных.

Этот инструмент особенно полезен для тестирования моделей и работы с данными.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 ChatGPT попросили написать SQL запросы для работы с базой данных магазина.

Ответ убил


🌟 Кажется, ии медленно уничтожает человечество...

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 LayerSkip: метод ускорения инференса в LLM.

LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста.

Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях.

В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе.

Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit).

Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки.

LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности.

Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей:

🟢Llama2 - 7B и 13B;
🟢Codellama-7B или 34В;
🟢Llama3-8B:
🟢Llama3.2-1B.

⚠️ Для локального запуска будет нужен Huggingface API KEY.

▶️Локальный запуск:

# Clone repo
git clone git@github.com:facebookresearch/LayerSkip.git
cd LayerSkip

# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip

# Install requirements
$ pip install -r requirements.txt

#Inference with self speculative
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
--sample True \
--max_steps 512 \
--generation_strategy self_speculative \
--exit_layer 8 \
--num_speculations 6


▶️Ключи запуска:

--model: имя модели на HuggingFace;
--sample: включение/выключение семплирования (по умолчанию: True);
--max_steps: максимальное количество генерируемых токенов;
--generation_strategy: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative');
--exit_layer: номер слоя для раннего выхода;
--num_speculations: количество спекулятивных токенов;


🟡Коллекция моделей на HF
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MetaAI #LayerSkip

Читать полностью…

Анализ данных (Data analysis)

Что такое эксперименты в ML и чем они отличаются от «фичей» в обычной разработке?

🔹Расскажем на открытом уроке «MLFlow и переобучение ML-моделей» почему важно переобучать (retrain) свои модели, чтобы держать их «в тонусе».

Разберем какую роль инструменты, такие как MLFlow, играют в процессах регулярного переобучения

Практика: Изучим как выбирать лучшие варианты для отправки в Prod / Staging среду и всегда знать, что у вас «на проде»

Урок приурочен курсу «MLOps» от Otus.

👉 Регистрация и подробности:
https://otus.pw/EokQ/?erid=LjN8KE8WR

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

Яндекс Игры пришли к нам с запросом:


SELECT *
FROM subscribers
WHERE channel_name = 'data_analysis_ml'
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens')
AND data_driven_approach = true
AND analytical_mindset = true
AND years_of_experience >= 2
AND fit = true;


Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать.

ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта.

Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах.

Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1

Читать полностью…

Анализ данных (Data analysis)

Приглашаем погрузиться в аналитику данных вместе с Яндексом!

Data Driven — это наша ежегодная конференция для тех, кто анализирует данные, чтобы принимать бизнес-решения.

26 октября приглашаем дата-сайентистов и всех, кто интересуется Big Data, послушать спикеров из Крауда, Рекламы, Алисы и других команд.

В программе: доклады о фичах на основе пользовательских отзывов, машинном переводе, обучении YandexGPT, метриках KPI и многом другом.

📍Место: Москва, ст. м. «Парк культуры»

📅 Дата: 26 октября в 12:00

💻 Регистрация

Реклама. ООО "Яндекс", ИНН 7736207543.

Читать полностью…

Анализ данных (Data analysis)

⚡️ Metalingus - это минимальная и быстрая библиотека для обучения LLM и логических выводов, предназначенная для научных исследований

📊 Ключевые особенности

- Мощная и быстрая библиотека для обучения LLM и логических выводов для научных исследований
- Использует модифицируемые компоненты PyTorch для экспериментов с архитектурами и моделями
- Предоставляет инструменты для понимания скорости и стабильности работы ваших приложений
- Структурирован с использованием базовой библиотеки "lingua" и "приложений"

🚀 Сравнение производительности Lingua с другими моделями

- Модели 1B, обученные на токенах 60B, соответствуют производительности DCLM (DataComp-LM) по многим задачам
- Модели 7B (Mamba, Llama) показывают высокие результаты в таких тестах, как ARC, MMLU, BBH
- Модель токенов Llama 7B в квадрате ReLU 1T позволяет получать высокие баллы за выполнение заданий

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Каждый день мы наблюдаем за ростом возможностей искусственного интеллекта, и новости о его прорывах появляются все чаще. Но что это значит для профессионалов, чья работа, казалось бы, может быть автоматизирована? 🤔

Некоторые специалисты беспокоятся, что AI может вскоре занять их места. Однако нам кажется, что AI — это не замена, а инструмент, который помогает достигать новых высот в аналитике, видеомонтаже, копирайтинге и других сферах.

А что думаете вы? Какие инструменты и технологии помогают вам в работе, и как вы их оцениваете?

Пройдите опрос, который займет всего 5 минут ⏳ и поможет разработчикам генеративных нейросетей улучшить их инструменты.

Как бонус, мы разыгрываем среди участников:
👾 годовой доступ к Telegram Premium
👾месяц премиум-подписки на ChatGPT
👾 подписку на два месяца в Альпина Digital

Участвуйте, и давайте вместе строить будущее технологий!

Erid: 2VtzqwE1B4P

Читать полностью…

Анализ данных (Data analysis)

❓Узнайте как построить модель финансового рынка, создать и обучить торгового агента с использованием специализированного фреймворка на открытом уроке в Otus

Моделировать финансовый рынок непростая задача, а когда мы хотим обучить торгового агента для эффективной работы, она становится непосильной для одного человека

На открытом уроке «Построение торгового агента на базе алгоритмов обучения с подкреплением» рассмотрим свободно распространяемые фреймворки для моделирования финансового рынка

✅ Сосредоточимся на финансовой стратегии, а детали реализации алгоритма фреймворк возьмет на себя 

Регистрация на урок 👇
https://otus.pw/tw3f/?erid=LjN8K5QHu

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

🎮 Quake3LLM - это проект, который позволяет создавать ботов для игры Quake 3 Arena, используя язык программирования C++.

Боты общаются между собой и игроками посредством Llama.cpp. В целом, тексты, генерируемые этими ботами, выглядят нормально, но иногда встречаются странные фразы.

Проект доступен на GitHub по ссылке https://github.com/jmarshall23/Quake3LLM.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 LongVU

LongVU, видеоредактор с пространственно-временным механизмом адаптивного сжатия, предназначенный для понимания видео продолжительностью в час в реальном времени. LongVU адаптивно сокращает количество видео-маркеров, используя (1) сходство функций DINOv2 в разных кадрах, (2) Кросс-модальное сходство текстовых кадров и (3) сходство временных кадров.

1. Высокое качество работы: 67,6% на EgoSchema, 66,9% на MVBench, 65,4% на MLVU и 59,5% на VideoMME long
2. повышение точности в среднем на 5% в различных тестах понимания видео по сравнению с LLaVA-OneVision и VideoChat2
3. Модель, LongVU-3B, также значительно превзошла аналоги 4B, такие как VideoChat2(Phi-3) и Phi-3.5-vision-instruct, по производительности.

📝Статья: https://huggingface.co/papers/2410.17434
💻Код: https://github.com/Vision-CAIR/LongVU
🚀Проект (демо): https://vision-cair.github.io/LongVU

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Небольшой курс от Anthropic по промпт-инженерингу!

🌟 Этот курс включает примеры, советы и задачи, направленных на улучшение точности и надежности ответов модели.

Он предназначен для того, чтобы вы могли глубже понять принципы работы с большими языковыми моделями и лучше управлять результатами генерации, повышая качество и соответствие запросов и ответов моделей!

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔈 Vocal Remover — бесплатный онлайн-инструмент для разделения вокала и музыкального сопровождения в треках, улучшения качества аудио а также изменение высоты тона и скорости трека!

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Видео от университета Стэнфорда о создании больших языковых моделей!

💡 Это видео — краткий обзор создания модели, подобной ChatGPT, охватывающий как предварительное обучение модели, так и последующее обучение (SFT/RLHF).

В видео рассматриваются общие практики сбора данных, алгоритмы и методы оценки модели.

🕞 Продолжительность: 1:44:30

🔗 Ссылка: *клик*

Читать полностью…

Анализ данных (Data analysis)

🤗 Вышла Transformers.js версия 3!

⚡ Поддержка веб-графических процессоров (до 100 раз быстрее, чем WASM)
🔢 Новые форматы квантования (dtypes)
Всего поддерживается 120 архитектур
📂 25 новых примеров проектов и шаблонов
✅ Более 1200 предварительно сконвертированных моделей
✅ Node.js Совместимость с ESM + CJS, Deno и Bun

Начните работу с npm i @huggingface/transformers

https://huggingface.co/blog/transformersjs-v3

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 arXiver — это огромный датасет на Hugging Face, который содержит 138 тысяч научных статей, загруженных с сайта arXiv.org!

🌟 Этот набор данных предназначен для анализа и обработки научных публикаций с использованием методов машинного обучения. Он охватывает статьи из разных областей, таких как физика, математика, компьютерные науки, и предоставляет возможность для создания NLP моделей на основе научного текста.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.

Зарегистрироваться

Читать полностью…

Анализ данных (Data analysis)

🌟 Интересная статья, которая посвящена методу под названием Self-Taught Reasoner (STaR), который улучшает способность языковых моделей выполнять сложные задачи, требующие пошагового рассуждения

🌟 STaR использует небольшое количество примеров рассуждений и большое количество данных без них для обучения модели. Этот метод включает в себя генерацию обоснований, исправление ошибок и дообучение модели на правильных результатах. STaR показал значительное улучшение по сравнению с обычными моделями в задачах на логику и здравый смысл

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 financial-data-analyst — набор советов и гайдов для быстрого старта работы с Claude AI для анализа финансовых данных.

Он показывает, как использовать возможности ИИ для обработки и анализа финансовой информации с помощью Claude, предлагая готовые к работе шаблоны и сценарии для анализа

▪️Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Новые модификации архитектуры трансформеров от исследователей NVIDIA

nGPT: Трансформер на основе гиперсферы, обеспечивающий в 4-20 раз более быстрое обучение и улучшенную стабильность для LLM

🔗 Читать подробнее: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 AdalFlow — это библиотека для создания и автоматической оптимизации задач, связанных с большими языковыми моделями (LLM).


Легкий, модульный и не зависящий от модели конвейер задач
LLM ; AdalFlow помогает разработчикам быстро создавать из них любые приложения, от приложений GenAI, перевод, обобщение, генерация кода, RAG и автономные агенты, до классических задач NLP, таких как классификация текста и распознавание именованных объектов.

🌟Содержит два фундаментальных, но мощных базовых класса: Component для конвейера и Data Class для взаимодействия с LLMS. В результате получилась библиотека с минимумом абстракции, предоставляющая разработчикам максимальную настраиваемость.

🔐 Лицензия: MIT

▪️GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 optillm — инструмент для оптимизации процесса вывода языковых моделей (LLM) через прокси-сервер. Он поддерживает различные подходы к оптимизации, такие как цепочки размышлений (CoT), самоотражение, алгоритм R* и другие. Этот инструмент позволяет использовать модели, совместимые с OpenAI API, и позволяет легко интегрировать их с существующими инструментами и фреймворками.

🌟 Основная цель — упростить работу с крупными языковыми моделями, обеспечивая их более эффективное использование, включая поддержку нескольких техник вывода и оптимизации

🔐 Лицензия: Apache-2.0

▪️Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Lightning Thunder — компилятор для PyTorch, который позволяет ускорить выполнение моделей до 40%

🌟 Thunder компилирует код PyTorch, объединяя и оптимизируя операции, что повышает производительность на различных аппаратных платформах, таких как GPU, и поддерживает как одиночные, так и многопроцессорные конфигурации. Он работает с множеством исполнительных механизмов, включая такие технологии, как nvFuser, torch.compile и cuDNN и позволяет распределённые вычисления для больших моделей с использованием стратегий DDP и FSDP

🔐 Лицензия: Apache-2.0

▪️Github

@data_analysis_ml

Читать полностью…
Subscribe to a channel