data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🚀 Представляем многоязычную систему преобразования речи в речь Hugging Face! 🎤

💬 Модульный кросс-платформенный конвейер для запуска GPT4o-подобных моделей на устройствах, с плавным переключением языков во время разговора с незаметной задержкой в 100 мс.

🌟 2700 звезд на GitHub 🌟


🔥 Тестируйте с флагом: --language
🤯 Или не устанавливайте флаг и позвольте системе самой определить язык

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ ReconX

Это полезная библиотека для создания детализированных 3D-сцен на основе ограниченного количества изображений, решая проблему, которая долгое время была сложной в компьютерном зрении.

В отличие от традиционных методов, которые часто сталкиваются с артефактами и искажениями в невидимых областях, ReconX рассматривает задачу как временную генерацию, используя видеодиффузионную модель.

Основное новшество — использование генеративных возможностей крупных предварительно обученных моделей видео с сохранением 3D-согласованности сцен.

📌 Github
📌 Project

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Этот инструмент RAG с открытым исходным кодом для работы с вашими документами в режиме чата в последние несколько дней занимает лидирующие позиции на Github

- RAGUI с открытым исходным кодом для контроля качества инструмента
- Поддерживает локальные Lms и API-провайдеров
- Гибридный конвейер RAG с полнотекстовым и векторным поиском
- Мультимодальность
- Поддерживает Сложные рассуждения с декомпозицией вопросов
- Настраиваемый пользовательский
интерфейс,
- Расширяемая архитектура

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 FLAN-T5 small — модель от Google для задач NLP

Если кто знаком с моделью T5, то FLAN-T5 — это её улучшенная версия.
При том же количестве параметров FLAN-T5 тонко настроена для 1000+ дополнительных задач NLP; при этом модель поддерживает большое количество языков.

🤗 Hugging Face
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Action2Sound — модель для генерации звуков на основе видео от первого лица

python main.py --base configs/ldm/ego4dsounds.yaml -t --name audiocond --num-nodes 1 --gpus 0,1,2,3,4,5,6,7 --epoch 8 --scale_lr False --batch-size 90 --pretrained-model data/pretrained/av.pth --pool-patches max model.params.audio_cond_config.neighbor_audio_cond_prob=1 --audio-cond rand_neighbor


Action2Sound — это новый метод генерирования звуков на основе видео от первого лица;
также этот метод позволяет учесть обстановку и создавать соответствующие фоновые звуки.

В целом, Action2Sound — это первая работа, в которой сгенерированные звуки точно соответствуют наблюдаемому визуальному контенту.

🖥 GitHub
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 dbt-core

Громоздкие #SQL запросы трудно читать, понимать и поддерживать.

С помощью dbt вы можете использовать функцию ref, чтобы разбить длинный SQL-запросы на более мелкие компоненты, делая их более читаемыми и удобными для обслуживания.


-- models/total_order_amount.sql
SELECT
order_id,
customer_id,
SUM(order_amount) AS total_amount
FROM
raw_orders
GROUP BY order_id, customer_id


models/average_order_amount.sql:


-- models/average_order_amount.sql
SELECT
customer_id,
AVG(total_amount) AS avg_amount
FROM {{ ref('total_order_amount') }}
GROUP BY customer_id



Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Lazy Predict

Дата Саентисты обычно тратят много времени на тестирование множества моделей.

Lazy Predict позволяет быстро создавать прототипы и сравнивать несколько базовых моделей без написания большого количества кода или сложной настройки моделей.

pip install lazypredict

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️LayerPano3D - новый фреймворк для создания полноэкранной панорамной 3D-сцены из одного текстового запроса!

Проект: https://ys-imtech.github.io/projects/LayerPano3D/
Статья: https://arxiv.org/abs/2408.13252
Код: https://github.com/YS-IMTech/LayerPano3D

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Главные достижения человечества за 500 лет — учёные собрали все самые значимые изобретения с 1500 года в потрясающей инфографике.

Здесь представлено буквально всё: от церковных колоколов до ChatGPT.

Залипнуть на этом интерактивном ресурсе в отличном качестве можно здесь: https://calculatingempires.net/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 ProLLM: бенчмарк на компетентность языковых моделей в программировании.

Разработчик и автор корпоративного code со-pilot Toqan и FinBERT pfgecnbk запустил публичный Leaderbord бенчмарка ProLLM, в котором языковые модели открытого и закрытого типа тестируются на выполнения различных задач в области программирования:

🟠сoding assistant, создание кода на 27 языках, включая R, ассемблер, haskell, delhi и ada;
🟠StackUnseen, вопросы и ответы из неопубликованных в датасетах данных Stack Overflow за последние 3 месяца;
🟠вызов функций, оценка способности LLM интерпретировать запросы и вызывать соответствующие функции с правильными параметрами;
🟠SQL Disambiguation (только на Португальском языке), оценка того, как тестируемая модель выявляет двусмысленность запроса SQL и определяет, когда требуется уточнение;
🟠извлечение сущностей (только на Польском языке), дает представление об общей эффективности извлечения сущностей и маркировки LLM на непопулярных языках.

Помимо узкоспециализированных тестов, бенчмарк выполняет несколько общих тестов: Q&A Assistant, Summarization и LLM as a Judge.

На сегодняшний день возможность самостоятельного тестирования моделей этим бенчмарком не реализована, но разработчики открыты для диалога в вопросе корпоративного применения своей системы оценки, с ними можно связаться через форму на сайте.

Toqan ProLLM Leaderboard


@data_analysis_ml

#AI #LLM #ML #Benchmark

Читать полностью…

Анализ данных (Data analysis)

💾 LLM Datasets

В нем есть множество высококачественных наборов данных и инструментов для тонкой настройки, очистки, генерации и исследования данных.

Я молча поддерживал его в течение последних месяцев. Особая благодарность geronimi73, Bytes-Explorer и eclipse за их поддержку.

Githib

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Не так давно вышла новая версия AuraFlow — v0.2

Как вы помните, AuraFlow — это крупнейшая открытая text-to-image модель.
AuraFlow v0.2 была обучена с использованием большего количества вычислительных ресурсов по сравнению с предыдущей версией, AuraFlow v0.1.

AuraFlow v0.2 показывает передовые результаты на GenEval;
на данный момент модель находится в бета-версии.

🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Microsoft Phi 3.5: Новые instruct модели.

Представлены модели:

Phi-3.5-mini-instruct: 3.82B параметров, 128K контекст, улучшено понимание кода, математические операции, на 5 пунктов подросло знание русского языка (по бенчмарку Multilangual MMLU):

🟢Демо
🟠GGUF-версии от 2-bit (1.32 Gb) до 32-bit (15/3GB)
🟠MLX-верcии для Mac

Phi-3.5-vision-instruct: 4.15B параметров, 128К контекст, улучшено описание графиков и таблиц, суммаризация по нескольким изображениям и видео, классификация художественных стилей по изображению:

🟢Демо
🟠MLX-верcии для Mac

Phi-3.5-MoE-instruct: 16x3.8B параметров, 6.6B активных параметров при использовании 2 агентов, 128К контекст, актуальность датасета обучения - октябрь 2023:

🟢Демо
🟠MLX-верcии для Mac


📌Лицензирование : MIT License

@data_analysis_ml

#AI #Phi #LLM #ML #Microsoft

Читать полностью…

Анализ данных (Data analysis)

⚡️ Flux Schnell в новом Diffusion Kit с MLX работает на 30% быстрее и использует меньше оперативной памяaти!

pip install -U diffusionkit

На моем ноутбуке M1 max объемом 32 ГБ я создаю высококачественные изображения меньше чем за минуту:

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🤗 Hugging Face выпустили пошаговый гайд по созданию и обучению своей личной робо-руки.

Компания Hugging Face опубликовала подробную инструкцию по созданию и обучению роботизированной руки.


В ней подробно рассказывается, где приобрести необходимые компоненты, как настроить нейронную сеть, а также приведены лекции, иллюстрирующие процесс сборки.

Крутой бесплатный курс - рекомендуем)

@vistehno

Читать полностью…

Анализ данных (Data analysis)

📢 Вышла версия TorchGeo 0.6.0!

В него добавлено 18 датасетов, 15 новых модулей данных и 27 новых предварительно обученных моделей, что является результатом 11 месяцев работы команды из 23 разработчиков🔥.

https://github.com/microsoft/torchgeo/releases/tag/v0.6.0

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Мощная библиотека для быстрого LLM-инференса

NanoFlow стабильно обеспечивает более высокую производительность по сравнению с vLLM, Deepspeed-FastGen и TensorRT-LLM. 🤯

🔹 Увеличение производительности в 1,91 раза по сравнению с TensorRT-LLM
🔹 Опережает vLLM, Deepspeed-FastGen
🔹 Достигает 68,5 % от оптимальной пропускной способности

При крупномасштабных развертываниях LLM сталкивается с узкими местами в пропускной способности. 🤔

🔹 Бэкенд на C++, фронтенд на Python
🔹 Интеграция с CUTLASS, FlashInfer, MSCCL++
🔹 Поддерживает LLaMA2-70B, Mixtral 8x7B, LLaMA3-8B

- Nano-batching: разбивает запросы на более мелкие партии для одновременного выполнения
- Разделяет ресурсы GPU для эффективной работы
- Менеджер KV-кэша: Оптимизирует использование памяти
- Механизм автоматизированного поиска: Находит оптимальные параметры для запуска модели

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ WonderWorld — рендеринг 3D-сцен в реалтайме

WonderWorld позволяет пользователю быстро генерировать 3D-сцены вокруг себя с помощью текстовых промптов и движения камеры.
В качестве отправной точки WonderWorld принимает на вход 1 изображение и генерирует связанные с ним разнообразные 3D-сцены для создания виртуального мира.
Генерация одной 3D-сцены занимает менее чем 10 секунд благодаря 2 моментам: во-первых, это оптимизация представления 3D-сцены, Fast Gaussian Surfels, а во-вторых, используется особый подход, позволяющий генерировать для каждой сцены только 1 вид, а не несколько, не создавая при этом больших дыр в восприятии этой сцены.

🟡 Страничка WonderWorld
🟡 Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшие Fast Track мероприятия:

• 7-8 сентября — для аналитиков со знанием SQL и Python, офер за 2 дня в команды Маркета, Еды и Лавки.

Зарегистрироваться

Читать полностью…

Анализ данных (Data analysis)

⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud.

Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:

🟢Распознавание изображений с различным разрешением и соотношением сторон;
🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога;
🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления;
🟢Мультиязычность внутри входных данных, например на изображениях или видео.
🟢Улучшенное распознавание объектов и предметов;
🟢Расширенные возможности в области математики и понимания программного кода.

Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:

🟠Qwen2-VL-72B;
🟢Qwen2-VL-7B-Instruct;
🟢Qwen2-VL-2B-Instruct,

и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.

Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:

🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека.

🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию.

⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.

Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.

▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Сообщество в Discord
🖥Github [ Stars: 59 | Issues: 3 | Forks: 2]


@ai_machinelearning_big_data

#AI #Qwen #ML #GPTQ #VLM #AWQ

Читать полностью…

Анализ данных (Data analysis)

🎮 Diffusion Models Are Real-Time Game Engines

Google представляет GameNGen, первый игровой движо в Stable Diffusion, который позволяет взаимодействовать со сложным окружением в реальном времени с высоким качеством.

GameNGen может интерактивно моделировать классическую игру DOOM со скоростью более 20 кадров в секунду на одном TPU.

Предсказание следующего кадра достигает PSNR 29,4,

На тестах дюди почти не отличают короткие ролики игры от роликов симуляции.

GameNGen обучается в два этапа: (1) RL-агент учится играть в игру, и тренировочные сессии записываются, и (2) диффузионная модель обучается выдавать следующий кадр, основываясь на последовательности прошлых кадров и действий.

статья: https://arxiv.org/abs/2408.14837
страница проекта: https://gamengen.github.io

Читать полностью…

Анализ данных (Data analysis)

Как увеличить производительность DBaaS в 10 раз?

Selectel запустил базы данных на выделенном облачном сервере — уникальный продукт, аналогов которому нет в России. Вы можете получите готовый к работе кластер облачных баз данных с изолированной на физическом уровне инфраструктурой. Новое решение позволит хранить и обрабатывать базы данных размером до 7 ТБ с производительностью до 1,5 млн IOPS.

Преимущества DBaaS на выделенном облачном сервере:
- Максимальная производительность. Увеличили производительность дисковой подсистемы DBaaS — до 1,5 млн IOPS, пропускную способность — до 7 000 МБ/с.
- Экономическая выгода. В зависимости от конфигурации стоимость нового решения до 47% ниже стандартного DBaaS-сервиса.
- Быстрый запуск. Не нужно самостоятельно подбирать железо, оптимизировать настройки и разворачивать CУБД.
- Безопасность. Изоляция базы данных на уровне физического сервера. Услуга соответствует закону 152-ФЗ (УЗ-1), приказу ФСТЭК № 21, PCI DSS, ISO 27001, 27017, 27018.

Разверните базу данных на выделенном облачном сервере: https://slc.tl/g3qe5

Реклама АО «Селектел». ИНН: 7810962785 Erid: 2VtzqxiGXUR

Читать полностью…

Анализ данных (Data analysis)

Встречаемся 14 сентября на Practical ML Conf в Москве и
онлайн!

Machine learning, проверенный практикой*
* Сгенерировано YandexGPT

Главная конференция Яндекса по ML для экспертов: качественные технические доклады от ключевых инженеров, максимум пользы и знаний о практическом применении.

Ключевые темы конференции:
CV / NLP / Speech / RecSys / MLOps / Data science

В числе спикеров:
– Степан Комков — Яндекс Поиск, старший разработчик службы синтеза речи;
– Дмитрий Антипов — Сбер, АБТ, тимлид разработки;
– Виктор Плошихин — Yandex Cloud, руководитель ML-лаборатории в Yandex Platform Engineering.

Во вдохновляющем футуристичном пространстве «Суперметалл» мы поговорим о кейсах, которые не найти в научных статьях, ведь когда они появятся — вы уже не сможете оказаться в числе визионеров.

Ждём вас, чтобы заглянуть в будущее вместе — офлайн и онлайн.

Реклама. ООО "Яндекс", ИНН 7736207543

Читать полностью…

Анализ данных (Data analysis)

💪Вам нужен надёжный API!

👉Узнайте как создавать надежные API с проверкой параметров запроса и валидацией сложных данных на бесплатном вебинаре онлайн-курса «Python Developer. Professional» - «FastAPI - валидация параметров запроса с помощью Pydantic»: регистрация

На бесплатном вебинаре мы:
- Рассмотрим, как FastAPI и Pydantic работают вместе для валидации данных;
- Научимся создавать и использовать Pydantic модели для валидации параметров запроса;
- Рассмотрим как валидировать сложные и вложенные структуры данных в запросах.

Занятие будет полезно Python разработчикам, которым необходимо создавать надежные API с проверкой параметров запроса и валидацией сложных данных.

🤝Понравится урок — продолжите обучение на курсе по спеццене и даже в рассрочку!

erid: LjN8K65FR

Читать полностью…

Анализ данных (Data analysis)

🦧 Sapiens: новая SOTA ViTs для задач CV, связанных с обнаружением людей 🦧

Sapiens - семейство моделей для задач CV: оценки 2D-позы, сегментации частей тела, оценки глубины.

Модели поддерживают вывод данных в 1K hi-res. и очень легко адаптируются под конкретные задачи путем простого файнтюнига.

Модель предварительно обучена на более чем 300 миллионах изображений человека в естественных условиях. 💙

HF: huggingface.co/papers/2408.12569
Paper https://arxiv.org/pdf/2408.12569

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Хочешь работать с масштабными цифровыми продуктами? Учись обрабатывать большие данные  

MLOps — все более популярный среди компаний способ повышения производительности и создания надежных моделей корпоративного уровня. 

✅ Владение инструментами MLOps открывает новые карьерные горизонты специалистам ML, Data Scientist’ам и Software инженерам

👉 Вырвись из однотипных задач на ML. Освой продвинутые подходы. Ответьте на 10 вопросов и проверьте, насколько вы готовы к обучению на курсе «MLOps» от OTUS по специальной цене.  

Пройти тестирование и узнать подробности: 
https://otus.pw/U4Kv/?erid=LjN8KZgEo

Читать полностью…

Анализ данных (Data analysis)

Сегодня анализ больших данных стал ключевым элементом для роста экономической эффективности крупных компаний, а также для современных вендоров, создающих инструменты Big Data.

На онлайн-дискуссии рассмотрим тему больших данных с двух сторон – бизнеса и тех, кто разрабатывает платформы для сбора и хранения больших данных. Эксперты T-Банка и Arenadata обсудят

🔹 Эволюционный путь развития работы с данными в российском бизнесе
🔹 Где аналитика больших данных дает для enterprise-бизнеса реальный экономический эффект?
🔹Технологический стек больших данных – что выбрать?
🔹Надо ли строить единое корпоративное хранилище данных?
🔹Перспективы искусственного интеллекта для бизнеса
🔹Требования к инфраструктуре для больших данных. On premise vs Облако

Спикеры

Дмитрий Зуев
ex-Руководитель отдела дата-инфраструктуры
Т-Банк

Андрей Жуков
Коммерческий директор
Arenadata

Ведущий
Сергей Зинкевич
Эксперт по облачным технологиям

🗓 27 августа | 17:00

Регистрация по ссылке>>

Реклама. ООО "ДЛИ" ИНН 9704006911

Читать полностью…

Анализ данных (Data analysis)

Только программисты и учёные работают с Big Data.
Конечно, это миф. Бизнес-аналитики, маркетологи и дизайнеры обрабатывают массивы информации, чтобы автоматизировать процессы и принимать обоснованные решения.

Яндекс Практикум запустил курс «Python для анализа данных». Программа подойдёт, если вы начинающий аналитик, специалист из смежной профессии или новичок в IT.

За 3 месяца вы:
— научитесь анализировать данные с помощью Python,
— изучите основы машинного обучения,
— пополните портфолио новым проектом.

Более 50% обучения — практические задания. Вы научитесь собирать, сортировать, анализировать и визуализировать данные из различных источников. А в конце — получите удостоверение о повышении квалификации или сертификат о прохождении курса.

Первый модуль можно пройти уже сейчас — это бесплатно. Попробуйте, чтобы познакомиться с форматом и понять, подходит ли вам курс.

Начать обучение

Читать полностью…

Анализ данных (Data analysis)

Учитесь в магистратуре и совмещайте обучение с работой и привычной жизнью.

Яндекс Практикум и Томский государственный университет приглашают на онлайн-программу «Дата-аналитика для бизнеса».

Очное обучение в онлайн-формате
Полноценная учёба, с онлайн-занятиями и экзаменами

На платформе Практикума
Гибкая теория, автоматическая проверка заданий и встроенная YandexGPT.

Преподаватели ТГУ и наставники Яндекс Практикума

Они будут проводить занятия и учить вас применять теорию на практике.

Студенческий, льготы и диплом гособразца
У вас будут все преимущества студента-очника. Доступ к инфраструктуре вуза — кампусам, библиотекам и мероприятиям.

Оплатить учёбу можно разными способами: всю сумму сразу, по семестрам или с помощью госкредита — тогда ежемесячный платёж составит от 500 ₽, а государство погасит часть кредита за вас.

Подать заявку

Реклама. ООО «Яндекс». ИНН 7736207543

Читать полностью…

Анализ данных (Data analysis)

LongWriter с открытым исходным кодом: позволяет генерировать более 10 000 слов из Long Context Lms

Это один из самых мощных LLM с поддержкой long context, который я когда-либо использовал.

Я в восторге)

Самое главное - открытый исходный код.

Github

@data_analysis_ml

Читать полностью…
Subscribe to a channel