🌟 Симуляция и рендеринг тканей в реальном времени
Симуляция и рендеринг тканей, особенно имеющих сложную структуру, в режиме реального времени довольно сложны и требуют больших затрат ресурсов. Исследование, представленное в рамках конференции SIGGRAPH 2024, было создано учеными из Шаньдунского и Нанкинского университетов в Китае с целью решить эту проблему при помощи нейросетей.
Плетеные ткани, как правило, имеют регулярно повторяющуюся структуру и рисунок. Существенное снижение нагрузки и уменьшение объема достигается за счёт автокодировщика – алгоритма, который кодирует паттерн этой структуры в латентный вектор с помощью энкодера, а затем расшифровывает декодером для получения реалистичного отображения.
Энкодер в нейронной сети отвечает за сжатие информации о форме объекта и его внешнем виде в латентный вектор. Для этого алгоритм сначала преобразует геометрическую структуру объекта и параметры его внешнего вида в числовые характеристики. Затем эти характеристики объединяются в один вектор через небольшую нейронную сеть, чтобы представить материал объекта в более компактном виде для дальнейшей обработки декодером.
Декодер же интерпретирует этот латентный вектор в изображение, сохраняя паттерн структуры и материал объекта.
Именно благодаря кодированию ткани в состояние латентного вектора нейросеть может отражать разные материалы, разделяя их, в отличие от некоторых других способов, требующих предварительного обучения под каждый тип материала.
Создатели представили ряд тестов, которые показали, что их инструмент способен в реальном времени рендерить ткани, а также редактировать параметры, такие как цвет, твёрдость, паттерн ткани и масштаб. В результате был достигнут баланс между качеством, скоростью и оптимальным использованием ресурсов компьютера.
🟡 Arxiv
@data_analysis_ml
🌟 Ax — построение LLM-агентов на базе исследования Стэнфорда — DSP (demonstrate, search, predict)
— npm install @ax-llm/ax
Ax позволяет несложно создавать интеллектуальных агентов, реализовывать бесшовную интеграцию с несколькими LLM и VectorDB для создания конвейеров RAG или агентов, способных решать сложные задачи.
🖥 GitHub
🟡 Доки
@data_analysis_ml
❓Сталкиваетесь с проблемами в поиске болей клиентов? Не знаете, как правильно проводить качественные и количественные исследования?
Чувствуете, что вам не хватает знаний для уверенной работы в аналитике?
✨Представьте, что вы умеете подготавливать гипотезы, проводить глубинные интервью и обрабатывать результаты. Вы уверенно используете карту эмпатии и кластеризацию для анализа данных.
Ваши навыки востребованы и вы становитесь незаменимым специалистом в своей компании.
Присоединяйтесь к открытому бесплатному вебинару 24 июля в 20:00 и сделайте этот прыжок в будущее!
Регистрируйтесь на вебинар прямо сейчас и прокачайте свои навыки аналитика: https://otus.pw/n0Bb/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KLto6
⚡️ Llama-3.1: Обновление семейства моделей
Llama 3.1 - набор предварительно обученных и настроенных по инструкции генеративных моделей размером 8B, 70B и 405B (текст в тексте/текст на выходе). Модели Llama 3.1 с инструкциями (8B, 70B, 405B) оптимизированы для использования в многоязычных диалогах и превосходят многие из доступных моделей с открытым исходным кодом и закрытых моделей для чатов в распространенных отраслевых тестах.
Llama 3.1 - это авторегрессивная языковая модель, использующая оптимизированную архитектуру трансформаторов. В настроенных версиях используются контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF) для согласования с предпочтениями человека в отношении полезности и безопасности.
▶️Доступные для скачивания модели LLaMa 3.1( полный список)Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8
Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M
▶️ Комментарии к версии 405B:
🟢MP16 (Model Parallel 16) - полная версия весов BF16.
Эти веса можно запустить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU.
🟢MP8 - полная версия весов BF16, но может быть развернута на одной ноде с 8 GPU с использованием динамического квантования FP8 (Floating Point 8).
🟢FP8 (Floating Point 8) - квантованная версия весов. Эти веса можно запустить на одной ноде с 8 GPU и с использованием статического квантования FP.
📌 Модель 405B требует примерно 750 ГБ и минимум двух нод (по 8 GPU) для инференса в MP16.
📌Загрузить модели можно с сайта Meta.Ai или с официальное репозитория на Huggingface Для скачивания нужно заполнить форму запроса доступа.
🟠UPD: Первая GGUF-версия на HF в Q8 уже появилась.
@ai_machinelearning_big_data
#AI #Llama3.1 #ML #LLM
Профессия аналитика данных — одна из самых высокооплачиваемых и перспективных в сфере IT.
На курсе «Аналитик данных» от Нетологии вы с нуля освоите необходимые навыки за 7 месяцев под руководством опытных наставников-практиков.
Вы изучите SQL, Python, Power BI — ключевые инструменты для работы с данными. Научитесь использовать статистические методы, строить и проверять гипотезы. Создадите 4 полноценных проекта для своего портфолио и выполните более 20 практических заданий.
А по окончании курса получите диплом о профпереподготовке и сможете претендовать на должность junior-аналитика.
Начните свой путь в сфере аналитики данных — присоединяйтесь к программе.
Промокод АНАЛИТИК-10 даст дополнительную скидку 10% от цены курса.
Записаться: https://netolo.gy/dj9s
Реклама. ООО "Нетология". Erid 2VSb5yvacac
ML: с чего начинается Data Science?
Приглашаем на открытый урок, где вы узнаете про область ML, которая лежит в основе Data Science и AI сегодня.
🔹Расскажем, чем оно отличается от классического программирования и какие в ML существуют типы задач.
✅ Практика: Решите первую задачу ML на языке Python
В результате урока вы обучите свою первую модель машинного обучения для решения задачи классификации рукописных цифр
Урок приурочен курсу «Специализация Machine Learning» от Otus.
👉 Регистрация и подробности:
https://otus.pw/krTC/?erid=LjN8JwL3N
🔥В OTUS стартует курс "Machine Learning. Professional", обучение на котором позволит последовательно освоить современные инструменты анализа данных и на профессиональном уровне создавать модели машинного обучения.
Студенты курса выбирают самостоятельно темы выпускных работ, поэтому все выпускные проекты на курсе–это ценные исследования для ML.
⚡24 июля в 18.00 мск приглашаем на открытый урок курса "Популярные ML-методы для поиска выбросов в данных".
На занятии:
- разберем задачу поиска аномалий;
- изучим как с помощью методов ML можно очищать данные от выбросов;
- в теории разберем несколько алгоритмов и применим их на практике.
👉Регистрация https://otus.pw/GGwO/?erid=LjN8KHDLN
При поступлении в группу обучения возможны разные способы оплаты и рассрочка платежа
🌟 Metarank — open-source сервис ранжирования для создания персонализированного семантического поиска и рекомендательных систем
Metarank позволяет реализовать персонализированное ранжирование статей, объявлений, результатов поиска — в общем отлично подходит для создания рекомендательных систем
Быстрый старт с Docker:
docker run -i -t -p 8080:8080 -v $(pwd):/opt/metarank metarank/metarank:latest standalone --config /opt/metarank/config.yml --data /opt/metarank/events.jsonl.gz
Стоит ли вам начинать карьеру в аналитике и Date Science? Онлайн-встреча, которая поможет понять
Вокруг работы с данными много мифов: сложно начать карьеру — просто начать карьеру — нужно начинать с бизнес-аналитики — всем надо в системные аналитики.
День открытых дверей «Как начать карьеру в аналитике и Data Science» поможет разобраться, что из этого правда, а что нет. Продюсеры Нетологии ответят на волнующие вопросы:
— По-прежнему ли высок спрос на аналитиков?
— В какие компании устраиваться на работу в сфере данных, чтобы хорошо зарабатывать?
— С чего стартовать в аналитике и Data Science и сложно ли это?
Участники встречи получат в подарок гайд «Как войти в сферу данных и найти своё направление». Он поможет принять взвешенное решение о старте карьеры в новой для вас профессии.
Приоткройте для себя двери в аналитику: https://netolo.gy/djxG
Реклама. ООО "Нетология". Erid: 2VSb5wuZdui
Яндекс Практикум и Томский государственный университет открывают набор на онлайн-программу «Дата-аналитика для бизнеса».
На этой программе вас ждут:
— очная форма обучения с занятиями и экзаменами в онлайн-формате;
— опыт преподавателей ТГУ и наставников Яндекса;
— диплом гособразца по итогам обучения.
Обучение можно оплатить целиком или вносить сумму частями перед началом каждого семестра. Вы сможете оформить госкредит — с его помощью государство погасит часть кредита за вас, а ежемесячный платёж составит от 500 ₽.
— Узнать подробнее
Реклама. ООО «Яндекс». ИНН 7736207543
🌟 Kedro — набор готовых к продакшену инструментов для Data Science и ML
— pip install kedro
Kedro — фреймворк, который добавляет модульность, удобную для работы с данными. С помощью Kedro можно создавать проекты по шаблону, настраивать пайплайн в YAML, делить его на части, документировать проект — и это далеко не всё.
Kedro позволяет сохранять и загружать данные в различные хранилища, такие как S3, GCP, Azure, sFTP, DBFS и локальные файловые системы. Поддерживаются такие форматы файлов, как Pandas, Spark, Dask, NetworkX, Pickle, Plotly, Matplotlib и многие другие.
🖥 GitHub
🟡 Доки
@data_analysis_ml
⚡️ Polyaxon — open-source MLOps-платформа
установка CLI:
pip install -U polyaxon
🌟 Llama Recipes — набор готовых метод для файнтюнинга Llama3
— pip install llama-recipes
Llama Recipes предоставляет набор методов для файнтюнинга Llama3 с использованием FSDP и PEFT для работы на одном/нескольких GPU.
🖥 GitHub
@data_analysis_ml
🌟 LongVA: VLM для больших видео на основе Qwen-2-7B
LongVA – техника визуальной обработки длинных видео, которая может обрабатывать более 1000 кадров и 200К визуальных токенов с помощью концепции Long Context Transfer.
Принцип Long Context Transfer состоит в изменении метода обучения: сначала обучают языковую модель только на данных "изображение-текст", а затем используют краткие данные изображений для согласования модальностей. Модель, обученная таким образом, может напрямую понимать мультикадровые видео, исключая необходимость в обучении на датасетах длинных видео.
В независимом тестировании на Video-MME, предложенном USTC, LongVA заняла седьмое место и достигла уровня SoTA для модели 7B.
В тестировании MLVU - второе место после GPT-4o и была признана самой мощной открытой моделью.
Для лабораторного тестирования метода был разработан специальный тест Visual Needle-In-A-Haystack (V-NIAH), состоящий из пяти вопросов с ответами на основе изображений.
Каждый из пяти изображений были вставлены в качестве отдельного кадра в тестовое многочасовое видео.
Проверка на тестовых пяти вопросах (с подсказкой по локализации в формулировке вопроса) показала, что LongVA проходит этот тест пределах 2000 кадров при плотности 144 токена на кадр.
Этот тест доступен в репозитории проекта наряду с инструкциями по запуску LongVA в локальных средах и инструментами для самостоятельной тонкой настройки (тренировки) модели.
👉 Весь набор предлагаемых инструментов репозитория прошел проверку на выполнение с CUDA 11.8 на 1хA100-SXM-80G
⚖️ Лицензирование кода: Apache-2.0 license
⚖️ Лицензирование моделей: Qwen2 license
🟡Страница проекта
🟡Demo
🟡Модели на HF
🟡Arxiv
🖥Github [Stars: 221 | Issues: 9 | Forks: 11]
@ai_machinelearning_big_data
#ML #VLM #VQA
CV-шница пройдет уже в этот четверг! 🍳
Делимся подробным расписанием онлайн-митапа:
▪️15:30
Вступление — Артур Кадурин, руководитель группы «Глубокое обучение в науках о жизни», AIRI
▪️15:35
3D генерация по тексту/изображению — Антон Конушин, кандидат физико-математических наук, руководитель группы «Пространственный интеллект», AIRI
▪️ 15:55
Kandinsky Flash: генеративно-состязательный подход к дистилляции диффузионных моделей — Владимир Архипкин, руководитель направления по исследованию данных, Sber AI
▪️ 16:15
Мультимодальные модели и способы эффективного представления визуального контекста — Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain, AIRI
▪️16:35
Генерация изображений по активности мозга — Абдуллин Ильгиз, AI Talent Hub, и Щетинников Константин, Quality Analyst Intern, Wildberries
▪️16:55
Ensemble-Based Image Annotation for Real-Time Human Detection
— Игорь Попов, Computer Vision Engineer, AI Talent Hub
Сохраняйте ссылку на трансляцию, чтобы не пропустить доклады 👾
⚡️ Stability AI представляет Stable Video 4D — модель, которая позволяет генерировать разные ракурсы по загруженному видео
Stable Video 4D позволяет загружать 1 видео и получать видео с 8 новыми ракурсами.
🟡 Анонс Stable Video 4D
🟡 Статья
@data_analysis_ml
«Я в режиме реального времени поясняла структуру запросов / ответов в Postman и разбирала документацию в Swagger», — пишет аналитик, который прошел наш курс, а потом два технических собеседования в международные компании. Приятно, конечно ❤️
Если в 2024 году вы хотите:
— научиться выбирать стиль интеграции под вашу задачу;
— начать проектировать с нуля и описывать интеграции в современных стилях (API: REST, SOAP, gRPC и других, + брокеры сообщений);
— узнать как правильно собирать требования и моделировать в UML;
— подготовиться к собеседованию, решив более 100 заданий;
— запустить свой API на Python.
Значит наш курс для вас!
🚀 Начните с открытых бесплатных
уроков — переходите в бот курса и жмите «Старт»
👇
@studyit_help_bot
🚀 Скидка на курс
от канала — 1 000₽ на Stepik по промокоду MLDATA3 до конца июля.
🌟 SlowFast-LLaVA — метод повышения точности работы VLLM от Apple
Apple представляет SlowFast-LLaVA — метод, который позволяет добиться сравнимой или более высокой производительности по сравнению с видеомоделями SotA.
Эксперименты показывают, что SF-LLaVA превосходит существующие необучаемые методы на широком спектре задач, связанных с видео. В некоторых бенчмарках она достигает сравнимой или даже лучшей производительности по сравнению с современными VLLM, которые точно настраиваются на наборах видеоданных.
🟡 Arxiv
@data_analysis_ml
🌟 ZenML — фреймворк для упрощения и стандартизации MLOps процессов
— pip install "zenml[server]" notebook
ZenML упрощает перенос ML-пайплайнов из ноутбуков в продакшн-среду.
Обеспечивает гарантированную воспроизводимость экспериментов за счет версионирования данных, кода и моделей.
ZenML также позволяет быстро переключаться между локальной и облачной средой, предоставляет готовые инструменты для сравнения и визуализации параметров и результатов, кеширования состояний конвейера для быстрых итераций и многое другое.
🖥 GitHub
🟡 Google Colab
@data_analysis_ml
🌟 Реализация диффузионной модели с архитектурой UNet на чистом CUDA
В этом репозитории приведена реализация модели UNet на чистом CUDA с подробным описанием всех шагов.
Цель этого проекта — создать диффузионную модель на CUDA и достичь производительности PyTorch; выбрана архитектура UNet как ключевая архитектура для диффузионных моделей
В итоге, готовая модель была обучена на изображениях слонов из ImageNet 64x64 и теперь вполне успешно их генерирует.
🖥 GitHub
@data_analysis_ml
📌Skforecast — библиотека для прогнозирования временных рядов
— pip install skforecast
Skforecast — это библиотека Python, которая облегчает использование моделей регрессии от scikit-learn для прогнозирования временных рядов.
Skforecast также работает с любыми моделями регрессии, совместимыми с API scikit-learn (LightGBM, XGBoost, CatBoost...)
🖥 GitHub
🟡 Доки
🟡 Примеры использования
@data_analysis_ml
🌟 Xorbits — масштабируемый Python фреймворк для задач ML и DS, ориентированный на скорость
Xorbits позволяет, к примеру, легко использовать данные для обучения генеративных моделей а также разворачивать обученные модели в своей инфраструктуре.
Xorbits может использовать несколько ядер/GPU, может работать на 1 машине или масштабироваться до тысяч машин для поддержки обработки терабайтов данных.
Xorbits предоставляет набор полезных библиотек для анализа данных и ML.
🖥 GitHub
🟡 Доки
@data_analysis_ml
🖥 Geomstats — библиотека Python, позволяющая использовать нелинейные многообразия для обучения ML-моделей
— pip install geomstats
Данные из многих прикладных областей тесно связаны с нелинейными многообразиями. Например, многообразие трехмерных вращений SO(3) естественным образом возникает при проведении статистического обучения на сочлененных объектах, таких как человеческий позвоночник или руки роботов.
Аналогично, другие многообразия возникают при моделировании сложных биологических объектов
🖥 GitHub
🟡 Доки
@data_analysis_ml
🌟 NeuralForecast — большая коллекция ML-моделей для прогнозирования
— pip install neuralforecast
NeuralForecast предлагает множество моделей прогнозирования: от классических MLP и RNN, до новых моделей, таких как NBEATS, NHITS, TFT и других.
🖥 GitHub
🟡 Быстрый старт
@data_analysis_ml
⚡️ DeepSeek-V2-Chat-0628: обновленная версия Deepseek-V2
DeepSeek выложила в открытый доступ веса модели V2-Chat-0628. Это обновление флагманской Deepseek-V2, одной из лучших моделей в открытом доступе.
Согласно чартам LMSYS Chatbot Arena - эта модель №11 среди open-source моделей на сегодняшний день.
Детальные достижения:
🟢Hard Prompts 3-я позиция чарта;
🟢Coding 3-я позиция чарта;
🟢Longer Query 4-я позиция чарта;
🟢Math 7-я позиция чарта.
Основная особенность обновления - была оптимизирована возможность следования инструкциям в области "система", что значительно повышает удобство работы с иммерсивным переводом, RAG и другими задачами.
Одновременно с обновлением в репозитории на Huggingface, модель доступна по API в сервисе https://platform.deepseek.com.
💵 Стоимость API DeepSeek-V2-Chat-0628 (128K Context length):
Input - $0.14 / 1M tokens
Output - $0.28 / 1M tokens
⚠️ Размер модели ~ 480 Gb, для локального запуска формата BF16 потребуется 8х80GB GPU`s.
⚖️ Лицензирование кода: MIT
⚖️ Лицензирование модели: Своя лицензия семейства DeepSeek-v2
🟡Страница проекта
🟡Arxiv
🟡Модель на HF
@ai_machinelearning_big_data
#LLM #DeepSeekV2 #ML
Привет!
Это команда Концепт-Разработка. Мы занимаемся развитием и внедрением продуктов в сфере больших данных, корпоративных хранилищ данных, BI и систем управления данными. У себя в канале развиваем сообщество бизнес и системных аналитиков, разработчиков и data-инженеров.
+ Актуальные вакансии;
+ Интересные разработки;
+ Проекты федеральных заказчиков;
+ Новости индустрии и многое другое.
Подписывайся на канал, мы будем рады и экспертам, и начинающим специалистам.
Реклама. ООО "КОНЦЕПТ РАЗРАБОТКА". ИНН 7703471165. erid: LjN8KWK3G
Какой путь к работе мечты самый короткий? Конечно, One Day Offer от Сбера! 😉
Если ты Data Analyst или Data Engineer, мы ждём тебя 27 июля. Получи возможность пройти fast-интервью, познакомиться с командой и забрать долгожданный оффер всего за один день.
Наша команда разрабатывает и внедряет DS-решения в точки касания клиента со Сбером: отделения, мобильное приложение, банкоматную сеть и т.д. Мы работаем с технологиями Python, Spark, SQL, Hadoop, GreenPlum и за год внедряем более 200 моделей.
Тебя ждут интересные и разноплановые задачи 👇
▪️ Обучение всех типов моделей искусственного интеллекта: от классического ML до глубоких нейронных сетей.
▪️ Создание высокотехнологичных сервисов: от систем принятия решений до компьютерного зрения и обработки естественного языка.
▪️ Развитие хранилища на Teradata и DataLake на Hadoop.
Отправляй заявку уже сейчас и присоединяйся к команде!💚
🌍 Новая реальность: посетить концерт, не выходя из дома, увидеть друзей, находясь за тысячи километров, получить высшее образование по Data Science удалённо.
Когда виртуальные границы стираются, самое время применить технологии с пользой. Онлайн-бакалавриат Нетологии и ТюмГУ «Аналитика и Data Science» — способ получить диплом о высшем образовании из любой точки мира.
За 4 года вы освоите навыки работы с данными и станете бакалавром в области математики, который умеет работать с Big Data, компьютерным зрением и искусственным интеллектом. Будете закреплять знания на практике, создадите портфолио и сможете строить карьеру аналитика данных или Data Scientist.
Во время учёбы у вас будут все студенческие льготы и скидки, а в конце вы получите диплом очного бакалавриата ― такой же, как у студентов офлайн-обучения.
Узнать подробности о программе 👉https://netolo.gy/dgU1
Реклама ООО “Нетология” 2VSb5yj8Z4U
🌟 whylogs — библиотека Python для конвейеров обработки данных и для ML-приложений
— pip install whylogs
whylogs позволяет эффективно собирать данные для:
— отслеживания любых изменений в наборе данных
— быстрой визуализации основных статистических параметров данных
— обнаружения дрейфа данных
— выявления проблем в процессе обучения, причин снижения производительности ML-модели
🖥 GitHub
🟡 Доки
@data_analysis_ml
🌟 Dolphin-2.9.3-Yi-1.5: квантизированные GGUF версии с 34B параметрами и контекстным окном 32k.
На Huffingface пользователь bartowski опубликовал несколько квантизированных версий с разной степенью сжатия,
Размерность моделей: от IQ2_XS (10.3 Gb) до Q8_0_L (37.4GB), рекомендуемая — Q6_K.
Семейство Dolfin основано на моделях Yi и распространяется по лицензии Аpache 2.0
Dolphin-2.9.3 обладает разнообразными навыками следования инструкциям, общения и программирования. Она также имеет начальные агентные способности и поддерживает вызов функций.
Модель не имеет цензуры. Создатели отфильтровали набор данных, чтобы удалить выравнивание и предвзятость. Dolphin обучался на данных, полученных из GPT4, среди других моделей.
🤗 Hugging Face
@data_analysis_ml
#LLM #ML #Huggingface