ai_machinelearning_big_data | Technologies

Telegram-канал ai_machinelearning_big_data - Machinelearning

27349

Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml

Subscribe to a channel

Machinelearning

🤔 Билайн.бизнес и венчурный фонд ХАЙВ объявляет о запуске серии Pitch Day AI, посвященной инновационным технологиям в области искусственного интеллекта и больших данных.

Мы ищем перспективные стартапы, у которых есть В2В продукт для корпоративных клиентов, которые получат возможность стать партнерами билайн.бизнес и войти в продуктовый портфель Big Data & AI, а также привлечь инвестиции от венчурного фонда ХАЙВ в размере до 100 млн руб.

Темы:
- Видеоаналитика и компьютерное зрение
- Анализ речи и текста
- Приложения, решения и ПО для повышения эффективности бизнеса и государства на основе машинного обучения и больших данных (кроме видео-, аудио- и текстовой аналитики), включая сервисы для оценки финансовых рисков и прогнозирования оптимального места для открытия торговой точки.

Условия для участия:
- Готовый продукт, соответствующий одной из заявленных тем
- Наличие команды и первых коммерческих клиентов с подтвержденным опытом внедрения и использования продукта.

Этапы проведения:
Прием заявок до 19 июля.
19 июля — 2 августа — отбор проектов.
2 — 14 августа — подготовка к выступлению.
15, 22 и 29 августа — проведение Pitch Day.

Все необходимые для участия и просто полезные ссылки — на билайн now 🐝

Реклама ПАО «ВымпелКом», beeline.ru

Читать полностью…

Machinelearning

⚡️ MOTIA — outpaint видео (добавление контента за границами области просмотра) с сохранением межкадровой согласованности.

MOTIA — двухэтапный конвейер на основе генеративной диффузии.
Первая фаза (input-specific adaptation) выполняет outpaint первого кадра видео и определяет паттерн закономерности для дорисовки в последующих кадрах.
Вторая фаза (pattern-aware outpainting) делает непосредственно outpaint всего видео на основе знаний первой фазы, добавляя шум и контролирует пространственную геометрию, сохраняя возможную плавность и бесшовность.

Судя по бенчмаркам разработчика, MOTIA - один из лучших методов на данный момент.

Запустить:

conda env create -f environment.yml
git clone https://huggingface.co/wangfuyun/Be-Your-Outpainter
bash run.sh


🖥 GitHub
🟡 Модели на HF
🟡 Страничка MOTIA
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ RouteLLM - фреймворк с открытым исходным кодом для эффективной маршрутизации между несколькими LLM

Метод построения маршрутов (роутеров) использует данные о предпочтениях для обучения управляющего роутера, который может предсказывать, какие запросы могут быть обработаны слабыми моделями, а какие требуют более мощных.

RouteLLM обещает значительное снижение затрат без ущерба для качества ответов. В тестах, таких как MT Bench и MMLU, RouteLLM достиг высокой производительности при меньшем количестве вызовов на мощные модели.

В фреймворке реализована поддержка вызова по API (OpenAI, Anthropic, Google, Amazon Bedrock) и локального бекэнда (Ollama)

Преднастроены 4 роутера, обученных на паре моделей gpt-4-1106-preview и  mixtral-8x7b-instruct-v0.1 :

mf - использует модель матричной факторизации, обученную на данных о предпочтениях
sw_ranking - использует взвешенный расчет ELO для маршрутизации, где каждый голос взвешивается в зависимости от того, насколько он похож на запрос пользователя
bert - использует классификатор BERT
causal_llm - использует классификатор отдельной LLM настроенный на данные о предпочтениях.
random - случайным образом направляет запрос к случайной модели.

🟡Arxiv
🟡Страница проекта
🟡Модели (Augmented for routes) на HF
🖥Github [ Stars: 686 | Forks: 52 | Issues:2]

#LLM #ML #machinelearning #opensource

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм

Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors.

Kolors была обучена на миллиардах пар "текст-изображение" и показывает отличные результаты в генерации сложных фотореалистичных изображений.

По результатам оценки 50 независимых экспертов, модель Kolors генерирует более реалистчиные и красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели

🟡 Страничка Kolors
🟡 Попробовать
🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Обновление nanoLLaVA-1.5 1B

На днях обновилась Vision-Language модель nanoLLaVA-1.5 1B для работы на edge девайсах.

Значительно улучшилась производительность по сравнению с v1.0, при этом размер остался таким же небольшим, что очень удобно для многих применений

🤗 Hugging Face
🖥 Github

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Дмитрий Зауэрс назвал принципы для регулирования искусственного интеллекта в финансовой отрасли

На Финансовом конгрессе в Санкт-Петербурге обсудили подходы к регулированию искусственного интеллекта.

В дискуссии на эту тему приняли участие представители Газпромбанка, Яндекса, ВТБ, Московской биржи, Центра технологий искусственного интеллекта Сколтеха.

Модератор сессии «Искусственный интеллект: подходы к регулированию» Первый заместитель Председателя ЦБ РФ Ольга Скоробогатова отметила, что банки преуспели в использовании традиционных инструментов с использованием ИИ, но появляются новые инструменты, и в связи с этим возникает вопрос о том, как защитить бизнес и потребителей от некачественных моделей и как должна быть распределена ответственность.

😃Заместитель Председателя Правления Газпромбанка Дмитрий Зауэрс считает, что необходим дифференцированный подход к регулированию использования ИИ в финансовой сфере.

«В целом, можно выделить три вида моделей. Первое — это большие модели общего назначения, например, большие лингвистические модели. Второй уровень — модели, при создании которых банки заинтересованы в сотрудничестве, в частности для анти-фрод решений. И, третье — это модели, за счет которых банки конкурируют друг с другом, и они всегда будут разрабатываться внутри. На мой взгляд, большие модели по сути становятся естественными монополиями. И здесь требуется серьезное регулирование для того, чтобы общество в целом могло получать пользу от этих разработок. Что касается общих для банков решений, то здесь также нужны какие-то нормы, потому что требуется обмен большим количеством данных, и он должен быть регламентирован. Когда речь идет о моделях за счет, которых банки конкурируют, — тут нужно нулевое регулирование», — сказал Дмитрий Зауэрс.


«В том числе тут обсуждалась интерпретируемость моделей, я считаю, что это является ограничением для развития технологий, потому что более сильный класс моделей, например, нейросети, не являются интерпретируемыми. В качестве сравнения: большинство не понимает, как устроены двигатели внутреннего сгорания, но успешно пользуется автомобилями. И также интерпретируемость моделей не влияет на их эффективность», — объяснил он.


Участники дискуссии в целом согласились с предложенным подходом и сошлись на мнении, что регулирование не должно создавать барьеры для развития ИИ-технологий.

«В скором времени конкуренция на финансовом рынке превратится в конкуренцию между дата-сайентистами», — отметил Дмитрий Зауэрс.


@gazprombank

Читать полностью…

Machinelearning

🌟 «Баннерная крутилка» — какую роль в ней играет ML

Яндекс рассказал на Хабре о том, как работает один из самых высоконагруженных сервисов.

Всего за 200 миллисекунд крутилка перебирает базу из миллиарда документов и выдает наиболее релевантные для пользователя.

Автор рассказал, какие решение они применили, как устроены стадии отбора документов и какую роль в них играет ML.

📎Habr

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ InternLM представила XComposer-2.5 - мультимодальную 7B VLM с увеличенным контекстом для ввода и вывода.

InternLM-XComposer-2.5 справляется с задачами по текстовому описанию изображений со сложной композицией, достигая возможностей GPT-4V. Обученная с помощью чередующихся контекстов "изображение - текст" длиной 24 КБ, она может легко расширяться до контекстов длиной 96 КБ посредством экстраполяции RoPE.

По сравнению с предыдущей версией 2.0, InternLM-XComposer-2.5 имеет три основных улучшения:
- понимание сверхвысокого разрешения;
- детальное понимание видео;
- обрабатывать в контексте 1 диалога несколько изображений.

С применением extra Lora, XComposer-2.5 способна выполнять комплексные задачи:
- создание веб-страниц;
- создание высококачественных текстовых статей с изображениями.

XComposer-2.5 была оценена по 28 тестам, превзойдя существующие современные модели с открытым исходным кодом в 16 тестах. Она также близко конкурирует с GPT-4V и Gemini Pro по 16 ключевым задачам.

🖥 GitHub
🟡 Arxiv
🟡 Model
🟡 Demo
📺 Demo video

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 MoMA — open-source модель от ByteDance для генерации изображений по референсу.

MoMA не требует обучения и позволяет быстро генерировать изображения изображения с высокой точностью детализации и сохранением идентичности.
Скорость MoMA обеспечивается оптимизацией механизма внимания, который передает признаки исходного изображения в диффузионную модель.
Модель является универсальным адаптером и может быть применена к различным моделям без изменений.
На сегодняшний день MoMA превосходит в синтетических тестах аналогичные существующие методы и позволяет создавать изображения с высоким уровнем соответствия промпту максимально сохраняя стиль референсного изображения.

✍️ Рекомендованые параметры оптимизации потребления VRAM :

22 GB or more GPU memory:

args.load_8bit, args.load_4bit = False, False

18 GB or more GPU memory:
args.load_8bit, args.load_4bit = True, False

14 GB or more GPU memory:
args.load_8bit, args.load_4bit = False, True


🟡 Страничка MoMA
🖥 GitHub
🤗 Hugging Face
🟡 Demo

Читать полностью…

Machinelearning

🔥ESPNet XEUS - новая SoTA распознавания речи.

Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам! 🔥

> Лицензия MIT
> 577 миллионов параметров.
> Превосходит MMS 1B и w2v-BERT v2 2.0
> Архитектура E-Branchformer
> Датасет 8900 часов аудиозаписей на более чем 4023 языках

git lfs install
git clone https://huggingface.co/espnet/XEUS

HF: https://huggingface.co/espnet/xeus
Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

СберТех представил замену IntelliJ IDEA – среду разработки GIGA IDE

1 июля JetBrains отключила россиянам возможность скачивать одну из самых известных сред разработки на Java – IntelliJ IDEA, что заставило многих разработчиков побеспокоиться. Но СберТех представил решение - российскую среду разработки GIGA IDE, которая может стать заменой ушедшей среде.

GIGA IDE позволяет вести разработку на популярных языках программирования, обеспечивает совместимость с востребованными плагинами, а встроенный в среду AI-ассистент GIGA CODE позволяет писать код до 25% быстрее.

- GIGA IDE Desktop – это интегрированная среда разработки, которая включает 70 инструментов для облегчения задач разработки, автоматизации тестирования и администрирования приложений. Разработчики уже могут скачать GIGA IDE Desktop на платформе GitVerse.

- GIGA IDE Cloud позволит вести разработку в облаке, расширив возможности устройства дополнительными облачными ресурсами. Чтобы первыми получить доступ к GIGA IDE Cloud – регистрируйтесь на платформе GitVerse на раннее тестирование.

*AI (Artificial Intelligence) - «искусственный интеллект»

Читать полностью…

Machinelearning

🌟 ManiWAV:— обучение роботизированные системы аудио-визуальному самоконтролю.

Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель

Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU


🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Станьте профессионалом в области Data Science и машинного обучения в магистратуре от Центрального университета!
Центральный университет — современный вуз, созданный при поддержке ведущих компаний России: Т-Банка, Авито и других.


Получите диплом магистра в области математики и компьютерных наук и обучайтесь на основе реальных кейсов ведущих ИТ-компаний у профессоров из МГУ, МФТИ, РЭШ и практиков из индустрии. Хорошая новость для тех, кто уже имеет опыт в Data Science и машинном обучении — вы можете пропустить базовое обучение и закончить магистратуру за 3 семестра.

У каждого студента будет:
- личный ментор по траектории обучения;
- доступ к карьерному центру с коучами и консультантами;
- опыт работы в проектах партнеров уже во время обучения.

Участвуйте в онлайн-отборе, чтобы выиграть грант на обучение до 1,2 млн рублей. Больше подробностей про университет и конкурс грантов по ссылке!
erid:2Vtzqw3oacG
Реклама, АНО ВО «Центральный университет», ИНН 7743418023

Читать полностью…

Machinelearning

🌟 CriticGPT — модель на основе GPT-4, которая помогает увидеть ошибки в ответах ChatGPT

Вчера OpenAI выкатили CriticGPT, которая пишет критические замечания к ответам ChatGPT для нахождения ошибок в ответе, что особенно полезно для RLHF (обучения с подкреплением на основе человеческой обратной связи).

А вот статья от OpenAi - "LLM Critics Help Catch LLM Bugs - для технарей, о том, как создавался CriticGPT.

Из нее следует, что:
- аннотаторам-людям в 63 % случаев больше нравились критические заметки CriticGCO, сделанные CriticGPT, чем заметки, сделанные людьми, особенно когда речь шла о поиске ошибок, связанных с LLM ( это к пункту поста про 60%), как видите - формулировка отличается, смысл совершенно другой.

- новая техника под названием "Force Sampling Beam Search" используется в CriticGPT, чтобы помочь критикам писать более качественные и подробные рецензии.Этот метод также снижает вероятность "галлюцинаций", которые возникают, когда ИИ делает или предлагает ошибки, которых нет или которые не имеют значения. В CriticGPT одним из важнейших преимуществ является то, что пользователи могут изменять степень тщательности поиска ошибок.
То есть процесс не автоматический, вовлеченность человека важна на ранних этапах

- CriticGPT не справляется с длинными и сложными заданиями по кодированию, поскольку обучался на коротких ответах ChatGPT

- CriticGPT не всегда находит ошибки, которые распространяются на несколько участков кода

Плюсы:
- Безусловно, это большой шаг вперед в области рецензирования кода с помощью ИИ.

- Он улучшит прикладной подход рецензирования кода, позволит сочетать возможности GPT-4 с продвинутым обучением и новыми методами контроля качества ответов.

🟡 Блог-пост OpenAI
🟡Статья

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🖥 Unstructured — библиотека Python для предобработки сырых данных

pip install "unstructured[all-docs]"

Unstructured предоставляет компоненты для предобработки изображений, текстовых документов; поддерживает многие форматы: PDF, HTML, Word docs и др.

Запустить библиотеку в контейнере:

docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest
docker exec -it unstructured bash


🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ ReproModel — набор no-code инструментов для обучения и тестирования AI-моделей.

ReproModel — GUI, который упрощает эффективность исследований, предоставляя стандартизированные модели, загрузчики данных и процедуры обработки.
Он включает в себя полный спектр уже существующих бенчмарков, экстрактор кода и дескриптор LLM.

Этот набор инструментов помогает исследователям модульно структурировать свою разработку и сравнивать производительность каждого этапа конвейера воспроизводимым способом.
По заявлению разработчика, инструмент помогает сократить время разработки, расчета и обучение модели как минимум на 40%.

*️⃣Лицензирование: MIT License
*️⃣Для локального запуска необходим NodeJS
*️⃣Для локального запуска генератора методологий необходима Ollama

🖥 GitHub [ Stars: 35 | Issues: 0 | Forks: 1 ]
🟡 Демо видео на Youtube

#opensource #train #LLM #SOTA

Читать полностью…

Machinelearning

Изучите применение ChatGPT в рабочих целях, чтобы получить от этого прибыль. Сейчас самое время начать использовать искусственный интеллект.

Здесь вы узнаете, почему стоит освоить ChatGPT. Это поможет вам:
- Использовать ChatGPT в вашей профессиональной сфере.
- Предлагать компаниям разработку индивидуально дообученного ChatGPT по заказу.
- Увеличить свой доход, освоив навык создания индивидуально дообученного ChatGPT.

Зарегистрируйтесь на бесплатный вебинар, чтобы узнать больше деталей.

Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395. erid: LjN8KPpVo

Читать полностью…

Machinelearning

🌟 CLIP-DINOiser — MaskCLIP с семантической сегментацией под управлением DINO

Метод CLIP-DINOiser использует только один прямой проход CLIP и двух легких сверточных слоев при выводе, при этом не требует дополнительного контроля и дополнительной VRAM.

В результате применение методв значительно снижается уровень шума.

Метод демонстрирует высокие результаты в бенчмарках COCO, Pascal Context, Cityscapes и ADE20k.

Код запуска:

python demo.py --file_path [path to the image file] --prompts [list of the text prompts separated by ',']

❗️ Дополнительно нужно установить MMCV and MMSegmentation

🟡 Страничка CLIP-DINOiser
🟡 Arxiv
🖥 GitHub
🟡 Jupyter Notebook

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Arcee Agent 7B — свежая модель на базе Qwen2-7B

Arcee Agent 7B превосходит GPT-3.5-Turbo, и многие другие модели в написании и интерпретации кода.
Arcee Agent 7B особенно подходит для желающих реализовать сложные решения на основе ИИ без вычислительных затрат на большие языковые модели.

И да, также имеются квантизованные GGUF-версии Arcee Agent 7B.

🤗 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 MInference 1.0 by Microsoft pre-release

В преддверии предстоящей ICML 2024 (Вена, 21-27 июля 2024 г.) Microsoft опубликовала результаты исследования проекта MInference. Данный метод позволяет ускорить обработку длинных последовательностей за счет разреженных вычислений, применение уникальных шаблонов в матрицах.
Методика MInference не требует изменений в настройках предварительного обучения.

Проведенные исследователями Microsoft синтетические тесты метода на моделях LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K и Qwen2-128K показывают сокращение задержек и ошибок при предварительном заполнении до 10 раз на A100 с сохранением точности.

🟡 Discuss at Huggingface
🖥 GitHub
🟡 Arxiv
🟡 Страница проекта MInference 1.0

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Опубликована модель CodeGeeX4-ALL-9B семейства CodeGeeX4

CodeGeeX4-ALL-9B - мультиязычная модель для генерации кода, обученная на GLM-4-9B. Новая версия семейства позволяет поддерживать комплексные функции:
- завершение и генерация кода;
- интерпретатор кода;
- вопросы и ответы по коду на уровне репозитория;
- веб-поиск (при наличии агента)

CodeGeeX4-ALL-9B показала конкурентоспособную производительность в общедоступных тестах BigCodeBench и NaturalCodeBench.
По заявлению авторов, это самая мощная модель генерации кода с числом параметров менее 10B, превосходящая в некоторых аспектах более крупные модели общего назначения и обеспечивающая лучший баланс между скоростью вывода и производительности модели.

⚠️ Лицензирование

Модель имеет собственный тип лицензирования:
- бесплатно и неограниченно для для научно-образовательных и исследовательских проектов
- коммерческие проекты должны пройти регистрацию в форме https://open.bigmodel.cn/mla/form и выполнять соблюдение условий

Запустить:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained("THUDM/codegeex4-all-9b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"THUDM/codegeex4-all-9b",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
trust_remote_code=True
).to(device).eval()
inputs = tokenizer.apply_chat_template([{"role": "user", "content": "write a quick sort"}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True ).to(device)
with torch.no_grad():
outputs = model.generate(**inputs)
outputs = outputs[:, inputs['input_ids'].shape[1]:]
print(tokenizer.decode(outputs[0], skip_special_tokens=True))


🖥 GitHub
🟡 HF Models
🟡 Demo
🟡 VS Code Extension
🟡 Jetbrains Extension

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Lazy Diffusion — трансформер для редактирования изображений практически в реалтайме

LazyDiffusion — это диффузионный трансформер, который очень быстро генерирует объекты по промпту в области, заданной маской. Генерируются только пиксели под маской, и время выполнения зависит больше от размера маски, чем от размера изображения.

Если маска размера ~10% от всего изображения, то LazyDiffusion показывает в 10 раз большую скорость, чем другие модели и методы инпейнтинга.

🟡 Страничка Lazy Diffusion
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Long-CLIP — набор моделей на основе CLIP для работы с длинными текстовыми описаниями.

Long-CLIP — это модифицированная вариация классического CLIP, поддерживающая обработку до 248 текстовых токенов и позволяющая генерировать точные изображения на основе длинного промпта.

Тестирование Long-CLIP на 1 миллионе пар "текст - изображение" показало превосходство над CLIP на 20% при работе с длинным текстовым описанием и на 6% при работе с обычным.

🟡Models
🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 DragAnything — метод анимирования чего угодно на изображении

По сравнению с аналогичными методами, DragAnything обладает рядом преимуществ. Во-первых, DragAnything, позволяет явно указать траекторию движения объекта.

Во-вторых, DragAnything позволяет управлять движением любых объектов, включая фон.

Ну и наконец, DragAnything позволяет одновременно управлять движением нескольких объектов.

🟡 Страничка DragAnything
🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥 Microsoft незаметно обновила Phi-3 Mini

— значительно улучшено понимание кода на Python, C++, Rust и Typescript
— улучшен вывод, теперь он более структурированный
— улучшено понимание сложных предложений
— добавлена поддержка тега <|system|>.
— улучшена способность к рассуждению и понимание длинного контекста

Это обновление коснулось контрольных точек 4K и 128K

🤗 Hugging Face

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🌟 Paint by Inpaint — высокоточный Instruct pix2pix по текстовому запросу.

Navve Wasserman с коллегами представили улучшенный вариант Instruct pix2pix - "Paint by Inpaint". Методика улучшения:

был создан конвейер обработки изображений, который с помощью модели inpaint добавлял объекты на изображения. Затем, сравнивая исходное изображение с полученным, вычиталась разница — так получился датасет PIPE

датасет PIPE был аннотирован большой моделью VLM и обработан для устранения артефактов маскированя объектов — так получился набор высокодетализированных объектов для вычитания

— эти два противоположных процесса: удаление и добавление объектов совместили, примменя контроль большей точностью (аналогично GAN), в результате чего была получена модель, очень точно добавляющая объекты на изображения по текстовому запросу.

Предобученные модели Paint-By-Inpaint:

- addition-base-model - базовое добавление объектов
- addition-finetuned-model - файнтюн на датасете MagicBrush
- general-base-model - удаление и добавление объектов
- general-finetuned-model - файнтюн на датасете MagicBrush

Датасет PIPE для обучения и тестирования на HuggingFace

Пример загрузки тестового набора:


from datasets import load_dataset
from torch.utils.data import DataLoader
from dataset.dataset import PIPE_Dataset

data_files = {"train": "data/train-*", "test": "data/test-*"}
pipe_dataset = load_dataset('paint-by-inpaint/PIPE',data_files=data_files)

train_dataset = PIPE_Dataset(pipe_dataset, split='train')
train_dataloader = DataLoader(train_dataset, batch_size=32, shuffle=True)

test_dataset = PIPE_Dataset(pipe_dataset, split='test')
test_dataloader = DataLoader(test_dataset, batch_size=1, shuffle=True)


Страница проекта Paint by Inpaint
Paper
Demo
GitHub


@ai_machinelearning_big_data

Читать полностью…

Machinelearning

🔥 Depth Anything v2: Новый уровень построение карты глубины

Версия 2 значительно улучшена за счет комбинации уточненных синтетических данных и hi-res набора реальных изображений в датасете обучения. Диапазон параметров моделей - от 25М до 1.3B. 💙

👉 Линейка моделей:
- Depth-Anything-V2-Small (24.8М) Apache-2.0
- Depth-Anything-V2-Base (97.5М) CC-BY-NC-4.0
- Depth-Anything-V2-Large (335М) CC-BY-NC-4.0
- Depth-Anything-V2-Giant (1.3В) CC-BY-NC-4.0 Coming soon

👉 Реализовано использование V2:
- TensorRT
- ONNX
- ComfyUI
- Transformers.js (real-time depth in web)
- Android

Paper
Project
Repo
Demo

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Microsoft обновила собственный бесплатный курс по генеративному ИИ

В курсе видео, практика (код) и дополнительные материалы.
Пргорамма курса состоит из изучения структуры и работы LLM, тонкостям промптинга, созданию собственного приложения для генерации изображений, функционалу RAG для LLM и принципам файнтюна.
Для прохождения курса нужны:
- учетная запись на Azure
- доступ к api OpenAI

Разумеется, все методики и манипуляции предлагается выполнять обучающимся в экосистеме Microsoft, на их мощностях и с использованием их сервисов.

Бэкенд учебного приложения для генерации картинок - DALLE и Midjourney.

Большие надежды строить относительно курса не стоит - экосисистема Microsoft требует отдельных компетенций, но в качестве базового структурированного курса для новичков - вполне подойдет.

🖥 Курс полностью выложен на Github: https://github.com/microsoft/generative-ai-for-beginners

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

⚡️ Gemma 2 9B GGUF — набор квантизованных версий Gemma 2

Встречайте набор моделей, полученных квантизацией Gemma 2 с разной степенью сжатия.
Для квантизации использовался этот датасет

Особенности:
- GGuf версии очень слабы, более-менее адекватная - 9B (Q4 и Q5)
- Фокус "специализации": текст (стилистика, словарный запас, обсуждения), применимо только к English-language content, программирование - обучение синтаксису и паттернам написания кода ( прокачка скиллов модели по ЯП не уточняются), математика - решение задач, логика постоения ответов.
- Модель не поддерживает системные промты

🤗 Hugging Face
🟡 Неквантизованная Gemma 2

@ai_machinelearning_big_data

Читать полностью…

Machinelearning

Лето в самом разгаре, а это значит, что пора на фестиваль!

“ЛЦТ.Фест” – событие, которое нельзя пропустить. Сегодня отгремел первый день феста, где гости могли посетить вдохновляющие лекции от топовых экспертов, инновационную выставку с современными решениями, астрошатер с тарологом, а также погрузиться в мир виртуальной реальности в киберпространстве.

Завтра будет не менее насыщенный день. А вечером отметим окончание самого масштабного хакатона страны “Лидеры цифровой трансформации” концертом ANNA, группы ХЛЕБ и диджей-сеты от BARBARA и организаторов.

Фестиваль проходит в кластере “Ломоносов” по адресу: Раменский бульвар, дом 1.

Участие в фестивале бесплатное. У вас еще есть шанс попасть на фест, для этого надо зарегистрироваться на сайте. В поле промокода введите “Machinelearning”. Вход осуществляется строго по билетам.

Реклама ГБУ «Агентство инноваций Москвы» ИНН 7703770430 erid: 2SDnjcN9xkS

Читать полностью…
Subscribe to a channel