vistehno | Unsorted

Telegram-канал vistehno - Искусственный интеллект. Высокие технологии

17924

Наука, технологии, изобретения и урбанистика — прямо сейчас говорим о том, что уже скоро повлияет на каждого. по всем вопросам - @workakkk @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы

Subscribe to a channel

Искусственный интеллект. Высокие технологии

🔍 Интересное сравнение, которое показывает, сколько бы вы заработали, если бы 10 лет назад вложили 100 долларов в крупные IT компании!..

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Просто забавные творения от Sora.

🔍 Пожалуй, до матрицы еще далеко, человечество пока может спать спокойно...

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

Искусственный интеллект покоряет бизнес: внедрение ИИ в компаниях выросло в 2 раза

Уровень использования технологий искусственного интеллекта среди организаций Российской Федерации повысился с 20% в 2021 году до 43% в 2024 году. А лидерами среди отраслей экономики и секторов социальной сферы по использованию технологий искусственного интеллекта (ИИ) являются сфера финансовых услуг, сектор информационно-коммуникационных технологий, высшее образование и топливно-энергетический комплекс. В них доля использующих ИИ организаций достигает 66%. Такие данные приводятся в аналитическом докладе «Индекс готовности приоритетных отраслей экономики Российской Федерации к внедрению искусственного интеллекта», подготовленным Национальным центром развития искусственного интеллекта при Правительстве Российской Федерации (НЦРИИ) при содействии Всероссийского центра изучения общественного мнения (ВЦИОМ). В отчете проанализированы 36 показателей по 11 направлениям, характеризующих развитие ИИ. Перечень таких показателей в том числе включает наличие отечественных решений на основе технологий ИИ на российском рынке, специалистов в области ИИ, инфраструктуры и др. В 2024 году в исследовании приняли участие более пяти тысяч организаций в 19 отраслях экономики и секторах социальной сферы.

Среди других выводов исследования отмечается значительный рост востребованности использования технологий обработки естественного языка, распознавания и синтеза речи. Наблюдается рост качества ИИ-систем и их эффективности: в этом году 97% организаций, использующих искусственный интеллект, получили положительный эффект от его применения. Кроме того, существенный и многократный экономический эффект от применения ИИ организации стали отмечать в 2,5 раза чаще за последние три года. При этом значимыми барьерами широкомасштабного внедрения ИИ остаются недостаток кадров и финансирования.

В рамках исследования представлена динамика развития искусственного интеллекта в 19 отраслях экономики; изучен опыт организаций, внедривших искусственный интеллект; определены потребности российских организаций в возможных мерах государственной поддержки для расширения практики использования искусственного интеллекта и увеличения эффективности его использования; выработаны рекомендации по нивелированию проблем, возникающих при внедрении искусственного интеллекта.

С полной версией отчета можно ознакомиться по ссылке: База знаний Национального портала РФ по искусственному интеллекту и нейросетям

Индекс рассчитывается с 2021 года при поддержке Правительства РФ в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации». Результаты исследования используются в рамках исполнения поручения Президента Российской Федерации Пр-172, п.1 г) - 2 от 29.01.2023.

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🌟 BioNeMo: фреймворк разработки ИИ-моделей для дизайна лекарств.

NVIDIA BioNeMo2 Framework - это набор инструментов, библиотек и моделей для вычислительного поиска и разработки лекарственный препаратов.

Он ускоряет самые трудоемкие и дорогостоящие этапы создания и адаптации моделей биомолекулярного ИИ, предоставляя оптимизированные модели и инструменты, которые легко интегрируются в вычислительные ресурсы на базе GPU.

Фреймворк позволяет создавать, обучать и настраивать модели, его возможности охватывают различные рабочие нагрузки и терапевтические механизмы: генерация молекул, предсказание структуры белка, белок-лиганд и обучение представлениям.

Помимо кода пайплайнов, скриптов и утилит, BioNeMo2 Framework содержит:

▶️Предобученные модели:

🟢ESM-2 - предварительно обученный двунаправленный энкодер (BERT-подобный) для аминокислотных последовательностей. BioNeMo2 включает в себя чекпоинты с параметрами 650M и 3B;

🟢Geneformer - модель табличного подсчета, которая генерирует плотное представление sc-RNA клетки путем изучения паттернов коэкспрессии в отдельных клетках.


▶️Датасеты:

🟠CELLxGENE - совокупность общедоступных single-cell наборов данных, собранных в CZI (Chan Zuckerberg Initiative) общим объемом в 24 млн. клеток;


🟠UniProt - база данных кластеризованных наборов белковых последовательностей из UniProtKB, созданная на основе транслированных геномных данных.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Framework #NVIDIA

Читать полностью…

Искусственный интеллект. Высокие технологии

🌟 DeepSeek-V2.5-1210: файнтюн базовой DeepSeek-V2.5.

Файнтюн модели DeepSeek-V2.5 с 236 млрд. параметров с улучшенными показателями в математических вычислениях, программировании, генерации текста и рассуждении. В модели также оптимизированы функции загрузки файлов и обобщения веб-страниц.

Точность решения задач с DeepSeek-V2.5-1210 на LiveCodebench выросла с 29,2% до 34,38% относительно родительской DeepSeek-V2.5, в математических тестах MATH-500 с 74.8% до 82.8%.

DeepSeek-V2.5-1210 поддерживает function calling и использует обновленный шаблон чата для расширения возможностей модели.

⚠️ Чтобы использовать модель в инференсе с BF16 требуется 8 GPU c 80 GB VRAM каждый.


▶️Пример инференса DeepSeek-V2.5-1210 на Transformers:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig

model_name = "deepseek-ai/DeepSeek-V2.5-1210"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
# `max_memory` should be set based on your devices
max_memory = {i: "75GB" for i in range(8)}
# `device_map` cannot be set to `auto`
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="sequential", torch_dtype=torch.bfloat16, max_memory=max_memory, attn_implementation="eager")
model.generation_config = GenerationConfig.from_pretrained(model_name)
model.generation_config.pad_token_id = model.generation_config.eos_token_id

messages = [
{"role": "user", "content": "Write a piece of quicksort code in C++"}
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(input_tensor.to(model.device), max_new_tokens=100)

result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
print(result)


📌Лицензирование: MIT License.


🟡Модель


@ai_machinelearning_big_data

#AI #ML #LLM #DeepSeek

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 OpenAI предоставила доступ к Sora — новому мощному генератору видео, способному изменить множество отраслей. Это произошло!

Теперь вы можете:

- Создавать видео на основе текстов и изображений, делать ремиксы и объединять несколько роликов в единый видеоряд.
- Качество видео превосходит все ожидания — оно лучше, чем у Kling, GEN-3 и других конкурентов.
- Интерфейс включает в себя галерею, возможность создания папок и монтажа.
- Вы можете выбрать продолжительность видео до 20 секунд и разрешение до 1080p, а также продлить генерацию до пяти раз.
- Система была обучена на новостных материалах, поэтому генерация телевизионных передач получается особенно реалистичной.
- Доступ предоставляется платным подписчикам. За $20 в месяц вы получите 50 генераций, а за $200 — неограниченное количество генераций и отсутствие водяных знаков.

Попробовать можно здесь!

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 flux-fill-outpaint — полезный инструмент для генерации изображений с использованием нейросетей!

🌟 Этот инструмент позволяет пользователям создавать изображения, дополняя или редактируя части существующих картинок, с применением технологии "outpainting". Outpainting — это процесс, при котором нейросеть генерирует или "достроит" изображение за пределами его исходных рамок, расширяя сцену или добавляя новые элементы, сохраняя при этом стиль и контекст исходного изображения.

🔗 Ссылка: *клик*

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🖥 Анонс второго дня OpenAi: теперь вы можете тренировать свою сверхумную модель на основе o1!

Для превращения модели в эксперта в определенной области достаточно предоставить ей около 20 примеров задач с их решением. Впечатляет, правда?

Уже начали выдавать доступ различным университетам, чтобы они смогли заменить своих преподавателей
AI представили reinforcement finetuning для o1 (RFT).

Этот метод отличается от обычного файнтюнинга (или файнтюнинга с учителем) тем, что он позволяет обучать модель думать определённым образом в конкретной области, важной для пользователя. Разработчики утверждают, что таким способом можно довести модель до экспертного уровня в нужной сфере, используя значительно меньший объём данных, чем требуется для стандартного файнтюнинга.

Файнтюнинг будет доступен непосредственно на платформе OpenAI: необходимо лишь выбрать режим "reinforcement" и загрузить набор данных (в ходе демонстрации использовался датасет всего из 100 образцов, что оказалось достаточным для получения хороших результатов, судя по графикам оценки качества).

К сожалению, обычным пользователям эта функция станет доступна не раньше следующего года – сейчас она проходит закрытое тестирование среди университетов и бизнес-клиентов. Вероятно, стоимость этой услуги будет довольно высокой, однако результат обещает оправдывать затраты.

https://platform.openai.com/finetune

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

Начался стрим с анонсами OpenAI

https://www.youtube.com/watch?v=rsFHqpN2bCM

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Выглядит, как мечта...

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

✔️ Google DeepMind представил новую модель прогнозирования погоды GenCast.

GenCast – ансамблевая диффузионная модель для прогнозирования погоды и рисков экстремальных погодных условий, обеспечивающая более быстрые и точные прогнозы на срок до 15 дней. GenCast была обученная на 40-летнем архиве исторических метеорологических данных ERA5 от ECMWF.

Модель, работающая на Google Cloud TPU v5, превосходит лидирующую систему прогнозирования ECMWF ENS по точности прогнозов на 97,2% в 1320 различных комбинациях тестируемых параметров. GenCast демонстрирует способность прогнозировать экстремальные погодные явления: периоды сильной жары и холода, сильные ветры и траектории тропических циклонов. Google DeepMind планирует выпустить код, веса и прогнозы модели в открытый доступ, чтобы поддержать метеорологическое сообщество.
deepmind.google

✔️ Япония планирует использовать ИИ для борьбы с онлайн-пиратством манги и аниме.

Власти Японии планируют внедрить систему ИИ для борьбы с пиратскими сайтами, предлагающими мангу и аниме, которые ежегодно обходятся ей в миллиарды долларов упущенной выгоды. По данным японских издателей, существует не менее 1000 веб-сайтов, незаконно предлагающих бесплатную загрузку всемирно известных графических романов манга.

В рамках пилотной программы стоимостью 300 млн. иен (2 млн. долл. США) ИИ будет сканировать интернет в поисках сайтов, занимающихся пиратством книг манги и аниме, с использованием систем обнаружения изображений и текста. Инициатива включена в дополнительный бюджетный запрос агентства на текущий финансовый год. Если проект окажется успешным, его применят и к другому незаконно распространяемому контенту.
japantimes.co.jp

✔️ Генеративная модель видео Veo от Google cтала доступна для бизнес-клиентов.

Veo теперь доступна для предприятий, которые хотят использовать её в процессе создания контента, в предварительной версии на платформе Google Vertex AI. Veo способна генерировать видео высокого качества с разрешением 1080p в различных визуальных и кинематографических стилях, используя текстовые или графические подсказки.

Хотя первоначально сгенерированные клипы могли быть «чуть больше 60 сек.», Google не указывает ограничений длины для предварительной версии. Встроенные средства защиты Veo предназначены для предотвращения создания вредоносного контента или нарушения авторских прав, и все, что создается Veo, встраивается технологией SynthID от DeepMind - невидимым цифровым водяным знаком, который, по словам Google, может «уменьшить проблемы с дезинформацией и неправильным приписыванием».
theverge.com

✔️ NVIDIA представила новейшие решения в области ИИ, робототехники и квантовых вычислений на AWS.

NVIDIA анонсировала на конференции AWS re:Invent доступность платформы NVIDIA DGX Cloud на AWS Marketplace Private Offers, решения для жидкостного охлаждения серверов ИИ в дата-центрах AWS, которые повысят эффективность и производительность.

Компания расширит возможности NVIDIA Omniverse на AWS с помощью Isaac Sim, работающего на инстансах Amazon EC2 G6e с GPU NVIDIA L40S. NVIDIA также интегрирует CUDA-Q с Amazon Braket для упрощения квантовых вычислений, тем самым предоставив разработчикам платформу для создания гибридных квантово-классических приложений.
blogs.nvidia.com

✔️ Physical Intelligence выпустила новую базовую модель ИИ для робототехники Pi-Zero.

Physical Intelligence представила π0 (pi-zero), универсальную базовую модель ИИ для роботов. Pi-zero основана на VLM PaliGemma, которая была дополнительно обучена на пользовательском наборе данных, собранном с 7 различных роботов, выполняющих 68 задач, и на наборе Open X-Embodiment.

Полученная модель может воспринимать команды на естественном языке и выполнять задачи "на элементарном уровне". Physical Intelligence сравнили производительность pi-zero с двумя базовыми моделями, OpenVLA и Octo, по 5 различным задачам, включая складывание белья и уборку со стола; pi-zero добилась "значительных улучшений" по сравнению с базовыми моделями.
infoq.com

🪐 Новый датасет: 100ТБ астрономических данных

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Искусственный интеллект. Высокие технологии

🛢 Современный американский рэп: парень выступал прямо с кислородным баллоном на сцене.

Рэперу Дейву Блантсу всего 23 года, но он уже весит 226 килограммов. В этом году его треки стали вирусными благодаря уникальному сочетанию черного юмора и серьезных тем.

Время диктует свои правила – вот вам и новый герой сцены.

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔍 То, что вы видите — полностью создано нейросетями. Нижнее изображение создано Midjourney, а сверху Kling превращает эту картинку в потрясающе качественное видео!

🌟 Ждем полнометражный, полностью сгенерированный фильм?

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Произошла утечка нового Samsung Galaxy S25!

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Очередной нейросетевой номинант на Оскар!

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

⚡️ DeepSeek-VL2: релиз набор VL-MoE моделей нового поколения.

DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
 
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.

DeepSeek-VL2 включает три основных модуля:

🟠Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.

🟠VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.

🟠Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.

DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
 
Модельная серия состоит из 3 вариантов c контекстом 4096:

🟢DeepSeek-VL2-Tiny (1B активных параметром и 3.4В общих);

🟢DeepSeek-VL2-Small (2.8B активных параметром и 16.1B общих);

🟢DeepSeek-VL2 (4.5B активных параметром и 27.5B общих).

DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.

DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.


📌Лицензирование: DeepSeek License.


🟡Набор моделей
🟡Техотчет
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #DeepSeek

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 MagicPatterns — это онлайн-инструмент, способный генерировать классный дизайн по одному текстовому запросу!

🌟 Платформа помогает дизайнерам и разработчикам быстро создавать визуально привлекательные элементы для веб-сайтов, приложений и других цифровых проектов.

🔗 Ссылка: *клик*

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Это видео, воссоздающее Tekken 8, полностью сгенерировано ИИ!

🔗 Оригинал: *клик*

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 MagicPatterns — это онлайн-инструмент, способный генерировать классный дизайн по одному текстовому запросу!

🌟 Платформа помогает дизайнерам и разработчикам быстро создавать визуально привлекательные элементы для веб-сайтов, приложений и других цифровых проектов.

🔗 Ссылка: *клик*

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Julius.ai — полезный и бесплатный ИИ-сервис для визуализации данных!

🌟 Он отлично справляется даже с большими объемами информации. Так, на видео выше он без проблем составил интерактивную карту счастья населения по странам.

🔗 Ссылка: *клик*

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Meshy.ai — классный сервис, который позволяет вам создавать высококачественные и анимированные 3D-модели из одной фотографии!

🔗 Ссылка: *клик*

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Полезный сайт, который убирает водяные знаки с фотографий при помощи ИИ!

🔗 Ссылка: *клик*

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Команда Яндекс Переводчика рассказала, как получает данные для обучения моделей машинного перевода!

Прежде чем выдать пользователю перевод текстов, документов или видео, для машины нужно найти миллиарды параллельных предложений, на которых ее можно обучить. Все тонкости этого процесса подробно разобрали в статье на Хабре.

🔗 Ссылка: *клик*

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🖥 OpenAI приоткрыла доступ к новой версии ChatGPT — компания анонсирует запуск САМОЙ МОЩНОЙ модели.

На данный момент, при использовании ChatGPT, ответы будут генерироваться с помощью новой модели под названием o1 pro mode. В течение ограниченного времени ее можно попробовать бесплатно, а стоимость подписки станет известна после официального анонса сегодня в 21:00.

Согласно утечкам информации, месячная подписка на o1 pro может обойтись в ОГРОМНУЮ сумму — около 200 долларов. Так что стоит поторопиться и воспользоваться возможностью бесплатного тестирования.

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

🚀 Тесты в стартапе: ускоряем разработку без потери качества!

Многие курсы по автоматизации тестирования учат лишь писать скрипты: нажимать кнопки, кликать, проверять. Но современный IT-бизнес требует большего: чтобы тесты окупались, ускоряя разработку и поддерживая высокий уровень качества. А это значит — работа с инфраструктурой, тестовыми данными, CI/CD, Docker, бэкендом, фронтендом, микросервисами... Много работы!

Если вы готовы взглянуть на автоматизацию тестирования с новой стороны, тогда ждем вас на бесплатном вводном занятии 12 декабря в 20:00 МСК. Оно пройдет в рамках нашего продвинутого курса Java Advanced 2.0, где мы поможем вам сделать первый шаг к освоению инструментов профессионального уровня!

Чем наш курс отличается от других?

Мы не просто учим писать автотесты. Мы погружаем вас в работу реальным микросервисным Spring-проектом, учим создавать тестовые прекондишены в базах данных, работать с Kafka, писать независимые и изолированные тесты, использовать моки и интегрировать всё это в CI/CD пайплайны.

Что вы получите на курсе QA.GURU Java Advanced 2.0?

* Настоящих преподавателей-практиков: разработчиков-профессионалов, задающих стандарты для крупных международных компаний.
* Полную инфраструктуру: доступ к ней сохраняется после обучения.
* Применимые проекты: наработки, которые вы сможете использовать практически в любой IT-компании.
* Доступ к сообществу: более 14 000 тестировщиков в нашем канале!
* Сертификат: на двух языках, с возможностью отметки о защите дипломной работы.
* Помощь в карьере: команда нашего карьерного центра всегда готова помочь вам с кейсами, проектами, техническими интервью и трудоустройством. Мы сотрудничаем с крупными компаниями и помогаем студентам выйти на новый уровень.

Зарегистрируйтесь на вводное занятие 12 декабря в 20:00 МСК и узнайте, как превратить автотесты в инструмент, который ускоряет вашу разработку и приносит реальную пользу бизнесу!

Ссылка на регистрацию.

Erid:2VSb5yYMXD2

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 ChatGPT отказывается называть имя «Дэвид Майер», и никто не знает почему!

💡 Если попытаться заставить его написать имя, чат немедленно прекратится.

🔍 Люди пробовали разные вещи — шифры, загадки, трюки — но ничего не срабатывало.

@vistehno

Читать полностью…

Искусственный интеллект. Высокие технологии

⚡️ HunyuanVideo: модели генерации видео по тексту от Tencent.

Tencent опубликовала в отрытый доступ модели с 13 млрд. параметров для генерации видео по текстовым промптам: HunyuanVideo и HunyuanVideo-PromptRewrite.

Архитектура HunyuanVideo простроена на пространственно-временном сжатии, которое позволяет обрабатывать видео и изображения в едином формате.

Входные текстовые запросы кодируются с помощью MLLM (комбинация CLIP and T5-XXL) и используются в качестве основы для генерации. Модель генерирует латент, который затем декодируется в изображения или видео с помощью 3D VAE.

HunyuanVideo-PromptRewrite - специальный файнтюн для адаптации и автоматического расширения пользовательских промптов к предпочтениям модели. В PromptRewrite 2 режима работы: Normal и Master:

🟢Режим Normal улучшает понимание моделью намерений пользователя, способствуя более точной интерпретации промпта.

🟢Режим Master улучшает описание композиции, освещения сцены генерации и движения камеры, что на выходе дает видео с более высоким визуальным качеством.

HunyuanVideo оценивалась 60 экспертами на 1533 промптах в сравнении с топовыми T2V-моделями: Gen-3, Luma 1.6 и тремя лучшими китайскими коммерческими моделями.

Результаты оценки показали, что HunyuanVideo достигает общего уровня удовлетворенности, особенно выделяясь качеством движения объектов.

▶️Планы развития HunyuanVideo:

🟠Бенчмарк Penguin Video;
🟠Web Demo (Gradio);
🟠Поддержка ComfyUI;
🟠Поддержка Diffusers;
🟠Модель и код инференса Image-to-Video версии.

⚠️ Минимальный объем GPU - 60 GB для 720pX1280pX129f и 45 GB для 544pX960pX129f. Рекомендованный GPU - 80 GB.

▶️Установка и инференс T2V в 720р:

# Clone repo:
git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo

# Prepare conda environment
conda env create -f environment.yml
conda activate HunyuanVideo

# Install pip dependencies
python -m pip install -r requirements.txt

# Install flash attention v2
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.5.9.post1

# Inference
python3 sample_video.py \
--video-size 720 \
--video-length 129 \
--infer-steps 50 \
--prompt "%prompt%" \
--flow-reverse \
--use-cpu-offload \
--save-path ./results


📌Лицензирование: Tencent Hunyuan Community License.


🟡Страница проекта
🟡Модель HunyuanVideo
🟡Модель HunyuanVideo-PromptRewrite
🟡Техотчет
🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #Text2Video #Tencent #HunyuanVideo

Читать полностью…

Искусственный интеллект. Высокие технологии

🌟 AIMV2: набор визуальных энкодеров от Apple.

AIMV2 – семейство моделей визуальных энкодеров, предварительно обученных с помощью мультимодальной авторегрессионной цели, которая восстанавливает фрагменты изображений и текстовые токены, что, в итоге, позволяет AIMV2 справляться с задачами распознавания изображений, локализации объектов и мультимодального понимания.

Архитектура AIMV2 основана на ViT и использует каузальный мультимодальный декодер, который сначала регрессирует фрагменты изображения, а затем декодирует текстовые токены авторегрессионно. Визуальный энкодер использует префиксное внимание, что позволяет использовать двунаправленное внимание во время вывода без дополнительной настройки.

Семейство AIMV2 обучалось на комбинации общедоступных (DFN-2B, COYO) и собственных (HQITP) датасетов, содержащих пары "изображение-текст" и синтетические аннотации, сгенерированные предварительно обученным инструментом.

Эксперименты после обучения показали, что AIMV2-3B достигает точности 89,5% на ImageNet с замороженным транком, что лучше, чем у генеративных методов MAE и AIM. AIMV2 превосходит CLIP и SigLIP в большинстве тестов на мультимодальное понимание.

Модель совместима с LiT для zero-shot распознавания и может быть настроена для обработки изображений с различными разрешениями и соотношениями сторон.

В отрытый доступ на HF опубликованы модели:

🟠AIMv2 в разрешении 224px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟠AIMv2 в разрешении 336px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟠AIMv2 в разрешении 448px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟢AIMv2 в Native разрешении : aimv2-large-patch14-native c 0.3B (разрешение в диапазоне от 112 до 4096)

🟢AIMv2 distilled ViT-Large (модели, которые были получены путем дистилляции из AIMV2-3B в архитектуру ViT-Large) : AIMv2-L и AIMv2-L-distilled.

🟠Zero-shot Adapted AIMv2 (модель после LiT- тюнинга): AIMv2-L с 0.3B параметров.


⚠️ ! Примеры инференса с JAX и MLX доступны в репозитории AIMv2

▶️Установка и локальный инференс c Pytorch:

# Clone the repository
pip install 'git+https://github.com/apple/ml-aim.git#subdirectory=aim-v2'

# Example Using PyTorch
from PIL import Image

from aim.v2.utils import load_pretrained
from aim.v1.torch.data import val_transforms

img = Image.open(...)
model = load_pretrained("aimv2-large-patch14-336", backend="torch")
transform = val_transforms(img_size=336)

inp = transform(img).unsqueeze(0)
features = model(inp)


📌Лицензирование: Apple Sample Code License.


🟡Коллекция на HF
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Vision #Apple #AIMv2

Читать полностью…

Искусственный интеллект. Высокие технологии

Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.

Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.

Где и когда?

👉 Нижний Новгород, 5 декабря
👉 Санкт-Петербург, 6 декабря

Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.

Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 😉

Читать полностью…

Искусственный интеллект. Высокие технологии

🔥 Илон Маск продемонстрировал, как робот Optimus может ловить мяч!

@vistehno

Читать полностью…
Subscribe to a channel