Telegram-канал bigdatai - Big Data AI: Unsorted - каталог телеграмм

bigdatai | Unsorted

Subscribe to a channel

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

07 Nov 2024 07:29

👩‍💻 Attention OCR — модель распознавания текста с использованием TensorFlow, применяя сочетание сверточных нейронных сетей (CNN), моделей последовательностей (seq2seq) и визуального внимания для выделения текста в изображениях. Доступна установка через Python, поддерживается Google Cloud ML Engine.

🌟 Модель настраивается для создания датасетов и визуализации внимания на тестовых данных, а также поддерживает экспорт в формате SavedModel для серверного развертывания, включая интеграцию с TensorFlow Serving.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

05 Nov 2024 18:39

🔥 pdf-extract-api
— API для извлечения и обработки данных из PDF-документов с использованием современных OCR моделей и поддержкой Ollama для обработки на основе больших языковых моделей!

🌟 API может конвертировать документы и изображения в структурированные форматы JSON или Markdown, удалять личную информацию (PII), а также использовать FastAPI и Celery для асинхронной обработки с кэшированием через Redis. Основное применение — анонимизация и конвертация данных из документов в структурированные форматы.

🔐 Лицензия: GPL-3.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

05 Nov 2024 13:01

🔥 Ichigo — ИИ инструмент, предназначенный для расширения возможностей текстовых моделей посредством добавления к ним обработки аудио в реальном времени!

🌟 Он расширяет текстовые модели, позволяя им обрабатывать аудиовводы, поддерживать интерактивные многотуровые сессии, а также игнорировать незначительные шумы. В проекте есть инструменты для развертывания с Docker и обучения с Hugging Face, включая генерацию синтетического аудио

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

03 Nov 2024 12:41

🔥 Oasis: первая играбельная игра, созданная искусственным интеллектом!

🌟 Oasis генерирует кадры на основе ваших вводов с клавиатуры. Вы можете двигаться и прыгать, разбивать блоки, строить и исследовать совершенно новую карту в каждой игре!

🔗 Попробовать можно здесь: *клик*

@bigdatai

Читать полностью…

Big Data AI

31 Oct 2024 12:01

📝 Эта статья представляет метод LiNeS (Layer-increasing Network Scaling), направленный на устранение проблемы "катастрофического забывания" при дообучении больших моделей

🌟 LiNeS корректирует параметры, масштабируя их по глубине слоев сети, что позволяет сохранить общие признаки на верхних слоях и адаптировать глубокие слои под конкретные задачи. Это улучшает производительность и обобщение в мультизадачных сценариях и при объединении моделей, таких как RLHF

📖 Читать: *клик*

@bigdatai

Читать полностью…

Big Data AI

30 Oct 2024 16:01

🔥 AutoRAG — это инструмент для поиска оптимального конвейера RAG для «ваших данных». Вы можете автоматически оценивать различные модули RAG с помощью собственных оценочных данных и находить лучший конвейер RAG для вашего собственного варианта использования

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

29 Oct 2024 15:01

🖥 Использование PostrgreSQL для полнотекстового поиска в приложениях!

💡 Полнотекстовый поиск — это неотъемлемая часть современных приложений, особенно тех, которые работают с большими объемами текстовой информации, будь то блог-платформы, системы управления контентом или новостные агрегаторы. Какое бы приложение вы не разрабатывали, добавление возможностей полнотекстового поиска может значительно улучшить пользовательский опыт. В этой статье мы рассмотрим, какие основные возможности полнотекстового поиска предлагает PostgreSQL, какие преимущества это дает, и приведем примеры запросов

🔗 Ссылка: *клик*

@sqlhub

Читать полностью…

Big Data AI

27 Oct 2024 13:00

🖥 MineDojo — это исследовательская платформа, разработанная для создания многоцелевых ИИ-агентов с помощью среды Minecraft. Проект предоставляет инструменты и API, которые позволяют агентам взаимодействовать с Minecraft для выполнения сложных задач, таких как построение, крафтинг, исследование и другие

🌟 MineDojo создан для поддержки исследований в области ИИ, обучая агентов на большом количестве сценариев и примеров поведения. Платформа включает в себя предварительно настроенные задачи и сценарии, а также возможности для создания собственных агентов

▪️Github

@bigdatai

Читать полностью…

Big Data AI

26 Oct 2024 18:19

🚀 Pandas → Polars → SQL → PySpark

@bigdatai

Читать полностью…

Big Data AI

26 Oct 2024 12:00

🖥 Llama-3.1-Nemotron-70B: набор файнтюн-моделей и датасет HelpSteer2 от NVIDIA.

NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:

▶️ Llama-3.1-Nemotron-70B-Instruct

Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.

Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.

🟠Llama-3.1-Nemotron-70B-Instruct-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).

▶️ Llama-3.1-Nemotron-70B-Reward

Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.

Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.

Nemotron-70B-Reward занимает первое место в RewardBench.

🟠Llama-3.1-Nemotron-70B-Reward-HF

Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.

Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb).

Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.

HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.

⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.

⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM.

📌Лицензирование моделей: Llama 3.1 Community License.

📌Лицензирование датасета : CC-BY-4.0

🟡Коллекция моделей на HF
🟡Arxiv
🟡Датасет
🟡Demo

@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron #NVIDIA
🌟 Важным преимуществом новой версии стала её совместимость с широким спектром аппаратного обеспечения NVIDIA, включая архитектуры Ampere, Hopper и Turing. Модель оптимизирована для работы на различных GPU, от мощных H100 до более доступных A100

🔗 Подробнее: *клик*

@bigdatai

Читать полностью…

Big Data AI

25 Oct 2024 10:26

🔥 Полезный список из 30 наиболее значимых научных статей по ИИ, которые оказывают сильное влияние на современные исследования и разработки в этой области. Этот список охватывает различные аспекты, такие как машинное обучение, глубокое обучение, обработка естественного языка и многое другое!

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

24 Oct 2024 14:02

🖥 Addition is All You Need for Energy-efficient Language Models — статья, которая описывает новый метод повышения энергоэффективности языковых моделей

⭐️ Авторы предлагают использовать алгоритм L-Mul, который заменяет операции с плавающей запятой на сложения целых чисел. Это значительно снижает энергопотребление на аппаратном уровне при обработке тензоров и может повысить точность по сравнению с традиционными 8-битными операциями. Метод протестирован на различных задачах и показал минимальные потери в точности

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

22 Oct 2024 21:35

⚡️ Pangea-7B - полностью открытый MLLM для 39 языков

✨Обучен на основе разнообразного набора данных с 6 миллионами мультиязычных мультимодальных данных для настройки инструкций, охватывающих 39 языков.

✅Полностью открытый дотаяет, код и контрольные точки

▪️Модель: https://huggingface.co/collections/neulab/pangea-6713c3b0d78a453906eb2ed8
▪️Документация: https://huggingface.co/papers/2410.16153

@bigdatai

Читать полностью…

Big Data AI

22 Oct 2024 17:49

Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.

Ближайшее мероприятие:

• 9-11 ноября — для продуктовых и аналитиков данных, офер за 3 дня в команды Финтеха и Яндекс Практикума.

Зарегистрироваться

Читать полностью…

Big Data AI

20 Oct 2024 14:01

🔥 Ditto — это простой инструмент для автоматической генерации кода. Он позволяет пользователю описать приложение на языке, близком к естественному, а затем создает полноценное многокомпонентное приложение Flask. Ditto использует языковую модель для построения маршрутов, шаблонов и статических файлов без необходимости вручную писать код

🌟 Основная цель проекта — упростить процесс разработки веб-приложений, автоматизируя создание структуры кода на основе текстового описания

🔐 Лицензия: MIT

▪️Github

@bigdatai

Читать полностью…

Big Data AI

07 Nov 2024 05:28

💪 Уже есть опыт работы с хранилищами данных, но хочешь прокачать скилы и открыть новые карьерные горизонты?

Тогда скорее залетай на бесплатный ИТ-интенсив в Открытых школах Т1 для аналитиков платформы данных (DWH) — регистрация до 8 ноября!

Открытые школы — это возможность усилить свои навыки и получить оффер от одного из лидеров* российского ИТ-рынка — Холдинга Т1. И все это за месяц, онлайн и в удобное вечернее время.

Что ты получишь?

🔹Уникальный рыночный опыт и масштабные ИТ-проекты: мы одни из первых, кто внедряет технологии для управления данными. Выпускники школ смогут присоединиться к проекту по созданию новой технологической платформы данных в банковской сфере.
🔹Быстрый рост в ИТ при поддержке экспертов и топовых преподавателей. Карьерные треки для выпускников Открытых школ позволяют быстро расти в профессии в Т1.
🔹Работа в бигтех-компании: ИТ-аккредитация, современный техстек, ДМС, удаленка, крутые офисы, спорт, обучение, митапы, ИТ-конференции, программы признания и развития, а также многое другое от Т1.

Более 900 специалистов уже прошли этот путь — теперь твоя очередь! Читай подробности в карточках ☝️ Старт обучения уже 11–12 ноября! Ссылка для подачи заявки.

Реклама. ООО «Т1» ИНН: 7720484492. Erid: 2SDnjcEokmZ

Читать полностью…

Big Data AI

05 Nov 2024 16:38

👨‍💻 Данные, их источники, способы их получения, работа с ними — разнятся в зависимости от сферы, в которой они применяются. Работа Data Science-специалистов в разных областях тоже в чём-то отличается. Как оказалось — в промышленности неожиданно много драйва.

Для работы DS в промышленных компаниях нужно знать и математику, и физику, и особенности технологий производства. Есть свои фишки в работе с данными: их много, они разные, промышленные агрегаты оставляют огромный цифровой след, есть почва для внедрения ИИ-продуктов и потребности в этом. Но всё-таки ML нужно не везде.

Об этом в подкасте «Деньги любят техно» рассказал директор департамента технологий ИИ «Русала» Михаил Граденко. Ведущие выпуска — начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев и технологический обозреватель Марина Эфендиева.

Слушать и смотреть подкаст 👈

Читать полностью…

Big Data AI

03 Nov 2024 12:59

🔍 OmniParser — это инструмент от Microsoft, предназначенный для разбора и анализа интерфейсов приложений на основе скриншотов

🌟 OmniParser позволяет распознавать и структурировать элементы интерфейса, обеспечивая, чтобы визуальные агенты на основе GPT могли ориентироваться и взаимодействовать с различными GUI-компонентами. OmniParser поддерживает модель для обнаружения интерактивных областей и описания иконок, делая возможным создание агентов, ориентированных на визуальное восприятие

🔐 Лицензия: CC-BY-4.0

🖥 Github

@data_analysis_ml

Читать полностью…

Big Data AI

01 Nov 2024 15:00

🖼 Long-LRM — система для высококачественной 3D-реконструкции больших сцен на основе Гауссовых сплайнов. Она может обрабатывать длинные последовательности изображений и создавать 3D-реконструкции с большой областью покрытия всего за 1.3 секунды. Модель использует токены Plücker и архитектуры с блоками Mamba2 и Transformer

🔗 Ссылка: *клик*
📖 Arxiv: *клик*

@bigdatai

Читать полностью…

Big Data AI

31 Oct 2024 10:01

Представьте: вы развиваете IT-продукт. Бессонные ночи, жаркие обсуждения фич и месяцы кодинга пройдены — пора искать клиентов. Вы сформировали позиционирование, настроили рекламу, начали работать со СМИ и соцсетями. Постепенно ваши усилия стали приносить плоды: количество пользователей постепенно увеличивается.

И тут возникает вопрос: где построить надежную, безопасную и простую в управлении IT-инфраструктуру? Нужно учесть скорость развертывания, чтобы быстро вывести продукт на рынок, безопасность данных клиентов и высокую производительность.

Заходите в единую панель управления Selectel и выбирайте конфигурацию, которая подходит именно вам. А если потребности в ресурсах будут меняться в большую или меньшую сторону, вы сможете докупить необходимые мощности или заморозить неиспользуемые.

Читать полностью…

Big Data AI

30 Oct 2024 11:53

✔️ xAI добавила функцию распознавания изображений в Grok AI.

Теперь пользователи могут загружать изображения и задавать вопросы, основанные на их содержании. Grok может выполнять глубокий анализ изображения и объяснять даже визуальные шутки. В настоящее время функция доступна только для статичных изображений.

Илон Маск намекнул в X, что на очереди - возможность загрузки файлов. В августе xAI выпустила модели Grok-2 и Grok-2 Mini. Обе модели доступны в чат-боте Grok для пользователей X Premium и X Premium+.

gadgets360.com

@bigdatai

Читать полностью…

Big Data AI

28 Oct 2024 14:00

🎧 MuVi может создавать музыку, соответствующую визуальным эффектам видео, анализируя кадры!

MuVi использует ритмическую синхронизацию и может управлять стилем и жанром музыки.

https://muvi-v2m.github.io

@bigdatai

Читать полностью…

Big Data AI

27 Oct 2024 11:00

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Angular: /channel/+qIJAuSEb2MQyMDJi

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Big Data AI

26 Oct 2024 15:28

🌟 Mochi 1: открытая text-to-video модель генерации видео.

Mochi 1 - модель от компании Genmo для генерации видео на новой архитектуре Asymmetric Diffusion Transformer (AsymmDiT).

Mochi 1 была обучена с нуля и получила 10 млрд. параметров. Это самая большая генеративная модель видео, когда-либо выпущенная в открытый доступ.

Модель способна генерировать видео с разрешением 480p длительностью до 5,4 секунд со скоростью 30 кадров в секунду. AsymmDiT обрабатывает текстовые запросы используя одну языковую модель T5-XXL.

Вместе с Mochi 1 Genmo выпустила в открытый доступ свой видеокодер AsymmVAE, который сжимает видео до 128-кратного размера, с пространственным 8x8 и временным 6x сжатием до 12-канального латентного пространства.

Genmo планирует выпустить улучшенную вервию - Mochi 1 HD до конца года, которая будет поддерживать разрешение 720p.

⚠️ Для работы модели требуется не менее 4 GPU H100.

⚠️ В некоторых случаях при экстремальном движении могут возникать незначительные деформации и искажения.

⚠️ Mochi оптимизирована для фотореалистичных стилей, поэтому не очень хорошо работает с анимированным контентом.

▶️ Локальная установка и инференс c Gradio UI или в CLI:

# Clone repo
git clone https://github.com/genmoai/models
cd models

# Install using uv
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .

# Inference with Gradio UI
python3 -m mochi_preview.gradio_ui --model_dir "<path_to_model_directory>"

# Inference with CLI
python3 -m mochi_preview.infer --prompt "%prompt%" --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_model_directory>"

📌Лицензирование: Apache 2.0 license.

🟡Страница проекта
🟡Модель
🟡Demo
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #Text2Video #AsymmDiT #Mochi1

Читать полностью…

Big Data AI

26 Oct 2024 10:02

Прими участие в «Хакатоне по разработке кибериммунных технологий 3.0» от «Лаборатории Касперского» с призовым фондом 1 000 000 рублей!

Регистрация на хакатон открыта до 15 ноября: https://cnrlink.com/cyberimmunehack3bidgata

Приглашаем разработчиков, аналитиков, архитекторов ПО, экспертов по информационной безопасности и студентов программирования и кибербезопасности. Участвуй индивидуально или в команде до 5 человек.

Тебе предстоит разработать систему удалённого управления автомобилем для каршеринга, устойчивую к кибератакам. Специальных знаний в автомобильной отрасли не требуется — задача будет понятна всем, независимо от опыта.

Это твой шанс прокачать навыки в кибербезопасности и пообщаться с экспертами «Лаборатории Касперского».

Ключевые даты:
• 15 октября – 15 ноября – регистрация участников
• 8 ноября – митап с экспертами и игра «Огнеборец»
• 15 ноября – старт хакатона
• 17 ноября – дедлайн загрузки решений
• 22 ноября – подведение итогов и объявление победителей

Регистрируйся, прояви себя и внеси вклад в безопасность каршеринговых сервисов: https://cnrlink.com/cyberimmunehack3bidgata

Реклама. АО «Лаборатория Касперского». ИНН 7713140469. erid: LjN8KEigF

Читать полностью…

Big Data AI

24 Oct 2024 15:19

🔥 Anthropic обновила модели Claude 3.5 Sonnet и Claude 3.5 Haiku, а также представила новую функцию управления Claude компьютером!

🌟 Обновленный Claude 3.5 Sonnet демонстрирует широкомасштабные улучшения в бенчмарках, особенно в задачах агентного кодирования и использования инструментов. В кодировании он повышает производительность на SWE-bench Verified с 33,4% до 49,0%, набрав баллов больше чем все общедоступные модели, включая модели рассуждений, такие как OpenAI o1-preview и специализированные системы, разработанные для агентного кодирования

💡 Управление компьютером — это новая экспериментальная функция, позволяющая ИИ взаимодействовать с пользовательскими интерфейсами компьютера для выполнения действий в программах, как будто это делает человек. Claude способен автоматизировать рутинные операции: открывать приложения, взаимодействовать с окнами и системными функциями.

🔗 Подробнее на сайте Anthropic: *клик*

@bigdatai

Читать полностью…

Big Data AI

23 Oct 2024 10:54

Машинное обучение работает

Читать полностью…

Big Data AI

22 Oct 2024 19:46

🔥 model2vec — реализация модели для обучения эмбедингов (embeddings) нейросетевых моделей. Основная идея проекта — создание представлений моделей, которые могут быть использованы для оценки схожести между моделями, их кластеризации или других задач.

Model2Vec - библиотека для создания компактных и быстрых моделей на основе предобученных Sentence Transformer моделей.

Model2Vec позволяет создавать эмбединг-модели слов и предложений, которые значительно меньше по размеру, но при этом сопоставимы по производительности с исходными Sentence Transformer моделями.

Отличительные особенности:

🟢быстрая дистилляция, процесс создания модели занимает несколько минут;

🟢быстрый инференс, в 500 раз быстрее на CPU относительно родительской модели;

🟢BYOM и BYOV, можно использовать на любой Sentence Transformer модели с любым словарем;

🟢мультиязычность, все что нужно - только мультиязычная модель в качестве источника;

🟢интеграция с Huggingface, загрузка\выгрузка моделей привычными from_pretrained и push_to_hub.

Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.

Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.

Model2Vec работает в двух режимах:

🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;

🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.

Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).

Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.

🌟 Репозиторий предоставляет набор инструментов и инструкций для работы с этими представлениями, включая подготовку данных, обучение и использование. В нем также есть примеры использования и инструкции по запуску.

▪️GitHub

@bigdatai

Читать полностью…

Big Data AI

21 Oct 2024 16:01

🖥 EfCore.SchemaCompare — инструмент для сравнения схем баз данных Entity Framework Core (EF Core). Он позволяет проверять различия между базой данных и миграциями, обеспечивая удобный способ отслеживания изменений в схемах данных

🌟 Этот инструмент может быть полезен для управления версиями баз данных и предотвращения ошибок, связанных с несовпадением структуры данных при разработке приложений на EF Core

▪️GitHub

@sqlhub

Читать полностью…

Big Data AI

20 Oct 2024 12:19

🌟 Zamba2-Instruct: две гибридные SLM на 2.7 и 1.2 млрд. параметров.

Zamba2-Instruct - семейство инструктивных моделей на архитектуре Mamba2+Transformers для NLP-задач.

В семействе 2 модели:

🟢Zamba2-1.2B-instruct;
🟠Zamba2-2.7B-instruct.

Высокая производительность семейства по сравнению с релевантными Transformers-only моделями достигается за счет конкатенации эмбедингов модели с входными данными для блока внимания и использование LoRA projection matrices к общему MLP-слою.

Модели файнтюнились (SFT+DPO) на instruct-ориентированных наборах данных (ultrachat_200k, Infinity-Instruct, ultrafeedback_binarized, orca_dpo_pairs и OpenHermesPreferences).

Тесты Zamba2-Instruct продемонстрировали внушительную скорость генерации текста и эффективное использование памяти, обходя MT-bench более крупные по количеству параметров модели/ (Zamba2-Instruct-2.7B превзошла Mistral-7B-Instruct-v0.1, а Zamba2-Instruct-1.2B - Gemma2-2B-Instruct)

⚠️ Для запуска на СPU укажите use_mamba_kernels=False при загрузке модели с помощью AutoModelForCausalLM.from_pretrained.

▶️Локальная установка и инференс Zamba2-2.7B-Instruct:

# Clone repo
git clone https://github.com/Zyphra/transformers_zamba2.git
cd transformers_zamba2

# Install the repository & accelerate:
pip install -e .
pip install accelerate

# Inference:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B-instruct")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-2.7B-instruct", device_map="cuda", torch_dtype=torch.bfloat16)

user_turn_1 = "user_prompt1."
assistant_turn_1 = "assistant_prompt."
user_turn_2 = "user_prompt2."
sample = [{'role': 'user', 'content': user_turn_1}, {'role': 'assistant', 'content': assistant_turn_1}, {'role': 'user', 'content': user_turn_2}]
chat_sample = tokenizer.apply_chat_template(sample, tokenize=False)

input_ids = tokenizer(chat_sample, return_tensors='pt', add_special_tokens=False).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=150, return_dict_in_generate=False, output_scores=False, use_cache=True, num_beams=1, do_sample=False)
print((tokenizer.decode(outputs[0])))

📌Лицензирование : Apache 2.0 License.

🟡Набор моделей на HF
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #SLM #Zamba2 #Instruct

Читать полностью…

Subscribe to a channel