Telegram-канал ai_machinelearning_big_data - Machinelearning: Technologies

Machinelearning

25 Oct 2024 17:01

🌟 Aya Expanse: семейство мультиязычных моделей на 32 и 8 млрд. параметров от CohereForAI.

Семейство Aya Expanse - это исследовательский релиз моделей с развитыми мультиязычными возможностями.

Aya Expanse - результат объединения семейства моделей Command с итогами годичных исследований Cohere For AI в области арбитража данных, обучения многоязычным предпочтениям, безопасности и техник мерджа моделей.

Модели обучены для инференса на 23 языках: арабский, китайский (упрощенный и традиционный), чешский, голландский, английский, французский, немецкий, греческий, иврит, хинди, индонезийский, итальянский, японский, корейский, персидский, польский, португальский, румынский, русский, испанский, турецкий, украинский и вьетнамский.

Aya Expanse - авторегрессионые языковые модели на оптимизированной архитектуре трансформеров и контекстом в 128 тыс. токенов у 32b и 8 тыс. токенов у 8В:

🟢Aya Expanse 32B
🟢Aya Expanse 8B

Квантованные версии в размерностях от 2-bit до 16-bit в формате GGUF:

🟠Aya Expanse 32B-GGUF
🟠Aya Expanse 8B-GGUF

Блокноты на Google Collab от сообщества Cohere For AI:

🟢Инференс ассистента по составлению текстов на разных языках;

🟢Инференс для создания кулинарных рецептов с голосовыми возможностями;

🟢Инференс мультиязычной системы QA для неполных представленных спортивных правил по роллер-дерби ;

🟠Код для SFT-файнтюна Aya Expanse 8B для обучения бенгальскому языку.

▶️Пример инференса Aya Expanse 8B на Transformers :

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereForAI/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Format the message with the chat template
messages = [{"role": "user", "content": " %prompt% "}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>%prompt%<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

gen_tokens = model.generate(
    input_ids, 
    max_new_tokens=100, 
    do_sample=True, 
    temperature=0.3,
    )

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)

📌Лицензирование: CC-BY-NC License.

🟡Коллекция моделей на HF
🟡Набор GGUF 32B
🟡Набор GGUF 8B
🟡Demo

@ai_machinelearning_big_data

#AI #ML #LLM #CohereForAI #AyaExpanse