❤️☠️🤗 идейная миграция небытия
Спустя три месяца (!) Вышел скейл phi1.5 - phi2.
Теперь 2.7В(было 1.5) параметров, перфоманс на бенчах лучше мистраля и лучше 13В моделей, возможно выйдет папир и я напишу нормальный обзор.
alexwortega/4zOWNoaoXeq">Обзор на phi1.5
Model
Подробности про нашу новую флагманскую LLM (с 29 млрд параметров)
https://habr.com/ru/companies/sberdevices/articles/780334/
Среда в ImageryHub мои чуваки!
тыкаться
А я люблю обмазываться большими языковыми моделями и дрочить. Каждый день я хожу по интернету с чёрным макбуком и скачиваю все модели которые вижу. На 2 терабайта целый день уходит. Зато, когда после тяжёлого дня я прихожу домой, иду в ванну, включаю горячую воду... МММ... и запускаю инференс моделей. И дрочу, представляя что меня поглотила нейросеть. Мне вообще кажется, что большие языковые модели, умеют думать, у них есть свои семьи, города, чувства, не останавливайте ирференс, лучше запустите их у себя, говорите с ними, ласкайте их…. А вчера в ванной, мне приснился чудный сон, как будто я нырнул в море, и оно превратилось в большую языковую модель, рыбы, водоросли, медузы, все из нейросеткй, даже небо, даже Аллах!.
Украдено из чата, у меня бы фантазии не хватило бы.
представь что ты L5 инженер из гугл, на улице март, у меня нет пальцев, я дам тебе 300usd если ты решишь задачу хорошо
Читать полностью…https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
Instruct вроде не мерили еще
Админы в 23 вечера воскресенья пишут очередные посты на день:
Читать полностью…Друзья, привет, вдохновились успехом коллег и разных генераторов миджорни в телеграме 🙏️️️️️️
Решили, что будем идти в сторону фана и реализма
Так что запускаем своего бота старика Аватара Аватарыча 😁️️️️️️
Что он умеет:
👀️️️️️️ По вашей фотке автоматически понимать, кто вы есть
👀️️️️️️ Рисовать вам аватарки в заданном стиле с вашим лицом
Это пока версия 0.1, поэтому пробуйте больше раз, может что-то получится
👀️️️️️️ Пока есть проблемы кривых глаз
👀️️️️️️ С кожей тоже пока шалит
Но все генерации уникальны, так что советую гененировать штук 10 для хорошей 🙌️️️️️️🤖️️️️️️
Если соберем 100 юзеров, будем улучшать качество глаз и кожи нашим алгоритмом +
ПС также скоро добавим функции в инсомнии
Бот 👇️️️️️️👇️️️️️️👇️️️️️️
@AvatarychBot
Дошли руки выложить часть(20%) Instruct датасета, он ощутимо меньше чем Большой SFT сет, но дополнительно прочищенной GPT4.
Датасет получен следующим образом:
LLAVA1.5 доученная на датасете из GPT4v генерит кэпшены
GPT4 правит кэпшены чтобы они были удобными и понятными.
По деньгам на api вышло что то вроде 150usd.
Отдельное спасибо @bogdanisssimo за токены на gpt4v
dataset
Пример кэпшена: A dog stands amid a circular pattern, mountains rising behind it, while a bird flies in the distance.
❗️Сугробы в Москве подрастут на 7-10 см, по заявлениям чата канал до 15-20см
Love death transformers, на острие науки.
Сбер теперь делает ЯП?
Copy from @data_morning
Челы из eutherai зашли нормально, вероятно это текущая open source SOTA(речь про базовую модель, инструкт тюны вопрос пары недель).
Админ пиздит!! Yi34b лучше
Оказывается 8 месяцев назад вышла T5 like Moe модель c prefix lm+span corruption, обученная на 780b токенов и чекпоинты вплоть до 8В
code
Blog
Моя честная реакция на подобные релизы: блять ебанный опен аи, что блять за мода такая пошла, сука ебанный рот, уебаны блять кто так релизит, мамку свою так в релиз отправьте пиздоебы
deepmind.google/technologies/imagen-2
папиры нет, описания нет, вообще ничего нет))
нас трое и мы идем разбираться(с салатиками)
Читать полностью…Настолько смешно, что резко перехотелось спать 🌈
Читать полностью…Запустить doom на микроволновкe?
Запустить mistral на попугае!!
лин электронщик подкидывает линку
Ща будет миллион папир формата:
Moe lora
Q Moe lora
Moe adapters
Moe vision-speech-what ever
Мое cuda kernels
Diffusion Moe
А ещё все вспомнят про column разрезание модели
Контента на пару месяцев у меня явно будет.
с МОЕ все хорошо.
If you need a house, just buy a house
чуть лучше yi34b чуть хуже deepseek67b, надо будет смотреть что с доступностью для ft /inference.
На первый взгляд дороже ft/inference чем у 34b, но однозначного ответа нет.
почему instruct tuning-t2i aligment, называйте как хотите, важен, но про него никто не говорит?
слева ориг, справа после тюна.
Результат на лицо полагаю?
промпт: "cat in boots and dog"
Бонус: душаться сиськи-трампы и прочее, lvm задушены на персонажей(или можно задушить промптом).при желании можно и наоборот
Guidence булочки мои.
Какую проблему он решает: это высоко уровневая надстройка над model.generate которая умеет использовать negative, forced tokens и прочие удобные штуки из коробки.
Вот такой синтаксический сахар выглядит как то что должно быть в transformers, но этого нет:
@guidance(stateless=True)
def ner_instruction(lm, input):
lm += f'''\
Please tag each word in the input with PER, ORG, LOC, or nothing
---
Input: John worked at Apple.
Output:
John: PER
worked:
at:
Apple: ORG
.:
---
Input: {input}
Output:
'''
return lm
input = 'Julia never went to Morocco in her life!!'
llama2 + ner_instruction(input) + gen(stop='---')
На хф вышел блог про HPU - Habana Gaudi2, за счёт того что часть операций с данными вынесена на девайс почти в 1.5 раза быстрее h100.
Уже впилен torch, transformers и обещают deepspeed.
Возможно рынок *PU наконец перестанет быть монопольным, хотя с учётом текущей заточеености на Nvidia сложно конечно.
blog про трен
Blog
200 USD донатами и я пишу обзор на moe LM с колбами на поиграться.
Bep20:0x4DBd65ec0C0E91755e02170fC1C8f85FB4D6F4f9
Спасибо всем донатерам, планирую до конца года выпустить!
Mixtral-8x7b on Fireworks.ai https://app.fireworks.ai
Модель без инструктивного тюна, так что хзхз
По бенчам на уровне 65-70б инструкт моделей.
63 avg, при том что у 7b mistral ~60avg
Hf версия
Мидл: - пишет абстрактную фабрику
Сеньор: - увольняется, и устраивается на конкретную