❤️☠️🤗 идейная миграция небытия
Запустить doom на микроволновкe?
Запустить mistral на попугае!!
лин электронщик подкидывает линку
Ща будет миллион папир формата:
Moe lora
Q Moe lora
Moe adapters
Moe vision-speech-what ever
Мое cuda kernels
Diffusion Moe
А ещё все вспомнят про column разрезание модели
Контента на пару месяцев у меня явно будет.
с МОЕ все хорошо.
If you need a house, just buy a house
чуть лучше yi34b чуть хуже deepseek67b, надо будет смотреть что с доступностью для ft /inference.
На первый взгляд дороже ft/inference чем у 34b, но однозначного ответа нет.
почему instruct tuning-t2i aligment, называйте как хотите, важен, но про него никто не говорит?
слева ориг, справа после тюна.
Результат на лицо полагаю?
промпт: "cat in boots and dog"
Бонус: душаться сиськи-трампы и прочее, lvm задушены на персонажей(или можно задушить промптом).при желании можно и наоборот
Guidence булочки мои.
Какую проблему он решает: это высоко уровневая надстройка над model.generate которая умеет использовать negative, forced tokens и прочие удобные штуки из коробки.
Вот такой синтаксический сахар выглядит как то что должно быть в transformers, но этого нет:
@guidance(stateless=True)
def ner_instruction(lm, input):
lm += f'''\
Please tag each word in the input with PER, ORG, LOC, or nothing
---
Input: John worked at Apple.
Output:
John: PER
worked:
at:
Apple: ORG
.:
---
Input: {input}
Output:
'''
return lm
input = 'Julia never went to Morocco in her life!!'
llama2 + ner_instruction(input) + gen(stop='---')
На хф вышел блог про HPU - Habana Gaudi2, за счёт того что часть операций с данными вынесена на девайс почти в 1.5 раза быстрее h100.
Уже впилен torch, transformers и обещают deepspeed.
Возможно рынок *PU наконец перестанет быть монопольным, хотя с учётом текущей заточеености на Nvidia сложно конечно.
blog про трен
Blog
200 USD донатами и я пишу обзор на moe LM с колбами на поиграться.
Bep20:0x4DBd65ec0C0E91755e02170fC1C8f85FB4D6F4f9
Спасибо всем донатерам, планирую до конца года выпустить!
Mixtral-8x7b on Fireworks.ai https://app.fireworks.ai
Модель без инструктивного тюна, так что хзхз
По бенчам на уровне 65-70б инструкт моделей.
63 avg, при том что у 7b mistral ~60avg
Hf версия
Мидл: - пишет абстрактную фабрику
Сеньор: - увольняется, и устраивается на конкретную
Релизы в конце 23 с каждым разом становились все более ебанутыми
Читать полностью…#чтивонаночь по быстрому
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners
Чуваки учат CLIP на синте(картинка синта) и выясняется что это хорошо работает.
А ещё придумали прикольный multipositive contrastive loss, чтобы использовать свою синту вместе с ориг данными.
paper
code он наконец выложен
все люди такие типа:
НО
вам надо знать что такое alexwortega/0rZZfJKCe9F">мамба(даже если окажется что это очень плохо) или мы будем драться.
#чтивонаночь
В прошлый раз гугл дропнул свою гемени, перепоооос, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
alexwortega/0rZZfJKCe9F">Подробнее как всегда в teletype
code
paper
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
Instruct вроде не мерили еще
Админы в 23 вечера воскресенья пишут очередные посты на день:
Читать полностью…Друзья, привет, вдохновились успехом коллег и разных генераторов миджорни в телеграме 🙏️️️️️️
Решили, что будем идти в сторону фана и реализма
Так что запускаем своего бота старика Аватара Аватарыча 😁️️️️️️
Что он умеет:
👀️️️️️️ По вашей фотке автоматически понимать, кто вы есть
👀️️️️️️ Рисовать вам аватарки в заданном стиле с вашим лицом
Это пока версия 0.1, поэтому пробуйте больше раз, может что-то получится
👀️️️️️️ Пока есть проблемы кривых глаз
👀️️️️️️ С кожей тоже пока шалит
Но все генерации уникальны, так что советую гененировать штук 10 для хорошей 🙌️️️️️️🤖️️️️️️
Если соберем 100 юзеров, будем улучшать качество глаз и кожи нашим алгоритмом +
ПС также скоро добавим функции в инсомнии
Бот 👇️️️️️️👇️️️️️️👇️️️️️️
@AvatarychBot
Дошли руки выложить часть(20%) Instruct датасета, он ощутимо меньше чем Большой SFT сет, но дополнительно прочищенной GPT4.
Датасет получен следующим образом:
LLAVA1.5 доученная на датасете из GPT4v генерит кэпшены
GPT4 правит кэпшены чтобы они были удобными и понятными.
По деньгам на api вышло что то вроде 150usd.
Отдельное спасибо @bogdanisssimo за токены на gpt4v
dataset
Пример кэпшена: A dog stands amid a circular pattern, mountains rising behind it, while a bird flies in the distance.
❗️Сугробы в Москве подрастут на 7-10 см, по заявлениям чата канал до 15-20см
Love death transformers, на острие науки.
Сбер теперь делает ЯП?
Copy from @data_morning
Челы из eutherai зашли нормально, вероятно это текущая open source SOTA(речь про базовую модель, инструкт тюны вопрос пары недель).
Админ пиздит!! Yi34b лучше
Оказывается 8 месяцев назад вышла T5 like Moe модель c prefix lm+span corruption, обученная на 780b токенов и чекпоинты вплоть до 8В
code
Blog
я все пропустил(как всегда) а что за мода у техно-оптимистов цитировать сроки которые выдает Маск?
Сходу не могу вспомнить чтобы он хоть раз попадал по срокам вообще когда либо.
В ту же сторону вопрос: а цитировать людей которые напрямую заработывают на пузыре это норм или не очень?
Четверг 18.30: повтор лекции про Микеланджело
За два часа убежу вас, что скульптура лучше живописи и всего на свете вообще. Кажется, это лучший из моих материалов. Ну, вы знаете почему
Пятница 12:00: смотрим Возрождение в Эрмитаже. Леонардо, Микеланджело и другие черепашки на расстоянии вытянутой руки
Welcome 💋
Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.