❤️☠️🤗 идейная миграция небытия
langchain:
ppo:
instruct вместо cot:
self dialog:
self instruct:
Опесурс живой, TheDenk выкатил Kandiskiy2.1 + textual Inversion!!
github
Удалил госуслуги. Думаешь, что будешь счастлив.
@
Сказали что будет рассылка через вк, ведь все давно знают кто с какого акка и фейка сидит.
@
Удаляешь вк
@
Начинает вибрировать Спутник V в левой руке
#чтивонаночь
Генерит HTML, отвечает на вопросы по картинке и перводит скрины с таблицами в csv? gpt4?
Нет, pix2struct дамы и господа, почитать что это от меня можно тут блогпост
huggingface
arxiv
Новая SOTA модель для русского языка FRED-T5 доступна на HuggingFace. 🚀🚀🚀
FRED-T5-1.7B
FRED-T5-large (820M)
Модель 1.7B показала лучший скор на RussianSuperGLUE и на текущий момент является SOTA для русского языка.
FRED-T5 основана на базе архитектуры T5. Изначально мы целились в ПРОМопригодность модели при выборе архитектуры. Мы использовали bbpe токенайзер от ruGPT3 (до large размера). Модель обучалась на миксе денойзеров. Денойзеры похожие, как в пейпере UL2. Если не слышали про UL2, то можно тут прочитать. Мы использовали равномерное распределение в задачах span corruption при выборе длины спана. И у нас было 7 денойзеров на каждый вариант семплирования (в UL2 было 3). Модель первую часть тренировки обучалась на 3.5Gb данных (чуть больше 1% от всего сета 300Gb). После она была дообучена на всем сете. Всего модель видела 1.5T токенов.
Вот такие денойзеры:
‘<LM>’:(µ = L/4, r = 0.25)
‘<SC1>’:(µ = 3, r = 0.15)
‘<SC2>’:(µ = 8, r = 0.15)
<SC3>’:(µ = 64, r = 0.15)
‘<SC4>’:(µ = 3, r = 0.5)
‘<SC5>’:(µ = 8, r = 0.5)
‘<SC6>’:(µ = 64, r = 0.5)
µ — это средняя длина спана в токенах, а r— это доля удаленных токенов
Ничего не поняли?) Через пару дней выйдет наша статья на Хабре, где мы расскажем детали.
Как можно юзать модель?
Берем токенизатор GPT2 и модель T5 из HF.
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained(('ai-forever/FRED-T5-1.7B')
Не забывайте руками добавлять ‘</s>’ если он нужен вам. GPT2Tokenizer не делает это по умолчанию.
Советы по файнтюну.
При файнтюне модели можно использовать префиксы денойзеров, которые использовались при обучении ‘<LM>’, ‘<SC1>’,...’<SC6>’. Добавляете в начале текста, подаваемого на энкодер. Если задача LM, то лучше использовать префикс ‘<LM>’, в остальных случаях можно без префикса. При файнтюне на RSG мы не увидели значимых различий в предиктах в зависимости от префикса и без его использования. Если ваша задача похожа на одну из задач денойзинга, то конечно стоит попробовать взять соответствующий префикс. Мы часто при файнтюне используем оптимизатор Adafactor c постоянным lr=0.001. Он чаще дает лучшие результаты чем AdamW.
Ватные итшники такие типа: пукпук плохой Фейсбук не даёт мержить фиксы Линукса.
Эти же люди: работают за доллары из Грузии, используют torch.
🤔
у кого мак вбейте в терминале эту команду
open /System/Library/Image\ Capture/Devices/VirtualScanner.app/Contents/Resources/simpledoc.pdf
будет прикол
Он настолько хорош что завел трейн llama13b в int8 в tensorparallel на kaggle.
Го накидаем лайков
Пришел батя из яндекса, сказал брать бейдж и оффер в девайсы, едем куда то на кутузу, не знаю что, но кажется началось
Читать полностью…К слову на hf доступен инференс, он тоже забит очередью, но есть шанс достучаться!
https://huggingface.co/spaces/sberbank-ai/Kandinsky2.1
пришел батя из сбера, сказал взять карту тинькофф, едем куда то за город, не знаю что, но кажется началось
подпишитесь пожалуйста на автора всего этого @gradientdip, он очень старался
выглядит как ебля наркоманов?
слои которые ты первый раз видишь и еще out = einsum('b i n, b c n -> b c i', context.softmax(dim = -1), x)
внутри?
а как насчет перестать использовать код lucidrains?
я вас за реакции не тянул, вы сами нарвались.
по идее оно должно быть instance view, но чет не але, хз как врубить
alexwortega/ZsGK3dRaTRN" rel="nofollow">https://teletype.in/@alexwortega/ZsGK3dRaTRN
We propose consistency models, a new type of generative
models that support single-step generation at the core of
its design, while still allowing iterative generation for zeroshot data editing and trade-offs between sample quality
and compute. Consistency models can be trained in either
the distillation mode or the isolation mode. In the former
case, consistency models distill the knowledge of pre-trained
diffusion models into a single-step sampler, significantly
improving other distillation approaches in sample quality,
@
Zero-Shot Data Editing Consistency models enable various data editing and manipulation applications in zero shot;
they do not require explicit training to perform these tasks.
For example, consistency models define a one-to-one mapping from a Gaussian noise vector to a dat
ставим лонг на билеты москва-любая точка на ближайшие 48 часов
А ЛУЧШИЕ ЛОНГИ МОЖНО ПОСТАВИТЬ НА АААААВИАСЕЙЛС, МОСКВА - КУДАУГОДНО
Пришла девушка из девайсов, сказала брать промокод на старкофе и алису, едем куда то в сторону сити, не знаю что, но кажется началось...
Читать полностью…I said what I said (aka у кого что болит - У МЕНЯ БОЛИТ ЗА МЕМЫ)
Читать полностью…- Да нормальные у нас метрики, объективные
- Их измерения:
""я эксперт в области генеративного ИИ, первый раз словосочетание генеративный ИИ я услышал в декабре этого года"" starterpack
Читать полностью…Результат генерации по запросу "миньоны на первой чеченской войне", стиль: 4k
Читать полностью…🚀Kandinsky 2.1🚀
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные изменения относительно предшественницы 2.0.
Отличительные особенности включают:
📌3.3B параметров
📌Разрешение генераций - 768x768
📌Image prior трансформер
📌Новый автоэнкодер изображений MoVQ
📌Дообучение на очень чистом сете из 172M пар «текст-изображение»
📌Режимы работы: генерация по тексту, смешивание изображение, генерация изображений по образцу, изменение изображений по тексту, inpainting/outpainting
Всё это позволило добиться впечатляющего качества на различных доменах генераций.
FID на датасете COCO_30k достигает значения 8.21🔥 По публичным данным на сегодняшний день лучше только eDiffI (NVidia) и Imagen (Google Reseacrh).
Детально о модели можно прочитать в статье на Хабре, а протестировать Kandinsky 2.1 можно тут:
📍Телеграм-бот
📍FusionBrain.AI
📍GitHub
📍HuggingFace
📍rudalle.ru
📍MLSpace
Спасибо всей команде за слаженную и качественную работу - испытываю несказанное признание каждому🔥
@complete_ai
Чтож, теперь у меня чат жпт встроена во все устройства, ллама 13б все ещё не оправдывает надежд по качеству генерации статей :(
Читать полностью…все что надо знать о качестве ЕТА НОВАЯ ЧАТЖПТ ОПЕНАИ СОСНЕТ И НЕ БУДЕТ ПОЛУЧАТЬ ДЕНЕГ, ОПЕНСУРС ПОБЕДИЛ.
угу хуй там, гпт4 пока что безальтернативна по качеству, lamma пригодна для генерации веселого бреда или как база для нормального чатбота.
короче на 100 реакций допишу и выложу чо я думаю о том что происходит с моделям и опенсурсом