❤️☠️🤗 идейная миграция небытия
ну и немного генераций, не то чтобы модель хорошо генерализована, но то что было в сете масок - очень неплохо решает, ОСОБЕННО в задаче replace {class}
Читать полностью…К слову, chat gpt это лучший пример того что происходит когда хочешь чтобы твои ответы любили
Читать полностью…Мы тебе давать: 800 рублей на бейдж
Ты нам давать: работаешь до 21 в офисе
мем прошлогодний, но с каждым годом смешнее и смешнее
Читать полностью…SCP-3008 "Абсолютно нормальная старая добрая Икея"
Читать полностью…Блять, мы чо реально вернули 2008....
Читать полностью…подписчики притащили поисковик по архиву который я раньше не видел, и он 💫п р е к р а с е н💫
arxivxplorer.com
@lovedeathtransformers
Входит, значит Сергей Брин в Ларри Пейджа и говорит:
- Ларри, гляди, Майкрософт в свои сетки в поисковик сделали!
- Что, правда?!?!
- Нее, мне просто нравится, когда ты очко сжимаешь)))
Презентация LLM поисковика от гугл будет сегодня, по этой ссылке
XLM-V: Overcoming the Vocabulary Bottleneck in
Multilingual Masked Language Models
В статье поднимается следующая проблема: языковые модели увеличиваются в параметрах, растут в глубину, но словарь по размеру все тот же. Например у модели mT5 13B параметров, но размер словаря всего 250К, что еще и охватывает 100+ языков. Таким образом это примерно 2500 уникальных токенов на язык, что очевидно довольно мало.
Что решают сделать авторы? Неожиданно, но начинают обучать новую модель с 1м токенов в словаре. Был XLM-R, ну а с таким апгрейдром станет XLM-V
Что используют нового в XLM-V, чего не было в XLM-R?
💓💓💓Строят вектора лексических представлений для каждого языка следующим образом (используют подход Improving Multilingual Models with Language-Clustered Vocabularies): для каждого языка в множестве языков, они составляют бинарный вектор, каждый элемент которого это определенное слово в языке. 1 означает, что слово присутсвует в словаре этого языка. (можно посмотреть во вложениях рисуночек с графическим объяснением). Но авторы совершенствуют способ, на который идет ссылка, за счет постороения вектора с помощью отрицательной логарифмической вероятности появления каждой лексемы.
💓💓💓Затем вектора кластеризуются. И на каждом отдельном кластере обучается sentencepiece model, для того, чтобы предотвратить обмен словарным запасом между лексически несхожими языками.
💓💓💓С помощью ALP (средней логарифмической вероятности) оценивают способность словаря представлять конкретный язык. (скрин с формулкой из статьи во вложениях)
Следующим шагом используют алгоритм для посторонних словарей ULM. Который начинает с большого исходного словаря, который итеративно обрезается, пока количество лексем не упадет ниже заранее определенного порога размера словаря.
Полюбоваться апгрейдом скора можно во вложениях :)
Куплю ваши видеокарты от 11гб памяти в мск, не майнинг
Читать полностью…помните - все ваши ответы будут использованы при обучении chat yalm
Читать полностью…Молодой парень устроился на работу джуном.
Проходит месяц. Наступил день зарплаты — а новичок за деньгами не приходит. Прошёл второй месяц, третий, четвёртый, а за зарплатой он так и не пришёл.
Стало старому тимлиду интересно, что происходит. Он вызывает к себе этого джуна и спрашивает:
— Ты что это за зарплатой не приходишь? Не нужна что ли?
— Зарплата?! Ой… А я-то думал, дали компьют — и крутись как хочешь…
по отзывам обновил бота, выпилил текст и оставил только иконки.
сменить лого канала на генеративное?)
@icons7z_testbot
#чтивонаночь
X-Decoder:
Generalized Decoding for Pixel, Image and Language
опять инструкции, но теперь оно решает пары задач текст-картинка-текст(editing, retrival, qa, vqa, zeroshot, Image Editing(lol)).
Как это работает:
- Комбинация из нескольких энкодеров в один слой
- Лоссы под каждую задачу: mask loss, perceptual loss,
- Cross attention под комбинации модальностей
-Под все задачи использовали промптинг формата: segmenation mask class -> a photo of {class}
- инструкции под изменения обьектов на фото с учетом эмбедингов из panoptic segmentation
Бьет SOTA на ADE20k(cегментация)
🖥github
🤗hf_space
Снова объяснил кому то в интернете что он не прав 😎😎😎
Читать полностью…#чтивонаночь
Diffusion With Offset Noise
Вы никогда не замечали что SD не очень хорошо генерирует темные сцены?
Проблема оказывается в том, что в ходе прямого процесса вы никогда полностью не стираете исходное изображение, поэтому, в свою очередь, обратная модель, начинающаяся с чистого шума, не совсем возвращается к полному истинному распределению изображений.
Вместо этого, те вещи, которые шум разрушает в последнюю очередь, в свою очередь, наиболее слабо изменяются обратным процессом - эти вещи наследуются от исходного шума, который используется для начала процесса.
Диффузия не знает, как изменить эти длинноволновые характеристики. А самая длинноволновая характеристика - это среднее значение изображения в целом, которое также является характеристикой, которая с наименьшей вероятностью будет меняться между независимыми выборками скрытого шума.
Так же авторы предложили решение, вместо инициализации шума через
noise = torch.randn_like(latents)инициализировать через
noise = torch.randn_like(latents) + 0.1 * torch.randn(latents.shape[0], latents.shape[1], 1, 1)
, что дает сильно лучшее качество на темных картинках.#чтивонаночь
APE Automatic Prompt Engineer
В чём идея: давайте заставим модель с помощью нескольких эвристик и переборов промптов(генерируемых моделью), на инференсе заставим подобрать промпт дающий максимальный score.
Ну и да, такой подход позволяет ОЧЕНЬ сильно бустануть метрики, см вторую картинку, самым правильным промптом оказалось: Let's work this out in a step by step way to be sure we have the right answer.
site
Code
Прекрасная академия будущего с гитом и логированием симуляциями для учёных всех мастей, все статьи выходят в виде обновляемых постов, ревьювит их антиплагиат + кто хочет, а рейтинг статьи определяется по весу оценок.
Читать полностью…Смотрим, любуемся, анекдоты будут позже
Трансляция
ты готов купить дорогую видеокарту, а готов ли ты купить дорогой роутер?
Читать полностью…Московские мигранты в Нью-Йорке: пук пук крыска в метро, бомжик нассал.
Московские мигранты в Лондоне: у нас в отделе ввели коэффициент найма на количество зарезанных людей, кстати у меня тут мешки черные, помоги вынести пожалуйста.
Ещё тема для дискас: хорошая модель с хорошим сетом будет работать не хуже чем хайповое RLHF, сила cgpt не в PPO, а в сете
Читать полностью…По достижению 18 лет человек строит свою личность на основе одного из персонажей силиконовой долины.
Читать полностью…Вообще хз чо так дрочат на RLHF - имхо залупа из конца 10хх которую сложно обогнать без кучи данных и экспрементиров, отстование опенсурск сильно больше полугода и в лоб обогнать не получится.
Дискасс.
премия? зарплата? а тебя отец зачем учил осцилограф пиздить? берешь и пиздишь dgx, продаешь, вот и зп за год
Читать полностью…Stanford Webinar - GPT-3 & Beyond
Вчера посмотрел эту прелестную лекцию из Стенфорда о новейших Языковых моделях. Проф С. Potts очень классно дал общий обзор языковых моделей и быстренько рассказал, как мы докатились до таких чудес как, например, GPT-3 и ChatGPT. Затем он порассуждал о том, в каких подтемах NLP можно еще что-то привнести обычному смертному, если у вас нет миллионов долларов на обучение SOTA моделей.
И вот какие актуальные темы для рисерча:
- Retrival augmented in-context learning (условно, как поженить поиск и LLM)
- Создание лучших бенчмарков, датасетов
- "Last mile" for productive apps: Адаптация огромных моделей для конечных приложений, упрощающих жизнь
- Исследования в сторону объяснения и верификации результатов, выданных LLM (огромными языковыми моделями).
Сами они в научной группе этого профа, с его слов, почти перестали тренировать модели и, кажется, занимаются промт-инженирингом и докручиванием уже натренированных LLM по вышеуказанным направлениям.
Получилась не очень тяжелая, но очень вдохновляющая лекция! Может после этого вы захотите написать диссер в области NLP. Ну, либо создать стартап.
@ai_newz