❤️☠️🤗 идейная миграция небытия
❗️Сугробы в Москве подрастут на 7-10 см, по заявлениям чата канал до 15-20см
Love death transformers, на острие науки.
Сбер теперь делает ЯП?
Copy from @data_morning
Челы из eutherai зашли нормально, вероятно это текущая open source SOTA(речь про базовую модель, инструкт тюны вопрос пары недель).
Админ пиздит!! Yi34b лучше
Оказывается 8 месяцев назад вышла T5 like Moe модель c prefix lm+span corruption, обученная на 780b токенов и чекпоинты вплоть до 8В
code
Blog
я все пропустил(как всегда) а что за мода у техно-оптимистов цитировать сроки которые выдает Маск?
Сходу не могу вспомнить чтобы он хоть раз попадал по срокам вообще когда либо.
В ту же сторону вопрос: а цитировать людей которые напрямую заработывают на пузыре это норм или не очень?
Четверг 18.30: повтор лекции про Микеланджело
За два часа убежу вас, что скульптура лучше живописи и всего на свете вообще. Кажется, это лучший из моих материалов. Ну, вы знаете почему
Пятница 12:00: смотрим Возрождение в Эрмитаже. Леонардо, Микеланджело и другие черепашки на расстоянии вытянутой руки
Welcome 💋
Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
разница охуенная, папир это какой то троленг
Читать полностью…#чтивонаночь Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
alexwortega/0rZZfJKCe9F">Подробнее как всегда в teletype
code
paper
А на основе чего LLM это отдельный класс моделей, чем принципиально отличается LLM scientist от обычного NLPшника...
И тот и другой делает import transformers, половина кандидатов на вопросах о TP начинают чесать голову и искать глазами книжку по OSI
Вышел трейлер GTA 6:
https://youtu.be/QdBZY2fkU-0
Видимо в gta7 поиграют эээ наши дети? Сколько лет пройдет, 12? А между gta4 и gta5 прошло 6, те gta7 ждать году так к 2050, верно?
Guidence булочки мои.
Какую проблему он решает: это высоко уровневая надстройка над model.generate которая умеет использовать negative, forced tokens и прочие удобные штуки из коробки.
Вот такой синтаксический сахар выглядит как то что должно быть в transformers, но этого нет:
@guidance(stateless=True)
def ner_instruction(lm, input):
lm += f'''\
Please tag each word in the input with PER, ORG, LOC, or nothing
---
Input: John worked at Apple.
Output:
John: PER
worked:
at:
Apple: ORG
.:
---
Input: {input}
Output:
'''
return lm
input = 'Julia never went to Morocco in her life!!'
llama2 + ner_instruction(input) + gen(stop='---')
На хф вышел блог про HPU - Habana Gaudi2, за счёт того что часть операций с данными вынесена на девайс почти в 1.5 раза быстрее h100.
Уже впилен torch, transformers и обещают deepspeed.
Возможно рынок *PU наконец перестанет быть монопольным, хотя с учётом текущей заточеености на Nvidia сложно конечно.
blog про трен
Blog
200 USD донатами и я пишу обзор на moe LM с колбами на поиграться.
Bep20:0x4DBd65ec0C0E91755e02170fC1C8f85FB4D6F4f9
Спасибо всем донатерам, планирую до конца года выпустить!
Mixtral-8x7b on Fireworks.ai https://app.fireworks.ai
Модель без инструктивного тюна, так что хзхз
По бенчам на уровне 65-70б инструкт моделей.
63 avg, при том что у 7b mistral ~60avg
Hf версия
Мидл: - пишет абстрактную фабрику
Сеньор: - увольняется, и устраивается на конкретную
Релизы в конце 23 с каждым разом становились все более ебанутыми
Читать полностью…#чтивонаночь по быстрому
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners
Чуваки учат CLIP на синте(картинка синта) и выясняется что это хорошо работает.
А ещё придумали прикольный multipositive contrastive loss, чтобы использовать свою синту вместе с ориг данными.
paper
code он наконец выложен
все люди такие типа:
НО
вам надо знать что такое alexwortega/0rZZfJKCe9F">мамба(даже если окажется что это очень плохо) или мы будем драться.
#чтивонаночь
В прошлый раз гугл дропнул свою гемени, перепоооос, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
alexwortega/0rZZfJKCe9F">Подробнее как всегда в teletype
code
paper
все нормально, модели гугл по прежнему сосут, это +- уровень vicuna-gpt3.5 на lm арене
Читать полностью…Офигеть, гугл Gemini релизнул
https://blog.google/technology/ai/google-gemini-ai/
На mmlu и mmmu лучше gpt4(не совсем)
gemeny nano будет запускаться на pixel8
For Gemini Ultra, we’re currently completing extensive trust and safety checks, including red-teaming by trusted external parties, and further refining the model using fine-tuning and reinforcement learning from human feedback (RLHF) before making it broadly available.
с RLHF все стабильно (хуево)
paper
Just saying: у lm очень печальный коридор окупаемости - по нижней границе lm слишком тупая чтобы делать что то на массовую аудиторию, по верхней границе обучение стоит как боинг, а главное инфернс настолько дорогой что дешевле в рабство согнать 20000 PhD в восточной европе.
Пока идёт хайп об этом никто не думает, но пузыри имеют свойство сдуваться.
Первые ласточки: слухи о продаже stability.ai, факт того что gemeni до сих пор не выпущен, серьезного конкурента у gpt4 нет
Привет! Мы в Тинькофф болеем созданием обалденного пользовательского опыта во всех наших продуктах, поэтому, когда ChatGPT и LLM показали себя, мы тут же стали думать, как внедрить эту технологию себе. Сейчас мы расширяем команду, которая работает над нашим продуктом tGPT: LLM, делающей продукты Тинькофф гибче, дешевле и умнее. Поэтому самое время запрыгнуть к нам на борт, если вам хочется не просто наблюдать хайп вокруг ChatGPT, а стать частью этой истории. На данный момент мы активно ищем аналитика данных!
- Какие проблемы есть у ответов нейросети и как правильно лечить их с помощью данных?
- Как правильно количественно оценить ответы модели?
- Какие знания нужно заложить в модель на этапе предобучения, чтобы она отвечала правдиво?
На эти и множество других интересных вопросов вам предстоит ответить в роли аналитика данных, плотно взаимодействуя с менеджерами продукта, инженерами и шеф-редакторами. Если у вас есть базовое знание Python, опыт работы с текстовыми данными, опыт организации разметок на Толоке и продуктовое мышление, то скидывайте своё резюме в телеграм @solemn_leader.
Honest reaction: https://youtu.be/KFxyEFWc3Y4?si=cu50a5XE8wF944OE
Читать полностью…Короче да, я докатил до релиза свою картинко генерилку с которой возился с лета, она офк хуже d3, но в среднем лучше опенсурса из коробки(на начало ноября 23 года, офк до a1111 с миллионом лор далеко)
Велком! Скоро докачу image2video, думаю до конца недели.
Промптинг по стилю ближе к MJ, на длинные промпты скорее плохо реагирует.
Вероятно в ближайшее время напишу посты про то как учил с RLHF, выложу данные (чистую и sfw часть) и модели. А так же сравнения с open source, common APIs/civit models.
на новогодних праздниках будет инфернс(в коллаб точно влезет, но вот в 8гб не факт)
https://discord.gg/TMCN63AH