❤️☠️🤗 идейная миграция небытия
Мы обещали выложить вам новых балдежей в CORL. А теперь следите за руками!
Во-первых, мы опубликовали source code для нашей недавней статьи про БОЛЬШИЕ батчи aka LB-SAC. Большие батчи позволяют обучать offline RL модели в 3-4 раза быстрее, чем SAC-N.
Во-вторых, @howuhh опубликовал на своем личном github SAC-N переписанный на Jax, который обучается в 10 раз быстрее, чем версия на PyTorch.
В-третьих, CORL в ожидании мерджа LB-SAC. В этой ветке доступна однофайловая имплементация, с которой можно очень легко разобраться в том, как работает метод.
P.S. Домашнее задание подписчикам, которые хотят примкнуть к нашему функциональному движу, но не знают, с чего начать – переписать LB-SAC на Jax и получить 30x ускорение, относительно SAC-N на PyTorch 💨
фанаты адафактора такие типа: лучший оптимайзер евер
фанаты адафактора когда надо ставить с нуля что либо: пук пук, torch.optim.AdamW
#чтивонаночь
Два движенья опа опа, dssm готова
Beating OpenAI CLIP with 100x less data and compute
1) CLIP учился на 512 ГПУ в сетапе multimodal dssm Bert-vit
2)512 а100 много, мы бедные нам бы в 4 ГПУ и модель поменьше, не 125м а 4м адаптеров + накинем mid fusion - по сути общий transformer layer между text, image tower
3) Очистка данных в рамках которой 2м датасет уменьшили до 800к датасета, при этом Асс и recall сравнимы с CLIP оригинальным.
blog
github
GPT теперь принимает на вход эмбеддинги
Наконец! В transformers
добавлена поддержка эмбеддингов в качестве инпута для полноценной генерации в GPT-like моделях.
За последние годы вышло много работ, которые предлагают использовать этот механизм для таких штук как мультимодальный диалог и p-tuning, но приходилось сильно извращаться чтобы совместить эти подходы с генерацией текста. А теперь это можно сделать в одну строчку! Cоединять текст, картинки и звук теперь будет ещё проще!
Поддержка уже есть для GPT-2, GPT-j, BLOOM, BioGPT, но надо будет установить версию 4.27.0
.
GitHub
И ожидамо все плохо, зато ещё пару месяцев будет не решеный бенч
Читать полностью…Хотел избежать 9-5, а получил 24/7 🫣
Реальный коллаб с Russians in London
Научите пожалуйста Mujuice релизить чаще чем раз в два года...
Читать полностью…Тут Илья Гусев специально для @betterdatacommunity сделал пост про генеративный ai на хабр, г о д н о
habr
Западный рынок труда после кучи увольнений:
Читать полностью…Я серьезно говорю, челы из mundfish при разработке перевели очень много салфеток....
Читать полностью…Я тут недавно зашел посмотреть насколько живой одс и сильно расстроился - он скорее мертв чем жив, а значит пора начинать делать что то свое. Мы с несколькими знакомыми решили стартануть better data community, своего рода флудилка - свалка по интересам для DSов и сочуствующих.
Инвайт:
/channel/+eB60Ru4Geqw4Mzky
А прикиньте как сложно ща выпускать новые модели когда под SD 99% кода, куча надстроек которые из говна коим стебль является делает реально топ модель? тот же control net решает 99.999999% проблем которые в целом могут быть, а комьюнити файнтюны ебут все что движется, а что не движется, двигают и тоже ебут...
Читать полностью…Мы с коллегами в ШАДе сделали либу для multy-GPU обучения и инференса моделей с интеграцией с HuggingFace.
Может кто посоветовать, куда о ее релизе написать, чтобы дошло до тех, кто бы этим пользовался?
А, давно хотел сказать.
OPT и bloom лютая хуета, просто пиздец кринж.
Поставил качаться ламу(llama), наберём 100 реакций сделаю бота, на 300 реакций сделаю скрипты тюна.
Почему есть senior за месяц, но нет principal за полтора?
Читать полностью…Когда я был маленький, я подгонял результаты лаб, когда я вырос я стал подгонять результаты статей...
Читать полностью…#чтивонаночь (нет блять на утро)
ProofNet - новый бенчмарк от Euther Ai для доказательства теорем и автоформализации математики на уровне бакалавриата. ProofNet включает в себя +- первые два курса сатана, алгебры, дискры. Исследователи отмечают, что их бенчмарк труден для моделей с параметрами GPT-3 и O(1B), даже при использовании небольшого количества обучающих примеров.
Paper
Dataset 🤗
Генерация аудиодорожек с помощью треска дросселей на видеокарте
Подбираем модель и батчи таким образом, чтобы перегруженные дроссели начинали насвистывать нужную мелодию
Future work: собираем оркестр из distributed кластера
за пост спасибо нашему @user77256148224
Читать полностью…Тред atomic heart, делитесь всем что собрали из мемов, крутого и вообще
Читать полностью…Знаете почему agi не создали в Сколково? Он сразу умер от осенне зимней депрессии и убил пол кластера
Читать полностью…Люди из Украины и России, миллионы беженцев и тысячи пострадавших за последний год, мы говорим на разных языках, имеем разные паспорта, но важно оставаться человеком и хотя бы не увеличивать количество зла.
Мы обязательно выживем мои чуваки, победа будет за будущим, а не за прошлым.
Обнял🤗
Оч интересная штука, выкатили паралельный корпус русско-марийского языка
hf
Читать как: сделали tensor parallel, сегодня ещё потестирую расскажк
Читать полностью…Welcome to my boiyesian inference class
Читать полностью…