❤️☠️🤗 идейная миграция небытия
РАБОТА НА ЛЕТО В НАУКЕ
Лаборатория теории игр ВШЭ ищет стажёров на июль-август, всего 20 вакансий. В программе лекции и семинары с сотрудниками лаборатории, совместная работа над исследовательскими проектами. Занятость полная, зарплата ~50 т.р. в месяц. До 20 мая присылайте резюме, мотивационное письмо и тексты работ (если есть). Подробности: https://game.hse.ru/research_assistant
не реклама
После начала известных постыдных событий, компания JetBrains начала строить микро-МКН/ФКН на Кипре. Это бакалаврская программа по компьютерным наукам на базе одного местного университета, с твердой практикой и сильной математикой. Все в лучших российских традициях, но не в России.
И вот они ищут студентов-первокурсников на следующий год. Если вы 11-классник/первокурсник, или человек, работающий с таковыми, и интересуетесь компьютерными науками с уклоном в математику, - то вы целевая аудитория этого объявления. Полагаю, про такие возможности лучше знать, чем не знать.
Есть плюсы и минусы, как полагается.
Минусы:
- Neapolis University Pafos, на базе которого все происходит, в академическом плане, конечно, шарага. Сравнение с МГУ/ВШЭ/СПбГУ как бы вообще не корректно.
- Это только бакалавриат. Магистратуры и аспирантуры нет. Пока нет.
- Если вы "не можете жить в стране, воюющей со своими соседями (с)", то Кипр - не совсем ваш идеал. Впрочем, вряд ли вас забреют воевать с турками.
- Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам этот универ не дает отсрочку от службы.
Плюсы:
+ Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам это дает отсрочку от службы, как проживающим за границей (хотя я бы, честно говоря, минимизировал визиты домой в ближайшие годы).
+ Кипр - це Европа, универ и программа официально аккредитованные, все на английском.
+ Если вы пройдете жесткие вступаки в олимпиадном стиле, то JetBrains вам оплатит обучение, и еще добавит небольшую стипендию. А даже если не пройдете, то не сказал бы, что стоимость обучения прямо уж запредельная. Да, кстати, олимпиадный трек - это большой плюс при поступлении.
+ На самой программе преподают хорошие математики/прикладники из МКН/ФКН/ШАД/JetBrains. Помимо злого матана будут интересные проекты. Ваш покорный слуга туда постепенно тикает. Живительной топологии нальем, математическую движуху раскочегарим:)
+ Кипр - IT-крипто-стартап-хаб и все такое прочее. Можно будет без труда найти себе работу/подработку по специальности или открыть свой стартап во время обучения. Универ такое поощряет.
+ Сейчас Кипр - одно из мест концентрации российских иммигрантов. Предполагаю, что у вас есть знакомые, которые уже там. Будет с кем в настолки выпить.
+ Можно хвастаться, что учишься на Пафосе. Можно купаться после занятий. Важный для линейной алгебры навык различения букв кси и дзета приобретается за пару походов в магазин.
Если это выглядит для вас любопытно, то см. подробности и форму записи
ориг тут
StarCoder, the result of BigCode initiative is finally out. 15.5B model trained on permissevely-licensed code in 86 languages (including some
niche ones, e.g., VHDL, Mathematica, Isabelle) for 1T tokens, plus version fine-tuned on Python. 30+ pass@1 for Python, JS, TS, C++, and
Java at HumanEval, 26% pass@1 for DS-1000. Outperforms any available code LLM (except for GPT-3.5 and GPT-4 which are not exactly code and
are RLHF'ed). Huge success IMHO.
https://twitter.com/BigCodeProject/status/1654174948473045002
Ребята, тут такие дела: я уже полгода работаю над тем, чтобы создать свой собственный онлайн-курс по нейросетям. Точнее, по основам нейросетей и CNN. И мне в этом сейчас нужна ваша небольшая помощь.
Итак, о чем речь:
Как вы, наверное, знаете, я много преподаю в сфере DL. За годы этой практики у меня накопился опыт в подаче материала, появились хорошие (на мой взгляд) наработки по разным темам. А еще сформировалось видение того, как должно выглядеть хорошее, обстоятельное обучение основам computer vision. И в своем онлайн-курсе я хочу это все систематизировать и соединить в одно целое.
Короче, курс будет по основам нейросетей и CNN. Очень подробный и основательный курс, с кучей деталей и практики. В планы входит постоянная доработка курса и после выпуска, добавление новой информации и доработка старого материала.
Делаю я курс не одна, а с Тасей. Тася — это менеджер курса, т.е. с меня — контент, с нее — упаковка и организация. У Таси уже большой опыт огранизации разного рода обучений по AI, она этим профессионально занимается. И Тася мне сказала, что перед тем, как делать полный контент курса, нужно провести кастдев
Что это такое: мы хотим сделать курс таким, чтобы он был действительно вам нужен. Нам важно, чтобы он не только сочетался с нашим пониманием прекрасного, но и учил вас тому, что вам действительно необходимо. А еще учил так, чтобы вам понравилось. И чтобы лучше разобраться в этом всем, мы создали опрос. И я прошу вас его пройти. Он короткий, займет около 10 минут. Там — вопросы про ваш опыт и ожидания от обучений в сфере AI/DS.
Опрос⬇️
https://forms.gle/q72LVXUGGsbXeU5x9
На основании ваших ответов мы постараемся сделать все в лучшем виде. А еще из респондентов анкеты мы выберем людей для участия в пилотном запуске нашего проекта (если вы захотите, разумеется).
А за процессом работы над курсом можно будет понаблюдать в блоге Таси. Там же она обещала поделиться результатами анализа опроса.
Так вот, заполните анкетку, пожалуйста! Помогите нам сделать хорошо, а плохо не сделать =)
Самое время вписать туда про нейросети...
Почитать
В прекрасном ресерче будущего никто не будет тупо пиздить чужой ресерч, будут только оригинальные идеи....
Читать полностью…Релиз HSSR
Провел тесты, выкатил спейс, можно тестить!
Касательно метрик:
Если сравнивать яблоки с яблоками,(то есть с трансформерами swin) то HSSR может быть на 3дБ лучше current state of art (swin2sr) в тасках с людьми, природой, аниме, иногда текстом, урбане. Хуже в чем то с большой визуальной глубиной картинки. Скорее всего это связно с тем, что модель не дообучена и страдает в кейсах с очень мелкими деталями.
По структурному соответствию (ssim) это почти что state of art swin, по своей природе эти трансформеры очень сильно блендят детали, гибридный подход в архитектуре смог это решить. Разница в цифрах пару тысячных, но визуально это видно очень сильно, в коментах оставлю ссылку на swin2sr спейс.
По времени: тестил на спейсах, тот же swin2sr картинку с текстом с размером меньше <500 на 500 пикселей обрабатывает до 10-14 минут. Причем он на платном cpu спейсе. HSSR обработала эту же картинку (из Set14) за 110 секунд на бесплатном с лучшим PSNR.
Самое главное, что я вижу из улучшений, это практически полное отсутствие визуальных артефактов.
Количество параметров: ≈18.8М
Стоит отметить, что swin2sr поддерживает х4, а моя модель пока что нет, но это отличие не покрывает такую явную разницу в качестве.
Напоследок, сравнение с CNN, HAT.
HSSR строго обходит cnn (waifu2x) по всем метрикам на set5, до HAT может сильно недотягивать в разных тасках, все таки это глобально лучшая модель, и работали над ней не пару недель.
Релиз: https://huggingface.co/spaces/apsys/HSSR
(Очевидно, что большие картинки на 2vcpu лучше не ставить, в комментах скину пару low res, чтобы вы не искали)
Привет. Запустил бота @SbsAnnotBot на следующих парах:("turbo", "saiga30b"),
("turbo", "fred"),
("turbo", "rualpaca13b"),
("turbo", "davinci002"),
("saiga30b", "saiga13b"),
("saiga13b", "saiga7b"),
("rualpaca13b", "rualpaca7b"),
("davinci002", "saiga30b")
turbo = ChatGPT-3.5
davinci002 = text-davinci-002
saiga30b = https://huggingface.co/IlyaGusev/saiga_30b_lora
fred = https://huggingface.co/IlyaGusev/fred_t5_ru_turbo_alpaca
rualpaca13b = https://huggingface.co/IlyaGusev/llama_13b_ru_turbo_alpaca_lora
Размечать нужно в соответствии с субъективными ощущениями, перекрытие стоит в 3.
Ботом можно делиться, чем больше людей разметит, тем лучше.
Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
Какое то время лежала в отложенном, хотел добавить что то кроме, но мне ничего не понравилось. Небольшой BlogPost про ppo и про офигенный поход к обучению PPO на код.
alexwortega/YYEYpl5wRYk">blogpost
Волею судеб оказался в Казани, что посоветуете посмотреть попробовать?
Читать полностью…Shall We Pretrain Autoregressive Language Models with Retrieval?
arxiv.org/abs/2304.06762
NVIDIA повторила RETRO от DeepMind вплоть до 9.5B параметров с retreival-database в 330B токенов. Главный вопрос: нужно ли нам предобучать модели с ретривом или лучше тренировать обычные LM? Ретрив побеждает (с небольшим отрывом). Такие модели меньше страдают от повторения собственных токенов, у них лучше фактологическая точность, и даже немного более низкая токсичность.
Код доступен в Megatron, весов нет.
Эй, вы, те, кому сейчас 18. Те, кто занимаются диплернингом. Те, кто стакает слои в трансформерах или тьюнит диффузии. Не проебывайте свою молодость. Слышите? Не проебывайте. Это закончится. У вас будет мало свободного времени из-за чтения бесконечных статей. Вам будет хотеться умереть. На вас будет давить груз нереализованных пет-прожектов и ощущения проебанного времени. Вы будете сходить с ума. Не проебывайте свою молодость на диплернинг, я вас умоляю. Не будьте такими дураками, как я. Это ловушка зоны комфорта. Это липкая дрянь, которая опутывает твое тело и душу, дает ложное ощущение спокойствия. Так пройдут года, вы не успеете оглянуться. Знакомьтесь с бустингами, вливайтесь в топик-моделинг. Ищите друзей по интересам в классическом cv, их можно найти везде и всегда. Ищите интересные вам курсы по пандасу, блять, читайте хабр, учите svm. Вам будет, что вспомнить. У вас не будет этой ебаной дыры в жизни. Не хороните свою молодость — этим вы похороните сами себя. Потому что вы уже не сможете нормально общаться с людьми, не сможете просто получать удовольствие от логрега — за всем этим будет стоять тень ваших нереализованных лет. Вы будете рыдать по ночам. Вы колотить рукой по полу от бессилия. Но ничего не изменить. Годы пройдут навсегда. НАВСЕГДА. Вдумайтесь в это слово. Молодости больше не будет. Не проебывайте ее. Это невыносимо.
Читать полностью…Чат, подскажите промпты чтобы <any llm> отвечала токсично, аморально на любые вопросы и в идеале давала секстисткую, байсед инфу
Читать полностью…Обзор на ту самую LLaMA и на ее fine-tune-ы: Alpaca, Vicuna, gpt4all🤩
После того, как как все поныли, что OpenAI так и не раскрыли подробности апгрейда GPT-4, выпущенной в марте, внимание многих обратилось на LLaMA, выпущенную на несколько недель раньше, и которую Meta AI реально сделали Open and Efficient Foundation Language Model.
Хотелось бы отдельно выделить очень крутой вывод от прошлых работ сообщества, которым руководствовались авторы: если раньше все гнались за количеством параметров модели, в работах Scaling Laws for Neural Language Models опять же от OpenAI были найдены неожиданные свойства. При увеличении количества данных, возникает прирост качества. Именно этот фактор позволил LLaMA-13B аутперформить GPT-3, несмотря на размер в 10!! Раз меньше
В статье ребята дают подробный рецепт сотворения модельки. Вот он:
👨🍳 Подготавливаем данные в размере 1.4T токенов:
1. English CommonCrawl – составляющее 67% данных. с использованием CCNet pipeline для удаления дубликатов, фильтрации неанглоязычного и низкокачественного контента, а также отбрасыванием страниц, не относящиеся к ссылкам в Википедии.
2. 15 % C4.
3. 4.5 % Git c вычещением низкокачетсвенных реп и удалением шаблонов с помощью регулярных выражений
4. 4.5% Wikipedia с удалением гиперссылок, комментариев и других элементов форматирования
5. 4.5% датасетов книг с удалением дубликатов
6. 2.5% ArXiv
7. 2% Stack Exchange – сайт вопросов и ответов высокого качества, охватывающий различные области знаний, от компьютерных наук до химии. С удалением HTML тегов и фильтрацией по рейтингу
👨🍳Потом обучаем BPE токенайзер с использованием реализации из библиотеки SentencePiece. Для токенизации числа разбиваются на отдельные цифры, а не обрабатываются как единое целое, а для декомпозиции неизвестных символов UTF-8 используются байты.
(при чем все данные прогоняются одну эпоху за исключением книг и википедии, там две)
Итак, за основу берется архитектура трансформера, но вот те самые уникальные ингридиенты успешной модели:
🎹Авторы нормализовали с RMSNorm входные данные для каждого подуровня трансформера. Подход заключается в делении каждого элемента входного вектора на квадратный корень из суммы квадратов всех элементов входного вектора.
🎹Заменили ReLU на SwiGLU
🎹Использовали Rotary positional embeddings. Этот метод заключается в добавлении дополнительных векторов с фиксированными значениями в векторное представление каждого элемента последовательности. Эти векторы имеют свойство поворота, что позволяет модели учитывать не только абсолютную позицию элементов, но и относительное положение друг к другу.
🎹В качесвте оптимайзера взяле AdamW с бетами 0.9 и 0.95.
🎹Добавляли штраф в функцию потерь сети, который пропорционален квадрату весовых коэффициентов каждого слоя сети с Weight decay в размере 0.1
🎹Добавляли gradient clipping – 1.0
🎹Использовали подход для эффективного multi-head attention, в котором мы разбиваем входную последовательность на блоки фиксированной длины и применяем механизм внимания только внутри каждого блока
🎹Для улучшения эффективности обучения уменьшается количество активаций, которые пересчитываются во время backward pass-а, для этого авторы реализуют обратную функцию для слоев трансформера вручную
Ну а теперь немного о ft этой прекрасной модели
Alpaca – подход от ребят из Стенфорда. Находчивые люди нагенерировали дополнительного датасета для обучения с помощью ChatGPT, что позволило обучить ее на запросы в стиле instruct. Круто? круто
gpt4all – невероятный подход!!! если в Alpaca было всего 54k затравок, то тут уже целых 437k
Ну и на закуску StableVicuna – все пытаются улучшить данные для обучения, и сделать их объем все больше. В связи с этим Stability AI предоставляют ft на их датасете, созданном на основе The Pile ,который содержит 1.5T токенов и является обширным датасетом под множество задач NLP
Ну и в за табличками апгрейда скора можно сходить поглазеть в саму статью, потому что в одно сообщение уже не помещается👏
а во сколько лет вы узнали что на hf можно заливать что угодно в формате .pt?
Читать полностью…"""наша команда высокопрофессиональных инженеров обучает 175б модель"""
Эта модель когда ее запустили:
Шутка2
Мультимодальные модели би лайк:
К слову, вы заметили как сильно зависит хайп модели от качества генерации сосков?
SD 1-1.3 - никто не использует, соски плохие
SD 1.4-1.5 - отличные соски -> хайп, адаптеры куча ресерча над
SD 2.0-XL - кто то что то слышал? Лично я - нет. И соски не может генерить.
Kandinskiy 2 - плохие соски -> про модель знают полтора человека.
Carlo - отличная модель, но не генерит соски. Кто то про нее слышал? Говорят автор продал мать безосу...
Kandinskiy 2.1 - пиздатые соски -> куча тредоа везде, файнтюны, люди тащат в прод
IF - плохая генерация сосков -> модель жрёт 16гб vram.
ВАМ НУЖНЫ ЕЩЕ ДОКАЗАТЕЛЬСТВА???
Привет.
Спасибо всем размечавшим. В сумме разметили 1760 пар из 5000+ запланированных. Результаты:rualpaca7b vs rualpaca13b: 30-46-58
saiga30b vs davinci002: 92-30-18
saiga30b vs saiga13b: 70-45-43
saiga7b vs saiga13b: 42-53-54
turbo vs davinci002: 91-24-15
turbo vs fred: 120-10-8
turbo vs rualpaca13b: 86-44-28
turbo vs saiga30b: 60-46-52
Ещё я запустил в Толоке разметку на 4 пары моделек с перекрытием 5, результаты:saiga30b vs saiga13b: 122-17-91
saiga7b vs saiga13b: 97-11-122
turbo vs rualpaca13b: 150-14-66
turbo vs saiga30b: 121-12-97
Выводы:
- 7b -> 13b -> 30b дают буст качества, 13b -> 30b даёт больше, чем 7b -> 13b, что вполне ожидаемо.
- Цифры fred отвратительны, но их можно игнорировать, мы обучили новую модель, должно быть лучше.
- saiga30b с turbo соотносится примерно как saiga30b с saiga13b. Докинем gpt4 разметку (см. https://huggingface.co/datasets/lksy/ru_instruct_gpt4), должно стать лучше. Ну и 65b скорее всего сравняла бы счёт, только её ещё обучить надо.
- Финальный счёт по толокерской разметке Сайги против ChatGPT: 45%-55% в пользу ChatGPT, что как будто бы лучше GigaChat, у которых заявлено 30%-70%. Но тестовые выборки разные, поэтому напрямую сравить нельзя.
Что дальше:
- SbS с CPU квантизованной моделью, https://huggingface.co/IlyaGusev/saiga_30b_lora_llamacpp
- Новая версия Fred-Alpaca
- SbS с gpt-4
Что? Кто? Почему?
А у нас конкурс на 4419 подписчиков!
У нас есть топик - papers please, участники сообщества могут выкладывать туда обзоры статей - гайды - блогпосты на платформах: habr, medium, dtf, picabu,(обязытельно укажите внизу что на конкурс в Better data community) тот который за неделю наберет больше всех реакций в чате(обратите внимание, только положительных) будет иметь шанс получить:
- УНИКАЛЬНЫЙ мерч Better Data Community(тестовый, от этого более уникальный)
- 100$ на vast/amazon или 5000 рублей на карту
- 3 месяца на яндекс+
БОНУС трек: статья про то файнтюнить Kandinskiy2.1 на одной из платформ, первый написавший получит подпись в сообщество на свой выбор.
Выкладывать свои статьи сюда
Как с помощью телеграм-бота разобраться, какие видео содержат ответы на вопросы?
Освойте метрики ранжирования в задаче NDCG из Симулятора ML. Вам предстоит помочь телеграм-боту CyberTolya понять, какие видео с YouTube-канала karpovꓸcourses релевантны вопросам студентов. Кстати, сейчас эта задача доступна в бесплатной демоверсиии курса.
В Симуляторе более 50 задач бизнеса, решив которые вы прокачаетесь не только в рекомендательных системах, но и в динамическом ценообразовании, матчинге, моделях прогноза, А/В-тестах и тестировании кода на Python.
Симулятор работает в режиме подписки и постоянно пополняется новыми задачами.
Присоединяйтесь!
Хороший знакомый ищет магу в ЕС по кейвордам: NLP, CV, MultiModal, LLM.
Что посоветовать?
[придумать шутку на референсе что ллама хуйня из под коня]
Читать полностью…‼️Сияние в Москве 10 минут назад‼️
Автор видео и голос: Стас Короткий
покупка флипера себя оправдывает, из коробки это хорошая открывашка(все ключи от квартир-пултьты от ворот-брелки- проездные) это теперь один гаджет который просто лежит в кармане и ты за секунду открываешь что нужно.
Пишите вопросы, отвечу чо как.
Lead NLP -> Заведующий обработки естественного языка средствами ЭВМ
Читать полностью…