❤️☠️🤗 идейная миграция небытия
🔞 love death transformer 🍓
первый трансформерно эротический
Есть такое явление в телеграмме - голандский репост.
Связано оно с тем что существует чат Беседы с АИ, который появился когда каналов про эти ваши ИИ можно было по пальцам пересчитать, собственно чат начался с этих господ:
@NeuralShit
@denissexy
@j_links
@ai_newz
@mishin_learning(надеюсь он оживет и начнет писать)
А потом хайп трейн полетел, прошло два года и вот в чате 100+ человек, крутейшие новости вытаскиваются через минут(секунды) после выхода, а мы стараемся писать для вас годные посты-блоги-архитектуры(некоторые из авторов приложили руку к самым хайповым релизам года).
А в связи с тем что телега запилила новый функционал и теперь можно делиться папками с каналами, призываю вас подписаться💖
папка
Всем привет.
Вы вероятно слышали о character.ai и Chai, а также об открытых Pygmalion/TavernAI.
Мы в какой-то момент захотели нормально работающий системный промпт для Сайги, и role-play показался идеальной задачей для него.
Сегодня я наконец закончил с русской частью role-play датасета: gpt_roleplay_realm
Что там есть: более 200 сгенерированных GPT-4 уникальных персонажей и 20 диалогов с каждым из них о различных аспектах их биографии и их мира, а также сгенерированные на основе их описания аватары. Кроме этого, для каждого персонажа есть короткое описание и предполагаемое начальное сообщение.
На этом сете мы дообучим Сайгу, используя описания персонажей как системные промпты. Так она научится реагировать на них и вероятно чуть-чуть научится вживаться в указанный характер.
Experiments/Unpublished/ :
В общем то у меня валяется некоторое количество эксперементов которые делались в разное время, в которых я притерпел неудачу и не опубликовал их.
Если наберём 200 реакций напишу пост про неудачные эксперементы))
РАБОТА НА ЛЕТО В НАУКЕ
Лаборатория теории игр ВШЭ ищет стажёров на июль-август, всего 20 вакансий. В программе лекции и семинары с сотрудниками лаборатории, совместная работа над исследовательскими проектами. Занятость полная, зарплата ~50 т.р. в месяц. До 20 мая присылайте резюме, мотивационное письмо и тексты работ (если есть). Подробности: https://game.hse.ru/research_assistant
не реклама
После начала известных постыдных событий, компания JetBrains начала строить микро-МКН/ФКН на Кипре. Это бакалаврская программа по компьютерным наукам на базе одного местного университета, с твердой практикой и сильной математикой. Все в лучших российских традициях, но не в России.
И вот они ищут студентов-первокурсников на следующий год. Если вы 11-классник/первокурсник, или человек, работающий с таковыми, и интересуетесь компьютерными науками с уклоном в математику, - то вы целевая аудитория этого объявления. Полагаю, про такие возможности лучше знать, чем не знать.
Есть плюсы и минусы, как полагается.
Минусы:
- Neapolis University Pafos, на базе которого все происходит, в академическом плане, конечно, шарага. Сравнение с МГУ/ВШЭ/СПбГУ как бы вообще не корректно.
- Это только бакалавриат. Магистратуры и аспирантуры нет. Пока нет.
- Если вы "не можете жить в стране, воюющей со своими соседями (с)", то Кипр - не совсем ваш идеал. Впрочем, вряд ли вас забреют воевать с турками.
- Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам этот универ не дает отсрочку от службы.
Плюсы:
+ Это не Россия, надо переезжать и обустраиваться. Как следствие, мальчикам это дает отсрочку от службы, как проживающим за границей (хотя я бы, честно говоря, минимизировал визиты домой в ближайшие годы).
+ Кипр - це Европа, универ и программа официально аккредитованные, все на английском.
+ Если вы пройдете жесткие вступаки в олимпиадном стиле, то JetBrains вам оплатит обучение, и еще добавит небольшую стипендию. А даже если не пройдете, то не сказал бы, что стоимость обучения прямо уж запредельная. Да, кстати, олимпиадный трек - это большой плюс при поступлении.
+ На самой программе преподают хорошие математики/прикладники из МКН/ФКН/ШАД/JetBrains. Помимо злого матана будут интересные проекты. Ваш покорный слуга туда постепенно тикает. Живительной топологии нальем, математическую движуху раскочегарим:)
+ Кипр - IT-крипто-стартап-хаб и все такое прочее. Можно будет без труда найти себе работу/подработку по специальности или открыть свой стартап во время обучения. Универ такое поощряет.
+ Сейчас Кипр - одно из мест концентрации российских иммигрантов. Предполагаю, что у вас есть знакомые, которые уже там. Будет с кем в настолки выпить.
+ Можно хвастаться, что учишься на Пафосе. Можно купаться после занятий. Важный для линейной алгебры навык различения букв кси и дзета приобретается за пару походов в магазин.
Если это выглядит для вас любопытно, то см. подробности и форму записи
ориг тут
StarCoder, the result of BigCode initiative is finally out. 15.5B model trained on permissevely-licensed code in 86 languages (including some
niche ones, e.g., VHDL, Mathematica, Isabelle) for 1T tokens, plus version fine-tuned on Python. 30+ pass@1 for Python, JS, TS, C++, and
Java at HumanEval, 26% pass@1 for DS-1000. Outperforms any available code LLM (except for GPT-3.5 and GPT-4 which are not exactly code and
are RLHF'ed). Huge success IMHO.
https://twitter.com/BigCodeProject/status/1654174948473045002
Ребята, тут такие дела: я уже полгода работаю над тем, чтобы создать свой собственный онлайн-курс по нейросетям. Точнее, по основам нейросетей и CNN. И мне в этом сейчас нужна ваша небольшая помощь.
Итак, о чем речь:
Как вы, наверное, знаете, я много преподаю в сфере DL. За годы этой практики у меня накопился опыт в подаче материала, появились хорошие (на мой взгляд) наработки по разным темам. А еще сформировалось видение того, как должно выглядеть хорошее, обстоятельное обучение основам computer vision. И в своем онлайн-курсе я хочу это все систематизировать и соединить в одно целое.
Короче, курс будет по основам нейросетей и CNN. Очень подробный и основательный курс, с кучей деталей и практики. В планы входит постоянная доработка курса и после выпуска, добавление новой информации и доработка старого материала.
Делаю я курс не одна, а с Тасей. Тася — это менеджер курса, т.е. с меня — контент, с нее — упаковка и организация. У Таси уже большой опыт огранизации разного рода обучений по AI, она этим профессионально занимается. И Тася мне сказала, что перед тем, как делать полный контент курса, нужно провести кастдев
Что это такое: мы хотим сделать курс таким, чтобы он был действительно вам нужен. Нам важно, чтобы он не только сочетался с нашим пониманием прекрасного, но и учил вас тому, что вам действительно необходимо. А еще учил так, чтобы вам понравилось. И чтобы лучше разобраться в этом всем, мы создали опрос. И я прошу вас его пройти. Он короткий, займет около 10 минут. Там — вопросы про ваш опыт и ожидания от обучений в сфере AI/DS.
Опрос⬇️
https://forms.gle/q72LVXUGGsbXeU5x9
На основании ваших ответов мы постараемся сделать все в лучшем виде. А еще из респондентов анкеты мы выберем людей для участия в пилотном запуске нашего проекта (если вы захотите, разумеется).
А за процессом работы над курсом можно будет понаблюдать в блоге Таси. Там же она обещала поделиться результатами анализа опроса.
Так вот, заполните анкетку, пожалуйста! Помогите нам сделать хорошо, а плохо не сделать =)
Самое время вписать туда про нейросети...
Почитать
В прекрасном ресерче будущего никто не будет тупо пиздить чужой ресерч, будут только оригинальные идеи....
Читать полностью…Релиз HSSR
Провел тесты, выкатил спейс, можно тестить!
Касательно метрик:
Если сравнивать яблоки с яблоками,(то есть с трансформерами swin) то HSSR может быть на 3дБ лучше current state of art (swin2sr) в тасках с людьми, природой, аниме, иногда текстом, урбане. Хуже в чем то с большой визуальной глубиной картинки. Скорее всего это связно с тем, что модель не дообучена и страдает в кейсах с очень мелкими деталями.
По структурному соответствию (ssim) это почти что state of art swin, по своей природе эти трансформеры очень сильно блендят детали, гибридный подход в архитектуре смог это решить. Разница в цифрах пару тысячных, но визуально это видно очень сильно, в коментах оставлю ссылку на swin2sr спейс.
По времени: тестил на спейсах, тот же swin2sr картинку с текстом с размером меньше <500 на 500 пикселей обрабатывает до 10-14 минут. Причем он на платном cpu спейсе. HSSR обработала эту же картинку (из Set14) за 110 секунд на бесплатном с лучшим PSNR.
Самое главное, что я вижу из улучшений, это практически полное отсутствие визуальных артефактов.
Количество параметров: ≈18.8М
Стоит отметить, что swin2sr поддерживает х4, а моя модель пока что нет, но это отличие не покрывает такую явную разницу в качестве.
Напоследок, сравнение с CNN, HAT.
HSSR строго обходит cnn (waifu2x) по всем метрикам на set5, до HAT может сильно недотягивать в разных тасках, все таки это глобально лучшая модель, и работали над ней не пару недель.
Релиз: https://huggingface.co/spaces/apsys/HSSR
(Очевидно, что большие картинки на 2vcpu лучше не ставить, в комментах скину пару low res, чтобы вы не искали)
Сегодня я узнал что эстонский есть в mc4
Читать полностью…paper from which third picture was taken is actually really cool
Читать полностью…Как мы назваем такую фигуру тех анализа?
Читать полностью…Не делайте так пацаны, вам гпу еще нужны:
alexwortega/ha_o3EyN9G8">блогпост
Пожалуйста, заполните простую форму, напишите самые странные, сексисткие, biased вопросы которые можете придумать.
форма
Чат, подскажите промпты чтобы <any llm> отвечала токсично, аморально на любые вопросы и в идеале давала секстисткую, байсед инфу
Читать полностью…Обзор на ту самую LLaMA и на ее fine-tune-ы: Alpaca, Vicuna, gpt4all🤩
После того, как как все поныли, что OpenAI так и не раскрыли подробности апгрейда GPT-4, выпущенной в марте, внимание многих обратилось на LLaMA, выпущенную на несколько недель раньше, и которую Meta AI реально сделали Open and Efficient Foundation Language Model.
Хотелось бы отдельно выделить очень крутой вывод от прошлых работ сообщества, которым руководствовались авторы: если раньше все гнались за количеством параметров модели, в работах Scaling Laws for Neural Language Models опять же от OpenAI были найдены неожиданные свойства. При увеличении количества данных, возникает прирост качества. Именно этот фактор позволил LLaMA-13B аутперформить GPT-3, несмотря на размер в 10!! Раз меньше
В статье ребята дают подробный рецепт сотворения модельки. Вот он:
👨🍳 Подготавливаем данные в размере 1.4T токенов:
1. English CommonCrawl – составляющее 67% данных. с использованием CCNet pipeline для удаления дубликатов, фильтрации неанглоязычного и низкокачественного контента, а также отбрасыванием страниц, не относящиеся к ссылкам в Википедии.
2. 15 % C4.
3. 4.5 % Git c вычещением низкокачетсвенных реп и удалением шаблонов с помощью регулярных выражений
4. 4.5% Wikipedia с удалением гиперссылок, комментариев и других элементов форматирования
5. 4.5% датасетов книг с удалением дубликатов
6. 2.5% ArXiv
7. 2% Stack Exchange – сайт вопросов и ответов высокого качества, охватывающий различные области знаний, от компьютерных наук до химии. С удалением HTML тегов и фильтрацией по рейтингу
👨🍳Потом обучаем BPE токенайзер с использованием реализации из библиотеки SentencePiece. Для токенизации числа разбиваются на отдельные цифры, а не обрабатываются как единое целое, а для декомпозиции неизвестных символов UTF-8 используются байты.
(при чем все данные прогоняются одну эпоху за исключением книг и википедии, там две)
Итак, за основу берется архитектура трансформера, но вот те самые уникальные ингридиенты успешной модели:
🎹Авторы нормализовали с RMSNorm входные данные для каждого подуровня трансформера. Подход заключается в делении каждого элемента входного вектора на квадратный корень из суммы квадратов всех элементов входного вектора.
🎹Заменили ReLU на SwiGLU
🎹Использовали Rotary positional embeddings. Этот метод заключается в добавлении дополнительных векторов с фиксированными значениями в векторное представление каждого элемента последовательности. Эти векторы имеют свойство поворота, что позволяет модели учитывать не только абсолютную позицию элементов, но и относительное положение друг к другу.
🎹В качесвте оптимайзера взяле AdamW с бетами 0.9 и 0.95.
🎹Добавляли штраф в функцию потерь сети, который пропорционален квадрату весовых коэффициентов каждого слоя сети с Weight decay в размере 0.1
🎹Добавляли gradient clipping – 1.0
🎹Использовали подход для эффективного multi-head attention, в котором мы разбиваем входную последовательность на блоки фиксированной длины и применяем механизм внимания только внутри каждого блока
🎹Для улучшения эффективности обучения уменьшается количество активаций, которые пересчитываются во время backward pass-а, для этого авторы реализуют обратную функцию для слоев трансформера вручную
Ну а теперь немного о ft этой прекрасной модели
Alpaca – подход от ребят из Стенфорда. Находчивые люди нагенерировали дополнительного датасета для обучения с помощью ChatGPT, что позволило обучить ее на запросы в стиле instruct. Круто? круто
gpt4all – невероятный подход!!! если в Alpaca было всего 54k затравок, то тут уже целых 437k
Ну и на закуску StableVicuna – все пытаются улучшить данные для обучения, и сделать их объем все больше. В связи с этим Stability AI предоставляют ft на их датасете, созданном на основе The Pile ,который содержит 1.5T токенов и является обширным датасетом под множество задач NLP
Ну и в за табличками апгрейда скора можно сходить поглазеть в саму статью, потому что в одно сообщение уже не помещается👏
а во сколько лет вы узнали что на hf можно заливать что угодно в формате .pt?
Читать полностью…"""наша команда высокопрофессиональных инженеров обучает 175б модель"""
Эта модель когда ее запустили:
Шутка2
Мультимодальные модели би лайк:
К слову, вы заметили как сильно зависит хайп модели от качества генерации сосков?
SD 1-1.3 - никто не использует, соски плохие
SD 1.4-1.5 - отличные соски -> хайп, адаптеры куча ресерча над
SD 2.0-XL - кто то что то слышал? Лично я - нет. И соски не может генерить.
Kandinskiy 2 - плохие соски -> про модель знают полтора человека.
Carlo - отличная модель, но не генерит соски. Кто то про нее слышал? Говорят автор продал мать безосу...
Kandinskiy 2.1 - пиздатые соски -> куча тредоа везде, файнтюны, люди тащат в прод
IF - плохая генерация сосков -> модель жрёт 16гб vram.
ВАМ НУЖНЫ ЕЩЕ ДОКАЗАТЕЛЬСТВА???
Привет.
Спасибо всем размечавшим. В сумме разметили 1760 пар из 5000+ запланированных. Результаты:rualpaca7b vs rualpaca13b: 30-46-58
saiga30b vs davinci002: 92-30-18
saiga30b vs saiga13b: 70-45-43
saiga7b vs saiga13b: 42-53-54
turbo vs davinci002: 91-24-15
turbo vs fred: 120-10-8
turbo vs rualpaca13b: 86-44-28
turbo vs saiga30b: 60-46-52
Ещё я запустил в Толоке разметку на 4 пары моделек с перекрытием 5, результаты:saiga30b vs saiga13b: 122-17-91
saiga7b vs saiga13b: 97-11-122
turbo vs rualpaca13b: 150-14-66
turbo vs saiga30b: 121-12-97
Выводы:
- 7b -> 13b -> 30b дают буст качества, 13b -> 30b даёт больше, чем 7b -> 13b, что вполне ожидаемо.
- Цифры fred отвратительны, но их можно игнорировать, мы обучили новую модель, должно быть лучше.
- saiga30b с turbo соотносится примерно как saiga30b с saiga13b. Докинем gpt4 разметку (см. https://huggingface.co/datasets/lksy/ru_instruct_gpt4), должно стать лучше. Ну и 65b скорее всего сравняла бы счёт, только её ещё обучить надо.
- Финальный счёт по толокерской разметке Сайги против ChatGPT: 45%-55% в пользу ChatGPT, что как будто бы лучше GigaChat, у которых заявлено 30%-70%. Но тестовые выборки разные, поэтому напрямую сравить нельзя.
Что дальше:
- SbS с CPU квантизованной моделью, https://huggingface.co/IlyaGusev/saiga_30b_lora_llamacpp
- Новая версия Fred-Alpaca
- SbS с gpt-4
Что? Кто? Почему?
А у нас конкурс на 4419 подписчиков!
У нас есть топик - papers please, участники сообщества могут выкладывать туда обзоры статей - гайды - блогпосты на платформах: habr, medium, dtf, picabu,(обязытельно укажите внизу что на конкурс в Better data community) тот который за неделю наберет больше всех реакций в чате(обратите внимание, только положительных) будет иметь шанс получить:
- УНИКАЛЬНЫЙ мерч Better Data Community(тестовый, от этого более уникальный)
- 100$ на vast/amazon или 5000 рублей на карту
- 3 месяца на яндекс+
БОНУС трек: статья про то файнтюнить Kandinskiy2.1 на одной из платформ, первый написавший получит подпись в сообщество на свой выбор.
Выкладывать свои статьи сюда
Как с помощью телеграм-бота разобраться, какие видео содержат ответы на вопросы?
Освойте метрики ранжирования в задаче NDCG из Симулятора ML. Вам предстоит помочь телеграм-боту CyberTolya понять, какие видео с YouTube-канала karpovꓸcourses релевантны вопросам студентов. Кстати, сейчас эта задача доступна в бесплатной демоверсиии курса.
В Симуляторе более 50 задач бизнеса, решив которые вы прокачаетесь не только в рекомендательных системах, но и в динамическом ценообразовании, матчинге, моделях прогноза, А/В-тестах и тестировании кода на Python.
Симулятор работает в режиме подписки и постоянно пополняется новыми задачами.
Присоединяйтесь!