ChatGPT is dead.
Teenagers are now making $15,000/month with modified lead-apatite (LK-99).
Here's what this special rock is all about and how you can master it🧵
Как с помощью телеграм-бота разобраться, какие видео содержат ответы на вопросы?
Освойте метрики ранжирования в задаче NDCG из Симулятора ML. Вам предстоит помочь телеграм-боту CyberTolya понять, какие видео с YouTube-канала karpovꓸcourses релевантны вопросам студентов. Кстати, сейчас эта задача доступна в бесплатной демоверсиии курса.
В Симуляторе более 50 задач бизнеса, решив которые вы прокачаетесь не только в рекомендательных системах, но и в динамическом ценообразовании, матчинге, моделях прогноза, А/В-тестах и тестировании кода на Python.
Симулятор работает в режиме подписки и постоянно пополняется новыми задачами.
Присоединяйтесь!
#промо
FLAN FRED
Несколько месяцев назад я вел в вышке проектную деетельность у студентов, в рамках нее шли эксперементы по претрейну маленьких русских моделей, а так же важный эксперемент который не успели закончить, а руки добить дошли только сейчас.
FLAN - это один из лучших датасетов для COT, механики позволяющей учить модель рассуждать, да это не улучшает ZS способности для маленьких моделей, но при этом претрейн становиться лучше и модель можно переиспользовать для разных задач.
Так же спасибо ребятам из SiberianSoft(Денис) за опыт дообучения fred и полезные советы!
Формально, модель лучше оригинала и Siberian Fred на xnli_ru, xwinograd_ru.
Но фактически я не смотрел как она работает на downstream fine-tune, возможно для специфичных задач она не подойдёт, но для DocQA и подобных она возможно будет лучше соседей.
Сравнение с saiga *B не имеет смысла, ллама как базовая модель сильно лучше русскиязычных на генеративных задачах, так что если вам нужно решать именно диалогово генеративную задачу - saiga *B ваш лучший друг.
Модель
датасет(машинный перевод, довольно грязный)
Коллектив причастный к модели:
Den4ikAI, Pavel Ilin, Ксения Золина, Илья Кулешов, Егор Кокуш, админ
Pika Labs открылся для всех!
Генерить видео можно в ветках #generate как просто по тексту, так на основе картинки. Чтобы вкинуть изображение, нажимаете рядом с вбитым промтом на +1, затем жмёте на Upload и добавляете его.
Пример промта: /create prompt:a cat is walking in the forest, sunset, 4K -neg "bad anatomy, lowres" -ar 1:1
Какие параметры у промтов:-gs xx
(guidance scale, чем выше чифра, тем ближе визуал к промту)-neg "xxx"
(негативный промт, задаём чего не должно быть в кадре)-hide
(скрыть промт)-ar xx:xx
(соотношение сторон, 16:9, 9:16, 1:1, 4:5)-seed xxx
(ставим одно число для консистентной генерации, чтобы увидеть сид надо скачать видео он в названии файла)-motion xx
(насколько подвижной нужна картинка, задаётся числами 0, 1, или 2)
Чтобы быстро генерить по тому же промту жмите значок "Повторить". Генерации ограничены 10 штуками в 5 минут.
Дискорд
Сайт
Тут челы выложили diffusion модель с Img2img которая превратит вас в барби!
Иarbenheimer идет в настуление, развлекайтесь
Тыкаться тут:
bairbie.me
Подписчики запили прикольный суммарезатор статей с arxiv, го тестить!
synthical.com
#чтивонаночь по быстрому
Тут Carperai выпустили свою версию LLAMA 65B + COT, обученная на:
FLAN, ORCA(большой публичный сет инструкций ).
При этом это полный FineTune а не LORA, что вообще довольно нестандаратное решение, к тому же еще и веса выложены в общий доступ.
По метрикам выглядит довольно интересно - на бенчмарках оно неплохо подросло, лаже доросло до gpt3.5.
Тыкаться можно тут:
FreeWilly1
FreeWilly2
Преза с ICML от HF и Toloka
Доклад Nathan Lambert из HF и Dmitry Ustalov из Tolokи про то как делать RL+LLM, много крутых заметок от людей кто реально учит RL, например:
- RM имеет на eval 65-70% agreement
-дизайн тасок для толоки под sbs разметку
-псевдо код PPO (ура хоть кто то показал насколько он простой)
презу украл из желтый ии
А вы знали, что есть способ улучшить генерализацию любой кодовой модели? Как? Применив до этого модель от Microsoft – CodeExecutor
Сложно-сложно, непонятно. Как я могу улучшить результаты своей модели, применив до этого CodeExecutor? А как именно надо применить?🤨
Итак, модель вышла в мае этого года. Основана она на предыдущей модели Microsoft под названием UnixCoder (2022). Коротко – чуваки взяли и поверх предыдущей модели на претрэйне обучали ее на предсказание трассировки по коду. Что за трассировка можно посмотреть во вложении, но по сути это состояние переменных в течении выполнения кода.
Они кстати выложили, как выглядит их датасет, но я нашла только test. 😠 А собирали они его следующим образом: брали код из датасета CodeNet и прогоняли в песочнице, которая будет комплитить этот код и выдавать трассировку. Вау, как неожиданно. Ладно, на самом деле это не все, они еще зааугали данные различными операциями (вложения, там список). И получив AST дерево (тоже напомню во вложениях как оно выглядит), они получали элементы к которым они могут применить операции «мутаций»
Еще мне понравилось, что авторы вспомнили древний (ну реально, на фоне всех методов NLP) подход curriculum learning. Если коротко – это обучение с постепенным усложнением функции. Ну то есть начинаем с линейной, постепенно продвигаемся к выпуклой. Соответственно они начинали учить с однострочных кодов и увеличивали постепенно количество строк.
Так вот, как же она может то давать прирост величины результатов любой модели. Перед тем, как использовать кодовые модели просто прогоняем трестировку на данных и скарливаем. Все🧠. По метрикам у моделей действительно увеличивается понимание кода.
🤗Модель
🖥Код
🔥 Прод не упал 🔥
Спустя годы в стартапах и корпорациях я собрал букет мыслей, проницательных идей и бесстрашных мнений. Ты найдешь ответы на вопросы, которые не задают вслух.
• Почему можно и нужно нарушать дедлайны? /channel/prodneupal/5
• И почему не стоит говорить, что ты пользуешься WhatsApp? /channel/prodneupal/10
Есть мат. Есть лонгриды. Нет спама.
🚀 Узнай больше - тыкай сюда 🚀
#промо
#чтивонаночь
Meta-Transformer: A Unified Framework for Multimodal Learning
Помните китайские инструменты нож-молоток-плоскогубцы-уровень в одном? Китайцы выпустили meta Transformer - модель с пошернным между модальностями space и при этом с разными энкодерами и головами для разных модальностей.
По метрикам очевидно все плохо, но есть код и веса!
paper
code
Вы русский nlpшник? Вам нужна модель под ft, но у saiga слишком низкая плотность токенов, rugpt 13b жирная?
Выход есть!
Siberian Fred это инструктивный файнтюн fredT5 на инструкции, он меньше бредит, неплохо решает text qa и неплохо zsшотиться. Но самое главное - он всего 1.7б параметров, те его можно деплоить практически на любые карты в ggml формате!
Link
Купились? На самом деле будет куча(уже полно) нейро стримовых шоу которые будут нарезаться на кеки и те в свою очередь будут циркулировать по сети.
Например наколеночные нейрошарики- нейросеть генерует сценарий, другие озвучивают и в итоге получается шашлык из Бараша.
Стрим
Тут iris Aleksandra в Твиттере не хотелa смотреть кин дза дза и практически на кухне и сварилa супер индуктивный металл LK99
Btw I believe in catgirl supremacy, этож реально киберпанк, анонка из твиттера с аниме на аватарке такая: ща все будет
Thread
Знаешь почему в Дубае так много трейдерских контор?
Потому что форточки не открываются?
Ну да, шутка в том что душнилам нельзя предложить открыть форточку
Бывшие криптаны, которые пивотнулись в AI экспертов, читают новость про открытие сверхпроводников.
Читать полностью…#чтивонаночь по быстрому 2
WEB GPT FOR ALL?
Есть такая старая идея: давайте дадим LMке доступ в интернет, чтобы она сама ходила, тыкала кнопочки и находила то что нужно из разной информации.
Например: тыкнуться в реддит, найти ссылку на репу на гите, найти файл и отдать информацию оттуда.
Собственно можно отправить запрос:
Tell me the name of the customer who, после чего LM сама напишет SQL запрос в правильную db, сама заберет результаты и вернется с ответом!
has the most cancellations in the history
Привет!
Появились финальные результаты по Сайге на новых моделях.
Сами новые модели:
saiga2_7b_lora на LLaMA-2 7B, и её ggml квантованные версии
saiga2_13b_lora на LLaMA-2 13B, и её ggml квантованные версии
gigasaiga_lora на ruGPT-3.5-13B
Side-by-side сравнения (победы левой - ничьи - победы правой):
- gigasaiga vs gpt3.5-turbo: 41-4-131
- saiga2_7b vs gpt3.5-turbo: 53-7-116
- saiga7b vs gpt3.5-turbo: 58-6-112
- saiga13b vs gpt3.5-turbo: 63-10-103
- saiga30b vs gpt3.5-turbo: 67-6-103
- saiga2_13b vs gpt3.5-turbo: 70-11-95
- saiga7b vs saiga2_7b: 78-8-90
- saiga13b vs saiga2_13b: 95-2-79
- saiga13b vs gigasaiga: 112-11-53
Сырую разметку можно найти здесь: rulm_human_preferences
А на картинке - результаты на RussianSuperGLUE.
В целом ruGPT-3.5-13B как будто бы хуже Лламы, как первой, так и второй, и на RSG, и в SbS. Для меня это довольно удивительный результат, учитывая количество русского в обучении Лламы.
А Ллама-2 не сильно лучше Лламы-1 в попарном сравнении, но явно закрывает какие-то ниши (математика и программирование?), в которых первая версия была совсем плоха. Плюс вторая версия гораздо лучше во всём, что связано с ответами на вопросы по тексту.
#чтивонаночь по быстрому
Retentive Network: A Successor to Transformer
for Large Language Models
Довольно перспективная архитектура под убийство трансформеров, с одной стороны она совмещает плюсы трансформера: легкий layer paralel, возможность смотреть на все токены и attention. А с другой стороны она обрабатывает все токены за O(N) по памяти, что ОЧЕНЬ мало(у трансформера ~N**2).
При этом еще и инференс идет за O(1).
При обучении на 100B(где то 400гб) текста авторы показывают лучший ppl, и на голову лучшие метрики на валидиционных сетах(SIC!) и разница практически на 10 пунктов(SIC!).
А еще эта версия в два раза меньше памяти потребляет при тех же размерах и в 6 раз быстрее на реальных замерах.
paper
code будет тут когда нибудь
sam almond
demis wassabi
greg broccoliman
oreo vinyals
guac le
baguette zoph
liam feta
ilya sushikever
yoshua bento
elon mustard
#чтивонаночь длинное
Блог про токенайзеры
Благодоря покупке рекламы помимо обычно чтивананочь появились(пока не регулярные) блоги по разным темам, конкретно этот я тянул больше месяца, но он будет полезен для ознакомления с токенизаторами и в целом что есть внутри hf имплементации.
скоро выйдет погулять текст про новые llam_ы и sd_xl
alexwortega/EpS4-2xAwtX">блог
Вау, оказывается есть магазин витрина коннекторов для LLM+ langchain/llama index.
Есть интеграции с Gmail/confluence/calendar и кучей источников данных!
GitHub
LlamaHub
🔥 Совет на лето 2023 - углубитесь в изучение машинного обучения.
Если вы не хотите тратить месяцы и годы на бесполезные материалы, мы собрали для Вас кладезь полезных знаний в одной папке.
- Разбор вопросов с собеседований МО
- Machine learning
- Анализ данных
- Канал с вакансиями и фрилансом DS
- Базы данных для аналитика
и не только.
Сохраняйте себе, чтобы не потерять: /channel/addlist/2Ls-snqEeytkMDgy
вроде генеративки научились генерировать руки, но почему такая зловещая долина?
Plot twist: это не генерация
Будущее игр.
Уже сейчас музыка подстраивается под вас, тикток-инст-ютуб подкидывает супер релевантный контент, но этого кажется не достаточно.
Будущее развлечений - генеративные игры где все от текстур до механик, сценария, геймплея - сгенерированно, миры меняются на основе того что вы пишете и все это работает на банальном openai api + другие генераторы!
game