Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого. Связь: @dropout05 (рекламы нет)
Excited 4 today
https://twitter.com/sama/status/1635684890812485633
Наконец-то нормальный GPT-4
https://www.maxonlift.com/sites/default/files/2017-04/m9726_0.pdf
В начале даже не поверил что API уже публичный, решил перепроверить и оно и правда работает.
Теперь можно за вечер написать свой ChatGPT и не платить за PRO а платить напрямую за API.
^^^ Прихожу в подкаст @deep_school в четверг. Заходите послушать если вдруг интересно.
Читать полностью…🌆 Одно из первых государственных решений о копирайте AI-generated изображений
Новость, документ
United States Copyright Office отозвал копирайт на изображения из Zarya of the Dawn сгенерированные Kris Kashtanova с помощью Midjorney. Теперь копирайт распространяется только на текст в комиксе и с помощью которого были сгенерированы изображения.
We conclude that Ms. Kashtanova is the author of the Work’s text as well as the selection, coordination, and arrangement of the Work’s written and visual elements. That authorship is protected by copyright. However, as discussed below, the images in the Work that were generated by the Midjourney technology are not the product of human authorship.
Изначально копирайт был одобрен, но в заявлении автор не указал что изображения сгенерированы. Дальше идёт забавное "the Office became aware of statements on social media attributed to Ms. Kashtanova that she had created the comic book using Midjourney". То есть Copyright Office узнал об этом из твиттера 🤷♂️
В общем понятно следующее: роботов опять дискриминируют 🤖. Основы дискриминаци, как и всегда, построены на устаревших интерпретациях законов. Конкретно зацепились за “works of authorship” где утверждают что она относится только к работам авторов-людей. А автор определяется как "he to whom anything owes its origin; originator; maker; one who completes a work of science or literature" (Burrow-Giles Lithographic Co. v. Sarony, 1884). Если хочется чуть более современный прецедент то в Urantia Found. v. Kristen Maaherra, 1997 было постановлено что "some element of human creativity must have occurred in order for the Book to be copyrightable".
Я жду развития этой истории, потому что на основе этих же законов фотография может покрываться копирайтом из-за "human selection and arrangement of the revelations". И тут есть шансы доказать что создание высококачественных изображений передающих то что автор хочет с помощью text2image — это процесс в котором человек как раз и занимается "selection and arrangement"
В Тинькофф классная финтех-команда, которая ведет свой телеграм-канал, в нем они пишут о:
— подкастах, кейсах и полезных статьях на Хабре;
— развитии ИТ-коммьюнити, а также проводят митапы и конференции;
— главном в еженедельный дайджест;
— лучших мемах индустрии.
Только полезное и интересное от разработчиков и для разработчиков. Подписывайтесь на IT’s Tinkoff.
#промо
Ёпрст, вот это юзкейс реальной пользы от AI в жизни обычного работяги!
Теперь только через ChatGPT буду общаться с саппортами и катать заявы при любом недовольстве.
Боюсь только, что и отвечать на мои письма скоро начнет такой же ChatGPT 😭
@ai_newz
Добро пожаловать на вечернюю службу церкви свидетелей технологической сингулярности: сегодня выясняется, что если ChatGPT очень попросить, то она может прикинуться Linux-компьютером (если попросить отдельно — с видеокартой Nvidia и корректно отрабатывающей nvidia-smi), правильно выполнять консольные команды (с запоминанием состояния окружения: из "файлов" "читается" то, что вы в них "записали") и даже несложные скрипты на Python.
Отдельное веселье начинается, если попросить модель выполнить с помощью "cURL" "реквесты" к "веб-сервисам" или "открыть" "сайт" с помощью "Lynx" (модель, конечно, по заветам Бострома/Уоттса изолирована от всего внешнего интернета и никаких сетевых запросов никуда не отправляет).
Хорошо, у нас закончился лимит кавычек на день, на прощание отметим только, что комментарии представляют не меньший интерес, чем сам пост.
https://www.engraved.blog/building-a-virtual-machine-inside/
PyTorch Conference 2022 / PyTorch 2.0
Рядом с NeurIPS (буквально через дорогу) сегодня проходит конференция на которой говорят про происходило с PyTorch и коммьюнити за последний год, и показывают новые фичи PyTorch.
И первая большая новость: torch.compile
Под капотом torch.compile использует TorchDynamo и работает напрямую с байткодом питона чтобы понять граф вычислений и зафьюзить некоторые операции вместе. На практике это может давать ускорение на 20-80%.
Главное отличие от torch.script/torch.jit которое обещают: torch.compile реально должен работать добавлением одной строчки и уже так работает в 90%+ репозиториев.
Вторая большая новость: PyTorch 2.0
Грядут большие изменения API, которые упростят добавление новых бэкендов. Это позволит добавлять поддержку кастомного хардвера быстрее (graphcore, habana, cerebras). Добавят torch.export
, который будет более простой версией trace. Упростят квантизацию и добавят новые фичи в distributed (pipeline parallelism?).
2.0 доступен в nightly сегодня. Полностью backward-compatible с PyTorch 1.X (fuck you semantic versioning). Конференция только началась, будет больше новостей о PyTorch, stay tuned.
Профессия будущего - заклинатель языковых моделей
Языковой интерфейс для систем искусственного интеллекта создаст мир, в котором существуют волшебники. Ценность любого волшебника будет связана с его способностью плести из слов заклинания. Волшебники смогут использовать свои слова, для того что бы воплощать любые идеи в жизнь.
Ссылка
OpenAI сегодня выкатили мощного чат-бота ChatGPT
В отличие от GPT-3, ChatGPT – это модель которая специально тренирована вести интерактивный диалог и сохранять канву разговора.
Формат диалога позволяет ChatGPT отвечать на дополнительные вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.
Для обучения ресерчеров взяли GPT-3.5 и зафайнтюнили ее для ведения диалога с помощью алгоритм Reinforcement Learning from Human Feedback алгоритма.
На картинках можете увидеть несколько примеров диалогов.
Подробности и больше примеров в блогпосте.
Поговорить с этим ботом можно тут. Но прямо сейчас там переполнены сервера.
@ai_newz
NeurIPS 2022 день 2 (часть 1)
В отличие от *ACL-конференций, на NeurIPS почти все статьи презентуются на гиганских постер-сессиях по тысячу статей за раз. Это довольно хардкорно, но зато можно пропустить все неинтересные тебе статьи. Подборка приглянувшихся статей:
1. ActionNet — большой мультимодальный датасет с wearable-сенсоров
1. WinoGAViL — бенчмарк с неочевидными ассоциациями слов и картинок
1. GLOBEM — интересный датасет сочетающий в себе инфу с телефонов (screen, location, steps per day, call log, bluetooth, sleep, ...) и психологических опросников. Панчлайн в том что он собирался с 2018 по 2021 год, то есть включает ковид.
1. DecSPS — новый метод оптимизации который не требует тюнинга LR. Плюс куча теории как именно он работает и почему сходится к оптимальному решению в overparametrized-режиме.
1. Beyond Johnson-Lindenstrauss — новый метод стохастического уменьшения размерности данных который работает лучше JL и всё ещё довольно легко считается. Куча теории прилагается.
1. Learning very simple generative models is hard — (очень high-level) доказательство того что даже простые генеративные модели требуют больших сеток
1. Kernel Multimodal Continuous Attention — новый метод continuous attention который позволяет работать с time series и длинными текстами
1. How to measure network invariance — статья где меряли насколько обычные нейросети тренируемые на аугментированных данных инвариантны к поворотам vs специальные инвариантные сети. На удивление, инвариантность почти не меняется во время тренировки
1. Ask4Help — RL-модельку научили просить помощи у эксперта тогда когда ей надо (и учиться от этого эксперта). Сложность была в том чтобы модель не обращалась к эксперту всё время
1. Analysing Diffusion Models — в начале диффузии модель в основном смотрит на conditioning чтобы сгенерить картинку, а в конце почти полностью игнорирует промпт и просто делает super-resolution
И это далеко не все интересные статьи, но завтра будет ещё больше 😅
Первый день NeurIPS 2022
День expo и прочих не очень важных вещей, но вот что было классного
1. PyTorch: fully sharded data parallel (FSDP) скоро войдёт в сам торч. Это когда ты распиливаешь веса своей нейросети, параметры своих оптимизаторов и градиенты нескольким GPU, но при этом вычисления всё ещё проводятся в data parallel режиме. Такой подход работает быстрее чем model parallel и в принципе проще в общении. Добавили классную фичу meta-device которая позволяет при инициализации загружать в память только ту часть нейросети которая вам нужна на этой GPU.
1. Новые фичи для профайлера. Стек должен стать более читаемым и добавили фичей для distributed. Если вы всё ещё не пользуетесь, вот блогпост.
На этом объективно интересное закочнилось и дальше я общался с рандомными людьми которые иногда оказывались очень крутыми и с будками компаний, где искал куда податься на работу после выпуска
1. Будка Apple выглядит как миниатюрный Apple Store
1. Оказывается у Disney есть диплёрнинг рисёч 🤯. Общался с рисечером который работает на стыке оптики и геометрического DL.
1. Спотифай активно применяет RL в проде, например для вашей домашней странички. Кроме этого у них есть NLP исследования в применении к подкастам, что интересно тк тексты очень длинные и с несколькими спикерами.
1. Weights and Biases активно работают над двумя новыми фичами: production monitoring и CI/CD для моделей.
1. По слухам GPT-4 тренируют на нескольких десятках тысяч GPU. Также кажется что большим компаниям уже показывают демки текущей модели под жёстким NDA. Вроде бы скачок возможностей между GPT-3 и GPT-4 такой же огромный как и был между GPT-2 и GPT-3.
1. ServiceNow — если вы не знаете кто это, я не удивлюсь. Всё что знал про них раньше, это что они спонсируют BigCode железом. Выяснилось что у них есть интересный рисёч вместе в MILA в Канаде.
1. Как бедный студент я насобирал кучу мерча, тк не за свои же деньги покупать блокноты и футболки 😅
Во второй день начинаются статьи и постер-сессии. Так что следующий пост будет куда более техническим
На этой неделе в Новом Орлеане проходит NeurIPS 2022, пожалуй самая большая конференция в диплернинге. И мне даже удалось на неё поехать. 🎉
Если вы тоже на NeurIPS - пишите и буду рад встретиться. Если нет - все мои впечатления и интересные штуки будут в канале.
The State of Multilingual AI
ruder.io/state-of-multilingual-ai
В 2019 был взрыв мультиянычных моделей. Что изменилось с тех пор?
Status Quo
В 2008 году 63% статей на ACL были исключительно об английском. Сейчас — 70%. Но мы учимся тренировать мультиязычные модели (mBERT, XLM-R, mDeBERTa, ...) и вот что для них важно: большой словать, зашаривание токенов между языками, subword fertility (сколько нужно токенов на одно слово). В осноном модели тренируются на <100 языках (в мире 400 языков с более чем 1М носителей). Одна из причин: curse of multilinguality. Большое чило языков требует больших моделей и данных. Из > 100B моделей только BLOOM включает в себя несколько десятков языков. Данные тоже проблема — в интернете не так много языков как кажется и после первых двух сотен уже сложно найти хоть сколько-нибудь качестенные данные.
Recent Progress
Активно появляются новые датасеты. Например в 2018 году аналога SQuAD не было даже для русского, но теперь QA есть для десятков языков. Появляется больше неанглийских моделей: AfriBERTa, KinyaBERT, IndicBERT, MuRIL, ... и они также проникают в индустрию.
Challenges and Opportunities
Главная проблема — данные. Интересные источники: рукописные или печатные книги. Многие из них даже уже отсканированы, но не транскрибированны. Также нужно искать новые способы алайнмента текстов между языками. Вторая проблема — compute. Как можно дёшево адаптировать модели под новые языки? Третья проблема — различная топология языков. Мы видим что китайский NLP довольно заметно отличается от обычного западного NLP, в особенности в токенизации. Скорее всего у большого числа non-western языков есть своя специфика и её стоит учитывать.
Кажется что прогресс в мультиязычном NLP замедлился. Новых методов немного, а те что есть не дают огромных улучшений. Посмотрим что изменится в 2023. Может быть мы увидим многотрилионные мультиязычные модели которые решат кучу проблем грубой силой. А может быть появятся новые классные способы предтренировки, алайнмента и майнинга или адаптации моделей.
Ух, ребята подняли LLaMA 7B model на 4GB RAM Raspberry Pi 4.
Похоже скоро любая микроволновка или пылесос смогут бесконечно с вами разговаривать за жизнь.
Кроме шуток - это реально круто, автономные девайсы с мета-chatGPT на борту без подключения к интернету.
Ну и похоже большая языковая модель LLaMA от Меты, скоро будет играть роль Stable Diffusion в области генерации диалогов. Ее выпустили на свободу, а слово, как известно, не воробей, его уже не поймаешь (хотя тут напрашивается шутка про бота Google Sparrow).
Ждем Automatic1111 для LLaMA с возможность дообучения и запуска на ноутбуках.
https://twitter.com/miolini/status/1634982361757790209
О скором релизе GPT-4
Тут какой-то менеджер в Microsoft Berlin на митапе сказал что на следующей неделе будет анонс модели. Это звучит очень круто и консистентно со слухами. Давайте суммаризируем что мы слышали о модели:
1. Выйдет в феврале (почти)
1. Такой же скачок в числе параметров как и GPT-2 к GPT-3 - trillion is the new billion
1. Sparse, скорее всего MoE
1. Такой же скачок в качестве как и GPT-2 к GPT-3
1. Мультимодальность: текст, картинки, аудио
1. Мультимодальность; протеины
1. Под мультимодальностью имеется в виду не только инпут, но и генерация
1. Обучали на 10-20 тысячах A100 в течении нескольких месяцев
1. Длина контекста: 32 тысячи токенов
Хайп по OpenAI лишь набирает обороты
ChatGPT в массы!
OpenAI только что написали, что теперь ChatGPT доступна по API, то есть каждый разработчик может добавить её в своё приложение буквально за один вечер. Из интересного - пишут, что с декабря достигли 90% снижения трат через разные оптимизации.
Цена в 10 раз ниже самой мощной GPT-3.5, которая была доступна для этого. Вероятнее всего, модель уменьшили в размерах (то есть это может быть условно не 175B, а 6.7B модель, которая тоже очень неплоха).
Еще объявили о нескольких интеграциях, например, в Quizlet -сервис, способствующий обучению и изучению новых тем. Теперь будет доступен персональный AI-преподаватель, который подскажет и объяснит.
Instacart позволить покупателям задавать вопросы о еде («Как приготовить рыбные тако?» или «Предложи здоровый обед для моих детей») и получать вдохновляющие ответы, содержащие ссылки на товары, которые можно купить в один клик. Пока из того что видел - первая подобная интеграция, некоторого рода "продукт-плейсмент". Вижу применение этого и в поисковых чатботах - когда в выдачу подмешиваются ссылки, за которые заплатили.
Техническая инфа: теперь для запроса в модель нужно указывать не только текст для продолжения, но и дополнительные штучки - их перечень сведён в Chat Markup Language (“ChatML”). В частности, предполагаются "роли", так как модель была заточена под диалог - есть AI-ассистент, который пишет ответы, и есть "человек", пишущий сообщения с вашей стороны.
И напоследок важное:
> Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in
Теперь данные клиентов не будут использоваться для дообучения в будущем!
🎙Онлайн-подкаст с Владом Лялиным
Хотим попробовать новый формат контента в нашем канале! В четверг, 2 марта, в 18:00 МСК проведем прямой эфир.
Коротко о Владе:
- учится на PhD в Бостоне, США (примеры статей Влада: раз, два, три);
- автор канала DL in NLP с 5.7к подписчиками — там Влад делится опытом, освещает новости из мира ML и обозревает статьи;
- преподает NLP в UMass Lowel (в России преподавал NLP, работая в iPavlov);
- стажировался в Apple, Google и Amazon.
На подкасте мы поговорим про:
- нетворкинг для инженеров — почему это важно и как начать;
- переезд в штаты — как Влад поступил на PhD и его рекомендации;
- стажировки в FAANG — как попасть на стажировку в лучшие технические компании;
- быт ресерчера в Америке — какие задачи решают в корпорациях мирового масштаба прямо сейчас;
В конце встречи вы сможете задать Владу свои вопросы из онлайн-зала. Или оставляйте вопросы в гугл-форме – некоторые из них мы зададим во время подкаста.
Встречаемся здесь в четверг, 2 марта, в 18:00 МСК 🔔
ChatGPT: Jack of all trades, master of none
Kocoń et al.
arxiv.org/abs/2302.10724
Очень подробная эвалюация ChatGPT на 25 NLP задачах. Сравнивают few-shot или zero-shot ChatGPT с fully-supervised моделями. Если коротко, в где-то пловине задач ChatGPT не очень далёк от supervised SOTA, что впечатляет. Например на SQuAD он показывет себя лучше BiDAF — соты 2018 года — без какого-либо обучения на данных SQuAD. В статье довольно неплохо описан сам ChatGPT (на основе публично доступной инфы, так что ничего нового). Но вообще очень много интеренсых результатов, рекомендую к прочтению.
Интересно что ChatGPT фейлится на задачах которые требуют понимания эмоций текста. Бездушная машина 🤖
Large Transformer Model Inference Optimization
Lilian Weng, OpenAI
Тык
🔥 Огненный блогпост от Head of Applied Research из OpenAI
Главные проблемы инференса больших трансформеров:
1. Память: кэш KV-активаций davinci при батче 512 и длине текста 2048 весит 3Тб - в три раза больше весов модели.
1. Авторегрессионность: текст генерируется пословно, что нельзя параллелить м медленно
Дальше разбираются различные решения вроде умных способов параллелизации на большое число GPU, memory offloading, EffectiveTransformer, прунинг, квантизация и модификации архитектуры.
Много тем разобраны довольно подробно. Например в квантизации говорят не только про LLM.int8(), но и про альтернативные восьмибитные подходы. Про прунинг я узнал очень много нового из статьи и оказывается unstructured pruning не так бесполезен на практике как я думал тк A100 умеют перемножать N:M sparse матрицы. Под конец начинается полное безумие с Terraformer, Pyramid residual MoE.
GPUs конечно go brr, но надо делать brr эффективно
Congrats to OpenAI on winning the Turing Test
Source: тык
PyTorch Conference 2022 / Poster Session
1. Generalized shapes: Block sparsity, MaskedTensor, NestedTensor
Sparse потихоньку приходит в DL и в том числе в торч. Block-sparse матрицы будут полезны всяким графам. Masked Tensor удобен для того чтобы не учитывать какие-то переменные в операциях аггрегации e.g., attention masking будет быстрее. NestedTensor позволяет быстрее рассчитывать тексты разных длин в одном батче.
1. xFormers — эффективные attention с cuda/triton кернелами. Есть блочный attention, но гравная фича: FlashAttention. Этот трюк позволяет считать точный attention быстрее и с меньшим потреблением памяти. Работает это так что имплементация учитывает то что все текущие GPU ограничены в скорости памяти а не в скорости вычислений. Вот статья. Вобще библиотеку сильно улучшиили и теперь должно быть проще использовать отдельные блоки, а не просто делать конфиг. Надо будет поиграться.
1. AutoMAD: mixed mode autodiff
for PyTorch models
Позволяет автоматически выбирать backprop/forward differentiation для разных слоёв. Может быть очень полезно в больших моделях или если у вас просто посреди модели огромная матрица вычисляется (бывает).
1. DistributedTensor — новая фича torch (пока в бете), которая делает tensor parallel. Очень полезно для больших моделей. Может работать гораздо быстрее чем model parallel. Кроме этого есть специальная прослойка которая позвоялет эффективно использовать FSDP + tensor parallel.
1. Better Transformer — проектик внутри пайторча который ускоряет nn.Transformer с помощью NestedTensor, FlashAttention итд. Местами ускорение в разы. Надеюсь что 🤗 подхватит.
Какие актуальные инструменты нужны для развития в Data Science?
5 декабря в 18:00 пройдет открытый урок онлайн-курса «Machine Learning. Professional» в OTUS. Тема: «Один в поле не воин: методы ансамблирования в машинном обучении».
Кому подходит этот урок:
1. IT-специалистам которые хотят освоить продвинутые методы ML и перейти в Data Science
1. Дата-сайентистам, желающим углубиться в профессию
1. Тем, кто самостоятельно изучает Data Science и уже изучил основы ML
На занятии вы узнаете основные подходы к ансамблированию, которые сегодня используют в ML, изучите устройство наиболее популярных методов ансамблирования (Bagging, Random Forest, Boosting) и примените их на практике.
🟡 Пройдите вступительный тест, чтобы записаться на урок
https://otus.pw/NKQw/
#промо
NeurIPS 2022 день 3
Новая пачка постеров!
1. Adversarial reprogramming revisited — оказывается атаковать можно не только натренированные сети, но и случайно инициализированные и заставлять их делать прозвольные задачи
1. STaR — файнтюнить сетки на chain of thought лучше с промптами которые эти нейросетки сами генерят.
1. Solving Schodinger equation with deep learning — если докинуть в нейросети чуть-чуть физики можно решать стационарное уравнение шрёдингера достаточно точно и гораздо быстрее чем классичекими методами
1. Exploit reward shifting — value-based методы могут работать сильно лучше если просто добавить к реворду константу R' = R + C. Добавление позитивной делает метод более осторожным в exploration, негативной — более рискованым.
1. Navigating Wikipedia — RL агента научили эффективно ходить по графу википедии. И для этого даже не нужно делать рассчёты минимального пути в графе — обучения с помощью случайных траекторий хватает чтобы агент научился делать это эффективно.
1. Hyperparameter Optimizers with Transformers — в гугле взяли историю всех их экспериментов с перебором гиперпараметров и научили трансформер предсказывать оптимальные гиперпараметры по датасету и модели.
1. Staircase attention — хитрый аттеншн который позволяет считать себя рекурсивно и на более длинных последовательностях
Новая пачка слухов!
1. В ближашие месяцы в bitsandbytes завезут int4-инференс. То же качество, но ещё в два раза меньше памяти.
1. Туда же добавят файнтюниг квантизованных моделей. Будет работать так: модель в int4, через неё бэкпропаемся в адаптеры в fp16 и их обучаем.
1. Новый пост от Tim Dettmers о хардвере для диплернинга выйдет через несколько недель. Пока что можете перечитать старый
NeurIPS 2022 день 2 (часть 2)
Все интересные статьи не поместились в один пост, поэтому добавляем
1. Natural Prover — вместо того чтобы тренировать нейросеть делать формальные мат доказательства, просто натренируйте LM на статьях и она будет писать их в человекочитаемом виде (и делать это лучше чем формальные)
1. CodeRL — если вашу code-LM потюнить на том чтобы она проходила текст-кейсы ваших задачек она будет гененировать правильные решения чаще. А ещё можно использовать получившуюся value funciton чтобы обрывать генерацию кода и начинать сначала.
1. Probably robust detection of out-of-distribution data — хитрый но дешёвый подход к тому как детекстить OOD и при этом быть устойчивым к adversarial атакам
1. Exploring length generalization — для того чтобы ваша моделька могла экстраполировать на длинные тексты вам надо использовать много хаков (см табличку)
1. Trajectory of Mini-Batch Momentum — теория минимального размера batch size для того чтобы momentum работал
Яндекс назвал лауреатов своей ежегодной научной премии
Ученые, которые занимаются исследованиями в области компьютерных наук, получат по миллиону рублей на развитие своих проектов. В 2022 году лауреатами стали шесть молодых ученых:
•Максим Великанов — занимается теорией deep learning, изучает бесконечно широкие нейронные сети и статистическую физику;
•Петр Мокров — исследует градиентные потоки Вассерштейна, нелинейную фильтрацию и байесовскую логистическую регрессию;
•Максим Кодрян — занимается deep learning, а также оптимизацией и генерализацией нейросетевых моделей;
•Руслан Рахимов — работает с нейронной визуализацией, CV и deep learning;
•Сергей Самсонов — изучает алгоритмы Монте-Карло с марковскими цепями, стохастическую аппроксимацию и другие темы;
•Тарас Хахулин — работает в области компьютерного зрения.
Круто, что отдельно выделяют и научных руководителей. В этом году гранты получили двое — Дмитрий Ветров, заведующий Центром глубинного обучения и байесовских методов ВШЭ, и Алексей Наумов, доцент факультета компьютерных наук ВШЭ, заведующий Международной лаборатории стохастических алгоритмов и анализа многомерных данных.
Подробнее о премии и лауреатах 2022 года — на сайте.
#промо
text-davinci-003
Обновленная версия GPT-3 от OpenAI, вот что она умеет:
1. Лучше следует инструкциям (сделано с помощью RL и метода InstructGPT)
1. Higher quality writing — предположу что модельку потюнили на большем количестве текстов и у неё перплексия получше.
1. Лучше продолжает длинные тексты. Но лимит токенов всё ещё 4К, что в два раза меньше code-davinci-002, так что ждём ещё апдейтов.
Цена та же что и у 002, так что нет причин не использовать.
Временами страдаете от NaN во время обучения сеточек? А все потому что вы не любите свои тензоры.
Делюсь с вами классной либой для дебага и красивого принта тензоров: Lovely Tensors 😍
Эта либка умеет даже пропатчить pytorch и подменить стандартную функцию repr у тензоров.
@ai_newz
Мою статью с амазоновской стажировки приняли на воркшоп 🎉🎉🎉
Как только разрешим всю бюрократию и опубликуем, сразу сделаем обзор в канал. Если коротко: текущие датасеты для предобучения на видео настолько плохи что автолейбелинг с помощью Image Captioning работает лучше их. А если добавить несколько миллиардов параметров и предобученную LM, то приближаемся к SOTA.
Это было очень хардкорное лето и оно окупилось. Пусть не NeurIPS, но в январе я еду на Гавайи 🏝️