llm_under_hood | Unsorted

Telegram-канал llm_under_hood - LLM под капотом

14528

Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.

Subscribe to a channel

LLM под капотом

Какая разница - gpt-3.5 chat или instruct? Это же хайп без особой практической пользы? 🤪

Если прогнать генерацию текста из поста выше на gpt-3.5-chat модели, то вот какие результаты получаются. Куча повторов, даже guidance не помогает!

Про падение скорости генерации я и не говорю.

Откуда скорость?
(1) chat-модель более болтлива. Больше tokens не по делу - дольше генерация.
(2) instruct модель отвечает быстрее сама по себе. C идентичным промптом на 10 запросах у чат модели -19 tokens/sec, а у instruct - 60 tokens/sec. Весь бенчмарк она выполняет в 2.8 быстрее.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Новая GPT-3.5 instruct модель - хороша! 🌟

Я упоминал эту модель ранее. А вот теперь и пара практических оценок - см бенчмарк на картинке.

Модель не идеальна, но в некоторых категориях ее качество дотягивает до уровня GPT-4. На задачах типа marketing и CRM теперь можно начинать экономить раз в 20 🤑

Это и сделали ребята из Replit на одной из задач: `We just replaced GPT-4 on a backend task with the new gpt-3.5-turbo with no accuracy hit. Faster + cheaper.` Скриншот с их оценками в комментариях.

Как использовать такую модель? Да как и обычные complete модели или LLama. У меня с первого раза заработал такой human_gpt промпт:


{% set stop = ["###"] -%}
### human: {{ eval.system }}

### response: Sure! Sounds good.
{% for e in eval.shots %}
### human: {{ e.request }}

### response:{% if not e.is_last %}{{ e.response }}
{% endif %}{%- endfor %}


Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

OpenAI втихую зарелизила новую модель - GPT-3.5-turbo-instruct.

Уведомление о доступе они начали присылать по почте.

Эта модель заменяет устаревшие модели вроде text-davinci-003, но стоит дешевле, на уровне GPT-3.5-turbo. Ее отличие в том, что она не chat модель, и менее болтлива.

Можно использовать через API вот так:

response = openai.Completion.create(
model="gpt-3.5-turbo-instruct",
prompt="Write a tagline for an ice cream shop."
)



Спасибо @Bdata0 за эту новость. Обсуждение на Hacker News.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Вот такое качество текста может выдать ChatGPT, который использует структурированную базу знаний. 🔥🤯

Используется:
- только базовая модель, без тюнинга или дополнительных наворотов
- два промпта с "навыками" продающего копирайтера
- база знаний, которую клиент заполнил вручную
- logit bias

Не используется:
- embeddings
- векторные базы данных

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Цифры, которые должен знать каждый LLM разработчик.

В том числе:
- 1 MB памяти нужно на генерацию каждого токена 13B модели.
- "Be Conscise" в промпте экономит 40-90% токенов
- батчинг запросов улучшает пропускную способность в ~10 раз

Подробности расчетов - Source.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

К нам в канал и чат пришло много новых людей! 🤗

Поэтому вот список самых популярных постов:

- Кейс с ChatGPT про 10.000 € в месяц (бизнес-переводчик)
- Сентябрьский бенчмарк LLMок радует!
- Две методички по продуктам с LLM под капотом - в открытом доступе
- Надоело считать, сколько GPU VRAM нужно для модели?
- Прикольная библиотека для получения желаемого формата ответа от LLM в 100%
- Кейс: платформа для автоматизации процессов в компании.

Продукты с LLM под капотом, которые мы разбирали:

- Персональный ассистент в компании
- Автоматическое исправление ошибок в каталогах продуктов
- Ассистент маркетолога в компании
- Переводчик со знанием специализированной терминологии
- Нишевый lead generator для B2B продаж

У канала есть чат, в который собираются все комментарии и дальшейшие обсуждения. Там классное communuty! 🤗

Для тех, кому нравится атмосфера чатика, но хочется проговорить про все подряд есть выделенный LLM Coffee Talks. Там в последнее время разговаривали про страны, зарплаты и влюбленность в ChatGPT-4.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

На графиках получается интересный тренд - для того, чтобы уложиться с ответом в 10 секунд надо уменьшать размер батча (по мере увеличения числа `max_new_tokens`).

При этом суммарная мощь (tokens per second) снижается с приятных глазу 2000 tps, но мы продолжаем укладываться в 10 секунд.

Ваш, @llm_under_hood 🤗

PS: Используются стоковые Hugging Face transformers, с fp16. Можно ли как-то выжать побольше из карточки, ведь время==деньги? Stay tuned 😁

Читать полностью…

LLM под капотом

Вот так можно подобрать оптимальный batch_size для GPU для выбранного max_token_length.

Строим график загрузки при изменении batch_size и смотрим на пики в TPS/Elapsed time.


Ваш, @llm_under_hood 🤗

PS: GPU RAM скачет, т.к. там GC срабатывает только при переполнении. Ориентируемся на нижние пики

Читать полностью…

LLM под капотом

У GPU есть такая выгодная и классная особенность - он работает как бульдозер 🚜 GPU все равно, генерировать 1 ответ или сразу 10.

К примеру, если взять A100, сотню одинаковых запросов к LLM и запустить их на выполнение последовательно, то это займет минуту. А если параллельно, то всего секунду!

Я запустил на NVidia A100 модельку Llama 2 13B в float16 с просьбой нагенерить мне 20 новых tokens. Последовательное выполнение сотни запросов дало мне 32 tokens per second, а параллельное - 1894 tokens per second. Выгода налицо! 😊

Ничего так разница, верно? И это открывает путь для более интересных оптимизаций вроде speculative execution.

Детальное описание и код для воспроизведения эксперимента выложены в 🧪 ML Product Labs: LLM Performance.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

В чем разница между ChatGPT и GPT API?

Во-первых, один из них только что лежал 🤣

Во-вторых, GPT API - это модели, которые можно вызывать напрямую. Они есть не только у OpenAI, но и в Microsoft Azure (где они даже работают немного стабильнее).

А вот ChatGPT - это уникальный продукт с надстройками над моделями. Он включает в себя такие вещи как Plugins и Advanced Data Analytics (в прошлом - Code Interpreter).

Если мне нужно проанализировать какие-то данные, но лень (а это бывает часто), я скармливаю их в ADA и прошу нарисовать красивые графики.

Ваш, @llm_under_hood 🤗

PS: скриншоты в комментах.

Читать полностью…

LLM под капотом

LLM приводят новых клиентов.

Сейчас классное время для поиска новых клиентов для вашей компании. Особенно на международных рынках.

Почему именно сейчас? Все очень просто - технологии доросли до того, чтобы можно было сделать систему, которой можно задать вопрос “Поищи новых клиентов, которым услуги нашей компании нужны позарез”. И, самое главное, она сможет это сделать. Более того, она еще и напишет по пунктам предложение, с которым можно написать в эту компанию.

// Только за последние сутки у нас есть соглашение два соглашения на построение такой индивидуальной системы))

Как работают системы по поиску клиентов, и почему раньше такого не было? Ведь LangChain и ChatGPT же уже давно на рынке, а умных ассистентов не счесть?

Основная разница в подходах и в качестве выдаваемой информации. Очень легко загрузить кучу информации в векторную базу данных, прикрутить поиск и сказать, что оно готово. Вот только система вряд ли сможет дать ответ на вопрос “На основе своих данных и JTBD подхода, сформируй список компаний, которым очень нужны мои услуги”.

Специалисты с клиентской базой и опытом продаж такое сразу поймут.

Но как сделать такую систему, чтобы клиенты, которые собаку съели на продажах, сказали “Mindblowing 🤯 при виде ее? И еще сходу придумали еще пару новых способов для применения в своем бизнесе?

Поскольку это канал про LLM под капотом, то часть секретов я сейчас расскажу.

Во-первых, нужна база знаний, которая бы могла хранить много информации (сотни гигабайтов-терабайты). Там будет храниться как внутренняя информация про компанию и ее клиентов, так и информация про потенциальных клиентов.

Во-вторых, нужен специальный робот - crawler, который постоянно будет “ползать” по интернету и собирать новую информацию. Но не всю подряд, а только определенные виды публикаций и отчетов потенциальных клиентов. Эта база будет постоянно расти.

В-третьих, нужна система поиска по этой базе. Такая, чтобы могла находить информацию на разных языках и в разных форматах представления.

В-четвертых, нужен “мозг” для всего этого, на базе ChatGPT или Llama 2. Этот мозг будет транслировать вопрос пользователя “сформируй список компаний, которым очень нужны мои услуги” в программу для поиска по базе знаний. А потом еще и проверять качество ответов и адаптировать программу дальше.

В-пятых, по-прежнему нужен человек. Он будет рассказывать системе про интересующих клиентов, получать результаты и комментировать их качество.

Более детально про такой поиск я писал в “ML Product Labs” (для подписчиков новостной рассылки ML Under Hood доступ бесплатный, только надо сутки подождать)

Часть из этих необходимых технологий появилась только недавно. Особено Meta Llama 2, которая не только умна не по годам, но еще и хорошо умеет писать код (это нужно для эффективного map-reduce поиска по большим базам знаний).

Эту модель можно не только использовать в коммерческих целях, но и "обвешивать" дополнительными технологиями для повышения качества ответа.

Meta - это бывший Facebook. Она вообще много полезного делает в последнее время. Совсем недавно еще выпустила модель SONAR для работы с информацией на разных языках. Это очень полезная вещь, если хочется, чтобы ваша система могла комфортно работать с международными клиентами.

Все эти модели вышли недавно и открыли кучу новых возможностей для бизнеса. Именно поэтому, сейчас самое классное время для его развития!

Ваш, @llm_under_hood 🤗

Q: Дорого ли построить такую систему? Не дешево, но качество стоит того. Конечно не так, чтобы “Ест за четверых, Работает за семерых”, но с зарплатой хороших специалистов по работе с клиентами это сопоставимо. И оно работает больше, чем за семерых. Круглосуточно, без отпусков и больничных.
Q: Я не хочу рисковать личными данными. Это может работать без обращений к OpenAI/Anthropiс, только на моих серверах? Теперь, да!

Читать полностью…

LLM под капотом

Надоело считать, сколько GPU VRAM нужно для модели?

Вот и мне тоже. Поэтому я встроил в бенчмарки оценщик на базе accelerate. Он ходит в hugging face, грузит структуру модели, и считает необходимый объем GPU VRAM для запуска.

Если кратко, то минимальные требования к GPU, в зависимости от квантизации:
- Llama2 70B: fp16 - 128GB, int8 - 64GB, int4 - 32GB
- LLama2 13B: fp16 - 24 GB, int8 - 12 GB, int4 - 6GB
- LLama2 7B: fp16 - 12.4 GB, int8 - 6.2 GB, int4 - 3.1 GB

Это теоретический минимум. На практике потребление может быть процентов до 20% больше. Подробнее про всю математику можно почитать тут.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Две методички по продуктам с LLM под капотом - в открытом доступе: по построению knowledge-based систем и по сбору обратной связи в продуктах с LLM под капотом.

Доступ привязан к подписке на бесплатную Substack рассылку “ML Under the Hood”.

Текущие подписчики могут зайти туда уже прямо сейчас. Нужно лишь пойти на https://labs.abdullin.com и использовать свой email из подписки.

Если подписки нет, то можно ее завести и зайти на следующий день (интеграция с Subsctack пока через пень-колоду))

Я планирую эти лабы развивать и дальше:
- Больше продуктовых кейсов, собранных в одну библиотеку
- Интерактивные прототипы, которые можно пощупать своими руками. В первую очередь - быстрый conversational поиск по каталогам и базам знаний.
- Сентябрьские LLM бенчмарки (которые на больших моделях и Llama 2) появятся уже прямо там.
- Клиенты со своими бенчмарками всегда смогут посмотреть последние результаты прямо там, рядом с публичными.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

GPT 3.5 0613 не перестает радовать.

Она стала у меня дефолтовым выбором вместо GPT4. Пусть в качестве немного отстает, но стоит в разы дешевле.

Скриншот из новой версии бенчмарков, которая выйдет в сентябре.

PS: в плагинах GPT 3.5 лучше 4 из-за того, что последняя "выеживается" в достаточно простом тесте.

Читать полностью…

LLM под капотом

Начиная с 160GB суммарного объема, видеокарты начинают заканчиваться на runpod.

Это превращает работу с большими моделями в игру "собери их все")

Читать полностью…

LLM под капотом

Клиент спросил - как можно получить разнообразные тексты из одних исходных данных?

Вот пример генерации маркетинговых текстов свежей gpt-3.5-turbo-instruct. Это один и тот же исходный запрос.

Под капотом
Prompt tokens ~75. Температура=0.7-1, плюс guidance, чтобы направить мышление модели в разные стороны и не дать съехать в общую колею.

Как сделать такой guidance?
- В разные запросы ставить negative guidance на типовые мусорные ответы. Его можно прибить гвоздями один раз.
- По-разному подкручивать позитивный guidance на разные итерации.
- Ставить разные формулировки второстепенных частей промпта, чтобы модель "выбить" в другую часть пространства ответа.

Почему именно gpt-instruct?
Как рассказывал Andrej Karpathy в MS Build, у таких моделей больше энтропии. В отличие от chat моделей, у них нет меньше RLHF дрессировки, которая гасит творческие способности.

А что клиент?
Клиент в первую очередь порадовался скорости и качеству. Во вторую очередь - простоте и экономии на ChatGPT-4.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Какие русскоязычные модели нынче популярны?

Вот вам график!

Ваш, @llm_under_hood 🤗

PS: Брал все модели, у которых в model card прописан язык ru.

Читать полностью…

LLM под капотом

Какие LLM модели нынче популярны на практике?

Бенчмарки-бенчмарками, а вот количество недавних закачек покажет реальные тренды использования.

Среди всех моделей рулят:
- распознавание речи jonatasgrosman/wav2vec2-large-xIsr-53-english - 63M закачек
- языковая модель bert-base-uncased - 41M
- ветеран LLM gpt2 - 13M закачек

Cреди LLama моделей популярнее всего:
- NousResearch/Llama-2-13b-hf - 9M закачек
- stabilityai/StableBeluga-7B - 1M закачек
- meta-llama/Llama-2-7b-hf + Llama-2-7b-chat-hf - 1M закачек вместе

Источник - HuggingFace API.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

В ChatGPT добавили 20ый способ сбора пользовательского фидбэка. Время от времени показывают не один вариант ответа, а сразу два, и просят выбрать между ними. Своего рода A/B тестирование. После выбора на сервер уходит метрика message_comparison_feedback.

Данные пользователей для обучения моделей - самый ценный ресурс! 🤑

OpenAI на этих данных смогут допиливать модели, чтобы они еще больше радовали своих пользователей.

Добавил этот пример cбора данных к остальным 19 в ML Labs про Capture Feedback.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Новая библиотека, которая позволяет запускать большие 70B LLM на небольших GPU быстрее, чем с GPTQ/GGML

https://github.com/turboderp/exllamav2

Можно даже запустить LLama 2 70B на 3090Ti/4090 и получить 30-35 tokens/sec. Правда при этом нужно будет ужаться до 2.5 bits/weight. Но лиха беда начало!

Читать полностью…

LLM под капотом

Кейс с ChatGPT про 10.000 € в месяц 🤑

Интересно? Рассказываю.

Есть компания, которая уже пару декад делает аналитику для торговых сетей. Они хороши в своем деле, что клиенты говорят: “Ребята, вы выдаете офигенные результаты. Мы не понимаем, как оно у вас работает, но нам нравятся ваши результаты. А можно как-то поменять формулы, но оставить итоговые цифры?” 🤦

Но вот это непонимание клиентами - осложняет работу и оставляет осадочек. Поэтому они публикуют кучу материалов и исследований. Там идет сплошной поток новых публикаций и правок в старые статьи. Статей на сайте около 500-700.

И вот тут возникает проблема - если мы написали материал на английском, то как его переводить на другие языки ? Китайский, французский, немецкий, испанский итп

Исторически они к своей CMS-ке привинтили что-то вроде новостной ленты. Переводчики видели обновления, переводили их на свой язык, отправляли правки и получали денежки.

Все были довольны. Но в месяц на переводы уходило до 10000 €. А сами переводчики часто косели от непредсказуемой загрузки и монотонной работы. Кому интересно переводить по 100 правок маленьких кусочков текста в месяц? А ведь еще есть субтитры для подкастов и интервью.

Пробовали для переводов, естественно, всякие Google Translate, DeepL & Bing Translate. Но все они плавали в предметной области, путали термины и несли откровенную 🤪 чушь.

И тут вышел ChatGPT, который достаточно хорошо справился с этой задачей. Самое главное, что он не жалуется на монотонность и объемы.

Как оно все работает?

Просто берется исходный текст, в формате markdown (с графиками, стилями, формулами и ссылками). Этот текст мы вставляем в промпт ChatGPT. Еще докидываем туда краткую справку по предметной области и примеры правильных переводов хитрых мест. Примеры подтягиваются простым скриптом из базы прошлых человеческих переводов. Какие фразы встречаются в тексте для переводов, такие примеры и подтягиваем.

А дальше ChatGPT делает свою работу и выдает тексты. Они не идеальны, но их можно без опасений сразу же публиковать. Что эта компания и делает.

Если у кого есть свой бложик или сайт, можно сделать аналогичный процесс. Наличие постоянно пополняемой базы актуальных статей на множестве языков сразу добавляет кучу очков в глазах больших клиентов.

Ваш, @llm_under_hood 🤗

PS: Список кейсов продуктов с LLM под капотом есть в шапке: /channel/llm_under_hood/3

Читать полностью…

LLM под капотом

Генерация 20 tokens - это несерьезно! Как будет меняться производительность GPU при росте "выхлопа"?

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Update: все новые подписки синхронизированы с лабами. Можно заходить!

На вопросы про черную магию и зависимость от числа tokens в контексте отвечу попозже)

Читать полностью…

LLM под капотом

Сентябрьский бенчмарк LLMок радует!

Если кратко, то Llama2 70B Hermes обогнала по качетсву старую версию ChatGPT 3.5 🥳

Но пока есть нюанс, для иллюстрации которого добавили новый столбец - "cost". Для облачных моделей считаются tokens в бенчмарке, для локальных моделей считается стоимость аренды подходящего GPU на время бенчмарка.

И теперь видно, что хотя Hermes 70B догнал ChatGPT 3.5 по качеству, то запуск его локально может стоить раз в 25x дороже 💰.

Но дальше будет только лучше. Модели в самом низу бенчмарка на самом деле тоже способные, просто они черечур болтливы. Если добавить нормальный guidance + beam search, то качество станет лучше. Ждите октября 👀

Ваш, @llm_under_hood 🤗

PS: Этот бенчмарк создан на базе тестов и промптов из enterprise продуктов. Попозже еще будет "Benchmark on startup workloads". Сначала он появится в ML Under Hood, а потом и в этом канале.

Читать полностью…

LLM под капотом

ChatGPT лежит 🫠

Поднимите руки, у кого еще работа встала 🤚

Читать полностью…

LLM под капотом

Как улучшить поиск бизнес-кейсов в публичных отчетах компаний?

Просто воткните подходящую LLM в обратную связь. Пусть она сама ищет, оценивает результаты и корректирует свой query plan.

Ваш, @llm_under_hood 🤗

Читать полностью…

LLM под капотом

Все новые newsletter подписки синхронизированы в ML Llabs (я писал про них вчера).

Можно логиниться )

Кстати, несколько потенциальных статей помечены как “🚧 under construction”. Если что-то кажется интересным, можно за них проголосовать внизу описания.

Читать полностью…

LLM под капотом

Прототип быстрой поисковой системы по профилям компаний)

Пока ищет только по 1GB отчетов компаний, но в перспективе это дойдет до террабайта. Качество должно улучшиться, а тормоза пройти (все, что дольше секунды - адские тормоза)

Читать полностью…

LLM под капотом

Давным давно (пару лет назад), я интересовался hardware accelerators для ML. Это было еще до бума ChatGPT, но "убийцы NVidia" уже маячили на горизонте.

Были классные и недорогие процессоры с возможностью строить кластера сильно дешевле, чем дорогущие решения под NVLink от NVidia.

Эта карта железа для ML осталась с тех времен.

Но потом появились LLM и забили гвоздь в гроб всех этих ускорителей. Внезапно выяснилось, что важны не столько вычислительные способности, а много-много широкополосной памяти (HBM). Ну и наличие драйверов, которые работают с экосистемой из коробки, тоже помогает.

Tenstorrent по-прежнему выходит на связь раз пару раз в год и обещает вот-вот прислать ускорители с работающим софтом))

Читать полностью…

LLM под капотом

Загадка. Какой продукт/прототип скрывается за этим списком?

Hint: оно включает в себя information retrieval по 200MiB+ чистого текста.

Читать полностью…
Subscribe to a channel