Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Видели новости про файн-тюнинг GPT-3.5?
Если кратко:
- это не тот fine-tuning, к которому все привыкли!
- тренировка стоит относительные копейки - $0.008 / 1K токенов
- для затюненой модели использование в 8x дороже базовой GPT-3.5-Turbo
Сама новость вот тут: OpenAI
За uptime затюнинговой модели ничего не платим. Значит, это какой-то вариант LoRA адаптеров и манипуляции с tokens.
Этот fine-tuning затачивает модель под определенную задачу, делая ее более узко-специализированной. Новым фактам ее не особо научишь, а information retrieval это не заменит. Подробнее см доки OpenAI про fine-tuning.
Зачем, вообще такой тюнинг? А чтобы экономить на prompt tokens! Если у нас есть типовая задача, которая требует длинного промпта, особого формата вывода или стилистики ответа, то можно затюнить GPT-3.5 под эту задачу. Теперь не нужно будет отправлять столько few-shot примеров в запрос.
Тюнинг окупается при сжатии входного промпта более, чем в 8x. Плюс скорость ответа будет быстрее.
Такой тюнинг позволит получать более стабильные результаты без костылей вроде Microsoft Guidance & Microsoft TypeChat.
Ваш, @llm_under_hood 🤗
PS: У кого-нибудь есть проекты, которые уже явно выигрывают от этой фичи?
Update. Загрузил обновленную версию описания с детальным разбором одного бенчмарка вплоть до промпта.
Читать полностью…Кейс: платформа для автоматизации процессов в компании.
Со своим собственным языком программирования 😎
Давайте я вам расскажу про прикольный кейс автоматизации бизнес процессов в рамках целой интенсивно развивающейся компании. Компания - поставщик услуг по аналитике, клиенты на слуху.
У них сейчас основная проблема в том, что достаточно сложно расти. Рост ограничен наймом специалистов. Но благодаря GPT/LLM они могут масштабировать компанию не за счет найма новых людей, а за счет повышения их производительности.
Причем они делают не банального умного ассистента, а что-то уровнем повыше.
У них уже есть своя система работы с почтой. У них есть свой issue трекер. У них уже есть свой собственный язык программирования, с помощью которого они для клиентов делают аналитику. У них даже есть своя собственная CMS. Причем на сайте более 500 статей, которые постоянно пополняются и переводятся на где-то десяток языков.
И весь этот самодел минималистичен и очень оправдан (рост прибыльности из года в год врать не будет).
Для работы с LLM/ChatGPT они делают тоже свой собственный небольшой язык программирования (DSL или Domain-Specific Language). Он достаточно прост, прячет под капотом технические нюансы работы с векторами и embeddings, обращения к ChatGPT (со всеми retries), поиск по переписке и базам знаний. И тому подобное.
Примеры использования этого DSL:
- Когда приходит почта от какого-то клиента, сделай мне пожалуйста выжимку по текущему профилю этого клиента, выжимку по последним запросам, по последним обращениям в customer support, по последним бизнес запросам и с учетом этой выжимки предложи возможные ответы на текущий запрос клиента.
- При работе с новым крупным клиентом, нужно при заключении договора проходить по их compliance чеклисту. Пройдись, пожалуйста, по нему, используя наш FAQ, наш предыдущие ответ другим клиентам, и на каждый вопрос сформулируя ответ.
DSL является бизнес языком программирования для одной единственной компании. Он позволяет писать скрипты, формулировать запросы к GP и обращаться к разным системам в компании. Cотрудникам не нужно возиться с кучей токенов, retries или общаться с разными системами. У них просто есть один интерфейс и один токен.
DSL можно версионировать, его можно встраивать в автоматические бизнес-процессы, и он позволяет предсказуемо масштабировать бизнес. Компания может развиваться как набор скриптов на DSL, которые работают со всеми внутренними заданиями компании. Это очень круто, очень прозрачно и позволяет предсказуемо масштабировать бизнес. Крутой кейс.
PS: естественно, что можно давать API этого языка программирования в ChatGPT и просить написать скрипт под конкретную задачу. А скриптом уже можно поделиться с коллегой или показать новичкам.
Отладка промптов для разных моделей
Разные LLM модели обучаются на своих форматах представления данных. У OpenAI - ChatML (спрятан за API), у Llama2 - два разных формата, которые отличаются от LLaMA. У файн-тюнов тоже свои нюансы.
Модели лучше всего работают, если им задавать вопросы в родном формате. Особенно важно следить за спец-символами и пробелами.
Например, в токенайзере cl100k_base (GPT3.5 и GPT 4) “ word” и “word” - это совершенно разные tokens. Первый - это часто используемое слово, а второй - довольна редкая запчасть от слова “crossword” (которое отличается от слова “ crossword”).
Как во всем этом разобраться и не запутаться?
Я в свои утилиты встроил подсветку элементов промпта, как на картинке.
Следование родным форматам моделей снижает галлюцинации и повышает точность ответов. Последнее - позволяет моим клиентам быстрее выкатить фичи и получить хорошую отдачу от использования LLM-ок.
Симпатично, наглядно и практично👍
Ваш, @llm_under_hood 🤗
Вот почему промпты лучше не заканчивать пробелом.
Кстати, заметили, что в нижнем окошке "weaker" разорвано пополам переносом? Это потому, что мы кавычками заставили токенизатор использовать запчасти "we" "waker" вместо слова " weaker". И похоже, что переносы тут сделаны по границам tokens :)
Ваш, @llm_under_hood 🤗
Чтобы быстро поднять Ops инфраструктуру для продукта - я использую Terraform + NixOS. Это самое быстрое, простое и надежное для человека, который нисколько не DevOps 😁
Terraform - чтобы завести ресурсы в облаках (начиная с GCP и до Hetzner).
NixOS - это как Terraform, но для самих виртуалок. C ним можно описать сервер, а потом сделать nixos rebuild
. Он либо исполнит все до конца, либо откатится назад на стабильную конфигурацию (в отличие от Ansible и аналогов 😉)
На скриншоте - часть описания Ops сервера, про wireguard. В этом файле у меня еще строчек 240. Они описывают HTTPS сервер со всеми хостами, Grafana, VictoriaMetrics, prometheus scrapers, loki, promtail.
Чтобы выкинуть что-то, переделать конфиги или добавить новые пакеты - достаточно отредактировать файл и пересобрать сервер. Причем описания серверов хранятся в одном месте, что очень удобно для работы в команде.
В общем, если нужно быстро разворачивать сервера, а времени особо нет - всячески советую обратить внимание.
Слышали про LK-99? Это не LLM. Но может стать поворотным моментом в истории.
В общем, авторы придумали способ получить сверхпроводники, которые работают при комнатной температуре. Если это так, то авторы без вопросов получают нобелевку. Даже если сверхпроводники слабенькие, это открывает новое направление для скачка CPU/GPU.
Куча лабораторий по всему миру сейчас пытаются повторить результаты статьи. Будем знать точнее на следующей неделе. Вероятность того, что что-то стоящее - 25%
Һомай - умная колонка, говорящая по-башкирски.
Давайте расскажу про этот классный кейс, мой самый крутой и сложный продукт в области ML/LLM.
Все слышали про Siri, Alexa или Алису. С ними можно поговорить на разных языках:
- Google Assistant ~ 44 языка
- Apple Siri ~ 21
- Microsoft Cortana ~ 8
- Alexa ~ 8
- Алиса - 1
Но в мире всего существует более 7000 языков. Из них 1500 исчезнет к концу столетия. С языками может исчезнуть и культура - старые традиции, сказки, рецепты, и многое другое. В общем, беда и непорядок.
Мы хотим сберечь все это наследие, one language at a time. Поэтому мы делаем умную колонку, которая помогает передавать башкирскую культуру и сохранять речь.
Почему башкирский язык? Это родной язык Айгиза, который и начал педалить весь проект. Но и другие языки потихоньку тоже подтягиваются и начинают делать подготовительную работу. Технологии в проекте выбираем такие, чтобы других языкам было проще повторить наш путь (если интересно, см. группу Языки разные - код один).
Это продукт для людей, осознающих свою башкирскую идентичность - и для детей, и для взрослых. User research показал, что пользователям важно решить такие проблемы:
- очень мало интересных и доступных интерактивных материалов на башкирском
- не с кем поговорить на родном языке
- сложно найти информацию по башкирской культуре в интернете
- дети не знают родной язык и не хотят на нем разговаривать
Поэтому хочется предложить им доступный продукт:
- это умная колонка и кладезь мировых знаний, доступных на башкирском языке
- пользователь может общаться с колонкой на живой башкирской речи
- колонка хранит и популяризует башкирскую культуру
В проекте много приходится делать почти с нуля - от электронной начинки колонки до языковых моделей для башкирского языка:
- Корпус с начинкой, микрофонами, wake word detection и всяким digital signal processing, чтобы было с чем поговорить
- Распознавание речи, озвучка ответов, переводчики, embeddings и прочие языковые модели для оцифровки языка и речи
- Сбор корпусов текстов и баз знаний по башкирской культуре
- Серверная инфраструктура, боты, вспомогательные сайты, чтобы все это работало вместе.
Проект возможен благодаря поддержке и помощи множества людей: дикторов для синтезатора, тестировщиков, волонтеров, которые записывали голоса для Mozilla Common Voice, собирали данные и вычитывали тексты - людей, которым важен башкирский язык.
В общем, это реально сложный и интересный кейс, который пилит распределенная команда. Такой стартап с народной поддержкой.
Конечно, приходится много учиться, быстро адаптироваться, выжимать максимум из доступных LLM-ок и архитектур. Процесс работы построен на принципе research lab с быстрыми итерациями и продуктовым подходом во главе. Все это не было бы возможным без сотрудничества с талантливыми специалистами и классными проектами по всему миру.
Экспертиза, полученная во время работы с оцифровкой речи и культур, помогает и в реализации коммерческих проектов: information retrieval, domain-specific assistants, and business process automation. Особенно от этого выигрывают клиенты, которым нужно создавать продукты для мультиязычных аудиторий.
Технологиями по спасению языков мы делимся с сообществом в рамках “Языки разные - код один”, а про продуктовые инсайты и наработки можно будет продолжать читать тут)
Ваш, @llm_under_hood 🤗
Хакатон на сегодня - MVP адаптивной базы знаний для homai.
homai - умная колонка, которая помогает передавать башкирскую культуру и сохранять речь.
Хочу за сегодня попробовать сделать все четыре уровня базы знаний (fast cache, strong structure, weak structure, raw data)
Если интересно, могу выкладывать прогресс в комменты.
Давайте соберем тест для оценки качества embeddings и Q&A систем!
Я завел форму в Google docs. Любой может дописать своих вопросов по мануалу Master of Orion 2, с правильными ответами. Мануал будет в комментах.
Нужны вопросы от разных людей, чтобы было реалистично. 3-4 вопроса с человека - уже очень хорошо!
👉 Ссылка на таблицу (edit) 👈
Falcon уже не самая лучшая LLM модель.
Что самое забавное, в Hugging Face Leaderbord его обогнала не только LLaMA v2, но и новые файн-тюны первой версии. Прогресс не стоит на месте.
Выкатили новую версию маркетингового ассистента клиенту. Он помогает брейнштормить идеи для статей про продукты на сайт, а также писать черновики. Плюс посты в соц сеточки.
У него под капотом два AI Skills (GPT-4) и структурированная база знаний клиента. 0% embeddings. Пост с описанием продукта и технологий: Описание кейса.
Половину картинки пришлось почикать, чтобы можно было показать интерфейс 🙈
С момента предыдущего релиза расширили базу знаний и улучшили структуру. Она тут не адаптивная, зато очень прозрачная для клиента. Они сами смогут ее развивать.
Везде делился радостью, теперь и здесь хочу.
Это первая версия автоматического intent-анализатора для запросов пользователей на башкирском языке. Там сразу named entity recognition идет. Под капотом - GPT-3.5 c function calls.
Да, оно делает кучу ошибок. Да, можно сильно улучшать все шаги. Но, как только я сведу все в работающую систему - на пользователей 20 выкатим. Надо собирать feedback и вопросы.
Самое классное, что тут (если смотреть на всю систему) можно попробовать сделать самообучающуюся базу знаний с human-in-the-loop. Плюс дать пользователям возможность обучать систему под себя.
LLM Ops в #homai
Последние дни я обновляю LLM observability стэк в homai (башкирская умная колонка). Команда должна иметь возможность видеть, как продукт используют на самом деле.
Исторически я использовал InfluxDB + Telegraf + Grafana, плюс ELK для логов.
Но тут - lean startup, плюс InfluxDB поломали все удобство своим Flux языком. А хочется один раз завести все и потом забыть детали.
Поэтому инвестирую пару дней в LLM Observability/Ops.
За последние дни освоил Loki и Prometheus для аналитики. Получился первый dashboard как на картинке. Тут выжимка текущих разговоров тестеров с ассистентом, сборка статусов в логах.
Но когда начал добавлять график использованных GPT tokens, всплыло, что prometheus не может это точно считать.
Поэтому попробую сегодня телеметрию пересадить на VictoriaMetrics.
В перспективе и business-analytics c OLTP и отдельно Amplitude. Но пока это не горит. Буду собирать данные в kafka.jsonl, а потом отправлю))
Вышла Claude-v2, вот бенчмарки
Похоже, что проклятие второй версии не минуло и Claude-v2.
Пока выходит, что claude-v2 в наших продуктах работала бы хуже первой версии. За просадку в категории "code" не так жалко, а вот за docs, integrate, marketing - обидно.
Но в "reason" - она догнала ChatGPT-4 новый!
Про бенчмарки подробнее написано тут. Со времени последнего отчета, я усложнил часть бенчмарков, чтобы GPT-4 было к чему стремиться 🚀
Спасибо @Dimasfer за ключ для тестирования! 🙏💪
Ваш, @llm_under_hood 🤗
В ChatGPT есть 15 полей/кнопок для сбора feedback!
Куда им столько?
При разработке продукта с ML/LLM под капотом лучше всего сохранять каждое значимое действие пользователя. Это позволит впоследствии оценивать качество моделей, пополнять training dataset и улучшать продукт.
По возможности, можно даже подкрутить интерфейс для того, чтобы собирать больше информации.
Сохраняйте все продуктовые события, пусть даже в текстовый файл формата JSONL. Они потом пригодятся.
Ваш, @llm_under_hood 🤗
Я обещал описание категорий LLM Product Benchmarks, с примерами.
Вот оно☝️
Прикольная библиотека для получения желаемого формата ответа от LLM в 100% случаях.
Под капотом, они собирают FSM, который пропускает только валидные tokens на каждом новом шаге. Можно описать формат ответа начиная с regex до JSON модели по pydantic схеме.
От галлюцинаций это не спасает, но уменьшает количество проблем и работает быстрее Microsoft Guidance.
https://github.com/normal-computing/outlines
Клиент хочет большего разнообразния текстов, которые генерирует маркетинговый ассистент. Что делать?
> Карточка продукта "маркетинговый ассистент" - тут.
Если прибить один промпт для написания черновиков статей, то он будет ваять очень похожие друг на друга тексты. Это не очень хорошо, т.к. остается больше работы для людей при финальной полировке статей. Больше переписывать.
Решили добавить разнообразния и сэкономить им еще больше времени:
(1) вытащили наружу ползунок креативности (напрямую транслируется в temperature), чтобы они могли сами подобрать нужную степень оголтелости.
(2) запрещаем особо пафосные слова через logit bias. И, соответственно, перестали запрет прописывать в промпте. В итоге тратится меньше tokens, а сам промпт фокусируется на более важных вещах.
(3) Вместо одного варианта написания статей, используем 3 разных подхода для braistorming и для написания черновика (Подход Майи Богдановой, AIDA и еще один benefit-driven от Дмитрия Кота). В итоге 9 комбинаций. Переключение между ними по рандому.
Подходы не имеют ничего общего с LLM! Это конспекты человеческого опыта про написание хороших текстов для LLM. ChatGPT нежно и отзывчиво любит такие конспекты! А комбинаторика добавляет разнообразия.
(4) Пользователи могут добавить свои комментарии в поле "tone of voice". Мелочь, а добавляет возможность тюнинга на месте.
(5) Дополнили базу знаний компании фактами про индустрию и тенденции развития. Это нужно для того, чтобы ChatGPT могла вбрасывать интересные фактики в повествование. Людям нравится такое встречать в статьях)
Какие еще интересные лайфхаки бывают для написания статей и постов при помощи ChatGPT?
Ваш, @llm_under_hood 🤗
LLM Upgrade Guidance:
(1) ChatGPT 0314->0613 - upgrade with caution 🚧
(2) Anthropic Claude v1->v2 - don't upgrade 🛑
(3) LLaMA v1->v2 - upgrade to a fine-tune ✅
В комментах - скриншот с самой последней версией продуктового бенчмарка LLM после того, как я пофиксил кучу мелких проблем и багов. И на этом с бенчмарками на месяц пока все.
Q: Чего там оптимизировать? Запустил промпт и все.
A: Засада в оптимизации задач сразу под все модели. Это как писать сайты под 20 разных браузеров со своими заморочками. Понятно, что instruct format можно шаблонизировать, но у каждой всегда есть свои нюансы. Особенно, если стараться выжать максимум из последней модели.
Q: А чего модели в бенчмарках постоянно скачут вверх-вниз?
A: Ну не постоянно но такое есть) Во-первых, благодаря новым клиентам и кейсам потихоньку добавляются новые бенчмарки. Во-вторых, находятся новые способы улучшить качество моделей на существующих бенчмарках.
Вот последние инсайты:
(1) Почему пробелы лучше не ставить в конце промпта completion моделей? Да потому, что все эти tokeniser-ы привыкли включать пробел в начало слова (см скриншот 2 в следующем посте). А если промпт заканчивается пробелом, тогда модели придется выбирать более редко используемый token, который с пробела не начинается. Качество чуть-чуть от этого страдает.
(2) Не забываем про logit bias, который позволяет подкручивать вероятности тех или иных tokens на выходе. Он есть как в OpenAI ChatGPT, так и в локальных LLM-ках. Например, если в ответе мы ожидаем, что модель выберет между N фиксированных вариантов, можно заставить модель выбирать только между ними. Ну или еще можно "запретить" модели использовать какие-то слова.
Тут вообще начинается много интересных вариантов, которые могут направить даже самые говорливые модели на правильный путь. Но в бенчмарки это пока не встроено.
Ваш, @llm_under_hood 🤗
Llama v2 - трепло. Вот новые продуктовые бенчмарки, и она там на самом дне.
Понятно, что сейчас общий тренд на чаты, safety и разговорность. Но из-за этого страдает способность моделей давать четкие и конкретные ответы в поставленном формате.
Говоришь второй Llama: You extract product properties from provided text. Respond in format: "number unit" or "N/A" if can't determine. Strip quotes, thousands separators and comments.
а она тебе в ответ: Sure thing! Here is the answer to your request:
И как это парсить стабильно?
Из открытых моделей, которые мы тестировали, старые версии Vicuna пока умеют лучше всего следовать инструкциям. Ну а OpenAI GPT-4 стабильнее лучше всего.
В чатике появились вопросы про процесс разработки ML продуктов с распределенной командой.
Вот как выглядел старт проекта Һомай в первую пару месяцев. #homai
Одна доска на Miro, регулярные retrospectives и созвоны для синхронизации. Mission/Vision, cтратегия, ценности, инициативы и roadmap. Мелкий kanban вместо JIRA. Все - это исключительно для себя.
Общались и изучали больше, чем фигачили. В результате у распределенной команды появилось общее видение. Оно теперь помогает работать параллельно над задачами, не тратя так много времени на синхронизацию.
А эта доска Миро уже отвалилась в прошлое, как артифакт.
Ваш, @llm_under_hood 🤗
Поделюсь одним прикольным кейсом!
У клиента традиционный маркетплейс c 15k продуктов. Там есть полнотекстовый поиск по категориям, описаниям и ключевым словам. Постоянно добавляются новые продукты.
Клиент попросил прототип для генерации правильных ключевых слов для продуктов. Чтобы искалось лучше.
А вместо этого мы ему показываем демку человеческого и мгновенного многоязыкового поиска без всех этих костылей.
Первый вопрос сразу же: "why is the search so fast?... blazingly fast that beast" :D
Ответ: оптимизировали поиск, выкинули все ненужное, вроде LangChain и векторных БД, поэтому там тормозить нечему. Заодно и на проде лучше нагрузку будет держать. 💪
Ваш, @llm_under_hood 🤗
Хочу себе маркетингового ассистента. С чего начать?
Первый шаг - собрать базу знаний про свой кейс. Как это сделать - расписано в данной методичке.
Если собрать такую базу и вставить ее в контекст GPT-4, то получится собственный ассистент, который станет неплохим подспорьем в продвижении продуктов и общении с клиентами.
А если отладить цепочки промптов, то можно даже доверить анализ аудитории, брейншторминг статей, написание черновиков и вычитку финальных вариантов.
Такой ассистент экономит до 80% процентов времени, существенно расширяя воронку продаж [1].
Подробнее написано в кейсе маркетинговый ассистент.
Ваш, @llm_under_hood 🤗
---
[1] Мои клиенты говорят, что ассистент ускоряет выполнение их задач в 5-10 раз.
Спокойно моргнуть нельзя. Вторую лламу 70B в среднем по очкам опередил какой-то файн-тюн на 30B.
Третье место, к слову, тоже 30B файн-тюн занял. Что происходит?
Про новую версию LLaMA v2 слышали?
По бенчмаркам круче, чем первая версия, но при этом более свободная лицензия, которая разрешает коммерческое использование (*)
Meta - молодцы. Архитектура модели совместима с v1, поэтому уже ее быстро квантизовали для запуска на CPU в формате GGML. Все доступно для скачки на Hugging Face (например, у TheBloke).
В чатике LLM под капотом народ уже обсуждает 👈
Странные моменты:
(1) В описании модели написано: "Out-of-scope Uses...Use in languages other than English. " Не-английские языки пролетают?
(2) выпустили 7B, 13B & 70B. А вот 30B релизить не стали, хотя это самый "вкусный формат"
Знакомьтесь, это мануал по Master of Orion2.
Это не только классная игрушка из древних времен, но и текст, в котором GPT сильно плавает.
А это значит, что по нему можно собрать 20-40 вопросов и использовать в качестве окрытого теста всяких information retrieval систем.
Если найдутся еще прикольные тексты такого рода, их можно будет собрать в параллельные тесты.
Я на днях хочу начать собирать тестовый датасет вопросов по этому документу. Кто-нибудь еще хочет поучаствовать?
Хочу поделиться новым кейсом
Я уже слышал про ассистентов для компаний, даже реализовали несколько. Но клиенты всегда могут притащить классные новые кейсы, до которых сам не додумаешься.
Есть две компании. У одной очень хороший портфель услуг и продуктов. Хорошо расписаны Unique Selling Proposition. Больше скилов, чем лидов (хотя от нехватки клиентов - не страдают). Хотят больше интересных и выгодных клиентов.
Вторая компания - маркетинговая в схожей области. У них сильно больше лидов, плюс большие компетенции в области продаж. Хотят быстро просеять лидов, чтобы найти хороших, выгодных и перспективных.
И что они придумали?
Хотят сделать AI Skills, которые могут работать с базами знаний двух компаний для того, чтобы подбирать персональные предложения для каждого лида второй компании, с учетом возможностей, опыта и интересов первой компании. Плюс потом измерять воронки и адаптироваться.
У всех от новых возможностей горят глаза 🤩 Такое вот AI-driven партнерство
Что это изображено на фотке?
Клиент играется с мультимодальностью в BLIP и удивляется , что она ему в ответ на вопрос немного хамит.
Кто скажет, что на фото изображено?
Embeddings и векторная БД ищут плохо? 🔍🥺
Если продукты с LLM под капотом выдают чушь на выходе, то это может быть вызвано мусором на входе. Чем больше нерелевантной информации мы подаем в контекст, тем хуже качество ответов. Или “фигня в контексте - галлюцинации на выходе” (подробнее).
Самый частый источник “фигни на входе” при работе с большими текстами - это нерелевантные индексы на базе embeddings.
Можно это самостоятельно продебажить, если взять запросов 10-20 от реальных пользователей или эксперта и прогнать систему поиска до момента получения документов. Потом просто смотрим глазами, сколько правильных документов было найдено, а сколько мусорных.
А еще лучше - сформировать тестовый dataset с запросами и списком фрагментов, которые система должна находить. И загнать все в тестовый скрипт, который прогоняется автоматически на каждое изменение. Ему достаточно выдавать accuracy (но еще лучше - confusion matrix).
Когда есть такой тестовый dataset, можно смело экспериментировать с разными вариантами поисковых индексов, начиная с CharacterTextSplitter и до графов знаний в LlamaIndex.
Ваша задача - подобрать такую комбинацию, которая увеличит accuracy до приемлемого уровня. Достаточно, чтобы выкатить все реальным пользователям.
А дальше - продолжаем собирать feedback (👍, 👎), интегрировать его в тестовый dataset и работать над повышением точности на всех данных. Большую часть этого можно делать в полуавтоматическом режиме.
Идея коллаборации!
Как насчет выбрать какой-то набор документов (открытые и доменно-специфичные, которые точно не попадают в обучение, для начала на English) и их совместно разметить вопросов на 20-40 (вопрос - релевантные части документов)?
И потом эту разметку использовать для тестирования разных архитектур структурирования данных. Можно еще сшить в один PDF файл и тестировать им разные online сервисы.
В идеале - это домен, в котором мы все немного разбираемся, чтобы можно было быстро оценивать на глаз качество ответов.
Что скажете?
Ваш, @llm_under_hood 🤗