Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Ответ на первую кату, где нужно было проанализировать БД и построить графики продаж.
Просто кидаем выгрузку БД в ChatGPT (режим ADA) и копируем сам текст задания. Жмем Enter и через пару минут любуемся графиком продаж.
Будущий "GPT-first data scientist с нуля" смог ее сделать за пару дней.
Ваш, @llm_under_hood 🤗
PS: Интересует вторая ката?
Новый добрый и полезный продукт с LLM под капотом!
Наши марийские друзья объявили о старте проекта iВика - умной колонки на марийском языке! Задача такая же, как и у homai - передавать родную культуру и сохранять речь.
Видео - демонстрация будущего продукта Андреем Чемышевым. Пока прототип на основе LLM-ок homai, но дальше под капотом заработают родные марийские модели.
Самое классное в этих проектах: маленькие, но дружные и очень эффективные команды. Это прямо продуктовые R&D стартапы в hardcore режиме, которые выжимают максимально возможное из доступных ресурсов.
При этом проекты очень открытые - можно читать и задавать вопросы:
(1) разработка homai, рассказы доступным языком про проблемы и достижения проекта - новостная лента.
(2) сбор языковых данных и обучение моделей - один чат на все проекты
(3) практическое использование LLM под капотом умных колонок - наш родной чат канала
Ваш, @llm_under_hood 🤗
OpenAI добавили еще один пример сбора feedback в интерфейс ChatGPT. Уже 21-ый!
Они - молодцы. Все эти мелочи помогают собирать данные для дальнейшего улучшения продукта.
Добавил этот пример в копилку кейсов Capture Feedback на ML Product Labs.
Ваш, @llm_under_hood 🤗
ChatGPT, нарисуй мне mermaid diagram! $MERMAID_CODE
Теперь вы знаете, как ChatGPT рисует диаграммы по спецификациям. 🤣
А вот, кстати, если скормить ему набросок state machine от руки и попросить написать код для нее на питоне - это он делает запросто.
Ваш, @llm_under_hood 🤗
В чатике просят бенчмарки Mistral 7B Open Orca и Mistral 7B Zephyr, поэтому вот предварительная версия.
Чем эти модели потенциально хороши? Это файн-тюны новой по-настоящему открытой модели Mistral 7B. Базовая модель очень хороша (догоняет более дорогую в запуске Llama2 13B), а уж файн-тюны должны быть еще лучше.
Но результаты "из коробки" на продуктовых задачах так себе.
Это не потому, что они слабы. Просто, модели при ответе постоянно несет. Начинают ответ с расшаркиваний, не могут вовремя остановиться.
Так что придется в бенчмарк добавлять более сильный guidance. Это потенциально улучшит качество ответов всех локальных моделей.
Поэтому пока ноябрьская версия бенчмарка - Preview.
Ваш, @llm_under_hood 🤗
А вы знали, что в Replit есть довольно неплохой AI for Coding? Его даже можно попробовать бесплатно.
А вы знали, что эту LLM модель обучили на 1T tokens и уже выложили в HuggingFace?
А они - есть :)
Ваш, @llm_under_hood 🤗
PS: Про это и про паттерны применения AI в программировании я буду рассказывать на бесплатном online webinar-e во второй половине октября. Можно еще записаться. Отбирать анкеты участников будет ChatGPT по промпту "кому оно будет полезнее всего?" 😊
"Take a deep breath", - говорите?
Вот вам пример того, как быстро человеческие привычки становятся частью ChatGPT.
Совсем недавно, 7 сентября, вышла статья от Google DeepMind про улучшение ответов ChatGPT при использование фраз вроде "Take a deep breath and work on this step by step"
Сегодня, 12 октября, ChatGPT уже сам предлагает мне выдохнуть. А я всего-лишь попросил интегрировать приложение на Vue и Flask API.
И откуда только он нахватался такого? 🤣
Ваш, @llm_under_hood 🤗
Завезли Сайгу на базе Mistral 7B. Говорят, что очень достойно работает на русском языке!
Если так дело пойдет, придется делать бенчмарки мультиязычными.
Ссылки от Ильи Гусева:
LoRA: https://huggingface.co/IlyaGusev/saiga_mistral_7b_lora
gguf: https://huggingface.co/IlyaGusev/saiga_mistral_7b_gguf
демка: https://huggingface.co/spaces/IlyaGusev/saiga_mistral_7b_gguf
Ваш, @llm_under_hood 🤗
Вот примерно так выглядит запуск модульного голосового ассистента в тест-стенде.
Хотя все и тестировалось уже, но первый запуск модульной версии все-равно ощущается магически. Навыки можно удалять и добавлять. В этом стенде пока первые и основные модули. KB и расширенные знания пока убраны.
Эта система работает несмотря на то, что носителей этого языка в 160 раз меньше, чем русского! LLM хромает, ни о какой Сайге и речь не идет)
Под капотом: аккуратно отлаженный и отбенчмарканный набор из embeddings, переводчиков, LLM с guidance и структурированных баз знаний.
Conversation history и TTS/STT за бортом, т.к. за это отвечает другой сервис.
Ваш, @llm_under_hood 🤗
При создании голосовых помощников одним из первых шагов является определение намерения пользователя - intent.
Самый простой способ - использовать небольшой словарик векторов, оптимизируя его на истории запросов. И потом просто выбирать наилучшее вхождение.
Основной нюанс - модель для для вычисления векторов должна подходить под задачу. На скриншоте пример решения подобной задачки для башкирского языка, с использованием модели от @cointegrated.
На самом деле там точность не 89%, а больше. Просто весь тестовый dataset запросов было лень размечать на intents. Нас пока интересуют только сказки.
А вот дальнейший NER и подбор сказки под пожелания пользователя - это уже отдельная песня. Если интересно, могу потом рассказать.
Ваш, @llm_under_hood 🤗
Больше способов запускать любимые модельки!
- Amazon объявляет, что Bedrock теперь в режиме GA. И там будут модельки от AI21 Labs, Anthropic, Cohere, Stability AI. Плюс планируется LLama2 до 70B.
- Cloudflare запускает Workers AI с Serverless GPU. В наличие мелкие модели уровня llama-2-7b-chat-int8, но зато они будут в 100 центрах к концу года, а потом почти по всему миру к концу 2025.
В перспективе модельки уровня LLama2-13B. Плюс всякие векторные БД, ebeddings и прочая мелочевка. Похоже, что они берут не размером, а возможностью запустить модель поближе к себе.
Ваш, @llm_under_hood 🤗
Оптимальные конфиги для запуска Llama 2
Ребята из Hugging Face протестировали 60 разных конфигураций для запуска версий Llama2 на AWS.
$2.21 за 1M tokens Llama2 13B на AWS - эту цифру стоит запомнить. Запускали с TGI и GPTQ.
Детали запуска и исходный когд можно найти в самой статье.
Вот три оптимальные конфигурации под разные задачи:
- cost-effective: 13B Llama 2 with GPTQ on g5.2xlarge delivers 71 tokens/sec at an hourly cost of $1.55
- max throughput: 13B Llama 2 reached 296 tokens/sec on ml.g5.12xlarge at $2.21 per 1M tokens.
- min latency: 7B Llama 2 achieved 16ms per token on ml.g5.12xlarge
Жалко, что там Llama2 70B не особо засветилась.
Ваш, @llm_under_hood 🤗
Больше конкуренции для OpenAI ChatGPT!
Amazon вкладывает до 4 миллиардов долларов в Anthropic. Anthropic - это авторы единственного реально работающего (по бенчмаркам) конкурента для chatGPT - Claude.
Amazon им подгонят денег, чипов (Trainium and Inferentia) и помогут с разворачиванием на Amazon Bedrock.
Все как с Azure + OpenAI. Объявление тут.
Ваш, @llm_under_hood 🤗
Вышел бенчмарк LLM на русскоязычных задачах от @alexkuk!
Если кратко, то Saiga2_70B - это лучшее из протестированного. Vicuna_13b неожиданно хороша, а gigachat хуже сайги 7B.
Ознакомиться с бенчмарком можно на github.
Ваш, @llm_under_hood 🤗
Я собрал посты с вопросами от клиентов в новую рубрику: #клиентспросил
Прошлые посты теперь тоже можно найти по этому тэгу.
Ваш, @llm_under_hood 🤗
Быстро прокачать человека до data-scientist-а
Такой эксперимент я начал в одной из компаний. Новый сотрудник не работал c питоном, данными и data-science экосистемой вообще. DS/ML команде хочется его быстро прокачать, чтобы он мог помогать им на крупном проекте.
Пару лет назад его бы отправили грызть учебники и курсы на Coursera. Но теперь времена поменялись, появился ChatGPT. Можно схитрить и сэкономить кучу времени.
Поэтому попробуем сделать из него опытного пользователя AI в Data Science задачах. DS/ML команда потом оценит его результативность.
Пример самой первой каты (практического задания для самостоятельного изучения) - в комментах.
Ваш, @llm_under_hood 🤗
Выдайте ChatGPT задачу и тесты для проверки. И пусть он сам возится с правками, запуском и тестированием до победного.
Это мой любимый productivity hack при работе с Python. Запускается пока только в Advanced Data Analytics режиме, но выглядит прямо магически.
Работает еще лучше, если в контекст протащить необходимую терминологию и помочь ChatGPT выразить ее в коде.
Ваш, @llm_under_hood 🤗
🏆 ChatGPT Challenge! 🏆
Нарисуйте рисунок шестерни наутилуса, используя только ChatGPT.
Код писать и исполнять самому нельзя. Можно только писать текстом в промпт.
Рисунки с результатами постим в комменты. Автору лучшего рисунка нужно будет рассказать, как он убедил ленивого ChatGPT сделать это! 😊
На картинке изображена правильная форма шестеренок. Но достаточно нарисовать только одну шестерню.
Самое главное: форма должна быть механически корректной. Если распечатать на 3D-принтере пару шестеренок, они должны крутиться.
Ваш, @llm_under_hood 🤗
Хотите потестить классную мультимодальную модель? 🎨
Чтобы она могла читать картинки, разбирать графики, а то и таблицы?
Adept.ai выложили Fuyu-8B (HuggingFace ссылка) с лицензией CC BY-NC ⚠️. Открытая, можно играться, но в коммерческих целях нельзя.
Начало неплохое. Будем ждать, пока кто-нибудь не повысит ставки и не зарелизит полностью открытую модель.
Ваш, @llm_under_hood 🤗
Хочется знать, как файн-тюнить модели? Причем не только под новые задачи, но и на новые языки?
В группе Языки разные-код один, собрались эксперты, которые обучают и тюнят модели на практике. Они занимаются этим для спасения языков, активно делятся своими результатами и наработками.
Самая хардкорная ML часть наших проектов тоже обсуждается там 😊
На скриншоте пример одного из последних практически полезных постов в чатике.
Ваш, @llm_under_hood 🤗
#клиентспросил Зачем нужно распознавание картинок в ChatGPT?
Картинка лучше тысячи слов.
Вот один из примеров. Даем html layout и просим его поправить "чтобы было, как на картинке".
А можно даже не давать скриншот, а просто набросок от руки. ChatGPT разберется и так.
Ваш, @llm_under_hood 🤗
Хотите модель размера 7B, которая уделывает Llama2 chat 70B?
Ребята из Hugging Face работают над такой на базе Mistral 7B.
Похоже, что LLama 2 с такими темпами скоро выйдет из моды. Mistral 7B уделывает Llama 2 7B, 13B, а 70B достаточно ресурсоемка.
Post: LinkedIn
Демка: HuggingFace
Ваш, @llm_under_hood 🤗
Спасибо Айгизу за ссылку.
LLM Product Benchmark - October edition.
Mistral 7B instruct "рвет на тряпки" тяжеловесные модели в продуктовых задачах.
В плюс им не только классные результаты, но и лицензия Apache, которая будет посвободнее, чем лицензия Llama 2.
Даешь больше таких классных моделей!
В этом бенчмарке еще добавилось 49 новых evals из проектов. Оценки способностей моделей на продуктовых задачах стали поточнее.
Ваш, @llm_under_hood 🤗
PS: Со временем улучшаются guidance, промпты и few-shots во всех тестах. Это позволяет выжать еще больше качества из существующих моделей.
Как так получается, что создатели продуктов и пользователи никак не могут найти друг друга?
Создатели собрались где-то здесь, на острове инструментов и решений. А пользователи - потерялись вдали в темноте собственных проблем, что находится за разломом перспектив. У них уже даже язык какой-то другой стал…
Не мог не поделиться метафорой, которую нашел в процессе подговки к воркшопу по продуктовой разработке :)
Ваш, @llm_under_hood 🤗
Кому Claude c тюнингом? 😁
Anthropic Claude доступен на AWS Bedrock без всяких долгих ожиданий.
1. Выбираем Bedrock
2. Переходим в регион N.Virginia (больше моделей и поближе)
3. Запрашиваем доступ, ждем пару минут
4. Модель доступна
Теперь это серьезно, т.к. есть цены за 1000 input/output tokens:
- Claude Instant: $0.00163/$0.00551
- Claude: $0.01102/$0.03268
А еще есть цены за provisioned throughput, как базовых так и тюненых моделей:
- За 1 час Сlaude Instant c подпиской на 1 месяц - ~$40, c подпиской на 6 месяцев - $22
- За час Claude - $63/$35
Причем эта стоимость не зависит - используется базовая модель или файн-тюн!
Можно даже попытаться прикинуть размер модели, зная стоимость EC в AWS
Ваш, @llm_under_hood 🤗
Бесплатный Webinar - AI Coding Assistants: Как программисту эффективно использовать AI
Недавно SPAR попросил меня показать, как эффективно использовать AI в разработке. А потом еще в одной компании попросили повторить для них.
И вот я решил упаковать это в вебинар и провести его в нашем community - сначала попробовать на небольшой когорте, а потом масштабировать на более широкий круг.
Прочитать подробнее и записаться в первую когорту (10 человек) можно в этой форме. Участие для этой когорты бесплатно.
Если вдруг запишется больше 10 желающих, то отбирать в первую когорту будет ChatGPT с заданием “кому этот вебинар принесет больше всего пользы?”
Краткое описание
Появление GPT/LLM для программиста сравнимо с получением в помощники личной команды full-stack разработчиков. Они, конечно, иногда тупят, но зато никогда не устают от написания тестов и не жалуются на просьбы “в последний раз поправить интерфейс”.
Как программисту спихнуть больше работы на AI?
В этом online-вебинаре мы обсудим паттерны программирования, которые удобно использовать с AI code assistants в повседневной работе. Ну и без практики никуда - попробуем уговорить AI сделать небольшой продукт.
Подробнее - в форме.
Ваш, @llm_under_hood 🤗
Прямо праздник 🎉 ChatGPT выкатывает мультимодальность!
C ChatGPT (который продукт, а не API) скоро можно будет не только поговорить, но и обсудить картинки. Эта фишка появится в мобильных приложениях Android/iOS в ближайшие недели.
Причем, если голосом нынче никого не удивишь, то вот нормальную работу с картинками клиенты ждут очень давно. Это та самая мультимодальность, которую обещали при выходе ChatGPT-4. Кажется, что это было в прошлой жизни, да?
Вот тут можно прочитать подробности: Объявление OpenAI.
Ваш, @llm_under_hood 🤗
5 неудобных вопросов при найме AI
#клиентспросил : "Ринат, сотрудники нашего партнера хотят работать с Legal AI продуктом конкурента. Что делать?"
Ответом стал список из 5 неудобных вопросов, которые они могут задать компании-поставщику при найме их AI.
1. Какие именно AI модели вы используете в своем продукте? Кто их поставщик, и какие лицензии у моделей?
Такие вещи в секрете поставщик держать не имеет права, т.к. у каждой модели есть свои ограничения и условия использования. Например семейство Llama 2 разрешено использовать только с английским языком. А ChatGPT 4 страдает от высокой нагрузки в пиковые часы.
2. Можете ли вы дать письменную гарантию, что мои данные не попадут к кому-то еще?
Например, если поставщик услуг - это Azure OpenAI, то все данные сохраняются в Azure на 30 дней (за исключением approved customers). Но, конечно, лучше всего, если в продукте можно использовать только локальные модели.
3. Вы используете data anonymisation? Можете ли вы дать гарантии, что процесс 100% надежен? Продемонстрируйте нам анонимизацию на наших данных.
Анонимизацию данных обещать легко. Но она может и пропускать некоторые нюансы, про которые поставщик может не знать. Лучше это проговорить и проверить самостоятельно заранее.
4. У вас есть AI-driven information retrieval? Давайте сделаем интерактивный тест вашей системы! Загрузим пачку документов на 1000 страниц и зададим двадцать вопросов. У 10 из них нет ответов, а у 10 есть ответы на конкретных страницах.
Пачку документов могут приготовить ваши сотрудники на основе своей ежедневной работы. Вопросы лучше них тоже никто не составит. Главное, не показывать документы и вопросы заранее.
5. Все делают ошибки. Даже OpenAI ChatGPT учится на них. Как можно в вашей системе пользователю оставить feedback, и как скоро система система учтет его? Покажите нам!
Вам работать с новым AI инструментом не один год. Это сотрудничество будет более плодотворным, если этот инструмент будет адаптироваться не только под текущую специфику, но и под все новое.
Эти вопросы будут неудобны в тех случаях, если поставщик AI-продукта продает обертку на LlamaIndex как “технологический прорыв”. Если же они продумали все и сделали качественный продукт, то ответить на эти вопросы будет только в радость.
Ваш, @llm_under_hood 🤗
Только что клиент прислал отзывы по новой версии продукта ассистент маркетолога в компании.
Если кратко, там интегрировали новую версию базы знаний, которую клиент заполнил сам.
Feedback звучит примерно так: все стало лучше, теперь мы не только можем про все наши продукты генерировать тексты, но и сами тексты хоть сейчас публикуй. Плотность информации выросла. Но нам еще бы хотелось писать не только про продукты, но и про отрасли и материалы. А еще интерактивно подкручивать базу знаний и объем фактов в итоговых текстах по мере генерации.
И это они пока не в курсе про возможность интеграции всего с LinkedIn Sales Navigator ;)
У кого есть успешные кейсы генерации маркетинговых текстов или проблемы с этим? Пишите в комментарии!
Ваш, @llm_under_hood 🤗
Каталог применений LLM в продуктах выложен на лабах: https://labs.abdullin.com/jobs-for-llm
Там есть problem/solution карточки кейсов, в реализации которых я уверен лично. Почти над всеми пришлось попотеть 😅
(Лабы доступны всем подписчикам бесплатной рассылки ML Under the Hood)
Ваш, @llm_under_hood 🤗
#клиентспросил