Telegram-канал karim_iskakov - Karim Iskakov - канал: Adults only

Karim Iskakov - канал

18 July 2023 16:44

Локализация – это боль. Но GPT-4 поможет

Еще когда мы делали Avatarify, я понял, что локализация приложения на N языков – это супер боль в попе 💩. Мы пользовались сервисом, куда ты закидываешь свой .strings файл, и носители языка руками (и глазами) переводят его.

Процесс был ужасно медленным (ждешь перевода несколько дней), да еще и дорогим (платишь за каждую строчку и язык). Но самое главное – локализация блочила релизы, т.к. на каждый чих в интерфейсе надо было делать перевод.

Долгое время в моем боте @chatgpt_karfly_bot (юзайте его, это самый удобный способ взаимодействия с ChatGPT/GPT-4!) было только 2 языка: 🇬🇧 Английский и 🇷🇺 Русский. Но стало приходить много юзеров с самых разных стран, и появился запрос на локализацию.

Как устроена локализация в боте
Если упрощать (без потери общности), то есть strings.yml, в котором содержатся все ui-строчки для разных языков. Для каждого юзера мы знаем его язык, и в боте отображаем ему строчки для этого языка.

Файл вида (yaml):

hello_message:
en: |-
Hello, {username}! How can I <b>help</b> you today?
ru: |-
Привет, {username}! Как я могу вам <b>помочь</b>?
...

Задача – научиться переводить такие файлы на все языки автоматически с помощью GPT-4. За основу я взял ноутбук, написанный Егором и допилил его.

Работает так:
1. На вход подаешь список желаемых языков (в моем случае 14 штук) и strings.yml
2. Код находит строчки, для которых нет перевода
3. И переводит их с помощью правильного промптинга GPT-4
4. Переведенные строчки дампятся обратно в strings.yml
5. Заходишь в merge editor в VS Code, проверяешь все глазами
6. git add/commit/push

Изначально в strings.yml было около 1 700 строк (английский и русский языки). После добавления еще 12 языков стало 10 000 строк! Если бы я руками это все переводил через DeepL, то процесс занял бы около 17 часов (и минус психика 😵‍💫).

*В комментах поделитесь, как вы решаете эту проблему у себя. Мне интересно узнать, какие сервисы, библиотеки и подходы вы используете для локализации!

🎒 @karim_iskakov