Тысячи страниц вязью, щетина кабана и унисекс: как «Золотое Яблоко» готовилось к выходу на Ближний Восток

Рассказываем, как мы переводили на арабский 2 000 000 слов в режиме ASAP, учили сайт арабскому, а арабских парней — бьюти-русскому.

Тысячи страниц вязью, щетина кабана и унисекс: как «Золотое Яблоко» готовилось к выходу на Ближний Восток

Для выхода в страны Персидского залива команде предстояло в течение полугода перевести на английский и арабский больше 2 миллионов слов, научить систему искать на этих языках нужные продукты по запросам клиентов, а также сделать все это масштабируемым. Задачу решали штатные сотрудники «Золотого Яблока», подрядчики и искусственный интеллект. Некоторые участники «восточного приключения» буквально отжигали, переводя товарный брак как marriage (англ. «брак, замужество, свадьба»). Прям как когда-то Chevrolet c его моделью Chevy Nova, который не пошел в странах Латинской Америки, так как no va с испанского переводится как «не идет». Но шутки в сторону — расскажем, как выходили на Восток, преодолевали трудности перевода и разрабатывали с нуля арабский поиск.

Содержание статьи

Восточная экспансия

Осенью 2023 года появилась задача, которая до неузнаваемости изменила нашу жизнь, график командировок и отчасти даже команду, — предстояло запустить «Золотое Яблоко» на арабском и английском, чтобы начать активно осваивать рынок Ближнего Востока. Уже весной 2024 года в Катаре запустили сайт и приложение, а затем открыли первый ближневосточный магазин в городе Дохе. Параллельно кипела работа по выходу в ОАЭ: в декабре 2024 года интернет-магазин запустился в тестовом режиме с доставкой в 4 города, в январе 2025 года доставка покрыла всю страну, а спустя некоторое время в Дубае открылся магазин. В то же время «Золотое Яблоко» запустилось в Саудовской Аравии, где в один день открылся сайт, приложение и офлайн-суперстор в городе Джидде.

Каждый из этих этапов самобытен, но для всех требовалась общая база:

1. Интернет-магазин должен работать на арабском и английском языках, так как в каждой стране помимо носителей арабского живет много экспатов. В компании были ресурсы и опыт для переводов на английский, но совсем отсутствовала арабская лингвистическая экспертиза.

2. Поиск на сайте и в приложении должен понимать запросы клиентов и предлагать им релевантную выдачу. Предстояло не только перевести название продуктов, но и понять, как клиенты будут их искать. Мы догадывались, что столкнемся с новыми для СНГ поисковыми паттернами.

3. Мощности перевода должны быть легко масштабируемы, так как невозможно раз и навсегда перевести интернет-магазин: с момента выхода в Катар онлайн-ассортимент вырос в 3 раза, в ОАЭ — в 2 раза. Для понимания: в Катаре сейчас представлено более 30 тысяч товаров, а в Эмиратах — около 17 тысяч.

4. Предстояло учесть национальные особенности и в дизайне цифровой витрины. Ведь тексты на английском и русском пишутся слева направо, тогда как на арабском — справа налево (а арабские журналы листаются «с конца»).

Расскажем, как мы подошли к решению каждой из частей этого уравнения.

Пример расположения текста в карточке товара на сайте в ОАЭ (сверху) и в России (снизу)
Пример расположения текста в карточке товара на сайте в ОАЭ (сверху) и в России (снизу)

Перевод интернет-витрины: опенсорс, аутсорс или инхаус?

Перевод содержимого интернет-магазина на иностранный язык предполагает работу с сервисной частью сайта или приложения (разделы, кнопки, футер), а также перевод непосредственно карточек товаров.

Команда предложила использовать переводческий опенсорс-инструмент Weblate, который помогает распределять строки для перевода и подсвечивает повторы. Для этого сперва все наши тексты из интерфейса загрузили в этот инструмент, а затем массово выгружали из него строки, которые переводили с помощью подрядчиков, самостоятельно через нейросети и переводческие движки. Переведенные строки обратно закидывали в Weblate, а он «передавал» их на сайт и в приложение. При этом построчный перевод был неидеален: так как в Weblate был сухой текст, без контекста, иногда действительно не удавалось понять, какой вариант перевода лучше использовать. Поэтому после всех переводов была проделана большая работа — пришлось проверять сайт и приложение на тестовых средах. Этим занимались как сотрудники со знанием языков, так и привлеченные местные жители из Дохи, Дубая и Джидды (работники наших магазинов и подрядчики).

В команде «Золотого Яблока» уже были дипломированные переводчики с английского, но не с арабского. Для ускорения процесса решили привлечь бюро переводов на аутсорсинг. Фаворитом была одна крупная компания, но документооборот потребовал много времени. Остановились на небольшом агентстве, которому передали строки с информацией о товарах из PIM-системы (Product Information Management), но результат нас не устроил. Например, именно на этой стадии родился знаменитый marriage вместо товарного брака. Предполагаем, что переводчики получали только сам текст, не имея перед глазами всего интерфейса, и в потоке переводов действовали на автомате, не задумываясь о смысле. Перевод карточек также хромал — на качестве сказалось отсутствие экспертизы. Эти эксперименты заняли много времени, но переведено было лишь 10% от нужного объема. Решено было искать специалистов в штат и растить экспертизу внутри компании.

Время поджимало, а нам предстояло найти несколько грамотных «контент-менеджеров со знанием арабского, английского и русского языков». С точки зрения рекрутинга — «задача со звездочкой». Но нам удалось: благодаря российской образовательной системе на рынке есть специалисты, для которых арабский — родной, а английский и русский изучены на качественном уровне. В основном это оставшиеся в России студенты из арабских стран. Некоторые наши специалисты знают еще и французский, который тоже часто встречается в регионе MENA.

Забавный факт: так получилось, что в основном наши многоязычные переводчики с бьюти-русского на бьюти-арабский — парни. Поначалу в бьюти-теме, за исключением парфюма, они разбирались не так уж хорошо: к примеру, однажды слово «декор» было переведено как «предмет интерьера», но работа инхаус и ежедневное погружение в тему быстро прокачивают экспертизу.

Сейчас для ускорения процесса мы переводим карточки в два этапа:

1 этап — работает нейросеть;

2 этап — шлифуют люди: ни одна LLM-модель не работает с арабским языком идеально, поэтому после ИИ текст совершенствуют штатные переводчики — устраняют шероховатости и параллельно обучают нейросеть (загружают правила, стоп-слова).

За перевод карточек товаров во всех ближневосточных странах нашего присутствия отвечают 10 специалистов контент-отдела — 5 со знанием арабского и еще 5 со знанием английского. Описание товаров на русском языке сначала переводится на английский, а затем с английского на арабский. Это позволяет корректно передавать сложные термины. При этом не все карточки требуют перевода с русского: часть контента мы получаем в готовом виде от многочисленных поставщиков — в таком случае наши специалисты контролируют стилистику и грамматику.

Тонкости перевода: в поисках унисекса и пин-апа

Арабистам наши советы могут показаться наивными, но мы всё же хотим поделиться своим опытом по запуску бизнеса в странах Персидского залива.

  • На какой арабский переводить? В арабском много региональных диалектов, которые отличаются лексикой, произношением, грамматикой и структурой предложений. Мы знали, что после Катара последует открытие в ОАЭ, затем в Саудовской Аравии — неужели придется переводить все заново? В итоге остановились на фусха — общеарабском литературном языке, который используется в СМИ, на телевидении, в официальных документах и литературе всех этих стран.
  • А как быть с брендами? В России и других странах СНГ мы чаще всего пишем названия иностранных брендов на латинице. На азиатском рынке встречаются переводы — Coca-Cola стала Ke Kou Ke Le (в переводе с китайского — «счастье во рту»). В арабском мире принята транслитерация, то есть написание тех же букв, но вязью.
Как выглядит один и тот же список брендов на goldapple.ae в арабской и английской версиях 
Как выглядит один и тот же список брендов на goldapple.ae в арабской и английской версиях 
  • Существует ли унисекс? Да, но нет: мы организовали фокус-группы в Дохе, чтобы выяснить, как люди относятся к тем или иным формулировкам, интерфейсу, оформлению. В частности, выяснилось, что к слову «унисекс» отношение довольно настороженное, если не сказать негативное — в арабском такого нет, а англоязычная версия смущает покупателей. В итоге от слова «унисекс» вовсе отказались.
  • Есть ли запретные товары? Бывают законодательные запреты, а бывают этические — их выявить сложнее. Здесь мы многое почерпнули из работы с локальными фокус-группами: так из ассортимента выбыли расчески с щетиной кабана, парфюм с крестом на крышке и продукты с упаковкой в стиле пин-ап.

После запуска в Катаре у нас появилась качественная экспертиза в проведении глубинных исследований на международном уровне: разработали чек-листы, тест-кейсы. Подготовиться к запуску в ОАЭ и Саудовской Аравии было уже гораздо легче.

Как распределили работу над поиском

Перевод интерфейса интернет-магазина важно было завершить за 1–1,5 месяца до официального открытия. Еще нужно было успеть научить поисковые алгоритмы понимать запросы клиентов на арабском и английском языках.

Работу поделили на два стрима:

1. Команда «Золотого Яблока» отвечала за составление фидов — условно назовем их файлами, в которых собрана вся информация о товарах: описание, характеристики, артикул, цена, название и т. д.

Каждые несколько часов фиды подгружаются в поисковую систему. Для каждой витрины собирались два фида: один английский со всей информацией и атрибутами на английском, второй — арабский. Например, пользователь пишет «красная помада» — и алгоритм идет в наши фиды, находит нужный товар и показывает релевантную выдачу.

2. Непосредственно за поиск отвечал подрядчик — компания anyQuery. У нее уже был большой опыт на русскоязычных проектах, да и с английским не было проблем — этот язык давно считается базовым для всех технологий обработки данных. В поиск уже был встроен нормализатор для английского, так что оставалось добавить несколько словарей синонимов. Все остальные фичи, такие как мультиязычные автоподсказки и исправление опечаток, внедрялись в процессе работы над арабской частью.

Поработав до «Золотого Яблока» с арабским магазином одежды, anyQuery научилась нормализовать запросы, искать по атрибутам и категориям. Кроме того, обучила отдельную модель исправлять раскладки и частотные опечатки в арабском, а еще подбирать аналоги отсутствующих товаров по несложным запросам.

Работа anyQuery с алгоритмами поиска для «Золотого Яблока» на английском и арабском началась примерно за 4 месяца до открытия. Сначала базы данных для обучения алгоритма брали из открытых источников. Сложность была в том, что там не было профильной информации, поэтому для качественной проработки алгоритмов важно было получить от нас переводы, специфичные для бьюти-продукции. Мы начали выгружать фиды в поиск за 2 месяца до открытия. Всё бы хорошо, но сначала фидов было мало, так как перевод контента шел не так быстро, как хотелось бы. К тому же из-за технических ограничений товары в фиды попадали медленнее, чем переводились контентом, и первое время их приходилось выгружать практически вручную. Это осложняло работу, особенно на этапе тестирования. Но мы со всем справились.

Ключевые вызовы разработки поиска на арабском

Чтобы запустить поиск, требовались анализатор языка и исправление опечаток, ранжирование товаров и подбор лучших предложений, автоподсказки и база синонимов. Расскажем о некоторых интересных особенностях каждого процесса.

1. Нормализация запроса. В арабском и русском есть общие черты (окончания рода и множественного числа, отдельные предлоги), но есть и отличия:

  • В арабском есть артикль «аль», который является приставкой. Например, как в слове «алгебра», которое пришло из арабского и означает «восполнение», «воссоединение».
  • Предлоги из одной буквы на письме присоединяются к последующему слову, из-за чего на письме неотличимы от приставок.
  • Множественное число часто образуется при помощи изменения гласных в середине слова, что отражается на письме. Например, «мужчина» — это «рáджуль», а «мужчины» — «риджáль».
  • В арабских словах могут дополнительно ставиться диакритики (надстрочные, подстрочные или внутристрочные знаки) для каждой буквы, иногда даже по несколько диакритик для каждой. В фидах должны быть названия без диакритик, но если какой-то пользователь напишет запрос с диакритикой, его надо уметь обработать.

2. Стратегия ранжирования. Когда мы запускали поиск, пользовательских данных почти не было. Ни кликов, ни запросов — только предположения. AnyQuery разработала собственную стратегию ранжирования, которая работает даже при минимуме данных, понимает неполные запросы, справляется с опечатками, умеет подбирать товары по текстовому описанию.

3. Автоподсказки с нуля. Чтобы в строке поиска появлялись частотные подсказки (категории, бренды, популярные запросы), обычно используют данные трекинга. Но как их собрать, если сайт еще не живет? Мы пошли хитроумным путем: взяли частотные запросы с русского сайта, перевели их, объединили с фидами и сымитировали пользовательское поведение. Эти данные отправили в трекинг-сервис — так система «поверила», что на сайте уже есть аудитория, и начала формировать подсказки.

4. Мультиязычный поиск. Тестируя поиск вместе с носителями языка, команда «Золотого Яблока» обнаружила интересное: несмотря на то, что для английской и арабской версий сделаны свои поддомены, пользователи не выбирают нужный язык, а вводят запрос вне зависимости от языка витрины на том языке, на котором им удобно, — например, арабский запрос на англоязычной витрине и наоборот. Следовательно, поиск должен уметь подстроиться и переключить витрину на нужный язык. Для этого мы разработали простой алгоритм: «Золотое Яблоко» принимает запрос, а потом перенаправляет его в нужную языковую версию API. Результат — корректная выдача вне зависимости от языка витрины или раскладки клавиатуры.

5. Важность транслитераций. Первый вид транслитерации проявляется в написании иностранного бренда буквами своего алфавита, например, «самсунг». Вторая проявляется наоборот, когда мы свои слова пишем латинскими буквами, например, privet kak dela (типичная переписка транслитом). Для каждого вида транслитераций в поисковых запросах был написан отдельный алгоритм, который генерирует все возможные варианты написания слов на арабской вязи или латинице.

Во время тестов с фокус-группой мы заметили еще один интересный нюанс: сами арабоговорящие женщины не всегда применяют точный термин, определяющий продукт, на арабском. Вводят, например, «lipstick» арабской вязью или просто пишут транслитерацией. Для поиска это было бы тупиком, если бы мы не научили его понимать такие кейсы.

6. Поиск на смешанных языках. Запрос «тушь kiko» — пример того, что такое смешанные языки в одном запросе. А что делать, если в фидах все бренды переведены на родной язык и выглядят как «кико» и «лореаль», а запрос с латинским названием все равно приходит? Для этого были сделаны два поля с брендами: одно содержит название на английском, другое — на арабском. В поиске мы используем оба поля и ищем по брендам на любом языке.

7. Особенность синонимов. Синонимы — это лингвоспецифичное явление. Например, в русском «лось» и «сохатый». Но на английский это нельзя перевести однозначным образом (фанатам Гарри Поттера: prongs не подойдет). Например, подводку для глаз на арабский можно перевести 4 разными способами. Но как их собрать, если ты не носитель арабского языка? Мы попробовали всё, что только можно: загрузили готовые словари, попросили ChatGPT подобрать синонимы для всей товарной матрицы, использовали предобученные мультиязычные модели для поиска контекстных аналогов и начали обучать собственную модель, «кормя» ее арабскими текстами. Комбинация всех этих подходов дала отличный результат — система начала понимать, к примеру, что корректор = консилер, даже если написано вязью. База синонимов постоянно пополняется вручную нашими арабоговорящими коллегами.

Чтобы проверить работу поиска перед каждым новым запуском на Ближнем Востоке, мы вручную вводим более 1000 запросов на каждом языке. После запуска релевантность выдачи оценивается ежемесячно: берем топ-50 популярных запросов и проверяем, что видит пользователь. Находим ошибки — сразу исправляем. Эта регулярная чистка позволяет держать высокое качество выдачи. Наши внутренние метрики показывают, что есть колоссальный рост — и он идет не за счет компромиссов, а благодаря системной работе с терминами.

Оглядываясь назад, вспоминаем, как волосы встали дыбом от задачи локализовать еком на арабском. Но спустя полгода все получилось — и волосы уцелели (не считая щетины кабана). Скоро расскажем, как работали над другой локализацией. Не переключайтесь!

22
2
1
1
8 комментариев