Голосовой ввод данных на производстве при помощи AI
Говорите, как привыкли: ИИ адаптируется под производственный сленг. Разбираем кейс.
Ключевые этапы проекта, особенности работы с ИИ и практические решения.
Проблема
Сотрудники предприятия вручную фиксируют результаты работы в мобильном приложении: вводят много параметров, выбирая значения из длинных списков. Это неудобно и отнимает время от основной работы.
Решение
Мы в компании Nemind реализовали голосовой ввод: сотрудник просто произносит информацию, а система автоматически заполняет поля в приложении. Остаётся только подтвердить корректность — как в голосовом навигаторе.
Пример работы
Мастер-приёмщик говорит:
Две с половиной тонны гофры, влажность 2 процента.
Результат в системе:
- Вес: 2500
- Номенклатура: МС 5Б/2
- Влажность %: 2
Ключевые сложности
Главная задача — не просто преобразовать речь в текст, а извлечь структурированные данные. Проблемы, с которыми мы столкнулись:
- Типизация полей
▫ Параметры могут быть числовыми или выбираться из списка
▫ В голосовом сообщении может быть несколько цифр - их необходимо расставить по разным полям исходя из смысла сказанного - Производственный сленг
▫ Сотрудники используют неформальные термины: "гофра" вместо "МС5 Б/2", "пятёрка" и т. д.
▫ Важно сохранить привычную лексику, не заставляя людей переучиваться.
Инструменты
Для реализации мы использовали API Яндекса:
- SpeechKit — преобразование голоса в текст
- YandexGPT — извлечение структурированных данных
Сложности интеграции
Настройка авторизации в Yandex Cloud оказалась нетривиальной:
- Для SpeechKit нужен API-ключ
- Для YandexGPT — FOLDER_ID и OAUTH_TOKEN
- Требуется правильно назначить роли доступа
✨ Лайфхак: при работе с Yandex Cloud лучше сразу обратиться в техподдержку — они оперативно помогают по email, телефону и даже в Telegram.
Преобразование звука в текст
- Форматы аудио: Яндекс поддерживает OGG и MP3, но на iOS запись в них проблематична. Решили конвертацией через ffmpeg на сервере.
- Скорость обработки: 10 секунд аудио преобразуются в текст менее чем за 2 секунды.
Структура данных и синонимы в таблице
Чтобы система понимала сленг и синонимы, мы:
- Создали таблицу параметров и синонимов (пример ниже).
- Настроили промпт для ИИ, чтобы он возвращал данные в структурированном виде.
- В реальной ситуации таблица на порядок больше, что не помешало ИИ правильно распознать все позиции
- Используя такую таблицу, заказчик самостоятельно обновляет номенклатуру, не прибегая каждый раз к услугам промпт-инженера
Подключение ИИ и результат
ИИ возвращает данные в стандартном для разработчиков JSON формате, пример:
Вывод
Голосовое заполнение данных на производстве и в офисе - это удобно и имеет огромные перспективы. С учётом особенностей различных сфер бизнеса - такие проекты требуют тонкой настройки, выявления всех необходимых параметров, а также работе со сленгом. Ориентировочное время на создание подобного решения: от нескольких недель до месяцев.