Голосовой ввод данных на производстве при помощи AI

Говорите, как привыкли: ИИ адаптируется под производственный сленг. Разбираем кейс.

Ключевые этапы проекта, особенности работы с ИИ и практические решения.

Голосовой ввод данных на производстве при помощи AI

Проблема

Сотрудники предприятия вручную фиксируют результаты работы в мобильном приложении: вводят много параметров, выбирая значения из длинных списков. Это неудобно и отнимает время от основной работы.

Решение

Мы в компании Nemind реализовали голосовой ввод: сотрудник просто произносит информацию, а система автоматически заполняет поля в приложении. Остаётся только подтвердить корректность — как в голосовом навигаторе.

Пример работы

Мастер-приёмщик говорит:
Две с половиной тонны гофры, влажность 2 процента.

Результат в системе:

  • Вес: 2500
  • Номенклатура: МС 5Б/2
  • Влажность %: 2
Приложение для отладки проекта: звук преобразуется в текст, далее в типизированные данные и внизу в структуру json.
Приложение для отладки проекта: звук преобразуется в текст, далее в типизированные данные и внизу в структуру json.

Ключевые сложности

Главная задача — не просто преобразовать речь в текст, а извлечь структурированные данные. Проблемы, с которыми мы столкнулись:

  1. Типизация полей
    ▫ Параметры могут быть числовыми или выбираться из списка
    ▫ В голосовом сообщении может быть несколько цифр - их необходимо расставить по разным полям исходя из смысла сказанного
  2. Производственный сленг
    ▫ Сотрудники используют неформальные термины: "гофра" вместо "МС5 Б/2", "пятёрка" и т. д.
    ▫ Важно сохранить привычную лексику, не заставляя людей переучиваться.

Инструменты

Для реализации мы использовали API Яндекса:

  • SpeechKit — преобразование голоса в текст
  • YandexGPT — извлечение структурированных данных
Разобраться с API Яндекса непросто - идём в AI Studio
Разобраться с API Яндекса непросто - идём в AI Studio

Сложности интеграции

Настройка авторизации в Yandex Cloud оказалась нетривиальной:

  • Для SpeechKit нужен API-ключ
  • Для YandexGPT — FOLDER_ID и OAUTH_TOKEN
  • Требуется правильно назначить роли доступа
Мы используем такие роли в Яндекс клауд
Мы используем такие роли в Яндекс клауд

Лайфхак: при работе с Yandex Cloud лучше сразу обратиться в техподдержку — они оперативно помогают по email, телефону и даже в Telegram.

Преобразование звука в текст

  • Форматы аудио: Яндекс поддерживает OGG и MP3, но на iOS запись в них проблематична. Решили конвертацией через ffmpeg на сервере.
  • Скорость обработки: 10 секунд аудио преобразуются в текст менее чем за 2 секунды.

Структура данных и синонимы в таблице

Чтобы система понимала сленг и синонимы, мы:

  1. Создали таблицу параметров и синонимов (пример ниже).
  2. Настроили промпт для ИИ, чтобы он возвращал данные в структурированном виде.
Таблица параметров, значений и синонимов для AI
Таблица параметров, значений и синонимов для AI
  • В реальной ситуации таблица на порядок больше, что не помешало ИИ правильно распознать все позиции
  • Используя такую таблицу, заказчик самостоятельно обновляет номенклатуру, не прибегая каждый раз к услугам промпт-инженера

Подключение ИИ и результат

ИИ возвращает данные в стандартном для разработчиков JSON формате, пример:

JSON из голосовой команды
JSON из голосовой команды

Вывод

Голосовое заполнение данных на производстве и в офисе - это удобно и имеет огромные перспективы. С учётом особенностей различных сфер бизнеса - такие проекты требуют тонкой настройки, выявления всех необходимых параметров, а также работе со сленгом. Ориентировочное время на создание подобного решения: от нескольких недель до месяцев.

Начать дискуссию