Основу системы составляют два метода классификации документов, обеспечивающие гибкость и надежность при работе с разнообразными данными. Первый метод — классификация по заголовкам. Он базируется на анализе текста, находящегося в заголовках документа. Например, в таких документах, как "Договор," "Акт," или "Доп. соглашение," заголовки содержат ключевую информацию. Система удаляет возможные ошибки OCR, например, случайные замены кириллических букв на латинские, и очищает текст от лишних символов. Далее идет стандартизация — даты и номера заменяются на обобщенные обозначения ("№ номер," "Дата"), чтобы не повлиять на процесс классификации. Благодаря этому система с высокой точностью определяет вид документа. Если заголовок не четко указывает тип, предусмотрена категория "Другое," что сохраняет надежность классификации.