Алгоритмы кластеризации K-means и Bisecting K-means принимают на вход число k, на которое впоследствии разбивает массив данных. Выбор того, каким числом задать количество кластеров, непростая задача, и существует несколько подходов, например: экспертное мнение, метод локтя, силуэт-скор. Мы выбрали метод силуэта, он даёт наглядную картину для принятия решения (на эту тему есть статья на Хабр). Суть метода: для каждой точки рассчитывается коэффициент силуэта, который представляет собой меру качества кластеризации. Коэффициент находится в диапазоне от -1 до 1, чем ближе показатель к 1, тем больше точки похожи на другие точки того же кластера и отличаются от точек других кластеров, и соответственно, тем более плотными и хорошо разделёнными оказываются формируемые кластеры. Выбирается количество кластеров, которое даёт наивысший средний коэффициент силуэта для всех точек данных.