Дело не в централизованности, а в том, что они, как бы помягче выразиться...массовые.
Вот да. В одноклассниках почти у всех реальные данные, но что-то я там ни одной адекватной дискуссии не видел.
Интересно, были ли в исходном датасете русские тексты (в gpt-2 вроде не было)
youtube-dl