Интерпретируемость / прозрачность. Как модели работают на низком уровне? Как происходит обучение, может можно достать какое-нибудь скрытое знание, предсказать артефакты или глюки? // Interpretability / Transparency: How do these models work, mechanistically? Can we identify what concepts they’re using, or extract latent knowledge from the model, make inferences about the training procedure, or predict surprising future behavior?