Gemini обучена с нуля быть мультимодальной - способной распознавать речь, видео и изображения. Она без плагинов работает с любыми материалами: картинки, видео, аудио, текст. По поведению она вроде как похожа на человека, так как за основу взяли огромные базы с транскрипциями ютуб-роликов.