Как понять кота и собаку: нейросети переводят «разговоры» животных на человеческий язык
И с чего начались попытки выяснить, что на самом деле думают питомцы.
Исследователи надеются, что искусственный интеллект поможет людям понимать животных: сможет анализировать записи с лаем и мяуканьем, выявлять закономерности и приписывать звукам смысловые значения, близкие к «человеческим» словам.
Рассказываем, как учёные учатся понимать животных, какие стартапы разрабатывают переводчики с собачьего и кошачьего «языков» и выучат ли нейросети «диалекты» грызунов.
Первые исследования
Сбором и изучением звуков животных занимаются специалисты по биоакустике. В 20-м веке учёные записывали звуки животных, анализировали их на слух — и заметили, что некоторые виды «общаются» друг с другом.
- Американский врач-невролог и исследователь дельфинов Джон К. Лилли наблюдал за афалинами и обнаружил, что те «разговаривают друг с другом с помощью свиста и щелчков». В 1961 году он опубликовал научную работу, в которой описал эксперимент.
- Приматологи Дороти Чейни и Роберт Сейфарт из Пенсильванского университета в 1977 году проводили полевые наблюдения за обезьянами-верветками и выяснили, что приматы издают звуковые сигналы, которые заставляют их лезть на дерево, смотреть вниз или наверх. Учёные предположили, что сигналы означают «леопард» (от хищника можно спастись на дереве), «змея» (обычно змеи находятся внизу, поэтому нужно посмотреть вниз) или «орёл» (птица летает — чтобы защититься, нужно посмотреть наверх).
Развитие технологий позволило учёным анализировать звуки не на слух, а с помощью программ — автоматизировано и в большом количестве. Например:
- В 2016 году исследователи из Карадагского природного заповедника записали и оцифровали «разговор» двух дельфинов. На основе спектров, которые удалось получить в программах PowerGraph 3.3.8 и Adobe Audition 3.0, учёные выяснили, что дельфины не перебивают друг друга: когда один «говорит», другой слушает и «молчит». Это напоминает разговор людей. В «речи» дельфинов учёные обнаружили «отдельные слова» — звуки, из которых они составляют предложения.
В 2021 году нейробиолог Элисон Баркер вместе с коллегами записала и проанализировала около 36 тысяч вокализаций голых землекопов: свист, пение, щебет, хрюканье, икоту и шипение. С помощью алгоритмов команда обнаружила, что у каждого зверька есть уникальный голос, а у колоний — особый «диалект», который теряется при социальных катаклизмах — например, при свержении королевы колонии. Различия в «языке» помогают грызунам определять, где землекоп из родной стаи, а где чужак. Кроме того, встречаясь в тёмном тоннеле, грызуны «здороваются» — оба землекопа издают «тихое чириканье».
Профессор Карен Баккер считает, что нейросети и другие инновационные технологии в будущем помогут человечеству изобрести «зоологическую версию Google Translate».
Первые переводчики
Первое устройство для «перевода» с животного на человеческий появилось даже раньше исследований, основанных на анализе оцифрованных «разговоров».
В 2002 году японская компания Takara выпустила BowLingual — «переводчик» собачьего лая. Устройство записывало гавканье и относило его к одной из шести эмоциональных категорий: радость, разочарование, угроза, грусть, требование и самовыражение. В зависимости от категории на экране ретранслятора появлялся перевод.
Зоопсихолог и ветеринар София Инь испытала прибор на одних и тех же фрагментах с лаем, чтобы проверить, будет ли Bowlingual давать одинаковые ответы. Каждый раз «эмоции» собаки и перевод были разными, поэтому зоопсихолог назвала BowLingual лишь «интересной игрушкой», а переводы — «не заслуживающими доверия».
Пользователи тоже тестировали Bowlingual на питомцах. Например, авторы канала Good Mythical More заключили, что Bowlingual — это дорогая забава, а не настоящий переводчик с «собачьего языка».
Программ, которые бы точно перевели писк мыши, лай собаки или мяуканье кота, пока нет. Отзывы на существующие приложения (Meow Talk, «Кошачий переводчик — команды», «Переводчик: игра для собак», «Переводчик для кошек и котов», «Переводчик на кошачий») скептические. Например, Meow Talk переводит одни и те же звуки по-разному.
Нейросетевые проекты
В 2025 году существует несколько стартапов, которые занимаются разработкой нейропереводчиков с «языков» животных.
Earth Species Project
Учёные проекта Earth Species Project работают над NatureLM-audio — нейросетью, которая обучается на данных о звуках разных видов животных. В стартапе считают, что создание универсального переводчика — дело времени.
В проекте используют в том числе исследование специалиста в области машинного обучения Томаша Миколова и его коллег из Google. В 2016 году команда разработала нейросетевую модель, которая выявляет закономерности в человеческой речи. Например, слово «лёд» в разных языках часто ассоциируется с «холодным» и редко — с «креслом». На основе этих данных нейросеть делает вывод о смысловой близости «льда» и «холода» и отсутствии связи между «льдом» и «креслом».
Кроме того, учёные научили нейросети применять математические операции к словам. Так, если из слова «король» «вычесть» «мужчину» и «прибавить» к нему «женщину», получится «королева». В результате ИИ научился создавать «галактики» слов — карты, которые можно накладывать друг на друга и искать взаимосвязи в разных языках.
Project CETI
Организация Project CETI разрабатывает систему для расшифровки языка кашалотов. Учёные отслеживают морских млекопитающих, записывают их звуки и движения, а затем загружают данные в нейросеть CETI, чтобы та научилась понимать их «язык». Учёные надеются не просто распознать, о чём «говорят» кашалоты, но и «трансформировать человеческое понимание» об океане.
Zoolingua
Цель проекта Zoolingua — создать «переводчик» с собачьего на человеческий, а затем расширить проект до перевода с «языка» кошек, лошадей и других животных. В основе исследования лежит работа доктора Кона Слободчикова, который 30 лет изучал поведение луговых собачек (вид грызунов) и выяснил, что у них «сложная система коммуникации». В ней есть «слова» (например, для обозначения койота или другой опасности) и тональность (в зависимости от приближения койота, тональность «слова» будет меняться).
Baidu
Китайская корпорация Baidu разрабатывает технологию перевода с животного на человеческий. Компания запатентовала нейросеть, которая будет анализировать звуки, поведение и мимику животных. Когда и где представят модель, пока не известно.