Всеки човек има свой глас, който е различен от този на останалите. Затова изглежда интуитивно, че ще можем да разпознаем някого по гласа му доста лесно. Но колко добре можете да го направите в действителност? Когато става въпрос за разпознаване на най-близките ви роднини и приятели, вероятно сте доста добри. Но дали бихте могли да разпознаете гласа на първия си учител в началното училище, ако го чуете отново днес? Какво ще кажете за човека във влака тази сутрин, който крещеше по телефона си? Какво ще стане, ако трябва да го разпознаете не по гласа му, а по образци от неговите смях или песен?
От Neurosciencenews решават да разберат това.
„Алекса, кой съм аз?“ Гласовият виртуален асистент Alexa на Amazon Echo все още няма отговор на този въпрос. За други приложения на речевите технологии обаче компютърните алгоритми са все по-способни да различават, разпознават и идентифицират лица от гласови записи. Разбира се, тези алгоритми далеч не са съвършени. Както се видя наскоро, когато журналист от BBC проникна в собствената си банкова сметка с гласово управление, използвайки гласа на своя брат близнак. Дали това е случай, в който
компютрите просто се провалят в нещо, което хората могат да правят перфектно?
Досега проучванията са изследвали само възприемането на идентичността на гласа, като са използвали ограничен набор от вокализации, например изречения, които са били прочетени на глас, или откъси от разговорна реч. Тези изследвания са установили, че всъщност можем да разпознаваме доста добре гласове от речта на познати хора. Но те също така показаха, че съществуват проблеми: свидетелствата на ухото са известни като ненадеждни и неточни.
Важно е да се има предвид, че тези изследвания не са обхванали голяма част от гъвкавостта на звуците, които можем да издаваме с гласа си. Това със сигурност оказва влияние върху начина, по който обработваме самоличността на човека зад гласа, който слушаме. Следователно в момента ни липсва много голямо и важно парче от пъзела.
Разпознаването на гласовете изисква съвместното функциониране на два обширни процеса: трябва да правим разлика между гласовете на различни хора (разграничаване на хората) и трябва да можем да приписваме една идентичност на всички различни звуци (говорене, смях, викове), които могат да идват от един и същ човек („разграничаване на хората“).
Гласов експеримент
Проучване, публикувано в Journal of Experimental Psychology: General, потвърждава, че възприемането на идентичността на гласа може да бъде изключително трудно. Възползвайки се от това колко променлив може да бъде гласът на един човек, учените представят на 46 слушатели смях и говор от петима души. Те са накарани да направят много проста преценка за двойките звуци: дали са издадени от един и същ човек, или от двама различни души?
Но когато молят слушатели да направят тази преценка въз основа на смесена двойка звуци, например директно да сравнят говорните звуци със смеха в двойката, те изобщо не можеха да различат говорещите – особено ако не познават оратора. Всички изпитват значителни затруднения с предизвикателството.
Подобни ефекти са отчетени в проучвания, които показват например, че е трудно да се разпознае двуезичен говорител на двата му езика. Изненадващото в тези констатации, е колко лошо може да бъде възприемането на гласа, след като слушателите са изложени на естествената вариация на звуците. Така че е интригуващо да се помисли, че макар всеки от нас да има уникален глас, все още не знаем колко полезна е тази уникалност.
Но защо сме еволюирали, за да имаме уникални гласове, ако дори не можем да ги разпознаем?
Това наистина е отворен въпрос засега. Всъщност не знаем дали сме еволюирали, за да имаме уникални гласове. Всички ние също имаме различни и до голяма степен уникални пръстови отпечатъци. Не може да се прецени дали това е еволюционно предимство. Получава се така, че въз основа на различията в анатомията,
всички ние звучим различно един за друг.
За щастие компютърните алгоритми все още са в състояние да се възползват максимално от индивидуалността на човешкия глас. Вероятно в някои случаи те вече са надминали хората и ще продължат да се усъвършенстват. Начинът, по който тези алгоритми за машинно обучение разпознават говорещите се основава на математически решения за създаване на „гласови отпечатъци“. Това са уникални престави, улавящи специфичните акустични характеристики на всеки отделен глас. За разлика от компютрите,
хората може да не знаят какво слушат и как да отделят тези акустични характеристики.
Така че начинът, по който се създават гласовите отпечатъци за алгоритмите, не е точно моделиран според това, което изглежда, че правят човешките слушатели – все още работим върху това. В дългосрочен план, ще бъде интересно да се види дали има някакво припокриване в начина, по който човешките слушатели и алгоритмите за машинно обучение разпознават гласовете. Макар че е малко вероятно човешките слушатели да извлекат някакви прозрения от начина, по който компютрите решават този проблем, напротив, може да успеем да създадем машини, които да имитират ефективни аспекти на човешкото изпълнение.