Дети и роботы

— Девочка, как тебя зовут?

— Лита.

— Лита?

— Нет, Лита!

— Ах, Рита!

— Да, Лита…

Девочка не может произнести фонему р. Но она прекрасно знает, что р отличается от л, которое она произносит в имени «Рита» и других словах. Хотя, разумеется, не имеет никакого понятия о дифференциальном признаке плавность — прерывность, позволяющем нам различать р и л. И, что самое примечательное, стоит ребенку интуитивно постичь тот или иной признак, как он начинает использовать его сразу для нескольких звуков. Например, поняв, что баба отличается от папы (то есть противопоставление по глухости — звонкости), он начинает отличать и дам от там, зайку от сайки (ибо д и т, з и с также различаются признаком глухость — звонкость).

С помощью фонологии мы начинаем постигать, каким же образом наши дети овладевают азами языка. Этим азам кибернетики пытаются обучить и детище человеческого разума — ЭВМ. Мечта о разговоре человека с роботом насчитывает не одно столетие. Но только в нашем веке она стала на реальную почву…

Прежде всего, ученые решительно отказались от мысли обучать машину пословно, то есть вводить в ее электронную память эталоны звучания отдельных слов. Ведь слов в языке десятки и сотни тысяч. И пропорционально числу этих слов растут трудности, связанные с их распознаванием — легко научить отличать по звучанию два и пять, но не так-то просто различить два и льва или пядь и пять. Память ЭВМ предельно нагружается словами, а на выборку нужного слова из словаря отводится очень мало времени.

Может быть, научить машину распознавать не слова, а фонемы? Но мы-то различаем их по смыслу — бабу от папы, пять от пядь. Машина же смысла не понимает. Кроме того, произношение фонем во многом зависит от возраста, пола, происхождения, образования говорящего. Интуитивно мы делаем поправку на это, мы распознаем фонемы, произносимые с искажениями, так как сравниваем их с эталонами фонем, что хранятся в нашем мозгу. Но ведь электронный мозг машины не имеет подобного рода эталонов!

Наиболее эффективным оказалось решение использовать различительные признаки, ту дюжину языковых универсалий, о которых мы говорили. Плюс еще универсалии, связанные с особенностями произношения людей — речь быстрая, медленная, плавная, резкая и т. д.

Сначала, принимая звуковые волны, то есть человеческую речь, машина делит ее на различительные признаки. Затем она сравнивает их с эталоном целого слова, которое хранится в ее электронной памяти. Но не в виде полной записи слова, а в виде последовательности различительных признаков, кодирующих его.

У современных вычислительных машин есть два вида памяти: оперативная память, небольшого объема, но быстродействующая, и память долговременная, значительно превосходящая первую в объеме и столь же значительно отстающая в скорости. Быстрая оперативная память может быть использована для переработки звуков речи в различительные признаки, а память большого объема — для хранения всего словаря.

Сначала эта модель была предложена из чисто языковедческих соображений. Затем исследования, проведенные в нашей стране под руководством Л. А. Чистович, показали, что распознавание речи человеком также происходит по сходному принципу. Чтобы понимать человеческую речь, машина должна, оказывается, делать это «по-человечески»!

В настоящее время в нашей стране и за рубежом создано немало машин, распознающих человеческую речь. И с каждым годом они совершенствуются. Как пример приведем электронно-вычислительную систему «ТРЕШОЛД-500», созданную в Англии. Практическое применение нашло уже более полутысячи систем «ТРЕШОЛД». Она используется для контроля качества продукции на конвейерах, для управления станками, для сортировки товаров, для опознания личности, для проверки багажа в аэропортах, в системах программированного обучения, для обслуживания парализованных больных в больницах (выключить электроприбор, вызвать врача или медсестру и т. п.)…

Как же распознает речь эта система? Звуки, которые улавливает электронное «ухо» машины, разлагаются на составляющие элементы, преобразуются в двоичный код и поступают в память ЭВМ. Тут они группируются в пять семейств по тридцати двум фонетическим признакам (создатели «ТРЕШОЛДа» ограничились делением на согласные, гласные, короткие паузы, длинные паузы, взрывные звуки). Чтобы машина смогла определить еще и индивидуальные особенности голоса, слова произносятся многократно…

ЭВМ расчленяет длительность произношения слов на шестнадцать равных временных промежутков. Затем выявляет в каждом из них тридцать два фонетических признака. Слово преобразуется в числовой код по этим признакам. Наконец, после многократных повторов одного и того же слова машина выводит «усредненный код», то есть получает характеристики индивидуального голоса, понятные ее электронному мозгу.

Общая емкость словаря системы «ТРЕШОЛД» — до двухсот двадцати слов. Словарь записывается на магнитной ленте, которая хранится в библиотеке словарей системы. Естественно, что словарь составляется для каждого человека и фиксирует особенности голоса с их индивидуальным тембром, окраской и прочими особенностями. Причем машина различает слова, хранящиеся в ее памяти, независимо от того, в каком настроении мы их произнесем— со страхом, радостью, болью и т. д.

Фонемная «таблица Менделеева» | Звуки и знаки | У колыбели языка