Распознание речи человеком и соотношение между акустическими и артикуляционными признаками
Человеческий слух в состоянии различать очень малые частотные разницы между тонами с точностью, которая существенно превосходит разрешающую способность улитки [157]\ производящей сравнительно грубый частотный анализ (в радиотехнических терминах она может быть охарактеризована как прибор с добротностью порядка 10—30 [158]).
Ситуация, таким образом, аналогична тому, что наблюдается применительно к человеческому зрению, точность которого превосходит разрешающую способ-ность глаза. Это последнее обстоятельство отмечалось в последнее время И. М. Гельфандом и М. Л. Цетлиным, которые видят объяснение этого явления в том, что человек формирует определенную гипотезу, на основании каковой и принимается окончательное решение [159]. Это же объяснение, очевидно, справедливо и по отношению к человеческому слуху. Здесь имеют место два важных обстоятельства, открытых Л. А. Чистович. Во-первых, именно благодаря грубости частотного анализа звука оказывается возможным воспроизведение временной картины сигнала[160]. Иначе говоря, преодолевается или обходится дополнительность частотного и временного анализа сигнала, которая является существенным препятствием на пути к автоматическому анализу звуков речи. Идеальная форманта характеризуется только частотными характеристиками, тогда как идеальный шум характеризуется временными характеристиками. Поэтому гласные, характеризуемые формантами, могут быть описаны в терминах частот (т. е. по вертикальной характеристике спектра), тогда как шумные согласные могут быть описаны в терминах временного (горизонтального) изменения спектра [161]. Но для распознания многих звуков речи требуется одновременное знание частотных и временных характеристик сигнала, что осуществляется в ходе анализа звука слуховым аппаратом человека, который в этом смысле может считаться специализированным вводным устройством, хорошо приспособленным для ввода устной речи.
Во-вторых, экспериментальное исследование временных задержек при имитации звуков или при их быстром повторении [162] показало, что эти задержки в несколько раз меньше, чем временные задержки (порядка 100 мсек), которые требуются для фонемной классификации звуков. Иначе говоря, исследование временных задержек позволяет различить в работе слухового аппарата человека
два этапа, в основном соответствующие двум этапам работы описанного выше гипотетического устройства для автоматического анализа звуков речи. На первом этапе происходит принятие первичных решений на основании полученных акустических сигналов, на втором этапе на основании накопленной последовательности решений принимается окончательное решение. «Текущее перекодирование звукового сообщения в последовательность элементарных решений позволяет нервной системе сохранять и подвергать дальнейшей обработке (сличению с длинными эталонами) не слуховые изображения длинных элементов речи (слов и фраз), но лишь последовательности результатов решений (например, реакций), естественно не содержащие уже той лишней информации, которая присутствует в звуковой речи. Таким образом, за счет механизма предварительных решений может достигаться фильтрация, очищение сигнала от несущественных подробностей, и система, производящая окончательное распознавание, может обойтись меньшим объемом памяти» [163].
Нужно подчеркнуть, что в модели распознания речи человеком, построенной JI. А. Чистович, основным звеном является быстродействующая оперативная память малого объема, в которой накапливаются элементарные решения об анализируемых сигналах. Сходный подход к выбору одной из возможных лингвистических моделей на основании полученных экспериментальной психологией данных об объеме быстродействующей памяти человека был недавно предложен Ингве. Эти данные Ингве использует для выбора модели синтаксического описания, особенно важного для машинного перевода[164].
Вместе с тем предварительные результаты наблюдений над афазиями (расстройствами речи) свидетельствуют в пользу гипотезы, согласно которой некоторые случаи афазии связаны именно с нарушениями этой быстродействующей памяти[165].Наибольший интерес представляет исследование того, какой характер имеют первичные решения, накапливаемые в оперативной памяти по мере анализа акустических сигналов. Согласно теории фонологических различительных признаков, следовало бы ждать, что такие решения и относятся к различительным признакам. Известные уточнения могут быть внесены в это представление благодаря тем же работам Л. А. Чистович. В них предполагается, что первичными решениями являются артикуляционные инструкции, т. е. команды, по которым приводятся в движение органы речи, участвующие в произнесении соответствующего звука. Процесс выработки связей между акустическими сигналами и командами при обучении языку рисуется следующим образом: «Предполагается, что вначале связи между слуховыми изображениями звуков и командами, управляющими речевым аппаратом (его параметрами), являются случайными. Затем методом проб и ошибок из этих случайных связей закрепляются те, при которых звук, создаваемый при имитации, наименьшим образом отличается от исходного. Различие между звуками измеряется схемой слухового сравнения, запоминающей исходный звук на короткое время и сравнивающей его с имитирующим звуком. Теперь каждый из слышимых звуков речи закономерно вызывает некоторую комбинацию команд, управляющих различными элементами речевого аппарата (язык, губы и так далее). Возникновение этих команд в ответ на звук и соответствует тому, что было обозначено как первичная классификация. Превращение звука в комбинацию команд допускает дальнейшую фонемную классификацию сигналов уже не по акустическим, а по артикуляционным признакам. Так, если некоторая і-тая команда всегда возникает в ответ на определенную группу звуков и никогда не вызывается остальными звуками, то эта группа звуков может быть объединена в один класс, обозначена одним символом, даже если звуки ничем общим, кроме і-той команды, не характеризуются»[166].
Эта концепция, согласно которой фонема рассматривается как инструкция, может рассматриваться как подтверждение мыслей Бодуэна о фонеме как намерении и о выделении в фонеме кинем (артикуляционных признаков) и акусм (акустических признаков). Достоинством изложенных идей J1. А. Чистович является прежде всего то, что в них должное место отводится артикуляционным признакам, которые для человека (в отличие от приборов типа спектрографов) всегда играют основную роль. Поэтому то обстоятельство, что традиционная фонетика, интересовавшаяся исключительно человеком, ориентировалась на артикуляционную классификацию звуков, было вполне естественным. Позднейшее увлечение возможностями современной электроакустической аппаратуры несколько отодвинуло назад проблемы физиологической классификации звуков; не случайно в теории различительных признаков столь подробно разработаны именно акустические (спектральные) характеристики. Но недостаточное внимание к артикуляционной стороне процесса образования звуков речи отрицательно сказывалось и на проблеме автоматического распознавания[167]. Исследование соотношения между акустическими и артикуляционными признаками может помочь и в решении чисто инженерных проблем, ибо, как указывает Л. А. Чистович, «единственным требованием, предъявляемым к слуховой системе, является получение ею максимума информации о звуке и установление тождества или различия между следующими друг за другом сигналами. Описание звука речи в терминах артикуляционных признаков достигается такой схемой автоматически, при условии, если наилучшая имитация (наименьшее расхождение между имитируемым и имитирующим звуками) может быть обеспечена одним определенным способом произношения. Нужно заметить, что используемый в данной схеме метод анализа сигнала в терминах параметра устройства, создающего сигнал наиболее близкий к анализируемому, фактически совпадает с принципом работы самонастраивающихся фильтров. Возможно, что этот же принцип мог бы быть использован при разработке устройств для автоматического распознавания речи»[168].
Такой подход к распознаванию звуков речи, который позволил бы осуществить здесь кибернетическую идею обратной связи между слуховым и речевым аппаратом45, хорошо соответствует высказывавшейся в литературе по машинному переводу и прикладной лингвистике мысли о том, что анализ речи можно рассматривать как процесс, обратный синтезу[169].Многочисленные экспериментальные данные подтверждают положение о том, что артикуляционная классификация звуков используется при их распознавании. Об этом свидетельствует опыт преподавания родного и иностранного языка, специально проводившиеся эксперименты, показавшие, что затруднение артикуляционных движений ухудшает фонемную классификацию (и обратно: быстрое повторение или имитация звуков способствует принятию решений о них), а также эксперименты, во время которых частично устранялись обратные связи между различными элементами слухового и речевого аппарата[170]. Такой же вывод можно сделать и на основании экспериментов по восприятию синтезированной речи в лабораториях Хаскинс, доказавших отсутствие однооднозначных соответствий между артикуляционными и акустическими признаками звуков речи. Опираясь на эксперименты, сотрудники этих лабораторий полагают, что восприятие звуков осуществляется через посредство артикуляции[171].
Особенно показательными для исследования роли артикуляционных признаков являются клинические случаи моторной афазии. При афазии расстройство фонологической системы обычно проявляется в нарушении различительных признаков50, например звонкости — глухости (замены типа з—с, д—т, д'—т'), непрерывности — прерывности (замены типа л—р, л'—р', с—т), компактности — некомпактности (замены типа ш—с), палатализованное™ — непалатализованности (замены типа р—р'), назальности — неназальности (замены типа я'—д\ м—п). Для такого описания случаев моторной афазии, которое исходит из гипотезы о преимущественном смешении фонем, отличающихся только одним признаком, более удобной может оказаться классификация некоторых фонем гіа основании чисто артикуляторных признаков, чем классификация по 12 стандартным признакам Якобсона, Фанта и Халле.
Так, смешение к—т (в форме живут) с артикуляционной точки зрения могло бы расматри- ваться как сдвиг на один шаг (заднеязычный к вместо переднеязычного г), тогда как в терминах 12 признаков здесь нужно было бы предполагать нарушение противопоставления по двум различительным признакам (компактный и низкий). Описание русской речи моторных афазиков оказывается более удобным, если исходить из понимания р как фонемы, тесно связанной с другими переднеязычными (ср. замены типа р — я, р — д, р — с, р — з), и из сходного понимания л (ср. замены типа л — я, л — д, л — с, л — з). Следует, однако, иметь в виду, что если для описания расстройств синтеза и связанных с ними расстройств анализа (слуха) при моторной афазии имеют значение артикуляционные признаки, то для описания сенсорной афазии, возможно, более важны чисто акустические признаки. Но во всяком случае исследование афазий, как и опыты по восприятию синтезированной речи нормальными людьми, ясно показывают, что между артикуляционными и акустическими признаками существуют достаточно сложные соответствия, не позволяющие безоговорочно принять гипотезу об их эквивалентности. Множество60 См. В. В.Иванов, Некоторые лингвистические проблемы, связанные с изучением афазии, «Тезисы докладов третьей научной сессии по вопросам дефектологии», М., 1960, стр. 8; автор с удовлетворением отмечает наличие сходного наблюдения в высказываниях У. Вейнрейха на симпозиуме по афазии: Approaches to the study of aphasia, June 15 to July 30, 1958, ed. by С. E. Osgood, p. 24 (разд. 2. 5. 1) и p. 5 (разд. 4. 1. 1).
акустических сигналов по правилам, установленным слуховой системой, отображается на множество артикуляционных команд, но при этом нельзя предполагать, что между сигналами и командами существует одно-однознач- ное соответствие.
Таким образом, распознавание речи (как и почти все другие операции над языком человека или автомата) можно рассматривать как расшифровку; по данной последовательности акустических сигналов человек (или распознающее устройство) должен восстановить те команды, согласно которым эти сигналы могут быть получены. Цепочка акустических сигналов, очевидно, не содержит такой информации, которая определяла бы последовательно одну фонему за другой. В этом смысле интуитивное предположение о необходимости сегментации непрерывного потока звуков на отдельные фонемы (исходящее из психологической реальности фонем и букв) может и не быть верным. С одной стороны, в данном сигнале (или в данной группе сигналов) содержатся сведения о предшествующих и последующих звуковых единицах: так, в сигналах, по времени произнесения соответствующих гласным (в соответствующей транскрипции), часто содержится необходимая информация о последующем согласном. Иначе говоря, один сигнал (или группа сигналов) может соответствовать не одной фонеме, а нескольким следующим друг за другом фонемам[172]. С другой стороны, как показывает Л. А. Чистович, в отдельных частях спектра одного звука могут быть выделены участки, соответствующие элементарным акустическим признакам[173] (например, глухости— звонкости и т. п.). Таким образом, при принятии первичных решений (т. е. при выработке артикуляционных команд, соотносимых с анализируемыми акустическими признаками) на основании одного сигнала может приниматься решение либо о группе звуков (фонем), либо об отдельном различительном признаке. Отдельные фонемы на этом этапе распознавания звуковой речи, очевидно, не играют роли и в этом отношении теория различительных признаков хорошо согласуется с новейшими данными. Для описания первичной классификации звуков достаточно пользоваться лишь понятием акустического признака, соотносимого с артикуляционным признаком; такие признаки могут приписываться целым длинным отрезкам речи или же очень малым участкам спектра. Иначе говоря, понятия фонемы для описания данных явлений не требуется. По отношению к названным задачам фонему можно понимать просто как сокращенное обозначение определенного множества различительных признаков (артикуляционных, известным образом связанных с акустическими). Это сокращенное обозначение удобно употреблять при описании тех единиц (морфем и слов), которые состоят из часто повторяющихся одинаковых наборов различительных признаков[174]. Такое понимание фонем как сокращенного обозначения часто повторяющихся наборов различительных признаков, удобного для записи морфем и слов в памяти, представляется реалистичным и по отношению к устройствам для автоматического ввода устной речи (под удобством здесь и далее можно понимать именно то, что удобно с точки зрения данного воспринимающего прибора).
Сказанное, однако, нисколько не означает, что сама система различительных акустических признаков (и соответствующих им артикуляционных признаков), используемая человеком, должна мыслиться именно такой, какой она описана в работах Якобсона, Фанта и Халле. Система двоичных признаков, принимающих значение «да» и "нет», удобна с точки зрения ее представления в вычислительной машине, так как логика соответствующего устройства является очень простой[175]. Возможность построения правил автоматического распознания фонем по различительным признакам становится особенно ясной благодаря представлению матрицы отожествления фонем в виде дерева, недавно предложенного М. Халле56. Это дерево по существу является алгоритмом распознания фонем, учитывающим предсказуемость одного признака на основании другого (иначе говоря, здесь используется принцип построения алгоритма, оказавшийся весьма полезным и для машинного перевода). Явление нейтрализации фонем в данной системе описывается заданием чисда шагов, достаточных для опознания той или иной единицы.
Систему двоичных признаков фонем часто сопоставляли с теорией передачи сообщений по каналам связи; однако следует отметить, что выбор двоичных единиц измерения информации вопреки широко распространенной точке зрения не играет существенной роли в математической теории информации. Некоторые удобства, связанные с выбором системы двоичных различительных признаков, тем не менее не могут оправдать ее применения в тех случаях, когда классификация по двоичным признакам может привести к смешению тех фонем (в частности, гласных), спектры которых отличаются друг от друга56. Иначе говоря, если спектры каких-либо звуковых единиц отличаются такими характеристиками, которые теряются при. классификации в терминах двоичных признаков, то эта классификация должна быть пересмотрена. Ее двоичный характер едва ли можно считать столь существенным, как это представляется ее авторам57. Описайие в терминах признаков, принймаюіцих положительные и отрицательные значения, оказывается удобным по отношению к согласным, где эта теория хорошо согласуется с экспериментами по восприятию искаженных сигналов. Опыты, проведенные Миллером и Найсли, показали, что при искажении английских согласных восприятие одного из пяти признаков (звонкость, назальность, непрерывность, длительность и место образования) не зависит от восприятия других признаков. Следовательно, мы можем представить себе восприятие этих фонем таким
55 См. работу М. Халле в настоящем сборнике. Впервые этот метод был намечен в работе Якобсона, Фанта и Халле, публикуемой в этом сборнике.
56 Один из таких случаев разбирается в работе Л. А. Чистович «Текущее распознавание речи человеком», стр. 46—48.
67 См., в частности, полемическую статью М. Halle, In defense of number two, «Studies presented to J. Whatmough», ’s-Graven- hage, 1957, p. 65—72.
m образом, как если бы «имелось пять отдельных простых каналов, а не один-единственный сложный канал»58. Однако необходимо дальнейшее экспериментальное изучение, чтобы узнать, действительно ли так воспринимаются гласные. Наложение дискретной шкалы двоичных признаков на спектральные характеристики гласных, которые (в отличие от многих согласных) изменяются непрерывно, должно быть оправдано исследованием соответствующих явлений в отдельных языках (в особенности в языках, обладающих достаточно разветвленной системой гласных фонем).
Если во всех языках имеется один и тот же набор признаков, это должно объясняться общими чертами, присущими центральной нервной системе, речевому и слуховому аппарату человека. Установление единого набора признаков для всех языков в настоящее время может рассматриваться как априорное допущение, удобное (как и универсальная грамматика) тем, что оно позволяет сравнивать все языки с помощью одного стандарта. В будущем можно будет думать о возможности построения универсальной системы различительных признаков путем установления соответствий между реальными наборами различительных признаков, выявленными для отдельных языков.
В настоящее время такого рода исследование только еще начато, но уже достигнуты результаты, свидетельствующие о возможности построения экономной системы различительных признаков. Эта возможность создается благодаря дополнительной дистрибуции признаков, использующихся в разных языках. Так, противопоставления согласных по лабиализации и фарингализации оказываются в разных языках в дополнительной дистрибуции, что позволяет объединить их как варианты одного противопоставления (flat — plain). Если такого рода сопоставления будут продолжены, универсальный набор различительных признаков для всех языков мира может приобрести характер сети достаточно общих абстрактных отношений (ср. абстрактные праязыки в сравнительной
68 G. М і 1 1 е г and P. E.N і с е 1 у, An analysis of perceptual confusion among some English consonants, «The Journal of the Acoustical Society of America», vol. 27, № 2, March 1957. Следует отметить, что почти все исследовавшиеся признаки являются артикуляционными.
грамматике и языки-посредники для машинного перевода).
Нетривиальность результатов, полученных при анализе различительных признаков, особенно очевидна в тех случаях, когда благодаря акустическому исследованию (а также применению кинорентгенологических методов анализа артикуляции) выявляется изоморфность противопоставлений гласных (открытых и закрытых; переднего и заднего рядов) и согласных (велярных и палатальных, с одной стороны, дентальных и губных, с другой; периферийных и медиальных), сходства между которыми в традиционной фонетике не обнаруживались (имеются в виду противопоставления по признакам компактности — диф- фузности, низкой тональности — высокой тональности;. В этой связи необходимо указать на то, что прогресс в исследовании артикуляции (в особенности изучение роли фарингальной полости) во многом способствовал выявлению соответствий между артикуляционными и акустическими признаками. Однако все еще нельзя считать доказанным тезис о том, что каждый признак может быть одновременно определен с точки зрения его производства, акустических свойств, отражаемых на спектрограмме, и восприятия. Как особенно убедительно показывают опыты по восприятию синтезированной речи, между этими тремя сторонами звуковой речи существуют весьма сложные (отнюдь не взаимнооднозначные) отношения.
В работах Якобсона в связи с характеристикой признаков по восприятию рассматриваются преимущественно проблемы синэстетических связей между звуковыми и цветовыми восприятиями. Эта проблема представляет особый интерес для исследования восприятия у эстетически одаренных людей: известно, что цветовые восприятия звуков часто встречаются у композиторов (достаточно напомнить идеи Скрябина о цветовом оформлении «Поэмы экстаза») и поэтов (ярчайшим примером является стихотворение Рембо о гласных). В недавнее время биологические истоки этой недифференцированное™ восприятия «ошпі-мозга», на новом этапе развития используемой в искусстве, занимали ум С. М. Эйзенштейна, которого проблема звукозрительного синтеза интересовала в связи с эстетическими задачами кино. Несомненно, тщательный анализ подобного восприятия звуков речи мог бы оказаться полезным для фонологии. В качестве примера можно указать на случай отчетливой синэстетической классификации русских фонем у одного из молодых поэтов (позднее стал лингвистом). В этом случае все гласные, сонанты, звонкие согласные, аффриката [ч] и спиранты (ш, ф) воспринимались как цветные (яркие), тогда как глухие смычные и остальные спиранты — как бесцветные (серые). Но прежде чем делать выводы из подобных наблюдений, необходимо накопить достаточный материал для статистической обработки.
Правильность предложенных в работах Якобсона, Фанта и Халле акустических определений различительных признаков может быть проверена только экспериментальным путем. Проводившиеся в последние годы работы по русскому языку[176] показали, что многие из определений, которые были даны ранее, нуждаются в пересмотре: в частности, пересматривается классификация плавных (р, л) и глайда (/), в связи с чем изменяется роль признаков гласность — негласность и согласность — несогласность. Вместе с тем в работах Халле обнаруживается стремление сформулировать отчетливый перечень правил, который позволил бы положить систему различительных признаков в основу работы распознающего устройства. Поскольку различительные признаки рассматриваются как единицы языка, их можно представлять в виде абстрактной системы, которая лишь опосредствованным образом соотносится с физическими данными[177]. Но в таком случае необходимо дать четкие правила этого соотнесения (соответствующие тем правилам, по которым акустические сигналы перекодируются в элементарные решения). Именно наличие строгих правил выделения и порождения фонологических единиц должно отличать новейшую фонологию от традиционной, опиравшейся на интуицию.
Введение различительных признаков (а не фонем) в качестве основного фонологического понятия может существенно упростить решение многих вопросов синхронической фонологии (в частности, проблемы нейтрализации фонем, которая проще всего может быть описана в терминах различительных признаков, поскольку она сводится к тому, что один из признаков, образующих данную фонему, в силу определенных условий отсутствует[178]) и диахронической фонологии, так как в эволюции языка основной изменяющейся единицей может считаться не фонема, а различительный признак[179] (ср., например, германское передвижение согласных и «великий сдвиг гласных» в английском языке). Изменение фонологической системы на один шаг — различительный признак наблюдается как при развитии языка целого общества, так и при развитии языка личности — в норме (при обучении ребенка языку) и в патологии (при афазиях). Поэтому теория различительных фонологических признаков представляет существенный интерес не только для прикладной лингвистики, но и для описательного и исторического языкознания.
В настоящий сборник включены вторая глава работы Якобсона, Фанта и Халле, представляющая собой первое подробное описание системы различительных признаков; статья из сборника работ по фонетике, написанная несколько позднее Якобсоном и Халле, где дается общий очерк теории; статья Черри, Халле и Якобсона, представляющая собой один из немногих опытов приложения к устному языку методов теории информации (на материале современного русского языка); первая глава из новой книги Халле, где теория различительных признаков сочетается с идеями трансформационной грамматики Хомского, и статья Мальм- берга, дающая популярный критический обзор новых проблем, связанных с использованием современной электроакустической аппаратуры для исследования языка. Вместе взятые, эти статьи дают достаточно полную картину развития этой теории, имеющей первостепенное значение для фонологии и смежных теоретических и прикладных дисциплин.
В. Иванов