ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн

П. СРЕДСТВА ИНЖЕНЕРНОЙ ПСИХОЛОГИИ ДЛЯ ПОЛЬЗОВАТЕЛЕЙ ИНТЕРФЕЙСОВ

Некоторые особенности инженерной психологии иллюстрируются представленными ниже примерами взаимодействия пользователя с LIFER.

Эти конкретные диалоги включают обращение системы LIFER к базе данных, содержащей информацию о сотрудниках университета.

Могут быть построены также аналогичные интерфейсы для общения между LIFER и другими конкретными типами программного обеспечения.

С точки зрения обработки выражений языка наиболее интересными программами системы LIFER являются программы обработки эллипсиса, коррекции орфографических ошибок и перифразирования.

Примеры взаимодействия с LIFER

1 —What is the salary of Eric Johnson?

‘Каково жалованье Эрика Джонсона?’

PARSED! ‘Обработано’

(ID 327—36—8172 SALARY 19250)

2 — Position and date hired?

‘Должность и дата поступления на работу?’

Попытка использования программы эллипсиса: WHAT IS THE POSITION AND DATE HIRED OF ERIC JOHNSON ‘Каковы должность и дата поступления на работу Эрика Джонсона?’

(ID 327—36—8172 POSITION Assoc-Prof ‘адъюнкт-профессор’ DATE-HIRED 8/1/70)

3 — of Robert Morgan ‘Роберта Моргана’

Попытка использования программы эллипсиса: WHAT IS THE POSITION AND DATE HIRED OF RORERT MORGAN ‘Каковы должность и дата поступления на работу Роберта Моргана?’

(ID 437—26—1190 POSITION Assis-Prof. ‘ассистент’ DATE- HIRED 6/1/73)

4 — Employee 282—93—5307 ‘Служащего 282—93—5307’

Попытка использования программы эллипсиса: WHAT IS THE POSITION AND DATE HIRED OF EMPLOYEE 282—93—5307 (ID 282—93—5307 POSITION Secretary DATE-HIRED 3/13/69)

5 — Of professors in the computer science department ‘пре

подавателей факультета вычислительных наук’

Попытка использования программы эллипсиса: WHAT IS THE POSITION AND DATE HIRED OF PROFESSORS IN THE COMPUTER SCIENCE DEPT ‘Каковы должность и дата поступления на работу преподавателей факультета вычислительных наук’

(ID 131—20—8462 POSITION Pro! DATE-HIRED 8/1/55)

(ID 416—16—2749 POSITION Prof DATE-HIRED 8/1/74)

(ID 179-80—1360 POSITION Prof DATE-HIRED 1/1/63)

(ID 257—58—3058 POSITION Prof DATE-HIRED 15/7/71)

(ID 207-49-0271 POSITION Prof DATE-HIRED 8/1/69)

6 — What is the avarage salary and age for math depart

ment secretaries ‘Каковы среднее жалованье и возраст секретарей факультета математики?*

AVERAGE

BUSINESS ADMINISTRATION ‘управление’ COMPUTER SCIENCE ‘вычислитель

ные науки’

HOME ECONOMICS ‘американская

экономика’

10 — Use CS for Compsci in 8 ‘Использовать CS вместо

compsci в 8’

PARSED!

(ID 263—42—6062 POSITION Assist-Prof DATE-HIRED 8/1/76)

(ID 501—13—1171 POSITION Assist-Prof DATE-HIRED 6/15/76)

11 —What are their names and ages? ‘Каковы их имена,

фамилии и возраст?’

PARSED!

(ID 263—42—6062 NAME (John W.

Francis) AGE 36) (ID 501—13—1171 NAME (Martha K. Scott) AGE 28)

12 — How many associate professors are there in the compsci

department? ‘Сколько ассистентов на факультете выч. н.?’

Попытка использования программы эллипсиса: ELLIPSIS HAS FAILED THE PARSER DOES NOT EXPECT THE WORD ”COMPSCI“ TO FOLLOW ’’HOW MANY ASSOCIATE PROFESSORS ARE THERE IN THE“.

‘Анализатор не ожидает слова compsci после how many associate professors are there in the.’

Options for next word or meta symbol are: (DEPARTMENT-NAME >

13 — Define compsci like CS ‘Определи compsci как CS’ PARSED!

COMPSCI

14 — Redo — 2 PARSED!

15 — List the compsci secretaries ‘Перечислить секретарей

на факультете выч. н.’

PARSED!

(ID 490—81—2131)

(ID 512—37—3594)

(ID 572—15—4276)

16 — Print salary of Martin Devine

‘Напечатать жалованье Мартина Девайна’

Попытка использования программы эллипсиса: ELLIPSIS HAS FAILED

THE PARSER DOES NOT EXPECT THE WORD ’’SALARY" TO FOLLOW ’’PRINT"

Options for next word or meta symbol are: THE

17 — Let ’’print salary of Martin Devine" be a paraphrase of

’’print the salary of Martin Devine"

‘Пусть print salary of Martin Devine является перифразой для print the salary of Martin Devine’ PARSED!

LIFER. TOP. GRAMMAR ^ (PRESENT) (ATTRIBUTES) (EMPLOYEE) finished ‘конец’

18 — Print salary Martin Devine PARSED!

ID 131—20—8462 SALARY 31500)

19 — Age and position

Попытка использования программы эллипсиса: PRINT AGE AND POSITION MARTIN DEVINE (ID 131—20—8462 AGE 57 POSITION Prof)

20 — Show date hired compsci professors making over 30 000

‘Показать дату поступления на работу преподавателей, получающих свыше 30000’

PARSED!

(ID 131—20—8462 POSITION Prof DATE-HIRED

8/1/55)

(ID 207—49—9271 POSITION Prof DATE-HIRED 8/1/69)

21 — Lef ’’DUMPALL Martin Devine" be a paraphrase of

’’What is the ID, position, department and salary of Martin Devine"

PARSED!

LIFER. TOP.

GRAMMAR => DUMPALL (EMPLOYEE) finished

22 — Dumpall employees earning over 35000 PARSED!

(ID 122—22—8769 POSITION Prof DEPT Math SALARY 35500)

(ID 178—31—1942 POSITION Prof DEPT Physics SALARY 36000)

(ID 206—56—1620 POSITION President DEPT N/A SALARY 37500)

23 —(CONS ‘THIS’ (INTERACTION USES INTERLISP

DIRECTLY)) (THIS INTERACTION USES INTERLISP DIRECTLY)

(‘Этот диалог использует непосредственно INTERLISP’)

Однако удобство пользования системой LIFER зависит не столько от мощи отдельных программных средств, сколько от суммарного эффекта их совместной работы по обеспечению пользователей средствами общения. Именно такое совместное действие программных средств различных уровней сложности следует иметь в виду при рассмотрении приведенных примеров.

А. ВВОД ВХОДНЫХ СООБЩЕНИЙ

После того как INTERLISP (язык, используемый в настоящее время системой LIFER) выдает напоминающий символ, пользователь может печатать запросы, команды и сообщения на английском языке ^{^[69]}. При этом нет необходимости непосредственно вызывать программу анализа текста. Допускаются как прописные, так и строчные буквы, использование пунктуации факультативно. Например, в первой строчке пользователь задает вопрос What is the salary of Eric Johnson? после того, как INTERLISP печатает напоминание "1—

В. ОБРАТНАЯ СВЯЗЬ

LIFER анализирует типичные входные фразы, такие, как в диалоге 1, используя гораздо меньше секунды времени центрального процессора на графическом дисплее DEC, подсоединенном к машине PDP KL-10^{^[70]}. Однако при сильной загрузке центрального процессора может произойти небольшая задержка при обработке входной фразы, что вызывает беспокойство пользователя. LIFER стремится снять это беспокойство, обеспечивая постоянную обратную связь. Например, луч электронно-лучевой трубки или печатная головка телетайпа непосредственно фиксирует результаты анализа фразы по мере продвижения слева направо. Такая обратная связь является важным свойством, присущим человеку; это явление того же порядка, что и поддержание связи с помощью взгляда, кивка головы и поглаживания бороды.

Другим видом обратной связи является то, что система печатает сообщение PARSED! ‘обработано’, когда она закончила анализ входного текста и готова вызвать программное обеспечение прикладной системы (то есть системы, для которой LIFER обеспечивает интерфейс), чтобы ответить на вопрос, выполнить команду или включить информацию, содержащуюся во входном сообщении, в базу данных.

С. НЕПОЛНЫЕ ВХОДЫ

Если пользователь только что задал вопрос What is the salary of Eric Johnson? ‘Каково жалованье Эрика Джонсона?’, а затем желает узнать его служебное положение и дату поступления на работу, гораздо удобнее и естественнее спросить: POSITION AND DATE HIRED ‘Должность и дата поступления на работу’, чем педантично печатать WHAT IS THE POSITION AND DATE HIRED OF ERIC

JOHNSON. Учет склонности человека сокращать входной текст — важный фактор разработки прикладных систем. Хотя некоторые системы позволяют определить грамматику так, что она допускает неполные предложения в качестве "полных" входов ^{^[71]}, в LIFER это не является необходимым, так как система автоматически выводит возможный эллиптические (то есть неполные) структуры на основе грамматик, определенных для полных конструкций. (См. выше диалог 2).

Сначала LIFER пытается проанализировать входной текст как полное предложение ^{^[72]}. Только в случае, если такой анализ не срабатывает, система включает программу эллиптического разбора. Для уведомления пользователя об этой смене программ LIFER печатает сообщение TRYING ELLIPSIS ‘попытка использования программы эллипсиса’, когда запускается программа разбора эллипсиса. Если разбор неполного предложения прошел успешно, система снабжает пользователя дополнительной информацией, печатая после слов TRYING ELLIPSIS полный вариант неполного входного текста, который замещает сообщение PARSED! (печатаемое в случае полного входного текста). Входы 2—5 — различные неполные варианты одной и той же структуры входного предложения, а именно входа 1.

Вход 2 вызывает замену атрибутов. Во входах 3—5 меняются лица, о которых запрашиваются сведения. Следует отметить, что во входе 5 запрашиваются сведения о положении и дате зачисления целой группы людей.

D. КОРРЕКЦИЯ ОРФОГРАФИЧЕСКИХ ОШИБОК

При работе с входными текстами, составленными человеком, важно учитывать, что они часто содержат орфографические ошибки. Независимо от того, действительно ли пользователь не знает правописания какого-либо слова или он просто неправильно его напечатал, результат один и тот же: искаженный вход. При разработке систем, нацеленных на исследование понимания естественного языка, нет необходимости обращать специальное внимание на коррекцию орфографии. Но пользователей прикладных систем раздражает, когда орфографические ошибки ведут к прерыванию процесса обработки текста и в конечном счете к задержкам и утомительном перепечаткам.

Способность к исправлению орфографических ошибок, реализуемая с помощью механизма коррекции системы INTERLISP, иллюстрируется диалогом 6. Печатается сообщение, указывающее, что было произведено исправление ошибки, а исправленное слово печатается непосредственно под неправильно написанным словом.

Е. СООБЩЕНИЯ ОБ ОШИБКЕ

Диалог 8 иллюстрирует реакцию LIFER, когда система не может успешно проинтерпретировать входное сообщение. Не сумев проанализировать предложение ни как полное, ни как эллиптическое и не имея возможности применить программу коррекции орфографических ошибок, LIFER прекращает обработку и печатает сообщение об ошибке. Это сообщение не является загадочным вздором типа ERROR TRAP AT LOC 13730 ‘Ошибка-ловушка в месте 13730’, но ценной информацией, которая может помочь неопытному пользователю понять, в чем состоит ошибка, и содействовать ее исправлению. (Разработчики системы могут вызвать специальные диагностические стандартные подпрограммы, устанавливающие сложные ошибки, но это другой вопрос.) Сообщение о текущей ошибке (одно из нескольких) указывает, что LIFER поняла, что означает WHAT ASSISTANT PROFESSORS IN, но не знала слова COMPSCI.

Система ожидала (DEPARTMENT-NAME) ‘(название-факультета У.

Ё этом месте пользователь, по-видимому, поймет, что в лексиконе LIFER нет слова COMPSCI. Можно было бы попробовать выразить название факультета каким-либо другим способом, например, таким, как COMPUTER SCIENCE. С другой стороны, пользователь может быть поставлен в тупик, не имея понятия, что такое (DEPARTMENT- NAME). Это ведет к возникновению новой проблемы, иллюстрируемой диалогом 9.

F. ОЗНАКОМЛЕНИЕ С ОПРЕДЕЛЕНИЯМИ ЯЗЫКОВЫХ ЭЛЕМЕНТОВ

LIFER обеспечивает легкий доступ на естественном языке к информации о заложенных в системе языковых определениях. Опытные пользователи и разработчики интерфейса могут использовать этот механизм для освежения в своей памяти сведений о заложенных в системе структурах и ее возможностях. Неопытным пользователям, как это показывает последний пример, может понадобиться доступ к языковому определению с тем, чтобы понять сообщения об ошибке.

Диалог 9 представляет один тип вопроса, обеспечивающего доступ к заложенным в системе структурам. Ответ на такой вход содержит слова и фразы, которые могут заменять (DEPARTMENT-NAME).

G. ЭКСПЛИЦИТНЫЕ ЗАМЕНЫ

Если пользователь желает задать вопрос, который является простым вариантом ранее заданного вопроса, но контекст не позволяет использовать эллипсис (например, существуют промежуточные предложения), то к более раннему входному высказыванию, как это иллюстрируется диалогом 10, может быть сделана непосредственная отсылка. Эти отсылки и замещения сокращают количество печатного текста, уменьшая, таким образом, как труд пользователя, так и возможность ошибок при печати. Это— стандартная программа в INTERLISP, не являющаяся уникальной для LIFER.

Н. МЕСТОИМЕННОЕ ТОЖДЕСТВО

Разрешение референционного тождества, особенно тожт дества местоимений, связано с весьма сложными проблемами в системах обработки языка ². У LIFER нет волшебного средства для решения этих проблем, однако в системе имеются механизмы обработки некоторых наиболее простых случаев. Один из них иллюстрируется диалогом 11.

I. ОПРЕДЕЛЕНИЕ СИНОНИМОВ

В диалоге 12 пользователь пытается вновь употребить слово COMPSCI и вновь получает сообщение об ошибке. Вполне вероятно, что он привык употреблять такое сокра-

Щение для computer science й не желает приспосабливаться к тем синонимам, которые в настоящий момент может обрабатывать система. Напротив, он хочет, чтобы система приспособилась к ЕГО привычкам. В диалоге 13 пользователь просит систему определять COMPSCI как CS^{^[73]}. В дальнейшем эти слова будут считаться синонимами. - В диалоге 14 диалог 12 вновь вызывается с помощью оператора REDO, действующего в INTERLISP. На этот раз слово COMPSCI понято. В диалоге 15 COMPSCI используется в новом входном сообщении.

J. ОПРЕДЕЛЕНИЕ ПЕРИФРАЗ

Механизм синонимии, представленный выше, позволяет LIFER, обучаясь новым словам, приспосабливаться к отдельным пользователям. Механизм перифразирования позволяет LIFER приспособиться к новым грамматическим конструкциям. Например, пользователь может устать печатать синтаксически "правильные" английские вопросы и захотеть использовать сокращенный формат. В диалоге 16 пользователь пытается употребить сжатое выражение и получает сообщение об ошибке. В диалоге 17 используется обычная английская конструкция, которая указывает системе, что с этого момента разрешается сокращенная форма. LIFER анализирует конкретную перифразу, данную ей в качестве примера, с целью найти обобщение, пригодное для других случаев. (Подробнее об этом будет сказано ниже.) Правила вывода, фиксирующие результаты этого обобщения, напечатаны для более опытного пользователя.

В диалоге 18 пробуется новый сокращенный формат. Диалог 19 — это пример расширения эллиптических выражений, основанных на формате, определенном пользова^ телем. Диалог 20 показывает, что LIFER обобщила начальную перифразу с тем, чтобы обобщенная конструкция покрывала другие сходные с начальной перифразой сокращенные конструкции.

Диалоги 21 и 22 — это дальнейшая иллюстрация способности LIFER к перифразированию. На основе диалога 21 DUMPALLX принимает значение INDICATE THE ID, POSITION, DEPARTMENT AND SALARY OF X ‘укажите идентификационный номер, должность, факультет и жалованье Х-а\

К. ОБРАЩЕНИЕ К ЯЗЫКУ-ХОЗЯИНУ

Пользователь, знакомый с языком INTERLISP, может предпочесть смешанные диалоги с анализатором LIFER и с системой INTERLISP. Как показано в диалоге 23, это легко сделать, напечатав перед входным сообщением, предназначенным для взаимодействия с INTERLISP, символ

L. ОБЕСПЕЧЕНИЕ УДОБНЫМ ЯЗЫКОМ ИНТЕРФЕЙСА

В конечном итоге наиболее существенным требованием инженерной психологии, ориентированной на пользователя, является обеспечение его языком интерфейса, отражающим языковые структуры, необходимые для удобного общения с программами прикладной системы. Такие механизмы, как коррекция орфографических ошибок и обработка эллипсисов, хотя и важны, но никогда не смогут восполнить недостатков основных лингвистических механизмов.

При существующем уровне исследования проблем обработки языка было бы бесполезно пытаться представить окончательную спецификацию английского языка, обладающую достаточной общностью для покрытия всех потенциальных областей применения. Подход в LIFER базируется не на стремлении достигнуть некоторой окончательной спецификации, а скорее на желании обеспечить разработчиков интерфейсов основными понятиями, инструкциями и механизмами, которые позволяют за вполне приемлемое время создать надежное практическое определение языка специального назначения, покрывающего спектр языковых структур, наиболее релевантных для конкретной области ^{^[74]}.

Здесь невозможно рассмотреть в деталях конкретный набор функций взаимодействия, которые предоставляет LIFER для определения прикладного языка ^{^[75]}, но некоторые ключевые моменты стоит упомянуть:

1) Разработчики интерфейса работают в рамках языка INTERLISP — мощного и гибкого языка-”хозяина“, имеющего совершенные средства отладки. Возможно, языки более низкого уровня обрабатываются быстрее, однако гибкость и простота программирования — вот что берется в расчет, когда идет речь о создании работающей системы при разумных затратах сил и времени.

2) Расширения и изменения языковых определений могут свободно смешиваться с вызовами анализатора. При создании системы нет этапа составления грамматики. Это позволяет разработчикам интерфейса действовать быстро, по принципу ”расширяй-и-проверяй“ и содействует работе механизмов, модифицирующих язык в процессе обработки, таких, как программа перифразирования.

3) Разработчик интерфейса никак не связан с внутренними структурами, которые LIFER строит в целях повышения эффективности обработки. В частности, пользователь общается с LIFER в терминах простых правил порождения, которые внутри системы хранятся в виде сети переходов (Woods, 1970).

4) LIFER обладает мощным механизмом грамматического редактирования (который использует программу редактирования системы INTERLISP).

5) LIFER обладает пакетом функций для формулирования запросов к грамматике и для отладки программ.

6) Конструкции с эллипсисом обрабатываются автоматически, и поэтому разработчику интерфейса нет нужды обращать на это внимание.

7) Имеется общее руководство, описывающее, как пользоваться системой.

В этом разделе рассматривается работа программ коррекции ошибок, разбора эллипсиса и перифразирования в системе LIFER.

А. ОСУЩЕСТВЛЕНИЕ КОРРЕКЦИИ ОШИБОК

LIFER использует программу анализа слева направо, основываясь на упрощенной версии расширенных сетей перехода Вудса (Woods, 1970). Каждый раз, когда анализатор обнаруживает, что дальнейшее продвижение по задействованной в настоящий момент тропинке невозможно, он заносит отказ в список точек отказа. Каждая запись в этом списке указывает состояние системы в момент, когда произошел отказ (то есть положение в сети перехода и значения различных стеков и регистров), и позицию во входной цепочке (для данного момента). Частичные неоднозначности и ложные тропинки естественным образом выделяют точки отказа даже при обработке полностью приемлемого входа.

Если входной текст полностью разобран, то точки отказа не рассматриваются. Но если текст не удается проанализировать, список точек отказа используется программой коррекции ошибок, которая выбирает точки отказа, связанные с крайней правой позицией в тексте, для которой были зарегистрированы точки отказа. Предполагается, что точки отказа, расположенные слева, не были вызваны ошибками в написании, так как определенные переходы, использующие слова в этих позициях, должны были быть успешными для того, чтобы справа от них могли оказаться точки отказа.

Программа коррекции ошибок производит дальнейшее ограничение крайних правых точек отказа, рассматривая только те случаи, когда крайняя правая точка G подчиняется крайней правой точке F. G подчиняется F, если G является точкой отказа в сети, вызываемой условием PUSH на дуге, ведущей от F. Так как G и F обе являются крайними правыми точками отказа, G представляет собой задержку начального состояния PUSH-сети. (При любом произведенном переходе G окажется справа от F.) Следовательно, если точка F будет вновь включена в анализ, G будет вновь рассматриваться как один из путей перехода от F. G, таким образом, не имеет смысла рассматривать независимо. Все подчиненные крайние правые точки отказа исключаются из рассмотрения.

Работая с крайними правыми доминирующими точками отказа, программа коррекции ошибок анализирует связанные с ними тропинки с целью нахождения всех категорий слов, которые сделали бы возможным переход. (Для тропинок PUSH это требует исследования субграмматик.) На базе программы коррекции ошибок INTERLISP слово входной цепочки, связанное с крайними правыми точками отказа, сравнивается с лексическими единицами только что найденных категорий. Если "неправильно написанное" слово достаточно сходно с какими-то из этих лексических единиц, производится его замещение наиболее похожей единицей. Точки отказа, связанные с лексическими категориями, включающими это новое слово, вновь начинают последовательно включаться в анализ, пока не будет найдена точка, ведущая к успешному разбору. (Это может привести к новой коррекции ошибок, встреченных правее.) Если все вновь включенные в разбор точки потерпят неудачу, "неправильное" слово заменяется другими близкими лексическими единицами. Если такие замены также окончатся неудачей, LIFER печатает сообщение об ошибке.

LIFER поощряет использование семантически ориентированных синтаксических категорий, таких, как (EMPLOYEE) ‘(служащий)’ и (DEPARTMENT-NAME) ‘(название-факультета)’, а не таких стандартных категорий, как (NOUN) ‘(существительное)’. Использование этих более специализированных категорий намного облегчает коррекцию ошибок, так как резко ограничивает число потенциально возможных слов в любой точке разбора ^и.

В. РЕАЛИЗАЦИЯ ПРОГРАММЫ ОБРАБОТКИ ЭЛЛИПСИСА

Механизм обработки эллиптических входных сообщений системы LIFER пользуется тем, что спецификации языков прикладных систем имеют тенденцию в синтаксических категориях кодировать значительное количество семанти-

'Каково

/PRESENT/

'представить для проверки' \ \

\ \ \

жалование

/ATTRIBUTE/ 'атрибут'

\ \ \

\ —л \

\\ ITEM

'единица' /

ческой информации. Так, сходные синтаксические конструкции обычно близки семантически. Обработка эллипсисов в LIFER основывается на этом понятии схожести. В процессе разбора эллипсиса LIFER допускает любую цепочку слов, которая синтаксически сходна с любой подцепочкой смежных слов в последнем входном сообщении. (Если последнее входное сообщение было неполным, используется его расширение до полного предложения.) При поиске аналогии LIFER обращается к синтаксическому дереву последнего входного предложения, которое было успешно проанализировано системой. Для любой подцепочки смежных слов в последнем входном предложении может быть определен "образец аналогии" с помощью программы абстрагирования, работающей над старым синтаксическим деревом от слов подцепочки к корню дерева. Как только синтаксическое дерево показывает, что часть подцепочки является полным расширением некоторой синтаксической категории, данная часть замещается именем категории. Образец аналогии — это конечный результат всех таких замен.

WHAT IS THE SALARY ОБ MARTIN DEVINE?

Мартина Девайна?⁴

\ / /NAME/

'имя'

/EMPLOYEE/ у 'служащий'

/LIFER.TOP. GRAMMAR/

Рис. /. Синтаксическое дерево.

Рассмотрим, например, как может быть найден образец аналогии для подцепочки

OF MARTIN DEVINE на основе представленного на рис. 1 синтаксического дерева предыдущего входного предложения WHAT IS THE SALARY OF MARTIN DEVINE? Так как часть подцепочки MARTIN DEVINE является полным расширением (NAME), подцепочка переписывается как OF (NAME). Аналогичным образом, так как (NAME) есть расширение (EMPLOYEE), подцепочка переписывается как OF (EMPLOYEE). Так как

никакая другая часть подцепочки не является полным расширением других синтаксических категорий в дереве, процесс прекращается, и OF (EMPLOYEE) принимается как наиболее общий образец аналогии. Если текущий вход будет подходить к этому образцу аналогии, LIFER примет его как допустимый эллиптический вход. Например, образец аналогии OF (EMPLOYEE), выделенный из последнего входа, может быть использован для сопоставления с такими текущими входами, как

OF ERIC JOHNSON OF EMPLOYEE 494—81—7207 и OF PROFESSORS IN THE MATH DEPARTMENT ‘преподавателей факультета математики’

Следует заметить, что расширение (EMPLOYEE) не обязано совпадать с расширением в старом входном сообщении, которое породило данный образец аналогии. Например, OF EMPLOYEE 494-81-7207 соответствует расширению (EMPLOYEE) в EMPLOYEE (ID-NUMBER), а не расширению (EMPLOYEE) в (NAME).

Для вычисления ответов на эллиптические входы, соответствующие образцу OF (EMPLOYEE), LIFER ищет путь по старому синтаксическому дереву от общей категории цепочки OF (EMPLOYEE) к корню. Прежде всего вызывается программа определения значения (ITEM) на основе составляющих правила порождения

(ITEM) => THE (ATTRIBUTE), которая использует новое значение (EMPLOYEE) (появившееся в текущем эллиптическом входе) и старое значение (ATTRIBUTE) из последнего предложения. Затем, используя только что вычисленное значение (ITEM) и старое значение (PRESENT), точно так же определяется новое значение категории (LIFER. TOP. GRAMMAR) — корня синтаксического дерева.

Ниже приведены некоторые другие подцепочки с соответствующими образцами аналогии и примерами возможных новых эллиптических входов, подходящими к этим образцам: подцепочка: THE SALARY образец: THE (ATTRIBUTE)

возможное эллиптическое выражение: THE AGE AND DATE HIRED

подцепочка: SALARY OF MARTIN DEVINE

образец: (ATTRIBUTE) OF (EMPLOYEE)

возможное эллиптическое

выражение: AGE OF CS SECRETARIES

подцепочка: WHAT IS THE SALARY образец: (PRESENT) THE (ATTRIBUTE)

возможное эллиптическое выражение: PRINT THE DATE HIRED

подцепочка: WHAT IS THE SALARY OF MARTIN DEVINE

образец: (LIFER. TOP. GRAMMAR)

возможное эллиптическое

выражение: [любое полное предложение]

В целях эффективности стандартные подпрограммы эллипсиса кодируются таким образом, что избегается действительное порождение образцов аналогии ^{^[76]}. Тем не менее в теоретическом плане результат эквивалентен анализу, основывающемуся на образцах аналогии для каждой непрерывной подцепочки последнего входа.

Механизм перифразирования в LIFER также использует семантически, ориентированные синтаксические категории и синтаксические деревья. В типичном случае механизму перифразирования дается модель предложения, которое система уже может понять, и перифраза. Общая стратегия механизма перифразирования — проанализировать предложение-модель и затем найти похожие структуры в перифразе.

1. Основной метод

В частности, механизм перифразирования побуждает анализатор построить синтаксическое дерево предложения- модели. Используя это дерево, механизм перифразирования определяет все правильные подфразы модели, то есть все подцепочки, являющиеся полным расширением одной из синтаксических категорий, имеющихся в дереве. Предполагается, что любая из этих подфраз предложения-модели, которые также имеются в перифразовой цепочке, играет ту же роль в перифразе, что и в самой модели. Так, семантически ориентированные синтаксические категории, которые объясняют эти подфразы в модели, вновь используются для объяснения соответствующих подфраз перифразы. Более того, отношения между синтаксическими категориями, которые имеются в синтаксическом дереве модели, формируют основу для установления отношений между соответствующими синтаксическими единицами, выведенными и для перифразы.

а. Определение правила порождения для перифразирования

Для нахождения соответствия между моделью и перифразой, подфразы модели прежде всего классифицируются. Более длинные фразы предпочтительнее более коротких, а из двух фраз одной и той же длины первой берется левая крайняя. Например, расклассифицированные фразы дерева на рис. I следующие:

1. (ITEM) THE SALARY OF MARTIN DEVINE

2. (PRESENT) WHAT IS

3. (NAME) MARTIN DEVINE - - не используется

4. (EMPLOYEE) MARTIN DEVINE

5. (ATTRIBUTE) SALARY

Так как синтаксическое дерево указывает, что (EMPLOYEE) => (NAME) MARTIN DEVINE, то и (NAME), и (EMPLOYEE) соответствуют одной и той же подфразе. В таких случаях рассматривается только наиболее общая синтаксическая категория ((EMPLOYEE>).

Начиная с первой (наиболее длинной) подфразы, под- фразы сопоставляются с последовательностями в перифразо- вой цепочке. (Если некоторая подфраза совмещается с двумя последовательностями слов, используется только крайнее левое совмещение.) Более длинным подфразам отдается предпочтение, так как их совмещения приведут к обобщениям, включающим совмещение для более коротких содержащихся в них фраз. Как только найдено некоторое совмещение, совпавшая последовательность слов в перифразе замещается синтаксической категорией, связанной с соответствующей подфразой. Этот процесс продолжается до тех пор, пока сопоставления не будут испробованы для всех подфраз.

Например, предположим, что предложена следующая перифраза для вопроса на рис. 1:

FOR MARTIN DEVINE GIVE ME THE SALARY

‘Для Мартина Девайна дайте мне жалованье*

Подфразы 1 и 2, перечисленные выше, не совпадают с подцепочками в этой перифразе. Подфраза 3 не рассматривается, так как она подчиняется подфразе 4. Подфраза 4 совмещается с последовательностью слов в перифразе. Замена последовательности слов именем соответствующей категории порождает новую цепочку перифразы:

FOR (EMPLOYEE) GIVE ME THE SALARY

Подфраза 5 совмещается с последовательностью слов в этой новой цепочке. Соответствующая замена порождает

FOR (EMPLOYEE) GIVE ME THE (ATTRIBUTE)

Так как больше подфраз нет, структура

(LIFER. TOP.GRAMMAR) =>

FOR (EMPLOYEE) GIVE ME THE (ATTRIBUTE)

создается в качестве нового правила порождения для данной перифразы.

b. Определение функции ответа для правила порождения перифразы

Новая семантическая функция, указывающая, как отвечать на входы, подходящие к данному правилу порождения, программируется автоматически на основе информации, содержащейся в синтаксическом дереве предложения- модели. В частности, синтаксическое дерево указывает, какие правила порождения использовались в модели для расширения различных синтаксических категорий. С каждым из этих правил связана функция, которая вычисляет интерпретацию соответствующих подфраз, исходя из их составляющих. Механизм перифразирования вновь использует выбранные функции модели для создания новой функции для правила порождения перифразы. Как это происходит, лучше всего показать на примере.

Вновь обращаясь к примеру на рис. 1, мы видим, что синтаксическое дерево указывает на использование правила порождения

(LIFER. TOP. GRAMMAR) => (PRESENT) (ITEM)

С этим правилом связана функция F1 (не приведенная на рисунке, но имеющая отсылку в действительном дереве), которая вычисляет значение (value) для (LIFER. ТОР. GRAMMAR) на основе значений для (PRESENT) и (ITEM)^{^[77]}. Используя нотацию ”#(Х)“ для обозначения "значение (X)", роль F1 можно выразить уравнением

# (LIFER. TOP. GRAMMAR) = Fl (# (PRESENT), # (ITEM))

Другим правилом порождения, указанным синтаксическим деревом модели, является

(ITEM) => THE (ATTRIBUTE) OF (EMPLOYEE) Это правило связано с функцией F2, где

# (ITEM) = F2 (#(ATTRIBUTE), #(EMPLOYEE))

Механизм перифразирования должен определить новую функцию FN для правила порождения перифразы

(LIFER. TOP. GPAMMAR) => FOR (EMPLOYEE) GIVE ME THE (ATTRIBUTE)

Более того, значение, вычисленное функцией FN, должно быть такое же, как и значение, вычисленное как ответ на предложение-модель. Так как категории (EMPLOYEE) и (ATTRIBUTE) появляются в правиле порождения перифразы с правой стороны, то механизм перифразирования принимает, что FN является функцией #(EMPLOYEE) и#(ATTRIBUTE). Так как FN должна вычислить то же значение, что и функция F1 модели, то механизм перифразирования принимает, что

FN (#(EMPLOYEE), # => х (М> у,

где х и у — некоторые (возможно, пустые) последовательности языковых единиц. Так как подфраза, связанная с (G), не совпала ни с какой частью перифразы, то либо х, либо у, либо они оба отсутствуют в перифразе (по крайней мере в непосредственной близости к (М>). Тем не менее, если грамматика разрешает правило порождения

(G) =>

и если значение, приписанное G, одинаково в обоих правилах (G)

(G) +> х (М> у,

тогда (М> заменяется на (G) в перифразе, чтобы получить конструкцию с более широким применением.

Предположим, например, что имеется следующая входная модель:

WHAT IS THE SALARY OF EMPLOYEE MARTIN DEVINE

и что синтаксическое дерево подобно дереву на рис. 1, за исключением того, что (EMPLOYEE) расширяется как

Положим, далее, что в качестве перифразы предлагается опять

FOR MARTIN DEVINE GIVE ME THE SALARY

EMPLOYEE MARTIN DEVINE

В отличие от предыдущего примера, в котором Martin De- vine был замещен (EMPLOYEE), теперь алгоритм замещения последней части разрешает здесь только замену (NAME). Результирующая перифраза следующая:

FOR (NAME) GIVE ME THE (ATTRIBUTE).

Эта структура подходит к данной перифразе, однако не покрывает предложения

FOR PROFESSOR MARTIN DEVINE GIVE ME THE AGE.

Однако, используя только что описанный процесс обобщения, если система разрешает правило

(EMPLOYEE) => (NAME)

и если значение (EMPLOYEE), определенное этим способом, такое же, что и значение, использующее правило

(EMPLOYEE):=> (TITLE) (NAME),

то в перифразовой структуре (EMPLOYEE) будет заменять (NAME), производя

FOR (EMPLOYEE) GIVE ME THE (ATTRIBUTE).

Эта более обобщенная конструкция годится для входных фраз

FOR PROFESSOR MARTIN DEVINE GIVE ME THE AGE

FOR EMPLOYEE 205-56-1620 GIVE ME THE DATE HIRED

FOR MATH DEPARTMENT SECRETARIES GIVE ME THE SALARY.

3. Запись в субграмматике

Рассмотрим перифразы вида ”х у z“, моделью для которых является форма ”х S у“ и S — собственная подфраза, связанная с синтаксической категорией (С). Механизм перифразирования учитывает этот тип условия и спрашивает пользователя, всегда ли у является перифразой S или только в контексте х и z. Если пользователь указывает на зависимость от контекста, обработка продолжается как обычно. Если же пользователь указывает, что у является перифразой S в любом контексте, тогда LIFER закрепляет у в качестве перифразы S в субграмматике, связанной с (С>. В этом случае влияние данной перифразы будет сказываться везде, где используется категория (С). (Например, см. примечание к разделу II—1.)

<< | >>

↑

Источник: В.А. ЗВЕГИНЦЕВ. НОВОЕ В ЗАРУБЕЖНОЙ ЛИНГВИСТИКЕ. ВЫПУСК XII. ПРИКЛАДНАЯ ЛИНГВИСТИКА. МОСКВА «РАДУГА» - 1983. 1983

Еще по теме П. СРЕДСТВА ИНЖЕНЕРНОЙ ПСИХОЛОГИИ ДЛЯ ПОЛЬЗОВАТЕЛЕЙ ИНТЕРФЕЙСОВ:

- Английский язык - Диалектология - Иностранные языки - История русского языка - Лексикология. Фразеология. Лексикография - Лингвокультура - Общая лингвистика - Общее языкознание - Русская филология - Русский язык - Синтаксис - Словообразование и морфология - Стилистика и культура речи - Украинский язык - Фонетика. Графика. Орфография -

- Архитектура и строительство - Безопасность жизнедеятельности - Библиотечное дело - Бизнес - Биология - Военные дисциплины - География - Геология - Демография - Диссертации России - Естествознание - Журналистика и СМИ - Информатика, вычислительная техника и управление - Искусствоведение - История - Культурология - Литература - Маркетинг - Математика - Медицина - Менеджмент - Педагогика - Политология - Право России - Право України - Промышленность - Психология - Реклама - Религиоведение - Социология - Страхование - Технические науки - Учебный процесс - Физика - Философия - Финансы - Химия - Художественные науки - Экология - Экономика - Энергетика - Юриспруденция - Языкознание -