ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

П. СРЕДСТВА ИНЖЕНЕРНОЙ ПСИХОЛОГИИ ДЛЯ ПОЛЬЗОВАТЕЛЕЙ ИНТЕРФЕЙСОВ

Некоторые особенности инженерной психологии иллю­стрируются представленными ниже примерами взаимодей­ствия пользователя с LIFER.

Эти конкретные диалоги включают обращение системы LIFER к базе данных, содержащей информацию о сотруд­никах университета.

Могут быть построены также анало­гичные интерфейсы для общения между LIFER и другими конкретными типами программного обеспечения.

С точки зрения обработки выражений языка наиболее интересными программами системы LIFER являются про­граммы обработки эллипсиса, коррекции орфографических ошибок и перифразирования.

Примеры взаимодействия с LIFER

1 —What is the salary of Eric Johnson?

‘Каково жалованье Эрика Джонсона?’

PARSED! ‘Обработано’

(ID 327—36—8172 SALARY 19250)

2 — Position and date hired?

‘Должность и дата поступления на работу?’

Попытка использования программы эллипсиса: WHAT IS THE POSITION AND DATE HIRED OF ERIC JOHNSON ‘Каковы должность и дата поступления на работу Эрика Джонсона?’

(ID 327—36—8172 POSITION Assoc-Prof ‘адъюнкт-профес­сор’ DATE-HIRED 8/1/70)

3 — of Robert Morgan ‘Роберта Моргана’

Попытка использования программы эллипсиса: WHAT IS THE POSITION AND DATE HIRED OF RORERT MORGAN ‘Каковы должность и дата поступления на работу Роберта Моргана?’

(ID 437—26—1190 POSITION Assis-Prof. ‘ассистент’ DATE- HIRED 6/1/73)

4 — Employee 282—93—5307 ‘Служащего 282—93—5307’

Попытка использования программы эллипсиса: WHAT IS THE POSITION AND DATE HIRED OF EMPLOYEE 282—93—5307 (ID 282—93—5307 POSITION Secretary DATE-HIRED 3/13/69)

5 — Of professors in the computer science department ‘пре­

подавателей факультета вычислительных наук’

Попытка использования программы эллипсиса: WHAT IS THE POSITION AND DATE HIRED OF PROFES­SORS IN THE COMPUTER SCIENCE DEPT ‘Каковы должность и дата поступления на работу преподава­телей факультета вычислительных наук’

(ID 131—20—8462 POSITION Pro! DATE-HIRED 8/1/55)

(ID 416—16—2749 POSITION Prof DATE-HIRED 8/1/74)

(ID 179-80—1360 POSITION Prof DATE-HIRED 1/1/63)

(ID 257—58—3058 POSITION Prof DATE-HIRED 15/7/71)

(ID 207-49-0271 POSITION Prof DATE-HIRED 8/1/69)

6 — What is the avarage salary and age for math depart­

ment secretaries ‘Каковы среднее жалованье и воз­раст секретарей факультета математики?*

AVERAGE

BUSINESS ADMINISTRATION ‘управление’ COMPUTER SCIENCE ‘вычислитель­

ные науки’

HOME ECONOMICS ‘американская

экономика’

10 — Use CS for Compsci in 8 ‘Использовать CS вместо

compsci в 8’

PARSED!

(ID 263—42—6062 POSITION Assist-Prof DATE-HIRED 8/1/76)

(ID 501—13—1171 POSITION Assist-Prof DATE-HIRED 6/15/76)

11 —What are their names and ages? ‘Каковы их имена,

фамилии и возраст?’

PARSED!

(ID 263—42—6062 NAME (John W.

Francis) AGE 36) (ID 501—13—1171 NAME (Martha K. Scott) AGE 28)

12 — How many associate professors are there in the compsci

department? ‘Сколько ассистентов на факультете выч. н.?’

Попытка использования программы эллипсиса: ELLIP­SIS HAS FAILED THE PARSER DOES NOT EXPECT THE WORD ”COMPSCI“ TO FOLLOW ’’HOW MANY ASSOCIATE PROFESSORS ARE THERE IN THE“.

‘Анализатор не ожидает слова compsci после how many associate professors are there in the.’

Options for next word or meta symbol are: (DEPARTMENT-NAME >

13 — Define compsci like CS ‘Определи compsci как CS’ PARSED!

COMPSCI

14 — Redo — 2 PARSED!

5

15 — List the compsci secretaries ‘Перечислить секретарей

на факультете выч. н.’

PARSED!

(ID 490—81—2131)

(ID 512—37—3594)

(ID 572—15—4276)

16 — Print salary of Martin Devine

‘Напечатать жалованье Мартина Девайна’

Попытка использования программы эллипсиса: ELLIP­SIS HAS FAILED

THE PARSER DOES NOT EXPECT THE WORD ’’SALARY" TO FOLLOW ’’PRINT"

Options for next word or meta symbol are: THE

17 — Let ’’print salary of Martin Devine" be a paraphrase of

’’print the salary of Martin Devine"

‘Пусть print salary of Martin Devine является пери­фразой для print the salary of Martin Devine’ PARSED!

LIFER. TOP. GRAMMAR ^ (PRESENT) (ATTRIBU­TES) (EMPLOYEE) finished ‘конец’

18 — Print salary Martin Devine PARSED!

ID 131—20—8462 SALARY 31500)

19 — Age and position

Попытка использования программы эллипсиса: PRINT AGE AND POSITION MARTIN DEVINE (ID 131—20—8462 AGE 57 POSITION Prof)

20 — Show date hired compsci professors making over 30 000

‘Показать дату поступления на работу преподава­телей, получающих свыше 30000’

PARSED!

(ID 131—20—8462 POSITION Prof DATE-HIRED

8/1/55)

(ID 207—49—9271 POSITION Prof DATE-HIRED 8/1/69)

21 — Lef ’’DUMPALL Martin Devine" be a paraphrase of

’’What is the ID, position, department and salary of Martin Devine"

PARSED!

LIFER. TOP.

GRAMMAR => DUMPALL (EMPLOYEE) finished

22 — Dumpall employees earning over 35000 PARSED!

(ID 122—22—8769 POSITION Prof DEPT Math SALARY 35500)

(ID 178—31—1942 POSITION Prof DEPT Physics SA­LARY 36000)

(ID 206—56—1620 POSITION President DEPT N/A SALARY 37500)

23 —(CONS ‘THIS’ (INTERACTION USES INTERLISP

DIRECTLY)) (THIS INTERACTION USES INTER­LISP DIRECTLY)

(‘Этот диалог использует непосредственно INTER­LISP’)

Однако удобство пользования системой LIFER зависит не столько от мощи отдельных программных средств, сколь­ко от суммарного эффекта их совместной работы по обеспе­чению пользователей средствами общения. Именно такое совместное действие программных средств различных уров­ней сложности следует иметь в виду при рассмотрении приведенных примеров.

А. ВВОД ВХОДНЫХ СООБЩЕНИЙ

После того как INTERLISP (язык, используемый в на­стоящее время системой LIFER) выдает напоминающий символ, пользователь может печатать запросы, команды и сообщения на английском языке [69]. При этом нет необхо­димости непосредственно вызывать программу анализа текста. Допускаются как прописные, так и строчные бук­вы, использование пунктуации факультативно. Например, в первой строчке пользователь задает вопрос What is the salary of Eric Johnson? после того, как INTERLISP печа­тает напоминание "1—

В. ОБРАТНАЯ СВЯЗЬ

LIFER анализирует типичные входные фразы, такие, как в диалоге 1, используя гораздо меньше секунды вре­мени центрального процессора на графическом дисплее DEC, подсоединенном к машине PDP KL-10[70]. Однако при сильной загрузке центрального процессора может произойти неболь­шая задержка при обработке входной фразы, что вызывает беспокойство пользователя. LIFER стремится снять это беспокойство, обеспечивая постоянную обратную связь. Например, луч электронно-лучевой трубки или печатная головка телетайпа непосредственно фиксирует результаты анализа фразы по мере продвижения слева направо. Такая обратная связь является важным свойством, присущим человеку; это явление того же порядка, что и поддержание связи с помощью взгляда, кивка головы и поглаживания бороды.

Другим видом обратной связи является то, что система печатает сообщение PARSED! ‘обработано’, когда она закончила анализ входного текста и готова вызвать программное обеспечение прикладной системы (то есть системы, для которой LIFER обеспечивает интерфейс), чтобы ответить на вопрос, выполнить команду или вклю­чить информацию, содержащуюся во входном сообщении, в базу данных.

С. НЕПОЛНЫЕ ВХОДЫ

Если пользователь только что задал вопрос What is the salary of Eric Johnson? ‘Каково жалованье Эрика Джон­сона?’, а затем желает узнать его служебное положение и дату поступления на работу, гораздо удобнее и естественнее спросить: POSITION AND DATE HIRED ‘Должность и дата поступления на работу’, чем педантично печатать WHAT IS THE POSITION AND DATE HIRED OF ERIC

JOHNSON. Учет склонности человека сокращать входной текст — важный фактор разработки прикладных систем. Хотя некоторые системы позволяют определить грамматику так, что она допускает неполные предложения в качестве "полных" входов [71], в LIFER это не является необходимым, так как система автоматически выводит возможный эллип­тические (то есть неполные) структуры на основе грамма­тик, определенных для полных конструкций. (См. выше диалог 2).

Сначала LIFER пытается проанализировать входной текст как полное предложение [72]. Только в случае, если та­кой анализ не срабатывает, система включает программу эллиптического разбора. Для уведомления пользователя об этой смене программ LIFER печатает сообщение TRYING ELLIPSIS ‘попытка использования программы эллипси­са’, когда запускается программа разбора эллипсиса. Если разбор неполного предложения прошел успешно, система снабжает пользователя дополнительной информацией, пе­чатая после слов TRYING ELLIPSIS полный вариант неполного входного текста, который замещает сообщение PARSED! (печатаемое в случае полного входного текста). Входы 2—5 — различные неполные варианты одной и той же структуры входного предложения, а именно входа 1.

Вход 2 вызывает замену атрибутов. Во входах 3—5 меня­ются лица, о которых запрашиваются сведения. Следует отметить, что во входе 5 запрашиваются сведения о по­ложении и дате зачисления целой группы людей.

D. КОРРЕКЦИЯ ОРФОГРАФИЧЕСКИХ ОШИБОК

При работе с входными текстами, составленными чело­веком, важно учитывать, что они часто содержат орфогра­фические ошибки. Независимо от того, действительно ли пользователь не знает правописания какого-либо слова или он просто неправильно его напечатал, результат один и тот же: искаженный вход. При разработке систем, нацеленных на исследование понимания естественного языка, нет необ­ходимости обращать специальное внимание на коррекцию орфографии. Но пользователей прикладных систем раздра­жает, когда орфографические ошибки ведут к прерыванию процесса обработки текста и в конечном счете к задерж­кам и утомительном перепечаткам.

Способность к исправлению орфографических ошибок, реализуемая с помощью механизма коррекции системы INTERLISP, иллюстрируется диалогом 6. Печатается со­общение, указывающее, что было произведено исправление ошибки, а исправленное слово печатается непосредственно под неправильно написанным словом.

Е. СООБЩЕНИЯ ОБ ОШИБКЕ

Диалог 8 иллюстрирует реакцию LIFER, когда система не может успешно проинтерпретировать входное сообще­ние. Не сумев проанализировать предложение ни как полное, ни как эллиптическое и не имея возможности при­менить программу коррекции орфографических ошибок, LIFER прекращает обработку и печатает сообщение об ошибке. Это сообщение не является загадочным вздором типа ERROR TRAP AT LOC 13730 ‘Ошибка-ловушка в месте 13730’, но ценной информацией, которая может по­мочь неопытному пользователю понять, в чем состоит ошиб­ка, и содействовать ее исправлению. (Разработчики систе­мы могут вызвать специальные диагностические стандарт­ные подпрограммы, устанавливающие сложные ошибки, но это другой вопрос.) Сообщение о текущей ошибке (одно из нескольких) указывает, что LIFER поняла, что означает WHAT ASSISTANT PROFESSORS IN, но не знала слова COMPSCI.

Система ожидала (DEPARTMENT-NAME) ‘(наз­вание-факультета У.

Ё этом месте пользователь, по-видимому, поймет, что в лексиконе LIFER нет слова COMPSCI. Можно было бы попробовать выразить название факультета каким-либо другим способом, например, таким, как COMPUTER SCI­ENCE. С другой стороны, пользователь может быть постав­лен в тупик, не имея понятия, что такое (DEPARTMENT- NAME). Это ведет к возникновению новой проблемы, иллюстрируемой диалогом 9.

F. ОЗНАКОМЛЕНИЕ С ОПРЕДЕЛЕНИЯМИ ЯЗЫКОВЫХ ЭЛЕМЕНТОВ

LIFER обеспечивает легкий доступ на естественном язы­ке к информации о заложенных в системе языковых опре­делениях. Опытные пользователи и разработчики интерфей­са могут использовать этот механизм для освежения в сво­ей памяти сведений о заложенных в системе структурах и ее возможностях. Неопытным пользователям, как это пока­зывает последний пример, может понадобиться доступ к языковому определению с тем, чтобы понять сообщения об ошибке.

Диалог 9 представляет один тип вопроса, обеспечиваю­щего доступ к заложенным в системе структурам. Ответ на такой вход содержит слова и фразы, которые могут заме­нять (DEPARTMENT-NAME).

G. ЭКСПЛИЦИТНЫЕ ЗАМЕНЫ

Если пользователь желает задать вопрос, который яв­ляется простым вариантом ранее заданного вопроса, но контекст не позволяет использовать эллипсис (например, существуют промежуточные предложения), то к более раннему входному высказыванию, как это иллюстрируется диалогом 10, может быть сделана непосредственная от­сылка. Эти отсылки и замещения сокращают количество печатного текста, уменьшая, таким образом, как труд пользователя, так и возможность ошибок при печати. Это— стандартная программа в INTERLISP, не являющаяся уникальной для LIFER.

Н. МЕСТОИМЕННОЕ ТОЖДЕСТВО

Разрешение референционного тождества, особенно тожт дества местоимений, связано с весьма сложными пробле­мами в системах обработки языка 2. У LIFER нет волшеб­ного средства для решения этих проблем, однако в системе имеются механизмы обработки некоторых наиболее простых случаев. Один из них иллюстрируется диалогом 11.

I. ОПРЕДЕЛЕНИЕ СИНОНИМОВ

В диалоге 12 пользователь пытается вновь употребить слово COMPSCI и вновь получает сообщение об ошибке. Вполне вероятно, что он привык употреблять такое сокра-

Щение для computer science й не желает приспосабливаться к тем синонимам, которые в настоящий момент может обрабатывать система. Напротив, он хочет, чтобы система приспособилась к ЕГО привычкам. В диалоге 13 пользо­ватель просит систему определять COMPSCI как CS[73]. В дальнейшем эти слова будут считаться синонимами. - В диалоге 14 диалог 12 вновь вызывается с помощью оператора REDO, действующего в INTERLISP. На этот раз слово COMPSCI понято. В диалоге 15 COMPSCI исполь­зуется в новом входном сообщении.

J. ОПРЕДЕЛЕНИЕ ПЕРИФРАЗ

Механизм синонимии, представленный выше, позволяет LIFER, обучаясь новым словам, приспосабливаться к от­дельным пользователям. Механизм перифразирования поз­воляет LIFER приспособиться к новым грамматическим конструкциям. Например, пользователь может устать пе­чатать синтаксически "правильные" английские вопросы и захотеть использовать сокращенный формат. В диалоге 16 пользователь пытается употребить сжатое выражение и получает сообщение об ошибке. В диалоге 17 используется обычная английская конструкция, которая указывает си­стеме, что с этого момента разрешается сокращенная форма. LIFER анализирует конкретную перифразу, данную ей в качестве примера, с целью найти обобщение, пригодное для других случаев. (Подробнее об этом будет сказано ниже.) Правила вывода, фиксирующие результаты этого обобще­ния, напечатаны для более опытного пользователя.

В диалоге 18 пробуется новый сокращенный формат. Диалог 19 — это пример расширения эллиптических вы­ражений, основанных на формате, определенном пользова^ телем. Диалог 20 показывает, что LIFER обобщила началь­ную перифразу с тем, чтобы обобщенная конструкция по­крывала другие сходные с начальной перифразой сокращен­ные конструкции.

Диалоги 21 и 22 — это дальнейшая иллюстрация спо­собности LIFER к перифразированию. На основе диалога 21 DUMPALLX принимает значение INDICATE THE ID, POSITION, DEPARTMENT AND SALARY OF X ‘ука­жите идентификационный номер, должность, факультет и жалованье Х-а\

К. ОБРАЩЕНИЕ К ЯЗЫКУ-ХОЗЯИНУ

Пользователь, знакомый с языком INTERLISP, может предпочесть смешанные диалоги с анализатором LIFER и с системой INTERLISP. Как показано в диалоге 23, это легко сделать, напечатав перед входным сообщением, предназначенным для взаимодействия с INTERLISP, сим­вол

L. ОБЕСПЕЧЕНИЕ УДОБНЫМ ЯЗЫКОМ ИНТЕРФЕЙСА

В конечном итоге наиболее существенным требова­нием инженерной психологии, ориентированной на пользо­вателя, является обеспечение его языком интерфейса, отражающим языковые структуры, необходимые для удоб­ного общения с программами прикладной системы. Такие механизмы, как коррекция орфографических ошибок и обработка эллипсисов, хотя и важны, но никогда не смогут восполнить недостатков основных лингвистических меха­низмов.

При существующем уровне исследования проблем обра­ботки языка было бы бесполезно пытаться представить окончательную спецификацию английского языка, обла­дающую достаточной общностью для покрытия всех потен­циальных областей применения. Подход в LIFER базиру­ется не на стремлении достигнуть некоторой окончатель­ной спецификации, а скорее на желании обеспечить разра­ботчиков интерфейсов основными понятиями, инструкция­ми и механизмами, которые позволяют за вполне приемле­мое время создать надежное практическое определение языка специального назначения, покрывающего спектр языковых структур, наиболее релевантных для конкретной области [74].

Здесь невозможно рассмотреть в деталях конкретный набор функций взаимодействия, которые предоставляет LIFER для определения прикладного языка [75], но некото­рые ключевые моменты стоит упомянуть:

1) Разработчики интерфейса работают в рамках языка INTERLISP — мощного и гибкого языка-”хозяина“, имею­щего совершенные средства отладки. Возможно, языки более низкого уровня обрабатываются быстрее, однако гиб­кость и простота программирования — вот что берется в расчет, когда идет речь о создании работающей системы при разумных затратах сил и времени.

2) Расширения и изменения языковых определений могут свободно смешиваться с вызовами анализатора. При создании системы нет этапа составления грамматики. Это позволяет разработчикам интерфейса действовать бы­стро, по принципу ”расширяй-и-проверяй“ и содействует работе механизмов, модифицирующих язык в процессе обработки, таких, как программа перифразирования.

3) Разработчик интерфейса никак не связан с внутрен­ними структурами, которые LIFER строит в целях повыше­ния эффективности обработки. В частности, пользователь общается с LIFER в терминах простых правил порождения, которые внутри системы хранятся в виде сети переходов (Woods, 1970).

4) LIFER обладает мощным механизмом грамматичес­кого редактирования (который использует программу ре­дактирования системы INTERLISP).

5) LIFER обладает пакетом функций для формулирова­ния запросов к грамматике и для отладки программ.

6) Конструкции с эллипсисом обрабатываются автома­тически, и поэтому разработчику интерфейса нет нужды обращать на это внимание.

7) Имеется общее руководство, описывающее, как поль­зоваться системой.

В этом разделе рассматривается работа программ кор­рекции ошибок, разбора эллипсиса и перифразирования в системе LIFER.

А. ОСУЩЕСТВЛЕНИЕ КОРРЕКЦИИ ОШИБОК

LIFER использует программу анализа слева направо, основываясь на упрощенной версии расширенных сетей перехода Вудса (Woods, 1970). Каждый раз, когда анализатор обнаруживает, что дальнейшее продвижение по задействованной в настоящий момент тропинке невоз­можно, он заносит отказ в список точек отказа. Каждая запись в этом списке указывает состояние системы в мо­мент, когда произошел отказ (то есть положение в сети перехода и значения различных стеков и регистров), и пози­цию во входной цепочке (для данного момента). Частичные неоднозначности и ложные тропинки естественным образом выделяют точки отказа даже при обработке полностью при­емлемого входа.

Если входной текст полностью разобран, то точки отка­за не рассматриваются. Но если текст не удается проанали­зировать, список точек отказа используется программой коррекции ошибок, которая выбирает точки отказа, свя­занные с крайней правой позицией в тексте, для которой были зарегистрированы точки отказа. Предполагается, что точки отказа, расположенные слева, не были вызваны ошиб­ками в написании, так как определенные переходы, исполь­зующие слова в этих позициях, должны были быть успеш­ными для того, чтобы справа от них могли оказаться точки отказа.

Программа коррекции ошибок производит дальнейшее ограничение крайних правых точек отказа, рассматривая только те случаи, когда крайняя правая точка G подчиня­ется крайней правой точке F. G подчиняется F, если G является точкой отказа в сети, вызываемой условием PUSH на дуге, ведущей от F. Так как G и F обе являются крайни­ми правыми точками отказа, G представляет собой задержку начального состояния PUSH-сети. (При любом произведен­ном переходе G окажется справа от F.) Следовательно, если точка F будет вновь включена в анализ, G будет вновь рас­сматриваться как один из путей перехода от F. G, таким образом, не имеет смысла рассматривать независимо. Все подчиненные крайние правые точки отказа исключаются из рассмотрения.

Работая с крайними правыми доминирующими точками отказа, программа коррекции ошибок анализирует связан­ные с ними тропинки с целью нахождения всех категорий слов, которые сделали бы возможным переход. (Для тропи­нок PUSH это требует исследования субграмматик.) На базе программы коррекции ошибок INTERLISP слово вход­ной цепочки, связанное с крайними правыми точками отказа, сравнивается с лексическими единицами только что найденных категорий. Если "неправильно написанное" слово достаточно сходно с какими-то из этих лексических единиц, производится его замещение наиболее похожей единицей. Точки отказа, связанные с лексическими кате­гориями, включающими это новое слово, вновь начинают последовательно включаться в анализ, пока не будет най­дена точка, ведущая к успешному разбору. (Это может привести к новой коррекции ошибок, встреченных правее.) Если все вновь включенные в разбор точки потерпят неу­дачу, "неправильное" слово заменяется другими близкими лексическими единицами. Если такие замены также окон­чатся неудачей, LIFER печатает сообщение об ошибке.

LIFER поощряет использование семантически ориенти­рованных синтаксических категорий, таких, как (EMPLO­YEE) ‘(служащий)’ и (DEPARTMENT-NAME) ‘(назва­ние-факультета)’, а не таких стандартных категорий, как (NOUN) ‘(существительное)’. Использование этих более специализированных категорий намного облегчает коррек­цию ошибок, так как резко ограничивает число потен­циально возможных слов в любой точке разбора и.

В. РЕАЛИЗАЦИЯ ПРОГРАММЫ ОБРАБОТКИ ЭЛЛИПСИСА

Механизм обработки эллиптических входных сообще­ний системы LIFER пользуется тем, что спецификации язы­ков прикладных систем имеют тенденцию в синтаксических категориях кодировать значительное количество семанти-

'Каково

\/

/PRESENT/

'представить для проверки' \ \

\ \ \

жалование

і

і

І

/ATTRIBUTE/ 'атрибут'

\ \ \

\ —л \

\\ ITEM

'единица' /

V

\

\

\

\

/

ческой информации. Так, сходные синтаксические конструк­ции обычно близки семантически. Обработка эллипсисов в LIFER основывается на этом понятии схожести. В процессе разбора эллипсиса LIFER допускает любую цепочку слов, которая синтаксически сходна с любой подцепочкой смеж­ных слов в последнем входном сообщении. (Если последнее входное сообщение было неполным, используется его рас­ширение до полного предложения.) При поиске аналогии LIFER обращается к синтаксическому дереву последнего входного предложения, которое было успешно проанализи­ровано системой. Для любой подцепочки смежных слов в последнем входном предложении может быть определен "образец аналогии" с помощью программы абстрагирования, работающей над старым синтаксическим деревом от слов подцепочки к корню дерева. Как только синтаксическое дерево показывает, что часть подцепочки является полным расширением некоторой синтаксической категории, данная часть замещается именем категории. Образец аналогии — это конечный результат всех таких замен.

WHAT IS THE SALARY ОБ MARTIN DEVINE?

Мартина Девайна?4

\ / /NAME/

'имя'

I

/EMPLOYEE/ у 'служащий'

/

/LIFER.TOP. GRAMMAR/

Рис. /. Синтаксическое дерево.

Рассмотрим, например, как может быть найден образец аналогии для подцепочки

OF MARTIN DEVINE на основе представленного на рис. 1 синтаксического дерева предыдущего входного предложения WHAT IS THE SALA­RY OF MARTIN DEVINE? Так как часть подцепочки MARTIN DEVINE является полным расширением (NAME), подцепочка переписывается как OF (NAME). Аналогичным образом, так как (NAME) есть расширение (EMPLOYEE), подцепочка переписывается как OF (EMPLOYEE). Так как

никакая другая часть подцепочки не является полным рас­ширением других синтаксических категорий в дереве, про­цесс прекращается, и OF (EMPLOYEE) принимается как наиболее общий образец аналогии. Если текущий вход будет подходить к этому образцу аналогии, LIFER примет его как допустимый эллиптический вход. Например, обра­зец аналогии OF (EMPLOYEE), выделенный из последнего входа, может быть использован для сопоставления с такими текущими входами, как

OF ERIC JOHNSON OF EMPLOYEE 494—81—7207 и OF PROFESSORS IN THE MATH DEPARTMENT ‘преподавателей факультета математики’

Следует заметить, что расширение (EMPLOYEE) не обя­зано совпадать с расширением в старом входном сообщении, которое породило данный образец аналогии. Например, OF EMPLOYEE 494-81-7207 соответствует расширению (EMPLOYEE) в EMPLOYEE (ID-NUMBER), а не рас­ширению (EMPLOYEE) в (NAME).

Для вычисления ответов на эллиптические входы, соот­ветствующие образцу OF (EMPLOYEE), LIFER ищет путь по старому синтаксическому дереву от общей категории цепочки OF (EMPLOYEE) к корню. Прежде всего вызы­вается программа определения значения (ITEM) на основе составляющих правила порождения

(ITEM) => THE (ATTRIBUTE), которая использует новое значение (EMPLOYEE) (по­явившееся в текущем эллиптическом входе) и старое зна­чение (ATTRIBUTE) из последнего предложения. Затем, используя только что вычисленное значение (ITEM) и ста­рое значение (PRESENT), точно так же определяется новое значение категории (LIFER. TOP. GRAMMAR) — корня синтаксического дерева.

Ниже приведены некоторые другие подцепочки с соот­ветствующими образцами аналогии и примерами возмож­ных новых эллиптических входов, подходящими к этим образцам: подцепочка: THE SALARY образец: THE (ATTRIBUTE)

возможное эллиптическое выражение: THE AGE AND DATE HIRED

подцепочка: SALARY OF MARTIN DEVINE

образец: (ATTRIBUTE) OF (EMPLOYEE)

возможное эллиптическое

выражение: AGE OF CS SECRETARIES

подцепочка: WHAT IS THE SALARY образец: (PRESENT) THE (ATTRIBUTE)

возможное эллиптическое выражение: PRINT THE DATE HIRED

подцепочка: WHAT IS THE SALARY OF MARTIN DEVINE

образец: (LIFER. TOP. GRAMMAR)

возможное эллиптическое

выражение: [любое полное предложение]

В целях эффективности стандартные подпрограммы эл­липсиса кодируются таким образом, что избегается дейст­вительное порождение образцов аналогии [76]. Тем не менее в теоретическом плане результат эквивалентен анализу, основывающемуся на образцах аналогии для каждой не­прерывной подцепочки последнего входа.

Механизм перифразирования в LIFER также использу­ет семантически, ориентированные синтаксические катего­рии и синтаксические деревья. В типичном случае меха­низму перифразирования дается модель предложения, кото­рое система уже может понять, и перифраза. Общая страте­гия механизма перифразирования — проанализировать пред­ложение-модель и затем найти похожие структуры в пери­фразе.

1. Основной метод

В частности, механизм перифразирования побуждает анализатор построить синтаксическое дерево предложения- модели. Используя это дерево, механизм перифразирования определяет все правильные подфразы модели, то есть все подцепочки, являющиеся полным расширением одной из синтаксических категорий, имеющихся в дереве. Предпо­лагается, что любая из этих подфраз предложения-модели, которые также имеются в перифразовой цепочке, играет ту же роль в перифразе, что и в самой модели. Так, семан­тически ориентированные синтаксические категории, кото­рые объясняют эти подфразы в модели, вновь используются для объяснения соответствующих подфраз перифразы. Бо­лее того, отношения между синтаксическими категориями, которые имеются в синтаксическом дереве модели, форми­руют основу для установления отношений между соответ­ствующими синтаксическими единицами, выведенными и для перифразы.

а. Определение правила порождения для перифразирования

Для нахождения соответствия между моделью и пери­фразой, подфразы модели прежде всего классифицируются. Более длинные фразы предпочтительнее более коротких, а из двух фраз одной и той же длины первой берется левая крайняя. Например, расклассифицированные фразы дерева на рис. I следующие:

1. (ITEM) THE SALARY OF MARTIN DEVINE

2. (PRESENT) WHAT IS

3. (NAME) MARTIN DEVINE - - не используется

4. (EMPLOYEE) MARTIN DEVINE

5. (ATTRIBUTE) SALARY

Так как синтаксическое дерево указывает, что (EMPLO­YEE) => (NAME) MARTIN DEVINE, то и (NAME), и (EMPLOYEE) соответствуют одной и той же подфразе. В таких случаях рассматривается только наиболее общая синтаксическая категория ((EMPLOYEE>).

Начиная с первой (наиболее длинной) подфразы, под- фразы сопоставляются с последовательностями в перифразо- вой цепочке. (Если некоторая подфраза совмещается с дву­мя последовательностями слов, используется только крайнее левое совмещение.) Более длинным подфразам отдается предпочтение, так как их совмещения приведут к обобще­ниям, включающим совмещение для более коротких содер­жащихся в них фраз. Как только найдено некоторое совме­щение, совпавшая последовательность слов в перифразе замещается синтаксической категорией, связанной с соот­ветствующей подфразой. Этот процесс продолжается до тех пор, пока сопоставления не будут испробованы для всех подфраз.

Например, предположим, что предложена следующая перифраза для вопроса на рис. 1:

FOR MARTIN DEVINE GIVE ME THE SALARY

‘Для Мартина Девайна дайте мне жалованье*

Подфразы 1 и 2, перечисленные выше, не совпадают с под­цепочками в этой перифразе. Подфраза 3 не рассматрива­ется, так как она подчиняется подфразе 4. Подфраза 4 сов­мещается с последовательностью слов в перифразе. Замена последовательности слов именем соответствующей катего­рии порождает новую цепочку перифразы:

FOR (EMPLOYEE) GIVE ME THE SALARY

Подфраза 5 совмещается с последовательностью слов в этой новой цепочке. Соответствующая замена порождает

FOR (EMPLOYEE) GIVE ME THE (ATTRIBUTE)

Так как больше подфраз нет, структура

(LIFER. TOP.GRAMMAR) =>

FOR (EMPLOYEE) GIVE ME THE (ATTRIBUTE)

создается в качестве нового правила порождения для дан­ной перифразы.

b. Определение функции ответа для правила порождения перифразы

Новая семантическая функция, указывающая, как от­вечать на входы, подходящие к данному правилу порожде­ния, программируется автоматически на основе информа­ции, содержащейся в синтаксическом дереве предложения- модели. В частности, синтаксическое дерево указывает, какие правила порождения использовались в модели для расширения различных синтаксических категорий. С каж­дым из этих правил связана функция, которая вычисляет интерпретацию соответствующих подфраз, исходя из их составляющих. Механизм перифразирования вновь исполь­зует выбранные функции модели для создания новой функ­ции для правила порождения перифразы. Как это происхо­дит, лучше всего показать на примере.

Вновь обращаясь к примеру на рис. 1, мы видим, что синтаксическое дерево указывает на использование прави­ла порождения

(LIFER. TOP. GRAMMAR) => (PRESENT) (ITEM)

С этим правилом связана функция F1 (не приведенная на рисунке, но имеющая отсылку в действительном дереве), которая вычисляет значение (value) для (LIFER. ТОР. GRAMMAR) на основе значений для (PRESENT) и (ITEM)[77]. Используя нотацию ”#(Х)“ для обозначения "значение (X)", роль F1 можно выразить уравнением

# (LIFER. TOP. GRAMMAR) = Fl (# (PRESENT), # (ITEM))

Другим правилом порождения, указанным синтаксическим деревом модели, является

(ITEM) => THE (ATTRIBUTE) OF (EMPLOYEE) Это правило связано с функцией F2, где

# (ITEM) = F2 (#(ATTRIBUTE), #(EMPLOYEE))

Механизм перифразирования должен определить новую функцию FN для правила порождения перифразы

(LIFER. TOP. GPAMMAR) => FOR (EMPLOYEE) GIVE ME THE (ATTRIBUTE)

Более того, значение, вычисленное функцией FN, должно быть такое же, как и значение, вычисленное как ответ на предложение-модель. Так как категории (EMPLOYEE) и (ATTRIBUTE) появляются в правиле порождения пери­фразы с правой стороны, то механизм перифразирования принимает, что FN является функцией #(EMPLOYEE) и#(ATTRIBUTE). Так как FN должна вычислить то же значение, что и функция F1 модели, то механизм перифра­зирования принимает, что

FN (#(EMPLOYEE), # => х (М> у,

где х и у — некоторые (возможно, пустые) последователь­ности языковых единиц. Так как подфраза, связанная с (G), не совпала ни с какой частью перифразы, то либо х, либо у, либо они оба отсутствуют в перифразе (по крайней мере в непосредственной близости к (М>). Тем не менее, если грамматика разрешает правило порождения

(G) =>

и если значение, приписанное G, одинаково в обоих правилах (G)

и

(G) +> х (М> у,

тогда (М> заменяется на (G) в перифразе, чтобы получить конструкцию с более широким применением.

Предположим, например, что имеется следующая вход­ная модель:

WHAT IS THE SALARY OF EMPLOYEE MARTIN DEVINE

и что синтаксическое дерево подобно дереву на рис. 1, за исключением того, что (EMPLOYEE) расширяется как

Положим, далее, что в качестве перифразы предлагается опять

FOR MARTIN DEVINE GIVE ME THE SALARY

.

,

EMPLOYEE MARTIN DEVINE

В отличие от предыдущего примера, в котором Martin De- vine был замещен (EMPLOYEE), теперь алгоритм замеще­ния последней части разрешает здесь только замену (NAME). Результирующая перифраза следующая:

FOR (NAME) GIVE ME THE (ATTRIBUTE).

Эта структура подходит к данной перифразе, однако не покрывает предложения

FOR PROFESSOR MARTIN DEVINE GIVE ME THE AGE.

Однако, используя только что описанный процесс обобще­ния, если система разрешает правило

(EMPLOYEE) => (NAME)

и если значение (EMPLOYEE), определенное этим способом, такое же, что и значение, использующее правило

(EMPLOYEE):=> (TITLE) (NAME),

то в перифразовой структуре (EMPLOYEE) будет заменять (NAME), производя

FOR (EMPLOYEE) GIVE ME THE (ATTRIBUTE).

Эта более обобщенная конструкция годится для входных фраз

FOR PROFESSOR MARTIN DEVINE GIVE ME THE AGE

FOR EMPLOYEE 205-56-1620 GIVE ME THE DATE HIRED

FOR MATH DEPARTMENT SECRETARIES GIVE ME THE SALARY.

3. Запись в субграмматике

Рассмотрим перифразы вида ”х у z“, моделью для которых является форма ”х S у“ и S — собственная подфраза, связан­ная с синтаксической категорией (С). Механизм перифрази­рования учитывает этот тип условия и спрашивает пользо­вателя, всегда ли у является перифразой S или только в контексте х и z. Если пользователь указывает на зависи­мость от контекста, обработка продолжается как обычно. Если же пользователь указывает, что у является перифра­зой S в любом контексте, тогда LIFER закрепляет у в ка­честве перифразы S в субграмматике, связанной с (С>. В этом случае влияние данной перифразы будет сказы­ваться везде, где используется категория (С). (Например, см. примечание к разделу II—1.)

<< | >>
Источник: В.А. ЗВЕГИНЦЕВ. НОВОЕ В ЗАРУБЕЖНОЙ ЛИНГВИСТИКЕ. ВЫПУСК XII. ПРИКЛАДНАЯ ЛИНГВИСТИКА. МОСКВА «РАДУГА» - 1983. 1983

Еще по теме П. СРЕДСТВА ИНЖЕНЕРНОЙ ПСИХОЛОГИИ ДЛЯ ПОЛЬЗОВАТЕЛЕЙ ИНТЕРФЕЙСОВ: