ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

ОБРАБОТКА ТЕКСТА ПО ПРИНЦИПУ ИНТЕГРАЛЬНОГО ЧАСТИЧНОГО АНАЛИЗА

Мы разработали программу, которая реализует теорию анализа, проиллюстрированную выше,— интегральный ча­стичный анализатор (an Integrated Partial Parser) — ИЧА. В настоящем разделе мы рассмотрим, как работает этот анализатор.

Он нацелен на обработку ограниченного класса текстов, а именно газетных заметок на тему о терроризме и на смежные темы. Мы не пытались охватить все проблемы, встающие при автоматизации анализа. Ос­новное внимание было сосредоточено на тех вопросах, ко­торые связаны с сущностью такого рода анализаторов. Одна из известных проблем, которых мы не касались,— это обработка многозначных слов. К счастью, в рамках обрабатываемого нами класса рассказов большинство слов, особенно интересных, имеет ровно одно предпочитаемое значение. С помощью ИЧА было успешно обработано более 200 текстов, взятых непосредственно из различных газет. Многие из них были взяты наугад. В настоящее время ИЧА располагает словарем объемом более 2000 слов. Анализатор написан на LISP’e и эксплуатируется на машине системы DEC 20/50.

Ограничения данной программы связаны со словарем и знаниями о мире. Объем словаря в 2000 слов, типичный для экспериментальных программ в области искусствен­ного интеллекта, все-таки несколько маловат, даже для текстов о терроризме. В настоящее время мы расширяем словарь. Программа ограничена также тем кругом тек­стов, для понимания которых она располагает соот­ветствующими знаниями о мире. Мы брали только такие заметки, которые основаны на сценариях, но, как упоми­налось выше, мы считаем, что общие методы ИЧА будут применимы и к другим формам знания. Возможности ИЧА могут быть усилены как путем добавления новой инфор­мации сценарного типа, аналогичной уже имеющемуся запасу знаний, так и путем учета ряда других типов зна­ния о мире.

Другое ограничение ИЧА состоит в том, что он испы­тывает трудности при анализе текстов с тонкой орга­низацией повествования,— текстов, в которых не очень прост переход к заключению.

Но именно такой тип тек­стов представляет трудности и для людей, особенно при быстром чтении. Планируемое решение этой проблемы сводится к тому, чтобы обеспечить возможность возврата и чтения текста в более тщательной манере, чем это обычно делает ИЧА.

Схема анализа, реализованная в ИЧА, основана на классификации слов в словаре с точки зрения того, что должен делать анализатор с каждым словом по мере его прочитывания. Следовательно, такие категории, как су­ществительное, глагол и т. п., имеют смысл в анализаторе лишь в том случае, если они приводят к разным типам обработки.

Легко говорить, как мы это делали выше, что такое-то слово надо пропустить или сохранить или что-нибудь в этом роде. На практике же подобные решения мы должны при­нять заранее. Таким образом, ключевые проблемы реализа­ции такого анализатора следующие: во-первых, установле­ние категорий для подачи слов в словаре, которые будут по­лезны в данной модели; во-вторых, разработка процедуры для определения того, к какой категории подходит каждое данное слово. Как мы вскоре увидим, приписывание слова к определенной категории может зависеть от предметной области.

Возвращаясь к примеру в предыдущем разделе, мы можем сказать, что с прочитываемым словом можно по­ступать тремя способами. Слово может быть пропущено, оно может быть записано в ОП и затем пропущено или оно может сразу же быть подвергнуто полной обработке.

Первая возможность заключается в том, что его можно просто пропустить. Существует много слов, которые с точки зрения нормального чтения не имеют существенного поня­тийного содержания. Если вспомнить текст, приведенный в предыдущем разделе, то это будут слова: most ‘большая часть’, way ‘путь’, held ‘держал’.

Вторая возможность, которая следует из нашего при­мера, заключается в том, что слово может быть записано в ОП и затем пропущено. Слова, к которым следует приме­нять эту стратегию обработки, несут определенную функ­циональную нагрузку или какое-то понятийное содержание, но при этом могут считаться банальными и неинтересными.

Тем не менее мы не можем их просто игнорировать, потому что их значения могут оказаться важными для конкрети­зации наших знаний о событиях и предметах, которые нас интересуют. Например, они могут использоваться для заполнения ролей в концептуальных структурах, представляющих интересные события. Они могут также больше не использоваться в последующем анализе. В соот­ветствии с данной стратегией обрабатываются многие слова в нашем примере. Примерами могут служить слова Arabic, Iraqi и his, а также все артикли.

С такими словами система может поступать двумя спо­собами. Либо их значение помогает в конкретизации чего- либо интересного (и в этом случае такое значение будет включено в семантическое представление текста), либо оно не помогает в решении этой задачи. Например, значение слова French ‘французский’ в сочетании

(1) before surrendering to French policemen

‘перед тем как сдаться французским полицейским’

включается в семантическое представление, потому что нас интересует вопрос о том, кому сдался террорист, то есть нас интересуют полицейские. С другой стороны, зна­чение слова French в сочетании

(2) as he was led away by the French officers

‘в то время когда его уводили французские офицеры’

не включается в семантическое представление, потому что в сферу нашего интереса слово officers не попадает.

Существуют слова, которые, помимо понятийных ха­рактеристик, снабжены в словаре определенной инфор­мацией о связанных с ними процедурах; она записана в форме ожиданий, помогающих конкретизировать зна­чение таких слов. Объектами подобных ожиданий часто являются слова, которые подлежат обработке в соответ­ствии со стратегией ’’записать и пропустить". Например, вполне вероятно, что со словом embassy ‘посольство’ ас­социируется ожидание, направленное на поиск названия страны, которую данное посольство представляет, а слова policemen, officers и officials связаны с ожиданиями на­звания правительственного учреждения, от имени которого они действуют. Но если некоторое слово подлежит обра­ботке по стратегии "записать и пропустить", то эти ожи­дания не должны пускаться в действие до тех пор, пока мы не будем уверены в том, что понятие, связанное с ос­новным словом, действительно уточняет наши знания о чем-то интересном.

Если оказывается, что нас данное по­нятие не интересует, то нет смысла осуществлять ненуж­ную обработку. Сравним обработку слова policemen в сочетании (1) с обработкой слова officers в сочетании (2). Поскольку выясняется, что понятие полиции в первом слу­чае расширяет наши знания об интересующем нас событии, то представляется правдоподобным, что будет реализо­вано ожидание, связанное с указанием на государство, от имени которого действует полиция. Во втором случае, поскольку понятие ‘офицеры’ не расширяет наши знания о чем-либо интересном, то нет смысла применять здесь подобное правило.

Третья возможная стратегия обработки слова заклю­чается в том, что оно немедленно и полностью обрабаты­вается, то есть система обращает внимание на его значение и на ожидания, им порождаемые. Именно эта стратегия применяется ко всякому слову, обладающему существенным и интересным понятийным содержанием. Эти понятия и ожидания управляют всем ходом анализа. Примеры из нашего рассказа включают слова gunman, shot и hostages. Ожидания, порождаемые этими словами, могут включать тот же тип простых конкретизирующих ожиданий (типа заполнения позиций), которые ассоциируются с некото­рыми словами, подлежащими обработке по стратегии "за­писать и пропустить". Например, вполне возможно, что одно из ожиданий, порождаемых словом gunman, будет направлено на поиск национальной или политической при­надлежности данного вооруженного человека.

Эти слова могут также порождать ожидания, опериру­ющие на гораздо более высоком уровне. Например, когда мы читаем слово gunman, мы ожидаем, что он мог осущест­вить действие стрельбы из какого-либо оружия. Мы также ожидаем событий, связанных с несколькими возможными сценариями, включая $ROBBERY ‘ограбление’ и $TERRO- RISM. Эти ожидания действуют примерно так же, как происходит применение сценариев (см. Gullingford,

1978) : они служат для того, чтобы распознавать события и тем самым определять, разумно ли усматривать их в данном контексте. Так, коль скоро мы знаем, что воору­женный человек скорее всего является террористом, мы ожидаем, что он может задерживать заложников, может стрелять и убивать каких-то людей и может выдвигать требования.

Мы знаем также, что данный эпизод может иметь лишь очень ограниченное число возможных исходов: террорист может быть взят в плен, он может сдаться сам, он может быть убит, он может сбежать. Эти ожидания высшего уровня помогают нам решить, что является важ­ным в рассматриваемом тексте при взгляде на него "сверху вниз". Все это имеет решающее значение для организации анализа. Но гибкость анализа зависит также от его спо­собности отвечать на вопросы относительно таких пред­метов и событий, которые не предусматриваются ожида­ниями.

Ожидания, используемые в ИЧА, реализуются в форме запросов (см. R і е s b е с к, 1975). Запрос имеет форму правила вывода, или пары вида "проверка — действие". Если в результате проверки некоторого действующего за­проса выясняется его справедливость, то выполняются соответствующие наборы действий. Список запросов упо­рядочен так, что, когда система приступает к рассмотрению действующих запросов, первыми рассматриваются запросы, активизированные позже всех, поскольку они представ­ляют более новые и, видимо, более адекватные ожидания.

Поскольку теоретически проверки и действия, выпол­няемые запросами, могут быть совершенно произвольными, в нашей системе мы выделили в качестве необходимого лишь ограниченное множество запросов. У нас запросы могут делать следующее:

строить новые концептуальные структуры — обычно данный запрос строит только одну такую структуру;

заполнять какую-то позицию в некоторой концептуаль­ной структуре некоторой другой концептуальной струк­турой, например: заполнять позицию ДЕЯТЕЛЬ в сцене $SHOOT ‘стрелять’ концептуальной структурой, соответ­ствующей конкретному вооруженному человеку;

активизировать другие запросы — часто это запросы, которые пытаются заполнить пустые позиции в структуре, создаваемой под воздействием запроса-инициатора; это могут быть также ожидания, касающиеся действий, со­стояний или более сложных эпизодов, которые могут сле­довать далее;

отменять запросы — в этом случае речь идет об анну­лировании какого-либо запроса (возможно, и самого дан­ного запроса), когда он перестает быть уместным.

Существует три типа проверок, выполняемых запросами:

проверка конкретных лексических единиц, например: служебные слова часто являются характерным признаком той или иной конструкции; так, в сочетании surrender to French policemen ‘сдаться французским полицейским’ запросы, связанные со словом surrender (или со сценарием $SURRENDER), могут быть направлены на поиск слова to (предлог), которое служит признаком следующего за ним обозначения властей, которым некто сдался;

проверка наличия лексических единиц, удовлетворя­ющих некоторому условию; например, это могут быть слова, активизирующие какой-то конкретный сценарий;

поиск объектов или событий определенного структурно­семантического типа. Это может быть такая простая про­цедура, как проверка структур на совпадение с образцом; либо речь может идти о проверке семантических признаков вроде "человек" или "власти".

Тот факт, что запросы могут искать конкретные лекси­ческие единицы, играет очень важную роль в сокращении времени обработки. Этот резерв обеспечивается как за­просами, которые ищут служебные слова (типа предло­гов), так и запросами, которые ищут более существенные факты. Часто слово может вызвать ожидания, направлен­ные на поиск конкретных слов, указывающих, какой сце­нарий применим в данной ситуации. Например, упомина­ние вооруженного человека порождает ожидания, которые ищут подтверждения для сценариев, связанных с террориз­мом, похищением или ограблением. Запрос, целью которого является поиск подтверждений для сценария налета, мо­жет включать проверки на конкретные слова (или соче­тания) типа diverted ‘отвлекли внимание’, hijack ‘налет на транспорт (с целью ограбления)’, took over ‘увезли’, которые сигнализируют о наличии сцены налета. Запросы используют также проверки на концептуальном уровне.

Запрос, активизируемый словом gunman и проверяющий уместность сценария терроризма, обращает внимание на место происшествия. Если это место, где размещается ка­кая-то политическая организация (посольство, штаб-квар­тира какой-либо партии и т. п.), то мы имеем дело с явным подтверждением пригодности сценария терроризма. Об­разец запроса приводится ниже (см. стр. 431 и сл.).

Внутри широких категорий слов, подлежащих немед­ленной обработке, и слов, которые записываются в ОП и пропускаются, существуют подкатегории, помогающие ре­шать вопрос о конкретном способе обработки данного слова. Необходимо высказать еще два условия, влияющие на классификацию слов. Первое связано с тем, как данное слово видоизменяет создаваемую семантическую репрезен­тацию; второе — это тип ожиданий, вызываемых данным словом. Классификация слов учитывает оба этих условия. Ниже описывается каждый класс слов и указывается, как их обрабатывает ИЧА. Для каждого класса приводится образец словарной статьи.

Образец запроса

~FIND— ~На основании обнаружения подходя-

$HIJACK щих слов или понятий вызывает сце-

‘найти — нарий налета на транспорт (с целью

сценарий ограбления), строит представление со-

— налёта’ бытия налета и порождает несколько

новых запросов, ожидая сцены и лру- гие действия. (Данная команда вызы­вается словом GUNMAN.)

(DEF—REQ FIND—$HIJACK

‘(дефиниция запроса найти—сценарий—налета’

TEST (HIJACK—INSTANTIATOR ~Тест ищет слова,

*NEW—ITEM*) которые указы-

проверка (слово—вызывающее — вают на сцена-

налет* новая—единица*)’

ACTION (REQ—EVENT 8 (SCRIPT JHIJACK ‘действие

(запрос—события 8 (сценарий налета’

рии налета

.'Действие строит собы­тие по сценарию на­лета при уровне инте­реса 8, заполняемые позиции здесь указа­ны. Позиция деятеля

STACK*)))

ACTOR заполняется послед­ним деятелем, посту­пившим в НАКОПИ­ТЕЛЬ ДЕЯТЕЛЕЙ. NIL
‘деятель’ ‘пусто’
DEMANDS NIL
‘требования’ ‘пусто’
FROM NIL
‘от’ ‘пусто’
DESTINATION NIL
‘цель’ ‘ пусто’
ТО NIL
‘к’ ‘пусто’
PASSANGERS NIL
‘пассажиры’ ‘пусто’
VEHICLE NIL)
‘транспорт’ ‘пусто’)
OR. (TOP—OF • ACTOR—

‘((деятель, (последний в ‘нако­пителе—деятелей*)))’ (REDUNDANT—HIJACK- WORDS

‘(избыточные—слова—налета’ FIND—HIJACK— DESTINATION ‘найти—цель—налета’

FIND—HIJACK—VEHICLE ‘найти—транспорт—налета’) FIND—HIJACK— PASSANGERS ‘найти—пассажиров—налета’ FIND—HIJACK—EVENTS ‘найти—события—налета’ SURRENDER—SCENE ‘сцена—сдачи’

RECOGNIZE—DEMANDS ‘распознать—требования’ RECOGNIZE—COUNTER­MEASURES)

‘распознать—меры—противО’ действия’)

Активизиру­ются эти новые запросы

В рамках теории интегрального анализа слова клас­сифицируются прежде всего в соответствии с типом кон­цептуальных структур, которые они строят. Иначе говоря, наиболее важная роль, которую играет слово с точки зрения предлагаемой концепции анализа, это не его син­таксическая роль ("существительное", "глагол" и т. п.) и даже не его понятийная роль ("деятель", "действие" и т. п.). С нашей точки зрения, наиболее существенная характеристика слова — это то, как оно влияет на обра­ботку текста в рамках интегрального процесса понимания.

В семантическом представлении, приведенном выше для предложения о вооруженном человеке, говорящем по-арабски, представлены два разных вида единиц. С одной стороны, имеют место определенные события* сценарий терроризма, сцена пленения, убийство вооруженного че­ловека и т. д., с другой стороны — индивидуальные по­нятия, играющие ту или иную роль: "вооруженный че­ловек", заполняющий позицию ДЕЯТЕЛЯ в сценарии терроризма, или "иракское посольство", заполняющее по­зицию МЕСТА в этом сценарии, и т. д. Слова, заполняю­щие позиции, мы будем называть элементами (tokens). Имея в виду это разграничение между элементами и собы­тиями, рассмотрим классификацию слов.

А1— СЛОВА, ОТВЕТСТВЕННЫЕ ЗА ПРЕДСТАВЛЕНИЕ СОБЫТИЙ

(Образец словарной статьи AI см. на с. 436—437).

Один класс образуют слова, которые инициируют по­строение структур событий. Мы называем их словами, от­ветственными за представление событий (event builders), сокращенно — ПС-слова. Этот класс слов включает много глаголов и ряд существительных типа "убийство", "мятеж", "налетчик". Всем ПС-словам приписывается указание на уровень интереса. Это помогает определять, является ли событие достаточно значимым для того, чтобы быть вклю­ченным в окончательное представление текста, то есть достаточно ли оно интересно для того, чтобы считать его центральным событием в данном представлении, и доста­точно ли оно важно для того, чтобы мы тратили драгоцен­ное время обработки на попытки заполнить его пустые позиции. Всем ПС-словам приписывается также набор ожиданий, помогающих управлять ходом анализа. Эти ожидания разнообразны — от запросов, имеющих своей целью заполнить конкретные позиции последующими сло­вами текста, до общих ожиданий относительно событий, которые, по всей вероятности, должны произойти (в соот­ветствии с набором сцен некоторого сценария).

ПС-слова подразделяются далее согласно типу события, построение которого они инициируют. Многие широко­употребительные слова типа ”дал“, "пошел", "съел" строят простые события (не представляющие большого интереса с точки зрения своих внутренних свойств). Это события, которые мы всегда могли представлять довольно легко в рамках теории концептуальных зависимостей (Schank, 1972; 1975). В ходе нашей последующей работы над струк­турами знаний более высокого уровня мы пришли к вы­воду, что наиболее существенными являются те виды се­мантических представлений, которые связаны со сцена­риями, планами и целями (см. Schank and Abelson,

1977) . Из сказанного следует, что те ПС-слова, которые строят простые структуры на основе концептуальных за­висимостей, требуют меньше всего внимания при обра­ботке, потому что они наименее интересны. Они образуют отдельный подкласс ПС-слов. На них в процессе анализа почти никогда не расходуется много времени. Им приписаны довольно простые ожидания, нацеленные обычно на за­полнение таких позиций, как ДЕЯТЕЛЬ, ОБЪЕКТ, К (направление), ОТ (направление), ИНСТРУМЕНТ. Чтобы начать искать информацию для удовлетворения этих ожи­даний, эти ожидания в конечном счете должны быть свя­заны с более интересным событием или должен сущест­вовать интересный деятель, который, предположительно, будет участвовать в данном действии.

Другие разновидности ПС-слов — это слова, ответст­венные за построение сценариев, и слова, ответственные за построение сцен. Слова обоих этих типов могут иметь гораздо более сложные запросы, часто предсказывающие возможные события. Единственное реальное различие меж­ду этими двумя разновидностями (с одной стороны, это слова типа "налет", "похищение", а с другой — слова типа "сдаваться", "осужденный") состоит в том, что на основе слов второй разновидности мы делаем умозаключение о вероятном сценарии, так как сцены не могут иметь места в изоляции, а на основе слов первой разновидности мы строим ожидания, касающиеся вероятных сцен данного сценария.

Другие структуры знаний, используемые при пони­мании текстов, такие, как планы, цели и темы, также ассоциированы с определенными ПС-словами (то есть со словами, которые строят эти структуры непосредственно), но для большого класса газетных сообщений оказывается достаточным учитывать те виды ПС-слов, которые упоми­нались выше. (Строго говоря, структуры знаний более высокого уровня обычно не фиксируются посредством какого-то конкретного слова непосредственно. Наличие таких структур чаще всего должно устанавливаться по­средством умозаключений.)

Когда система прочитывает некоторое ПС-слово, на основе шаблона, хранящегося в словаре, строится пустая структура события. Затем ИЧА проверяет, есть ли за­просы, ожидающие этого события. Часто событие довольно легко получает соответствующую интерпретацию благодаря ожиданиям, созданным на основе контекста рассказа. Если подходящих ожиданий нет, то учитывается уровень ин­тереса данного события, указанный в словаре. Если дан­ное событие не представляет большого интереса, то анали­затор переходит к следующему слову. Если же событие представляет значительный интерес, то вызываются ожи­дания, записанные в словарной статье данного слова, снабженные ссылкой на структуру нового события.

ИЧА следит за главным событием рассказа. Он прове­ряет, не возникло ли какого-то нового события, представ­ляющего больший интерес, чем старое главное событие. Если появившееся интересное событие представляет мень­ший интерес, чем текущее главное событие, и если оно не отвечает никакому ожиданию, то оно хранится в качестве необъясненного события, что указывает на необходимость для ИЧА искать какое-то объяснение.

А2 - СЛОВА, ОТВЕТСТВЕННЫЕ ЗА СОЗДАНИЕ ЭЛЕМЕНТОВ

(Образец словарной статьи А2 см. на с. 489.)

Многие слова, включая большинство существительных (типа "вооруженный человек" или "посольство"), участвуют в процессе понимания, заполняя пустые позиции в струк­турах событий. Мы называем этот класс словами, ответст­венными за создание элементов (token markers), сокращен­но — СЭ-слова. Эти слова приводят к построению элемента. Если данное слово представляет интерес или в оперативной памяти хранится какое-либо интересное определение (и только в этих случаях), то из оперативной памяти извле­каются слова, которые модифицируют данный элемент. Создаваемые элементы часто являются объектами, которые ищутся анализатором на основе ожиданий, сформирован­ных во время обработки предыдущих слов предложения.

Класс СЭ-слов может разбиваться на подклассы двумя способами. Прежде всего, имеется несколько различных типов элементов по их характеру: элементы, обозначающие деятеля, место, организацию, средства передвижения, время и другие. Тип создаваемого элемента является одним из факторов определения того, удовлетворяет ли данный новый элемент некоторому ожиданию, сформированному ранее.

Образец словарной статьи (А1)

‘ПС-слово*

‘ПС-слово,

задающее

сцену’

(WORD—DEF OCCUPIED (‘описываемое слово ’’занял"’ INTEREST 5 ‘интерес’ TYPE ЕВ ‘тип’ SUBCLASS SEB ‘подкласс’

TEMPLATE(SCR IPT ^DEMONSTRATE ‘шаблон’ (‘сценарий’ ‘демонстри­ровать’

ACTOR NIL ‘деятель’ ‘пусто’

OBJECT NIL ‘объект’ ‘пусто’ DEMANDS NIL ‘требований’ ’пусто’ METHOD (SCENE

‘метод’

(‘сцена’

ACTOR

‘деятель*

$OCCUPY

‘зани­

мать’

NIL

‘пусто*

~Слово OCCU­PIED иниции­рует построение структуры, за­дающей сцена­рий демонстра­ции, включаю­щий сцену зах­вата здания.

LOCATION NIL)) ‘место* ‘пусто*))

FILL (((ACTOR) (TOP—OF *AC- ~ Заполняются

TOR —ST ACK*)) позиции ‘заполнить* (((‘деятель’ (‘последний в на- деятелей

копителе деяте­лей*))

((METHOD ACTOR)

((‘деятель метода')

(TOP—OF •AC­TOR—STACK*))) (‘последний в* на­копителе деяте­лей*')))

REQS (FIND—DEMON—OBJECT ^Ожидание,

связанное с поис­ком того, против кого направ­лена демонстра­ция.

Южидание, свя­занное с поис­ком места де­монстрации. Южидание, свя­занное с поис­ком требований.

‘запросы* ‘найти—объект демона’

FIND—OCCUPY—LOC ‘найти—захваченное— место’

RECOGNIZE—

DEMANDS]

‘распознать—требования*]

Другое подразделение СЭ-слов касается того воздей­ствия, которое оказывает СЭ-слово на последующую об­работку. Это деление основано на том, насколько интерес­ным является данное СЭ-слово. Интересные СЭ-слова порождают ожидания относительно того, что мы можем ожидать в последующей части предложения. Так, слово gunman порождает ожидания, касающиеся стрельбы, по­хищения или ограбления. Интересные СЭ-слова, выполня­ющие роль деятеля в каком-либо событии, порождают, ес­тественно, ожидания, связанные с вероятным появлением дополнительной информации об этих людях. Например, gunman активизирует запросы, которые ищут подходящие сценарии.

СЭ-слова, не являющиеся интересными и поэтому не порождающие никаких ожиданий, могут быть отнесены к одному из двух подклассов — обычных (normal) СЭ-слов

и пустых СЭ-слов. Обычные СЭ-слова могут быть легко соотнесены с объектами, уже находящимися в памяти, даже если они не представляют интереса. Примеры обычных СЭ-слов: "аэропорт", "Вермонт", "служащие". Элементы, создаваемые обычными СЭ-словами, могут использоваться для заполнения позиций в представлении текста. Пустые СЭ-слова, с другой стороны,— это слова, сведения о ко­торых являются настолько нечеткими, что фактически бессмысленно включать их в окончательное представление предложения. К этому классу относятся слова типа "люди", "место", "кто-нибудь". Эти слова создают элементы, могу­щие аннулировать ожидания, но в окончательное представ­ление они не включаются. Если к данному элементу не адресовано никакое ожидание и он не представляет инте­реса сам по себе, то по нашей схеме анализа он игнори­руется, так как вряд ли есть смысл запоминать его.

В - СЛОВА, КОТОРЫЕ ЗАПИСЫВАЮТСЯ И ПРОПУСКАЮТСЯ

Многие слова нет нужды обрабатывать, когда мы прочи­тываем их в первый раз. Они просто записываются в опе­ративной памяти, а их обработка, если она оказывается необходимой, завершается позднее. Следует признать два важных положения, касающихся такого рода слов. Во- первых, тот факт, что мы записываем слово, еще не озна­чает, что мы будем обязаны осуществлять его дальнейшую обработку. Большинство записываемых и пропускаемых слов не представляет большого интереса, и если какое-то последующее интересное слово не потребует их рассмот­рения, пропущенные слова могут быть оставлены без дальнейшей обработки. Предполагается, что процесс за­поминания (записи) слова очень легок, так что записы­ваемые и пропускаемые слова часто требуют очень малень­ких затрат времени на их обработку. Другое важное по­ложение, касающееся такого рода слов, состоит в том, что при определении того, какие слова подлежат записи и пропуску,, а какие полностью пропускаются, существенную роль играют предметная область и контекст. Так, напри­мер, слово типа tall ‘высокий’ полностью пропускается во многих предметных областях (например, в сообщениях, помещаемых в различных рубриках газеты), но при чтении сообщения из спортивной жизни оно может быть расценено как слово, подлежащее записи и пропуску, так как высокий

Образец словарной статьи (А2) (WORD—DEF GUNMAN

человек7 -Слово GUNMAN является интерес­ным СЭ-словом.

‘описываемое слово* ‘вооруженный

INTEREST 5 ‘интерес’ 5 TYPE ТМ ‘тип’ СЭ-слово

SUBCLASS ACTOR ‘подкласс’ деятель MEMORY Т ‘память’ Т

REQS (CONFIRM—SHOOT —Ожидание стрельбы ‘запросы’ (‘подтвердить—стрелять’

заставивших дан­ного человека стре­лять в кого-то.

-'Набор ожиданий, которые задают сценарии, вероят­ные для данной ситуации. Если бу­дут удовлетворены условия одного из них, то остальные будут аннулирова­ны.

FIND—WHY—SHOOT —Ожидание причин, ‘найти—почему—стре­лять’

(FIND—$TERRORISM' (‘найти—сценарий— терроризм’

FIND—$ROBBERY ‘найти—сценарий— ограбления’

FIND—$KIDNAP ‘найти—сценарий—по­хищения’

FIND—$HIJACK] ‘найти—сценарий—на­лета’]

рост человека в некоторых ситуациях может выдвигаться на передний план.

Класс записываемых и пропускаемых слов может быть подразделен на несколько подклассов, в зависимости от того, что мы делаем со словом, если мы принимаем решение производить его дальнейшую обработку. (Напомним, что вполне вероятно, никакой обработки может не последовать вообще.)

BI - СЛОВА, СЛУЖАЩИЕ ДЛЯ УТОЧНЕНИЯ ПРЕДСТАВЛЕНИЙ ЭЛЕМЕНТОВ

Первый класс записываемых и пропускаемых слов на­целен на пополнение представлений элементов, построенных в результате обработки СЭ-слов. Слова этого класса служат для усовершенствования (уточнения) представлений эле­ментов (token refiners) и сокращенно обозначаются как УЭ-слова. Большинство слов, которые обычно выступают в составе именных групп, в том числе многие прилага­тельные, являются УЭ-словами в тех областях, где их нельзя пропускать полностью. Так, в рассмотренном выше примере Arabic является УЭ-словом, которое уточ­няет представление элемента в роли деятеля, построенного для слова gunman; это уточнение состоит в указании "na­tionality: Arabic" ‘национальность: араб’. Обработка всех УЭ-слов начинается одинаково. Каждое УЭ-слово под­лежит временному хранению в памяти до тех пор, пока не будет найдено то СЭ-слово, которое оно модифицирует; в этот момент оно может быть извлечено из памяти и под­вергнуто дальнейшей обработке; способ обработки зависит от типа УЭ-слова. (Если СЭ-слово оказывается неинтерес­ным, дальнейшая обработка не производится.)

Класс УЭ-слов может быть разбит на подклассы тремя способами в зависимости от того, как изменяются пред­ставления элементов, модифицируемых ими. Большой класс УЭ-слов приводит просто к добавлению какого-либо свойства к некоторому элементу. Эти УЭ-слова (будем называть их простыми УЭ-словами) включают употребитель­ные прилагательные типа "красный", "высокий", "араб­ский", если они в данной области не могут просто пропус­каться. Сюда же попадают обычно слова типа "ранний" или "поздний".

Другие УЭ-слова модифицируют свойства, добавленные к элементу другим модификатором. Например, в сочетании" about 20 gunmen ‘около 20 вооруженных людей’ в резуль­тате действия числа 20 к элементу, отображающему воору­женных людей, добавляется информация NUMBER 20, а слово about меняет эту запись на другую: NUMBER (APPROX 20). Слова этого класса можно назвать модифи­каторами УЭ-слов. Остается неясным, как часто слова этого класса могут вообще пропускаться. Скорее всего, большинство этих слов игнорируется почти всегда, но в

некоторых случаях их необходимо записывать в ОП и лишь затем пропускать.

Третий класс УЭ-слов — это имена собственные, просто добавляющие к элементу информацию о его имени. Так, в сочетании Kennedy International Airport ‘Международный аэропорт им. Кеннеди’ слово Kennedy добавляет к элементу, отображающему аэропорт, его на­звание. Обработка этих УЭ-слов отличается от обработки предыдущего подкласса лишь тем, что они не могут моди­фицироваться другими модификаторами.

Один общий момент в обработке всех типов УЭ-слов состоит в том, что в их словарных статьях может содер­жаться указание на то, что модифицируемый ими элемент становится более интересным. Так, Arabic gunman пред­ставляет больший интерес, чем просто gunman, благодаря тому, что УЭ-слово Arabic обладает высокой степенью интересности.

Заметим, что обработка по принципу ’’записать и про­пустить" облегчает анализ тех УЭ-слов, значение которых зависит от модифицируемых ими слов, так как реальная дефиниция данного УЭ-слова не подвергается обработке до тех пор, пока не становится известным соответствующее СЭ-слово. Такая обработка упрощает также случаи, когда СЭ-слово активно ищет конкретные типы слов, которые могут его модифицировать.

Образец словарной статьи (В1)

(‘описываемое ‘арабский’ слово’

‘тип’ ‘УЭ-слово’

‘подкласс’ ‘простое УЭ-слово’ ‘интерес’ 2

‘память’ Т

‘дефиниция’ ‘(нацио­нальность: араб)’

(WORD—DEF ARABIC

TYPE TR

SUBCLASS STR

INTEREST 2 MEMORY T DEF (NATIONA­

LITY. ARABIC)

В2 - СЛОВА, СЛУЖАЩИЕ ДЛЯ УТОЧНЕНИЯ ПРЕДСТАВЛЕНИЙ СОБЫТИЙ

Уточнители событий (event refiners) (сокращенно УС- слова) очень сходны с УЭ-словами, за исключением того, что они модифицируют не элементы, а события. Типичными для этого класса являются наречия типа "быстро", "глупо". Сюда же попадают слова "здесь", "прочь", так как они из­меняют содержание некоторой позиции в описании моди­фицируемого события, например в сочетаниях was shot here ‘был застрелен здесь’ или was led away ‘был уведен прочь’. Слова, которые хотелось бы относить к этому классу, на самом деле подлежат пропуску даже чаще, чем УЭ-слова. Упоминавшиеся выше наречия на -1у являются УС-словами в том случае, когда они сохранены в памяти, но чаще всего они расцениваются как пустые слова и пол­ностью пропускаются. Как указывалось выше, определение того, следует ли сохранять данное слово в памяти, зависит от предметной области. УС-слова разделяются на стан­дартные УС-слова и модификаторы УС-слов (аналогично делению УЭ-слов). Обработка протекает аналогично об­работке УЭ-слов, с тем отличием, что она начинается, когда создается представление некоторого события; в этом случае производится поиск УС-слов в последующей части текста, а также в оперативной памяти.

Образец словарной статьи (В2) (WORD—DEF AWAY (‘описываемое

TYPE ER SUBCLASS SER

слово’

‘тип’

DEF (TO. NOT-HERE) ‘дефиниция’

‘подкласс’

‘прочь’

‘УС-слово’ ‘стандартное УС-слово’ ‘(по направ­лению к: не­здесь)’

ВЗ - ФУНКЦИОНАЛЬНЫЕ СЛОВА

В английском языке есть важный класс слов, которые не обладают собственным значением или обладают им в слабой степени; они существуют исключительно для того, чтобы направлять процесс обработки текста. Эти слова, называемые функциональными словами, весьма употреби­тельны и включают артикли, предлоги и вспомогательные глаголы. Функциональные слова, вообще говоря, не могут быть совсем пропущены, но часто процесс анализа никогда к ним не возвращается во второй раз. Они должны запи-

сываться в оперативной памяти, поскольку в случае по­явления интересных слов они могут стать важными, но сами по себе они не нуждаются в обработке.

Роль артиклей (a, an, the) состоит в том, чтобы отмечать начало именных групп, а также показывать, какие УЭ- слова относятся к каким СЭ-словам. Когда мы читаем текст, они записываются вместе с УЭ-словами. Затем, в процессе обработки некоторого СЭ-слова, мы смотрим назад на предшествующие слова и пытаемся найти среди них УЭ-слова. Если мы встречаем артикль, наш поиск прекращается.

Предлоги (with ‘с’, ‘посредством’, to ‘k’, from ‘от’ и т. д.) имеют в английском языке немало функций. Часто они указывают, каким образом следующее за ними СЭ- слово должно включаться в создаваемую структуру. В на­шей системе предлоги чаще всего используются пассивным образом. ПС-слово нередко формирует ожидания для определенного предлога с указаниями относительно того, как поступать с СЭ-словом, стоящим после данного пред­лога. Так, слово shot ‘застрелил’ формирует ожидание для предлога with ‘с помощью’ и дает указание о том, что СЭ- слово, следующее после with, должно быть направлено в позицию ИНСТРУМЕНТА для данного события.

Немало функций несут и вспомогательные глаголы, например: фиксация времени (did go ‘пошел-таки’) или придание событию гипотетического оттенка (may go ‘мо­жет пойти’). Одно из важнейших употреблений вспомога­тельных глаголов — это использование форм глагола to be ‘быть’ для придания основному глаголу значения пассива. Когда событие строится в результате действия причастия прошедшего времени, анализатор проверяет наличие та­кого вспомогательного глагола, и если находит его, то соответствующим образом модифицирует процесс обра­ботки на низшем уровне.

Образец словарной статьи (ВЗ)

(WORD—DEF А (‘описываемое ‘неопределенный

слово’ артикль’

TYPE FW ‘тип’ ‘функциональное

слово’

SUBCLASS ART) ‘подкласс’ ‘артикль’)

Реляционные слова осуществляют связь между двумя событиями. Обработка всех этих слов проводится, как правило, единообразно. Слово хранится в памяти до тех пор, пока не появляется значительное событие. Тогда уста­навливается нужная связь между этим событием и преды­дущим. Если реляционное слово соединяет в предложении неинтересные события, то никакой дополнительной обра­ботки не производится.

Реляционные слова устанавливают два главных вида связи — временную и причинную. Первая обозначается словами типа before ‘перед тем как’, while ‘в то время как’, after ‘после того как’, а вторая — словами типа because ‘потому что’, since ‘так как’, therefore ‘поэтому’.

Образец словарной статьи (В4)

(WORD—DEF BEFORE (‘описываемое ‘перед тем

слово’ как’

TYPE RW ‘тип’ ‘реляцион­

ное слово’

SUBCLASS TRW ‘подкласс’ ‘временное

слово’

RELATION AFTER) ‘отношение’ ‘после’)

С - ПРОПУСКАЕМЫЕ СЛОВА

Неожиданно большой класс слов образуют слова, ко­торые пропускаются совсем. Когда мы их обрабатываем, мы абсолютно ничего с ними не делаем. Это один из способов экономии значительного количества времени в ходе об­работки текста. Из приводившегося выше примера в этот класс попадают такие слова, как and ‘и’, who ‘который’, speaking ‘говорящий’. Важная тема будущих исследова­ний — определение того, какие именно слова подлежат полному пропуску. Чем шире класс пропускаемых слов, тем быстрее будет работать программа. Видимо, сущест­вует мало слов (если такие вообще есть), которые могут пропускаться во всех предметных областях, для всех ка­тегорий читателей, для любого уровня обработки. Но для данного читателя, действующего в рамках данной пред­метной области, к категории пропускаемых относятся очень многие слова.

Множество пропускаемых слов может также пополнять­ся в процессе самой работы анализатора, даже за счет, казалось бы, очень интересных слов. Так, если мы уже знаем, что реализуется сценарий "захват заложников", то слова типа "террор", "захват", "стрельба" становятся пропускаемыми, так как мы уже вывели все умозаключения, которые могли бы быть подсказаны этими словами. Отно­сительно таких слов формируются ожидания, которые нейтрализуют приписанную им интересность. (...)

<< | >>
Источник: В.А. ЗВЕГИНЦЕВ. НОВОЕ В ЗАРУБЕЖНОЙ ЛИНГВИСТИКЕ. ВЫПУСК XII. ПРИКЛАДНАЯ ЛИНГВИСТИКА. МОСКВА «РАДУГА» - 1983. 1983

Еще по теме ОБРАБОТКА ТЕКСТА ПО ПРИНЦИПУ ИНТЕГРАЛЬНОГО ЧАСТИЧНОГО АНАЛИЗА: