ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн

ОБРАБОТКА ТЕКСТА ПО ПРИНЦИПУ ИНТЕГРАЛЬНОГО ЧАСТИЧНОГО АНАЛИЗА

Мы разработали программу, которая реализует теорию анализа, проиллюстрированную выше,— интегральный частичный анализатор (an Integrated Partial Parser) — ИЧА. В настоящем разделе мы рассмотрим, как работает этот анализатор.

Он нацелен на обработку ограниченного класса текстов, а именно газетных заметок на тему о терроризме и на смежные темы. Мы не пытались охватить все проблемы, встающие при автоматизации анализа. Основное внимание было сосредоточено на тех вопросах, которые связаны с сущностью такого рода анализаторов. Одна из известных проблем, которых мы не касались,— это обработка многозначных слов. К счастью, в рамках обрабатываемого нами класса рассказов большинство слов, особенно интересных, имеет ровно одно предпочитаемое значение. С помощью ИЧА было успешно обработано более 200 текстов, взятых непосредственно из различных газет. Многие из них были взяты наугад. В настоящее время ИЧА располагает словарем объемом более 2000 слов. Анализатор написан на LISP’e и эксплуатируется на машине системы DEC 20/50.

Ограничения данной программы связаны со словарем и знаниями о мире. Объем словаря в 2000 слов, типичный для экспериментальных программ в области искусственного интеллекта, все-таки несколько маловат, даже для текстов о терроризме. В настоящее время мы расширяем словарь. Программа ограничена также тем кругом текстов, для понимания которых она располагает соответствующими знаниями о мире. Мы брали только такие заметки, которые основаны на сценариях, но, как упоминалось выше, мы считаем, что общие методы ИЧА будут применимы и к другим формам знания. Возможности ИЧА могут быть усилены как путем добавления новой информации сценарного типа, аналогичной уже имеющемуся запасу знаний, так и путем учета ряда других типов знания о мире.

Другое ограничение ИЧА состоит в том, что он испытывает трудности при анализе текстов с тонкой организацией повествования,— текстов, в которых не очень прост переход к заключению.

Но именно такой тип текстов представляет трудности и для людей, особенно при быстром чтении. Планируемое решение этой проблемы сводится к тому, чтобы обеспечить возможность возврата и чтения текста в более тщательной манере, чем это обычно делает ИЧА.

Схема анализа, реализованная в ИЧА, основана на классификации слов в словаре с точки зрения того, что должен делать анализатор с каждым словом по мере его прочитывания. Следовательно, такие категории, как существительное, глагол и т. п., имеют смысл в анализаторе лишь в том случае, если они приводят к разным типам обработки.

Легко говорить, как мы это делали выше, что такое-то слово надо пропустить или сохранить или что-нибудь в этом роде. На практике же подобные решения мы должны принять заранее. Таким образом, ключевые проблемы реализации такого анализатора следующие: во-первых, установление категорий для подачи слов в словаре, которые будут полезны в данной модели; во-вторых, разработка процедуры для определения того, к какой категории подходит каждое данное слово. Как мы вскоре увидим, приписывание слова к определенной категории может зависеть от предметной области.

Возвращаясь к примеру в предыдущем разделе, мы можем сказать, что с прочитываемым словом можно поступать тремя способами. Слово может быть пропущено, оно может быть записано в ОП и затем пропущено или оно может сразу же быть подвергнуто полной обработке.

Первая возможность заключается в том, что его можно просто пропустить. Существует много слов, которые с точки зрения нормального чтения не имеют существенного понятийного содержания. Если вспомнить текст, приведенный в предыдущем разделе, то это будут слова: most ‘большая часть’, way ‘путь’, held ‘держал’.

Вторая возможность, которая следует из нашего примера, заключается в том, что слово может быть записано в ОП и затем пропущено. Слова, к которым следует применять эту стратегию обработки, несут определенную функциональную нагрузку или какое-то понятийное содержание, но при этом могут считаться банальными и неинтересными.

Тем не менее мы не можем их просто игнорировать, потому что их значения могут оказаться важными для конкретизации наших знаний о событиях и предметах, которые нас интересуют. Например, они могут использоваться для заполнения ролей в концептуальных структурах, представляющих интересные события. Они могут также больше не использоваться в последующем анализе. В соответствии с данной стратегией обрабатываются многие слова в нашем примере. Примерами могут служить слова Arabic, Iraqi и his, а также все артикли.

С такими словами система может поступать двумя способами. Либо их значение помогает в конкретизации чего- либо интересного (и в этом случае такое значение будет включено в семантическое представление текста), либо оно не помогает в решении этой задачи. Например, значение слова French ‘французский’ в сочетании

(1) before surrendering to French policemen

‘перед тем как сдаться французским полицейским’

включается в семантическое представление, потому что нас интересует вопрос о том, кому сдался террорист, то есть нас интересуют полицейские. С другой стороны, значение слова French в сочетании

(2) as he was led away by the French officers

‘в то время когда его уводили французские офицеры’

не включается в семантическое представление, потому что в сферу нашего интереса слово officers не попадает.

Существуют слова, которые, помимо понятийных характеристик, снабжены в словаре определенной информацией о связанных с ними процедурах; она записана в форме ожиданий, помогающих конкретизировать значение таких слов. Объектами подобных ожиданий часто являются слова, которые подлежат обработке в соответствии со стратегией ’’записать и пропустить". Например, вполне вероятно, что со словом embassy ‘посольство’ ассоциируется ожидание, направленное на поиск названия страны, которую данное посольство представляет, а слова policemen, officers и officials связаны с ожиданиями названия правительственного учреждения, от имени которого они действуют. Но если некоторое слово подлежит обработке по стратегии "записать и пропустить", то эти ожидания не должны пускаться в действие до тех пор, пока мы не будем уверены в том, что понятие, связанное с основным словом, действительно уточняет наши знания о чем-то интересном.

Если оказывается, что нас данное понятие не интересует, то нет смысла осуществлять ненужную обработку. Сравним обработку слова policemen в сочетании (1) с обработкой слова officers в сочетании (2). Поскольку выясняется, что понятие полиции в первом случае расширяет наши знания об интересующем нас событии, то представляется правдоподобным, что будет реализовано ожидание, связанное с указанием на государство, от имени которого действует полиция. Во втором случае, поскольку понятие ‘офицеры’ не расширяет наши знания о чем-либо интересном, то нет смысла применять здесь подобное правило.

Третья возможная стратегия обработки слова заключается в том, что оно немедленно и полностью обрабатывается, то есть система обращает внимание на его значение и на ожидания, им порождаемые. Именно эта стратегия применяется ко всякому слову, обладающему существенным и интересным понятийным содержанием. Эти понятия и ожидания управляют всем ходом анализа. Примеры из нашего рассказа включают слова gunman, shot и hostages. Ожидания, порождаемые этими словами, могут включать тот же тип простых конкретизирующих ожиданий (типа заполнения позиций), которые ассоциируются с некоторыми словами, подлежащими обработке по стратегии "записать и пропустить". Например, вполне возможно, что одно из ожиданий, порождаемых словом gunman, будет направлено на поиск национальной или политической принадлежности данного вооруженного человека.

Эти слова могут также порождать ожидания, оперирующие на гораздо более высоком уровне. Например, когда мы читаем слово gunman, мы ожидаем, что он мог осуществить действие стрельбы из какого-либо оружия. Мы также ожидаем событий, связанных с несколькими возможными сценариями, включая $ROBBERY ‘ограбление’ и $TERRO- RISM. Эти ожидания действуют примерно так же, как происходит применение сценариев (см. Gullingford,

1978) : они служат для того, чтобы распознавать события и тем самым определять, разумно ли усматривать их в данном контексте. Так, коль скоро мы знаем, что вооруженный человек скорее всего является террористом, мы ожидаем, что он может задерживать заложников, может стрелять и убивать каких-то людей и может выдвигать требования.

Мы знаем также, что данный эпизод может иметь лишь очень ограниченное число возможных исходов: террорист может быть взят в плен, он может сдаться сам, он может быть убит, он может сбежать. Эти ожидания высшего уровня помогают нам решить, что является важным в рассматриваемом тексте при взгляде на него "сверху вниз". Все это имеет решающее значение для организации анализа. Но гибкость анализа зависит также от его способности отвечать на вопросы относительно таких предметов и событий, которые не предусматриваются ожиданиями.

Ожидания, используемые в ИЧА, реализуются в форме запросов (см. R і е s b е с к, 1975). Запрос имеет форму правила вывода, или пары вида "проверка — действие". Если в результате проверки некоторого действующего запроса выясняется его справедливость, то выполняются соответствующие наборы действий. Список запросов упорядочен так, что, когда система приступает к рассмотрению действующих запросов, первыми рассматриваются запросы, активизированные позже всех, поскольку они представляют более новые и, видимо, более адекватные ожидания.

Поскольку теоретически проверки и действия, выполняемые запросами, могут быть совершенно произвольными, в нашей системе мы выделили в качестве необходимого лишь ограниченное множество запросов. У нас запросы могут делать следующее:

строить новые концептуальные структуры — обычно данный запрос строит только одну такую структуру;

заполнять какую-то позицию в некоторой концептуальной структуре некоторой другой концептуальной структурой, например: заполнять позицию ДЕЯТЕЛЬ в сцене $SHOOT ‘стрелять’ концептуальной структурой, соответствующей конкретному вооруженному человеку;

активизировать другие запросы — часто это запросы, которые пытаются заполнить пустые позиции в структуре, создаваемой под воздействием запроса-инициатора; это могут быть также ожидания, касающиеся действий, состояний или более сложных эпизодов, которые могут следовать далее;

отменять запросы — в этом случае речь идет об аннулировании какого-либо запроса (возможно, и самого данного запроса), когда он перестает быть уместным.

Существует три типа проверок, выполняемых запросами:

проверка конкретных лексических единиц, например: служебные слова часто являются характерным признаком той или иной конструкции; так, в сочетании surrender to French policemen ‘сдаться французским полицейским’ запросы, связанные со словом surrender (или со сценарием $SURRENDER), могут быть направлены на поиск слова to (предлог), которое служит признаком следующего за ним обозначения властей, которым некто сдался;

проверка наличия лексических единиц, удовлетворяющих некоторому условию; например, это могут быть слова, активизирующие какой-то конкретный сценарий;

поиск объектов или событий определенного структурносемантического типа. Это может быть такая простая процедура, как проверка структур на совпадение с образцом; либо речь может идти о проверке семантических признаков вроде "человек" или "власти".

Тот факт, что запросы могут искать конкретные лексические единицы, играет очень важную роль в сокращении времени обработки. Этот резерв обеспечивается как запросами, которые ищут служебные слова (типа предлогов), так и запросами, которые ищут более существенные факты. Часто слово может вызвать ожидания, направленные на поиск конкретных слов, указывающих, какой сценарий применим в данной ситуации. Например, упоминание вооруженного человека порождает ожидания, которые ищут подтверждения для сценариев, связанных с терроризмом, похищением или ограблением. Запрос, целью которого является поиск подтверждений для сценария налета, может включать проверки на конкретные слова (или сочетания) типа diverted ‘отвлекли внимание’, hijack ‘налет на транспорт (с целью ограбления)’, took over ‘увезли’, которые сигнализируют о наличии сцены налета. Запросы используют также проверки на концептуальном уровне.

Запрос, активизируемый словом gunman и проверяющий уместность сценария терроризма, обращает внимание на место происшествия. Если это место, где размещается какая-то политическая организация (посольство, штаб-квартира какой-либо партии и т. п.), то мы имеем дело с явным подтверждением пригодности сценария терроризма. Образец запроса приводится ниже (см. стр. 431 и сл.).

Внутри широких категорий слов, подлежащих немедленной обработке, и слов, которые записываются в ОП и пропускаются, существуют подкатегории, помогающие решать вопрос о конкретном способе обработки данного слова. Необходимо высказать еще два условия, влияющие на классификацию слов. Первое связано с тем, как данное слово видоизменяет создаваемую семантическую репрезентацию; второе — это тип ожиданий, вызываемых данным словом. Классификация слов учитывает оба этих условия. Ниже описывается каждый класс слов и указывается, как их обрабатывает ИЧА. Для каждого класса приводится образец словарной статьи.

Образец запроса

~FIND— ~На основании обнаружения подходя-

$HIJACK щих слов или понятий вызывает сце-

‘найти — нарий налета на транспорт (с целью

сценарий ограбления), строит представление со-

— налёта’ бытия налета и порождает несколько

новых запросов, ожидая сцены и лру- гие действия. (Данная команда вызывается словом GUNMAN.)

(DEF—REQ FIND—$HIJACK

‘(дефиниция запроса найти—сценарий—налета’

TEST (HIJACK—INSTANTIATOR ~Тест ищет слова,

*NEW—ITEM*) которые указы-

проверка (слово—вызывающее — вают на сцена-

налет* новая—единица*)’

ACTION (REQ—EVENT 8 (SCRIPT JHIJACK ‘действие

(запрос—события 8 (сценарий налета’

рии налета

.'Действие строит событие по сценарию налета при уровне интереса 8, заполняемые позиции здесь указаны. Позиция деятеля

STACK*)))

ACTOR	заполняется последним деятелем, поступившим в НАКОПИТЕЛЬ ДЕЯТЕЛЕЙ. NIL
‘деятель’	‘пусто’
DEMANDS	NIL
‘требования’	‘пусто’
FROM	NIL
‘от’	‘пусто’
DESTINATION	NIL
‘цель’	‘ пусто’
ТО	NIL
‘к’	‘пусто’
PASSANGERS	NIL
‘пассажиры’	‘пусто’
VEHICLE	NIL)
‘транспорт’	‘пусто’)
OR. (TOP—OF •	ACTOR—

‘((деятель, (последний в ‘накопителе—деятелей*)))’ (REDUNDANT—HIJACK- WORDS

‘(избыточные—слова—налета’ FIND—HIJACK— DESTINATION ‘найти—цель—налета’

FIND—HIJACK—VEHICLE ‘найти—транспорт—налета’) FIND—HIJACK— PASSANGERS ‘найти—пассажиров—налета’ FIND—HIJACK—EVENTS ‘найти—события—налета’ SURRENDER—SCENE ‘сцена—сдачи’

RECOGNIZE—DEMANDS ‘распознать—требования’ RECOGNIZE—COUNTERMEASURES)

‘распознать—меры—противО’ действия’)

Активизируются эти новые запросы

В рамках теории интегрального анализа слова классифицируются прежде всего в соответствии с типом концептуальных структур, которые они строят. Иначе говоря, наиболее важная роль, которую играет слово с точки зрения предлагаемой концепции анализа, это не его синтаксическая роль ("существительное", "глагол" и т. п.) и даже не его понятийная роль ("деятель", "действие" и т. п.). С нашей точки зрения, наиболее существенная характеристика слова — это то, как оно влияет на обработку текста в рамках интегрального процесса понимания.

В семантическом представлении, приведенном выше для предложения о вооруженном человеке, говорящем по-арабски, представлены два разных вида единиц. С одной стороны, имеют место определенные события* сценарий терроризма, сцена пленения, убийство вооруженного человека и т. д., с другой стороны — индивидуальные понятия, играющие ту или иную роль: "вооруженный человек", заполняющий позицию ДЕЯТЕЛЯ в сценарии терроризма, или "иракское посольство", заполняющее позицию МЕСТА в этом сценарии, и т. д. Слова, заполняющие позиции, мы будем называть элементами (tokens). Имея в виду это разграничение между элементами и событиями, рассмотрим классификацию слов.

А1— СЛОВА, ОТВЕТСТВЕННЫЕ ЗА ПРЕДСТАВЛЕНИЕ СОБЫТИЙ

(Образец словарной статьи AI см. на с. 436—437).

Один класс образуют слова, которые инициируют построение структур событий. Мы называем их словами, ответственными за представление событий (event builders), сокращенно — ПС-слова. Этот класс слов включает много глаголов и ряд существительных типа "убийство", "мятеж", "налетчик". Всем ПС-словам приписывается указание на уровень интереса. Это помогает определять, является ли событие достаточно значимым для того, чтобы быть включенным в окончательное представление текста, то есть достаточно ли оно интересно для того, чтобы считать его центральным событием в данном представлении, и достаточно ли оно важно для того, чтобы мы тратили драгоценное время обработки на попытки заполнить его пустые позиции. Всем ПС-словам приписывается также набор ожиданий, помогающих управлять ходом анализа. Эти ожидания разнообразны — от запросов, имеющих своей целью заполнить конкретные позиции последующими словами текста, до общих ожиданий относительно событий, которые, по всей вероятности, должны произойти (в соответствии с набором сцен некоторого сценария).

ПС-слова подразделяются далее согласно типу события, построение которого они инициируют. Многие широкоупотребительные слова типа ”дал“, "пошел", "съел" строят простые события (не представляющие большого интереса с точки зрения своих внутренних свойств). Это события, которые мы всегда могли представлять довольно легко в рамках теории концептуальных зависимостей (Schank, 1972; 1975). В ходе нашей последующей работы над структурами знаний более высокого уровня мы пришли к выводу, что наиболее существенными являются те виды семантических представлений, которые связаны со сценариями, планами и целями (см. Schank and Abelson,

1977) . Из сказанного следует, что те ПС-слова, которые строят простые структуры на основе концептуальных зависимостей, требуют меньше всего внимания при обработке, потому что они наименее интересны. Они образуют отдельный подкласс ПС-слов. На них в процессе анализа почти никогда не расходуется много времени. Им приписаны довольно простые ожидания, нацеленные обычно на заполнение таких позиций, как ДЕЯТЕЛЬ, ОБЪЕКТ, К (направление), ОТ (направление), ИНСТРУМЕНТ. Чтобы начать искать информацию для удовлетворения этих ожиданий, эти ожидания в конечном счете должны быть связаны с более интересным событием или должен существовать интересный деятель, который, предположительно, будет участвовать в данном действии.

Другие разновидности ПС-слов — это слова, ответственные за построение сценариев, и слова, ответственные за построение сцен. Слова обоих этих типов могут иметь гораздо более сложные запросы, часто предсказывающие возможные события. Единственное реальное различие между этими двумя разновидностями (с одной стороны, это слова типа "налет", "похищение", а с другой — слова типа "сдаваться", "осужденный") состоит в том, что на основе слов второй разновидности мы делаем умозаключение о вероятном сценарии, так как сцены не могут иметь места в изоляции, а на основе слов первой разновидности мы строим ожидания, касающиеся вероятных сцен данного сценария.

Другие структуры знаний, используемые при понимании текстов, такие, как планы, цели и темы, также ассоциированы с определенными ПС-словами (то есть со словами, которые строят эти структуры непосредственно), но для большого класса газетных сообщений оказывается достаточным учитывать те виды ПС-слов, которые упоминались выше. (Строго говоря, структуры знаний более высокого уровня обычно не фиксируются посредством какого-то конкретного слова непосредственно. Наличие таких структур чаще всего должно устанавливаться посредством умозаключений.)

Когда система прочитывает некоторое ПС-слово, на основе шаблона, хранящегося в словаре, строится пустая структура события. Затем ИЧА проверяет, есть ли запросы, ожидающие этого события. Часто событие довольно легко получает соответствующую интерпретацию благодаря ожиданиям, созданным на основе контекста рассказа. Если подходящих ожиданий нет, то учитывается уровень интереса данного события, указанный в словаре. Если данное событие не представляет большого интереса, то анализатор переходит к следующему слову. Если же событие представляет значительный интерес, то вызываются ожидания, записанные в словарной статье данного слова, снабженные ссылкой на структуру нового события.

ИЧА следит за главным событием рассказа. Он проверяет, не возникло ли какого-то нового события, представляющего больший интерес, чем старое главное событие. Если появившееся интересное событие представляет меньший интерес, чем текущее главное событие, и если оно не отвечает никакому ожиданию, то оно хранится в качестве необъясненного события, что указывает на необходимость для ИЧА искать какое-то объяснение.

А2 - СЛОВА, ОТВЕТСТВЕННЫЕ ЗА СОЗДАНИЕ ЭЛЕМЕНТОВ

(Образец словарной статьи А2 см. на с. 489.)

Многие слова, включая большинство существительных (типа "вооруженный человек" или "посольство"), участвуют в процессе понимания, заполняя пустые позиции в структурах событий. Мы называем этот класс словами, ответственными за создание элементов (token markers), сокращенно — СЭ-слова. Эти слова приводят к построению элемента. Если данное слово представляет интерес или в оперативной памяти хранится какое-либо интересное определение (и только в этих случаях), то из оперативной памяти извлекаются слова, которые модифицируют данный элемент. Создаваемые элементы часто являются объектами, которые ищутся анализатором на основе ожиданий, сформированных во время обработки предыдущих слов предложения.

Класс СЭ-слов может разбиваться на подклассы двумя способами. Прежде всего, имеется несколько различных типов элементов по их характеру: элементы, обозначающие деятеля, место, организацию, средства передвижения, время и другие. Тип создаваемого элемента является одним из факторов определения того, удовлетворяет ли данный новый элемент некоторому ожиданию, сформированному ранее.

Образец словарной статьи (А1)

‘ПС-слово*

‘ПС-слово,

задающее

сцену’

(WORD—DEF OCCUPIED (‘описываемое слово ’’занял"’ INTEREST 5 ‘интерес’ TYPE ЕВ ‘тип’ SUBCLASS SEB ‘подкласс’

TEMPLATE(SCR IPT ^DEMONSTRATE ‘шаблон’ (‘сценарий’ ‘демонстрировать’

ACTOR NIL ‘деятель’ ‘пусто’

OBJECT NIL ‘объект’ ‘пусто’ DEMANDS NIL ‘требований’ ’пусто’ METHOD (SCENE

‘метод’

(‘сцена’

ACTOR

‘деятель*

$OCCUPY

‘зани

мать’

NIL

‘пусто*

~Слово OCCUPIED инициирует построение структуры, задающей сценарий демонстрации, включающий сцену захвата здания.

LOCATION NIL)) ‘место* ‘пусто*))

FILL (((ACTOR) (TOP—OF *AC- ~ Заполняются

TOR —ST ACK*)) позиции ‘заполнить* (((‘деятель’ (‘последний в на- деятелей

копителе деятелей*))

((METHOD ACTOR)

((‘деятель метода')

(TOP—OF •ACTOR—STACK*))) (‘последний в* накопителе деятелей*')))

REQS (FIND—DEMON—OBJECT ^Ожидание,

связанное с поиском того, против кого направлена демонстрация.

Южидание, связанное с поиском места демонстрации. Южидание, связанное с поиском требований.

‘запросы* ‘найти—объект демона’

FIND—OCCUPY—LOC ‘найти—захваченное— место’

RECOGNIZE—

DEMANDS]

‘распознать—требования*]

Другое подразделение СЭ-слов касается того воздействия, которое оказывает СЭ-слово на последующую обработку. Это деление основано на том, насколько интересным является данное СЭ-слово. Интересные СЭ-слова порождают ожидания относительно того, что мы можем ожидать в последующей части предложения. Так, слово gunman порождает ожидания, касающиеся стрельбы, похищения или ограбления. Интересные СЭ-слова, выполняющие роль деятеля в каком-либо событии, порождают, естественно, ожидания, связанные с вероятным появлением дополнительной информации об этих людях. Например, gunman активизирует запросы, которые ищут подходящие сценарии.

СЭ-слова, не являющиеся интересными и поэтому не порождающие никаких ожиданий, могут быть отнесены к одному из двух подклассов — обычных (normal) СЭ-слов

и пустых СЭ-слов. Обычные СЭ-слова могут быть легко соотнесены с объектами, уже находящимися в памяти, даже если они не представляют интереса. Примеры обычных СЭ-слов: "аэропорт", "Вермонт", "служащие". Элементы, создаваемые обычными СЭ-словами, могут использоваться для заполнения позиций в представлении текста. Пустые СЭ-слова, с другой стороны,— это слова, сведения о которых являются настолько нечеткими, что фактически бессмысленно включать их в окончательное представление предложения. К этому классу относятся слова типа "люди", "место", "кто-нибудь". Эти слова создают элементы, могущие аннулировать ожидания, но в окончательное представление они не включаются. Если к данному элементу не адресовано никакое ожидание и он не представляет интереса сам по себе, то по нашей схеме анализа он игнорируется, так как вряд ли есть смысл запоминать его.

В - СЛОВА, КОТОРЫЕ ЗАПИСЫВАЮТСЯ И ПРОПУСКАЮТСЯ

Многие слова нет нужды обрабатывать, когда мы прочитываем их в первый раз. Они просто записываются в оперативной памяти, а их обработка, если она оказывается необходимой, завершается позднее. Следует признать два важных положения, касающихся такого рода слов. Во- первых, тот факт, что мы записываем слово, еще не означает, что мы будем обязаны осуществлять его дальнейшую обработку. Большинство записываемых и пропускаемых слов не представляет большого интереса, и если какое-то последующее интересное слово не потребует их рассмотрения, пропущенные слова могут быть оставлены без дальнейшей обработки. Предполагается, что процесс запоминания (записи) слова очень легок, так что записываемые и пропускаемые слова часто требуют очень маленьких затрат времени на их обработку. Другое важное положение, касающееся такого рода слов, состоит в том, что при определении того, какие слова подлежат записи и пропуску,, а какие полностью пропускаются, существенную роль играют предметная область и контекст. Так, например, слово типа tall ‘высокий’ полностью пропускается во многих предметных областях (например, в сообщениях, помещаемых в различных рубриках газеты), но при чтении сообщения из спортивной жизни оно может быть расценено как слово, подлежащее записи и пропуску, так как высокий

Образец словарной статьи (А2) (WORD—DEF GUNMAN

человек⁷ -Слово GUNMAN является интересным СЭ-словом.

‘описываемое слово* ‘вооруженный

INTEREST 5 ‘интерес’ 5 TYPE ТМ ‘тип’ СЭ-слово

SUBCLASS ACTOR ‘подкласс’ деятель MEMORY Т ‘память’ Т

REQS (CONFIRM—SHOOT —Ожидание стрельбы ‘запросы’ (‘подтвердить—стрелять’

заставивших данного человека стрелять в кого-то.

-'Набор ожиданий, которые задают сценарии, вероятные для данной ситуации. Если будут удовлетворены условия одного из них, то остальные будут аннулированы.

FIND—WHY—SHOOT —Ожидание причин, ‘найти—почему—стрелять’

(FIND—$TERRORISM' (‘найти—сценарий— терроризм’

FIND—$ROBBERY ‘найти—сценарий— ограбления’

FIND—$KIDNAP ‘найти—сценарий—похищения’

FIND—$HIJACK] ‘найти—сценарий—налета’]

рост человека в некоторых ситуациях может выдвигаться на передний план.

Класс записываемых и пропускаемых слов может быть подразделен на несколько подклассов, в зависимости от того, что мы делаем со словом, если мы принимаем решение производить его дальнейшую обработку. (Напомним, что вполне вероятно, никакой обработки может не последовать вообще.)

BI - СЛОВА, СЛУЖАЩИЕ ДЛЯ УТОЧНЕНИЯ ПРЕДСТАВЛЕНИЙ ЭЛЕМЕНТОВ

Первый класс записываемых и пропускаемых слов нацелен на пополнение представлений элементов, построенных в результате обработки СЭ-слов. Слова этого класса служат для усовершенствования (уточнения) представлений элементов (token refiners) и сокращенно обозначаются как УЭ-слова. Большинство слов, которые обычно выступают в составе именных групп, в том числе многие прилагательные, являются УЭ-словами в тех областях, где их нельзя пропускать полностью. Так, в рассмотренном выше примере Arabic является УЭ-словом, которое уточняет представление элемента в роли деятеля, построенного для слова gunman; это уточнение состоит в указании "nationality: Arabic" ‘национальность: араб’. Обработка всех УЭ-слов начинается одинаково. Каждое УЭ-слово подлежит временному хранению в памяти до тех пор, пока не будет найдено то СЭ-слово, которое оно модифицирует; в этот момент оно может быть извлечено из памяти и подвергнуто дальнейшей обработке; способ обработки зависит от типа УЭ-слова. (Если СЭ-слово оказывается неинтересным, дальнейшая обработка не производится.)

Класс УЭ-слов может быть разбит на подклассы тремя способами в зависимости от того, как изменяются представления элементов, модифицируемых ими. Большой класс УЭ-слов приводит просто к добавлению какого-либо свойства к некоторому элементу. Эти УЭ-слова (будем называть их простыми УЭ-словами) включают употребительные прилагательные типа "красный", "высокий", "арабский", если они в данной области не могут просто пропускаться. Сюда же попадают обычно слова типа "ранний" или "поздний".

Другие УЭ-слова модифицируют свойства, добавленные к элементу другим модификатором. Например, в сочетании" about 20 gunmen ‘около 20 вооруженных людей’ в результате действия числа 20 к элементу, отображающему вооруженных людей, добавляется информация NUMBER 20, а слово about меняет эту запись на другую: NUMBER (APPROX 20). Слова этого класса можно назвать модификаторами УЭ-слов. Остается неясным, как часто слова этого класса могут вообще пропускаться. Скорее всего, большинство этих слов игнорируется почти всегда, но в

некоторых случаях их необходимо записывать в ОП и лишь затем пропускать.

Третий класс УЭ-слов — это имена собственные, просто добавляющие к элементу информацию о его имени. Так, в сочетании Kennedy International Airport ‘Международный аэропорт им. Кеннеди’ слово Kennedy добавляет к элементу, отображающему аэропорт, его название. Обработка этих УЭ-слов отличается от обработки предыдущего подкласса лишь тем, что они не могут модифицироваться другими модификаторами.

Один общий момент в обработке всех типов УЭ-слов состоит в том, что в их словарных статьях может содержаться указание на то, что модифицируемый ими элемент становится более интересным. Так, Arabic gunman представляет больший интерес, чем просто gunman, благодаря тому, что УЭ-слово Arabic обладает высокой степенью интересности.

Заметим, что обработка по принципу ’’записать и пропустить" облегчает анализ тех УЭ-слов, значение которых зависит от модифицируемых ими слов, так как реальная дефиниция данного УЭ-слова не подвергается обработке до тех пор, пока не становится известным соответствующее СЭ-слово. Такая обработка упрощает также случаи, когда СЭ-слово активно ищет конкретные типы слов, которые могут его модифицировать.

Образец словарной статьи (В1)

(‘описываемое ‘арабский’ слово’

‘тип’ ‘УЭ-слово’

‘подкласс’ ‘простое УЭ-слово’ ‘интерес’ 2

‘память’ Т

‘дефиниция’ ‘(национальность: араб)’

(WORD—DEF ARABIC

TYPE TR

SUBCLASS STR

INTEREST 2 MEMORY T DEF (NATIONA

LITY. ARABIC)

В2 - СЛОВА, СЛУЖАЩИЕ ДЛЯ УТОЧНЕНИЯ ПРЕДСТАВЛЕНИЙ СОБЫТИЙ

Уточнители событий (event refiners) (сокращенно УС- слова) очень сходны с УЭ-словами, за исключением того, что они модифицируют не элементы, а события. Типичными для этого класса являются наречия типа "быстро", "глупо". Сюда же попадают слова "здесь", "прочь", так как они изменяют содержание некоторой позиции в описании модифицируемого события, например в сочетаниях was shot here ‘был застрелен здесь’ или was led away ‘был уведен прочь’. Слова, которые хотелось бы относить к этому классу, на самом деле подлежат пропуску даже чаще, чем УЭ-слова. Упоминавшиеся выше наречия на -1у являются УС-словами в том случае, когда они сохранены в памяти, но чаще всего они расцениваются как пустые слова и полностью пропускаются. Как указывалось выше, определение того, следует ли сохранять данное слово в памяти, зависит от предметной области. УС-слова разделяются на стандартные УС-слова и модификаторы УС-слов (аналогично делению УЭ-слов). Обработка протекает аналогично обработке УЭ-слов, с тем отличием, что она начинается, когда создается представление некоторого события; в этом случае производится поиск УС-слов в последующей части текста, а также в оперативной памяти.

Образец словарной статьи (В2) (WORD—DEF AWAY (‘описываемое

TYPE ER SUBCLASS SER

слово’

‘тип’

DEF (TO. NOT-HERE) ‘дефиниция’

‘подкласс’

‘прочь’

‘УС-слово’ ‘стандартное УС-слово’ ‘(по направлению к: нездесь)’

ВЗ - ФУНКЦИОНАЛЬНЫЕ СЛОВА

В английском языке есть важный класс слов, которые не обладают собственным значением или обладают им в слабой степени; они существуют исключительно для того, чтобы направлять процесс обработки текста. Эти слова, называемые функциональными словами, весьма употребительны и включают артикли, предлоги и вспомогательные глаголы. Функциональные слова, вообще говоря, не могут быть совсем пропущены, но часто процесс анализа никогда к ним не возвращается во второй раз. Они должны запи-

сываться в оперативной памяти, поскольку в случае появления интересных слов они могут стать важными, но сами по себе они не нуждаются в обработке.

Роль артиклей (a, an, the) состоит в том, чтобы отмечать начало именных групп, а также показывать, какие УЭ- слова относятся к каким СЭ-словам. Когда мы читаем текст, они записываются вместе с УЭ-словами. Затем, в процессе обработки некоторого СЭ-слова, мы смотрим назад на предшествующие слова и пытаемся найти среди них УЭ-слова. Если мы встречаем артикль, наш поиск прекращается.

Предлоги (with ‘с’, ‘посредством’, to ‘k’, from ‘от’ и т. д.) имеют в английском языке немало функций. Часто они указывают, каким образом следующее за ними СЭ- слово должно включаться в создаваемую структуру. В нашей системе предлоги чаще всего используются пассивным образом. ПС-слово нередко формирует ожидания для определенного предлога с указаниями относительно того, как поступать с СЭ-словом, стоящим после данного предлога. Так, слово shot ‘застрелил’ формирует ожидание для предлога with ‘с помощью’ и дает указание о том, что СЭ- слово, следующее после with, должно быть направлено в позицию ИНСТРУМЕНТА для данного события.

Немало функций несут и вспомогательные глаголы, например: фиксация времени (did go ‘пошел-таки’) или придание событию гипотетического оттенка (may go ‘может пойти’). Одно из важнейших употреблений вспомогательных глаголов — это использование форм глагола to be ‘быть’ для придания основному глаголу значения пассива. Когда событие строится в результате действия причастия прошедшего времени, анализатор проверяет наличие такого вспомогательного глагола, и если находит его, то соответствующим образом модифицирует процесс обработки на низшем уровне.

Образец словарной статьи (ВЗ)

(WORD—DEF А (‘описываемое ‘неопределенный

слово’ артикль’

TYPE FW ‘тип’ ‘функциональное

слово’

SUBCLASS ART) ‘подкласс’ ‘артикль’)

Реляционные слова осуществляют связь между двумя событиями. Обработка всех этих слов проводится, как правило, единообразно. Слово хранится в памяти до тех пор, пока не появляется значительное событие. Тогда устанавливается нужная связь между этим событием и предыдущим. Если реляционное слово соединяет в предложении неинтересные события, то никакой дополнительной обработки не производится.

Реляционные слова устанавливают два главных вида связи — временную и причинную. Первая обозначается словами типа before ‘перед тем как’, while ‘в то время как’, after ‘после того как’, а вторая — словами типа because ‘потому что’, since ‘так как’, therefore ‘поэтому’.

Образец словарной статьи (В4)

(WORD—DEF BEFORE (‘описываемое ‘перед тем

слово’ как’

TYPE RW ‘тип’ ‘реляцион

ное слово’

SUBCLASS TRW ‘подкласс’ ‘временное

слово’

RELATION AFTER) ‘отношение’ ‘после’)

С - ПРОПУСКАЕМЫЕ СЛОВА

Неожиданно большой класс слов образуют слова, которые пропускаются совсем. Когда мы их обрабатываем, мы абсолютно ничего с ними не делаем. Это один из способов экономии значительного количества времени в ходе обработки текста. Из приводившегося выше примера в этот класс попадают такие слова, как and ‘и’, who ‘который’, speaking ‘говорящий’. Важная тема будущих исследований — определение того, какие именно слова подлежат полному пропуску. Чем шире класс пропускаемых слов, тем быстрее будет работать программа. Видимо, существует мало слов (если такие вообще есть), которые могут пропускаться во всех предметных областях, для всех категорий читателей, для любого уровня обработки. Но для данного читателя, действующего в рамках данной предметной области, к категории пропускаемых относятся очень многие слова.

Множество пропускаемых слов может также пополняться в процессе самой работы анализатора, даже за счет, казалось бы, очень интересных слов. Так, если мы уже знаем, что реализуется сценарий "захват заложников", то слова типа "террор", "захват", "стрельба" становятся пропускаемыми, так как мы уже вывели все умозаключения, которые могли бы быть подсказаны этими словами. Относительно таких слов формируются ожидания, которые нейтрализуют приписанную им интересность. (...)

<< | >>

↑

Источник: В.А. ЗВЕГИНЦЕВ. НОВОЕ В ЗАРУБЕЖНОЙ ЛИНГВИСТИКЕ. ВЫПУСК XII. ПРИКЛАДНАЯ ЛИНГВИСТИКА. МОСКВА «РАДУГА» - 1983. 1983

Еще по теме ОБРАБОТКА ТЕКСТА ПО ПРИНЦИПУ ИНТЕГРАЛЬНОГО ЧАСТИЧНОГО АНАЛИЗА:

- Английский язык - Диалектология - Иностранные языки - История русского языка - Лексикология. Фразеология. Лексикография - Лингвокультура - Общая лингвистика - Общее языкознание - Русская филология - Русский язык - Синтаксис - Словообразование и морфология - Стилистика и культура речи - Украинский язык - Фонетика. Графика. Орфография -

- Архитектура и строительство - Безопасность жизнедеятельности - Библиотечное дело - Бизнес - Биология - Военные дисциплины - География - Геология - Демография - Диссертации России - Естествознание - Журналистика и СМИ - Информатика, вычислительная техника и управление - Искусствоведение - История - Культурология - Литература - Маркетинг - Математика - Медицина - Менеджмент - Педагогика - Политология - Право России - Право України - Промышленность - Психология - Реклама - Религиоведение - Социология - Страхование - Технические науки - Учебный процесс - Физика - Философия - Финансы - Химия - Художественные науки - Экология - Экономика - Энергетика - Юриспруденция - Языкознание -