ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

ГЛАВА 5 ВЫРАЖЕНИЕ СМЫСЛОВОГО СОДЕРЖАНИЯ ТЕКСТА В ЕГО СТРУКТУРЕ

С.Н. Виноградов

Текст рассматривается как «единство некоторого более или менее завершенного содержания (смысла) и речи, формирующей и выра­жающей это содержание» [12, с. 12-13].

Согласно современным семиотическим представлениям, текст включается в состав знаковых еди­ниц, рассматривается как знак, обладающий специфическими свойствами. Тогда смысл текста входит в план содержания данного знака, а материаль­ная структура текста является его планом выражения. Семиотические свойства текста до настоящего времени изучены явно недостаточно. Акту­альность такого изучения связана с вниманием к когнитивным аспектам языка, с антропоцентрическим взглядом на него, с задачами компьютер­ной обработки языковой информации. Тезис Ю.М. Лотмана о том, что текст обнаруживает черты интеллектуального устройства [19, с. 7], кон­кретизируется в исследованиях в области информационных технологий, благодаря которым получены новые результаты в автоматизированном выявлении смысла текста и в осуществлении диалога с текстом в процессе человеко-машинного взаимодействия. Эти результаты наглядно видны в поисковых технологиях Интернета, которые не могут быть осуществлены без эмпирических представлений о том, как может быть представлено со­держание контента - текстового наполнения сайтов. По причине актуаль­ности данной проблематики необходимо обратиться к теоретическому осмыслению понятия «смысл текста».

При обсуждении содержания данного понятия будем исходить из концепции, предлагаемой в книге А.И. Новикова «Текст и его смысло­вые доминанты» [20], в которой отразились и разные аспекты понятия

смысла, и нерешённые проблемы в этой области, и перспективы соот­ветствующих исследований. А.И. Новиков определяет понятие смысла таким образом: «В работах, посвящённых анализу текста с коммуника­тивной и когнитивной точек зрения, смысл обычно рассматривают как то ментальное образование, которое формируется в результате его по­нимания» [20, с.

50]. Смысл изучается разными науками, которые вы­деляют в нём разные аспекты: «...Если философия помещает смысл в сферу познавательных процессов и тем самым в сферу действительно­сти, то психология - в структуре (в структуру? - С.В.) личности, её мо­тивов, целей» [20, с. 52]. Таким образом, высказывания о смысле носят гипотетический характер (по крайней мере, характеризуют различную «локализацию» смысла). Кроме того, существуют понятия, близкие по содержанию понятию «смысл текста», передаваемые другими термина­ми. Так, А.И. Новиков различает смысл текста и его содержание: «Со­держание формируется как ментальное образование, моделирующее тот фрагмент действительности, о котором говорится в тексте, а смысл - это мысль о действительности, т. е. интерпретация того, что сообщается в тексте» [20, с. 109]. Впрочем, «соотношение содержания и смысла может быть различным в зависимости от вида текста... В одних случаях расхождения (расхождение? - С.В.) между смыслом и содержанием мо­жет быть настолько незначительным, что они практически совпадают. В других же случаях это расхождение может быть достаточно большим» [20, с. 143]. Именно эта нечёткость в разграничении разных ментальных образований, диффузность понятий заставляет использовать выражение «смысловое содержание текста» [4, с. 19]. А.И. Новиков предположил, что «минимальное расхождение содержания и смысла характерно для текстов научной, технической тематики, для так называемой деловой прозы, а максимальное - для различных жанров художественных тек­стов» [20, с. 144]. Такое предположение не лишено оснований, если принять во внимание цели коммуникации в научном стиле - информа­цию о фрагменте действительности и при этом сведение к минимуму личностного начала, субъективной интерпретации сообщаемого.

Для понимания текстового смысла существенно то, что он, по- видимому, носит гипотетический характер. Нами ранее была рассмот­рена гипотетичность понятия как его специфическое свойство [9; 11, с. 75-82]. Гипотетичность означает, что о понятии можно высказать альтернативные суждения, истинность которых обосновывается в про­цессе деятельности людей.

Можно предположить, что этим свойством будут обладать и другие ментальные образования.

То, что в логическом плане выступает как гипотетичность, в струк­турном плане выступает как разноименование. За разными формули­ровками стоят разные суждения, которые в общем случае являются аль­тернативными (под альтернативными мы понимаем суждения, образу­ющие множество, из которого мыслящему субъекту требуется сделать выбор). Разноименование при выражении смысла хорошо известно в лингвистике (ср., например, концепцию функционально-семантического поля А.В. Бондарко, в которой смысловые категории могут выражаться разноуровневыми средствами языка; налицо разноименование того, что воспринимается коммуникантами как единый смысл). Можно ожидать, что смысл текста тоже предполагает разноименование.

Не вдаваясь в вопросы онтологии смысла, сделаем акцент на том, как он выявляется и выражается. Общее представление о смысле как о некоторой ментальной структуре приводит к тому, что мы начинаем обращаться со смыслом как с некоторым материальным образованием. Но «сами понятия «структура», «строение» взяты из мира простран­ственных представлений и перенесены в истории познавательной дея­тельности человека на объекты непространственного характера» [14, с. 154]. Когда мы начинаем анализировать ментальную структуру, то неизбежно выражаем её на некотором языке, с помощью некоторых семиотических, имеющих материальную сторону единиц. О структуре этого языка и надо вести речь, если исследуется смысл. Представляется вполне правомерным при изучении смысла текста использовать вторич­ную текстовую деятельность реципиентов [20, с. 83-84], в которой экс­плицируется текстовое содержание и фактически содержится язык, опи­сывающий смысл текста так, как его понимает реципиент. В экспери­менте, описанном А.И. Новиковым [20, с. 85-124], реципиенты- испытуемые получают следующие задания: определить, о чём предъяв­ленный им текст, каков смысл этого текста и какие выделяются в нём ключевые слова. Лексику, используемую при ответе испытуемых, мож­но разделить на извлечённую (из исходного текста) и приписанную (т.

е. не содержащуюся в тексте). Один из результатов этого эксперимента - относительно небольшая доля приписанной лексики при интерпретации испытуемыми научных и научно-популярных текстов по сравнению с текстами художественными. Зго означает, что при осмыслении таких текстов их смысл относительно удачно передаётся извлечённой из них лексикой. То, что разные испытуемые используют разные форму лиров­ки смысла текста и выделяют разный набор ключевых слов - очевидный результат, свидетельствующий о гипотетичности ментальных сущно­стей и их разноименовании.

Вторичная текстовая деятельность в описанном эксперименте реша­ет проблему осмысления первичного текста, а описание реципиентами смысла и выделенные ими ключевые слова представляют собой резуль­тат решения этой проблемы. Обычно процесс решения проблемы пред­ставляет собой выбор некоторой альтернативы из ряда альтернатив. Каждый из ответов реципиентов-испытуемых представляет собой воз­можную альтернативу описания смысла. Очевидно, смысл первичного текста может быть описан другими вторичными текстами, а ключевые слова могут быть выделены по-иному. В этой возможности - проявле­ние проблемносте смысла.

Вторичный текст и набор ключевых слов представляют собой моде­ли мыслительной деятельности. Под моделью будем понимать матери­альное образование, структурно подобное моделируемой реальности. Поскольку сама идея структурности ментальных сущностей является гипотезой, вторичный текст и набор ключевых слов являются моделью, гипотетически отражающей моделируемую реальность.

Описанные результаты эксперимента позволяют сделать вывод, что задачу описания смысла текста можно решать путём использования его лексических единиц. Предметом нашего рассмотрения будет структура научно-популярного текста. Р. Барт определил связный текст (дискурс) как «любой конечный отрезок речи, представляющий собой некоторое единство с точки зрения содержания, передаваемый со вторичными коммуникативными целями и имеющий соответствующую этим целям внутреннюю организацию, причём связанный с иными культурными факторами, нежели те, которые относятся собственно к языку» [2, с.

443-444]. В этом определении отмечается, что содержание текста пе­редаётся со вторичными коммуникативными целями, т. е. с целями, от­личающимися от целей использования языка. Внутренняя организация текста - объект лингвистического наблюдения и описания. Вторичными коммуникативными целями, о которых идёт речь в определении, явля­ются, например, формирование и выражение специального понятия (научно-технический текст) и создание художественного образа (худо­жественный текст).

Культурные факторы, с которыми связан научный и научно- популярный дискурс, - отражение результатов наблюдений, научный поиск, выдвижение и обоснование научных гипотез, работа с научными понятиями, популяризация научных фактов и исследовательских про­цессов. При создании научно-технического документа на первый план выходит когнитивная функция языка - его способность быть «непо­средственной действительностью мысли» (К. Маркс), вырабатывать

новые знания о действительности. С этими факторами связаны те про­блемы, которые решает автор научно-популярного текста в процессе его создания. При этом осмысление текста интерпретатором и передача его содержания в значительной степени совпадают (см. выше обсуждение соотношения содержания и смысла текста).

Особенности системной организации научного текста проявляются в том, что он носит гипертрофированно именной характер. Активность существительных и словосочетаний на их основе в научном стиле зна­чительно больше, чем, например, в стилях разговорном и художествен­ном. Это, по-видимому, связано с тем, что понятия в научном тексте опредмечены. В противном случае логические рассуждения, логические операции оказываются невозможными или затруднительными (ср. пред­ставление понятий в логике в виде существительных или номинативных словосочетаний). Таким образом, гипертрофированное влияние логики, логического мышления - ещё один культурный фактор, влияющий на создание научного текста.

Научно-популярный текст можно отнести к терминоиспользующим типам текста [16, с.

82]. Термин - необходимый структурный элемент, выражающий специальные понятия и научно-популярное смысловое со­держание. Можно ожидать, что значительное число выделенной лексики, выражающей смысловое содержание, обладает терминологичностью.

Цельность научно-технического текста обнаруживается в том, что вся совокупность высказываний, из которых он состоит, формирует единую тематику, которая может передаваться заголовком. Единая те­матика неизбежно должна учитываться при выражении смыслового со­держания текста. Чтобы выявить её, обратимся к лексическим повторам, под которыми будем иметь в виду повторы не только слов, но и слово­сочетаний. Повторы в тексте выражают представления говорящих о тождестве обозначаемых предметов, используемых знаков и выражае­мых понятий [11, с. 145]. В лингвистике давно осознана связь между повторяемостью элементов текста и его семантикой. Так, Ю.Д. Апресян даёт следующую формулировку семантического закона, регулирующего правильное понимание: «...выбирается такое осмысление... предложе­ния, при котором повторяемость семантических элементов достигает максимума» [1, с. 14]. В научно-техническом тексте «семантический повтор чаще всего проявляется в наиболее эксплицитной форме - лек­сическом повторе» [5, с. 24]. Этот последний тезис может быть сформу­лирован с использованием понятия цельности: тематическая цельность научно-технического текста вербализуется набором наиболее часто по­вторяющихся в этом тексте лексических единиц.

При изучении повторяющихся единиц следует иметь в виду, что по­вторы словосочетаний «ценнее» для выражения темы, чем повторы от­дельных слов, так как словосочетание передаёт более конкретное, более богатое по содержанию понятие, в котором явно выражены его признаки.

Рассмотрим методику выявления повторяющихся лексических еди­ниц на примере научно-популярных текстов по астрономии, посвящён­ных тёмной материи. Термин тёмная материя интересен тем. что у не­го, возможно, нет денотата. Дело в том, что тёмная материя, в отличие от наблюдаемой материи Вселенной, проявляет себя только наличием гравитации. Само существование такой материи, отличающейся от наблюдаемой (барионной) материи, гипотетично. Тем не менее соответ­ствующее понятие активно формируется, обсуждается, выделяются его признаки, которые отражены в текстах астрономической и физической тематики. Лексика, отражающая это понятие и его признаки, выражает и смысл соответствующих текстов.

В качестве примера взят научно-популярный текст из Интернета под названием «Доказательство в пользу существования тёмной материи?»; адрес доступа: http://www.mk.ru/science/article/2010/05/21/493979-doka- zatelstvo-v-polzu-suschestvovaniya-temnoy-materii.html (пунктуация ис­точника сохранена):

Бессмертные слова знаменитого американского астронома Карла Сагана «Земля и все живое сделаны из звездного вещества» получили свое оправдание на этой неделе.

Астрономы заявили о совершенно новом типе взрывающейся звезды, или сверхновой, которая, по-видимому, выбрасывает кальций и титан. Таким образом, кроме углерода — отдаваемого другим типом сверхно­вых - кальций в наших костях, безусловно, пришел из звездного веще­ства.

Хотя большинство сообщений в прессе было сосредоточено на кальции, тем не менее больший интерес представляет собой конечно же титан. Это открытие может стать настоящим броском обезья­ны в продолжающихся усилиях найти проявление темной материи, сталкивающейся в центре Млечного Пути.

На этой неделе в журнале Nature Хагай Перец (Hagai Perets) из Гар- вард-Смитсонианского Центра астрофизики в Кембридже, штат Массачусетс, и его коллеги «предложили» новый тип сверхновых звезд.

Перец и его коллеги описывают сценарий с парой орбитальных белых карликовых звезд, где одна звезда крала гелий у другой. Когда ее гелие­вая нагрузка возросла до степени нестабильности, белый карлик взо-

рвался. Поскольку он питался гелием, звезда производила кальций и ти­тан.

Титан является радиоактивным и в ходе распада испускает пози­троны. За последние несколько лет появлялись сообщения об экспери­ментах, таких как Л ТІС и PAMELA, свидетельствующих об избытке позитронов, идущих из глубин космоса. Этот избыток, как утвержда­лось, является визиткой сталкивающихся частиц темной материи. Но если новое открытие сверхновых чего-то стоит, то эти взрывы могут быть весьма обычным делом и могут являться источником позитрон­ного избытка.

Хотя это не доказывает и не опровергает существование темной материи, как бы то ни было новое открытие сбавляет эйфорию рас- суждений о том, что избыток позитронов поступает от аннигиляции частиц темной материи.

С помощью программы подсчёта слов по частоте [20] определяются частоты каждой словоформы (табл. 1).

Таблица 1

Фрагмент (начало) списка словоупотреблений с их частотами

Частота Словоформа Частота Словоформа Частота Словоформа
1 HAGAI 2 БЫЛО 1 ГЕЛИЙ
1 АТІС 1 БЫТЬ 1 ГЛУБИН
1 NATURE 6 В 1 ДЕЛОМ
1 PAMELA 1 ВЕСЬМА 1 ДО
1 PERETS 2 ВЕЩЕСТВА 1 ДОКАЗЫВАЕТ
1 .АМЕРИКАНСКОГО 1 ВЗОРВАЛСЯ 1 ДРУГИМ
1 АННИГИЛЯЦИИ 1 ВЗРЫВАЮЩЕЙСЯ 1 ДРУГОЙ
1 АСТРОНОМА 1 ВЗРЫВЫ 2 ЕГО
1 АСТРОНОМЫ 1 ВИДИМОМУ 1 ЕЁ
1 АСТРОФИЗИКИ 1 визиткой 1 ЕСЛИ
1 БЕЗУСЛОВНО 1 ВОЗРОСЛА 1 ЖЕ
1 БЕЛЫЙ 1 ВСЕ 1 ЖИВОЕ
1 БЕЛЫХ 1 ВЫБРАСЫВАЕТ 1 ЖУРНАЛЕ
1 БЕССМЕРТНЫЕ 1 ГАРВАРД 1 ЗА
1 БОЛЬШИЙ 1 ГДЕ 1 ЗАЯВИЛИ
1 БОЛЬШИНСТВО 1 ГЕЛИЕВАЯ 2 ЗВЕЗД
1

1

БРОСКОМ

БЫ

1 ГЕЛИЕМ 2

2

1

ЗВЕЗДА

ЗВЕЗДНОГО

ЗВЕЗДЫ

Из табл. 1 выбираем только существительные и прилагательные. Глагольные формы не рассматриваются из-за именного характера науч­но-технического стиля (глаголы играют сравнительно скромную роль при выражении содержания текста). Местоимения и служебные части речи не принимаются во внимание по причине их неинформативности.

Далее объединяем словоформы одного и того же слова, считаем эту совокупность словоформ одним словом и складываем частоты слово­форм. Например, словоформы звезд, звезда и звезды считаем одним словом, употреблённым с частотой 5. Повторяющиеся слова представ­лены в табл. 2 (лексика упорядочена по частоте, а внутри одной частоты - по алфавиту).

Таблица 2

Повторяющиеся слова с их частотами

Слово Частота Слово Частота
ЗВЕЗДА 5 БЕЛЫЙ 2
ИЗБЫТОК 4 ВЕЩЕСТВО 2
КАЛЬЦИЙ 4 ГЕЛИЙ 2
МАТЕРИЯ 4 ЗВЕЗДНЫЙ 2
СВЕРХНОВАЯ 4 КОЛЛЕРИ 2
ТЕМНЫЙ 4 НЕДЕЛЯ 2
ТИТАН 4 НОВЫЙ 2
ОТКРЫТИЕ 3 ПЕРЕЦ 2
ПОЗИТРОН 3 СООБЩЕНИЕ 2
ТИП 3 ЦЕНТР 2
АСТРОНОМ 2 ЧАСТИЦА 2

Принимая во внимание исключительную роль терминов в научных и научно-популярных текстах, оценим лексику из табл. 2 по степени её участия в образовании терминов. Для этого определим долю слов, вы­ражающих в тексте либо специальное понятие, либо признак специаль­ного понятия. Назовём эту долю степенью терминологичности. Напри­мер, слово звезда - астрономический термин, избыток - общеупотреби­тельное слово, не выражающее специального понятия или его признака, белый - выражение признака специального понятия «белый карлик» или «белая карликовая звезда». Степень терминологичности выделенных повторяющихся слов (табл. 2) составляет 68%. Оценим эту степень по каждой частоте отдельно и получим следующие результаты: для часто­ты 5 - 100% (единственное слово звезда является термином), для часто­ты 4 - 83% (все слова, кроме слова избыток, выражают либо специаль­ное понятие, либо его признак, как, например, слово тёмный выражает признак понятия «тёмная материя»), для частоты 3 - 33% (только слово позитрон, являющееся специальным термином), для 2 - 50% (кроме общеупотребительных коллега, неделя, новый, сообщение, центр и име­ни собственного Перец). Данный результат обнаруживает тенденцию к

уменьшению степени терминологичности слов с уменьшением частоты их употребления в конкретном тексте.

С использованием подобной методики изучались 6 текстов из Ин­тернета, посвящённые тёмной материи. Степень терминологичности ЛЕ (лексических единиц) в этих текстах определялась аналогично тому, как это делалось в вышеприведённом примере (табл. 3).

Таблица 3

Степень терминологпчности ЛЕ в зависимости от частоты, %

Заголовок и интернет-адрес текста Частота
5

и более

4 3 2
Физики сомневаются в существовании темной мате­рии

http://www.rosbal.tra/2010/02/07/710569

100 67 75 46
Доказательство в пользу существования тёмной ма­терии?

http://www.mk.ru/science/article/2010/05/21/493979-

dokazatelstvo-v-polzu-suschestvovaniya-temnoy-

materii.html

100 83 33 50
Доля тёмной материи оказалась обычным газом www.membrana.ru/particle/745 100 33 25 47
Вселенские волокна удержали первые звёзды тёплой материей

www,membrana.ru/particle/703

70 33 36 69
Тёмная материя нагрета сильнее поверхности солнца www. membrana.ru/particle/505 90 100 47 38
Суперкомпьютер информирует: нас окружают тём­ные невидимки www.membrana.ru/particle/587 70 50 42 31

Указанная тенденция выражена нечётко (нет плавного убывания термино логичности с уменьшением частоты). Но эту тенденцию можно усилить, если учитывать частоты не только отдельных слов, но и слово­сочетаний. В рассматриваемом тексте есть несколько повторяющихся словосочетаний. Результаты подсчётов отражены в табл. 4.

Таблица 4 требует следующих пояснений.

Ранги в таблице передают предпочтение одних повторяющихся ЛЕ перед другими. Правила предпочтений следующие:

1) ЛЕ с большей частотой предпочтительнее («лучше»), чем ЛЕ с меньшей частотой;

2) ЛЕ с большим количеством знаменательных слов в своем составе предпочтительнее («лучше»), чем ЛЕ с меньшим количеством знамена­тельных слов.

Таблица 4

Повторяющиеся в тексте слова и словосочетания

Ранг Слово или словосочетание Частота Количество слов
1 Звездное вещество 2 2
Звезда 3 1
Избыток позитронов 2 2
Кальций 4 1
Новый тип звёзд 2 3
Новое открытие 2 2
Темная материя 2 2
Титан 4 1
Сверхновая 4 1
Частица темной материи 2 3
2 Астроном 2 1
Белый 2 1
Гелий 2 1
Избыток 2 1
Коллеги 2 1
Неделя 2 1
Перец 2 1
Сообщение 2 1
Центр 2 1

Выражение «лучше» здесь имеет следующую содержательную ин­терпретацию. Часто повторяющаяся ЛЕ пронизывает весь текст, поэто­му предположительно информативна для передачи понятия, существен­ного для данного текста, и /или признаков такого понятия. При этом, поскольку специальные понятия выражаются терминами, следует пред­положить, что наиболее часто повторяющиеся в данном тексте ЛЕ тер­минологичны. Если ЛЕ состоит более чем из одного знаменательного слова, то можно ожидать, что она подробнее и точнее выражает призна­ки понятия, чем однословная ЛЕ, потом}' что элементы словосочетания служат для уточнения содержания понятия, даже в некоторой степени заменяют его определение. Поэтом}' можно ожидать, что повторяющие­ся ЛЕ, состоящие более чем из одного знаменательного слова, выража­ют, во-первых, понятия, существенные для содержания данного текста,

во-вторых, существенные признаки этих понятий. При оценке предпо­чтений следует учесть оба вышеприведенных правила: первая ЛЕ «луч­ше». чем вторая, если она по одному правилу такая же или «лучше», а по другому «лучше», чем вторая. Например, в разбираемом тексте слово кальций «лучше» слова гелий, потому что по признак}' количества слов слово кальций такое же, как слово гелий (включает одно знаменательное слово), а по признаку частоты - «лучше» слова гелий (частота употреб­ления слова кальций больше частоты слова гелий). ЛЕ избыток пози­тронов и кальций не имеют предпочтений одна перед другой, то есть входят в один ранг, поскольку ЛЕ избыток позитронов имеет больше слов, чем ЛЕ кальций, зато ЛЕ кальций имеет большую частоту, чем ЛЕ избыток позитронов. Каждый ранг содержит слова, каждое из которых не имеет предпочтений ПО отношению ХОТЯ бы К ОДНОМ}' слову из этого ранга. Внутри каждого ранга ЛЕ упорядочены по алфавиту.

Табл. 4 содержит ЛЕ, предположительно передающие основное со­держание текста. Содержательно результаты, отражённые в этой табли­це. могут быть интерпретированы следу ющим образом. Повторяющиеся ЛЕ отражают основное смысловое содержание текста, причём ЛЕ из ранга 1 лучше, чем из ранга 2. Действительно, в тексте речь идёт о сверхновых звёздах, которые выбрасывают кальций и титан. Поскольку титан истекает позитроны, то обнаружение их избытка может свиде­тельствовать о наличии этих сверхновых, а не о частицах тёмной мате­рии. которым приписываются излучаемые позитроны. Повторяющиеся ЛЕ отражают это содержание нечётко. Так, в ранг 1 попала малосодер­жательная нетерминологическая ЛЕ новое открытие (которая, возмож­но. является издержкой научно-популярного стиля изложения). В ранге 2 оказываются только одиночные ЛЕ, причём ЛЕ терминологического характера явно менее информативны, чем ЛЕ из ранга 1. Так. ЛЕ гелий передаёт не основное содержание документа, а содержание только од­ного абзаца, в котором описывается механизм возникновения сверхно­вой определённого типа. Набор выделенных ЛЕ может быть рассмотрен как результат терминологического аннотирования и как возможный результат интерпретации исходного текста.

Рассмотрение шести текстов позволяет обнаружить, что степень терминологичности ЛЕ тем выше, чем меньше ранг (табл. 5).

Внутренняя организация текста включает не только количественные свойства его элементов, но и их грамматические (морфолого-синтакси­ческие) связи. Поэтому естественны попытки выявить роль грамматиче­ских связей в выражении смысла текста.

Таблица 5

Степень терминологичностн ЛЕ в зависимости от ранга %

Заголовок и интернет-адрес текста Ранг 1 Ранг 2
Физики сомневаются в существовании темной материи http://www.rosbal.tru/2010/02/07/710569 78 54
Доказательство в пользу существования тёмной материи? http://www.mk.ra/science/article/2010/05/21/493979- dokazatelstvo-v-polzu-suschestvovaniya-temnoy-materii.html 90 33
Доля тёмной материи оказалась обычным газом www.membrana.ru/particle/745 50 47
Вселенские волокна удержали первые звёзды тёплой материей www,membrana.ru/particle/703 58 50
Тёмная материя нагрета сильнее поверхности солнца www.membrana.ru/particle/505 68 36
Суперкомпьютер информирует: нас окружают тёмные неви­димки

www.membrana.ru/particle/587

61 27

Известно, что в русском научно-техническом документе подавляю­щее большинство грамматических связей в номинативных словосочета­ниях составляют связи 1) прилагательного с существительным и 2) су­ществительного и существительного в родительном падеже (сочетание с генитивом). По данным Н.Ю. Русовой, терминологические сочетания, использующие эти две связи, в техническом и научном текстах состав­ляют 80-90%, а сочетания с генитивом составляют 40-50% [22, с. 97- 98]. Сочетания с генитивом легко образуют генитивные цепочки, в ко­торые могут входить любые существительные, одиночные и с зависи­мыми от них прилагательными. В подобных цепочках существительные и сочетания «прилагательное + существительное», имеющие нетерми­нологическое или общенаучное значение, предшествуют аналогичным единицам, выражающим узкоотраслевые понятия [10, с. 107-108; 11]. Например, в словосочетании анализ физических характеристик тёмной материи слово анализ имеет общенаучное значение, а словосочетание тёмная материя выражает физическое (астрономическое, космологиче­ское) понятие. Для того чтобы дать оценку степени правдоподобия ги­потез о семантике подобных единиц в тексте, можно предложить сле­дующую методику.

1. Выписать из текста все генитивные цепочки.

2. О каждом элементе таких цепочек высказать следующие гипоте­зы: а) данный элемент нетерминологичен или выражает общенаучное понятие, б) данный элемент выражает узкоотраслевое понятие.

3. Оценить и сравнить правдоподобие этих двух гипотез.

Для оценки правдоподобия гипотез надо приписать каждому эле­менту число N следующим образом: 1) элемент, раньше которого ни в одной цепочке не встретился другой элемент, имеет N =1, 2) элементѣ имеет N = п +1, если наибольшее из N, принадлежащих элементам, встречающимся передѣ, равно п [10, с. 104-09; 11, с. 166]. Величина N позволяет учесть информацию о порядке любых двух элементов, стоя­щих рядом в генитивной цепочке.

Рассмотрим эту методику на примере проанализированного выше текста. Получим 7Ѵ для всех элементов, выделенных в табл. 4.

Звёздное вещество (1), так как ни в одной генитивной цепочке этому элементу не предшествует ни один элемент;

звезда (2), так как есть цепочки новый тип звезд, пара звезд, где эле­менты новый тип и пара имеют N= 1;

избыток (2) позитронов (3), так как в тексте есть словосочетание источник (1) позитронного избытка (2);

кальций (1); новое открытие (1);

тёмная материя (3), так как в тексте есть словосочетания визитка (1) частиц (2) тёмной материи (3), аннигиляция (1) частиц (2) тёмной материи (3):

новый тип (1) звезд (2); титан (1):

сверхновая (2). так как в тексте есть словосочетания новый тип (1) сверхновой (2). открытие (1) сеерхноеой(2'у.

частицы (2) тёмной материи (3);

астроном (2). см. бессмертные слова (1) знаменитого американско­го астронома (2):

белый (2) (в словосочетании пара (1) орбитальных белых карликовых звезд (2) слово белый относится к элементу, имеющему N = 2, поэтому получает это же число);

гелий (1):

избыток (2). т. к. источник (1) позитронного избытка (2): коллеги (1): неделя (1):

Перец (1);

сообіцение (2) (большинство (1) сообщений (2); центр (1).

Теперь сгруппируем ЛЕ по значениям Аг и оценим степень термино­логичности ЛЕ для каждого N (табл. 6). Если ЛЕ представляет собой генитивную цепочку, то значения N для её элементов складываются. Например, избыток (2) позитронов (3) даёт Аг= 2 + 3 = 5.

Таблица б

Оценка степени терминологичности ЛЕ с помощью генетивных цепочек

Величина N Лексические единицы Степень

терминологичности, %

5 Избыток позитронов, частица тёмной материи 100
3 Тёмная материя, новый тип звёзд 100
2 Звезда, сверхновая, астроном, белый, избыток, сообщение 67
1 Звёздное вещество, кальций, новое открытие, титан, гелий, коллега, не­деля, Перец, центр 44

Табл. 6 даёт более чёткую дифференциацию степени терминологич­ности. чем табл. 3. где отражены только частоты ЛЕ. и более детальную дифференциацию термино логичности, чем табл. 4 и 5, в которых учи­тываются частоты и количество знаменательных слов в составе ЛЕ. Очевидно. ЛЕ. имеющие Аг = 5, очень точно отражают часть смысла до­кумента: частицы тёмной материи могут вызывать избыток позитронов.

В проведённом исследовании для анализа смыслового содержания текста используется лишь незначительная часть средств его структур­ной организации. В перспективе заслуживают внимания его абзацная структура, распределение ЛЕ по частям текста, расстояние между ЛЕ в документе и т. д. Организация текста - его наблюдаемая сторона, по­этому подобные исследования носят индуктивный характер и не пред­полагают априорного создания дедуктивной системы (математического исчисления) при моделировании языковых и речевых фактов.

Структурная организация текста может использоваться не только для исследования и описания его смысла, но и в качестве своеобразного «инструмента» грамматического анализа. Практическая значимость та­кого использования текста связана с тем. что в современных компью­

терных технологиях обработки информации на естественном языке всё большую роль играет морфологический и синтаксический анализ. В процессе автоматизированного выявления морфологической информа­ции к слову и построения синтаксических деревьев обнаруживаются ошибки, предотвращение которых связано с большими трудностями из- за сложности естественного языка и нечёткости его структуры. Особен­но это касается синтаксического анализа. Следствием попыток решения этих проблем является увеличение объёмов машинных словарей и сложности алгоритмических процедур. Текст позволяет подойти к про­блеме синтаксического анализа с другой стороны - путём использова­ния линейного расположения текстовых единиц. Будем рассматривать повторяемость не слов, не словосочетаний, а линейных последователь­ностей - групп слов, расположенных рядом и отделённых одно от дру­гого только пробелами и служебными частями речи.

Рассмотрим повторяемость последовательностей на примере выше­приведённого текста. Повторяемые последовательности заключаются в угловые скобки, слова приводятся в начальной форме. Получаются после­довательности , , , , , . Каждая из этих последовательностей выражает словосочета­ние, реально существующее в данном тексте: звёздное вещество, тип сверхновой, тёмная материя, избыток позитронов, частица тёмной ма­терии, новое открытие. Каждое из этих словосочетаний с синтаксической точки зрения представляет собой синтаксическое дерево, включающее 2 или 3 элемента (и соответственно 1 или 2 синтаксические связи). Таким образом, повторяющиеся последовательности позволяют выявить некото­рые синтаксические деревья, присутствующие в тексте.

Следует обсудить вопрос о вариативности морфологических элемен­тов, входящих в линейные последовательности. Не может ли одна и та же последовательность отражать разные синтаксические деревья (например, не только избыток позитронов, но и *избыток позитрона, *избыток позитронами, *избыток позитронам)? Думается, что по крайней мере в одном и том же тексте эта вариативность практически отсутствует. Словосочетания, отмеченные звёздочками, либо лишены смысла (не может быть избыток одного позитрона), либо грамматически неправильны.

Заслуживает внимания повторяющаяся последовательность . Она получена в результате учёта двух текстовых последо­вательностей - другим типом сверхновых и новый тип сверхновых звёзд.

В первом из этих словосочетаний слово сверхновая - субстантивиро­ванное прилагательное, во втором - прилагательное. Это означает, что в тексте отражён промежуточный, переходный статус данного слова. Принятое на основе этих двух словосочетаний «алгоритмическое реше­ние» считать последовательность тип сверхновых правильным словосо­четанием «существительное + существительное» представляется прием­лемым и со смысловой, и с грамматической точек зрения.

Повторяющиеся последовательности, обнаруженные в других текстах, представлены в табл. 7.

Таблица 7

Словосочетания, выражаемые повторяющимися в текстах последовательностями

Заголовок текста Наборы повторяющихся последовательностей Словосочетания
Физики сомнева­ются в существо­вании тёмной ма­терии , , тёмная материя, гамма- излучение тёмной мате­рии, физическое явление
Доля тёмной мате­рии оказалась обычным газом , Скопле­ние, галактика>, тёмная материя, скопле­ние галактик, ХММ-

Newton

Вселенские волок­на удержали пер­вые звёзды тёплой материей , , , , < і ёі і- лый, тёмный, материя>, Го­лодный, тёмный, материя > тёмная материя, Боль­шой взрыв, ранняя звез­да, чёрная дыра, тёплая тёмная материя, холод­ная тёмная материя
Тёмная материя нагрета сильнее поверхности солн­ца , Темпе­ратура, тёмный, материя>, , , , , , , , наблюдение за галакти­ками, «ось зла», микро­волновый фон, Большой взрыв, частица Wimp
Суперкомпьютер информирует: нас окружают тёмные невидимки Тёмный, материя>, Скопле­ние, тёмный, материя>, , , , Тамма, те- лескоп> тёмная материя, скопле­ние тёмной материи, Млечный Путь, гало Млечного Пути, карли­ковые галактики, гамма-

телескоп

Все словосочетания в третьем столбце табл. 7 терминологичны в определённом выше смысле (в составе любого из этих словосочетаний обязательно присутствует астрономический термин).

Использование данной методики выделения ЛЕ может быть востре­бовано при решении некоторых теоретических проблем науки о терми­нах, в частности проблем выделения терминов из текста и определения границ термина. Позиция, которая принята в данной работе, заключает­ся в том, что «признак «быть термином» применительно к любой тек­стовой единице оказывается гипотетичным. Такое свойство текстовых единиц можно трактовать как степень терминологичности - градуаль­ный признак терминологических единиц...» [6, с. 263-264]. Оценим степень терминологичности словосочетаний, выделенных в табл. 7.

Существует ряд критериев, согласно которым выделенные из текста слова и словосочетания можно считать терминами [13, с. 60-70]. Эти критерии в основном носят неформальный, содержательный характер и, несомненно, относятся к культурным факторам, определяющим функционирование научного языка. Согласно этим критериям, подав­ляющее большинство словосочетаний из табл. 7 (более 80%) следует считать терминами (они имеют дефиниции, подчиняются логическим теоремам определения терминологичности [13, с. 65-67]). Может вы­звать сомнение принадлежность к терминам словосочетаний скопление галактик, ранняя звезда, наблюдение за галактиками, скопление тёмной материи. Слово скопление является общеупотребительным, и можно сомневаться, что оно выражает специальное понятие или выделяет его признак. Понятие «скопление галактик» имеет определение: это грави­тационно связанные системы галактик. Возможна классификация скоп­лений галактик: скопления бывают регулярными и иррегулярными [23]. Понятие «скопление тёмной материи» определения не имеет. Соответ­ствующее содержание может передаваться словосочетанием сгустки тёмной материи. Эго свидетельствует о том, что статус терминоэле­мента скопление в составе словосочетаний неустойчив: он может вхо­дить, а может и не входить в состав составного термина. По-видимому, здесь мы имеем дело с процессом терминологизации, не доведённым до конца.

Те же рассуждения справедливы относительно общенаучного тер­миноэлемента наблюдение. Можно представить себе научный труд, по­свящённый астрономическим наблюдениям, в котором есть главы о наблюдении за планетами, наблюдении за звёздами, наблюдении за га­лактиками и т. д. Но можно сомневаться, что наблюдение за галактика-

ми - это сложившееся научное понятие с устойчивыми признаками, имеющее точное определение.

Понятие «ранняя звезда» также не имеет определения. Из текста можно понять, что ранние звёзды - это звёзды, возникшие в ранний пе­риод существования Вселенной. Однако это название не связано с чёт­кой периодизацией. Скорее всего, терминоэлемент ранний также не полностью терминологизирован.

Полученные результаты отражают не только градуальный характер терминологичности, но и процесс терминологизации. Когда понятие лишь зарождается, то «может и не быть облечённым в словесную фор­му, а до того времени идёт процесс подыскивания экспонента для воз­никшего, но ещё терминологически не оформленного понятия» [17, с. 86]. Несмотря на ^сформировавшийся терминологический статус, эти ЛЕ, несомненно, отражают существенную часть смыслового содер­жания текстов. Например: «В области, где мог бы находиться диск Млечного Пути, располагаются большие скопления тёмной материи. И распределение тёмной материи здесь может оказаться более слож­ным, чем мы думали...» Зго отрывок из текста «Суперкомпьютер ин­формирует: нас окружают тёмные невидимки», который посвящён изу­чению структуры предполагаемой тёмной материи, окружающей нашу галактику. Элементами этой структуры, в частности, являются скопле­ния тёмной материи.

Что касается грамматической структуры словосочетаний, выделен­ных в табл. 7, то она полностью соответствует наиболее частотным структурам терминологических словосочетаний; ср. данные из статьи [15, с. 7]. Можно сказать, что предлагаемая методика позволяет решать проблему определения границ терминов в соответствии с их граммати­ческой структурой.

ЛЕ, выделенные в тексте и отражённые в табл. 4, 6 и 7, представляют собой модели его смысла. Данные модели отличаются от моделей смысла, созданных реципиентами-испытуемыми, тем, что не являются связным текстом. Насколько хороши такие модели? Не является ли их фрагмен­тарность, отсутствие в них предикативных связей их недостатком? Ответы на эти вопросы, по-видимому, связаны с областью применения таких мо­делей. Если стремиться к моделям, специфичным для речевой деятельно­сти человека, для его способности порождать речь, то модели в виде мно­жества ЛЕ далеки от идеала. Если рассматривать эти модели как набор ключевых слов (дескрипторов информационного языка, тегов содержания документа в Интернете), то эти модели представляются приемлемыми,

поскольку их структура может быть использована при поиске документов. Некоторая степень нечёткости таких моделей неизбежна хотя бы по при­чине принципиальной гипотетичности смысла.

Между моделями смысла, полученными путём формального извле­чения ЛЕ из текста и созданными испытуемыми, нет непроходимой границы. Во-первых, если считать, что ЛЕ передают понятия, о которых идёт речь в тексте, то содержательно модель может быть дополнена соответству ющим отношением, выраженным речью, например, таким образом: «В данном документе говорится об избытке позитронов, ча­стицах тёмной материи, новом типе звёзд и т. д.» (табл. 6). Во-вторых, имея набор ЛЕ, входящих в один и тот же документ, наблюдатель (осо­бенно специалист в данной тематической области) может высказать правдоподобные гипотезы о связях соответствующих понятий. Напри­мер, при рассмотрении ЛЕ звёздное вещество, звезда, кальций, титан (табл. 4) наблюдатель может предположить, что речь идёт о создании кальция и титана в результате процессов, происходящих в звёздах, и это предположение в данном случае оказывается верным. В-третьих, в тер­минологических словосочетаниях также отражены связи понятий. Например, в словосочетании гамма-излучение тёмной материи отражён тот факт (или предположение), что тёмная материя может быть источ­ником гамма-излучения, (табл. 7). Заметим, что отношения между поня­тиями, выраженными терминами, входящими в словосочетания, оказы­ваются тоже гипотетичными - хотя бы в силу неоднозначности морфо­логических форм и синтаксических связей.

Все приведённые примеры и сделанные выводы относятся к разно­видности научно-технического текста. Возникает вопрос: применимы ли они к другим стилям? Ранее было отмечено, что для научно- технического текста характерна когнитивная функция. Но эта функция реализована не только в научном стиле. Тексты других стилей и жанров могут иметь иерархически структурированное понятийное содержание. Нами были рассмотрены лексические повторы в нескольких стихотво­рениях [7, с. 260-265]. Основным результатом этого исследования явля­ется наличие повторов, выражающих понятийное содержание некото­рых поэтических произведений. Так, стихотворение Н. Гумилёва «Саха­ра». являясь отрывком из своеобразного поэтического путевого дневни­ка, точно передаёт понятия о некоторых описываемых реалиях. Это вы­ражается в повторах таких ЛЕ, как верблюд, Средиземное море, песок, пустыня, солнце. Очевидно, лексические повторы при определенных условиях могут отражать понятийное содержание не только научных,

но и поэтических произведений. С другой стороны, существуют поэти­ческие произведения, в которых повторяющиеся ЛЕ выполняют особую роль, связанную с осуществлением поэтической функции. Согласно тезису Р.О. Якобсона, поэтическая функция проецирует принцип экви­валентности с оси селекции на ось комбинации [24, с. 204]. В таком слу­чае повторы лексических единиц связаны не с понятийным содержанием текста, а с сопоставлениями, противопоставлениями, параллелизмами, которые создают особую организацию поэтического текста, где на первый план выходит эстетическая (поэтическая) функция - функция создания образа. Вероятно, поэтические повторы связаны с поэтическим смыслом, но изучение этого вопроса выходит за пределы данной работы.

На основе исследования того, как внутренняя организация текста выражает, эксплицирует, моделирует его смысл, можно сформулиро­вать некоторые перспективы дальнейших исследований возникновения и бытования текстового смысла. Результаты анализа подтверждают те­зис Ю.М. Лотмана о том, что текст обнаруживает черты интеллектуаль­ного устройства. Ещё одно проявление «интеллектуальности» текста - возможность вести с ним диалог. Проблема диалога с текстом ставилась М.М. Бахтиным: «Текст живёт, только соприкасаясь с другим текстом (контекстом). Только в точке этого контакта... вспыхивает свет, осве­щающий и назад, и вперёд, приобщающий данный текст к диалогу. Подчеркнём, что этот контакт есть диалогический контакт между тек­стами (высказываниями)...» [3. с. 424]. Моделями диалога с текстом являются интернет-технологии, в частности гипертекстовые ссылки [8. с. 295]. Моделью текста является страница из Интернета, для обращения к которой нужно знать «код доступа» и использование которой сводится к выбору её элементов. В вышеприведённых примерах «код доступа» носит неформальный характер (стилистическая и тематическая принад­лежность текста), а выбираемыми элементами являются, например. ЛЕ текста. При этом фактически осуществляется диалог с текстом. Ю.М. Лотман писал о том, что «взаимоотношения текста и аудитории характеризуются взаимной активностью: текст стремится уподобить аудиторию себе, навязать ей свою систему кодов, аудитория отвечает ему тем же. Текст как бы включает в себя образ своей «идеальной» аудитории, аудитория - «своего» текста» [18, с. 203]. Очевидно, в первую очередь это касается художественных текстов и их реципиен­тов. Но нельзя отрицать, что и при восприятии научного текста предъ­являемые к нему читателем требования, вообще говоря, могут быть раз­ными. Научный текст тоже играет активную роль по отношению к своей

аудитории - формирует эту аудиторию и её представления, взгляды, идеи и другие информационные составляющие. Взаимодействие между текстом и его создателем и/или интерпретатором может быть объектом исследования для лингвиста, и методики такого исследования могут быть связаны с повторами текстовых элементов и другими активными процессами.

Таким образом, основное смысловое содержание научно-техничес­кого документа может быть представлено набором ЛЕ, выбранных из текста с помощью методики, опирающейся на представления об особой структурной организации текста. Этот набор ЛЕ следует рассматривать как результат интерпретации, моделирующей интеллектуальную дея­тельность по осмыслению текста. Практическая ценность подобной ме­тодики заключается в её использовании в компьютерных технологиях обработки документов (автоматизированное составление терминологи­ческих аннотаций, выделение ключевых слов и тегов, информационный поиск).

<< | >>
Источник: Радбиль Т.Б., Маринова Е.В., Рацибурская Л.В., Самыличева Н.А., Шумилова А.В., Щеникова Е.В., Виноградов С.Н., Жданова Е.А, Русский язык начала XXI века: лексика, словообразование, грам­матика, текст: Коллективная монография. - Нижний Новгород: Изд-во ННГУ им. Н.И. Лобачевского,2014. - 325 с.. 2014

Еще по теме ГЛАВА 5 ВЫРАЖЕНИЕ СМЫСЛОВОГО СОДЕРЖАНИЯ ТЕКСТА В ЕГО СТРУКТУРЕ: