ГЛАВА 5 ВЫРАЖЕНИЕ СМЫСЛОВОГО СОДЕРЖАНИЯ ТЕКСТА В ЕГО СТРУКТУРЕ
С.Н. Виноградов
Текст рассматривается как «единство некоторого более или менее завершенного содержания (смысла) и речи, формирующей и выражающей это содержание» [12, с. 12-13].
Согласно современным семиотическим представлениям, текст включается в состав знаковых единиц, рассматривается как знак, обладающий специфическими свойствами. Тогда смысл текста входит в план содержания данного знака, а материальная структура текста является его планом выражения. Семиотические свойства текста до настоящего времени изучены явно недостаточно. Актуальность такого изучения связана с вниманием к когнитивным аспектам языка, с антропоцентрическим взглядом на него, с задачами компьютерной обработки языковой информации. Тезис Ю.М. Лотмана о том, что текст обнаруживает черты интеллектуального устройства [19, с. 7], конкретизируется в исследованиях в области информационных технологий, благодаря которым получены новые результаты в автоматизированном выявлении смысла текста и в осуществлении диалога с текстом в процессе человеко-машинного взаимодействия. Эти результаты наглядно видны в поисковых технологиях Интернета, которые не могут быть осуществлены без эмпирических представлений о том, как может быть представлено содержание контента - текстового наполнения сайтов. По причине актуальности данной проблематики необходимо обратиться к теоретическому осмыслению понятия «смысл текста».При обсуждении содержания данного понятия будем исходить из концепции, предлагаемой в книге А.И. Новикова «Текст и его смысловые доминанты» [20], в которой отразились и разные аспекты понятия
смысла, и нерешённые проблемы в этой области, и перспективы соответствующих исследований. А.И. Новиков определяет понятие смысла таким образом: «В работах, посвящённых анализу текста с коммуникативной и когнитивной точек зрения, смысл обычно рассматривают как то ментальное образование, которое формируется в результате его понимания» [20, с.
50]. Смысл изучается разными науками, которые выделяют в нём разные аспекты: «...Если философия помещает смысл в сферу познавательных процессов и тем самым в сферу действительности, то психология - в структуре (в структуру? - С.В.) личности, её мотивов, целей» [20, с. 52]. Таким образом, высказывания о смысле носят гипотетический характер (по крайней мере, характеризуют различную «локализацию» смысла). Кроме того, существуют понятия, близкие по содержанию понятию «смысл текста», передаваемые другими терминами. Так, А.И. Новиков различает смысл текста и его содержание: «Содержание формируется как ментальное образование, моделирующее тот фрагмент действительности, о котором говорится в тексте, а смысл - это мысль о действительности, т. е. интерпретация того, что сообщается в тексте» [20, с. 109]. Впрочем, «соотношение содержания и смысла может быть различным в зависимости от вида текста... В одних случаях расхождения (расхождение? - С.В.) между смыслом и содержанием может быть настолько незначительным, что они практически совпадают. В других же случаях это расхождение может быть достаточно большим» [20, с. 143]. Именно эта нечёткость в разграничении разных ментальных образований, диффузность понятий заставляет использовать выражение «смысловое содержание текста» [4, с. 19]. А.И. Новиков предположил, что «минимальное расхождение содержания и смысла характерно для текстов научной, технической тематики, для так называемой деловой прозы, а максимальное - для различных жанров художественных текстов» [20, с. 144]. Такое предположение не лишено оснований, если принять во внимание цели коммуникации в научном стиле - информацию о фрагменте действительности и при этом сведение к минимуму личностного начала, субъективной интерпретации сообщаемого.Для понимания текстового смысла существенно то, что он, по- видимому, носит гипотетический характер. Нами ранее была рассмотрена гипотетичность понятия как его специфическое свойство [9; 11, с. 75-82]. Гипотетичность означает, что о понятии можно высказать альтернативные суждения, истинность которых обосновывается в процессе деятельности людей.
Можно предположить, что этим свойством будут обладать и другие ментальные образования.
То, что в логическом плане выступает как гипотетичность, в структурном плане выступает как разноименование. За разными формулировками стоят разные суждения, которые в общем случае являются альтернативными (под альтернативными мы понимаем суждения, образующие множество, из которого мыслящему субъекту требуется сделать выбор). Разноименование при выражении смысла хорошо известно в лингвистике (ср., например, концепцию функционально-семантического поля А.В. Бондарко, в которой смысловые категории могут выражаться разноуровневыми средствами языка; налицо разноименование того, что воспринимается коммуникантами как единый смысл). Можно ожидать, что смысл текста тоже предполагает разноименование.
Не вдаваясь в вопросы онтологии смысла, сделаем акцент на том, как он выявляется и выражается. Общее представление о смысле как о некоторой ментальной структуре приводит к тому, что мы начинаем обращаться со смыслом как с некоторым материальным образованием. Но «сами понятия «структура», «строение» взяты из мира пространственных представлений и перенесены в истории познавательной деятельности человека на объекты непространственного характера» [14, с. 154]. Когда мы начинаем анализировать ментальную структуру, то неизбежно выражаем её на некотором языке, с помощью некоторых семиотических, имеющих материальную сторону единиц. О структуре этого языка и надо вести речь, если исследуется смысл. Представляется вполне правомерным при изучении смысла текста использовать вторичную текстовую деятельность реципиентов [20, с. 83-84], в которой эксплицируется текстовое содержание и фактически содержится язык, описывающий смысл текста так, как его понимает реципиент. В эксперименте, описанном А.И. Новиковым [20, с. 85-124], реципиенты- испытуемые получают следующие задания: определить, о чём предъявленный им текст, каков смысл этого текста и какие выделяются в нём ключевые слова. Лексику, используемую при ответе испытуемых, можно разделить на извлечённую (из исходного текста) и приписанную (т.
е. не содержащуюся в тексте). Один из результатов этого эксперимента - относительно небольшая доля приписанной лексики при интерпретации испытуемыми научных и научно-популярных текстов по сравнению с текстами художественными. Зго означает, что при осмыслении таких текстов их смысл относительно удачно передаётся извлечённой из них лексикой. То, что разные испытуемые используют разные форму лировки смысла текста и выделяют разный набор ключевых слов - очевидный результат, свидетельствующий о гипотетичности ментальных сущностей и их разноименовании.
Вторичная текстовая деятельность в описанном эксперименте решает проблему осмысления первичного текста, а описание реципиентами смысла и выделенные ими ключевые слова представляют собой результат решения этой проблемы. Обычно процесс решения проблемы представляет собой выбор некоторой альтернативы из ряда альтернатив. Каждый из ответов реципиентов-испытуемых представляет собой возможную альтернативу описания смысла. Очевидно, смысл первичного текста может быть описан другими вторичными текстами, а ключевые слова могут быть выделены по-иному. В этой возможности - проявление проблемносте смысла.
Вторичный текст и набор ключевых слов представляют собой модели мыслительной деятельности. Под моделью будем понимать материальное образование, структурно подобное моделируемой реальности. Поскольку сама идея структурности ментальных сущностей является гипотезой, вторичный текст и набор ключевых слов являются моделью, гипотетически отражающей моделируемую реальность.
Описанные результаты эксперимента позволяют сделать вывод, что задачу описания смысла текста можно решать путём использования его лексических единиц. Предметом нашего рассмотрения будет структура научно-популярного текста. Р. Барт определил связный текст (дискурс) как «любой конечный отрезок речи, представляющий собой некоторое единство с точки зрения содержания, передаваемый со вторичными коммуникативными целями и имеющий соответствующую этим целям внутреннюю организацию, причём связанный с иными культурными факторами, нежели те, которые относятся собственно к языку» [2, с.
443-444]. В этом определении отмечается, что содержание текста передаётся со вторичными коммуникативными целями, т. е. с целями, отличающимися от целей использования языка. Внутренняя организация текста - объект лингвистического наблюдения и описания. Вторичными коммуникативными целями, о которых идёт речь в определении, являются, например, формирование и выражение специального понятия (научно-технический текст) и создание художественного образа (художественный текст).Культурные факторы, с которыми связан научный и научно- популярный дискурс, - отражение результатов наблюдений, научный поиск, выдвижение и обоснование научных гипотез, работа с научными понятиями, популяризация научных фактов и исследовательских процессов. При создании научно-технического документа на первый план выходит когнитивная функция языка - его способность быть «непосредственной действительностью мысли» (К. Маркс), вырабатывать
новые знания о действительности. С этими факторами связаны те проблемы, которые решает автор научно-популярного текста в процессе его создания. При этом осмысление текста интерпретатором и передача его содержания в значительной степени совпадают (см. выше обсуждение соотношения содержания и смысла текста).
Особенности системной организации научного текста проявляются в том, что он носит гипертрофированно именной характер. Активность существительных и словосочетаний на их основе в научном стиле значительно больше, чем, например, в стилях разговорном и художественном. Это, по-видимому, связано с тем, что понятия в научном тексте опредмечены. В противном случае логические рассуждения, логические операции оказываются невозможными или затруднительными (ср. представление понятий в логике в виде существительных или номинативных словосочетаний). Таким образом, гипертрофированное влияние логики, логического мышления - ещё один культурный фактор, влияющий на создание научного текста.
Научно-популярный текст можно отнести к терминоиспользующим типам текста [16, с.
82]. Термин - необходимый структурный элемент, выражающий специальные понятия и научно-популярное смысловое содержание. Можно ожидать, что значительное число выделенной лексики, выражающей смысловое содержание, обладает терминологичностью.Цельность научно-технического текста обнаруживается в том, что вся совокупность высказываний, из которых он состоит, формирует единую тематику, которая может передаваться заголовком. Единая тематика неизбежно должна учитываться при выражении смыслового содержания текста. Чтобы выявить её, обратимся к лексическим повторам, под которыми будем иметь в виду повторы не только слов, но и словосочетаний. Повторы в тексте выражают представления говорящих о тождестве обозначаемых предметов, используемых знаков и выражаемых понятий [11, с. 145]. В лингвистике давно осознана связь между повторяемостью элементов текста и его семантикой. Так, Ю.Д. Апресян даёт следующую формулировку семантического закона, регулирующего правильное понимание: «...выбирается такое осмысление... предложения, при котором повторяемость семантических элементов достигает максимума» [1, с. 14]. В научно-техническом тексте «семантический повтор чаще всего проявляется в наиболее эксплицитной форме - лексическом повторе» [5, с. 24]. Этот последний тезис может быть сформулирован с использованием понятия цельности: тематическая цельность научно-технического текста вербализуется набором наиболее часто повторяющихся в этом тексте лексических единиц.
При изучении повторяющихся единиц следует иметь в виду, что повторы словосочетаний «ценнее» для выражения темы, чем повторы отдельных слов, так как словосочетание передаёт более конкретное, более богатое по содержанию понятие, в котором явно выражены его признаки.
Рассмотрим методику выявления повторяющихся лексических единиц на примере научно-популярных текстов по астрономии, посвящённых тёмной материи. Термин тёмная материя интересен тем. что у него, возможно, нет денотата. Дело в том, что тёмная материя, в отличие от наблюдаемой материи Вселенной, проявляет себя только наличием гравитации. Само существование такой материи, отличающейся от наблюдаемой (барионной) материи, гипотетично. Тем не менее соответствующее понятие активно формируется, обсуждается, выделяются его признаки, которые отражены в текстах астрономической и физической тематики. Лексика, отражающая это понятие и его признаки, выражает и смысл соответствующих текстов.
В качестве примера взят научно-популярный текст из Интернета под названием «Доказательство в пользу существования тёмной материи?»; адрес доступа: http://www.mk.ru/science/article/2010/05/21/493979-doka- zatelstvo-v-polzu-suschestvovaniya-temnoy-materii.html (пунктуация источника сохранена):
Бессмертные слова знаменитого американского астронома Карла Сагана «Земля и все живое сделаны из звездного вещества» получили свое оправдание на этой неделе.
Астрономы заявили о совершенно новом типе взрывающейся звезды, или сверхновой, которая, по-видимому, выбрасывает кальций и титан. Таким образом, кроме углерода — отдаваемого другим типом сверхновых - кальций в наших костях, безусловно, пришел из звездного вещества.
Хотя большинство сообщений в прессе было сосредоточено на кальции, тем не менее больший интерес представляет собой конечно же титан. Это открытие может стать настоящим броском обезьяны в продолжающихся усилиях найти проявление темной материи, сталкивающейся в центре Млечного Пути.
На этой неделе в журнале Nature Хагай Перец (Hagai Perets) из Гар- вард-Смитсонианского Центра астрофизики в Кембридже, штат Массачусетс, и его коллеги «предложили» новый тип сверхновых звезд.
Перец и его коллеги описывают сценарий с парой орбитальных белых карликовых звезд, где одна звезда крала гелий у другой. Когда ее гелиевая нагрузка возросла до степени нестабильности, белый карлик взо-
рвался. Поскольку он питался гелием, звезда производила кальций и титан.
Титан является радиоактивным и в ходе распада испускает позитроны. За последние несколько лет появлялись сообщения об экспериментах, таких как Л ТІС и PAMELA, свидетельствующих об избытке позитронов, идущих из глубин космоса. Этот избыток, как утверждалось, является визиткой сталкивающихся частиц темной материи. Но если новое открытие сверхновых чего-то стоит, то эти взрывы могут быть весьма обычным делом и могут являться источником позитронного избытка.
Хотя это не доказывает и не опровергает существование темной материи, как бы то ни было новое открытие сбавляет эйфорию рас- суждений о том, что избыток позитронов поступает от аннигиляции частиц темной материи.
С помощью программы подсчёта слов по частоте [20] определяются частоты каждой словоформы (табл. 1).
Таблица 1
Фрагмент (начало) списка словоупотреблений с их частотами
Частота | Словоформа | Частота | Словоформа | Частота | Словоформа |
1 | HAGAI | 2 | БЫЛО | 1 | ГЕЛИЙ |
1 | АТІС | 1 | БЫТЬ | 1 | ГЛУБИН |
1 | NATURE | 6 | В | 1 | ДЕЛОМ |
1 | PAMELA | 1 | ВЕСЬМА | 1 | ДО |
1 | PERETS | 2 | ВЕЩЕСТВА | 1 | ДОКАЗЫВАЕТ |
1 | .АМЕРИКАНСКОГО | 1 | ВЗОРВАЛСЯ | 1 | ДРУГИМ |
1 | АННИГИЛЯЦИИ | 1 | ВЗРЫВАЮЩЕЙСЯ | 1 | ДРУГОЙ |
1 | АСТРОНОМА | 1 | ВЗРЫВЫ | 2 | ЕГО |
1 | АСТРОНОМЫ | 1 | ВИДИМОМУ | 1 | ЕЁ |
1 | АСТРОФИЗИКИ | 1 | визиткой | 1 | ЕСЛИ |
1 | БЕЗУСЛОВНО | 1 | ВОЗРОСЛА | 1 | ЖЕ |
1 | БЕЛЫЙ | 1 | ВСЕ | 1 | ЖИВОЕ |
1 | БЕЛЫХ | 1 | ВЫБРАСЫВАЕТ | 1 | ЖУРНАЛЕ |
1 | БЕССМЕРТНЫЕ | 1 | ГАРВАРД | 1 | ЗА |
1 | БОЛЬШИЙ | 1 | ГДЕ | 1 | ЗАЯВИЛИ |
1 | БОЛЬШИНСТВО | 1 | ГЕЛИЕВАЯ | 2 | ЗВЕЗД |
1 1 | БРОСКОМ БЫ | 1 | ГЕЛИЕМ | 2 2 1 | ЗВЕЗДА ЗВЕЗДНОГО ЗВЕЗДЫ |
Из табл. 1 выбираем только существительные и прилагательные. Глагольные формы не рассматриваются из-за именного характера научно-технического стиля (глаголы играют сравнительно скромную роль при выражении содержания текста). Местоимения и служебные части речи не принимаются во внимание по причине их неинформативности.
Далее объединяем словоформы одного и того же слова, считаем эту совокупность словоформ одним словом и складываем частоты словоформ. Например, словоформы звезд, звезда и звезды считаем одним словом, употреблённым с частотой 5. Повторяющиеся слова представлены в табл. 2 (лексика упорядочена по частоте, а внутри одной частоты - по алфавиту).
Таблица 2
Повторяющиеся слова с их частотами
Слово | Частота | Слово | Частота |
ЗВЕЗДА | 5 | БЕЛЫЙ | 2 |
ИЗБЫТОК | 4 | ВЕЩЕСТВО | 2 |
КАЛЬЦИЙ | 4 | ГЕЛИЙ | 2 |
МАТЕРИЯ | 4 | ЗВЕЗДНЫЙ | 2 |
СВЕРХНОВАЯ | 4 | КОЛЛЕРИ | 2 |
ТЕМНЫЙ | 4 | НЕДЕЛЯ | 2 |
ТИТАН | 4 | НОВЫЙ | 2 |
ОТКРЫТИЕ | 3 | ПЕРЕЦ | 2 |
ПОЗИТРОН | 3 | СООБЩЕНИЕ | 2 |
ТИП | 3 | ЦЕНТР | 2 |
АСТРОНОМ | 2 | ЧАСТИЦА | 2 |
Принимая во внимание исключительную роль терминов в научных и научно-популярных текстах, оценим лексику из табл. 2 по степени её участия в образовании терминов. Для этого определим долю слов, выражающих в тексте либо специальное понятие, либо признак специального понятия. Назовём эту долю степенью терминологичности. Например, слово звезда - астрономический термин, избыток - общеупотребительное слово, не выражающее специального понятия или его признака, белый - выражение признака специального понятия «белый карлик» или «белая карликовая звезда». Степень терминологичности выделенных повторяющихся слов (табл. 2) составляет 68%. Оценим эту степень по каждой частоте отдельно и получим следующие результаты: для частоты 5 - 100% (единственное слово звезда является термином), для частоты 4 - 83% (все слова, кроме слова избыток, выражают либо специальное понятие, либо его признак, как, например, слово тёмный выражает признак понятия «тёмная материя»), для частоты 3 - 33% (только слово позитрон, являющееся специальным термином), для 2 - 50% (кроме общеупотребительных коллега, неделя, новый, сообщение, центр и имени собственного Перец). Данный результат обнаруживает тенденцию к
уменьшению степени терминологичности слов с уменьшением частоты их употребления в конкретном тексте.
С использованием подобной методики изучались 6 текстов из Интернета, посвящённые тёмной материи. Степень терминологичности ЛЕ (лексических единиц) в этих текстах определялась аналогично тому, как это делалось в вышеприведённом примере (табл. 3).
Таблица 3
Степень терминологпчности ЛЕ в зависимости от частоты, %
Заголовок и интернет-адрес текста | Частота | |||
5 и более | 4 | 3 | 2 | |
Физики сомневаются в существовании темной материи http://www.rosbal.tra/2010/02/07/710569 | 100 | 67 | 75 | 46 |
Доказательство в пользу существования тёмной материи? http://www.mk.ru/science/article/2010/05/21/493979- dokazatelstvo-v-polzu-suschestvovaniya-temnoy- materii.html | 100 | 83 | 33 | 50 |
Доля тёмной материи оказалась обычным газом www.membrana.ru/particle/745 | 100 | 33 | 25 | 47 |
Вселенские волокна удержали первые звёзды тёплой материей www,membrana.ru/particle/703 | 70 | 33 | 36 | 69 |
Тёмная материя нагрета сильнее поверхности солнца www. membrana.ru/particle/505 | 90 | 100 | 47 | 38 |
Суперкомпьютер информирует: нас окружают тёмные невидимки www.membrana.ru/particle/587 | 70 | 50 | 42 | 31 |
Указанная тенденция выражена нечётко (нет плавного убывания термино логичности с уменьшением частоты). Но эту тенденцию можно усилить, если учитывать частоты не только отдельных слов, но и словосочетаний. В рассматриваемом тексте есть несколько повторяющихся словосочетаний. Результаты подсчётов отражены в табл. 4.
Таблица 4 требует следующих пояснений.
Ранги в таблице передают предпочтение одних повторяющихся ЛЕ перед другими. Правила предпочтений следующие:
1) ЛЕ с большей частотой предпочтительнее («лучше»), чем ЛЕ с меньшей частотой;
2) ЛЕ с большим количеством знаменательных слов в своем составе предпочтительнее («лучше»), чем ЛЕ с меньшим количеством знаменательных слов.
Таблица 4
Повторяющиеся в тексте слова и словосочетания
Ранг | Слово или словосочетание | Частота | Количество слов |
1 | Звездное вещество | 2 | 2 |
Звезда | 3 | 1 | |
Избыток позитронов | 2 | 2 | |
Кальций | 4 | 1 | |
Новый тип звёзд | 2 | 3 | |
Новое открытие | 2 | 2 | |
Темная материя | 2 | 2 | |
Титан | 4 | 1 | |
Сверхновая | 4 | 1 | |
Частица темной материи | 2 | 3 | |
2 | Астроном | 2 | 1 |
Белый | 2 | 1 | |
Гелий | 2 | 1 | |
Избыток | 2 | 1 | |
Коллеги | 2 | 1 | |
Неделя | 2 | 1 | |
Перец | 2 | 1 | |
Сообщение | 2 | 1 | |
Центр | 2 | 1 |
Выражение «лучше» здесь имеет следующую содержательную интерпретацию. Часто повторяющаяся ЛЕ пронизывает весь текст, поэтому предположительно информативна для передачи понятия, существенного для данного текста, и /или признаков такого понятия. При этом, поскольку специальные понятия выражаются терминами, следует предположить, что наиболее часто повторяющиеся в данном тексте ЛЕ терминологичны. Если ЛЕ состоит более чем из одного знаменательного слова, то можно ожидать, что она подробнее и точнее выражает признаки понятия, чем однословная ЛЕ, потом}' что элементы словосочетания служат для уточнения содержания понятия, даже в некоторой степени заменяют его определение. Поэтом}' можно ожидать, что повторяющиеся ЛЕ, состоящие более чем из одного знаменательного слова, выражают, во-первых, понятия, существенные для содержания данного текста,
во-вторых, существенные признаки этих понятий. При оценке предпочтений следует учесть оба вышеприведенных правила: первая ЛЕ «лучше». чем вторая, если она по одному правилу такая же или «лучше», а по другому «лучше», чем вторая. Например, в разбираемом тексте слово кальций «лучше» слова гелий, потому что по признак}' количества слов слово кальций такое же, как слово гелий (включает одно знаменательное слово), а по признаку частоты - «лучше» слова гелий (частота употребления слова кальций больше частоты слова гелий). ЛЕ избыток позитронов и кальций не имеют предпочтений одна перед другой, то есть входят в один ранг, поскольку ЛЕ избыток позитронов имеет больше слов, чем ЛЕ кальций, зато ЛЕ кальций имеет большую частоту, чем ЛЕ избыток позитронов. Каждый ранг содержит слова, каждое из которых не имеет предпочтений ПО отношению ХОТЯ бы К ОДНОМ}' слову из этого ранга. Внутри каждого ранга ЛЕ упорядочены по алфавиту.
Табл. 4 содержит ЛЕ, предположительно передающие основное содержание текста. Содержательно результаты, отражённые в этой таблице. могут быть интерпретированы следу ющим образом. Повторяющиеся ЛЕ отражают основное смысловое содержание текста, причём ЛЕ из ранга 1 лучше, чем из ранга 2. Действительно, в тексте речь идёт о сверхновых звёздах, которые выбрасывают кальций и титан. Поскольку титан истекает позитроны, то обнаружение их избытка может свидетельствовать о наличии этих сверхновых, а не о частицах тёмной материи. которым приписываются излучаемые позитроны. Повторяющиеся ЛЕ отражают это содержание нечётко. Так, в ранг 1 попала малосодержательная нетерминологическая ЛЕ новое открытие (которая, возможно. является издержкой научно-популярного стиля изложения). В ранге 2 оказываются только одиночные ЛЕ, причём ЛЕ терминологического характера явно менее информативны, чем ЛЕ из ранга 1. Так. ЛЕ гелий передаёт не основное содержание документа, а содержание только одного абзаца, в котором описывается механизм возникновения сверхновой определённого типа. Набор выделенных ЛЕ может быть рассмотрен как результат терминологического аннотирования и как возможный результат интерпретации исходного текста.
Рассмотрение шести текстов позволяет обнаружить, что степень терминологичности ЛЕ тем выше, чем меньше ранг (табл. 5).
Внутренняя организация текста включает не только количественные свойства его элементов, но и их грамматические (морфолого-синтаксические) связи. Поэтому естественны попытки выявить роль грамматических связей в выражении смысла текста.
Таблица 5
Степень терминологичностн ЛЕ в зависимости от ранга %
Заголовок и интернет-адрес текста | Ранг 1 | Ранг 2 |
Физики сомневаются в существовании темной материи http://www.rosbal.tru/2010/02/07/710569 | 78 | 54 |
Доказательство в пользу существования тёмной материи? http://www.mk.ra/science/article/2010/05/21/493979- dokazatelstvo-v-polzu-suschestvovaniya-temnoy-materii.html | 90 | 33 |
Доля тёмной материи оказалась обычным газом www.membrana.ru/particle/745 | 50 | 47 |
Вселенские волокна удержали первые звёзды тёплой материей www,membrana.ru/particle/703 | 58 | 50 |
Тёмная материя нагрета сильнее поверхности солнца www.membrana.ru/particle/505 | 68 | 36 |
Суперкомпьютер информирует: нас окружают тёмные невидимки www.membrana.ru/particle/587 | 61 | 27 |
Известно, что в русском научно-техническом документе подавляющее большинство грамматических связей в номинативных словосочетаниях составляют связи 1) прилагательного с существительным и 2) существительного и существительного в родительном падеже (сочетание с генитивом). По данным Н.Ю. Русовой, терминологические сочетания, использующие эти две связи, в техническом и научном текстах составляют 80-90%, а сочетания с генитивом составляют 40-50% [22, с. 97- 98]. Сочетания с генитивом легко образуют генитивные цепочки, в которые могут входить любые существительные, одиночные и с зависимыми от них прилагательными. В подобных цепочках существительные и сочетания «прилагательное + существительное», имеющие нетерминологическое или общенаучное значение, предшествуют аналогичным единицам, выражающим узкоотраслевые понятия [10, с. 107-108; 11]. Например, в словосочетании анализ физических характеристик тёмной материи слово анализ имеет общенаучное значение, а словосочетание тёмная материя выражает физическое (астрономическое, космологическое) понятие. Для того чтобы дать оценку степени правдоподобия гипотез о семантике подобных единиц в тексте, можно предложить следующую методику.
1. Выписать из текста все генитивные цепочки.
2. О каждом элементе таких цепочек высказать следующие гипотезы: а) данный элемент нетерминологичен или выражает общенаучное понятие, б) данный элемент выражает узкоотраслевое понятие.
3. Оценить и сравнить правдоподобие этих двух гипотез.
Для оценки правдоподобия гипотез надо приписать каждому элементу число N следующим образом: 1) элемент, раньше которого ни в одной цепочке не встретился другой элемент, имеет N =1, 2) элементѣ имеет N = п +1, если наибольшее из N, принадлежащих элементам, встречающимся передѣ, равно п [10, с. 104-09; 11, с. 166]. Величина N позволяет учесть информацию о порядке любых двух элементов, стоящих рядом в генитивной цепочке.
Рассмотрим эту методику на примере проанализированного выше текста. Получим 7Ѵ для всех элементов, выделенных в табл. 4.
Звёздное вещество (1), так как ни в одной генитивной цепочке этому элементу не предшествует ни один элемент;
звезда (2), так как есть цепочки новый тип звезд, пара звезд, где элементы новый тип и пара имеют N= 1;
избыток (2) позитронов (3), так как в тексте есть словосочетание источник (1) позитронного избытка (2);
кальций (1); новое открытие (1);
тёмная материя (3), так как в тексте есть словосочетания визитка (1) частиц (2) тёмной материи (3), аннигиляция (1) частиц (2) тёмной материи (3):
новый тип (1) звезд (2); титан (1):
сверхновая (2). так как в тексте есть словосочетания новый тип (1) сверхновой (2). открытие (1) сеерхноеой(2'у.
частицы (2) тёмной материи (3);
астроном (2). см. бессмертные слова (1) знаменитого американского астронома (2):
белый (2) (в словосочетании пара (1) орбитальных белых карликовых звезд (2) слово белый относится к элементу, имеющему N = 2, поэтому получает это же число);
гелий (1):
избыток (2). т. к. источник (1) позитронного избытка (2): коллеги (1): неделя (1):
Перец (1);
сообіцение (2) (большинство (1) сообщений (2); центр (1).
Теперь сгруппируем ЛЕ по значениям Аг и оценим степень терминологичности ЛЕ для каждого N (табл. 6). Если ЛЕ представляет собой генитивную цепочку, то значения N для её элементов складываются. Например, избыток (2) позитронов (3) даёт Аг= 2 + 3 = 5.
Таблица б
Оценка степени терминологичности ЛЕ с помощью генетивных цепочек
Величина N | Лексические единицы | Степень терминологичности, % |
5 | Избыток позитронов, частица тёмной материи | 100 |
3 | Тёмная материя, новый тип звёзд | 100 |
2 | Звезда, сверхновая, астроном, белый, избыток, сообщение | 67 |
1 | Звёздное вещество, кальций, новое открытие, титан, гелий, коллега, неделя, Перец, центр | 44 |
Табл. 6 даёт более чёткую дифференциацию степени терминологичности. чем табл. 3. где отражены только частоты ЛЕ. и более детальную дифференциацию термино логичности, чем табл. 4 и 5, в которых учитываются частоты и количество знаменательных слов в составе ЛЕ. Очевидно. ЛЕ. имеющие Аг = 5, очень точно отражают часть смысла документа: частицы тёмной материи могут вызывать избыток позитронов.
В проведённом исследовании для анализа смыслового содержания текста используется лишь незначительная часть средств его структурной организации. В перспективе заслуживают внимания его абзацная структура, распределение ЛЕ по частям текста, расстояние между ЛЕ в документе и т. д. Организация текста - его наблюдаемая сторона, поэтому подобные исследования носят индуктивный характер и не предполагают априорного создания дедуктивной системы (математического исчисления) при моделировании языковых и речевых фактов.
Структурная организация текста может использоваться не только для исследования и описания его смысла, но и в качестве своеобразного «инструмента» грамматического анализа. Практическая значимость такого использования текста связана с тем. что в современных компью
терных технологиях обработки информации на естественном языке всё большую роль играет морфологический и синтаксический анализ. В процессе автоматизированного выявления морфологической информации к слову и построения синтаксических деревьев обнаруживаются ошибки, предотвращение которых связано с большими трудностями из- за сложности естественного языка и нечёткости его структуры. Особенно это касается синтаксического анализа. Следствием попыток решения этих проблем является увеличение объёмов машинных словарей и сложности алгоритмических процедур. Текст позволяет подойти к проблеме синтаксического анализа с другой стороны - путём использования линейного расположения текстовых единиц. Будем рассматривать повторяемость не слов, не словосочетаний, а линейных последовательностей - групп слов, расположенных рядом и отделённых одно от другого только пробелами и служебными частями речи.
Рассмотрим повторяемость последовательностей на примере вышеприведённого текста. Повторяемые последовательности заключаются в угловые скобки, слова приводятся в начальной форме. Получаются последовательности , , , , , . Каждая из этих последовательностей выражает словосочетание, реально существующее в данном тексте: звёздное вещество, тип сверхновой, тёмная материя, избыток позитронов, частица тёмной материи, новое открытие. Каждое из этих словосочетаний с синтаксической точки зрения представляет собой синтаксическое дерево, включающее 2 или 3 элемента (и соответственно 1 или 2 синтаксические связи). Таким образом, повторяющиеся последовательности позволяют выявить некоторые синтаксические деревья, присутствующие в тексте.
Следует обсудить вопрос о вариативности морфологических элементов, входящих в линейные последовательности. Не может ли одна и та же последовательность отражать разные синтаксические деревья (например, не только избыток позитронов, но и *избыток позитрона, *избыток позитронами, *избыток позитронам)? Думается, что по крайней мере в одном и том же тексте эта вариативность практически отсутствует. Словосочетания, отмеченные звёздочками, либо лишены смысла (не может быть избыток одного позитрона), либо грамматически неправильны.
Заслуживает внимания повторяющаяся последовательность . Она получена в результате учёта двух текстовых последовательностей - другим типом сверхновых и новый тип сверхновых звёзд.
В первом из этих словосочетаний слово сверхновая - субстантивированное прилагательное, во втором - прилагательное. Это означает, что в тексте отражён промежуточный, переходный статус данного слова. Принятое на основе этих двух словосочетаний «алгоритмическое решение» считать последовательность тип сверхновых правильным словосочетанием «существительное + существительное» представляется приемлемым и со смысловой, и с грамматической точек зрения.
Повторяющиеся последовательности, обнаруженные в других текстах, представлены в табл. 7.
Таблица 7
Словосочетания, выражаемые повторяющимися в текстах последовательностями
Заголовок текста | Наборы повторяющихся последовательностей | Словосочетания |
Физики сомневаются в существовании тёмной материи | , , | тёмная материя, гамма- излучение тёмной материи, физическое явление |
Доля тёмной материи оказалась обычным газом | , Скопление, галактика>, | тёмная материя, скопление галактик, ХММ- Newton |
Вселенские волокна удержали первые звёзды тёплой материей | , , , , < і ёі і- лый, тёмный, материя>, Голодный, тёмный, материя > | тёмная материя, Большой взрыв, ранняя звезда, чёрная дыра, тёплая тёмная материя, холодная тёмная материя |
Тёмная материя нагрета сильнее поверхности солнца | , Температура, тёмный, материя>, , , , , , , , | наблюдение за галактиками, «ось зла», микроволновый фон, Большой взрыв, частица Wimp |
Суперкомпьютер информирует: нас окружают тёмные невидимки | Тёмный, материя>, Скопление, тёмный, материя>, , , , Тамма, те- лескоп> | тёмная материя, скопление тёмной материи, Млечный Путь, гало Млечного Пути, карликовые галактики, гамма- телескоп |
Все словосочетания в третьем столбце табл. 7 терминологичны в определённом выше смысле (в составе любого из этих словосочетаний обязательно присутствует астрономический термин).
Использование данной методики выделения ЛЕ может быть востребовано при решении некоторых теоретических проблем науки о терминах, в частности проблем выделения терминов из текста и определения границ термина. Позиция, которая принята в данной работе, заключается в том, что «признак «быть термином» применительно к любой текстовой единице оказывается гипотетичным. Такое свойство текстовых единиц можно трактовать как степень терминологичности - градуальный признак терминологических единиц...» [6, с. 263-264]. Оценим степень терминологичности словосочетаний, выделенных в табл. 7.
Существует ряд критериев, согласно которым выделенные из текста слова и словосочетания можно считать терминами [13, с. 60-70]. Эти критерии в основном носят неформальный, содержательный характер и, несомненно, относятся к культурным факторам, определяющим функционирование научного языка. Согласно этим критериям, подавляющее большинство словосочетаний из табл. 7 (более 80%) следует считать терминами (они имеют дефиниции, подчиняются логическим теоремам определения терминологичности [13, с. 65-67]). Может вызвать сомнение принадлежность к терминам словосочетаний скопление галактик, ранняя звезда, наблюдение за галактиками, скопление тёмной материи. Слово скопление является общеупотребительным, и можно сомневаться, что оно выражает специальное понятие или выделяет его признак. Понятие «скопление галактик» имеет определение: это гравитационно связанные системы галактик. Возможна классификация скоплений галактик: скопления бывают регулярными и иррегулярными [23]. Понятие «скопление тёмной материи» определения не имеет. Соответствующее содержание может передаваться словосочетанием сгустки тёмной материи. Эго свидетельствует о том, что статус терминоэлемента скопление в составе словосочетаний неустойчив: он может входить, а может и не входить в состав составного термина. По-видимому, здесь мы имеем дело с процессом терминологизации, не доведённым до конца.
Те же рассуждения справедливы относительно общенаучного терминоэлемента наблюдение. Можно представить себе научный труд, посвящённый астрономическим наблюдениям, в котором есть главы о наблюдении за планетами, наблюдении за звёздами, наблюдении за галактиками и т. д. Но можно сомневаться, что наблюдение за галактика-
ми - это сложившееся научное понятие с устойчивыми признаками, имеющее точное определение.
Понятие «ранняя звезда» также не имеет определения. Из текста можно понять, что ранние звёзды - это звёзды, возникшие в ранний период существования Вселенной. Однако это название не связано с чёткой периодизацией. Скорее всего, терминоэлемент ранний также не полностью терминологизирован.
Полученные результаты отражают не только градуальный характер терминологичности, но и процесс терминологизации. Когда понятие лишь зарождается, то «может и не быть облечённым в словесную форму, а до того времени идёт процесс подыскивания экспонента для возникшего, но ещё терминологически не оформленного понятия» [17, с. 86]. Несмотря на ^сформировавшийся терминологический статус, эти ЛЕ, несомненно, отражают существенную часть смыслового содержания текстов. Например: «В области, где мог бы находиться диск Млечного Пути, располагаются большие скопления тёмной материи. И распределение тёмной материи здесь может оказаться более сложным, чем мы думали...» Зго отрывок из текста «Суперкомпьютер информирует: нас окружают тёмные невидимки», который посвящён изучению структуры предполагаемой тёмной материи, окружающей нашу галактику. Элементами этой структуры, в частности, являются скопления тёмной материи.
Что касается грамматической структуры словосочетаний, выделенных в табл. 7, то она полностью соответствует наиболее частотным структурам терминологических словосочетаний; ср. данные из статьи [15, с. 7]. Можно сказать, что предлагаемая методика позволяет решать проблему определения границ терминов в соответствии с их грамматической структурой.
ЛЕ, выделенные в тексте и отражённые в табл. 4, 6 и 7, представляют собой модели его смысла. Данные модели отличаются от моделей смысла, созданных реципиентами-испытуемыми, тем, что не являются связным текстом. Насколько хороши такие модели? Не является ли их фрагментарность, отсутствие в них предикативных связей их недостатком? Ответы на эти вопросы, по-видимому, связаны с областью применения таких моделей. Если стремиться к моделям, специфичным для речевой деятельности человека, для его способности порождать речь, то модели в виде множества ЛЕ далеки от идеала. Если рассматривать эти модели как набор ключевых слов (дескрипторов информационного языка, тегов содержания документа в Интернете), то эти модели представляются приемлемыми,
поскольку их структура может быть использована при поиске документов. Некоторая степень нечёткости таких моделей неизбежна хотя бы по причине принципиальной гипотетичности смысла.
Между моделями смысла, полученными путём формального извлечения ЛЕ из текста и созданными испытуемыми, нет непроходимой границы. Во-первых, если считать, что ЛЕ передают понятия, о которых идёт речь в тексте, то содержательно модель может быть дополнена соответству ющим отношением, выраженным речью, например, таким образом: «В данном документе говорится об избытке позитронов, частицах тёмной материи, новом типе звёзд и т. д.» (табл. 6). Во-вторых, имея набор ЛЕ, входящих в один и тот же документ, наблюдатель (особенно специалист в данной тематической области) может высказать правдоподобные гипотезы о связях соответствующих понятий. Например, при рассмотрении ЛЕ звёздное вещество, звезда, кальций, титан (табл. 4) наблюдатель может предположить, что речь идёт о создании кальция и титана в результате процессов, происходящих в звёздах, и это предположение в данном случае оказывается верным. В-третьих, в терминологических словосочетаниях также отражены связи понятий. Например, в словосочетании гамма-излучение тёмной материи отражён тот факт (или предположение), что тёмная материя может быть источником гамма-излучения, (табл. 7). Заметим, что отношения между понятиями, выраженными терминами, входящими в словосочетания, оказываются тоже гипотетичными - хотя бы в силу неоднозначности морфологических форм и синтаксических связей.
Все приведённые примеры и сделанные выводы относятся к разновидности научно-технического текста. Возникает вопрос: применимы ли они к другим стилям? Ранее было отмечено, что для научно- технического текста характерна когнитивная функция. Но эта функция реализована не только в научном стиле. Тексты других стилей и жанров могут иметь иерархически структурированное понятийное содержание. Нами были рассмотрены лексические повторы в нескольких стихотворениях [7, с. 260-265]. Основным результатом этого исследования является наличие повторов, выражающих понятийное содержание некоторых поэтических произведений. Так, стихотворение Н. Гумилёва «Сахара». являясь отрывком из своеобразного поэтического путевого дневника, точно передаёт понятия о некоторых описываемых реалиях. Это выражается в повторах таких ЛЕ, как верблюд, Средиземное море, песок, пустыня, солнце. Очевидно, лексические повторы при определенных условиях могут отражать понятийное содержание не только научных,
но и поэтических произведений. С другой стороны, существуют поэтические произведения, в которых повторяющиеся ЛЕ выполняют особую роль, связанную с осуществлением поэтической функции. Согласно тезису Р.О. Якобсона, поэтическая функция проецирует принцип эквивалентности с оси селекции на ось комбинации [24, с. 204]. В таком случае повторы лексических единиц связаны не с понятийным содержанием текста, а с сопоставлениями, противопоставлениями, параллелизмами, которые создают особую организацию поэтического текста, где на первый план выходит эстетическая (поэтическая) функция - функция создания образа. Вероятно, поэтические повторы связаны с поэтическим смыслом, но изучение этого вопроса выходит за пределы данной работы.
На основе исследования того, как внутренняя организация текста выражает, эксплицирует, моделирует его смысл, можно сформулировать некоторые перспективы дальнейших исследований возникновения и бытования текстового смысла. Результаты анализа подтверждают тезис Ю.М. Лотмана о том, что текст обнаруживает черты интеллектуального устройства. Ещё одно проявление «интеллектуальности» текста - возможность вести с ним диалог. Проблема диалога с текстом ставилась М.М. Бахтиным: «Текст живёт, только соприкасаясь с другим текстом (контекстом). Только в точке этого контакта... вспыхивает свет, освещающий и назад, и вперёд, приобщающий данный текст к диалогу. Подчеркнём, что этот контакт есть диалогический контакт между текстами (высказываниями)...» [3. с. 424]. Моделями диалога с текстом являются интернет-технологии, в частности гипертекстовые ссылки [8. с. 295]. Моделью текста является страница из Интернета, для обращения к которой нужно знать «код доступа» и использование которой сводится к выбору её элементов. В вышеприведённых примерах «код доступа» носит неформальный характер (стилистическая и тематическая принадлежность текста), а выбираемыми элементами являются, например. ЛЕ текста. При этом фактически осуществляется диалог с текстом. Ю.М. Лотман писал о том, что «взаимоотношения текста и аудитории характеризуются взаимной активностью: текст стремится уподобить аудиторию себе, навязать ей свою систему кодов, аудитория отвечает ему тем же. Текст как бы включает в себя образ своей «идеальной» аудитории, аудитория - «своего» текста» [18, с. 203]. Очевидно, в первую очередь это касается художественных текстов и их реципиентов. Но нельзя отрицать, что и при восприятии научного текста предъявляемые к нему читателем требования, вообще говоря, могут быть разными. Научный текст тоже играет активную роль по отношению к своей
аудитории - формирует эту аудиторию и её представления, взгляды, идеи и другие информационные составляющие. Взаимодействие между текстом и его создателем и/или интерпретатором может быть объектом исследования для лингвиста, и методики такого исследования могут быть связаны с повторами текстовых элементов и другими активными процессами.
Таким образом, основное смысловое содержание научно-технического документа может быть представлено набором ЛЕ, выбранных из текста с помощью методики, опирающейся на представления об особой структурной организации текста. Этот набор ЛЕ следует рассматривать как результат интерпретации, моделирующей интеллектуальную деятельность по осмыслению текста. Практическая ценность подобной методики заключается в её использовании в компьютерных технологиях обработки документов (автоматизированное составление терминологических аннотаций, выделение ключевых слов и тегов, информационный поиск).