<<
>>

§ 1. Вероятность, неопределенность и информация

Анализ понятия информации мы начнем с рассмотрения наиболее разработанной - статистической теории информации. Поскольку упомянутая теория возникла на базе теоретико­вероятностных идей, выясним сначала, что же понимают под ве­роятностью.

Нет надобности здесь заниматься критикой субъективист­ского понимания вероятности, этот вопрос достаточно полно ос­* тл

вещен в нашей литературе . Разумеется, вероятность как понятие отражает определенные признаки объективных процессов. Что это за признаки? Чтобы ответить на этот вопрос, рассмотрим два основных подхода к определению понятия вероятности - клас­сический и статистический (частотный).

В классическом подходе вероятность каких-либо событий определяется исходя из их возможности. Например, нам нужно бросить монету. Выпадение какой-либо определенной ее сторо­ны (либо цифры, либо герба) в этом случае равновозможно, рав-

* См. Гнеденко Б. В. Курс теории вероятностей. М.: Физматгиз, 1961 ; Сач­ков Ю. В. К обоснованию теории вероятностей // Вопр. философии. 1958. № 11.

новероятно. Число равновероятных событий соответствует числу сторон монеты, то есть двум, а вероятность выпадения одной стороны герба (или цифры) равна: p = 2 . Если у нас в руках иг­ральная кость (куб), то в этом случае число равновозможных собы­тий определяется по числу граней куба, а вероятность выпадения

какой-либо грани (каждой из шести) равна: p =1.

6

Однако во многих задачах соображения классического под­хода не могут привести к определению вероятности. Ведь очень часто равновозможность событий нарушается в результате, ска­жем, неравномерного распределения материала игральной кости, действия возмущений в процессе бросания и т. д. В таких случаях заранее теоретически определить вероятность, не проводя испы­таний, экспериментов (например, бросаний), оказывается затруд­нительным, если не невозможным.

В теории вероятностей испы­тания, когда появляется данный результат А (например, выпадает какая-либо определенная грань игральной кости), называются ис­пытаниями, благоприятствующими событию А. Вероятность р (А) события А определяется как отношение числа возможных резуль­татов испытания, благоприятствующих событию А, к числу всех возможных результатов испытания. При этом если условия рав- новозможности событий нарушаются, то упомянутое отношение выражает не вероятность, а частоту появления события А. Но оказывается, что при большом числе испытаний частота со­бытия А близка к вероятности. Вероятность, таким образом, представляет собой как бы некоторую постоянную, вокруг кото - рой может колебаться частота. Такая вероятность носит название частотной, или статистической.

Нетрудно заметить, что мы рассматривали события, кото - рые могут произойти, а могут и не произойти. Но такие события, как известно, являются случайными. Значит, вероятность - это не только количественная мера возможности наступления собы­тия, но и количественная мера степени его случайности. Если вероятность события равна единице, то данное событие обяза­тельно должно произойти; его наступление уже оказывается не случайным, а необходимым. Если же вероятность события равна нулю, то такое событие не произойдет и его ненаступление так­же необходимо. Поэтому случайные события характеризуются лишь значениями вероятности, заключенной в интервале от нуля до единицы (1 > p > 0).

Понятия возможности, случайности, вероятности находятся в определенном отношении с понятием неопределенности. В примере с бросанием игральной кости неопределенность означа­ет, что в начальный момент мы не можем сказать, какая именно грань выпадет. Ведь может выпасть любая из шести граней. Не­определенность, как и вероятность, конечно, не нужно понимать в субъективистском духе. Дело не в нашем незнании, а в том, что неопределенность существует объективно. Она имеет место то­гда, когда производится выбор из некоторой совокупности эле­ментов какой-то их части, например одного элемента.

Степень неопределенности выбора характеризуется отношением числа выбранных элементов к общему числу элементов совокупности (множества).

Если множество состоит всего из одного элемента, то степень неопределенности равна нулю, ибо мы можем выбрать один и только один элемент. Вероятность выбора в этом случае равна единице, что следует из соображений классического подхода (это как бы бросание «монеты», имеющей всего лишь одну «сторо­ну»,- естественно, что одна «сторона» всегда и выпадает). Теперь рассмотрим множество из двух элементов, например бросание «нормальной» монеты (с двумя сторонами). Очевидно, что вероят­ность выпадения какой-либо стороны равна, как уже упоминалось:

p =1 . Степень неопределенности оказывается здесь уже от-

2

личной от нуля: ведь можно выбрать или один, или другой эле­мент. Выбор в данном случае сводится к отличению одного элемента от другого. Выбрав какой-либо элемент, а значит, от­личив его от другого, мы уменьшим неопределенность до нуля (ибо оставшийся элемент есть множество с нулевой неопреде­ленностью).

Продолжая эти рассуждения, мы приходим к выводу, что увеличение числа элементов во множестве ведет к росту степени неопределенности и к уменьшению вероятности выбора одного элемента. Получается, что бесконечное число элементов во мно­жестве соответствует бесконечной неопределенности и нулевой вероятности.

Итак, степени неопределенности и вероятности связаны друг с другом. Зная вероятность, мы сможем определить степень неопределенности. Предположим, что мы должны угадать одно из восьми чисел: 1, 2, 3, 4, 5, 6, 7, 8. Мы можем задавать заду­мавшему число вопросы и получать ответы «да» или «нет». По­скольку мы не можем предпочесть ни одно из восьми чисел, то из соображений равновозможности определяем, что вероятность

угадать задуманное число составляет !. Степень неопределенно-

8

сти может быть измерена количеством чисел, то есть 8. Если мы должны угадать одно из 20 чисел, то соответственно степень не­определенности равна 20, а вероятность выбора одного числа

равна — .

Казалось бы, между степенью неопределенности и ве- 20 1 роятностью получается весьма простая зависимость: н = — , где

H - степень неопределенности, а p - вероятность выбора эле­мента. Действительно, при p = 0 степень неопределенности рав­на бесконечности. Чем больше вероятность, тем меньше степень неопределенности. Но когда мы переходим к р = 1 и подставляем в формулу, то получаем, что и H = 1. Но это неверно. Ведь при p = 1 степень неопределенности должна быть равна нулю, ибо выбирать не из чего - во множестве всего один элемент. Значит, зависимость между H иp должна быть иной.

Оказывается, если мы положим, что

H = log— = -1 og p, p

то в этом случае мы удовлетворим всем условиям о связи степе­ни неопределенности с вероятностью. В самом деле, при p = 0 имеем log сю = сю, при p = 1 logl = 0; другими словами, уменьше­ние p ведет к увеличению H. Итак, логарифмическая функция есть функция связи числа элементов во множестве, то есть сте­пени неопределенности с вероятностью выбора одного элемента из этого множества.

Какие же логарифмы можно использовать при определении степени неопределенности через вероятность? Это вопрос не принципиальный - можно брать логарифмы при любом основании, но наиболее употребительны все же двоичные, десятичные и нату­ральные логарифмы. Если берутся логарифмы по основанию 2 (log2 A), то получаемая в этом случае степень неопределенности выражается в битах (сокращение от английского выражения «двоичный разряд»). Например, степень неопределенности мно­жества из двух элементов составляет один бит, множества из че­тырех элементов с равными вероятностями - два бита и т. д.

Мы так подробно говорили о неопределенности и степени ее измерения потому, что изучением степени неопределенности, свя­зи ее с вероятностью и занимается статистическая теория инфор­мации. В теории информации рассматриваются любые события, в результате которых уменьшается, уничтожается, исчезает неопре­деленность. Так, если мы хотим узнать по телефону, прибыл ли интересующий нас самолет, то, получив ответ «да», мы тем са­мым уменьшаем неопределенность до нуля.

Следует заметить, что, получив ответ «нет», мы также полностью снимаем неопре­деленность. Если вероятности обоих ответов равны, то уменьше­ние неопределенности происходит на одну и ту же величину.

Пример, который мы только что привели, содержит всего два возможных ответа (множество с двумя элементами). Здесь в результате любого ответа («да» или «нет») неопределенность уничтожается полностью. Если имеется больше возможных от­ветов (исходов), то каждый ответ может уменьшать неопреде­ленность на определенную величину. Так, в ранее упомянутом примере с угадыванием одного из восьми чисел может быть во­семь различных исходов. Предположим, что мы назвали число 1 и не угадали (получили ответ «нет»). В результате неопределен­ность уменьшилась от 8 до 7 (или, в логарифмических единицах, от - log2 8 до - log2 7), ибо искомое число уже остается среди чи­сел от 2 до 8. Если мы назовем далее числа 2, 3, 4 и не угадаем, то нам станет ясно, что искомое число заключено уже между 5 и 8. Соответственно степень неопределенности уменьшается до 4 (или, в логарифмических единицах, до - log24). Разность между первоначальной степенью неопределенности (- log28) и этой по­следней (- log24) равна одному биту. Другими словами, мы по­лучили один бит информации. Степень уменьшенной (уничто­женной, снятой) неопределенности в результате передачи сооб­щения (о том, прибыл ли самолет, угадали ли мы число и т. д.) на­зывается количеством информации. В приведенных выше приме­рах речь шла о количестве информации лишь от одного события, сообщения. Оно называется индивидуальным количеством ин­формации (- logp, где p - вероятность того или иного события).

Мы видим, что, чем более невероятны, неожиданны собы­тия, уничтожающие неопределенность, тем большее количество информации они несут. Но событие (пусть даже неожиданное), которое не уменьшает неопределенности, не несет никакой ин­формации. Допустим, мы называем цифру, чтобы отгадать заду­манную.

В ответ мы должны услышать «да» или «нет». Но вме - сто этого нам говорят: «Завтра будет хорошая погода». Это со­общение не приводит к уменьшению неопределенности в данной задаче и поэтому не несет никакой информации. Однако эта же фраза может уменьшить неопределенность в другом случае, если нас интересует, какая будет погода завтра. Нулевое количество информации приносит и событие, которое обязательно должно произойти, то есть соответствует вероятности, равной единице.

Современную статистическую теорию информации не ин­тересует индивидуальное количество информации, это понятие слишком просто и поэтому практически «не работает». Вместо индивидуального количества информации рассматривается среднее количество информации. Так, если нас интересует сте­пень неопределенности опыта с n различными исходами (резуль­татами), то ее определяют через логарифм числа этих исходов

*

(log n) , при условии, что вероятности исходов равны.

В том случае, если вероятности исходов различны, формула приобретает несколько иной вид. Рассмотрим следующий при­мер. Предположим, что опыт состоит в извлечении одного шара из ящика, содержащего один черный и два белых шара (суммар­ное количество шаров равно трем). Исходя из классического

подхода, вероятность выбора черного шара равна -3 , а вероят-

2 3

ность выбора белого шара равна 3 . В качестве степени неопре­деленности всего опыта принимается среднее значение неопре­деленности отдельных возможных исходов. Это среднее значе­ние получается, если вероятность отдельного исхода умножается на его неопределенность и эти произведения складываются. В

нашем примере имеем:

1 2 3

H = 3 х 1og2 3 + 3 х 1og2 2 = 0,92 (бита)

В общем случае формула степени неопределенности имеет

вид:

H =-Zp (Ai) 1og2 p (Ai) .

i=1

Именно эта формула, предложенная в 1948 г. Американ­ским математиком и инженером К. Шенноном, в настоящее вре­мя, пожалуй, не уступает в известности эйнштейновской формуле

E = mc2

Если в результате опыта уничтожается выражаемая форму­лой Шеннона неопределенность, то количество информации ока­зывается равным степени уничтоженной неопределенности.

Эта формула называется формулой Хартли.

**

Здесь предполагается, что производится опыт с возможными исходами Aj, A2 ... An, вероятности этих исходов равны р (Э1), р (А2) ...р (Ап) соответственно. Знак у означает сокращенную запись суммы произведений - р (Ai) 1og2 p (Ai), т. е. - р (А1) 1og2p (А1) -р (А2) 1og2р (А2) - ... -р (Ап) 1og2p (Ап).

Формулу Шеннона называют еще формулой негэнтропии, поскольку она с отрицательным знаком аналогична формуле эн­тропии в ее статистической интерпретации, данной Больцма­ном[5]. Формула энтропии в термодинамике определяет степень беспорядка, хаотичности молекул газа в сосуде. При этом веро­ятности p (Ai) в данном случае определяются как отношение числа молекул ni, заполняющих данную воображаемую ячейку сосуда, к числу всех молекул. Они обозначают условную вероят­ность нахождения молекулы в ячейке с номером i, когда газ ха­рактеризуется определенным распределением.

Несмотря на то что математические формулы количества информации и энтропии (по Больцману) отличаются лишь зна­ком , все же между ними есть существенное различие. Вероятно­сти в формуле энтропии относятся только к газу - вообще к ста­тистическим физическим и химическим объектам, имеющим от­ношение к тепловому движению. В силу этого было бы бессмыс­ленным распространять законы статистической термодинамики, скажем, на лингвистику или на экономику, ибо последние не изу­чают «лингвистическую» и «экономическую» энергию или теп­лоту. Однако можно абстрагироваться от некоторых особенностей объектов термодинамики, лингвистики, экономики и других наук и выделить в них нечто общее, присущее действующим в них ста­тистическим закономерностям. Этим общим может оказаться на­личие неопределенности в тех или иных случайных явлениях. Изучением неопределенности и занимается теория информации. Современная статистическая теория информации применима к сфере любых случайных явлений, поскольку она вычленяет из них лишь аспект, связанный с изменением неопределенности. По­этому можно рассматривать теорию информации как некую тео­рию, в определенном аспекте обобщающую представления стати­стической термодинамики. Из этого не следует, что их можно отождествлять. Между тем в философской и естественнонаучной литературе можно встретить точки зрения, абсолютизирующие или же тождество упомянутых теорий, или же их различие.

До сих пор мы рассматривали только прерывные, дискрет­ные совокупности. Одним из важных свойств таких совокупно­стей является то, что все их элементы можно сосчитать, то есть занумеровать числами натурального ряда (1, 2, 3, 4...). Однако существуют и непрерывные, или несчетные, совокупности. На­пример, число точек в отрезке (сегменте) прямой от нуля до еди­ницы невозможно сосчитать, занумеровать. При попытке обоб­щить определение количества информации на непрерывные, не­счетные множества возникают трудности. Преодоление этих трудностей привело к видоизменению исходной формулы Шен­нона, которая носит еще название формулы абсолютной негэн- тропии. Вместо нее пришлось ввести формулу так называемой относительной негэнтропии.

Последняя выражает негэнтропию какого-либо опыта (со­вокупности испытаний) не саму по себе, а по отношению к дру­гому опыту. Если бы мы определяли негэнтропию опыта саму по себе, то получили бы бесконечное количество информации, ибо это опыт с непрерывным (бесконечным) числом исходов (резуль­татов). Поэтому, чтобы получить конечное количество информа­ции (конечную степень неопределенности), необходимо объеди­нить в один исход группу непрерывных исходов, так чтобы их множество уже оказалось конечным, прерывным. Это объедине­ние непрерывных исходов в группы происходит таким образом, что пренебрегают исходами, отличающимися менее, чем на не­которое малое число є. В результате такой операции неопреде­ленность опыта оказывается уже конечной. Но это устранение бесконечности получается благодаря тому, что неопределенность измеряется относительно заданной точности, стандарта, который как бы играет роль определенной системы координат.

Идея относительной негэнтропии была высказана еще К. Шенноном в его основополагающей работе. «В дискретном слу­чае, - писал он, - энтропия измеряет абсолютным образом сте­пень случайности значения рассматриваемой случайной величи­ны. В непрерывном случае это измерение производится относи­тельно заданной системы координат... В непрерывном случае энтропия может рассматриваться как мера случайности относи­тельно принятого стандарта, а именно выбранной системы ко - *

ординат... »

Может показаться, что задание стандарта точности, или, что то же, системы координат, приводит к субъективному понима­нию количества информации. Ведь формула Шеннона (абсолют­ная негэнтропия) не зависела от выбора системы координат, а значит, и от наблюдателя, ученого. Однако такой вывод будет по - спешным. Дело в том, что гносеологическая операция объедине­ния непрерывных событий в группы отражает особенности са­мих явлений. Последним объективно присуща неопределен­ность, которую абсолютно точно измерить невозможно.

Ныне на более общей формуле количества информации (относительной негэнтропии) строится вся современная стати­стическая теория информации.

Само обобщение формулы количества информации имеет важное методологическое значение, которое, пожалуй, сравнимо с некоторыми выводами специальной теории относительности. Пространство и время оказались не абсолютными, как в механике Ньютона, а относительными, т. е. зависящими по своим метриче­ским свойствам от скорости движения инерциальных систем. Так и в развитии теории информации произошел аналогичный пере­ход от абсолютного количества информации к относительному, к функции отношения двух систем. Только такая функция имеет ре­альное значение и остается справедливой как для дискретных, так

* Шеннон К. Работы по теории информации и кибернетике. М.: Изд-во иностр. лит., 1963. С. 298-299.

и для непрерывных систем. Ведь формула относительной негэн- тропии выражает количество информации относительно заданной системы отсчета (системы координат), иначе говоря, характеризу­ет количество информации, содержащееся в одном объекте отно - сительно другого объекта. Переход от абсолютной негэнтропии к относительной приобретает фундаментальное, решающее значе­ние. По аналогии со специальной теорией относительности мож­но говорить о «релятивизации» формулы количества информа­ции. Уместно также отметить, что эта «релятивизация» произош­ла менее чем через десять лет после появления первых работ Шеннона, тогда как релятивизация классической механики по­требовала двух столетий развития науки. Этот факт - яркое сви­детельство ускорения темпов развития науки.

Кроме понятия количества информации в статистической теории информации используется еще ряд важных понятий. Здесь мы ограничимся кратким рассмотрением лишь так назы­ваемой избыточности .

Мы очень часто пользуемся избыточностью. Например, ко - гда преподаватель несколько раз объясняет студентам трудное место, то это и есть не что иное, как использование избыточно­сти с точки зрения теории информации. То же самое имеет место при телефонном разговоре в условиях плохой слышимости, ко - гда нам приходится произносить одну фразу несколько раз.

Избыточность играет большую роль при передаче сообще­ний. В каналах связи обычно действуют помехи (шумы), приво­дящие к искажению сообщений, к потере (снижению) количества информации. А это может сказаться на смысле передаваемого

* Формула избыточности определяется как

I факт.

R = 1--------------------------------------------------------------- ,

I макс.

где I факт. - количество информации в данной совокупности исходов, а I макс. - ко­личество информации в той же совокупности при условии, что все исходы оказались бы равновероятными. Совокупности исходов равной избыточности обладают тем свойством, что с увеличением количества исходов количество информации в них уве­личивается.

сообщения. Поэтому принимаются меры для сохранения необхо­димого количества и смысла информации, в частности широко используется увеличение избыточности сообщений, что может выражаться в повторении тех или иных элементов сообщения, всего сообщения или же в кодировании сообщения большим числом символов (знаков).

Если бы в каналах передачи информации не было помех, то можно было бы передавать максимальное количество информа­ции, т. е. сообщения с нулевой избыточностью. Однако наличие шумов (помех) ведет к тому, что избыточность специально за­вышается и величина ее зависит от уровня помех. Слишком низ­кая избыточность может принести к искажению сообщений, слишком высокая - к уменьшению скорости передачи информа­ции по каналу связи. Дело в том, что каждый канал связи обла­дает определенной пропускной способностью, т. е. через него можно передать некоторое максимальное количество информа­ции в единицу времени. К. Шеннон сформулировал теоремы, ко - торые устанавливают условия кодирования информации при пе­редаче ее по каналам связи (без помех и с помехами).

Вполне понятно, что в нашу задачу не входит рассмотрение всех понятий статистической теории информации. Мы остано­вились лишь на тех из них, которые, как нам представляется, имеют отношение к выяснению природы информации.

Как уже отмечалось, основополагающие идеи статистиче­ской теории информации были изложены Шенноном еще в 1948 г. Но и до него ряд мыслей высказывались Р. Фишером, Л. Сцилар- дом, К. Кюпфмюллером, Р. Хартли, Г. Найквистом, В. А. Котель - никовым. До создания статистической теории информации, кото - рая дала метод количественного анализа сообщений, существова­ли определенные идеи об информации, которые необязательно покоились на вероятностных, статистических представлениях. Под информацией обычно понимали сообщения, сведения о чем- либо, которые получали или передавали люди. Первоначальные идеи об информации были преимущественно связаны с речью людей, со сведениями, которые человек получал в результате производственной, познавательной и иной деятельности.

Применение статистических, вероятностных методов не только сделало возможным количественное исследование сооб­щений, сведений. Оно поставило вопрос о расширении объема понятия информации. Действительно, статистическая теория информации отвлекается от требований осмысленности инфор­мации, от возможности ее использования человеком. С позиций этой теории можно считать, что информацию несет не только че­ловеческая речь, но и вообще любые объекты и процессы, кото - рые подчиняются статистическим закономерностям. Последние имеют место и в человеческом обществе, они присущи живой и неживой природе.

Вместе с тем из анализа статистической теории информа­ции мы еще не можем сделать вывода о том, что информация - это всеобщее свойство материи.

Информация пока предстает перед нами как снятая неопре­деленность, связанная лишь со случайными процессами, а также с превращением возможностей в действительность, причем лишь тех из них, которые имеют место в случайных процессах (в статистических информационных процессах всегда происходит выбор: из некоторого множества возможностей в действитель­ность превращается лишь часть). Уже формула Шеннона высту­пает как операция превращения случайных величин [ - 1og p (Ai) ] в неслучайную - среднее количество информации, что наталки­вает на мысль о связи информационных процессов не только с чисто случайными, но и с неслучайными, необходимыми процес­сами, закономерностями, точнее, с превращением случайностей в необходимость. Однако из анализа статистической теории ин­формации не вытекает, что информация может быть присуща не­обходимым процессам, например процессам, описываемым за­конами классической механики.

До недавнего времени считалось общепринятым, что тео­рия информации - ветвь теории вероятностей. Это положение достаточно прочно вошло в математическую и философскую литературу. Так, Е. С. Вентцель отмечала, что «теория ин­формации представляет собой не просто прикладную науку, в

которой применяются вероятностные методы исследования, а

*

должна рассматриваться как раздел теории вероятностей» . Н. И. Жуков также полагает, что современная количественная теория информации является «разделом математической теории вероятностей»**.

Но такое заключение уже не отвечает современному уров­ню развития теории информации. В последние годы в связи с развитием невероятностных подходов в математических, семан­тических и других концепциях информации появилась иная, бо­лее широкая точка зрения на соотношение теории информации и теории вероятностей, на природу информации. Поэтому, анали­зируя природу информации, мы не можем ограничиваться только статистической теорией, а обязаны, по возможности, рассматри­вать все основные концепции (теории) информации.

<< | >>
Источник: Урсул, А. Д.. Природа информации: философский очерк /А. Д. Урсул; Челяб. гос. акад. культуры и искусств; Науч.-образоват. центр «Информационное общество»; Рос. гос. торгово-эконом. ун-т; Центр исслед. глоб. процессов и устойчивого развития. - 2-е изд. - Челя­бинск,2010. - 231 с.. 2010

Еще по теме § 1. Вероятность, неопределенность и информация: