<<
>>

6.1. Динамические активные системы

Интуитивно понятно, что при таком естественном обобщении простейшей базовой (статической) модели, как рассмотрение нескольких несвязанных периодов функционирования, задачу управления удается декомпозировать, "развалив" ее на набор базовых.
Трудности появляются при исследовании систем со связанными периодами функционирования. Методы и алгоритмы решения задачи синтеза оптимального механизма управления в этом

случае характеризуются высокой структурной и вычислительной сложностью. Как правило, универсального подхода к аналитическому решению этого класса задач найти не удается. Однако, преодоление трудностей анализа оправданно, так как в динамических АС присутствуют новые качественные свойства, отсутствующие в базовой модели (не говоря уже о том, что большинство реальных организационных систем функционируют достаточно долго).

Динамические АС, функционирующие в течение длительного времени, существенно отличаются от статических: возможность адаптации, сглаживания влияния случайных параметров на результаты деятельности АЭ, пересмотра стратегий - все эти эффекты появляются при переходе от статических к динамическим АС. Основными характеристиками динамических моделей являются степень учета игроками будущего и конечность или бесконечность игры. Модели, учитывающие дальновидность АЭ - способность спрогнозировать будущие последствия принимаемых сегодня решений, гораздо труднее поддаются анализу, нежели чем модели с недальновидными АЭ, но, в то же время, являются более адекватными действительности. В бесконечных играх (бесконечное повторение одношаговых игр) центр имеет больше возможностей по управлению элементами, в отличие от конечных игр, в которых в последние периоды АЭ может, не опасаясь будущего наказания , "делать что ему заблагорассудится" [276, 371]. Отметим, что используемые здесь и далее термины "конечная" и "бесконечная" (игра) характеризуют не множества допустимых стратегий АЭ, а число периодов функционирования АС.

Содержательно, качественное отличие повторяющихся (многопериодных) игр от "обычных" (статических, однопериодных) заключается в том, что наличие нескольких периодов повышает ответственность игроков за свои действия - если кто-то повел себя не так как следовало, то в следующих периодах он может быть наказан остальными игроками за это отклонение.

Для того, чтобы

предотвращать отклонения, наказание должно быть достаточно сильным и компенсировать возможный выигрыш игрока, который тот получает отклоняясь. Переключение с "нормального" режима на наказание (и быть может возвращение к исходному режиму через несколько периодов) получило название триггерной стратегии. Примеры того, как строить триггерные стратегии и того, как определить наилучший момент переключения (ведь не всегда можно достоверно установить факт отклонения), приведены в [371].

Существенной в повторяющихся играх оказывается информированность игроков. Если все игроки наблюдают все стратегии, выбранные партнерами в прошлом, то говорят, что имеет место полная информированность [371]. Если же стратегии, выбираемые в прошлом, ненаблюдаемы, а есть другая информация, например, если наблюдаемы полезности игроков, то имеет место неполная информированность. При полной информированности в суперигре (последовательности однопериодных игр) может существовать равновесие Нэша, доминирующее по Парето равновесие Нэша однопериодной игры. Если игроки не дисконтируют будущие полезности, то множества равновесных векторов полезностей в однопериодной и многопериодной игре совпадают. Если игроки дисконтируют будущие полезности, то все равновесия суперигры, в принципе, могут быть неэффективны (по Парето), хотя, обычно, при условии, что дисконтирующие множители не очень малы, существуют равновесия суперигры, доминирующие по Парето однопериодные [276, 336, 371].

В теории активных систем исследование динамики функционирования проводилось, в основном, для следующей модели [31, 410, 425]. В активной системе, состоящей из центра и одного АЭ, целевая функция центра в периоде t имеет вид Ф(хьу), а активного элемента: ft(xt,y), xt - план на период t, yt - действие, выбранное АЭ в этом периоде. Траектория x = (xh x2, , xT) называется плановой траекторией, а траектория y = (y1, y2, , yT) - траекторией реализаций. Как и в одноэлементной статической задаче, центр выбирает систему стимулирования и устанавливает планы (на каждый период), а АЭ выбирает действие, максимизирующее его целевую функцию.

Возникает вопрос - что понимать под целевой функцией АЭ в этой повторяющейся игре. Если допустимые множества не изменяются со временем и АЭ

вообще не учитывает будущего (недальновидный АЭ), то задача сводится к набору статических задач.

Достаточно детально в ТАС были изучены так называемые активные системы с динамикой модели ограничений [32, 40, 195, 414, 416]. Изменение модели ограничений (допустимых множеств) со временем учитывается зависимостью множества допустимых действий АЭ в периоде t от его действий в предыдущем периоде и от

плана текущего периода, то есть At = At(xt, yt-1), t = 2,T, A1 = Aj(xj). Таким образом, при известной плановой траектории недальновидный АЭ будет решать задачу поиска траектории

реализаций: f(xt,y)® max , t = 2,T. Целевая функция

yt&At(xt,yt-1)

I

дальновидного АЭ имеет вид: gt = ft(xhy,) + X d k fk(xk,yk), где d -

k=t+1

коэффициент дисконтирования. Для верхнего индекса суммирования возможны следующие варианты: I = t + N (фиксированный горизонт) - АЭ учитывает N будущих периодов, I = T - АЭ учитывает все будущие периоды и т.д. [425, 426, 432]. То есть дальновидный АЭ в каждом периоде t решает задачу выбора реализаций (действий - yt, yt+1, ) с целью максимизации gt. Задача центра заключается в выборе плановой траектории,

Tt

максимизирующей его целевую функцию, имеющую вид: X d t

t=i

Ft(xt,yt), считая, что реализации будут совпадать с планами. Если АЭ и центр имеют различные степени дальновидности (N + 1 < T), то АЭ не может построить прогноз на весь плановый период. В работах [425, 426] приведены условия на распределения дальновидностей, обеспечивающие совпадение реализации с планом, и показано, что динамическую задачу удается свести к статической, решаемой в "расширенном" пространстве параметров.

При решении задачи планирования центр может предполагать, что реализации совпадут с планами. Известно, что достаточным условием согласованности системы стимулирования в статической АС является, например, выполнение неравенства треугольника для функций штрафов.

Для согласованности в динамической модели

достаточно выполнения неравенства треугольника для взвешенных сумм штрафов. Если в течение нескольких периодов штрафы не являются согласованными, то для согласования в динамике достаточно существования сильных штрафов в будущем [426].

Рассмотренная выше модель ограничений зависела от параметров, выбираемых участниками системы. Однако возможны случаи, когда допустимые множества зависят от случайных параметров (или когда, как в повторяющихся играх при неполной информированности, не все выбираемые стратегии наблюдаемы). Следовательно, возникает задача идентификации, решаемая при использовании адаптивных механизмов функционирования [31-39, 104, 263, 266-268, 407-416].

Суть механизмов адаптивной идентификации заключается в использовании центром информации о планах, реализациях и т.д. дальновидного АЭ для оценки параметров его модели ограничений, прогноза состояний, поощрения и т.д. Пусть множество возможных действий зависит от неизвестного центру "потенциала" АЭ, а потенциал, в свою очередь, зависит от управления со стороны центра и некоторой случайной величины. На основании наблюдаемой реализации центр может определить оценку потенциала с помощью той или иной рекуррентной процедуры прогнозирования [410]. Примером решения задачи адаптивного планирования может служить модель динамического простого АЭ, подробно описанная в [84].

При исследовании адаптивных механизмов возникают задачи выбора наилучшей процедуры прогнозирования; синтеза механизма, при котором АЭ полностью использует свой потенциал (такие механизмы получили название прогрессивных [408, 410, 413]); определения реальности плановых траекторий; синтеза оптимального механизма управления и т.д.

Основной вопрос, возникающий при изучении динамических контрактов (подкласса моделей стимулирования), заключается в выяснении преимуществ, которыми обладает динамический контракт со связанными периодами и памятью (в контракте с памятью вознаграждение в текущем периоде зависит от результатов текущего и предыдущих периодов), по сравнению с последовательностью обычных однопериодных контрактов.

Обычно в моделях рыночной экономики предполагается, что если число АЭ

"велико", то игра некооперативная, а если "мал'о", то - кооперативная. В динамических моделях возможность кооперации появляется именно из-за динамики - элементы имеют время "договориться" и наказать тех, кто отклоняется от соглашений [371].

Решение однопериодной задачи - равновесные по Нэшу платежи (значения целевых функции центра и АЭ), как правило, неэффективны и доминируются по Парето другими платежами. Следовательно, в последовательности однопериодных контрактов (игр) средние платежи равны равновесным по Нэшу, а в динамическом контракте они могут достигать или приближаться к Парето оптимальным значениям (см. также выше). Обычно результаты об оптимальности (достижимости Парето-решения) требуют бесконечного повторения однопериодных игр, а для конечного числа периодов доказывается е-оптимальность. При отсутствии дисконтирования любое индивидуально-рациональное распределение выигрышей в однопериодной игре является достижимым и Парето оптимальным распределением выигрышей в суперигре [276, 371].

В то же время, если в однопериодном контракте центр может достаточно сильно наказывать АЭ (соответствующие условия на ограничения механизма стимулирования приведены в [234, 371]), то последовательное заключение краткосрочных контрактов оказывается не менее эффективно, чем заключение долгосрочного контракта. Иными словами, если долгосрочный контракт реализует некоторую последовательность действий, то при "достаточно сильных" штрафах, существует оптимальная последовательность краткосрочных контрактов, реализующая ту же последовательность и дающая всем участникам те же значения ожидаемой полезности. Содержательно, возможная сила штрафов должна быть такова, чтобы за их счет достаточно сильно наказать АЭ за отклонение именно в однопериодном контракте (в динамике эту роль играют стратегии наказания, используемые в следующих периодах).

<< | >>
Источник: Бурков В.Н., Новиков Д.А.. ТЕОРИЯ АКТИВНЫХ СИСТЕМ: СОСТОЯНИЕ И ПЕРСПЕКТИВЫ. М.: Синтег,1999. - 128 с.. 1999

Еще по теме 6.1. Динамические активные системы: