Несколько агентов, динамика.
I(x*, z, g*) = px*) П p(x*, z*) П S(g*, z*) с W.
На основании всех источников информации i-ый агент за t пе-риодов может вычислить оценку J* с W значения состояния при-
роды как пересечение общего знания I(x\ z, g') с его частной информацией У/-1, соответствующей предыдущему периоду:
Ji = J/-1 n I(x', z', g).
Другими словами, его оценка состояния природы сузится до множества
'
J\ ((, x1 ', z1 ', g1, ') = ( П 11(xT, zT, gT).
t=1
Пример 8.4.
Рассмотрим модель олигополии Курно [37, 155], функционирующей в условиях неопределенности.Пусть n = 2, x. > 0, i = 1, 2, z = x1 + x2, W = [1; 5], w1 = [1; 4]; (2 = [2; 5]; 60 = 3,
/1(6, z) = (6 - a z) z - x2 r / 2,
где a > 0, r > 0 - известные размерные константы. То есть, агенты различаются лишь своей информированностью о состоянии природы.
Если бы значение состояния природы было достоверно известно агентам, то им следовало бы выбирать действия
л О
x. (6) = , i = 1, 2.
4a + r
Так как целевые функции (18) монотонно возрастают по в при любых допустимых действиях агентов, то в соответствии с выражением (6) агенты в первом периоде выберут действия
x1 = 1 / (4 a + r), x2 = 2 / (4 a + r).
В результате выбора таких действий, агенты, однократно наблюдая векторы действий и выигрышей, восстановят истинное значение состояния природы. •
Введем такое понятие, как «время адаптации команды» - время, за которое при неизменном значении состояния природы агенты на основании наблюдаемой информации могут однозначно идентифицировать состояние природы. Значение времени адаптации (продолжительности переходного процесса) определяется тем, какие параметры наблюдают агенты, размерностью вектора, описывающего состояние природы, а также свойствами точечно- множественных отображений (2)-(4) - см.
аналогичные модели для «технических» систем в [40]. В примерах 8.1 и 8.4 время адаптации равнялось единице (одному периоду), в примере 8.3 - двойке.Время адаптации сокращается (корректней говоря - не увеличивается) с увеличением числа наблюдаемых членами команды параметров и возрастает (корректней говоря - не уменьшается) с увеличением размерности вектора, описывающего состояние природы, и/или ростом априорной неопределенности (расширением множеств {«,}, описывающих частную информацию агентов).
Пример 8.5. Пусть к условиям примера 8.4 добавляется третий агент с первоначальной информированностью 03 = [2,5; 3,5].
Если каждый агент по-прежнему наблюдает действия и выиг-рыши всех агентов, то значение состояния природы они смогут восстановить, как и в примере 8.4, за один шаг. Время адаптации может увеличиться, если «ухудшится» информированность агентов - сократится множество наблюдаемых ими параметров или наблюдаемыми станут лишь некоторые агрегированные характеристики, например, сумма действий всех агентов.
Поэтому предположим, что i-ый агент наблюдает свое действие xi, свой выигрыш gi и сумму действий всех агентов z, причем факт таких наблюдений является среди агентов общим знанием.
При известных xi, z и gi уравнение
(в - a z) z - xi2 r / 2 = gi решается относительно в однозначно, i = 1, 2. То есть с ростом числа агентов время адаптации в рассматриваемом случае не увеличивается. •
Пример 8.6. Предположим теперь, что в условиях примера 8.5 имеются два агента, каждый из которых наблюдает только свое действие и свой выигрыш. Тогда в результате наблюдений i-ый агент получает уравнение (21) (в - a fo + x2)) fa + x2) - x,2 r / 2 = g, с двумя неизвестными - x3-i и в, i =1, 2.
Если каждый из агентов считает, что имеет место общее знание, то есть наделяет оппонента той же информированностью, какой обладает он сам, то он должен считать, что оппонен выберет то же действие, что и выбирает рассматриваемый агент (напомним, что в данном примере агенты различаются лишь своей информи-
рованностью о состоянии природы).
Подставляя в (21) реальный выигрыш агента иx3-i = xMTPi( ^iX
получим:
(в - 2 a xi1 ) 2 xi1 - ( xi1 )2 r / 2 =
= (60 - a (x1 + x2)) (x1 + x2) - (x1 )2 r / 2, откуда i-ый агент может вычислить на конец первого периода нижнюю оценку
e. = (60 - a (x1 + x2)) (x1 + x2) / 2 x1 + 2 a xj значения состояния природы, i = 1, 2.
Предположим, что a = r = 1, тогда
x11 = 0,2, x21 = 0,4, q11 = 4, q12 = 2,6. Во втором периоде агенты подставят соответствующие оценки e1 и e1-, в выражение (19), то есть выберут действия
x12 = 0,8, x22 = 0,52, подставят их в аналог выражения (22), вычислят новые оценки состояния природы и т.д.
В общем случае динамика оценок состояния природы агентами имеет вид (ср. с (22)):
e' = (60 - a (x1 + x2)) (x1 + x2) / 2 xt + 2 a xt,
i =1, 2, t = 1, 2, ... .
На основании этих оценок агенты будут выбирать действия (см. выражение (19))
q'-1
x'(e'-1) = —, i = 1, 2, t = 1, 2, ... .
4a + r
Таким образом, адаптация команды в рассматриваемом примере будет описываться системой (24)-(25) итерированных функций с начальными условиями (20), определяемыми на основании априорной информации агентов в соответствии с принципом максимального гарантированного результата.
На Рис. 15 и Рис. 16 представлены соответственно динамика оценок состояния природы агентами (первый уровень адаптации - см. Рис. 13) и динамика действий агентов (второй уровень адаптации - см. Рис. 13).
Рис. 16. Динамика действий агентов (первый агент - треугольники, второй - квадраты)
Рис. 15. Динамика оценок состояния природы агентами (первый агент - треугольники, второй - квадраты)
Видно, что процессы изменения агентами своих оценок сходятся (достаточно быстро - изменения через 8-10 шагов становятся малозаметными), причем сходятся они к истинному значению состояния природы. Кроме того, несмотря на различную априорную информированность, агенты в результате выбирают одинаковые действия (что вполне естественно, так как целевые функции агентов одинаковы). В рассматриваемом примере время адаптации, строго говоря, равно бесконечности, хотя время попадания в любую наперед заданную непустую окрестность истинного значения состояния природы конечно. •
Адаптация соответствует приспособлению, привыканию и т.п. к изменяющимся внешним условиям. Рассмотренные в настоящем разделе модели адаптации команд позволяют отражать эти эффекты. Приведем пример, иллюстрирующий процесс адаптации команды к резкому изменению внешних условий.
Пример 8.7. Предположим, что в условиях примера 8.6 на 11- ом шаге значение состояния природы изменилось и стало равно не 3, а 4, причем первоначальные оценки нового значения состояния природы были: у первого агента - 3,5, у второго - 4,5 (см. Рис. 17).
Рис. 17. Процесс адаптации команды к резкому изменению внешних условий на 11-ом шаге
•В рассматриваемом примере характерное время изменения со-стояния природы равно 10 шагам. Время адаптации команды меньше него - за 10 шагов переходный процесс почти закончился. Адаптацию имеет смысл рассматривать, если время адаптации не превышает характерного времени изменения внешней среды.
Изменение внешних условий может происходить и постепенно, соответственно команда должна адаптироваться и к «медленным» изменениям условий своего функционирования.
Приведем пример.Пример 8.8. Предположим, что в условиях примера 8.6 значение состояния природы на каждом шаге увеличивается на 0,1 (см. пунктирную линию на Рис. 18). На Рис. 18 и Рис. 19 представлены соответственно динамика оценок состояния природы агентами и динамика действий агентов.
Рис. 18. Динамика оценок состояния природы агентами (первый агент - треугольники, второй - квадраты)
Рис. 19. Динамика действий агентов (первый агент - треугольники, второй - квадраты)
В рассматриваемом примере скорость изменения состояния природы по отношению ко времени адаптации такова, что команда «успевает» отслеживать изменения. Возможны случаи - в условиях быстро (по отношению ко времени адаптации) менябщейся внешней среды - когда команд не сможет адаптироваться.
В завершение настоящего раздела подчеркнем, что выше вво-дилось предположение о том, что каждый агент наделяет оппонента той же информированностью, какой обладает он сам. Возможно отказаться от этого предположения и рассматривать более сложные структуры информированности агентов (см. Приложение), считая, то они будут выбирать действия, являющиеся информационным равновесием. Возможны также ситуации более сложной структуры «наблюдений» агентов - одни могут наблюдать одни параметры (например, действия и выигрыши одного множества агентов), другие агенты - другие параметры (например, действия и выигрыши другого множества агентов плюс некоторую информа-
цию о состоянии природы). И так далее - все эти случаи, наверное, можно описывать по аналогии с рассмотренными выше.
Если адаптация в настоящем разделе рассматривалась как приспособление к условиям (в основном, внешним) существования и привыкание к ним и, фактически, зависела от информации об этих условиях , которой агенты обладают на момент принятия решений, то изменение параметров самой команды (см. третий уровень адаптации на Рис. 13) может рассматриваться как обуче- ние . Поэтому перейдем к рассмотрению моделей обучения в командах.