Один агент, статика.
xMrP(0) = arg max min f(0, 0(в, x)).
xeX Qern
Так как рассматривается статическая ситуация (однократный выбор агентом своего действия), и другие агенты отсутствуют, то агент не может использовать информацию (4) о наблюдаемом им результате или своем выигрыше.
Пример 8.1.
Пусть n = 1, x > 0, W = [1; 4], w = [2; 4]; в0 = 3, z = x / в,fqq, z) = (в -a z) z - z2 / 2,
где a > 0 - известная размерная константа. Содержательно, если интерпретировать агента как производителя некоторой продукции, спрос на которую зависит от объема производства, то в может рассматриваться как уровень спроса (по объему и по качеству) - чем больше значение в, тем выше цена (в -a z) и выше требования к качеству - для обеспечения одного и того же «объема» нужны большие усилия - действие x. Чем выше объем производства, тем цена ниже.
В соответствии с целевой функцией (7) выигрыш агента представляет собой разность между выручкой (произведением цены на объем производства) и затратами, которые описываются квадратичной зависимостью.
Если бы значение состояния природы было достоверно известно агенту, то ему следовало бы выбирать действие
q2
(8) x*(6) = °
2a +1
максимизирующее целевую функцию, зависящую от состояния природы и его действия:
/о(в, x) = (в - a x / в) x / в - x2 / (2 в2).
Так как целевая функция (7) монотонно возрастает по в при любых допустимых действиях агента, то в соответствии с выражением (6)
XMTP() = 4 / (2 a + 1).
Наблюдая (10) и либо результат xMrP(w) / в0, либо свой выигрыш /(во, xMrP(w) / в0), а, тем более, обе эти величины одновременно, агент может однозначно оценить истинное значение в0 состояния природы. •
Пример 8.1 иллюстрирует ситуации, когда однократного наблюдения агентом соответствующей информации достаточно для восстановления истинного значения состояния природы.
При этом нет нужды ни в повторных наблюдениях, ни в информации о выборах других агентов (если бы таковые имелись). Однако, возможны случаи, когда однократного наблюдения агенту недостаточно. Приведем пример.Пример 8.2. Пусть n = 1, x > 0, z = x, в = (вр, вс) W = [1; 4] х [1; 4], w = [2; 4] х [2; 4]; 6 = (3; 3),
/(в, x) = (вр - a x) x - x2 вс / 2 ,
где a > 0 - известная размерная константа. Содержательно, в отличие от примера 8.1, состояние природы является двумерным вектором, первая компонента которого характеризует параметры цены, а вторая - параметры затрат.
Если бы значение состояния природы было достоверно известно агенту, то ему следовало бы выбирать действие
* e p
X*(6) = —-+— .
2a + ec
Так как целевая функция (11) монотонно возрастает по вр и монотонно убывает по вс при любых допустимых действиях агента, то в соответствии с выражением (6)
XMTPO = 1 / (a + 2).
В рассматриваемом примере действие агента совпадает с его результатом, следовательно, единственным источником информации для агента является наблюдение своего фактического выигрыша. Из этого наблюдения он может сделать следующий вывод о множестве возможных значений состояния природы:
I = {в e W | вс = 2 вр (a + 2) - 6 a - 9}.
Например, при a = 1 из (5) получаем:
J = {(вр; вс) | вс = 6 вр - 15, вр e [17/6; 19/6]}.
Отметим, что непротиворечивость информации агента истинному положению дел, по-прежнему имеет место, то есть J с w и в0 e J, в0 e I. •