<<
>>

Один агент, статика.

Если агент принимает решение одно-кратно, то на момент принятия решений о выбираемом им значении своего действия ему известно только множество 0 с W значений состояний природы. Будем считать, что, принимая решение в условиях интервальной неопределенности, агент использует принцип максимального гарантированного результата, то есть, выбирает действие:

xMrP(0) = arg max min f(0, 0(в, x)).

xeX Qern

Так как рассматривается статическая ситуация (однократный выбор агентом своего действия), и другие агенты отсутствуют, то агент не может использовать информацию (4) о наблюдаемом им результате или своем выигрыше.

Пример 8.1.

Пусть n = 1, x > 0, W = [1; 4], w = [2; 4]; в0 = 3, z = x / в,

fqq, z) = (в -a z) z - z2 / 2,

где a > 0 - известная размерная константа. Содержательно, если интерпретировать агента как производителя некоторой продукции, спрос на которую зависит от объема производства, то в может рассматриваться как уровень спроса (по объему и по качеству) - чем больше значение в, тем выше цена (в -a z) и выше требования к качеству - для обеспечения одного и того же «объема» нужны большие усилия - действие x. Чем выше объем производства, тем цена ниже.

В соответствии с целевой функцией (7) выигрыш агента представляет собой разность между выручкой (произведением цены на объем производства) и затратами, которые описываются квадратичной зависимостью.

Если бы значение состояния природы было достоверно известно агенту, то ему следовало бы выбирать действие

q2

(8) x*(6) = °

2a +1

максимизирующее целевую функцию, зависящую от состояния природы и его действия:

/о(в, x) = (в - a x / в) x / в - x2 / (2 в2).

Так как целевая функция (7) монотонно возрастает по в при любых допустимых действиях агента, то в соответствии с выражением (6)

XMTP() = 4 / (2 a + 1).

Наблюдая (10) и либо результат xMrP(w) / в0, либо свой выигрыш /(во, xMrP(w) / в0), а, тем более, обе эти величины одновременно, агент может однозначно оценить истинное значение в0 состояния природы. •

Пример 8.1 иллюстрирует ситуации, когда однократного наблюдения агентом соответствующей информации достаточно для восстановления истинного значения состояния природы.

При этом нет нужды ни в повторных наблюдениях, ни в информации о выборах других агентов (если бы таковые имелись). Однако, возможны случаи, когда однократного наблюдения агенту недостаточно. Приведем пример.

Пример 8.2. Пусть n = 1, x > 0, z = x, в = (вр, вс) W = [1; 4] х [1; 4], w = [2; 4] х [2; 4]; 6 = (3; 3),

/(в, x) = (вр - a x) x - x2 вс / 2 ,

где a > 0 - известная размерная константа. Содержательно, в отличие от примера 8.1, состояние природы является двумерным вектором, первая компонента которого характеризует параметры цены, а вторая - параметры затрат.

Если бы значение состояния природы было достоверно известно агенту, то ему следовало бы выбирать действие

* e p

X*(6) = —-+— .

2a + ec

Так как целевая функция (11) монотонно возрастает по вр и монотонно убывает по вс при любых допустимых действиях агента, то в соответствии с выражением (6)

XMTPO = 1 / (a + 2).

В рассматриваемом примере действие агента совпадает с его результатом, следовательно, единственным источником информации для агента является наблюдение своего фактического выигрыша. Из этого наблюдения он может сделать следующий вывод о множестве возможных значений состояния природы:

I = {в e W | вс = 2 вр (a + 2) - 6 a - 9}.

Например, при a = 1 из (5) получаем:

J = {(вр; вс) | вс = 6 вр - 15, вр e [17/6; 19/6]}.

Отметим, что непротиворечивость информации агента истинному положению дел, по-прежнему имеет место, то есть J с w и в0 e J, в0 e I. •

<< | >>
Источник: НОВИКОВ Д.А.. Математические модели формирования и функционирования команд. - М.: Издательство физико- математической литературы,2008. - 184 с.. 2008

Еще по теме Один агент, статика.: