Обучение в команде.
До сих пор при рассмотрении научения агентов в процессе работы мы считали, что каждый агент учится только «на собственном опыте». Тем не менее, в командах имеет место обмен опытом, и агенты, наблюдая за деятельностью других(их успехами и трудностями), могут также приобретать опыт.
Для того, чтобы отразить этот эффект, будем описывать «опыт», накопленный агентом, не только как сумму его собственных действий, но и добавим к этой сумме взвешенную сумму действий других агентов. В результате получим следующие выражения для соответ-ственно объемов успешно выполненных работ и типов агентов:Zk = f yl{1 -(1 -r>xp(- gt fafym)},
l =1 j=1 m=1
rk = 1 - (1 - r0) exp(- g fat] f yj ), k = 2, 3, ... , i e N,
j=1 1=1
где константы {a] > 0} могут интерпретироваться как эффективности передачи опыта от]-го агента i-му, i, ] e N.
Тогда задача об оптимальном обучении примет вид:
n T n l-1
ff y\{1 -(1 -Г°)exp(-gi fa4f yD} ® max .
i=l l=l ]=1 m=l {yi1'T|ff УГ=7}
г =1 i=1
К11 =
. Качественно: первый агент обучается на своем
Пример 9.6. Рассмотрим задачу (18) в условиях примера 9.3 (скорости научения обоих агентов одинаковы, второй агент обладает большей начальной квалификацией) при матрице "1 2] 0 1
опыте и на опыте второго агента (даже более эффективно, чем на своем). Второй же агент обучается только на своем собственном опыте. Динамика типов агентов представлена на Рис. 26, а динамика оптимальных объемов работ - на Рис. 27.
Первые шесть периодов первый агент не выполняет работ сам, а «наблюдает» за действиями второго агента. При этом квалификация первого агента растет гораздо быстрее, чем второго. Начиная с седьмого периода, оптимальным оказывается выполнение всего объема работ первым, а не вторым агентом .
26. Динамика типов агентов в примере 9.6" />Данный пример наглядно иллюстрирует, как недостаток начальной квалификации может быть успешно компенсирован эффективным обучением на чужом опыте. Возможна и другая (близкая) интерпретация. Можно считать второго агента учителем, тьютором, наставником, который, имея более высокую начальную квалификацию, обучает первого агента. В какой-то момент ученик «обгоняет» учителя и может работать самостоятельно. •
Итак, мы умеем ставить и решать задачи об оптимальном обучении команды в процессе работы. Спрашивается, а кто именно должен решать эти задачи и определять оптимальные объемы работ? Ответ зависит от того, в каком «режиме» функционирует команда. Если имеет место этап целенаправленного формирования и обучения команды (а этот этап на практике может оказаться достаточно длительным), то объемы работ может распределять «учитель» (организатор обучения, тренинга и т.д.). При этом, правда, результат команды, как правило, не столь существенен, то есть не является главной целью. Вторым возможным вариантом является «режим реальной деятельности», которому, пожалуй, наиболее соответствует именно обучение в процессе работы. При этом члены команды могут самостоятельно выбирать оптимальные (с точки зрения и обучения, и результата) траектории обучения. Для этого необходимо, чтобы все существенные параметры (уровни начальной квалификации, скорости научения и т.д.) были общим знанием среди членов команды. То есть, как и в «рефлексивных моделях», приходим к выводу, что важнейшим условием стабильного и эффективного функционирования команды является наличие общего знания. И именно на формирование этого общего знания обычно нацелено большинство организационных и других усилий в процессе формирования и обучения команды.