Обучение в команде.

До сих пор при рассмотрении научения агентов в процессе работы мы считали, что каждый агент учится только «на собственном опыте». Тем не менее, в командах имеет место обмен опытом, и агенты, наблюдая за деятельностью других

(их успехами и трудностями), могут также приобретать опыт.

Для того, чтобы отразить этот эффект, будем описывать «опыт», накопленный агентом, не только как сумму его собственных действий, но и добавим к этой сумме взвешенную сумму действий других агентов. В результате получим следующие выражения для соответ-ственно объемов успешно выполненных работ и типов агентов:

Zk = f yl{1 -(1 -r>xp(- gt fafym)},

l =1 j=1 m=1

rk = 1 - (1 - r0) exp(- g fat] f yj ), k = 2, 3, ... , i e N,

j=1 1=1

где константы {a] > 0} могут интерпретироваться как эффективности передачи опыта от]-го агента i-му, i, ] e N.

Тогда задача об оптимальном обучении примет вид:

n T n l-1

ff y\{1 -(1 -Г°)exp(-gi fa4f yD} ® max .

i=l l=l ]=1 m=l {yi1'T|ff УГ=7}

г =1 i=1

К11 =

. Качественно: первый агент обучается на своем

Пример 9.6. Рассмотрим задачу (18) в условиях примера 9.3 (скорости научения обоих агентов одинаковы, второй агент обладает большей начальной квалификацией) при матрице "1 2] 0 1

опыте и на опыте второго агента (даже более эффективно, чем на своем). Второй же агент обучается только на своем собственном опыте. Динамика типов агентов представлена на Рис. 26, а динамика оптимальных объемов работ - на Рис. 27.

Первые шесть периодов первый агент не выполняет работ сам, а «наблюдает» за действиями второго агента. При этом квалификация первого агента растет гораздо быстрее, чем второго. Начиная с седьмого периода, оптимальным оказывается выполнение всего объема работ первым, а не вторым агентом .

Рис. 26. Динамика типов агентов в примере 9.6

Рис. 27. Динамика оптимальных объемов работ в примере 9.6

Данный пример наглядно иллюстрирует, как недостаток начальной квалификации может быть успешно компенсирован эффективным обучением на чужом опыте. Возможна и другая (близкая) интерпретация. Можно считать второго агента учителем, тьютором, наставником, который, имея более высокую начальную квалификацию, обучает первого агента. В какой-то момент ученик «обгоняет» учителя и может работать самостоятельно. •

Итак, мы умеем ставить и решать задачи об оптимальном обучении команды в процессе работы. Спрашивается, а кто именно должен решать эти задачи и определять оптимальные объемы работ? Ответ зависит от того, в каком «режиме» функционирует команда. Если имеет место этап целенаправленного формирования и обучения команды (а этот этап на практике может оказаться достаточно длительным), то объемы работ может распределять «учитель» (организатор обучения, тренинга и т.д.). При этом, правда, результат команды, как правило, не столь существенен, то есть не является главной целью. Вторым возможным вариантом является «режим реальной деятельности», которому, пожалуй, наиболее соответствует именно обучение в процессе работы. При этом члены команды могут самостоятельно выбирать оптимальные (с точки зрения и обучения, и результата) траектории обучения. Для этого необходимо, чтобы все существенные параметры (уровни начальной квалификации, скорости научения и т.д.) были общим знанием среди членов команды. То есть, как и в «рефлексивных моделях», приходим к выводу, что важнейшим условием стабильного и эффективного функционирования команды является наличие общего знания. И именно на формирование этого общего знания обычно нацелено большинство организационных и других усилий в процессе формирования и обучения команды.

Обучение в команде.

Еще по теме Обучение в команде.: