<<
>>

Обучение одного агента.

Рассмотрим сначала модель научения (обучения - так как мы рассматриваем только процесс научения, то различий между этими терминами делать не будем) единственного агента. Обозначим y > 0 - выполняемый им в k-ом периоде времени объем работ.
Если интерпретировать тип агента (уровень навыка) Г е [0; 1] как долю успешных действий агента, то, выполняя в периоде k объем работ yk, агент достигнет результата zk = Г" yk.

Тогда результат агента - суммарный объем работ, успешно выполненных агентом за k периодов времени, равен

Z = ?rlyl .

i=1

С другой стороны, агентом выполнен больший объем (успешных и неуспешных) работ:

Yk = ? yl .

l=1

Этот объем работ условно можно считать тем «опытом», ко-торый приобрел агент (см. [14, 141], а также обзор в [63]), то есть, его «эффективным внутренним временем» (прошедшим с момента начала обучения и потраченным на обучение), и подставить в показатель экспоненты (1). Получим:

/ = 1 - (1 - r0) exp(- g Yk- 1), k = 2, 3, ... .

Обозначим ylT = (y1,y2, ...,yT), t = 1, 2, ... и условимся считать, что y0 = 0.

Объединяя (3) и (4), получим следующие выражения для соответственно объемов успешно выполненных работ и типов агента:

Z = ?yl{1 -(1 -r0)exp(- 7 ?ym)},

l=1 m=1

f = 1 - (1 - r0) exp(- g ?yl), k = 2, 3, ... .

l=1

Отметим, что при фиксированном суммарном объеме работ тип агента определяется выражением (4) однозначно и не зависит от того, как объемы работ распределены по периодам времени. Поэтому задача максимизации типа агента (достижения максимальной его квалификации) при фиксированном суммарном объеме работ YT в рамках рассматриваемой модели не имеет смысла.

В модели фигурируют три «макропараметра»: суммарный объем работ Y, число периодов T и результат Z. Искомой переменной является «траектория обучения» yl'T.

Задачи оптимального обучения могут заключаться в экстреми- зации одной из переменных при фиксированных остальных переменных .

Таким образом, получаем, что целесообразно рассматривать следующие постановки.

1. Фиксируем суммарный объем работ Y, который может выполнить агент, и результат Z, который необходимо достичь. Требу-ется найти траекторию, минимизирующую время достижения результата: T ® min YT < Y

(7)

ZT > Z

Задачу (7) можно условно назвать задачей о быстродействии. 2. Фиксируем суммарный объем работ Y, которые может выполнить агент, и время обучения T. Требуется найти траекторию, максимизирующую результат Z:

Zт ® max

Yт < Y

(8)

t < T

Задачу (8) можно условно назвать задачей об оптимальном обучении. Наверное, именно эта задача наиболее близка к проблемам педагогики, когда требуется за фиксированное время и при фиксированном объеме учебного материала так распределить его во времени (дидактические аспекты, то есть содержание, в силу рутинности предмета научения практически не имеют значения), чтобы максимизировать «объем усвоенного материала» (максимизировать «качество обучения»).

Так как выражение (5) монотонно по сумме объемов работ агента и длительности периода обучения, то задачу (8) можно записать в виде:

(9) ? у1 exp(- g ? У™ ) ® mm in .

l=l m=l {y1'T|?yr =Y}

Г =1

В выражение (9) уже не входит начальная квалификация агента r0, то есть справедливо следующее утверждение.

Утверждение 9.1. Оптимальная траектория обучения не зависит от начальной квалификации агента.

Данный вывод представляет интерес для методики обучения, так как с точки зрения результатов отдельных независимых агентов существенны только индивидуальные различия скоростей их научения.

3. Фиксируем время обучения T и результат Z, который требу-ется достичь. Требуется найти траекторию обучения, минимизирующую суммарный объем работ:

YГ ® min

t < T

(10)

ZT > Z

Каждая из задач (7)-(10) может быть сведена к задаче (или набору задач) динамического программирования.

Пример 9.1. Решим задачу (8) для случая двух периодов.

Если T = 2, то имеем два варианта. В первом Г = 1, то есть у1 = Y, тогда Z1 = r0 Y. Во втором Г = 2, и, учитывая, что y2 = Y - у1, получим: ZV) = Y - (1 - r0) [у1 + (Y - у1) exp (- y у1)]. 1 Легко видеть, что максимум этого выражения по у е [0; Y] не зависит от r0. То есть, оптимальное распределение объемов работ по периодам не зависит от начальной квалификации агента.

Кроме того, чем больше y, тем меньше оптимальное значение объема работ, выполняемого в первом периоде. То есть, чем выше скорость научения агента, тем больший объем работ он должен выполнять в последнем периоде (и, соответственно, тем меньший объем работ необходимо выделять на начальный период для повышения его начальной квалификации). •

Пример 9.2. Решим задачу (9) для случая T = 11, r0 = 0,1, y = 0,5, Y = 10.

Динамика типов агента представлена на Рис. 21. Динамика оптимальных объемов работ представлена на Рис. 22.

1,0

0,8

0,6 0: 0,4 0,3 0,2 0 0,0

0

0

Рис. 21. Динамика типов агента в примере 9.2

Рис. 21. Динамика типов агента в примере 9.2

Рис. 22. Динамика оптимальных объемов работ в примере 9.2

Рис. 22. Динамика оптимальных объемов работ в примере 9.2

Оптимальной стратегией обучения является увеличение объема работ агента со временем, причем, чем выше скорость обучения, тем более «выпуклой» является оптимальная траектория обучения. Качественно, данный вывод является следствием вогну-

тости экспоненциальной кривой научения (см. выражение (1) и Рис. 21). •

<< | >>
Источник: НОВИКОВ Д.А.. Математические модели формирования и функционирования команд. - М.: Издательство физико- математической литературы,2008. - 184 с.. 2008

Еще по теме Обучение одного агента.: