2.1 Структура сети для выделения сюжета изображения
Задача обнаружения образа лица очень трудно реализуема из-за большого разнообразия искажений изображений, которые мы должны принять во внимание. Эти искажения включают различное выражение лица, условия съемки и т.д.
Как было сказано в разделе 1, для решения данной задачи активно используются нейронные сети различных архитектур [15-19,60]. Преимущество использования нейронных сетей для обнаружения лица - обучаемость системы для выделения ключевых характеристик лица из учебных наборов.В настоящее время наиболее часто в задачах распознавания и идентификации изображений используются классические нейросетевые архитектуры (многослойный персептрон, сети с радиально-базисной функцией и др.), но из анализа данных работ и экспериментальных исследований следует что, приме-нение классических нейросетевых архитектур в данной задаче является неэффективным по следующим причинам:
для эффективного решения задачи необходимо применять ансамбль нейронных сетей (2-3 нейронные сети, обученные с различными начальными значениями синаптических коэффициентов и порядком предъявления образов), что значительно увеличивает вычислительную сложности решения задачи и соответственно время выполнения;
как правило, классические нейросетевые архитектуры используются совместно с различными вспомогательными методами выделения сюжетной части изображения (сегментация по цвету кожи, выделение контуров и т.д.), которые требуют качественной и кропотливой предобработки обучающих и ра-бочих данных;
данные нейросетевые архитектуры являются крайне чувствительными к влиянию различных внешних факторов (изменения условий съемки, присут- ствие индивидуальных особенностей на изображении, изменение ориентации)
Кроме того, при практической реализации возникают алгоритмические трудности применения классических нейронных сетей к реальным задачам рас-познавания и классификации изображений, связанные с особенностями реальных изображений.
Изображения имеют большую размерность, соответственно вырастает размер нейронной сети (количество нейронов и т.п.).
Большое количество параметров увеличивает вместимость системы и соответственно требует большей тренировочной выборки, увеличивает время и вычислительную сложность процесса обучения. Но главный недостаток неструктурированных сетей - то, что они не имеют встроенной инвариантности относительно изменения масштаба, или геометрических искажений входного сигнала.В принципе, полносвязная нейронная сеть достаточного размера может учиться производить выводы, которые являются инвариантными относительно таких изменений. Однако обучение такой задаче, вероятно, привело бы к мно-гочисленным наборам весовых коэффициентов.
Недостатком полносвязной архитектуры является тот факт, что топология ввода полностью игнорируется. Входные переменные могут быть представ-лены в любом порядке, не затрагивая цель обучения. Напротив, изображения имеют строгую 2-мерную местную структуру: пространственно соседние пиксели чрезвычайно зависимы.
На преодоление этих недостатков направлены так называемые сети с ло-кальными связями, то есть те в которых нейроны получают свой вход от некоторой группы нейронов предыдущего слоя, к ним относятся когнитрон, неоког- нитрон, свёрточная нейронная сеть.
Идея подключать нейроны к локальным рецептивным областям на пре-дыдущем слое появилась в начале 60-ых годов [61]. Локальные рецептивные поля многократно применялись в нейронных сетях предназначенных для распознавания образов.
Свёрточные нейронные сети обеспечивают частичную устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям. Свёрточные нейронные сети объединяют три архитектурных идеи, для обеспечения инвариантности к изменению масштаба, повороту сдвигу и пространственным искажениям:
локальные рецепторные поля (обеспечивают локальную двумерную связность нейронов);
общие синаптические коэффициенты (обеспечивают детектирование некоторых черт в любом месте изображения и уменьшают общее число весовых коэффициентов);
иерархическая организация с пространственными подвыборками.
Именно поэтому в данной работе использовалась свёрточная нейронная сеть - нейросетевая архитектура, основанная на принципах неокогнитрона и дополненная обучением по алгоритму обратного распространения ошибки.