<<
>>

3.2.1 Принцип локализации лица нейронной сетью

Для построения эффективного алгоритма локализации лица был проведен анализ выходных данных нейронной сети при сканировании различных масштабов исходного изображения. Результаты исследования показали, что при сканировании входного изображения отклики нейронной сети в местоположениях лиц и в некоторой их окрестности образуют максимумы.

Как видно на рис. 3.13, 3.14 область лица на изображении соответствует области максимума откликов нейронной сети.

Исходное изображение (рис. 3.13) было промасштабировано с коэффициентом масштабирования от 0,7 до 1,5, таким образом, получилась пирамида из 9 изображений.

Рис. 3.13 Исходное изображение для масштабирования.

Отклики нейронной сети, полученные при сканировании девяти изображений представлены на рисунке 3.14.

Масштаб 0,7

Масштаб 0,8

Масштаб 1

Масштаб 0,9

Масштаб 1,1

Масштаб 1,2

Масштаб 1,3

Масштаб 1,4

Рис. 3.14. Отклики нейронной сети при сканировании изображений различных мас-штабов. Анализ полученных результатов показывает, что отклики нейронной сети образуют максимумы в местоположениях лиц. Это позволяет утверждать, что нейронная сеть обладает инвариантностью к изменению масштаба. Но в различных масштабах окрестность максимума откликов нейронной сети различна.

Наиболее эффективное распознавание у масштабов 0.9, 1, 1.1, 1.2, так как размер лица в этих масштабах наиболее близок к размеру входа нейронной сети (32x36 пикселей).

Алгоритм локализации лица можно представить в двух этапах:

На первом этапе происходит сканирование различных масштабов входного изображения с большим постоянным шагом по ширине и по высоте, для выявления так называемых участков-кандидатов, то есть тех в которых отклик нейронной сети больше некоторого порога, они соответствуют либо лицу, либо некоторой его окрестности. На этом этапе возможно появление ложных обна-ружений.

На втором этапе происходит повторное сканирование изображений с малым шагом по ширине и по высоте в некоторой окрестности выявленных участков и принимается решение о принадлежности их к классу лиц. Отклики нейронной сети в некоторой окрестности лица должны образовывать максимумы в нескольких последовательных масштабах. Таким образом, отсеиваются ложные обнаружения.

С учетом выше сказанного алгоритм локализации лица можно представить в следующем виде.

Шаг 1. Исходное изображение последовательно масштабируется с коэффициентом масштабирования от 1.2 до 0.7, таким образом, получается пирамида, состоящая из шести изображений, как показано на рисунке 3.15.

Рис. 3.15 Масштабы изображений, используемые в процессе локализации лица.

Шаг 2. Полученные изображения сканируются нейронной сетью. Возможны два варианта сканирования:

сканировать каждое местоположение изображения, таким образом увеличивается вероятность обнаружения лица, но вычислительные затраты при таком подходе неоправданно велики;

изображение сканируется с некоторым шагом, большим одного пиксела, по ширине и высоте.

На основании экспериментальных исследований было установлено, что шаг равный четырем пикселам, позволяет избежать вычислительной избыточности, и обеспечить надежное обнаружение лица или его окрестности. Порог обнаружения (то есть величина отклика нейронной сети, при которой делается вывод о принадлежности участка к кандидатам) должен быть выбран таким образом, чтобы обеспечить обнаружение максимального числа участков- кандидатов в области лица, и обеспечить минимальное количество ложных обнаружений.

Анализ откликов нейронной сети на наборе изображений позволил оценить порог обнаружения на уровне 0.7, результаты анализа представлены на рисунке 3.16.

Рис. 3.16. Соотношения ложных и пропущенных лиц при разном значении порога

обнаружения.

Каждый участок-кандидат характеризуется вектором параметров

(х, у, w, h, net _out).

где, - координаты центра участка, w - ширина участка, h - высота участка,

net_out - отклик нейронной сети для участка.

Шаг 3. После сканирования всей пирамиды изображений, все найденные

участки-кандидаты, масштабируются относительно исходного размера изображения, и затем перекрывающиеся участки группируются в кластеры по определенному алгоритму. Блок-схема алгоритма устранения избыточных участков представлена на рисунке 3.17.

Рис. 3.17 Блок - схема алгоритма группировки.

Размеры и центры кластеров рассчитываются как среднее размеров и центров участков его образующих. Таким образом, происходит устранение избыточных участков-кандидатов. Процесс представлен на рисунке 3.18.

Рис 3.18 Выявление участков-кандидатов и последующее устранение избыточных

участков.

Полученные таким образом кластеры являются начальными данными для следующего шага. В работах наподобие[ 19,16,76,77] данный шаг является последним. В данной работе алгоритм локализации расширен и обеспечивает большую надежность за счет следующего шага.

Шаг 4. Состоит в точном поиске в некоторой окрестности центра кластера на всей пирамиде изображений. Экспериментально было установлено, что окрестность размером 16x16 пикселей относительно центра кластера достаточна для уверенного обнаружения лица. На данном шаге происходит сканирование с шагом 1 по пирамиде изображений, пример представлен на рисунке 3.19.

Рисунок 3.19 Пирамида изображения для шага точной локализации

В процессе сканирования считаются отклики сети большие установленного порога. Для подавления ложных обнаружений порог равен 0,9. Этот этап представлен на рисунке 3.20.

Рисунок 3.20 Локализация лица.

При достижении суммарным откликом некоторого порога выносится решение о принадлежности данного кластера к классу лиц, заодно при усреднении размеров всех участков, получаем границы области лица.

Проведя экспериментальные исследования алгоритма установлено, что порог достаточный для уверенного принятия решения равен 22.0. Для случая представленного на рисунке 3.20 суммарный отклик для ложного обнаружения равен 10, а для лица равен 108.

<< | >>
Источник: Макаренко Алексей Александрович. Алгоритмы и программная система классификации полутоновых изображений на основе нейронных сетей: диссертация... кандидата технических наук: 05.13.18. - Москва: РГБ, 2007. 2007

Еще по теме 3.2.1 Принцип локализации лица нейронной сетью: