
Вопросы распознавания лиц |
Некоторые вопросы распознавания лиц в ситуации одного эталонного изображенияАвтор: Рожков М.М, Звягин М.Ю., Шамин П.Ю.В настоящее время всё более широкое распространение получают технологии биометрической идентификации людей. Это вызвано, с одной стороны, возрастающей потребностью в таких технологиях, с другой же – расширяющимися возможностями в этой сфере. Методы идентификации, основанные на распознавании лиц, всегда были в центре внимания ученых в силу своей «не агрессивности» по отношению к объектам. Степень точности существующих алгоритмов автоматического распознавания лиц зависит от количества фотографий-ракурсов распознаваемых людей, используемых в системе – так называемых эталонных изображений (sample). Чем меньше эталонных изображений для каждого человека использует система, тем ниже ее точность. Ситуация, когда система использует только одно эталонное изображение, приводит к значительному снижению точности распознавания. Данная проблема в научном сообществе называется проблемой одного эталонного изображения. В англоязычных источниках эта проблема фигурирует, как правило, под аббревиатурой OSPP («One Sample per Person») [3]. Среди задач автоматического распознавания лиц проблема OSPP занимает особое место. Постановка задачи Итак, для распознавания мы имеем два набора фотографий лиц людей. В каждом наборе содержатся фотографии разных людей [2]. Однако для каждого лица в одном наборе есть соответствующее лицо этого же человека в другом наборе. Один набор назовем эталонной базой, а второй набор назовем тестовой базой. Задача состоит в том, чтобы для каждого ракурса из тестовой базы найти ракурс того же класса из эталонной базы. Чтобы сравнивать ракурсы их предварительно определенным образом преобразуют. Из изображения выделяют некоторые величины, по которым в дальнейшем происходит оценка степени похожести ракурсов. Набор таких величин для ракурса будем называть образом ракурса. Зададим на множестве образов метрику. Метрика – некоторая функция, которая ставит в соответствие двум образам число. Назовем это число «расстоянием» между ракурсами. Технология распознавания основана на методике выбора ближайшего элемента. Для каждого ракурса из тестовой базы будем вычислять «расстояние» до каждого ракурса из эталонной базы. Ракурс с минимальным «расстоянием» будем называть ближайшим ракурсом. Таким образом, для каждого тестового ракурса найдем ближайший эталонный ракурс. Испытания проводились на изображениях, полученных из набора fafb базы изображений лиц COLORFERET. Тестовые и эталонные изображения были получены из оригинальных изображений базы COLORFERET путём вырезания области, содержащей лицо человека. В испытаниях использовались изображения 847 людей (всего 2*847 = 1694 изображения). Описание процедуры распознавания Для построения образа ракурса будем использовать текстурные энергетические карты Лавса [1]. Всего их 9. Называются они: L5E5 L5S5 L5R5 E5S5 E5R5 S5R5 Две однотипные карты Лавса, построенные для различных ракурсов будем использовать для нахождения расстояния между ракурсами. Карты будем попиксельно сравнивать, применяя метрику L1 . Как показал эксперимент, наилучшие результаты распознавания (корректность распознавания 86,78%) дала карта E5E5. В целом распознавание с использованием любой из трех следующих карт (E5E5 – 86.78%, E5S5 – 81,94%, S5S5 –79,46%) показывает весьма приличные результаты. А результат на карте E5E5 весьма высок в рамках проблемы OSPP [3]. Дискретное косинусное преобразование используется в алгоритмах сжатия изображений. По низкочастотным коэффициентам ДКП можно восстановить общие черты исходного изображения. А по высокочастотным коэффициентам восстанавливаются мелкие детали. Поэтому для сравнения ракурсов целесообразно использовать низкочастотные коэффициенты преобразования ДКП. Оптимальное количество коэффициентов определим опытным путем. Для вычисления «расстояния» между ракурсами будем использовать метрику L2 . Для эксперимента была выбрана карта E5E5. К этой карте применялось преобразование ДКП. Число используемых для сравнения коэффициентов изменялось для определения оптимального их количества. Использование преобразования ДКП к лучшей карте Лавса немного снизило корректность распознавания. Для оптимального количества коэффициентов (1081) корректность распознавания составила 84,18%, что на два с половиной процента ниже, чем в случае попиксельного сравнения самих карт E5E5. Однако для карт Лавса размером 256x256 пикселей количество сравниваемых величин составляет 65536, что в 60 раз больше чем для коэффициентов ДКП. Следовательно, использование ДКП, примененного к лучшей карте Лавса, хотя немного и проигрывает в точности, однако значительно выигрывает в скорости работы. И может более успешно использоваться в алгоритмах реального времени. Список используемых источников: 1. Д. Стокман, Л. Шапиро. Компьютерное зрение. М.: «БИНОМ. Лаборатория знаний», 2006, ISBN: 0-13-030796-3, 5-94774-384-1 |
< Предыдущая | Следующая > |
---|