System automatycznych pomiarów rynometrycznych (2) − Charakterystyka danych
Współcześnie stosuje się kilka typów bezdotykowych skanerów powierzchni. Pozwalają one uzyskać informację o koordynatach trójwymiarowych powierzchni bez mechanicznej interakcji ze skanowanym obiektem.
|
|
|
|
|
W poprzedniej części artykułu postawiony został cel opisywanego systemu: stworzenie zestawu narzędzi algorytmicznych pozwalających na analizę obrazów trójwymiarowych twarzy. Wprowadzone zostały podstawowe pojęcia z zakresu tradycyjnej antropometrii i przedstawiona informacja o oczekiwanych rezultatach.
Część druga poświęcona jest aspektom technicznym omawianego zagadnienia i zawiera przegląd istniejących podejść do skaningu trójwymiarowego oraz charakterystykę danych pochodzących z takich źródeł. Zaprezentowane zostały biblioteki danych, z wykorzystaniem którch powstał opisywany system.
Urządzenia pomiarowe
Współcześnie stosuje się kilka typów bezdotykowych skanerów powierzchni. Pozwalają one uzyskać informację o koordynatach trójwymiarowych powierzchni bez mechanicznej interakcji ze skanowanym obiektem. Skanery takie podzielić można na pasywne i aktywne [1].
Skanery pasywne (ang. Passive Vision) różni od aktywnych to, że nie emitują światła, operując jedynie na obrazie naturalnym. Podstawową stosowaną techniką jest fotogrametria (ang. photogrammetry). Używa ona obrazów z dwóch kamer, na których poszukuje się odpowiadających sobie punktów i na tej podstawie oblicza informację o głębi. Wadami takiego rozwiązania są: długi czas przetwarzania danych, skomplikowana kalibracja urządzenia oraz trudność z uzyskaniem dokładnych danych (w wersji bez specjalnych znaczników punktów na powierzchni) i ograniczona liczba punktów, które daje się analizować (w wersji ze znacznikami).
Znacznie lepszymi i szerzej stosowanymi są skanery aktywne. Ich działanie opiera się na rzutowaniu dodatkowego obrazu/światła na obiekt skanowany. Wśród takich urządzeń wyróżnia się skanery punktowe PAV (ang. Point Active Vision) i powierzchniowe FAV (ang. Full-Field Active Vision).
Skanery punktowe składają się zwykle z lasera i kamery lub interferometru. Wyróżnia się rozwiązania wykorzystujące:
- czas lotu światła (ang. Time-of-Flight) – mierzy się czas przelotu od lasera do obiektu i z powrotem. Zaletą rozwiązania jest szeroki zakres wielkości mierzonych obiektów. Wadą jest wymóg dostępności bardzo precyzyjnych urządzeń optycznych i elektronicznych, co generuje bardzo wysokie koszty.
- skaning laserem (ang. Laser Scanning) – rzutuje się światło laserowe na powierzchnię obiektu i analizuje jego położenie kamerą. Plusem rozwiązania są prostota i szybkość przetwarzania oraz wysoka dokładność. Minusem są ograniczenia geometryczne co do możliwych położeń punktów na powierzchni.
- śledzenie lasera (ang. Laser Tracking System) – analizuje się interferometrem wynik odbicia światła laserowego od powierzchni skanowanego obiektu. Pozytywami rozwiązania są szybkość i jakość danych. Minusem natomiast wysoki koszt.
Skanery powierzchniowe składają się z projektora i kamery. Projektor rzutuje specjalnie ustrukturyzowany obraz lub obrazy na powierzchnię skanowanych obiektów. Następnie obraz z kamery poddawany jest analizie. Stosuje się kilka rozwiązań. Dwa główne to prążki Moire’a (ang. moire fringes) oraz światło strukturalne (ang. structured light). Korzyściami płynącymi z takich rozwiązań jest prostota fazy analizy danych, szybkość pozyskiwania danych i stosunkowo duża dokładność danych. Minusem jest wysoki koszt projektora.
Specyfika danych
Każdy skaner generuje na swoim wyjściu zbiór/chmurę punktów (ang. cloud of points) w trójwymiarowym, kartezjańskim układzie współrzędnych. Każde z urządzeń korzysta z własnych, specyficznie położonych koordynat. W celu uzyskania ogólności rozwiązania, nie stosuje się żadnych założeń co do położenia (ani obrotu) danych w przestrzeni. Nie przyjmuje się również żadnych założeń dotyczących numeracji czy też sortowania punktów. Informacja o kolorze często nie jest dostępna, toteż zakłada się jej brak.
Pojedynczy przebieg skanowania daje w efekcie pojedynczą chmurę kierunkową (ang. directional data) tj. widok powierzchni z jednego kierunku lub ze zbioru kierunków (np. gdy urządzenie skanujące przemieszcza się wokół obiektu skanowanego). Chmurę taką charakteryzuje to, że obszary zakryte podczas skanowania pojawią się w danych wyjściowych jako „dziury”. Możliwe są też nieciągłości powierzchni wynikające z błędów w skanowaniu. Dane mogą zawierać fragmenty odzieży, elementy otoczenia, włosy. Dodatkowo należy pamiętać, że dane wyjściowe ze skanerów mogą zawierać przekłamania, tj. przypadkowe punkty niemające odpowiedników w rzeczywistości. Nie należy też zapominać, że niedokładność urządzeń pomiarowych wprowadza pewien rozrzut współrzędnych punktów wokół wartości rzeczywistych.
W projektowanym rozwiązaniu zakłada się, że na wejściu podawane są pojedyncze chmury kierunkowe punktów powstałe w efekcie skanowania twarzy. Obrazy zawierają widok twarzoczaszki z przodu. Skala danych to 1:1. W zbiorze danych współrzędne punktów podane są w milimetrach.
Do analizy i testowania prezentowanego rozwiązania użyto danych pochodzących z dwóch źródeł stosujących dwa najpopularniejsze i najbardziej reprezentatywne podejścia do zbierania danych trójwymiarowych: skaner laserowy (wersja z kamerą) oraz światło strukturalne. Pierwszym z nich jest publicznie dostępna baza obrazów 3D trójwymiarowych twarzy – GavabDB. Drugim są dane pozyskane z Wydziału Mechatroniki Politechniki Warszawskiej dzięki uprzejmości dr inż. Roberta Sitnika.
GavabDB
Numer widoku |
Nazwa pliku | Orientacja głowy | Emocja |
1 | carai_frontal1 | Przód | Neutralna |
2 | carai_frontal2 | Przód | Neutralna |
3 | carai_derecha | Prawy profil | Neutralna |
4 | carai_izquierda | Lewy profil | Neutralna |
5 | carai_arriba |
Patrząc w górę (obrót o ok. +35°) |
Neutralna |
6 | carai_abajo |
Patrząc w dół (obrót o ok. -35°) |
Neutralna |
7 | carai_sonrisa | Przód | Uśmiech |
8 | carai_risa | Przód | Śmiech |
9 | carai_gesto | Przód | Dowolna |
Baza danych Gavab powstała na Uniwersytecie Rey Juan Carlos w Madrycie. Jest dostępna na stronie internetowej www.gavab.es/recursos_en.html na licencji pozwalającej na bezpłatne zastosowanie naukowe. Zbudowana została w celach badawczych dotyczących automatycznego rozpoznawania i analizy twarzy.
Bazę wykonano z wykorzystaniem skanera laserowego Minolta V1-700 [2, 3]. Każdy z obrazów 3D pozyskano w trakcie pojedynczego skanu. Czas pobierania danych nie przekraczał 1 s. Przy pobieraniu danych nie kontrolowano oświetlenia. Twarze umiejscowione były w odległości około 1,5–2 m od skanera. Różnica w położeniu może powodować delikatne rozbieżności rozdzielczości obrazów. Dane wstępnie przetworzono z wykorzystaniem oprogramowania VIVID. Zmniejszano rozdzielczość danych przez zastąpienie kilku punktów ich średnią, aż do uzyskania pożądanej wartości. Dodatkowo wypełniono małe nieciągłości powierzchni.
Baza zawiera 549 trójwymiarowe skany powierzchni twarzy w popularnym formacie VRML, pobrane od 61 osób należących do rasy białej: 45 mężczyzn i 16 kobiet, w wieku od 18 do 40 lat, w tym także od osób z brodą, wąsami itp. Dla każdej osoby baza zawiera dwa widoki z przodu i cztery z boku w pozie neutralnej. Dodatkowo dołączono trzy obrazy twarzy widziane z przodu wyrażające różne emocje: śmiech (ang. laugh), uśmiech (ang. smile) i jedną losową (nie dopuszcza się jednak zakrywania twarzy np. dłonią czy językiem).
Dane z Wydziału Mechatroniki PW
Dane zostały zebrane z wykorzystaniem systemu 3DMADMAC opracowanym na Wydziale Mechatroniki Politechniki Warszawskiej. System składa się z projektora DLP i kamery CCD [1]. Użyto projektora Toshiba TLP660. Rozdzielczość przestrzenna jego modulatorów to 1024×768 pikseli. Częstotliwość odświeżania to 85 Hz. Wyposażono go w obiektyw z zoomem (f = 37–46 mm). Użyta kamera to Sanyo VCC3972P. Bazuje na standardowym kolorowym detektorze CCD 1/3’’. Pozwala na pracę w rozdzielczości 720×576 pikseli z częstotliwością do 25 Hz. Wyposażono ją w obiektyw z optycznym zoomem (f = 8–72 mm).
Baza zawiera 50 obrazów 3D wykonanych na grupie pracowników wydziału. Dla każdego z modeli wykonano kilkanaście różnych skanów. Każdy z obrazów zawiera nieobrobioną chmurę kierunkową. Mogą występować niedokładności, błędne punkty, nieciągłości powierzchni. Dane przeanalizowano organoleptycznie. Wyniki przedstawia tab. 2.
Nr grupy |
Typ obrazu |
Liczba obrazów 3D |
1 | Obraz błędny, niezawierający twarzy | 2 |
2 | Obraz zawierający twarz | 34 |
3 |
Obraz zawierający twarz, ale ze znaczącym wycięciem lub zasłonięciem części obrazu (np. czoło przysłonięte przez włosy) |
8 |
4 |
Obraz zawierający twarz, ale ze znaczącymi zniekształceniami (szumy) |
6 |
Stwierdzono, że na 6 obrazach model uśmiecha się odsłaniając zęby. Dwa obrazy zawierają ujęcie nie bezpośrednio na twarz, ale lekko z boku. Dodatkowo, pośród 48 zestawów danych zawierających twarz, w 26 przypadkach zaobserwowano duże uszkodzenia w okolicach obu (zarówno lewego jak i prawego) skrzydełek nosa. Uszkodzenia te uniemożliwiają analizę tych regionów. Ponadto w dużej części obrazów przypisanych do grupy 2 zaobserwowano pewne nieciągłości, które jednak wizualnie były znacznie mniejsze od tych, jakie zauważono w danych z grupy 3.
Analiza porównawcza zbiorów danych
Przegląd danych z obu zbiorów pokazał, że baza GavabDB dostarcza danych znacznie lepszych w sensie subiektywnego odbioru przez człowieka. Obrazy w bazie Mechatronika zawierają liczne nieciągłości powierzchni oraz przypadkowe punkty. Również pod względem doboru modeli pierwszy z wymienionych zestawów danych wydaje się lepszy. Skany zostały wykonane na znacznie większej liczbie osób, w standardowy sposób pozwalający na przeprowadzanie analiz statystycznych, np. dla wybranego ułożenia twarzy.
|
|
|
|
W celu oceny złożoności analizowanych danych wejściowych obliczono ich podstawowe statystyki. (tab. 3). Jak widać obrazy z bazy Mechatronika zawierają średnio około 5 razy więcej punktów (ok. 65 tys.) niż obrazy z bazy GavabDB (ok. 14 tys.). Największy pod względem liczby punktów model z bazy GavabDB jest mniejszy niż najmniejszy model z bazy Mechatronika.
Nazwa bazy | Minimum liczby punktów | Maksimum liczby punktów | Średnia liczby punktów | Odchylenie standardowe liczby punktów |
GavabDB | 6 001 | 22 021 | 13 923 | 2 768 |
Mechatronika | 24 804 | 113 295 | 64 933 | 17 837 |
Rozkłady liczby punktów prezentują histogramy (rys. 12 i 13). Jak widać, rozkład dla bazy GavabDB przypomina rozkład normalny o odchyleniu około 3 tys. punktów. Dla bazy Mechatronika odchylenie standardowe wynosi około 18 tys. punktów.
|
|
W celu zademonstrowania, w jaki sposób informacje o liczbie punktów w modelu przekładają się na rozdzielczość modeli, wykonano analizę liczby punktów w zależności od rozmiaru otoczenia. Uzyskana w tym teście informacja wykorzystana zostanie w dalszych fazach projektowania i tworzenia systemu.
Do dalszej analizy wybrano losowo po 5 obrazów z każdej z baz. Dla każdego z zestawów punktów wybierano podzbiór o wielkości 1 % całej liczby punktów. Każdy z punktów w podzbiorze otaczano sferą o promieniu R. Następnie zliczano liczbę punktów wewnątrz sfery. W kolejnym kroku uśredniano oraz obliczano odchylenie standardowe (w celu pokazania „stabilności” wyniku) od średniej dla każdego pojedynczego obrazu. Obliczenia wykonano dla zmieniającej się wartości promienia R od 0,5 do 10 mm, z przyrostem 0,5 mm. Wyniki analizy zaprezentowano na wykresach.
|
|
Jak widać, dane z bazy Mechatronika są znacznie „gęstsze”. Liczbę 100 punktów w sferze otaczającej dany punkt uzyskuje się już średnio dla otoczenia o promieniu około 4 mm. W celu uzyskania podobnej liczby w bazie GavabDB należy analizować sferę o promieniu 10 mm. Tak duża różnica w rozdzielczości danych wynika z opisanego procesu wstępnego uśrednienia, któremu poddane zostały dane w drugiej z wymienionych baz. Nie można przesądzać o użyteczności danych do analizy tylko na podstawie tej informacji. Należy pamiętać również o jakości danych z obu baz, tj. o tym, że optycznie dane z bazy GavabDB wydają się znacznie lepsze.
Podsumowanie
Pokazano i porównano różne podejścia do pozyskiwania danych trójwymiarowych. Scharakteryzowano tak pozyskiwane dane. Z dostępnych źródeł wybrano dwa, które zdają się reprezentować najbardziej perspektywiczne kierunki w rozwoju technologii skaningu 3D.
Zaprezentowana wiedza ułatwi zrozumienie metod i technik analizy obrazów trójwymiarowych, które opisane zostaną w kolejnych częściach.
Bibliografia
- Sitnik R.: A Fully automatic 3D shape measurement system data export for engineering and multimedia systems. A dissertation submitted in partial fulfilment of the requirements for the degree of Doctor of Philosophy in The Warsaw University of Technology; Warsaw 2002.
- A.B. Moreno, A.Sanchez: GavabDB: A 3D Face Database. 2ndCOST Workshop on Biometrics [in:] C. Garcia et al (eds): Proc. 2nd COST Workshop on Biometrics on the Internet: Fundamentals, Advances and Applications, Ed. Univ. Vigo, p. 77–82, 2004.
- Konica Minolta, NON-CONTACT 3D DIGITIZER, VIVID 910/VI-910, Instruction Manual.
- Blanc N., Gimkiewicz C., Gruener G., Oggier T., Bohme M.: Application Examples of Integrated 3D Camera Systems. International Magazine on Smart Systems Technologies, No. 4/09; p. 24–26; 2009.
- GAVAB - Grupo de Investigación
- OGX|OPTOGRAPHX
Tomasz Kuśmierczyk – Studenckie Koło Naukowe Cybernetyki
Politechnika Warszawska