Lý dochọnđềtài
Xử lý ảnh và Thị giác máy đang phát triển mạnh mẽ và đang đƣợc thuhút sự quan tâm của nhiều nhà khoa học Trong những năm qua, nhận dạngkhuôn mặt trong video đã nhận đƣợc sự chú ý đáng kể Đã xuất hiện nhữngcông nghệ khả thi sau nhiều thập niên nghiên cứu đóng góp vào xu thế này,chúng không chỉ ứng dụng vào các ứng dụng thương mại, ứng dụng bảo mậtmà còn nhiều lĩnh vực khác trong cuộc sống Mặc dù hệ thống nhận dạngkhuôn mặt hiện tại đã đạt đến một mức độ phát triển nhất định, nhƣng chúngvẫn còn nhiều hạn chế khi áp dụng vào các điều kiện thực tế Ví dụ, các hìnhảnhnhậndạngcủavideođượclấytrongmôitrườngt hựctếvớisựthayđổiđộsáng, khuôn mặt nghiêng hoặc độ phân giải thấp của hình ảnh thu đƣợc vẫn làvấn đề khó giải quyết Nói cách khác, các thuật toán hiện tại vẫn chƣa đƣợchoànthiệntốtnhất.
Nhận dạng khuôn mặt có nhiều ứng dụng, đặc biệt là ứng dụng tronggiám sát tự động Trong thời đại chuyển đổi số và ứng dụng công nghệ thôngtin mạnh nhƣ hiện nay, nhu cầu phát hiện, nhận dạng và giám sát tự độngđang trở nên cấp thiết hơn cả. Với lƣợng camera có thể lắp đặt nhiều nơi, tínhthực tiễn của giám sát tự động qua camera là rất cao, ứng dụng vào nhiều mụcđíchvà lĩnhvực,phục vụnhiềunhu cầutrong đờisống.
Với những phân tích trên, tôi xin chọn nghiên cứu đề tài “ NGHIÊNCỨU NHẬN
DẠNG KHUÔN MẶT VÀ ỨNG DỤNGTRONG GIÁMSÁT TỰĐỘNG ”
Mụcđíchnghiêncứu
- Nghiêncứ ucácđặctrƣngk huônmặtvàcáct huậttoántríchc họncácđặctrƣng đó.
Đối tƣợng vàphạmvinghiên cứu
3.1 Đốitượngnghiêncứu: Đối tượng nghiên cứu của đề tài là ảnh có khuôn mặt người và các thuậttoántrích chọn cácđặctrƣngkhuôn mặt.
Phạm vi nghiên cứu của đề tài này là nghiên cứu các phương pháp tríchchọn đặc trưng khuôn mặt trên ảnh khuôn mặt của người Việt Nam vàLào,ứngdụngvàoxâydựnghệ thốnggiámsáttựđộngchođơnvịcôngtác.
Phươngphápnghiêncứu
Phương pháp nghiên cứu của đề tài được lựa chọn là lý thuyết kết hợpvới thực nghiệm Phương pháp phân tích kỹ thuật và tổng hợp ứng dụng cácthuật toánđểgiảiquyếtbàitoánthựcnghiệm.
Ýnghĩakhoahọc vàthựctiễncủađề tài
Kháiquátvề nhậndạngkhuônmặt
Hệ thống nhận dạng khuôn mặt là một hệ thống đƣợc thiết kếđểtìmthông tin của một người Kĩ thuật nhận dạng là kiểm tra sự phùhợp dựa trênphép so sánh một-nhiều cụ thể là tìm ra một người là ai trong số những ngườiđãđượclưutrữtronghệthốngdựavàothôngtinkhuônmặt.
Hệ thống xác minh/xác thực khuôn mặt là một hệ thống đƣợc thiết kế đểxác minh thông tin của một người Kĩ thuật xác minh là kiểm tra sự phù hợptrên phép so sánh một-một cụ thể là đối chiếu thông tin mới nhận về mộtngườivớithôngtinđãlưutrữvềngườinàycókhớphaykhôngdựatrênthôngtin khuônmặt.
Những biến đổi quá lớn giữa các ảnh khuôn mặt khác nhau từ một ngườicần nhận dạng gồm trạng thái cảm xúc trên khuôn mặt, ánh sáng, và các thayđổi vị trí của khuôn Giới hạn về số ảnh cần thiết cho việc nhận dạng, tập họckhông thể bao quát đƣợc tất cả các biến đổi có thể cót r ê n k h u ô n m ặ t c ủ a một ngườic ầ n nhậndạngtrong thếgiớithực.
Bài toán nhận dạng khuôn mặt cần xác định hai vấnđềc h í n h : d ù n g thông tin nào để nhận dạng: chân mày, cặp mắt, mũi, môi, tai, hay kết hợp cácthôngtintrên.Vàdùngphươngphápnào đểhuấnluyệnchomáynhậndạng dùng nguồn thông tin đó Nhận dạng khuôn mặt trên máy tính đã trãi quanhiềubướcthăngtrầmvới cáckếtquảnhưsau: o WenyiZhao,ArvindhKrishnaswamy,RamaChellappa,DanieL.Swets, ohn Weng (1998)[1] sử dụng phương pháp PCA (phân tích thànhphần chính) kết hợp LDA (phân tích độc lập tuyến tính) Bước 1, chiếu ảnhkhuôn mặt từ không gian ảnh thô sang không gian các không gian khuôn mặt(Mỗi lớp khuôn mặt đƣợc nhận dạng sẽ được mô hình hóa bằng một khônggian khuôn mặt) dùng PCA Bước 2, sửdụng phương phápLDAđể tạo bộphânloạit u y ế n t í n h cókhả năng phân lớpcáclớpkhuôn mặt. o Emmanuel Viennet và Francoise Fogelman Soulie (1998),[3] sử dụngphươngphápmạngneuralnhântạođểxửlývànhận dạngkhuônmặt o Antonio J.Colmenarez và Thomas S.Huang (1998),[4]sửdụngkỹthuật học thị giác và phù hợp mẫu 2-D Ông quan niệm bài toán dò tìm khuônmặt là thao tác phân loại khuôn mặt trongđók h u ô n m ặ t t h u ộ c v ề m ộ t l ớ p và các đối tƣợng khác thuộc về lớp còn lại bằng cách ƣớc lƣợng mô hình xácsuấtchomỗilớp,vàviệcdòtìmsửdụngluậtquyếtđịnhMaximum-likelihood. o Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, EgorElagin, Hartmut Neven, and Christoph (1998),[5] nhận dạng khuôn mặt dựavào sóng Gabor và phương pháp phù hợp đồ thị bó Với ý tưởngdùng đồ thịđể biểu diễn khuôn mặt, ảnh khuôn mặt đƣợc đánh dấu tại các vị trí đã đượcxác định trước trên khuôn mặt, gọi các vị trí này chính là các vị trí chuẩn Khithực hiện thao tác so khớpđ ồ t h ị v ớ i m ộ t ả n h , c á c đ i ể m c h u ẩ n ( J e t s ) s ẽ t r í c h ra từ ảnh và so sánh các điểm chuẩn này với tất cả các điểm chuẩn tương ứngtrongcácđồthịkhácnhau,vàđồthịnàophùhợpnhấtvớiảnhsẽđƣợcchọn. o Baback Moghaddam và Alex Pentland (1998)[6],đưaraphươngphápphùhợpthịgiáctrựctiếptừcácảnhcầnsửdụngchomục đíchnhận dạngkhuônmặtvàdùngđộđoxácsuấtđểtínhđộtươngtự. o Massimo Tistaelli và Enrico Grosso (1998) [7], đƣa ra kỹ thuật thịgiác động Vì khả năng quan sát các chuyển động của khuôn mặt và xử lýcác tính huống theo dự định là thông tin rất quan trọng,từ đó nhận đƣợc môtảđầyđủhơnvềkhuônmặtchom1ụcđíchthuthậpmẫuvànhậndạng. o Jeffrey Huang, ChengjunLiu,v à H a r r y W e c h s l e r ( 1 9 9 8 )
[ 8 ] , đ ề xuất thuật toán căn cứ trên tính tiến hóa (Evolutionary computation) vàditruyền (Genetic) cho các tác vụ nhận dạng khuôn mặt Đối với cách tiếpcậnnày, hai mắt sẽ được dò tìm trước tiên và thông tin này đƣợc xem làvết đểquan sát khuôn mặt, trình xửl ý d ò t i ế p m ắ t b ằ n g c á c h s ử d ụ n g m ộ t t h u ậ t toánlaiđểkếthợp thaot á c h ọ c v à tiếnh ó a t r o n g quátrìnhhọc. o Daniel Bgraham và Nigel M Allinson (1998)[9], sử dụng phươngpháp được gọi là tạo bản sao không gian đặc trưng để biểu diễn và nhậndạnghướngdichuyểncủakhuônmặt. o Oi Bin Sun, Chian Prong Lam và Jian Kang Wu (1998) [10],sửdụngphương pháp tìm vùng hai chân mày, hai mắt,m ũ i , m i ệ n g v à c ằ m Ả n h khuôn mặt thẳng ban đầu đƣợc chiếu theo chiều ngang để tìm các giá trị điểmảnh thỏa ngưỡng cho trước, đồ thịb i ể u d i ễ n t h e o t r ụ c n g a n g s ẽ đ ị n h v ị v ị trí biên trên và biên dưới của hình chữ nhật bao các đặc trưngcục bộkhuônmặt Tương tự với chiều đứng để tìm ra đường biên bên trái và phải cho cácvùng đặctrưng. o Ara V.Nefian và Monson H.HayesIII(1998)[12]trìnhb à y h ƣ ớ n g tiếp cận theo mô hình mô hình Markov ẩn (HMM) trong đó ảnh mẫu khuônmặt đƣợc lƣợng hóa thành chuỗi quan sát trênkhuônmặttheoquann i ệ m dựa trên thứtự xuất hiện các đặc trƣng khuôn mặt {hai chân mày,h a i l ô n g mi, mũi, miệng, cằm}.Trongchuỗi quansátđó,mỗi quans á t l ạ i l à m ộ t vectornhiềuchiềuvàmỗivector quan sátnàyđƣợcsửdụngđ ể đặctrƣng cho mỗi trạng thái trong chuỗi trạng trạng thái của HMM.Mỗi người đượcướclượngbằngmột môhình củaHMM. o Guodong Guo, stan Z.LI, Kap luk chan(17january2001), dùngphương pháp SVM để nhận dạng khuôn mặt Sử dụng chiến lƣợc kết hợp nhiềubộphậnloạinhịphânđểxâydựngbộphânloại SVM đal ớ p
1.1.6 Một số ứngdụng liênquanđến nhậndạng khuônmặt
Từnhữngnăm1990trởlạiđây,chúngtađãchứngkiếnsựpháttriểnnhƣvũ bãocủa các ngành công nghiệp,đặcb i ệ c l à n g à n h c ô n g n g h i ệ p c h ế t ạ o điện tử.Tuy nhiên hiện nay các thiết bị điện tử cao cấp nhƣ máy ảnh số,camera kĩ thuậtsố,vànhiều sản phẩm khác dường như chỉ phù hợp cho cácphòng thínghiệm, các công ty sản xuất kinh doanh, thương mại, tài chính,ngân hàng, Trong thời gian không xa từ 3 đến 10 năm nữa, chi phí cho cácthiết bị này sẽ giảm đáng kể Khi đó sẽ mở ra nhiều hướng nghiên cứu về thịgiác máy tính,đ ồ n g t h ờ i s ẽ c ó n h i ề u ứ n g d ụ n g t r o n g g i a o t i ế p g i ữ a n g ƣ ờ i với máy tínhmàtrong đó hệ thống nhận dạng mặt người đóng một vai tròkhôngnhỏ.Dướiđây chúng tôi liệtkê mộtsố ứngdụng:
Các hệ thống, ứng dụng điểm danh, giám sát tại các khu vực côngcộngcầnđộantoànanninhcaonhƣsânbay,siêuthị,ngânhàng,…
Cơsởlýthuyếtvề ảnhvàxửlýảnhsố
1.2.1 Kháiniệm vềảnhsố Ảnh: Thông tin về vật thể hay quang cảnh đƣợc chiếu sáng mà côngngườiquansátvàcảmnhậnbằng mắtvàhệthầnkinhthịgiác. Ảnhsốlàtậphợphữuhạncácđiểmảnh.Ảnhcóthểđượcbiểudiễndướidạng một ma trận 2 chiều, mỗi phần tử của ma trận tương ứng với một điểmảnh.Mỗiphần tửnàyđượcgọilàmột pixel(pictureelement). Ảnhcóthểđƣợcđịnhnghĩalàmộthàm2chiềuf(x,y),trongđóxvàylà các tọa độ trong không gian (spatial) hoặc mặt phẳng (plane), và độ lớn(amplitude) của hàm f đƣợc gọi là độ sáng (intensity) hay độ xám (gray level)củaảnhtạiđiểmđó.
Một ảnh chỉ số bao gồm một ma trận dữ liệu X và ma trận bản đồ màu(map).Matrậndữliệucóthểcókiểu thuộclớpuint8,uint16hoặckiểudouble
Ma trận bản đồ màu là một mảng m x 3 kiểu double bao gồm các giá trị dấuphẩy động nằm giữa 0 và 1 Mỗi hàng của bản đồ chỉ ra các giá trị mà: red,green và blue của một màu đơn Một ảnh chỉ số sử dụng ánh xạ trực tiếp giữagiá trị của pixel ảnh tới giá trị trong bản đồ màu Màu sắc của mỗi pixel ảnhđược tính toán bằng cách sử dụng giá trị tương ứng của X ánh xạ tới một giátrị chỉ số của bản đồ màu Giá trị 1 chỉ ra hàng đầu tiên, giá trị 2 chỉ ra hàngthứ hai trong bản đồ màu Một bản đồ màu thường được chứa cùng với ảnhchỉ số và đƣợc tự động nạp cùng với ảnh Tuy nhiên, ta không bị giới hạn khisử dụng bản đồ màu mặc định, ta có thể sử dụng bất kì bản đồ màu nào. Cácpixel trong ảnh đƣợc đại diện bởi một số nguyên ánh xạ tới một giá trị tươngứngtrongbảnđồmàu.
Một ảnh cường độ là một ma trận dữ liệu ảnh I mà giá trị của nó đại diệncho cường độ trong một số vùng nào đó của ảnh Ma trận có thể thuộc lớpdouble, uint8 hay uint16 Trong khi ảnh cường độ hiếm khi được lưu với bảnđồ màu Những phần tử trong ma trận cường độ đại diện cho các cường độkhácnhauhoặcđộxám.
Trong một ảnh nhị phân, mỗi pixel chỉ có thể chứa một trong hai giá trịnhịphân0hoặc1.Haigiátrịnàytươngứngvớibậthoặctắt(onhoặcoff).
Mộtảnhnhịphânđượclưutrữnhưmộtmảnglôgíccủa0và1.d.ẢnhRGB(RGB Images ) Một ảnh RGB được lưu trữ dưới dạng một mảng dữ liệu cókích thước 3 chiều m x n x 3, định nghĩa các giá trị màu red,g r e e n v à b l u e cho mỗi pixel riêng biệt Ảnh RGB không sử dụng bảng màu Màu của mỗipixel đƣợc quyết định bởi sự kết hợp giữa các giá trị R,G,B (Red, Green,Blue) được lưu trữ trong một mặt phẳng màu tại vị trí của pixel Định dạngfile đồ hoạ lưu trữ ảnh RGB giống như một ảnh 24 bít trong đó R,G,B chiếmtương ứng 8 bít 1 Điều này cho phép nhận được 16,7 triệu màu khác nhau Một mảng RGB có thể thuộc lớp double, uint8 hoặc uint16 Trong một mảngRGB thuộc lớp double, mỗi thành phần màu có giá trị giữa 0 và 1 Một pixelmà thành phần màu của nó là (0,0,0) đƣợc hiển thị với màu đen và một pixelmà thành phần màu là (1,1,1) đƣợc hiển thị với màu trắng. Trong một ảnhRGB khoảng trắng tương ứng với giá trị cao nhất của mỗi màu riêng rẽ.Chẳng hạn trong ảnh mặt phẳng R, vùng trắng đại diện cho sự tập trung caonhất của màu đỏ thuần khiết Nếu R đƣợc trộn với G hoặc B ta sẽ có màuxám Vùng màu đen trong ảnh chỉ ra giá trị của pixel mà không chứa màu đỏR=0.Tương tựcho các mặt phẳng màu GvàB.
Trong kỹ thuật ảnh kỹ thuật số, một pixel, hay pel (viết tắt tiếng Anh:picture element) là một điểm vật lý trong một hình ảnh raster, hoặc một khốimàu rất nhỏ và là đơn vị cơ bản nhất để tạo nên một bức ảnh kỹ thuật số. Địachỉ của một điểm ảnh tương ứng với tọa độ vật lý ITS Pixel LCD được sảnxuất trong một mạng lưới hai chiều, và được sử dụng dấu chấm hoặc đại diệnhình vuông trong thường, nhưng điểm ảnh CRT tương ứng với cơ chế thờigiancủachúngvàtỷlệquét.1pixel khôngcókíchthướccố định.
Mỗi điểm ảnh là một mẫu của một hình ảnh ban đầu, nhiều điểm ảnh hơnthườngcungcấpđạidiệnchínhxáchơncủabảngốc.Cườngđộcủamỗiđiểm ảnh có thể thay đổi Hình ảnh trong hệ thống màu sắc, màu sắc thường là bahoặc bốn đại diện trong cường độ thành phần như màu đỏ, xanh lá cây, vàmàu xanh, hoặc màu lục lam, đỏ tươi, màu vàng, và màu đen Hầu hết cácchương trình ứng dụng đồ họa đều diễn tả độ phân giải của hình ảnh bằngpixeldimensions- kíchthướcpixel,vớisốđochiềungangđitrước. Ảnh số chỉ là một ma trận 2 chiều, và việc xử lý chúng chỉ là những thaotác trên ma trận này sao cho ra kết quả hợp lý Ví dụ một bức ảnh số có độphân giải 640x480 nghĩa là chiều ngang có 640 điểm ảnh (pixel), chiều dọc có480điểmảnh,vàmỗiđiểmảnhđƣợcbiểu diễnbằng mộtcon số.
Hình1.1.Matrậnđiểmảnh Ảnh số đa mức xám đƣợc biểu diễn bằng ma trận 2 chiều f(x,y) trong đócácphầntửlàgiá trịđiểmmàucủa ảnh. ƒ(0,0) ƒ(0,1) … ƒ(0,𝑁−1) ƒ(𝑥,𝑦)=[ ƒ(1,0) ƒ(1,1) … ƒ(1,𝑁−1)
Như vậy nếu ta có một ảnh kích thước 800x600 thì khi biểu diễn thànhma trận 2 chiều có số hàng là 600, số cột là 800, mỗi phần tử của ma trận cógiátrịtừ0-255. Đối với ảnh màu, mỗi phần tử của mảng 2 chiều là một bộ giá trịRGB.Phần tửf(i,j) của ma trậncó dạng f(i,j)=(B(i,j),G(i,j),R(i,j)).
Hệ này mô tả màu sắc thông qua 3 thành phần màu cơ bản là Red, Greenvà Blue Có thể mô xem xét mô hình RGB trong không gian 3 chiều nhƣ hình1.2. màu
Màunằmtrênđườngchéo(0,0,0)-(1,1,1)(3thànhphầnR,G,Bbằng nhau)->thểhiệnmứcxám.
Mứcxámcủađiểmảnhlàcườngđộsángcủanóđượcgánbằnggiátrịsốtại điểm đó Trong biểu diễn số của các ảnh đa mức xám, một ảnh được biểudiễn dưới dạng một ma trận hai chiều Mỗi phần tử của ma trận biểu diễn chomứcxámhay cườngđộcủaảnhtạivịtríđó.Mỗiphầntửtrongmatrậnđược gọi là một phần tử ảnh hoặc điểm ảnh (pixel) Một điểm ảnh có hai đặc trƣngcơbảnlà vịtrí(x,y) củađiểmảnhvàđộxám.
Các thang giá trị mức xám thông thường Thông thường có các thangmức xám nhƣ : 16, 32, 64, 128, 256 (với lý do kỹ thuật máy tính dùng 1 byte(8 bít) để biểu diễn mức xám thì có thể biểu diễn: 28 = 256 mức (0… 255) thìmức256là mức phổdụng.
Mức xám ở ảnh đen trắng Ảnh đen trắng là ảnh chỉ có hai màu đentrắng, mức xám ở các điểm ảnh có thể khác nhau Nếu dùng 8 bit (1 byte) đểbiểu diễn mức xám, thì số các mức xám có thể biểu diễn đƣợc là 28 hay 256.Mỗi mức xám được biểu diễn dưới dạng là một số nguyên nằm trong khoảngtừ 0 đến 255, với mức 0 biểu diễn cho mức cường độ đen nhất và 255 biểudiễn cho mứccườngđộsángnhất.
Mức xám ở ảnh nhị phân Ảnh chỉ có hai mức đen, trắng phân biệt, tứcdùng 1 bít mô tả 21 mức khác nhau Nói cách khác mỗi điểm ảnh của ảnh nhịphân chỉ có thể là 0 hoặc 1 d Mức xám ở ảnh màu Ảnh màu đƣợc tạo nên từba màu cơ bản (Red, Blue, Green), người ta dùng 3 byte để mô tả mức mầu,khi đó giá trị màu: 28*3 = 224 = 16,7 triệu màu Với ảnh màu: Cách biểu diễncũng tương tự như với ảnh đen trắng, chỉ khác là các số tại mỗi phần tử củamat r ậ n b i ể u d i ễ n c h o b a m à u r i ê n g r ẽ g ồ m : đ ỏ ( r e d ) , l ụ c ( g r e e n ) v à l a m (blue) Để biểu diễn cho một điểm ảnh màu cần 24 bit, 24 bit này đƣợc chiathành ba khoảng 8 bit. Mỗi khoảng này biểu diễn cho cường độ sáng của mộttrong các màuchính.
Thông thường các ảnh chúng ta gặp trong thực tế là các ảnh mầu gồm3thành phần (R,G,B) nhƣ vậy trong quá trình nhận dạng mà ta dung cả 3 thànhphần mầu này thì kích thước ảnh nhận dạng quá lớn như vậy một điều đặt ralàtatìmmộtphépbiếnđổisaochocóthểđƣaảnhvềbiểudiễnởdạngtoán họcthuậntiệnchoquátrìnhnhậndạng.
Phép biến đổi xám đƣa mỗi điểm ảnh mầu 3 thành phần về một thànhphầntheocôngthức:
) Giá trị này đƣợc tính thong qua tỷ lệ đặc trƣng của các mầu mà vẫn giữđƣợcnhữngđặctrƣngcơbản củaảnh.
Ta nhận thấy kích thức của mẫu cần nhận dạng bằng 1/3 đôí với ảnhmầu. Nhƣ vậy một ảnh mầu MxN sẽ đƣợc đƣa về một ma trận(MxN) mứcxámGray(i,j) với0