Phương p h p n h ậ n d n g k h u ô n m ặ t n g i t w e b c a m Nguyễn Thị Thanh T ân' Do«Cơng nghệ thông tin, Trường Đại học Điện lực Hà Nội, Việt Nam tanntt@epu.edu.vn Huỳnh Văn Huy12, Trường Đại học Bà Rịa Vũng Tàu Bà Rịa, Vùng Tàu huynhvanhuy@gmail.com Ngô Quốc Tạo ’ Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Hà Nội, Việt Nam nqtao@ioit.ac.vn há: Bài báo dề xuất IIIÔ hình hiệu q để giải (ibiltoan nhậndạng khn mặt trực tiếp từ hệ thống B É d K n Trong đó, báo tập trung vào Ịíỉhi« đoạn: Phát nhậndạng khn mặttừ hìnhwebcam Phinmg pháp phát khn mặt btổítuatsứdụng đặc trưng HOG phân lớp ỊstábSVM Mơ hình nhậndạng khn mặt đề Étrâcơsởmơ hình mạng neural học sâu FaceNet đễ |Mngtrích chọn đặc trưng khn mặt phân lóp Mkìiqcủa mơ hình nhậndạng kiểm nghiệm Ịboctậpco sớ liệu chuấn, dã cộng đồng nghiên aiihândạng khuụn mt ngũi trờn th giúi bao gm c ôtipi UOF, FEI, JAFFE LZW Cac kết thực tenKtolhâ) mơ hình đề xuất dạt dộ xác cao lfah tập liệu thử nghiệm thu thập từ »inàigtliụcte ÌíAot: khn mặt; khung hình (frame); nhận dạng; Ipsncural học sâu; tiền xử lý, chỉnh khuôn mặt; plliiỊii khn mặt; trích chọn đặc đặc trưng; phân klip mỉu ĐẬT VÁN ĐỀ I Trênthề giới, tốn nhậndạng sinh trắc học lóichung nhậndạng khn mặt nói riêng te đáutư nghiên cứu từ vài chục năm vê trước k dược nhiều kết lý thuyết lẫn ứng dụng It tiền Hiện công nghệ nhậndạng sinh lichọc không dùng đê xác thực nhân thân mà ■ dược dùng nhiều toán thực tiễn likiểmsoát vào/ra, kiêm soát truy cập mạng, đảm ■múc độ an ninh cân thiết khu vực quan te nhà ga, sân bay, ngân hàng, hỗ trợ tự ■hỏa chấmcông,v.v I ĩ|i V'iệt Nam, công nghệ nhậndạng sinh trắc Kccủngdã ứng dụng phổ biến, điển hình ■các hè thông châm công tự động dựa trcn nhận ■ vántay, mặt người, hệ thống giám sát an ■ phát đôi tương, phát đột nhập, phát |Ịệgvácảnh báo cố, bất thường Tuy nhiên, theo ■ kiêu nhóm tác giả, hâu hêt sản phâm tói dạng sinh trắc học có Việt Nam te chậpkhâu từ nước ngồi Trong báo này, chúng tơi đề xuất giải pháp tổng thể để giải tốn tốn nhậndạng khn mặtngười trực tiẽp từ thiết bị camera/webcam, hướng tới mục tiêu ứng dụng xây dựng hệ thống camera giám sát, kiềm soát vào/ra, phát đột nhập, phát đối tượng lạ mặt, chấm cơng tự động, v.v Trong đó, việc cải thiện chát lượng nhậndạng tập trung hai cơng đoạn phát khn mặt trực tiêp từ khung hình nhậndạng khn mặtngười phát Mơ hình phát khuônmặt đê xuất sử dụng đặc trưng HOG phân lớp tuyên tính SVM [11J Mô hỉnh nhậndạngkhuônmặt đê xuât sử sở kêt hợp mơ hình mạng neural học sâu FaceNet [5] có khả tự động trích chợn đặc trưng khuônmặtngười phân lớp SVM Trong phần 2, báo đề cập đến hướng tiếp cận liên quan nhậndạngkhuônmặtngười Phần đề xuất giải pháp tong thể đế nhậndạng khn mặtngười với độ xác cao, đáp ứng tính thời gian thực, phù hợp với tốn nhậndạng khn mặt trực tiêp từ camera/webcam Các kết thực nghiệm, đánh giá hiệu quà cùa mơ hình trình bày phần Cuối phần kết luận tống kết lại kểt đạt số đe xuất cho hướng phát triền II CÁC HƯỚNG TIẾP CẶN LIÊN QUAN Nhậndạngmặtkhuônmặtngười trình xác định danh tính tự động cho đơi tượng người ành/video dựa vào nội dung Rất nhiều hướng tiếp cận đề xuất đề giải tốn [7], [9], [15], [8] Nhìn chung, quy trình giải tốn thường bao gơm cơng đoạn bàn như: (i) Thu nhận hình ánh; (ii) Tiên xử lý, tăng cường chất lượng hình ảnh; (iii) Phát hiện, chinh, crop ánh khuôn mặt; (iv) Nhậndạng (trích chọn đặc trưng phân lớp) khn mặt Các hướng tiêp cận trước chủ yêu dựa đặc trưng (feature-based) cô găng đưa định nghĩa tường minh để biểu diễn khuônmặt dựa trơn tỷ lệ khoảng cách, diện tích góc [15] Một biêu diên khuônmặt định nghĩa tường minh hướng tới mục tiêu xây dựng không gian đặc trưng trực quan Tuy nhiên, thực tê biểu diễn định nghĩa tường minh thường khơng xác Đe khắc phục điều đó, hướng tiếp cận sau đề xuất dựa ý tường sử dụng mơ hình học máy thơng kê có khả học đê lựa chọn đặc trurng khuônmặttừ tập mẫu cho trước, điển phươngpháp PCA (Principal Component Analysis), khn mặt biêu diễn dạng tô hợp eigenvectors, eigenfaces fisherfaces [10], [17], phươngpháp sử dụng mô hình mạng neural tích chập CNN (Convolutional Neural Network) [16] Hiện tại, hiệu q mơ hình nhậndạngkhuônmặt cài thiện đáng kê dựa việc kết hợp sử dụng mơ hình học sâu để tự động phát đặc trưng khuônmặt kỹ thuật phân lóp thống kê Trong [20], [21], [22] tác già đê xuât mơ hình nhậndạng phức tạp, nhiều cơng đoạn dựa việc kết họp đấu mạng neural tích chập học sâu D-CNN (Deep Convolutional Neural Network) với PCA đê giảm chiều liệu phân lớp SVM Zhenyao cộng [22] xây dựng mạng neural học sâu đê chỉnh khuônmặt theo hướng nhìn trực diện sau huấn luyện mạng CNN để phân lớp xác định danh tính cho khuônmặt Y Taigman cộng [21] đề xuất mơ hình DeepFace dựa ý tưởng kết họp nhiều công đoạn (multi-stage): trước tiên sử dụng mô hình khn mặt chiều để chuấn hóa ảnh đầu vào (đã thu thập với tư thế, góc cạnh khác nhau) tư nhìn thẳng (trực diện), sau xây dựng kiến trúc mạng neural học sâu DNN (Deep Neural Net) với 120 triệu tham sơ, có khả học từ tập liệu khổng lồ với 4.4 triệu khuônmặt gán nhãn Trong kiên trúc mạng DNN DeepFace, lớp mạng cuối dược loại bỏ đâu lớp mạng trước sử dụng biếu diễn thấp chiều khuônmặt Các kết thực nghiệm cho thây mơ hình đạt độ xác 97.35% đơi với tập liệu LFW [6] Nhìn chung, ứng dụng nhậndạngkhuônmặt thường mong muốn tìm biéu diễn chiều, có khả tồng qt hóa tốt khn mặt mà mạng chưa huân luyện Mục tiêu DeepFace nhằm giải tốn đó, nhiên đế có biếu diễn cần phải huấn luyện mạng tập liệu lớn Đó điếm hạn chế DeepFace Trong [5], Florian Schroff cộng đề xuất kiên trúc mạng học sâu FaceNet với hàm chi phí ba (triplet loss function) định nghĩa trực tiêp biểu diễn Hình mơ tả q trình huấn luyện mạng FaceNet với hàm chi phí ba để học cách phân cụm biểu diễn khuônmặtngười Một siêu câu đơn vị (unit hypersphere) siêu cầu có sơ chiêu lớn cho khoảng cách từ tất cà điểm tới tâm siêu cầu Người: H Ềk ® Hình I Thù tục huấn luyện mạng FaceNet với hàm chi phí ba Các cài tiến quan trọng FaceNet bao gồm: (i) Đề xuất hàm chi phí ba; (ii) thủ tục lựa chọn ba huấn luyện; (iii) cho phép học lù tập liệu khống lồ để tìm kiến trúc mạng thích hợp III ĐẺ XT MƠ IIÌNH NHẬNDẠNG KHN MẶTNGƯỜITÙ'WEBCAM Thực tế cho thấy, việc nhậndạng đối tượng nói chung nhậndạng khn mặt nói riêng trực tiếp từ hệ thống camera giám sát webcam vân tốn phức tạp, nhiều khó khăn, thách thức Đ ối tượng 'ác khuòn m ặt dược phát I Đ anh túth khuôn m ậ t đtíợe iứ tịn đ n ? Hình Phươngphápnhậndạngkhuôn mặl ngườitừwebcam Một thách thức điển hình cùa tốn hình ảnh khn mặt cùa đối tuợn chuyển động thay đối liên tực với nhiều tư thê góc nghiêng/xoay trạng thái khác Điều đòi hỏi thuật tốn nhậndạng phải có nâng tơng qt hóa, khơng bị ảnh hưởng nhiêu độ nghiêng/xoay, dịch chuyển cùa đối tượng Ngoài ra, việc nhậndạng trực tiêp từ camera/webcam ln đòi hói phải đáp ứng tính thời gian thực (real time) Mơ hỉnh nhậndạngkhuônmătngười trực liếp từwebcam camera đề xuất cụ thể Hình Từ tín hiệu video đầu vào, bước xử lý tiến hành phân đoạn video thành khung hình (frame) riêng biệt Việc phân đoạn video tiên hành theo thời gian (ngưỡng chọn là24 khung hình giây) Mơi khung hình có thê khơng chứa, chứa phân chứa tồn khn mặt Vì vậy, bước xử lý đầu tiên, thuật toán tiên hành phát (face detection) xác định vị trí khn mặt (nếu có) ảnh Các khn mặt phát sau tiếp tục tiền xừ lý nhăm tăng cường chất Iượng hình ảnh (loại nhiễu, khử bóng/mờ), chuẩn hóa kích thước độ phân giải ảnh, chinh khuônmặt hướng trực diện (nhìn thăng) Các khn mặt sau tiền xử lý sử dụng làm đầu vào cho mơ hình mạng neral học sâu (DNN-Deep Neural Network) Mơ hình tự động học trích chọn đặc trưng đê nhậndạng (phần lớp) khuônmặt Bước xử lý cuối cùa thuật tốn tiến hành phần lóp (nhận diện) khn mặt Bản chất cùa việc phân lớp khuônmặt tìm kiêm đơi tượng người có mẫu khn mặt giống với khuônmặt cần nhậndạng Đe thực điều này, mơ hỉnh phân lóp cần phải huấn luyện với tập mẫu cho trước Trong đó, mẫu khn mặt thể tập đặc trưng thu từ mơ hình phát đặc trưng DNN bước A Phát khuônmặt khung hình Như đề cập trên, bàn chất việc phát khuônmặt trình tìm kiếm định vị khn mặt frame ảnh Phươngpháp phát khuônmặt đê xuất sử dụng đặc trưng HOG (Histograms of Oriented Gradients) phân lóp tun tính SVM (Support Vector Machines)) 111- H'mh Phươngpháp phát khn mặt Ý tưởng đặc trưng HOG hình dạng trạng thái vật đặc trưng bới phân bố gradient hướng cạnh Đặc trưng phát triền dựa đặc trưng SIFT (Scale-Invariant Feature Transform), đặc trưng HOG tính vùng Do biến thiên màu sắc vùng khác nên vùng cho ta vector đặc trưng Vì đê có đặc trưng cùa tồn cửa sô (window) ta phải kết hợp nhiều vùng liên tiếp lại với Các bước quy trình phát khn mặtngười khung hình mơ tả cụ thê Hình Đầu vào thuật toán frame ảnh thu từ bước phân đoạn video Bước xử lý tiến hành chuyển đổi ảnh không gian RGB (ảnh màu) sang ảnh đa câp xám (gray scale), sau tiên hành cân băng histogram ảnh gray scale đề giảm nhạy cảm với nguồn sáng Bước xử lý tính biến thiên màu sắc tất pixel ảnh gray scale theo chiều X [-l, 0, -1 1] theo chiều Y , thu ảnh gradient-x (đạo hàm theo trục x) gradient-y (đạo hàm theo trục y) có kích thước băng kích thước ánh gray scale Hai ảnh thu cho thấy biến thiên màu sắc nói Tiêp theo tiên hành tính góc hướng biến thiên màu săc từ ảnh gradient-x gradient-y Việc lưu trừ xác giá tri góc (orientation) điểm ành (x,y) ton nhiều chi phí không mang lại nhiều kết quả, ta chia khơng gian góc thành bin Việc phân chia bin nhỏ làm tăng độ xác, kêt thực nghiệm [18] cho thấy kích thước bin khoảng 200 cho kêt tốt nhât đôi với việc phát khuônmặtngười Do đó, với khơng gian hướng biến thiên miền từ 0° - 180° se chia thành bin sau: [0° - 20°], [21° 40°] [41° -60°], [61° - 80°], [81° - 100°], [101°120°], [121° - 140°], [141® - 160°], [161° - 180°] ứng với bin trên, tiến hành thống kê biên độ (magnitude) vị trí Với bin, vị trí (x,y) góc (orientation) thuộc bin giá trị bin vị trí (x,y) băng giá trị biên độ, ngược lại giá trị bin vị trí (x,y) băng Bước tiên hành tính tốn vector đặc trưng cho cell (mỗi cell thường chọn với kích thước 8x8 pixel) Vector đặc trưng cell gồm thành phần tương ứng với bin giá trị thành phần i tổng giá trị điểm bin i mà có tọa độ năm cell Tiêp theo, tính tốn vector đặc trưng cho khối (block), khối thường chọn với kích thước 2*2 cells (16x16 pixel) Vector đặc trưng khối tính cách ghép vector dặc trưng cell block lại với nhau, số thành phần vector đặc trưng khối tính theo công thức: StZ€jeaiure/block ttcell x*'OSize lZejeoiure/ceii >ck - »cell fe Trong đó: Sizéfeature/biocic đặc trưng block, nceii so cell block, Size/eature/ceii số feature cell Với giả thiết cell có kích thước 8x8 pixels, mồi block có kích thước 2x2 cells (16x 16 pixels), không gian hướng biến thiên xét miền miền từ 0° - 180u chia thành bin sơ đặc trưng mồi khối tính 4x9 = 36 thành phần Từ đó, tiến hành tính tốn vector đặc trưng các cửa sơ tồn ảnh đâu vào Trong đó, cửa so (Window) tạo khối xếp gối overlapping Đặc trưng cửa sổ tính băng cách ghép vector đặc trưng block tạo lên cửa sổ số thành phần đặc trưng cửa sổ xác định sau: f "w window - Wn 1block! window X ỈV block * n cell Ị wcelt k ! window k lb lo c k I Person Person / * H ẹ ell +1 ^ block!window^ S l Z € feature!block Trong đó: WwinJow WHhck Wceii chiều rộng window, block cell (tính theo đơn vị pixel); H wMom Hillock, Marti lân lượt chiều cao window, block cell (tính theo đơn vị pixel); tiBhc.yWindow số block cửa sổ, Sizeyeoiure/Window số đặc trưng cửa sổ (a) Khung hinh dâu vào Person ^ H cel! feature!window đề xuất sử dụng lớp mạng neural học sâu FaceNet, Florian Schroff cộng đà đè xuất năm 2015 [5] Đây mơ hình có khả học từ tập mẫu cho trước nhằm tự động phát đặc trưng quan trọng để nhậndạng đối tượng Ý tường hướng tiếp cận dựa việc học không gian Euclidean nhúng ứong ảnh sử dụng cấu hình mạng neural tích chập học sâu (deep convolutional network) Mạng huấn luyện cho khoảng cách L2 bình phương khơng gian nhúng tương ứng trực tiêp với độ tương tự cùa khuônmặt Cụ thê khuônmặtngười có khoảng cách nho khn mặt cùa người khác có khống cách lern (Hình 5) (b) Các khudn mật phát Hình Kết q phát khn mặt Ở bước xử lý cuối cùng, toàn vector đặc trưng thu cứa sổ sử dụng làm đầu vào phân lớp tuyến tính SVM[12] Bộ phân lớp có nhiệm vụ xác định lớp mẫu (có chứa khuônmặt hay không chứa khuôn mặt) đôi với ảnh đâu vào dựa tri thức mà thuật tốn huấn luyện Hình 4-b thể kết thuật tốn phát khn mặtngười ảnh đầu vào cụ thể (Hình 4-a) B Nhậndạngkhuônmặtngười Công đoạn nhậndạng thường gồm bước xử lý trích chọn đặc trưng phân lóp khn mặtPhươngpháp trích chọn đặc trưng 28độctrưngđượcsinh bởímạngnưton 128 đệctrưrvgđượcSinh bỏ