Mẫu nhị phân cục bộ chuẩn hóa (NILBP) [85] được đề xuất bởi Liu và các đồng sự năm 2012. Phương pháp này chuẩn hóa mô hình phân phối của điểm ảnh trung tâm và các điểm ảnh xung quanh, để kiểm tra các điều kiện xác suất của quá trình phân phối nhằm phân lớp chúng. Cũng thực hiện tương tự như LBP, nhưng NILBP dựa vào độ quay bất biến để xác định giá trị ngưỡng đạt được với thuật toán 2.8 và công thức điều kiện 2.9: 1 , , 0 ( )2 p n p r r n n NI LBP s x (2.8) 1, 0 0, 0 ( ) x x s x (2.9) Trong đó 1 , 0 1 2 p r n n x
, µ là giá trị trung bình của các điểm ảnh xung quanh. 2.2.6 Đặc trưng mẫu nhị phân tăng cường
Mẫu nhị phân tăng cường (EN_LBP) [86] được Kra'l và đồng sự đề xuất năm 2017 nhằm mở rộng mẫu nhị phân ban đầu bằng cách tập hợp các vị trí điểm ảnh thay vì sử dụng các điểm ảnh đơn, đồng thời cũng xem xét kích cỡ của vị trí điểm ảnh trung tâm.
31
Hình 2.20: Biểu đồ thể hiện thủ tục EN_LBP. Qua đó bài toán có thể giải quyết 3 vấn đề mà LBP chưa làm được như:
LBP hỗ trợ không gian nhỏ, do đó không phát hiện được các cấu trúc không gian lớn.
Nó làm mất các thông tin cục bộ, vì chỉ xét sự khác biệt của các điểm lân cận.
Nhạy cảm với tiếng ồn, bởi vì sự thay đổi nhỏ đối với giá trị ở trên hoặc dưới của điểm ảnh trung tâm được xem xét là tương đương với sự tương phản lớn giữa điểm ảnh trung tâm so với giá trị xung quanh nó.
Ở đây, nhóm tác giả thực hiện giải quyết bài toán bằng cách đặt gi là tập hợp từ các pixel lân cận với Ci là trung tâm, gc là tập hợp các pixel trung tâm với Cc là trung tâm và r là bán kính giữa Ci và Cc. Lần lượt tính giá trị từng tập hợp và lấy giá trị trung bình từng tập hợp gán cho từng pixel mới như sau:
' ( ) i i g mean g (2.10) và ' ( ) c c g mean g (2.11)
Vector tính năng của EN_LBP sau đó được tính giống như cách tính của LBP ban đầu được giới thiệu ở mục 2.2.1. Trong thuật toàn này chỉ sử dụng tính giá trị tập hợp theo hình vuông 2 x 2 pixel, tức là lấy 4 điểm để chuyển về 1 điểm và cuối cùng đưa về được kích thước 3 x 3 pixel như LBP ban đầu.
32
Đặt x 4,9 là cường độ đại diện cho tập các pixel lân cận, y 4,9 là cường độ đại diện cho các pixel trung tâm, r là khoảng cách giữa Ci và Cc. Tính giá trị LBP cho tất cả các điểm ảnh trên khuôn mặt. Các hình ảnh sau đó được chia thành một tập hợp các ô vuông nằm trên cùng một ma trận. Các vector được tính cho mỗi ô, mỗi ô sau đó được đại diện bởi một vector đặc trưng có kích thước 256. Biểu đồ thể hiện thủ tục của thuật toán đề xuất EN_LBP, hình 2.20.
2.3 Kết luận
Các thuật toán được đề xuất của các hướng đặc trưng trong các nghiên cứu liên quan đã đạt được các kết quả khả quan, nhưng vẫn còn những hạn chế về sự loại bỏ nhiễu và độ đo chính xác (%) đạt được chưa cao và không ổn định khi cho thống kê với từng kích thước đặc trưng khác nhau theo từng trường hợp khác nhau. Điều đó thể hiện rõ trong các bảng kết quả thống kê của phần thực nghiệm Chương 4. Trong phần thực nghiệm Chương 4 cho thấy, kết quả đạt được của thuật toán RLBP đề xuất trong nghiên cứu này với các thuật toán của các nghiên cứu liên quan. Trong luận văn này áp dụng hướng tiếp cận mẫu nhị phân cho quá trình nghiên cứu nhận dạng khuôn mặt.
33
CHƯƠNG 3. PHƯƠNG PHÁP RÚT TRÍCH ĐẶC TRƯNG ĐỀ
XUẤT
34
Hình 3.1: Minh họa ý tưởng thuật toán đề xuất. Mô tả ý tưởng: Hình 3.2: Biểu đồ thể hiện thủ tục. 1 , 0 ( )2 ( )2 P i P mean c mean i P R i LBP s g t s g t (3.1) 𝑠(𝑥) = {1, 𝑥 > 00, 𝑥 ≤ 0 (3.2) 1 0 1 ( ) 1 P mean i c i t g g P (3.3)
Thừa kế từ thuật toán ILBP [83] và EN_LBP [86], nghiên cứu này đề xuất thuật toán mẫu nhị phân bền vững (RLBP).
Bài toán này cũng được giải quyết bằng cách đặt gi là tập hợp từ các pixel lân cận với Ci là trung tâm, gc là tập hợp các pixel trung tâm với Cc là trung tâm và r là bán kính giữa Ci và Cc. Lần lượt tính giá trị từng tập hợp và lấy giá trị trung bình từng tập hợp gán cho từng pixel mới như công thức (3.4) và (3.5):
' ( ) i i g mean g (3.4) và ' ( ) c c g mean g (3.5)
35
Vector tính năng của RLBP sau đó cũng được tính giống như cách tính của LBP ban đầu được giới thiệu ở mục 2.2.1. Trong thuật toàn này chỉ sử dụng tính giá trị tập hợp theo hình vuông 2 x 2 pixel, tức là lấy 4 điểm để chuyển về1 điểm và cuối cùng đưa về được kích thước 3 x 3 pixel và 5 x 5 pixel như LBP ban đầu.
Đặt x 4,9 là cường độ đại diện cho tập các pixel lân cận, y 4,9 là cường độ đại diện cho các pixel trung tâm, r là khoảng cách giữa Ci và Cc. Tính giá trị LBP cho tất cả các điểm ảnh trên khuôn mặt. Các hình ảnh sau đó được chia thành một tập hợp các ô vuông nằm trên cùng một ma trận. Các vector được tính cho mỗi ô, mỗi ô sau đó được đại diện bởi một vector đặc trưng có kích thước 256. Biểu đồ thể hiện thủ tục của thuật toán đề xuất EN_LBP, hình 3.2.
Sau khi có được ma trận các vector đặc trưng, lấy kích thước ngưỡng là 3 x 3 pixel, 5 x 5 pixel, giá trị pixel ban đầu của LBP8,1 nằm trong khoảng [0 , 255]. Tuy nhiên sau khi RLBP được áp dụng thì giá trị pixel lúc này ánh xạ trong khoảng [0 , 510], điều đó làm thay đổi cả về cấu trúc cũng như hình dạng ảnh. Ngoài ra, có thể sử dụng LBP4,1 để ánh xạ giá trị pixel trong khoảng [0 , 30]. Thuật toán áp dụng công thức (3.1), (3.2), (3.3).
Áp dụng sự cải tiến này, lần lượt xét từng giá trị các điểm xung quanh vòng tròn gi so với giá trị trung bình ( giá trị trung bình tmean là tổng 8 giá trị mức xám xung quanh gi cộng với giá trị mức xám trung tâm gc sau đó chia cho 9) và dựa vào s(x) xét điều kiện để đưa giá trị mức xám về dạng chuỗi bit 0, 1, đồng thời nhân với 2i ( i là giá trị nằm trong khoảng [0, 2P-1]. Ngoài ra thuật toán cũng xét thêm giá trị mức xám trung tâm gc so với giá trị trung bình tmean và dựa vào s(x) được xét như trên và nhân với 2P ( 28 = 256). Cuối cùng tính tổng kết quả hai công thức lại sẽ cho giá trị điểm ảnh mới.
Thuật toán đề xuất (Robust LBP)
Dựa trên ý tưởng trình bày thuật toán được thực hiện như sau: Đầu vào: Tập dữ liệu huấn luyện X = {x1, x2, …, xN).
Đầu ra: Tập vector đặc trưng mẫu nhị phân bền vững {RLBP1, .., RLBP N}.
36 kích thước ma trận nhị phân thu được.
Bước 2: Tính trung bình 4 điểm: - Cho for t = 1, 2,... D.
- Tiếp tục cho for u = 1, 2,.. U.
- Xác định điểm đầu và điểm cuối thứ t và u ( dòng và cột). - Tính trung bình và xác định điểm trung tâm x0.
- Cho for f = 1, 2,….F. với F = 8 hoặc 16.
- Tính trung bình từng điểm lân cận và xác định được các điểm lân cận.
- Sau đó tính trung bình tổng các giá trịđiểm ảnh thu được t_mean ( Áp dụng công thức (3.3)). Sau khi có được t_mean thì đến bước 3.
Bước 3: Dựa vào bước so sánh và điều kiện xét, ta được ma trận đặc trưng nhị phân. - So sánh giá trị điểm trung tâm với t_mean theo điều kiện ( Áp dụng công thức
(3.2)) và nhân với 2P.
- Tiếp theo so sánh từng giá trị lân cận với t_mean theo điều kiện (Áp dụng công thức (3.3)) và nhân với 2i. ( với i = P-1 là trọng số).
Bước 4: Áp dụng theo công thức (3.1).
- Ta có được giá trịvector đặc trưng nhị phân mới.
- Cuối cùng chuẩn hóa giá trị điểm ảnh nằm trong khoảng [ 0, 255]. Bước 5: Trả về mẫu ảnh đặc trưng nhị phân có tính bền vững.
3.2 Ví dụ minh họa
Ví dụ minh họa quá trình thực hiện giảm cường độ các giá trị pixel, giảm số dòng, số cột của ma trận. Áp dụng công thức (3.1), (3.2), (3.3), chuyển về ma trận chuỗi bit. Ví dụ có các giá trị điểm ảnh xám, lấy trung bình 4 giá trị điểm ảnh trung tâm và lấy giá trị trung bình 4 điểm lần lượt cho đến hết toàn bộ các giá trị điểm ảnh lân cận, sẽ trở về ma trận với kích thước 3 x 3 pixel. Sau đó áp dụng công thức lấy ngưỡng, trọng số và tính được giá trị đặc trưng nhị phân bền vững (RLBP).
37
Hình 3.3: Ví dụ RLBP.
3.3 Kết luận
Ưu điểm: Với thuật toán được đề xuất này, nhờ giảm cường độ điểm ảnh cho nên không bị ảnh hưởng bởi nhiễu, giảm đáng kể sự ảnh hưởng của ánh sáng. Điều đó giúp cho việc so khớp khuôn mặt đạt độ chính xác cao và ổn định đối với kích thước 3 x 3 pixel.
Nhược điểm: Đạt được kết quả độ đo chính xác cao đối với trường hợp xét vùng lân cận 3 x 3 pixel, nhưng đối với vùng lân cận lớn hơn chưa đạt được tối ưu tuyệt đối. Có thể làm phân rã vùng khuôn mặt, mặc dù cũng đạt được kết quả tốt nhưng không thật sự tuyệt đối trong nhiều trường hợp.
Pattern(gc) = 1. S(gc) = 256. Pattern(gi) = 11010101. S(gi) = 1 + 2 + 8 + 32 + 128 = 171. RLBP(gc, gi) = 256 + 171 = 427. Chuẩn hóa RLBP = (427/512)*256 = 214.
38
CHƯƠNG 4. KẾT QUẢ THỰC NGHIỆM
4.1 Môi trường và cơ sở dữ liệu thực nghiệm
Kết quả thực nghiệm được thực hiện trên bộ sơ sở dữ liệu công khai ORL và YaleB. Ngoài kết quả của thuật toán đề xuất, ở đây cũng thể hiện kết quả các thuật toán liên quan trong quá trình nghiên cứu ở chương 2, giúp chúng ta có cái nhìn tổng quan hơn về độ đo chính xác (%) thực hiện việc nhận dạng khuôn mặt. Thí nghiệm minh họa được thực hiện trên máy tính có bộ xử lý Intel® CoreTM i5-3210M CPU @ 2.50GHz (4 CPUs), Ram 4GB, sử dụng ngôn ngữ java trên phần mềm NetBeans IDE 8.2.
Dữ liệu hình ảnh khuôn mặt có nhiều biểu hiện hình thái khác nhau như chịu sự tác động của tư thế, góc chụp, ánh sáng, sự che khuất, biểu cảm…
4.2 Kết quả thực nghiệm trên cơ sở dữ liệu ORL
Cơ sở dữ liệu ORL [1] ( Olivetti Research Laboratory) là bộ dữ liệu chuẩn được công bố công khai bởi AT&T. Cơ sở dữ liệu ORL là một tập dữ liệu hình ảnh của 40 người gồm 400 ảnh, mỗi người có 10 ảnh đại diện khác nhau về thời điểm, biểu cảm khuôn mặt ( buồn, vui…), độ sáng và các chi tiết trên khuôn mặt như đeo kính hoặc không đeo kính. Cơ sở dữ liệu ORL được dùng để thử nghiệm với điều kiện thay đổi ( như tỉ lệ, độ sáng, góc chụp), ảnh mẫu có kích thước 100 x 100 pixel. Và 10 ảnh mẫu của một người trong cơ sở dữ liệu ORL được minh họa như hình 4.1.
39
Hình ảnh minh họa cơ sở dữ liệu ORL sẽđược sử dụng để kiểm chứng đặc trưng thông qua từng thuật toán của các tác giả trong quá trình nghiên cứu và thuật toán RLBP được đề xuất trong nghiên cứu này. Ởđây tôi sử dụng một ảnh mẫu được lấy ra từ 10 ảnh mẫu của cùng một người ở hình 4.1, kết quả hình ảnh đặc trưng khuôn mặt nhị phân tương ứng với từng thuật toán được minh họa trong hình 4.2.
Hình 4.2: Minh họa hình ảnhđặc trưng khuôn mặt với các thuật toán liên quan và thuật toán đề xuất RLBP trên cơ sở dữ liệu ORL.
Trong hình 4.2, Thuật toán LBP được sử dụng rút trích đặc trưng với LBP8,1 ( kích thước ma trận 3 x 3 pixel với 8 điểm lân cận), đồng thời cũng xem xét mở rộng thêm lân cận LBP16,1 ( kích thước ma trận 5 x 5 pixel với 16 điểm lân cận và các thuật toán khác cũng được thực hiện rút trích đặc trưng tương tự. Bên cạnh đó với nghiên cứu này, thuật toán RLBP được đề xuất cũng thực hiện xem xét tương tự với các kích thước 3 x 3 pixel lân cận RLBP8,1 và kích thước 5 x 5 pixel lân cận RLBP16,1. Với sự tương quan như thế giúp cho chúng ta có cái nhìn trực quan trong phương pháp rút trích đặc trưng giữa các
40
thuật toán LBP liên quan và thuật toán RLBP được đề xuất bằng hình ảnh với các lân cận 8 bit, 16 bit. Khi đó với kết quả rút trích đặc trưng thu được bằng hình ảnh, chúng ta có thể thấy thuật toán cải tiến được đề xuất trong nghiên cứu này đã loại bỏđược sự ảnh hưởng của ánh sáng, giảm đáng kể sự tác động của nhiễu và thể hiện rõ nét các đặc trưng của khuôn mặt như đường viền, mắt, mũi, miệng, cằm…, từ những đặc điểm đó đã cho thấy sự biểu hiện đặc trưng khá tương đồng với ảnh mẫu ban đầu được xét.
Để kiểm chứng kết quả đạt được từ hình ảnh rút trích đặc trưng. Trong thực nghiệm trên cơ sở dữ liệu ORL, mỗi người có 10 ảnh mẫu, chúng tôi chọn ra 5 ảnh của mỗi người làm tập huấn luyện, 5 ảnh còn lại dùng để kiểm tra. Tiếp theo thống kê tìm xác suất giống và khác nhau giữa các ảnh trong quá trình huấn luyện với nhiều kích thước có giá trị đặc trưng khác nhau, tương tự khoảng cách cũng có nhiều giá trị khác nhau nhằm có tỉ lệ tương đồng trong quá trình thống kê để cho ra độ đo chính xác (%) cao nhất của từng thuật toán.
Dưới đây là kết quả thống kê được xét. Ảnh khuôn mặt được chia ra với kích thước 10 x 10 ( sẽ có 100 pixel với 100 vùng điểm ảnh xám), tiếp đó phân đoạn từng vùng điểm ảnh xám với nhiều kích thước đặc trưng khác nhau ( 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 đoạn), tương ứng với từng phân đoạn như thế sẽ có các vector đặc trưng ( 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000) và được xét thống kê với 2 trường hợp:
4.2.1 Thống kê vét lân cận cạn
4.2.1.1 Thống kê lân cận 8
Thống kê lân cận 8, ta xét kích thước 3 x 3 pixel với 8 giá trị điểm ảnh xung quanh giá trị điểm ảnh trung tâm như LBP8,1. Sau đây là kết quả độ đo chính xác theo tỉ lệ % đạt được của thuật toán RLBP được đề xuất so với các thuật toán khác được xét với nhiều kích thước đặc trưng phân đoạn khác nhau, như bảng 4.1.
41
Bảng 4.1: Liệt kê độchính xác đạt được của thuật toán RLBP8,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL.
Và biểu đồ so sánh kết quảđạt được sau khi thống kê lân cận 8, như hình 4.3.
Hình 4.3: Biểu đồ so sánh Thuật toán RLBP8,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu ORL.
4.2.1.2 Thống kê lân cận 16
Đối với thống kê lân cận 16 không xét lân cận trong ( Lân cận trong là lân cận 8). Ví dụ, Thống kê LBP16,1 không tính LBP8,1 trong trường hợp này. Kết quả độ đo chính xác phần trăm (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL, được xét với nhiều kích thước đặc trưng phân đoạn khác nhau, như bảng 4.2.
42
Bảng 4.2: Liệt kê độ đo chính xác (%)đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL.
Và biểu đồ so sánh kết quảđạt được sau khi thống kê lân cận 16, như hình 4.4.
Hình 4.4: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ