Đặc trưng mẫu nhị phân cục bộ

Mẫu nhị phân cục bộ ( Local Binary Pattern viết tắt là LBP) được Ojala [81] trình bày vào năm 1996 như là một đơn vị đo độ tương phản cục bộ của ảnh. Phiên bản đầu tiên của LBP được dùng với 8 điểm xung quanh và sử dụng giá trị của điểm ảnh trung tâm làm ngưỡng. Giá trị LBP được tính bằng cách nhân các giá trịngưỡng với trọng sốứng với mỗi điểm ảnh sau đó cộng tổng lại với nhau.

Kể từ khi được đưa ra, theo định nghĩa là bất biến với những thay đổi đơn điệu trong ảnh trắng đen. Để cải tiến phương pháp, bổ sung thêm phương pháp tương phản trực giao cục bộ. Hình ảnh dưới đây sẽ minh họa cách tính độ tương phản trực giao (C) là ký hiệu cấp độ xám trung bình của các điểm ảnh lớn hơn hoặc bằng ngưỡng với các điểm ảnh thấp hơn ngưỡng. Phân phối hai chiều của mẫu LBP và độ tương phản cục bộ được lấy làm đặc trưng gọi là LBP/C, hình 2.14.

Hình 2.14: Ví dụ LBP và độ tương phản cục bộ C.

Nguồn gốc:

Dãy LBP được Ojala [82] trình bày vào năm 2002. Định nghĩa một cấu trúc điểm ảnh T là một phân phối đại số của cấp độ xám của P +1 (P > 0) điểm ảnh.

Với gc ứng với cấp độ xám của điểm ảnh trung tâm Ptt , gp (p = 0,…,1) tương ứng với P điểm ảnh xung quanh, P điểm ảnh này nằm trên đường tròn bán kính R và tâm là Ptt, xem hình 2.15.

Hình 2.15: Tập hợp các điểm xung quang Ptt. Không mất thông tin, có thể trừ gp đi một lượng là gc

T = t(gc,g0 - gc ,…,gp - gc)

Giả sử sự sai số giữa gp và gc là độc lập với gc, ta có thể nhân tử hóa gc như sau: T = t(gc)t(g0- gc,…,gp-1- gc)

t(gc) biểu thị xu hướng độ sáng tối của cả bức ảnh nên khô liên quan đến kết cấu của ảnh cục bộ do đó có thể bỏ qua

T~t((g0 - gc),…,(gp-1 - gc))

Mặc dù tính bất biến ngược với độ thay đổi tỷ lệ xám của điểm ảnh, sự khác biệt ảnh hưởng bởi tỷ lệ. Để thu được đặc điểm bất biến với bất kỳ một sự thay đổi nào của ảnh đen trắng (gray scale) chỉ quan tâm đến dấu của độ lệch:

T~t(s(g0 - gc),…,s(gp-1 - gc)) Với s là hàm dấu, công thức điều kiện (2.1):

1, 0 0, 0 ( ) x x s x     (2.1)

Trọng số 2p được dùng cho các hàm dấu, s(gp - gc) để chuyển sự khác biệt giữa các điểm ảnh bên cạnh về một giá trị duy nhất, công thức (2.2).

1 , 0 ( )2 p p p c P R p LBP s g g     (2.2) P=8, R=1.0 P=12, R=2.5 P=16, R=4.0

Với P pixel thì có 2p giá trị LBPP,R trong khoảng [0, 2p-1] nhưng đểđơn giản ta có thể chọn một số giá trị trong 2p giá trị ký hiệu là 2

u P R

LBP

Thuật toán LBP:

Thông tin LBP của pixel tại trung tâm của mỗi khối ảnh sẽ được tính dựa trên thông tin của các pixel lận cận. Có thể tóm tắt các bước tiến hành như sau:

Bước 1: Xác định bán kính làm việc.

Bước 2: Tính giá trị LBP cho pixel ở trung tâm (xc, yc) khối ảnh dựa trên thông tin của các pixel lân cận:

Trong đó, (gp) là giá trị grayscale của các pixel lân cận, (gc) là giá trị grayscale của các trung tâm và (s) là hàm nhị phân được xác định như sau: s(z) = 1 nếu giá trị z ≥0, như hình 2.16.

Ví dụ:

1*20 + 1*21 + 1*22 + 1*23 + 0*24 + 0*25 + 0*26 + 0*27 = 15 Hình 2.16: Các biến thể của LBP.

Một mẫu nhị phân được gọi là đồng dạng khi xét chuỗi bit xoay vòng thì có nhiều nhất là 2 lần thay đổi (transitions) từ giá trị bit 0 sang 1 hoặc từ giá trị bit 1 sang 0. Ví dụ: 00000000 có 0 transitions, 01110000 có 2 transitions, 11001111 có 2 transitions nên đây là uniform LBP. 11001001 có 4 transitions, 01010011 có 6 transitions nên không phải là uniform LBP.

Dựa trên định nghĩa này, bảng ánh xạ cho bán kính làm việc P -neighbours sẽ có P(P- 1) + 3 nhãn. Có nghĩa là có 59 nhãn trong trường hợp làm việc với 8-neighbour. Hình

vẽ sau đây thể hiện 59 nhãn (mẫu) và minh họa về histogram của đặc trưng LBP

đồng dạng, hình 2.17.

Hình 2.17: Bảng thống kê các mẫu của uniform LBP.

Ưu điểm:Thuật toán rút trích đặc trưng LBP cài đặt đơn giản, thời gian tính toán giá trị đặc trưng nhanh vì nó làm việc với giá trị nguyên.

Nhược điểm:Xử lý nhiễu, phương sai không tốt, bị ảnh hưởng bởi điều kiện ánh sáng. Vì vậy cho độ chính xác không cao.

Ứng dụng:Được ứng dụng trong bài toán nhận dạng mặt người. 2.2.2 Đặc trưng mẫu nhị phân bất biến

VAR-LBP [82] là phương pháp không bị phụ thuộc bởi bất kỳ sự chuyển đổi đơn điệu nào của màu xám. Nó được xem là thước đo tuyệt vời của không gian mẫu và loại bỏ sự tương phản tốt. Sự bất biến của màu xám là không bắt buộc. Do đó năm 2002, T.Ojala và các đồng sự muốn kết hợp với độ tương phản của kết cấu hình ảnh cục bộ nhằm tạo ra thước đo bất biến của các phương sai trong không gian cục bộ. Từ đó nhóm tác giả đề xuất thuật toán VAR-LBP [82] nhằm làm rõ sự bất biến tỉ lệ màu xám khi thay đổi như công thức (2.3):

28 1 1 2 , 0 0 1 1 ( ) , P P P R P P P P VAR LBP g g P    P          (2.3) 2.2.3 Đặc trưng mẫu nhị phân cải tiến

Jin và các đồng sự năm 2004 đã đề xuất phương pháp cải tiến mẫu nhị phân cục bộ (ILBP) [83] để nhận dạng khuôn mặt thông qua các biểu hiện của đặc điểm khuôn mặt. Tính năng của ILBP nhằm cải tiến tính năng LBP để xem xét cả về hình dạng địa hình, thông tin kết cấu thay vì thông tin về độ phân giải và sự thay đổi của ánh sáng.

ILBP lấy kích thước ngưỡng là 3 x 3 pixel, giá trị pixel ban đầu của LBP8,1 nằm trong khoảng [0 , 255]. Tuy nhiên sau khi ILBP được áp dụng thì giá trị pixel lúc này ánh xạ trong khoảng [0 , 510], điều đó làm thay đổi cả về cấu trúc cũng như hình dạng ảnh. Ngoài ra, có thể sử dụng LBP4,1 để ánh xạ giá trị pixel trong khoảng [0 , 30]. Thuật toán ILBP sẽ cho ta thấy điểm cải tiến thực tế hơn ở công thức (2.4), (2.5), (2.6):

1 , 0 ( )2 ( )2 P i P mean c mean i P R i ILBP s g t s g t       (2.4) 𝑠(𝑥) = {1, 𝑥 > 00, 𝑥 ≤ 0 (2.5) 1 0 1 ( ) 1 P mean i c i t g g P               (2.6)

Với sự cải tiến này, Jin và đồng sự xét giá trị các điểm xung quanh vòng tròn gi so với giá trị trung bình ( mà giá trị trung bình tmean là lấy tổng 8 giá trị mức xám xung quanh gi cộng với giá trị mức xám trung tâm gc sau đó chia cho 9) và dựa vào s(x) để xét điều kiện để đưa giá trị mức xám về dạng chuỗi bit 0, 1, đồng thời nhân với 2i ( i là giá trị nằm trong khoảng [0, 2P-1]. Ngoài ra thuật toán cũng xét thêm giá trị mức xám trung tâm gc so với giá trị trung bình tmean và dựa vào s(x) được xét như trên và nhân với 2P ( 28 = 256). Cuối cùng tính tổng kết quả hai công thức lại sẽ cho giá trị điểm ảnh mới.

Hình 2.18: Thể hiện trọng số của ILBP8,1 và ILBP4,1

Thuật toán ILBP rút trích các nét đặc trưng để phát hiện khuôn mặt thay vì sử dụng các tính năng mức xám thô. Ngoài ra, các đặc tính của ILBP không bị ảnh hưởng bởi ánh sáng, vì vậy không cần phải cân bằng ánh sáng để loại bỏ sự ảnh hưởng.

2.2.4 Đặc trưng mẫu tam phân cục bộ

Năm 2007, Tan và đồng sự đã đề xuất thuật toán mẫu nhị phân với bộ tam phân có 3 giá trị ( Local Ternary Patterns viết tắt là LTP) [84] dựa trên nền tảng thuật toán LBP, nhằm phân đoạn ảnh xám vùng khuôn mặt làm 3 đoạn riêng biệt, trong đó sau vùng mức xám được lấy ngưỡng sẽ được phân đoạn với +t là ngưỡng đoạn trên, -t là ngưỡng đoạn dưới và ngưỡng trung tâm ic, cứ như thế lập lại cho đến hết toàn bộ giá trị ảnh mức xám. Chỉ số s(u) được thay thế với 3 giá trị 1, 0, -1, hàm phân đoạn có điều kiện như công thức (2.7): 1, '( , , ) 0, | | 1, c c c c u i t s u i t u i t u i t              (2.7)

dưới đây, t là ngưỡng mà người dùng tựxác định ( vì vậy LTP lọc nhiễu tốt hơn, nhưng không còn bất biến để mức xám biến đổi). Giá trị lấy ngưỡng nhị phân được tính theo điều kiện phân đoạn như sau: ở phân đoạn trên nếu u ≥ ic + t ( giá trị điểm ảnh lân cận lớn hơn hoặc bằng giá trị điểm ảnh trung tâm cộng với giá trị ngưỡng t) là 1, ở phân đoạn giữa nếu |u – ic|< t ( giá trị điểm ảnh trung tâm – giá trị điểm ảnh trung tâm nhỏ hơn ngưỡng t) là 0 và phân đoạn dưới nếu u ≤ ic – t ( giá trị điểm ảnh lân cận nhỏ hơn giá trị

điểm ảnh trung tâm – ngưỡng t) là -1. Ví dụ sau thể hiện rõ hơn về thuật toán LTP và ngưỡng t được thiết lập là 5, hình 2.19.

Hình 2.19: Ví dụ minh họa LTP cơ bản

LTP bao gồm các bước tiền xử lý, lấy ngưỡng, biểu đồ cục bộ hoặc giảm kích thước và được kiểm tra cho việc nhận dạng khuôn mặt.

2.2.5 Đặc trưng mẫu nhị phân cục bộ chuẩn hóa

Mẫu nhị phân cục bộ chuẩn hóa (NILBP) [85] được đề xuất bởi Liu và các đồng sự năm 2012. Phương pháp này chuẩn hóa mô hình phân phối của điểm ảnh trung tâm và các điểm ảnh xung quanh, để kiểm tra các điều kiện xác suất của quá trình phân phối nhằm phân lớp chúng. Cũng thực hiện tương tự như LBP, nhưng NILBP dựa vào độ quay bất biến để xác định giá trị ngưỡng đạt được với thuật toán 2.8 và công thức điều kiện 2.9: 1 , , 0 ( )2 p n p r r n n NI LBP  s x       (2.8) 1, 0 0, 0 ( ) x x s x   (2.9) Trong đó 1 , 0 1 2 p r n n x   

  , µ là giá trị trung bình của các điểm ảnh xung quanh. 2.2.6 Đặc trưng mẫu nhị phân tăng cường

Mẫu nhị phân tăng cường (EN_LBP) [86] được Kra'l và đồng sự đề xuất năm 2017 nhằm mở rộng mẫu nhị phân ban đầu bằng cách tập hợp các vị trí điểm ảnh thay vì sử dụng các điểm ảnh đơn, đồng thời cũng xem xét kích cỡ của vị trí điểm ảnh trung tâm.

Hình 2.20: Biểu đồ thể hiện thủ tục EN_LBP. Qua đó bài toán có thể giải quyết 3 vấn đề mà LBP chưa làm được như:

 LBP hỗ trợ không gian nhỏ, do đó không phát hiện được các cấu trúc không gian lớn.

 Nó làm mất các thông tin cục bộ, vì chỉ xét sự khác biệt của các điểm lân cận.

 Nhạy cảm với tiếng ồn, bởi vì sự thay đổi nhỏ đối với giá trị ở trên hoặc dưới của điểm ảnh trung tâm được xem xét là tương đương với sự tương phản lớn giữa điểm ảnh trung tâm so với giá trị xung quanh nó.

Ở đây, nhóm tác giả thực hiện giải quyết bài toán bằng cách đặt gi là tập hợp từ các pixel lân cận với Ci là trung tâm, gc là tập hợp các pixel trung tâm với Cc là trung tâm và r là bán kính giữa Ci và Cc. Lần lượt tính giá trị từng tập hợp và lấy giá trị trung bình từng tập hợp gán cho từng pixel mới như sau:

' ( ) i i g mean g (2.10) và ' ( ) c c g mean g (2.11)

Vector tính năng của EN_LBP sau đó được tính giống như cách tính của LBP ban đầu được giới thiệu ở mục 2.2.1. Trong thuật toàn này chỉ sử dụng tính giá trị tập hợp theo hình vuông 2 x 2 pixel, tức là lấy 4 điểm để chuyển về 1 điểm và cuối cùng đưa về được kích thước 3 x 3 pixel như LBP ban đầu.

Đặt x 4,9 là cường độ đại diện cho tập các pixel lân cận, y 4,9 là cường độ đại diện cho các pixel trung tâm, r là khoảng cách giữa Ci và Cc. Tính giá trị LBP cho tất cả các điểm ảnh trên khuôn mặt. Các hình ảnh sau đó được chia thành một tập hợp các ô vuông nằm trên cùng một ma trận. Các vector được tính cho mỗi ô, mỗi ô sau đó được đại diện bởi một vector đặc trưng có kích thước 256. Biểu đồ thể hiện thủ tục của thuật toán đề xuất EN_LBP, hình 2.20.

2.3 Kết luận

Các thuật toán được đề xuất của các hướng đặc trưng trong các nghiên cứu liên quan đã đạt được các kết quả khả quan, nhưng vẫn còn những hạn chế về sự loại bỏ nhiễu và độ đo chính xác (%) đạt được chưa cao và không ổn định khi cho thống kê với từng kích thước đặc trưng khác nhau theo từng trường hợp khác nhau. Điều đó thể hiện rõ trong các bảng kết quả thống kê của phần thực nghiệm Chương 4. Trong phần thực nghiệm Chương 4 cho thấy, kết quả đạt được của thuật toán RLBP đề xuất trong nghiên cứu này với các thuật toán của các nghiên cứu liên quan. Trong luận văn này áp dụng hướng tiếp cận mẫu nhị phân cho quá trình nghiên cứu nhận dạng khuôn mặt.

CHƯƠNG 3. PHƯƠNG PHÁP RÚT TRÍCH ĐẶC TRƯNG ĐỀ

XUẤT

Hình 3.1: Minh họa ý tưởng thuật toán đề xuất. Mô tả ý tưởng: Hình 3.2: Biểu đồ thể hiện thủ tục. 1 , 0 ( )2 ( )2 P i P mean c mean i P R i LBP s g t s g t       (3.1) 𝑠(𝑥) = {1, 𝑥 > 00, 𝑥 ≤ 0 (3.2) 1 0 1 ( ) 1 P mean i c i t g g P               (3.3)

Thừa kế từ thuật toán ILBP [83] và EN_LBP [86], nghiên cứu này đề xuất thuật toán mẫu nhị phân bền vững (RLBP).

Bài toán này cũng được giải quyết bằng cách đặt gi là tập hợp từ các pixel lân cận với Ci là trung tâm, gc là tập hợp các pixel trung tâm với Cc là trung tâm và r là bán kính giữa Ci và Cc. Lần lượt tính giá trị từng tập hợp và lấy giá trị trung bình từng tập hợp gán cho từng pixel mới như công thức (3.4) và (3.5):

' ( ) i i g mean g (3.4) và ' ( ) c c g mean g (3.5)

Vector tính năng của RLBP sau đó cũng được tính giống như cách tính của LBP ban đầu được giới thiệu ở mục 2.2.1. Trong thuật toàn này chỉ sử dụng tính giá trị tập hợp theo hình vuông 2 x 2 pixel, tức là lấy 4 điểm để chuyển về1 điểm và cuối cùng đưa về được kích thước 3 x 3 pixel và 5 x 5 pixel như LBP ban đầu.

Sau khi có được ma trận các vector đặc trưng, lấy kích thước ngưỡng là 3 x 3 pixel, 5 x 5 pixel, giá trị pixel ban đầu của LBP8,1 nằm trong khoảng [0 , 255]. Tuy nhiên sau khi RLBP được áp dụng thì giá trị pixel lúc này ánh xạ trong khoảng [0 , 510], điều đó làm thay đổi cả về cấu trúc cũng như hình dạng ảnh. Ngoài ra, có thể sử dụng LBP4,1 để ánh xạ giá trị pixel trong khoảng [0 , 30]. Thuật toán áp dụng công thức (3.1), (3.2), (3.3).

Áp dụng sự cải tiến này, lần lượt xét từng giá trị các điểm xung quanh vòng tròn gi so với giá trị trung bình ( giá trị trung bình tmean là tổng 8 giá trị mức xám xung quanh gi cộng với giá trị mức xám trung tâm gc sau đó chia cho 9) và dựa vào s(x) xét điều kiện để đưa giá trị mức xám về dạng chuỗi bit 0, 1, đồng thời nhân với 2i ( i là giá trị nằm

Thống kê vét lân cận cạn

Thống kê lân cận cạn