Nghiên cứu một số phương pháp phát hiện các đặc trưng của khuôn mặt người

Nó được tạo lên từ một số lượng lớn các phan tu goi la phan tử xử lý hay nơ-ron kết nối với nhau thông qua các liên kết gọi là trọng số liên kết làm việc như một thể thống nhất đề giải q

Trang 1

BO GIAO DUC VA DAO TAO

ĐẠI HỌC HUẾ

TRƯƠNG ĐẠI HỌC KHOA HỌC

PHAM TUAN

NGHIEN CUU MOT SO PHUONG PHAP

PHAT HIEN CAC DAC TRUNG

CUA KHUON MAT NGUOI

CHUYEN NGANH: KHOA HOC MAY TINH

MA SO: 60.48.01.01

LUAN VAN THAC SI KHOA HOC ĐỊNH HƯỚNG ỨNG DỤNG

NGƯỜI HUONG DAN KHOA HOC

TS NGUYEN DANG BINH

Thừa Thiên Huế, 2018

Trang 2

PHAN MO DAU

1 LY DO CHON DE TAI

Cùng với sự bùng nổ thông tin, sự phát triển công nghệ cao, sự giao tiếp giữa con người và máy tính đang thay đôi rất nhanh, giờ đây giao tiếp này không còn đơn thuần đùng những thiết bị như chuột, bàn phím, v.v, mà có thê thông qua các biểu hiện của khuôn mặt Các hệ thống giao tiếp người máy đang được phát triển rất nhiều Trong số đó, có thể nói đến hệ thống nhận dạng mặt người bằng hình ảnh

Nhận dạng mặt người là xác định danh tính tự động cho từng ảnh đối tượng người dựa vào nội dung của ảnh Nhận dạng mặt người được ứng dụng nhiều trong thực tế như xác minh tội phạm, camera chống trộm, hệ thống chấm công, lưu trữ thông tin khuôn mặt ở các máy ATM, các bãi giữ xe siêu thị, v.v

Bên cạnh đó, trong công tác quản lý học sinh, sinh viên tại trường liên quan

tới con người, việc nhận dạng người thông qua các đặc điểm trên khuôn mặt là rất

quan trọng Nếu áp dụng được công nghệ nhận dạng mặt người đề hỗ trợ trong công tác thi học kỳ thì sẽ làm tăng cao tính tiện đụng của hệ thống quản lý

Hiện tượng gian lận trong Giáo dục nói chung và hiện tượng gian lận trong

học hộ, thị hộ nói riêng là vấn dé nan giải và được bản cãi nhiều đặc biệt là trước —

trong và sau mỗi kỳ thi

Trong các trường Đại học, Cao đẳng, Trung Cấp Nghề, Trung học chuyên

nghiệp mục đích của việc học hộ là tránh để mat 30% điểm học phan theo quy ché 25 của Bộ Giáo duc Việc học hộ thường xảy ra ở các lớp Liên thông, Tại chức học

vào ca tối, các lớp có tình trạng lớp đông, giáo viên mới

Đối với hiện tượng thi hộ, việc kiểm tra và đối chiếu học sinh - sinh viên vào

dự thi mất rất nhiều thời gian, đôi khi vẫn bỏ qua được đối tượng thi hộ như trường

hợp anh em thi hộ, hiện tượng tráo anh trong thẻ dự thị, hiện tượng quên thẻ sinh

viên

Tại Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang, cũng

phát hiện nhiều trường hợp thi hộ, học hộ đặc biệt là tại các lớp học tại chức, liên

Trang 3

LOI CAM ON

Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc đến Tiến sĩ Nguyễn Đăng

Bình — người hướng dân khoa học, đã tận tâm, nhiệt tình hướng dân cho tôi trong suốt quá trình thực hiện luận văn này

Xin goi loi cam on đến Ban lãnh đạo Tì rường Đại học Khoa học Huế, Khoa

Công nghệ thông tin, Phòng sau Đại học, tất cả những quỷ thấy, cô đã trực tiếp giảng dạy trong suốt khóa học đề cho tôi có đủ kiến thức, kinh nghiệm và phương pháp nghiên cứu

Xin được cảm ơn Ban Giám hiệu Trường Trung Cấp Nghề Kinh Tế - Kỹ Thuật

Cơng đồn An Giang và các ban đồng nghiệp đã tạo mọi điều kiện thuận lợi cho tôi

trong suốt quá trình học tập,nghiên cứu đề hoàn thành luận văn này

Ciing xin chân thành cảm ơn sự quan tâm hỗ trợ, tạo điễu kiện và hết lòng động

viên về tỉnh thần lần vật chất của các thành viên trong gia đình trong suốt thời gian qua

Trang 4

MUC LUC 09)09.9 69.0087 H I 00099019) 00057 G ,,Ô II hïI090992257 .),H,.,., m DANH /MỤG CÁG BẰNG otecguuthdtittrdtidtiittittiistHSISHHSIEHHSIEHHSIEHHSISEEHSI VI

DANH MỤC CÁC HÌNH VẼ 5-55 5+ 2t 2x vEExEEEEEErrrirrrrrerrke VII DANH MUC CAC TU VIET TAT u.ecccccscsssssssssssscssecssscssscssecsssccssccscssecenecesecesscese IX PHAN MO DAU Qoccssccsssssssssssessscssscssscssscssscssscssscssscssscsssccssesssccsscsssccssessscssscsseceseeesseeseees 1 CHUONG 1 TONG QUAN VE NHAN DANG MAT NGUOI VA XU LY ANH6

1.1 GIỚI THIỆU TÔNG QUAN VẺ NHẬN DẠNG 222 22222222222222222-e2 6

1.1.1 Khái niệm . - 52 222222221221112111211121112111211122121121212122 are 6 1.1.2 Công nghệ nhận dạng ảnh (nhận dạng mẫu L0 0211 1n 1H11 Hà nà Ha 6 1.2 TỎNG QUAN VẺ XỬ LÝ ẢNH SỐ 1 5222 2221212 tra 7 1.2.1 Các quá trình xử lý ảnh - :cccSc 212 nn nhà He 8 1.2.2 Phạm vi tng dung của xử lý ảnh se 10 1.3 GIGI THIEU BAI TOAN NHAN DANG KHUON MAT NGUOI VA UNG

DUNG CUA DE TAI VAO CO SO THUC TIEN "` 10

1.3.1 Giới thiệu bài toán nhận dạng khuôn mặt người 10

1.3.2 Ung dung ctia dé tai vao co sé thre thé occ eee well

1.4 CAC YEU TO LAM ANH HUONG TOI KET QUA NHAN DANG 11

1.5 TIEU KET CHUONG 1 oe.ocicieecccssceeeeeesssseseeeeesssssesnnetssessseseens 12

CHƯƠNG 2 CÁC PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẠẶT .13

2.1 PHƯƠNG PHÁP EIGENFACES 2-2222 222222212222122112211 211 2E ctxe 13

2.1.1 Giới thiệu về Eigenface 52 22 2222111211121121121121121 re 13

2:1z2› nh ETIPGDG sec niei50ESRSIREBBIEESEBBIEEIGERICSEGDNBEEISDRINEEEDRIREEEGĐISSlEBĐ 14

2.1.3 Sử dụng khuôn mặt đặc trưng để phân loại hình ảnh khuôn mặt 17

2.1.4 Tóm tắt kết luận phương pháp nhận dạng bằng Eigenface 21 2.2 PHƯƠNG PHÁP MẠNG NƠRON -. 2222222 2221222212211 221 22c 23 2:2:1: Định Nghia: ;aosstrisotsiitsortotissoiBiiitggtiitGREHEERORSHSVRGRIHIXESRIStRGiaBNtiRoSznoi 23

Trang 5

2.2.2 Ưu điểm và khuyết điểm 22-222 222211121112112112112221 2e 24

2.2.3 Nơ-ron sinh học và nơ-ron nhân †ạO - c2 1222111252111 12x kez 24 2.2.4 Các loại hàm kích hoạt L c2 1 22211112211 111221111221 11 1211111121112 21x e2 27 2.2.5 Huấn luyện mạng nơ-ron nhân †ạO it St reerre 28

2.2.6 Mạng nơ-ron tích chập sâu .- St 1S nhàng he 28

2.3 MÔ HÌNH MARKOV ẨẦN 5 22222 2t rrrae 35

2:3;:1: GIỚI thiỆU:sszixozzssessbeseditisgtiig 0200337 80TĐ83 g8GHdgDhGA03 QIG.RB8ÿ.D4-HlG1i G8 88dSiicsa 35

2.3.2 Nhận dạng khuôn mặt bằng mô hình Markov ẩn -.cccs 22s cse2 36

2.3.3 Ưu điểm và hạn chế - 2 s23 11 211115111121111211112111121111 2111121 11x etreey 42 2.4 PHUONG PHAP SUPPORT VECTOR MACHINE (8VM! - 43

2.4.1 Sơ lượt lý thuryét SVM o.oo cece csesesesesesesereteretereteretereteretaretesesereseses 43

2.4.2 SVM da lO pieces ncnnecennmneneeeananes 46

2.4.3 Chiến lược một chống một (OVO: One — versus — One) .- 46 2.4.4 Chiến lược một chống phan con lai (OVR: One — versus — Rest) 47 2.4.5 Nhận dạng mặt nguoi VO1 SVM 0.0 ec ceceeeececeeeeeeeceeseneeeesenseneeterentenes 47

2.4.6 Ưu điểm và hạn ché ccccccccccscssssssssessesesvesesessesveveevevesvesesuesestssesesstsveseavevess 50

2.5 PHƯƠNG PHÁP NHẬN DANG MẶT NGƯỜI SỬ DỤNG THƯ VIỆN

OPENFACE VÀ DLIB 52522 22222212221221121122121121121212212222 re 51

2.5.1 Giới thiệu về thu vién OpenFace o.oo cece cece eseeseeseeseeseteseeseeeeeeeees 51

2.5.2 Phương pháp nhận dạng mặt người cla OpenFace uu eee eee 51 2.5.3 Khả năng ứng dụng OpenFace vào các hệ thống có nguồn tài nguyên hạn

ee 53

2.5.4 Kỹ thuật tìm khuôn mặt trong ảnh St St sssnhreirrrrresres 34

2.5.5 Tiền xử lý ảnh khuôn mặpt 2 22 222225122512111211121112111211211211 2e 56

2.5.6 Mã hóa khuôn mặt - - - - L2 1 22211115211 112511 111112111 121111 1581111181112 2x ke 57 2.5.7 , kacesdinhdanhAinh khu6n Mabe 58

2.6 TIỂU KẾT CHƯƠNG 2 -55222::222222122111222221 11H rrrne 60

CHUONG 3 UNG DUNG CONG NGHE NHAN DANG MAT NGUOI VOI

DEEP CNNS TRONG VIEC QUAN LY CHONG THỊ HỘ - 61

3.1 NHUNG HIEN TUONG GIAN LAN PHO BIEN TRONG THICU 61

Trang 6

quan sát hành vi của mô hình- cũng là tham khảo phổ biến hơn của các trình tr O,,

O¿ Ox được sinh ra như là chuỗi quan sat

Trong các tài liệu nhận dạng mẫu hành vi của HMM luôn được đề cập là một khoảng thời gian hữu hạn chiều dài T Cho việc khởi tạo các mô hình tại khoảng thời điểm xác suất bắt đầu được sử dụng để mô tả sự phân bố xác suất của các trạng

thái tại thời điểm t = 1 Các hành động của các mô hình được phải, chấm dứt ngay càng sớm cảng tốt một trạng thái tùy ý vào thời điểm T Đó không phải là một

thống kê hay là tiêu chí được khai báo để sử dụng để đánh dấu đặc biệt trạng thái

cuối cùng

Một mô hình Markov ẩn khởi tạo đầu tiên, mà thường được ký hiệu là ^„ do đó, hoàn toàn được mô tả bởi:

- Một tập hợp hữu hạn trạng thái {s | 1 < s <N} thường được gọi bằng các chi SỐ ;

- Một ma trận A chứa xác suất chuyển đổi trang thai;

A= {aj | ag= P (St =] | St-1 = 1} (2.19) - m= {nm} la ma tran phan phdi trạng thái ban đầu trong đó m, là xác suất của

mô hình ở trạng thai i tai thoi điểm ban đầu t =1

z=tz,|Z, =P(S\ =0} (2.20) - và trạng thái phân bố xác suất cụ thê đối với đầu ra của mô hình

B={b; (Oy) | bj (Ox) = P (CO Ox |S, = j )} or { bị @) | bị @) = pG|S = J9} (221)

Tuy nhién, su phan bố đầu ra cần được phân biệt tùy thuộc vào loại phát sinh mô hình được tạo ra Trong trường hợp đơn giản các kết quả được tạo ra tử một kho

rời rạc {Oy, O;„ Om} và, đo đó, có một bản chất tượng trưng Số lượng bị (Oy)

sau đó đại diện phân bố xác suất rời rạc mà có thể được nhóm lại với nhau trong một ma trận xác suất đầu ra:

B = {b„ |bụ = P (O, = Ok|Š: = ] )} (2.22) Sự lựa chọn của mô hình đầu ra có được goi la HMMs roi rac Thay vi néu quan sat số lượng vector có giá trị x € IR", sự phân bố đầu ra được mô tả trên cơ sở chức năng mật độ xác suất liên tục:

Bị (x) = p(4IS, = J ) (2.22)

Trang 7

DANH MUC CAC BANG

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Các giai đoạn chính trong xử lý ảnh óc c Street 8

Hình 2.1 Các hình ảnh khuôn mặt được sử dụng làm tập huấn luyện 14

Hình 2.2 Khuôn mặt trung bình - - St 12 12 E1 ty He tre 16 Hình 2.3 Bảy trong số các khuôn mặt đặc trưng được tính từ những hỉnh ảnh đầu Xão:của hinth 2s lieeztsot2s01061002)3SSANGSESEIGENIEERENEEIEEEHHEETHGSEEEIGBSHEEISREHEEENHREIRĐNEBBSAMPR 17 Hình 2.4 cho ta thấy một bức ảnh và hình chiếu của nó vào không gian bảy chiều .18

Hình 2.5 Ba ảnh và hình chiếu của nó vào không gian mặt, được xác định bởi các

eigenface Tính tương đối của khoảng cách từ không gian mặt là (a) 29.8, (b) 58.5, (GÌ 52 L5 ÂbesrrsdnttrtrdittiitdintitRTRDIRGIDGISGRGRAHISEORNHTBONERXIBORSRIIRGRRSHASGRWRIGSSPSA8btgR8iteta 20 Hình: 2.6 a ảnh thiếu ánh sáng - 222222 212221221112111211121121122222 xe 22 Hình:2.6 b ảnh điệu bộ nghiêng, ngữa đầu -2- 22 222222222122121.22 2 xe 22 Hình:2.6 c ảnh cảm XÚC CƯỜI ẲO Q0 211 121121111 1111111 tr HH He 22

Hình 2.7: Cấu trúc của một nơ-ron sinh học điển hình 2 s22 222E12525552522x22 25 Hình 2.8: Cấu trúc một nơ ron nhân †ạO . - - 1 2221122211115 1151111122111 12111 E te 26 Hình 2.9 Một số hàm kích hoạt thôngrUHĐisssseecsesrrsnrirseeniditieneriirdenirisraentnirtsegg0100100 27 Hình 2.10 Minh họa cơ chế của tích (0) 05 004 D 151 29

Hình 2.11 Một ví du về tích chập -2-©222222222222122212211121121121121212 xe 30

Hình 2.12 Cơ chế tính tích chập lên một vùng ảnh 32x32x3 với bộ lọc 5x5x3 32 Hình 2.13 Cơ chế sinh ra một bản đổ đặc HƯNPx5g6g2y9920259TREBSHEPRSIEHEEISHBIPĐNMĐSspeRl 33

Hình 2.15 Cơ chế MaxPooling - 22222 221222112111211121112111211212122 1 ee 34

Hình 2.16 Mô hình mạng nơ-ron tích chập được Yann LeCun ứng dụng vào việc

phân tách chữ viết tay - 2222 221221112111211121112112212112121221212222 re 35 Hình 2.17: Chuỗi Markov có 3 trạng thái 2: 2 22221221121122122112112112121 te 37

Hình 2.18: Mô hình Markov ẩn - 55522 2222221 t2 eeeree 38

Hình 2.19 : Ví dụ về mô hình HMM 2-5 225 212112121111211112121151222 2 rae 42 Hình 2.20 Mô hình nhận dạng ảnh rời rạc c5 2S St srEerrerrerrerrrerre 48

Hình 2.21 Trích chọn đặc trưng số vùng -©22222222222211221222122121121 2 xee 49

Hình 2.22 Sơ đồ kiến trúc hệ thống nhận dạng khuôn mặt OpenFace 52

Hình 2.23 Minh họa kỹ thuật huấn luyện mô hình của OpenFace - 53

Trang 9

Hình 2.24 Thiết kế của OpenFace tương thích với cac thiét bi cé nguén tai nguyén

85A ]Ï `." nằằằ 54

Hình 2.25 Thư viện dlib cung cấp các hàm tìm khuôn mặt một cách nhanh chóng và

ðnii8c AI 55

Hình 2.26 Sơ đồ 68 điểm đặc trưng trên khn mặt -2©22222222222222-ee 56 Hình 2.27 Quá trình chuẩn hóa ảnh khuôn mặt 2: + s2 SE 212E1E21t2Ezcrkt 56 Hình 2.28 Bộ 128 số đo biêu diễn đặc trưng của một ảnh khuôn mặt 57

Hình 3.1 Mô hình nhận dạng ở phòng tH1 c2: 2222122 2E rererreere 62 Hình 3.2 Sơ đồ use-case tổng quát hệ thống quản lý sinh viên vào/ra phòng thi 64

Hình 3.3 mô tả sơ đồ use-case phân rã mức 1 và 2 của chức năng quản lý đanh tính hy 8 65

Hình 3.4 Giao diện chức năng xem nhận dạng 2:22 Ssrsierrerrrrerres 66 Hình 3.5 Giao diện đăng nhập hệ thống 2- 222222 22122211221222112712121.2xe0 67 Hình 3.6 Giao diện thêm mới sinh viÊn - - c1 2112222111153 1115511115511 112511112 xx 68 Hình 3.7 Giao diện sửa thông tin sinh VIÊN 5 5 2 1S x2 SErrrerxerrrrrrrerre 69 Hình 3.8 Mô hình ứng dụng của OpenFaee - ccc ct nghe reere 70 Hình 3.9 Mô hình ứng dụng cải tiến 222 222222 221221122112211211222ee 71 Hình 3.10 Biểu đồ biểu diễn sự tương quan giữa độ tương tự lớn nhất và mức sai nhằm khả năng lớn nhất giữa các cấu hình 2-2222 221222122212221222221.2 e6 77 Hình 3.11 Thiết kế tổng thể hệ thống quản lý 2-©222222222221222122212221222ee 79 Hình 3.12 Sơ đỗ logic mô tả hệ thống quản lý tại một điểm kiểm soát 80

Hình 3.13 Kiến trúc hệ thống phần mềm tích hợp OpenFace ¿22:22 81 Hình 3.14 Sơ đỗ tuần tự giải thuật xử lý cho chức năng nhận dạng 82

Hình 3.15 Sơ đỗ tuần tự giải thuật xử lý cho chức năng thêm mới sinh viên 83

Hình 3.16 Mô hình thực thê - mối quan hệ hệ thống quản lý sinh viên Khoa 84

Hình 3.17 Mô hình CSDL quan hệ hệ thống thông tin quan lý sinh viên Khoa 85

Trang 10

PHAN MO DAU

1 LY DO CHON DE TAI

Cùng với sự bùng nổ thông tin, sự phát triển công nghệ cao, sự giao tiếp giữa con người và máy tính đang thay đôi rất nhanh, giờ đây giao tiếp này không còn đơn thuần đùng những thiết bị như chuột, bàn phím, v.v, mà có thê thông qua các biểu hiện của khuôn mặt Các hệ thống giao tiếp người máy đang được phát triển rất nhiều Trong số đó, có thể nói đến hệ thống nhận dạng mặt người bằng hình ảnh

Nhận dạng mặt người là xác định danh tính tự động cho từng ảnh đối tượng người dựa vào nội dung của ảnh Nhận dạng mặt người được ứng dụng nhiều trong thực tế như xác minh tội phạm, camera chống trộm, hệ thống chấm công, lưu trữ thông tin khuôn mặt ở các máy ATM, các bãi giữ xe siêu thị, v.v

Bên cạnh đó, trong công tác quản lý học sinh, sinh viên tại trường liên quan

tới con người, việc nhận dạng người thông qua các đặc điểm trên khuôn mặt là rất

quan trọng Nếu áp dụng được công nghệ nhận dạng mặt người đề hỗ trợ trong công tác thi học kỳ thì sẽ làm tăng cao tính tiện đụng của hệ thống quản lý

Hiện tượng gian lận trong Giáo dục nói chung và hiện tượng gian lận trong

học hộ, thị hộ nói riêng là vấn dé nan giải và được bản cãi nhiều đặc biệt là trước —

trong và sau mỗi kỳ thi

Trong các trường Đại học, Cao đẳng, Trung Cấp Nghề, Trung học chuyên

nghiệp mục đích của việc học hộ là tránh để mat 30% điểm học phan theo quy ché 25 của Bộ Giáo duc Việc học hộ thường xảy ra ở các lớp Liên thông, Tại chức học

vào ca tối, các lớp có tình trạng lớp đông, giáo viên mới

Đối với hiện tượng thi hộ, việc kiểm tra và đối chiếu học sinh - sinh viên vào

dự thi mất rất nhiều thời gian, đôi khi vẫn bỏ qua được đối tượng thi hộ như trường

hợp anh em thi hộ, hiện tượng tráo anh trong thẻ dự thị, hiện tượng quên thẻ sinh

viên

Tại Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang, cũng

phát hiện nhiều trường hợp thi hộ, học hộ đặc biệt là tại các lớp học tại chức, liên

Trang 11

Sau quá trình học tập chương trình thạc sỹ ngành Khoa học máy tinh ở Trường

Đại học Khoa học, Đại học Huế, tôi đã tiếp thu được nhiều kiến thức quý báo, nhất là trong lĩnh vực nhận dạng Xuất phát từ nhu cầu thực tế về việc quản lý chặt chẽ

các sinh viên học tập tại Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An

Giang, khắc phục các hạn chế nêu trên, tôi quyết định chọn và thực hiện để tài

“Nghiên cứu một số phương pháp phát hiện các đặc trưng của khuôn mặt

người”, và ứng đụng vào việc chống hiện tượng gian lận trong học hộ, thi hộ trong

các kỳ thi tại trường

2 TONG QUAN TAI LIEU

Nhận dạng mặt người là một trong những vấn để rất thách thức trong lĩnh vực thị giác máy tính và máy học [1] Các công trình nghiên cứu gần đây đã nâng

khá cao độ chính xác của hệ thống nhận dạng

Bài báo “Nhận dạng mặt người với giải thuật HAAR LIKE FEATURE —

CASCADE OF BOOSTED CLASSIFIERS và đặc trưng SIFT” đăng trên Tạp chí Khoa học của Trường Đại học An Giang, năm 2014, quyền 3, về cơng trình nghiên cứu của Đồn Thanh Nghị và Châu Ngân Khánh về một phương pháp nhận dạng mặt người sử dụng kết hợp Haar Like Feature - Cascade of Boosted Classifiers (CBC) và các đặc trưng cục bộ không đổi (Scale-Invariant Feature Transform - SIFT) [2] có kết quả thử nghiệm trên 80% khi áp dụng cho các tập đữ liệu AT&T,

Face94, Face95, Face96, Grimace, Jaffe Bài báo cũng có đề cập tới một số kỹ thuật

nhận dạng mặt người khác đã được nghiên cứu và sử dụng trước đây

Nhiều phương pháp trong nhận dạng khuôn mặt đã tập trung vào phát hiện

các tính năng riêng biệt như mắt, mũi, miệng, đầu và xác định một số kiểu khuôn mặt bằng vị trí, kích thước, và mối quan hệ Kết quả nhận dạng của nhiều hệ thống

cũng rất khác nhau, tùy thuộc vào dữ liệu kiêm thử Trong những phương pháp nhận dạng khuôn mặt có một số phương pháp rất nổi tiếng và kinh điển đó là

EigenFace [6] được nghiên cứu và tìm hiểu, từ đó phát hiện ra khuôn mặt rõ nét hơn Ngoài ra, Một hệ thống xác thực khuôn mặt dựa trên phân tích thành phần

Trang 12

su dung để tạo ra cơ sở dữ liệu khuôn mặt và nhận ra và chứng thực khuôn mặt

bằng cách sử đụng các trọng lượng này [7] Trong công việc này, một mạng riêng

biệt đã được xây dựng cho mỗi người Khuôn mặt đầu vào được chiếu lên vùng

không gian bản địa đầu tiên và mô tả mới được thu được giải pháp dùng mạng nơ-

ron để nhận dạng mặt người [13], kỹ thuật nhận dạng đã tiến một bước dài về hiệu

năng và độ chính xác đóng vai trò rất quan trọng trong lĩnh vực thị giác máy tính

+ Các nghiên cứu trước đây (Bledsoe, & cs., 1960; Goldstein, & cs., 1970), sử dụng tiếp cận dựa trên các đặc trưng như mắt, tai, màu tóc, độ dày môi để tự động nhận dạng (Ion Marqués, 2010)

+ Kirby và Sirovich (1988); Turk và Pentland (1991) áp dụng phương pháp phân

tích thành phan chinh (PCA) va thuat toan eigenfaces dé nhan dang khuôn mặt

3 MỤC TIỂU NGHIÊN CỨU

- Mục tiêu chung: tập trung nghiên cứu công nghệ nhận dạng mặt người sử Deep Learning trong mang no-ron tich chap CNN (Convolutional Nerual Network) và ứng dụng nó để tích hợp vào ứng dụng quan ly sinh viên tránh việc thi hộ tại Trường Trung Cấp Nghẻ Kinh tế - Kỹ thuật Cơng đồn An Giang

* Mục tiệu cụ thé:

“ Tìm hiểu về kỹ thuật nhận đạng mặt người ứng dụng kỹ thuật Deep Learning và mạng nơ-ron tích chập sâu

“ Tìm hiểu nguồn mở OpenFace trong việc nhận dạng mặt người

" Xây dựng hệ thống nhận dạng mặt người hỗ trợ công tác quản lý sinh viên

tránh việc thi hộ dựa vào mã nguồn mở OpenFace

4 DOI TUONG NGHIÊN CỨU

Đối tượng nghiên cứu bao gồm:

- Mô hình nhận dạng mặt người sử dụng kỹ thuật Deep Leaming với mạng nơ-ron tích chập sâu

- Dữ liệu ảnh mặt người của sinh viên Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang

Trang 13

5 PHUONG PHAP NGHIEN CUU

-Tim hiéu, phan tich va téng hợp tài liệu có liên quan đến để tài từ các nguồn như: Internet, các bài báo, sách, giáo trình trong và ngoài nước

- Tổng hợp và phát triển các kết quả ở trong các bài báo của các tác giả đã nghiên cứu thành công trước đó

- Phân tích các đự án nguồn mở liên quan, từ đó để ra những cải tiến cho phù hợp với ứng dụng mà đề tài đang hướng tới

6 PHẠM VI NGHIÊN CỨU

- Phạm vi nghiên cứu: Luận văn chỉ tập trung nghiên cứu về khía cạnh ứng dụng của công nghệ nhận dạng mặt người sử dụng kỹ thuật Deep Learning với mạng nơ-ron tích chập sâu, dựa trên cơ sở lý thuyết của một số phương pháp nghiên

cứu tìm hiểu được, áp dụng xây dựng chương trình nhận dạng biểu cảm khuôn mặt thông qua mắt, mũi, miệng dựa trên ảnh tĩnh (lưu dưới dạng BIÍTMAP), hoặc trên

ảnh chụp từ webcam

- Đưa ra được kết quả nghiên cứu về mặt lý thuyết một số cơ sở của phương pháp nhận dạng biểu cảm khuôn mặt, xây dựng được chương trình với một số kỹ

thuật biểu cảm khuôn mặt dựa trên đầu vào là ảnh tĩnh hoặc video, từ đó nêu ra một

số vấn để ứng dụng trong thực tế

- Nghiên cứu việc triển khai thực tế thông qua việc ứng dụng mã nguồn mở

OpenFace vào bài toán cụ thể là quản lý sinh viên tránh việc học hộ và thị hộ tại

Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang

- Không gian nghiên cứu: thực hiện tại Trường Trung Cấp Nghề Kt-Kt Cơng đồn An Giang với webcam và camera chụp ảnh tĩnh ở phòng học và phòng thi

- Thời gian thực hiện: 6 tháng từ 20/2/2018 đến 20/07/2018

- Hiện tại liên quan đến phát hiện và thị giác máy tính chưa được nghiên cứu nhiều trong nước, phần lớn các nghiên cứu xuất phát từ quốc gia phát triển như Châu Âu và Châu Mỹ Do đó nghiên cứu lĩnh vực này là một lĩnh vực tương đối

Trang 14

7 Y NGHIA THUC TIEN CUA DE TAI

Đề tài có tính ứng dụng cao Ngoài việc triển khai thành ứng dụng thực tế với bài toán cụ thể là quản lý sinh viên chống thi hộ ở Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang, tập trung vào phân hệ kiểm soát vào/ra phòng thị,

nó còn có thể triển khai thành một số ứng dụng khác như nhận dạng và điểm danh

học viên trong các lớp học của Trung tâm Ngoại ngữ - Tin học Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Công đồn An Giang: kiểm sốt vào ra ở những khu vực

quan trọng

8 NOI DUNG NGHIEN CUU VA DU KIEN BO CUC CUA LUAN VAN

8.1 Nội dung nghiên cứu

- Lựa chọn lĩnh vực làm luận văn : Mô hình phân lớp sử dụng mạng nơ-ron

tích chập với kỹ thuật Deep Learning

- Lập kế hoạch và quy trình quản lý học sinh sinh viên tránh việc học hộ và thì

hộ Trường Trung Cấp Nghè Kinh tế - Kỹ thuật Cơng đồn An Giang

- Thực hiện nghiên cứu và triển khai thành ứng dụng thực tế với bài toán cụ

thé là quản lý học sinh sinh viên tránh việc thi hộ tại Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang, tập trung vào phân hệ kiểm soát vào/ra phòng thị

8.2 Bố cục của luận văn

-_ Mở đầu

- Tinh cap thiết của dé tai

- Muc tiéu của luận văn

- Ynghia thuc tiến

Chương 1: Tổng quan về nhận dạng mặt người và xử lý ảnh: Chương này giới thiệu tổng quan về các kỹ thuật sử lý ảnh số, tổng quan nhận dạng mặt người

Chương 2: Các phương pháp nhận dạng khuôn mặt: Chương này trình bày các phương pháp nhận dạng khuôn mặt phổ biến hiện nay như Eigenfaces, mạng

Nơron, SVM, Mô hình Markov ấn,

Chương 3: Ứng dụng công nghệ nhận dạng mặt người với Deep CNNs trong

việc quản lý quản lý học sinh, sinh viên tránh việc học hộ và thị hộ trường Trung

Trang 15

PHAN 2 NOI DUNG

CHU ONG 1 TONG QUAN VE NHAN DANG MAT NGUOI VA XU LY ANH

1.1 GIOI THIEU TONG QUAN VE NHAN DANG

1.1.1 Khai niém

Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô

hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn Quá trình nhận đạng dựa vào những mẫu học biết trước gọi là nhận dạng có giám sát (supervised learning); trong trường hợp ngược lại gọi là học không có giám sát (non supervised learning) Ngày nay nhận dạng đang là đề tài nghiên cứu áp đụng trong việc thiết kế hầu như tất cả các hệ thống tự

động.Các lĩnh vực liên quan với Nhận dạng: khai phá dữ liệu (data mining), học

may (machine learning), thi giác máy tính (eomputer vision) mạng nơ ron, lý thuyết ra quyết định thống kê

Như vậy có thể hiểu nhận dạng là một môn khoa học nhằm trang bị phương

pháp luận đê mô phỏng nhận thức, trang bị cho máy tính có khả năng nhận biết Đối

tượng nhận dạng: là một thực thể tổn tại mà con người có thể cảm nhận được Vidu: - Hình ảnh được cảm nhận bởi mắt

- Tiéng nói được cảm nhận bởi tai

- Tín hiệu điện tim cảm nhận bởi hình dạng hoặc số số liệu đo - Tín hiệu động đất cảm nhận bởi số liệu đo

1.1.2 Công nghệ nhận dạng ảnh (nhận dạng mẫu )

Nhận dạng mẫu (pattern recognition) 14 mot nganh thudc lĩnh vực hoc may(machine learning) Noi cach khác, nó có thể được xem là việc “cần thực hiện một tác động vào dữ liệu thô mà tác động cụ thể là gì sẽ tùy thuộc vào loại dữ liệu

Trang 16

Nhận dạng mẫu nhằm mục đích phân loại dữ liệu (là các mẫu) dựa trên: hoặc là kiến thức tiên nghiệm hoặc dựa vào các thông tin thống kê được trích rút từ các

mẫu có sẵn Các mẫu cần phân loại thường được biểu diễn thành các nhóm của các

dữ liệu đo đạc hay quan sát được, mỗi nhóm là một điểm trong một không gian đa

chiều phủ hợp Đó là không gian của các đặc tính mà dựa vào đó ta có thé phân loại

Một hệ thống nhận dạng mẫu hoản thiện gồm có một thiết bị cảm nhận (sensor) để thu thập các quan sát cần cho việc miêu tả; một cơ chế trích rút đặc

trưng để tính toán các thông tin dưới dạng số hay dạng tượng trưng từ các dữ liệu

quan sát được; và một bộ phân loại nhằm thực hiện công việc phân loại thực sự dựa vào các đặc tính đã được trích rút

Việc phân loại thường dựa vào sự có sẵn của một tập các mẫu mà đã được

phân loại hay mô tả sẵn Tập các mẫu này được gọi là tập huấn luyện và chiến lược

học nhằm phân loại mẫu vào một trong các lớp có sẵn được gọi là học có giám sát

Việc học cũng có thể là không có giám sát, theo nghĩa là hệ thống không được cung cấp các mẫu được cung cấp các mẫu được đánh nhãn tiên nghiệm, mà nó phải tự đưa ra các lớp để phân loại đựa vào tính ổn định trong thống kê của các

mau

Việc phân loại thường dùng một trong các hướng tiếp cận sau: thống kê, cú pháp Nhận dạng mẫu đùng thống kê là dựa vào các đặc tính thông kê của các mẫu,

chang hạn các mẫu được tạo bởi các hệ thống xác suất Nhận dạng dùng cấu trúc là

dựa vào tương quan câu trúc giữa các mâu

Các ứng dụng phổ biến là: nhận đạng tiếng nói tự động, phân loại văn bản

thành nhiều loại khác nhau (ví dụ: những thư điện tử nào là spam/ non-spam), nhận dạng tự động các mã bưu điện viết tay trên các bao thư, hay hệ thống nhận dạng danh tính dựa vào mặt người

1.2 TÔNG QUAN VÈ XỬ LÝ ẢNH SÓ

Xử lý ảnh @XLA) là đối tượng nghiên cứu của lĩnh vực thị giác máy, là quá

trình biến đổi từ một ảnh ban đầu sang một ảnh mới với các đặc tính và tuân theo ý

Trang 17

đối tượng, làm tăng chất lượng, phân đoạn và tách cạnh, gán nhãn cho vùng hay quá trình biên dịch các thông tin hình ảnh của ảnh

Cũng như xử lý dữ liệu bằng đỗ hoạ, xử lý ảnh số là một lĩnh vực của tin học

ứng dụng Xử lý dữ liệu bằng đỗ họa dé cập đến những ảnh nhân tạo, các ảnh này

được xem xét như là một cấu trúc dữ liệu và đươc tạo bởi các chương trình Xử lý

ảnh số bao gồm các phương pháp và kỹ thuật biến đổi, đề truyền tải hoặc mã hoá các ảnh tự nhiên Mục đích của xử lý ảnh gồm:

+ Biến đổi ảnh làm tăng chất lượng ảnh

+ Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung của ảnh Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh thành

những phần có ý nghĩa dé phân biệt đối tượng này với đối tượng khác, dựa vào đó ta có thê mô tả cấu trúc của hình ảnh ban đầu Có thê liệt kê một số phương pháp

nhận dạng cơ bản như nhận dạng ảnh của các đối tượng trên ảnh, tách cạnh, phân

đoạn hình ảnh Kỹ thuật này được dùng nhiều trong y học (xử lý tế bào, nhiễm

sắc thé), nhận dang chữ trong văn ban, nhận dạng khuôn mặt người 1.2.1 Các quá trình xử lý ảnh ‘Tach cdc “ Nhận dang | dae tinh | |và giải thích) ‘Thu nhan [Tiên xử ` ` Phần

hình 1 1 Các giai đoạn chính trong xử lý ảnh

Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với quá

trình XLA Ảnh đầu vào sẽ được thu nhận qua các thiết bị như camera, sensor, máy scanner,v.V và sau đó các tín hiệu này sẽ được số hóa Việc lựa chọn các thiết bị

thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối tojợng cần xử lý Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc

độ thu nhận ảnh của các thiết bị

Trang 18

nữa, chuẩn bị cho các bước xử lý phức tap hon vé sau trong qua trinh XLA Qua

trình nay thường được thực hiện bởi các bộ lọc

Phân đoạn ảnh: phân đoạn ảnh là bước then chốt trong XLA Giai đoạn này phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông Tiêu chuẩn để xác định các vùng liên thông có thể là cùng

màu, cùng mức xám v.v Mục đích của phân đoạn ảnh là để có một miêu tả tổng

hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu

Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được cho dưới

dạng dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh, hoặc tập hợp

tất cả các điểm ảnh thuộc về chính vùng ảnh đó Trong cả hai trường hợp, sự chuyển đổi đữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính là rất cần thiết Để chuyên đổi chúng, câu hỏi đầu tiên cần phải trả lời là nên biểu diễn một vùng ảnh dưới dạng biên hay dưới dạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó Biểu diễn dạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếu đến các đặc trưng hình đạng bên ngoài của

đối tượng, ví dụ như các góc cạnh và điểm uốn trên biên chẳng hạn Biểu diễn dạng

vùng lại thích hợp cho những ứng dụng khai thác các tính chất bên trong của đối

tượng, ví dụ như vân ảnh hoặc cầu trúc xương của nó Sự chọn lựa cách biểu diễn

thích hợp cho một vùng ảnh chỉ mới là một phần trong việc chuyển đổi đữ liệu ảnh thô sang một dạng thích hợp hơn cho các xử lý về sau Chúng ta còn phải đưa ra một phương pháp mô tả đữ liệu đã được chuyên đổi đó sao cho những tính chất

cần quan tâm đến sẽ được làm nổi bật lên, thuận tiện cho việc xử lý chúng

Nhận dạng và giải thích: Đây là bước cuối cùng trong quá trình XLA Nhận

dang anh co thể được nhìn nhận một cách đơn giản là việc gán nhãn cho các đối tượng trong ảnh Ví dụ đối với nhận dạng chữ viết, các đối tượng trong ảnh cần

Trang 19

đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu được trong ảnh

Giải thích là công đoạn gán nghĩa cho một tập các đối tượng đã được nhận biết

Chúng ta cũng có thê thấy rằng, không phải bất kỳ một ứng dụng XLA nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải thích thường chỉ có mặt

trong hệ thống phân tích ảnh tự động hoặc bán tự động, được dùng để rút trích ra

những thông tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng ký tự quang

học, nhận dạng chữ viết tay V.V

1.2.2 Phạm vi ứng dụng của xử lý ảnh

Xử lý ảnh đã đem lại nhiều ứng dụng trong nhiều lĩnh vực khác nhau: y học,

khoa học hình hình sự, khí tượng thuỷ văn, quản lý, giám sát hành vị đối tượng,

quản lý học sinh, sinh viên trường học

Quản lý là là một trong những ứng dụng quan trọng của xử lý ảnh Cùng với sự bùng nỗ của kinh tế thị trường Khối lượng quản lý càng lớn, như quản lý hồ sơ, quân lý phiếu điều tra trong công tác thống kê, các câu hỏi trắc nghiệm Đề thực

hiện các công việc trên một cách chính xác, nhanh chóng và hiệu quả Xử lý ảnh và nhận dạng đã nghiên cứu và phát triển mạnh mẽ bài toán nhập liệu tự động

1.3 GIỚI THIỆU BÀI TỐN NHẬN DẠNG KHN MẶT NGƯỜI VÀ ỨNG DỤNG CỦA ĐÈ TÀI VÀO CƠ SỞ THỰC TIẾN

1.3.1 Giới thiệu bài tốn nhận dạng khn mặt người

Nhận dạng mặt người (Face recognition) được nghiên cứu từ nhưng năm 1980, là một lĩnh vực nghiên cứu của ngành thị giác máy tính (Computer Vision), và cũng

được xem là một lĩnh vực nghiên cứu của ngành sinh trắc học (Bliometries) tương tự

như nhận dạng vân tay — Fingerprint recognition, hay nhận dạng mống mắt - Iris recognition Trong khi nhận dạng vân tay và mống mắt có thể áp dụng trên thực tế

một cách rộng rãi thì nhận dạng mặt người vẫn còn nhiều thách thức So với nhận

dạng vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn và ít đòi

hỏi sự tương tác có kiểm soát hơn Bài toán nhận dạng mặt người còn nhiều thách

Trang 20

thức nên hàng năm trong và ngoài nước vân có nhiêu nghiên cứu về các phương pháp nhận dạng mặt người

Một hệ thống nhận dạng mặt người thường thực hiện hai bước: phát hiện khuôn mặt và định danh đối tượng Việc quan trọng của hệ thống là sử dụng kỹ thuật để rút trích các đặc trưng từ ảnh khuôn mặt Sau đó thực hiện đối sánh với các mẫu có sẵn để định danh đối tượng hoặc biểu diễn các đặc trưng đó qua một dạng dữ liệu trung gian rồi dùng các thuật toán phân loại để định danh đối tượng Độ

chính xác của hệ thống nhận dạng phụ thuộc rất nhiều vào phương pháp được sử dụng

1.3.2 Ứng dụng của đề tài vào cơ sở thực tiễn

Trong luận văn này, tôi tập trung tìm kiếm và để xuất một thuật toán hiệu

quả nhận dạng khuôn mặt nhằm chống gian lận trong thi cử

Do các khó khăn của bài toán nhận dạng khuôn mặt như: Tư thế góc chụp, sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt, sự biểu cảm của khuôn mặt,

sự che khuất, hướng của ảnh, điều kiện của ảnh

Vì thế trong luận văn này tôi đưa ra những giả định và ràng buộc sau làm giảm độ phức tạp của bài toán như sau:

- Góc ảnh trực diện (frontal) hoặc gần như trực diện, không bị che khuất (no

occlusion)

- Ảnh được chụp trong điều kiện ánh sáng bình thường

- Cơ sở dữ liệu ảnh nhỏ, khoảng trăm ảnh

- Ảnh được xét trong luận văn là ảnh SỐ, nghĩa là ảnh mặt người được chụp từ các thiết bị như máy ảnh số, camera, Luận văn không xem xét các ảnh mặt người nhân tạo như vẽ, điêu khắc

1.4 CAC YEU TO LAM ANH HUONG TOI KET QUA NHAN DANG:

Ánh sáng: Ảnh kỹ thuật số biểu diễn cường độ sáng của đối tượng, đo đó khi ánh sáng thay đổi, thông tin về đối tượng sẽ bị ảnh hưởng

Trang 21

Cự ly của đôi tượng so với camera: khoảng cách đôi tượng so với camera sẽ xác định số pixel ảnh quy định nên khuôn mặt

Cảm xúc biêu cảm trên khuôn mặt: các nét biêu cảm cảm xúc trên khuôn mặt

gây ra nhiễu, việc loại nhiễu này vẫn chưa có phương pháp hiệu quả

Tư thế đứng của đối tượng (nghiêng, xoay ): tư thế của đối tượng sẽ xác định thông tin của đối tượng đó Việc tư thế thay đổi quá lớn sẽ làm thay phần lớn thông tin về đối tượng, dẫn đến kết quả nhận dạng sai

Trang phục của đối tượng: Kết quả nhận dạng có thể bị ảnh hưởng lớn nếu như

đối tượng có các trang phục khác biệt so với mẫu như đeo kính, đội mũ, 1.5 TIỂU KẾT CHƯƠNG 1 Chương này giới thiệu tổng quan về các kỹ thuật sử lý ảnh số, tổng quan nhận dạng mặt người 1.1 Giới thiệu chung về Tổng quan nhận dạng mặt người 1.2 Tông về xử lý ảnh sé

1.3 Giới thiệu bài toán nhận dạng khuôn mặt người và Ứng dụng của dé tai vào cơ sở thực tiễn

Trong phần: 1.4 Các yếu tố làm ảnh hưởng tới kết quả nhận dạng, đã nêu

những khó khăn của bài tốn nhận dạng khn mặt như: Tư thế góc chụp, sự xuất hiện hoặc thiếu một số thành phan của khuôn mặt, sự biểu cảm của khuôn mặt, sự che khuất, hướng của ảnh, điều kiện của ảnh

Chương 2 sẽ trình bày rõ về những công nghệ và các phương pháp nhận đạng khuôn mặt phổ biến đã được nghiên cứu và ứng dụng

Trang 22

CHƯƠNG 2 CÁC PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẶT 2.1 PHƯƠNG PHÁP EIGENFACES

2.1.1 Giới thiệu về Eigenface

Ý tưởng sử dụng eigenfaces đã được phát trién béi Sirovich, Kirby (1987), Kirby và Sirovich (1990) tìm các hình ảnh của khuôn mặt bằng cách phân tích

thành phan chính trên khuôn mặt Bắt đầu với tập các hình ảnh khuôn mặt ban đầu, họ đã tính toán một hệ thống tọa độ tốt nhất cho ảnh, mỗi tọa độ là một hình ảnh gọi

là Eigenpicture Tác giả lập luận rằng, tập các hình ảnh khuôn mặt có thể là khoảng cách gần đúng được khôi phục bằng cách lưu trữ một tập nhỏ các trọng số cho từng khuôn mặt và một tập nhỏ các hình ảnh chuẩn (eigenpictures) Trọng số từng khuôn mặt được tính bằng cách chiếu hình ảnh khuôn mặt vào eigenpicture

Nhận diện khuôn mặt gồm các hoạt động khởi tạo sau:

> Khởi tạo tập các hình ảnh khuôn mặt (tập huấn luyện)

> _ Tính eigenfaces từ tập huấn luyện, chỉ giữ lại những hình ảnh M tương ứng với giá trị đặc trưng cao nhất Hình ảnh M xác định không gian mặt, nếu

là khuôn mặt mới, eigenfaces có thể được cập nhật hoặc tính toán lại

> Tính toán phân bổ tương ứng trong không gian trọng lượng M-chiều

cho mỗi khuôn mặt đã nhận dạng, bằng cách chiếu hình ảnh khuôn mặt vào “không

gian mặt”

Trang 23

2.1.2 Tính Eigenface

Hinh 2 1 Các hình ảnh khuôn mặt được sử dụng làm tập huấn huyện

Chiếu hình ảnh khuôn mặt I (x, y) vào không gian 2 chiều N của mảng A" (8-

bit) gia tri cường độ Hình ảnh được coi như là một vector có kích thước N2, do đó hình ảnh có kích thước 256 x 256 sẽ trở thành vector có kích thước 65.536 hoặc

tương đương với một điểm trong không gian

Hình ảnh khuôn mặt giống hình oval không được phân loại trong không gian ảnh lớn này, nên được mô tả bởi không gian con nhỏ hơn Ý tưởng chính là tìm vector tốt nhất cho việc phân bồ hình ảnh khuôn mặt trong tồn bộ khơng gian ảnh Vectơ xác định không gian con của hình ảnh khuôn mặt, gọi là “không gian mặt”

Mỗi vector có chiều dài N2 là sự kết hợp tuyến tính của các hình ảnh khuôn mặt

ban đầu Vì vector là vector đặc trưng của ma trận phương sai ứng với hình ảnh

khuôn mặt ban đầu Hình 2.1 là tập huấn luyện các hình ảnh khuôn mặt

Trang 24

Tap huấn luyện các hình ảnh khuôn mặtlà II ;I2 ; I3 Im Khuôn mặt trung bình của tập hợp được xác định bởi : vo TẾ Ih; méi khuôn mặt

khác nhau có giá trị trung bình : ® ; = Iÿ - W[1[1Eikhuôn mặt trung bình # được thé hiện trong Hình 2.2 Đây là tập lớn các vector phụ thuộc vào việc phân tích thành

phần chính, để tìm kiếm một tập M vector trực chuẩn uạ , mô tả sự phân bổ dữ liệu Vector uy được tính như:

- 1w ry

k=lnalhe,) 2D

Vector này lớn nhất phụ thuộc vào:

T., =œ =Ÿ 1, fl=k

UP we Suc Yrs (22) 0, otherwise

Vector uy và vô hướng À¿ là vector đặc trưng va vector trị riêng, tương ứng của ma trận phương sai :

_1 “AAT

C=— M_@,@, AA (2.3)

Trong do ma tran: A = [ ®1®2 .®A/ ] Tuy nhiên xác định vector đặc trưng NỶ và giá trị đặc trưng là công việc khó khăn đối với kích cỡ các ảnh Như vậy ta cần một phương pháp tính toán để tìm ra vector đặc trưng

Nếu số lượng các điểm đữ liệu trong không gian ảnh là ít hơn so với kích thước của không gian (M <N'?), thì sẽ chỉ có M-I, thay vì NỈ vector đặc trưng (Các vector đặc trưng còn lại sẽ kết hợp với giá trị đặc trưng) Có thê tìm ra phương án cho vector đặc trưng kích thước NŸ trong trường hợp này bằng cách, đầu tiên ta

chiếu vector đặc trưng lên ma trận M của M, (như ta tính ma trận 16x16 chứ không phải ma trận 16,384 x 16,384), sau đó dùng tổ hợp tuyến tính thích hợp của hình ảnh khn mặt ®, tính toán vector đặc trưng vi của ATA như sau :

AT4w,= mự, (2.4)

Trang 25

Taco:

AAA; = WAV

Ta thay rang Avi la vector đặc trưng của C = AAT

Hinh 2.2 Khuôn mặt trung bình

Xây dựng ma trận M của M, L=ATA khi L„ụạ= ®Ÿ ®„„ và tìm các vector đặc

trưng M, v, của L Những vector xác định tổ hợp tuyến tính của tập huấn luyện hình

ảnh khuôn mặt M để tạo thành vector đặc trưn gu;

Ur Dies Địy®ịy IS 1 M (2.5)

Trong thuc té, tap huấn luyện của hỉnh ảnh khuôn mặt sẽ tương đối nhỏ

(M<M?), và bài toán trở nên dễ dàng hơn Các giá trị đặc trưng liên quan cho phép ta xếp các vector đặc trưng theo tính hữu dụng của nó trong việc mô tả sự biến đổi giữa các hình ảnh Hình 2.3 cho ta thấy 7 vector đặc trưng bắt nguồn từ những hình

ảnh đầu vào của Hình 2.1

Trang 26

Hình 2.3 Bảy trong số các khuôn mặt đặc trưng được tinh từ những hình ảnh đâu vào của hình 2 1

2.1.3 Sử dụng khuôn mặt đặc trưng để phân loại hình ảnh khuôn mặt

Hình ảnh khuôn mặt đặc trưng được tính từ vector đặc trưng L trải rộng trên

tập mô tả về những hình ảnh khuôn mặt Sirovich và Kirby (1987) đã dự đoán rằng

khoảng 40 eigenfaces là đủ cho một tập mô tả hình ảnh khuôn mặt, vậy M' = 40

eigenfaces

Trong đó M' là điều kiện đủ để nhận đạng Các eigenfaces trải trong không gian con M' chiều của không gian hình ảnh ban đầu NỈ Vector đặc trưng M' của ma trận L là vector có giá trị đặc trưng lớn nhất Trong nhiều trường hợp thử

nghiệm, dựa trên M=16 hình ảnh khuôn mặt thì tính được Mˆ=7 eigenfaces

Một hình ảnh khuôn mặt mới (I) đưa vào “không gian mặt” được tính như

sau:

œy=MẸ(T—W) ;Ướik=1 M— (26)

Trang 27

Hình 2.4 cho ta thấy một bức ảnh và hình chiếu của nó vào không gian bảy chiéu Hình 2.4: Hình ảnh khuôn mặt ban đầu và hình chiếu của nó lên không gian

mặt được xác định bởi các eigenfaces của hình 2.3

Vector QÏ= [ @I; ®a: @„:] mơ tả thuộc tính của eigenface, xu ly các

eigenfaces như tập cơ sở cho hình ảnh khuôn mặt Các vector được sử dụng trong

thuật toán nhận dạng mẫu chuẩn để tìm ra một số lớp khuôn mặt được xác định

trước Phương pháp đơn giản để xác định lớp khuôn mặt tốt nhất là tìm lớp khuôn mặt đó bằng khoảng cách tối thiểu Euclide

Su||2— @/|! 27

Trong đó €2 là vector mô tả lớp khuôn mặt #th Lớp khn mặt ©; được tính bằng trung bình kết quả các eigenface đặc trưng trên một số lượng nhỏ các hình

ảnh khuôn mặt của một người Một khuôn mặt được phân loại thuộc lớp k, khi éy là

nhỏ nhất đến ngưỡng ø; Ngược lại khuôn mặt được phân loại là ‘khéng biét’ va

tùy chọn sử dụng để tạo ra một lớp mặt mới

Việc tạo các vector trọng lượng tương đương với chiếu hình ảnh khuôn mặt

ban đầu lên không gian mặt, nhiều hình ảnh sẽ chiếu vào vector mẫu nhất định Đây

Trang 28

không phải là vấn đề đối với hệ thống, tuy nhiên khi khoảng cách £ giữa ảnh và

không gian mặt chỉ đơn giản là khoảng cách bình phương giữa các hình ảnh đầu vào ®=T-V and OF LM, al (2.8) Hình chiếu của nó lên không gian mặt: €= ||S— ||? (2.9) Như vậy có bốn khả năng cho hình ảnh đầu vào và vector mô hình của nó: + Gần không gian mặt và gần một lớp mặt + Gần không gian mặt nhưng không ở gần một lớp mặt đã biết % Xa không gian mặt và gần một lớp mặt %E Xa không gian mặt và xa lớp mặt

Trong trường hợp đầu tiên, mặt người được nhận dạng và xác định Trường

hợp thứ hai chỉ ra rằng hình ảnh không phải là hình ảnh khuôn mặt Trường hợp ba

được thể hiện như một đại lượng dương tính trong hệ thống nhận dạng Hình 2.4

cho thấy một số giải pháp đo lường về khoảng cách giữa không gian mặt

Trang 29

(a) 29.8 (b) 58.5 (c) 5217.4

Hình 2.5 Ba ảnh và hình chiếu của nó vào không gian mặt, được xác định bởi

các eigenface Tính tương đối của khoảng cách từ không gian mặt là (a) 29.8,

(b) 58.5, (c) 5217.4

20

Trang 30

2.1.4 Tóm tắt kết luận phương pháp nhận dang bang Eigenface

2.1.4.1 Tóm tắt

Su dung eigenface để nhận diện khuôn mặt bao gồm các bước sau:

* Tạo tập các hình ảnh khuôn mặt đặc trưng, tập này gồm một số hình ảnh của

một số người, với thay đổi trong biéu cảm và ánh sáng (bốn ảnh cho 10 người, do

đó M=40)

» Tính ma trận L (40x40), tìm vector đặc trưng và giá trị đặc trưng của nó,

chọn vector đặc trưng M' với các giá trị đặc trưng liên kết cao nhất (trong ví dụ này

M’=10)

*Két hop hudn luyén tap cdc hinh anh theo phuong Eq Két qua (M’=10) eigenfaces u;

« Với mỗi hình ảnh được biết, tính toán lớp vector ©„ bằng trung bình mẫu vector eigenface © tính từ bốn ảnh cá nhân ban đầu Chọn ngưỡng ø¿ xác định khoảng cách lớn nhất từ bất kỳ lớp mặt, và một ngưỡng ø„xác định khoảng cách tối đa từ không gian mặt

° Với mỗi hình ảnh khuôn mặt mới được xác định, tính tốn vector mơ hình

của nó ©, các khoảng cách £; của mỗi lớp, và khoảng cách £ đến không gian mặt Nếu khoảng cách tối thiểu £¿< ø; và khoảng cách £ < ø„ thì phân loại khuôn mặt đầu vào Nếu khoảng cách tối thiểu £¿ > ø; hình ảnh được phân loại là “không rõ” nhưng ế” < ø¿, thì hình ảnh được phân loại là “khơng rõ”

« Nếu ảnh mới được phân loại là ảnh khuôn mặt đã biết, thì ảnh này được thêm vào tập ban đầu gồm các hình ảnh khuôn mặt quen thuộc, và eigenface được tính

toán lại Do đó có thê thay đổi không gian mặt khi hệ thống gặp nhiều trường hợp là

các khuôn mặt đã biết

Để xây dựng một hệ thống nhận dạng khuôn mặt đòi hỏi phải đánh giá tính

tổng quát, yêu cầu trung thực, và tốc độ nhận dang Nếu nhận dạng khuôn mặt được

Trang 31

giới hạn trong một nhóm nhỏ người (chẳng hạn như các thành viên của một gia đình hoặc một công ty nhỏ), một tập hợp nhỏ của eigenfaces sẽ trải rộng những khuôn mặt liên quan Nếu hệ thống là để học những gương mặt mới hoặc gương mặt đại

diện cho nhiều người, thì một tập cơ sở lớn hon cua eigenfaces sẽ được tạo Kết

quả của Sirovich va Kirby (1987), Kirby và Sirovich (1990) mã hóa hình ảnh khuôn mặt chứng minh rằng số eigenfaces là tương đối nhỏ

2.142 Kết luận :

Nhược Điểm Của Eigenfaces

Trang 32

Kết luận :

Qua đây ta có thê rút ra kết luận rằng để tăng độ chính xác của phương pháp nhận dạng, ta cần phải tiến hành tiền xử lý ảnh: chuẩn hóa ảnh mặt theo góc nghiêng, hướng nhìn, điều kiện ánh sáng cũng như ảnh nên

2.2 PHƯƠNG PHÁP MẠNG NƠRON 2.2.1 Định Nghĩa:

Mạng nơ-ron nhân tao, Artificial Neural Network (ANN) goi tat là mang no-

ron ANN là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của

các hệ nơ-ron sinh học Nó được tạo lên từ một số lượng lớn các phan tu (goi la

phan tử xử lý hay nơ-ron) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như một thể thống nhất đề giải quyết một vấn dé cu thé nào đó

Một mạng nơ-ron nhân tạo được cầu hình cho một ứng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu, .) thông qua một quá trình học từ tập các mẫu huấn

luyện Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơ-

ron

Giông như các lĩnh vực trí tuệ nhân tạo nói chung, hai mục tiêu cơ bản của việc nghiên cứu mạng nơ-ron nhân tạo là:

Mô hình hóa bộ não: Mục đích khoa học của việc xây dựng các mô hình mạng

nơ-ron nhân tạo là tìm hiểu thực tế não làm việc như thế nào Điều này có thể giúp chúng ta hiểu được bản chất sự thông minh của con người, xây dựng các chiến lược

dạy tốt, hoặc là các hoạt động chữa trị hiệu quả cho các bệnh nhân bị tổn thương về não

Xây dựng hệ thống nhân tạo: Mục đích kỹ thuật của việc xây dựng hệ thống mạng nơ-ron nhân tạo là nhằm mang lại hiệu quả tốt hơn đối với các ứng dụng thực

tế Điều này có thể làm cho máy móc hoạt động tốt hơn, thay thế con người những

công việc nhàm chán và thậm chí có thê cải thiện hiệu suât công việc

Trang 33

2.2.2 Uu diém va khuyét diém

Ưu điểm:

Ưu điểm lớn nhất của mạng nơ-ron nhân tạo là tính hoàn toàn song song, cái

mà làm cho mạng nơ-ron nhân tạo trở nên hiệu quả Thêm vào đó, mạng nơ-ron

nhân tạo có thể học từ những dữ liệu huấn luyện và khái quát những tình huống mới, nên nó không yêu cầu nhiều về kỹ năng lập trình Mạng nơ-ron nhân tạo còn

đặc biệt chịu lỗi, đây là khả năng thường được tìm thấy trong các hệ thống sinh học

và chịu nhiễu Vì vậy chúng có thê đối phó với tình huống mà các hệ thống chuỗi ký tự thông thường sẽ gặp khó khăn Nói tóm lại, về nguyên tắc, mạng nơ-ron nhân tạo có thể làm bất cứ điều gì mà một hệ thống chuỗi ký tự/chuỗi nguyên lý có thể

làm và thực tế nó còn có thể làm được nhiều hơn thế nữa

Khuyết điểm:

Mạng nơ-ron nhân tạo yêu cầu đữ liệu phải đầy đủ cả về số lượng lẫn chất lượng Đây là yêu cầu quan trọng với tất cả kỹ thuật mô phỏng và mạng nơ-ron nhân tạo cũng không ngoại lệ

Các cách hướng dẫn để chọn cấu trúc mạng cho phù hợp với các bài toán cũng không được tìm thấy

2.2.3 No-ron sinh học và nơ-ron nhân tao

223.1 Nơ-ron sinh học

Qua quá trình nghiên cứu về bộ não, người ta thấy rằng: bộ não con người bao gồm khoảng 1011 nơ-ron tham gia vào khoảng 1015 kết nối trên các đường truyền Mỗi đường truyền này dài khoảng hơn một mét Các nơ-ron có nhiều đặc điểm chung với các tế bào khác trong cơ thể, ngoài ra chúng còn có những khả năng mà

các tế bào khác không có được, đó là khả năng nhận, xử lý và truyền các tín hiệu

điện hóa trên các đường mòn nơ-ron, các con đường này tạo nên hệ thống giao tiếp

của bộ não

Trang 34

Các nhánh hình cây truyền tín hiệu vào đến thân tế bào Thân tế bào tổng hợp và xử lý cho tín hiệu đi ra Sợi trục truyền tín hiệu ra từ thân tế bào này sang nơ-ron khác Điểm liên kết giữa sợi trục của nơ-ron này với nhánh hình cây của nơ-ron khác gọi là synapse Liên kết giữa các nơ-ron và độ nhạy của mỗi synapse được xác

định bởi quá trình hóa học phức tạp Một số cấu trúc của nơ-ron được xác định

trước lúc sinh ra Một số cấu trúc được phát triển thông qua quá trình học Trong

cuộc đời cá thể, một số liên kết mới được hình thành, một số khác bị hủy bỏ

Như vậy nơ-ron sinh học hoạt động theo cách thức sau: nhận tín hiệu đầu vào,

xử lý các tín hiệu này và cho ra một tín hiệu output Tin hiéu output nay sau do

được truyền đi làm tín hiệu đầu vào cho các nơ-ron khác

Dựa trên những hiệu biết về nơ-ron sinh học, con người xây dựng nơ-ron nhân

tạo với hy vọng tạo nên một mô hình có sức mạnh như bộ não

Hình 2.7: Cầu trúc của một no-ron sinh học điền hình

Mỗi nơ-ron sinh học có 3 thành phần cơ bản: * Cac nhánh vào hình cây ( dendrites)

+ Than té bao (cell body) * Soi truc ra (axon)

223.2 Nơ-ron nhân tạo

Mạng nơ-ron nhân tạo được xây dựng dựa trên cảm hứng từ mạng nơ-ron sinh

học, đùng để mô phỏng bộ não con người và hệ thống thần kinh

Trang 35

Một nơ-ron là một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng nơ-ron Cấu trúc của một nơ-ron (xem Hình 2.8) X¡—> X, & Ham truyén f() He Dau ra Ham tong by xX, —> ngưỡng Đầu vào Trọng số liên kết

Hình 2.8: Cầu trúc một nơ ron nhân tạo

Tập các đâu vào: La cac tin hiéu vao (input signals) cua no-ron, các tín hiệu

này thường được đưa vào dưới dạng một vector N chiêu

® Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số (gọi là trọng số liên

kết - Synaptic weight) Trọng số liên kết giữa tín hiệu vào thứ j với nơ-ron k thường

được kí hiệu là wkJ Thông thường, các trọng sỐ này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học mạng

$ Bộ tổng : Thường dùng để tính tổng của tích các đầu vào với trọng số liên

kết của nó

® Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như một thành phần của hàm truyền

$ Hàm truyền: Hàm này được đùng để giới hạn phạm vi đầu ra của mỗi nơ-ron Nó nhận đầu vào là kết quả của hàm tông và ngưỡng đã cho Thông thường, phạm vi

đầu ra của mỗi nơ-ron được giới hạn trong đoạn [0,I] hoặc [-1, 1] Các hàm truyền rất đa dạng, có thể là các hàm tuyến tính hoặc phi tuyến Việc lựa chọn hàm truyền nào

là tuỳ thuộc vào từng bài toán và kinh nghiệm của người thiết kế mạng

Trang 36

®$ Đâu ra: Là tín hiệu đầu ra của một nơ-ron, với môi nơ-ron sẽ có tôi đa là một đâu ra

Như vậy tương tự như nơ-ron sinh học, nơ-ron nhân tạo cũng nhận các tín hiệu

đầu vào, xử lý ( nhân các tín hiệu này với trọng số liên kết, tính tổng các tích thu được rồi gửi kết quả tới hàm truyền), và cho một tín hiệu đầu ra ( là kết quả của hàm truyền)

2.2.4 Các loại hàm kích hoạt

Đề mỗi nơ-ron có thể được kích hoạt, tổng các dữ liệu vào (với trọng số của

nó) phải vượt qua một giá trị giới hạn gọi là ngưỡng kích hoạt Hàm kích hoạt có vai trò quan trọng trong việc làm kích hoạt nơ-ron Các hàm này cần phải có tính phi tuyến để mạng có thể mã hóa được những đữ liệu phức tạp Hình 2.10 cho thấy

đỗ thị của một số hàm kích hoạt thông dụng, đó là hàm Sigmoid, hàm Tanh và hàm

Trang 37

2.2.5 Huấn luyện mạng nø-ron nhân tạo

Mục tiêu của pha huấn luyện mạng là học các trọng số Chúng ta cần hai thành

tố để huấn luyện một mạng nơ-ron nhân tạo:

- Dữ liệu huấn luyện: các đữ liệu đầu vào cần phân loại Trong trường hợp

phân lớp ảnh hay nhận dạng, dữ liệu vào là các bộ ảnh đã được dán nhãn; - Hàm lỗi: là một hàm để đo độ thiếu chính xác của các dự đoán;

Khi đã có hai thành tố trên, chúng ta có thể huấn luyện mạng nơ-ron nhân tạo bằng một thuật toán gọi là lan truyền ngược với luật học giảm gradien (hoặc một

dạng dẫn xuất của nó)

2.2.6 Mạng nơ-ron tích chập sâu 2.2.6.1 Tich chập:

Tích chập (convolution) duoc st dung phé biến trong xử lý tín hiệu số (digital signal processing) Nguyên lý biến đổi thông tin của nó đã được ứng dụng rộng rãi trong kĩ thuật xử lý ảnh và video số

Tích chập là một toán tử tuyến tính Tích chập trong không gian hai chiều

được mô tả như sau: cho một ma trận hai chiều I có kích thước [m x n] và một ma

trận nhỏ hơn K có kích thước [p x q] (p<m, q<n) Tích chập của ma tran I va K là một ma trận S có kích thước [@m-p+1),(n-q+1)] mà mỗi phần tử S(¡,j) được xác định theo công thức :

S(Œj) =(T+# 1Ú] = > ¥ 1 +Tmị,j + m;).Đ(m1,m2) (2.10)

ni nz

Ma tran I goi la ma trận dau vao Ma tran K gọi là nhân (kernel) hay bộ lọc (fñlter) Trong kỹ thuật xử lý ảnh, nhân còn được gọi là bộ phát hiện đặc trưng

(feature detector) Và S là ma trận kết quả

Trang 38

Tnput Kernel ‹ d i ¥ g h v Output L_—>- aw + be + bu + cœ + ew + dx + ey + fz fy + g2 gu + he ew + fa + fw + ge + ge + hao + iy + fz jy + kz ky + fz

Hình 2.10 Minh hoa co ché cia tich chập 2D

Hình 2.10 minh họa cơ chế của phép tích chập trong không gian hai chiều Và

Hình 2.11 là một ví dụ cụ thể về phép tích chập Ma trận bên trái là một bức ảnh

đen trắng Mỗi giá trị của ma trận tương đương với một điểm ảnh (pixel), 0 là màu

den, 1 la mau trắng Nhân là một ma trận 3x3 Ta dùng ma trận nhân 3x3 này nhân

từng thành phần tương ứng (element-wise) với ma trận ảnh bên trái Giá trị đầu ra do tích của các thành phần này cộng lại Kết quả của tích chập là một ma trận

(convoled feature) sinh ra từ việc trượt ma trận nhân từ trái qua phải, từ trên xuống dưới và thực hiện tích chập cùng lúc lên toàn bộ ma trận ảnh bên trái

Trang 39

Input Volume (+pad 1) (7x7x3) Filter WO (3x3x3) Filter W1 (3x3x3) Output Volume (3x3x2) x[t,2,0) wO[it,2,0 W1[t,tr0] GO[:,g:,0] 0lollo[o 09 0ö -1llo In ce ee E]: 3 0lJollo|1 0 2 0 0 lJo lì 518 a 7s 0l:illo|2 0 1 0 11h io Ei 8 10 3

eee 2 ee wO[t,3,1 wi[t,t,1] O[t,r,1]

tr HE! TIỀN HP! I0 FDSI TRE -1 Jb 17” -10 0 8 8 3 02122 õ ff y-i ffi 1 10 3 10 0 0 6 0 0 0 fi jo i an 3 8 5 7111) wũ[:rZ72 wi[t,:,2] 0 ]lo [o0 ö J Bee Oto In 1 1 |? 0 0 -1 ¬1 0 1 |2 1 rE 2 coke

eee 2 Bias bO(1x1x1) Bias b1 (1x1x1)

ian ie ae FS “nữ bot, 2,0] bi[:,:,0] 0 0 1⁄2 1 a 0 00 0 Ey#y 2] 0 ae 0 0/0 0 J2 1 00 1 lo oo ie Fes i Fee (fs Fo es ies (es (A ft es (ee as Fe a (ee eater Teed po Hình 2.11 Một ví dụ về tích chập

Mạng tích chập có được bằng cách kết hợp nhiều lớp lại với nhau Sau đây ta sẽ tìm tìm hiểu về các lớp chủ yếu của mạng tích chập gồm: lớp tích chập, lớp pooling và lớp mạng nơ-ron kết nối đầy đủ

2.2.6.2 Lop tích chập

Lớp tích chập là cách gọi vắn tắt của lớp nơ-ron tích chập Lớp tích chập có được bằng cách thực hiện phép tính tích chập lên đữ liệu từ lớp trước đó (gọi là lớp

vào) VỚI nhiều bộ lọc khác nhau kết hợp với một hàm kích hoạt đầu ra

Cơ chế của phép tính tích chập hoàn toàn tương đương với cơ chế liên kết của

mạng nơ-ron Thật vậy, từ công thức tính tích chập (2.10), nếu xem giá trị mỗi phần tử của ma trận vào I là tín hiệu đầu vào từ một nơ-ron đến, xem gia tri mỗi phan tử của ma trận bộ lọc K là một trọng số kết nối thì kết quả một phép tính tích chập cho

một phần tử của ma trận kết quả S tương đương với một phép tính tông tín hiệu đầu

Trang 40

vào của một nơ-ron Và khi áp một hàm kích hoạt với một mức ngưỡng kích hoạt

lên kết quả của phép tính tích chập này thì nó hoàn toàn tương đương với đáp ứng của một nơ-ron như biểu diễn trong công thức (2.11)

output axon = f (> W;X; + 7 (2.11)

i

Trong do:

-_ xi: là mức tín hiệu đầu vào của ngõ vào thứ 1;

-_ wi: là trọng số của khớp kết nối thir i;

- b; được xem như là ngưỡng kích hoạt của nơ-ron;

Khi trượt ma trận bộ lọc K trên ma trận vao I, cac trong số trong ma trận K được sử dụng lại trong mỗi lần tính tích chập Đặc điểm này được gọi là đặc điểm chia sẻ trọng số khi thực hiện phép tích chập cho toàn bộ ma trận đầu vào I

Ngưỡng kích hoạt cũng được dùng chung theo cách thức như vậy

Hàm kích hoạt được sử dụng phô biến ở day la ham ReLU f(x)=max(0,x), co

đồ thị đáp ứng như Hình 2.9 Hàm ReLU làm tăng tính phi tuyến cho đữ liệu đầu vào So với các hàm phi tuyến khác như Sigmoid hay TanH thì ReLU vẫn đáp ứng được yêu cầu mà sự thực thi đơn giản hơn, giúp làm tăng hiệu năng tính toán của cả hệ thống Về mặt ý nghĩa, ReLU chỉ đơn giản loại bỏ những giá trị âm đầu vào (đặt bằng 0) và giữ nguyên những giá trị dương

Như vậy, phép tích chập kết hợp với một hàm kích hoạt được xem như là cơ chế sinh ra một nơ-ron ở đầu ra Và khi áp dụng cơ chế này cho một ma trận đầu vào thì sẽ tạo một ma trận nơ-ron đâu ra

Ứng với mỗi bộ lọc, qua phép tích chập với hàm kích hoạt, một ma trận kết quả được tạo ra Ma trận này được gọi là một bản đồ đặc trưng (feature map) hay bản đổ kích hoạt (activation map) ứng với bộ lọc đã sinh ra nó Một lớp tích chập có

thé có tới vài trăm bản đồ đặc trưng Số lượng bản đồ đặc trưng sinh ra tương ứng

Tiêu đề	Nghiên Cứu Một Số Phương Pháp Phát Hiện Các Đặc Trưng Của Khuôn Mặt Người
Tác giả	Phạm Tuân
Người hướng dẫn	TS. Nguyễn Đăng Bình
Trường học	Đại học Khoa học Huế
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2018
Thành phố	Thừa Thiên Huế

Định dạng
Số trang	101
Dung lượng	47,14 MB