BO GIAO DUC VA DAO TAO
ĐẠI HỌC HUẾ
TRƯƠNG ĐẠI HỌC KHOA HỌC
PHAM TUAN
NGHIEN CUU MOT SO PHUONG PHAP
PHAT HIEN CAC DAC TRUNG
CUA KHUON MAT NGUOI
CHUYEN NGANH: KHOA HOC MAY TINH
MA SO: 60.48.01.01
LUAN VAN THAC SI KHOA HOC ĐỊNH HƯỚNG ỨNG DỤNG
NGƯỜI HUONG DAN KHOA HOC
TS NGUYEN DANG BINH
Thừa Thiên Huế, 2018
Trang 2PHAN MO DAU
1 LY DO CHON DE TAI
Cùng với sự bùng nổ thông tin, sự phát triển công nghệ cao, sự giao tiếp giữa con người và máy tính đang thay đôi rất nhanh, giờ đây giao tiếp này không còn đơn thuần đùng những thiết bị như chuột, bàn phím, v.v, mà có thê thông qua các biểu hiện của khuôn mặt Các hệ thống giao tiếp người máy đang được phát triển rất nhiều Trong số đó, có thể nói đến hệ thống nhận dạng mặt người bằng hình ảnh
Nhận dạng mặt người là xác định danh tính tự động cho từng ảnh đối tượng người dựa vào nội dung của ảnh Nhận dạng mặt người được ứng dụng nhiều trong thực tế như xác minh tội phạm, camera chống trộm, hệ thống chấm công, lưu trữ thông tin khuôn mặt ở các máy ATM, các bãi giữ xe siêu thị, v.v
Bên cạnh đó, trong công tác quản lý học sinh, sinh viên tại trường liên quan
tới con người, việc nhận dạng người thông qua các đặc điểm trên khuôn mặt là rất
quan trọng Nếu áp dụng được công nghệ nhận dạng mặt người đề hỗ trợ trong công tác thi học kỳ thì sẽ làm tăng cao tính tiện đụng của hệ thống quản lý
Hiện tượng gian lận trong Giáo dục nói chung và hiện tượng gian lận trong
học hộ, thị hộ nói riêng là vấn dé nan giải và được bản cãi nhiều đặc biệt là trước —
trong và sau mỗi kỳ thi
Trong các trường Đại học, Cao đẳng, Trung Cấp Nghề, Trung học chuyên
nghiệp mục đích của việc học hộ là tránh để mat 30% điểm học phan theo quy ché 25 của Bộ Giáo duc Việc học hộ thường xảy ra ở các lớp Liên thông, Tại chức học
vào ca tối, các lớp có tình trạng lớp đông, giáo viên mới
Đối với hiện tượng thi hộ, việc kiểm tra và đối chiếu học sinh - sinh viên vào
dự thi mất rất nhiều thời gian, đôi khi vẫn bỏ qua được đối tượng thi hộ như trường
hợp anh em thi hộ, hiện tượng tráo anh trong thẻ dự thị, hiện tượng quên thẻ sinh
viên
Tại Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang, cũng
phát hiện nhiều trường hợp thi hộ, học hộ đặc biệt là tại các lớp học tại chức, liên
Trang 3LOI CAM ON
Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc đến Tiến sĩ Nguyễn Đăng
Bình — người hướng dân khoa học, đã tận tâm, nhiệt tình hướng dân cho tôi trong suốt quá trình thực hiện luận văn này
Xin goi loi cam on đến Ban lãnh đạo Tì rường Đại học Khoa học Huế, Khoa
Công nghệ thông tin, Phòng sau Đại học, tất cả những quỷ thấy, cô đã trực tiếp giảng dạy trong suốt khóa học đề cho tôi có đủ kiến thức, kinh nghiệm và phương pháp nghiên cứu
Xin được cảm ơn Ban Giám hiệu Trường Trung Cấp Nghề Kinh Tế - Kỹ Thuật
Cơng đồn An Giang và các ban đồng nghiệp đã tạo mọi điều kiện thuận lợi cho tôi
trong suốt quá trình học tập,nghiên cứu đề hoàn thành luận văn này
Ciing xin chân thành cảm ơn sự quan tâm hỗ trợ, tạo điễu kiện và hết lòng động
viên về tỉnh thần lần vật chất của các thành viên trong gia đình trong suốt thời gian qua
Trang 4MUC LUC 09)09.9 69.0087 H I 00099019) 00057 G ,,Ô II hïI090992257 .),H,.,., m DANH /MỤG CÁG BẰNG otecguuthdtittrdtidtiittittiistHSISHHSIEHHSIEHHSIEHHSISEEHSI VI
DANH MỤC CÁC HÌNH VẼ 5-55 5+ 2t 2x vEExEEEEEErrrirrrrrerrke VII DANH MUC CAC TU VIET TAT u.ecccccscsssssssssssscssecssscssscssecsssccssccscssecenecesecesscese IX PHAN MO DAU Qoccssccsssssssssssessscssscssscssscssscssscssscssscssscsssccssesssccsscsssccssessscssscsseceseeesseeseees 1 CHUONG 1 TONG QUAN VE NHAN DANG MAT NGUOI VA XU LY ANH6
1.1 GIỚI THIỆU TÔNG QUAN VẺ NHẬN DẠNG 222 22222222222222222-e2 6
1.1.1 Khái niệm . - 52 222222221221112111211121112111211122121121212122 are 6 1.1.2 Công nghệ nhận dạng ảnh (nhận dạng mẫu L0 0211 1n 1H11 Hà nà Ha 6 1.2 TỎNG QUAN VẺ XỬ LÝ ẢNH SỐ 1 5222 2221212 tra 7 1.2.1 Các quá trình xử lý ảnh - :cccSc 212 nn nhà He 8 1.2.2 Phạm vi tng dung của xử lý ảnh se 10 1.3 GIGI THIEU BAI TOAN NHAN DANG KHUON MAT NGUOI VA UNG
DUNG CUA DE TAI VAO CO SO THUC TIEN "` 10
1.3.1 Giới thiệu bài toán nhận dạng khuôn mặt người 10
1.3.2 Ung dung ctia dé tai vao co sé thre thé occ eee well
1.4 CAC YEU TO LAM ANH HUONG TOI KET QUA NHAN DANG 11
1.5 TIEU KET CHUONG 1 oe.ocicieecccssceeeeeesssseseeeeesssssesnnetssessseseens 12
CHƯƠNG 2 CÁC PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẠẶT .13
2.1 PHƯƠNG PHÁP EIGENFACES 2-2222 222222212222122112211 211 2E ctxe 13
2.1.1 Giới thiệu về Eigenface 52 22 2222111211121121121121121 re 13
2:1z2› nh ETIPGDG sec niei50ESRSIREBBIEESEBBIEEIGERICSEGDNBEEISDRINEEEDRIREEEGĐISSlEBĐ 14
2.1.3 Sử dụng khuôn mặt đặc trưng để phân loại hình ảnh khuôn mặt 17
2.1.4 Tóm tắt kết luận phương pháp nhận dạng bằng Eigenface 21 2.2 PHƯƠNG PHÁP MẠNG NƠRON -. 2222222 2221222212211 221 22c 23 2:2:1: Định Nghia: ;aosstrisotsiitsortotissoiBiiitggtiitGREHEERORSHSVRGRIHIXESRIStRGiaBNtiRoSznoi 23
Trang 52.2.2 Ưu điểm và khuyết điểm 22-222 222211121112112112112221 2e 24
2.2.3 Nơ-ron sinh học và nơ-ron nhân †ạO - c2 1222111252111 12x kez 24 2.2.4 Các loại hàm kích hoạt L c2 1 22211112211 111221111221 11 1211111121112 21x e2 27 2.2.5 Huấn luyện mạng nơ-ron nhân †ạO it St reerre 28
2.2.6 Mạng nơ-ron tích chập sâu .- St 1S nhàng he 28
2.3 MÔ HÌNH MARKOV ẨẦN 5 22222 2t rrrae 35
2:3;:1: GIỚI thiỆU:sszixozzssessbeseditisgtiig 0200337 80TĐ83 g8GHdgDhGA03 QIG.RB8ÿ.D4-HlG1i G8 88dSiicsa 35
2.3.2 Nhận dạng khuôn mặt bằng mô hình Markov ẩn -.cccs 22s cse2 36
2.3.3 Ưu điểm và hạn chế - 2 s23 11 211115111121111211112111121111 2111121 11x etreey 42 2.4 PHUONG PHAP SUPPORT VECTOR MACHINE (8VM! - 43
2.4.1 Sơ lượt lý thuryét SVM o.oo cece csesesesesesesereteretereteretereteretaretesesereseses 43
2.4.2 SVM da lO pieces ncnnecennmneneeeananes 46
2.4.3 Chiến lược một chống một (OVO: One — versus — One) .- 46 2.4.4 Chiến lược một chống phan con lai (OVR: One — versus — Rest) 47 2.4.5 Nhận dạng mặt nguoi VO1 SVM 0.0 ec ceceeeececeeeeeeeceeseneeeesenseneeterentenes 47
2.4.6 Ưu điểm và hạn ché ccccccccccscssssssssessesesvesesessesveveevevesvesesuesestssesesstsveseavevess 50
2.5 PHƯƠNG PHÁP NHẬN DANG MẶT NGƯỜI SỬ DỤNG THƯ VIỆN
OPENFACE VÀ DLIB 52522 22222212221221121122121121121212212222 re 51
2.5.1 Giới thiệu về thu vién OpenFace o.oo cece cece eseeseeseeseeseteseeseeeeeeeees 51
2.5.2 Phương pháp nhận dạng mặt người cla OpenFace uu eee eee 51 2.5.3 Khả năng ứng dụng OpenFace vào các hệ thống có nguồn tài nguyên hạn
ee 53
2.5.4 Kỹ thuật tìm khuôn mặt trong ảnh St St sssnhreirrrrresres 34
2.5.5 Tiền xử lý ảnh khuôn mặpt 2 22 222225122512111211121112111211211211 2e 56
2.5.6 Mã hóa khuôn mặt - - - - L2 1 22211115211 112511 111112111 121111 1581111181112 2x ke 57 2.5.7 , kacesdinhdanhAinh khu6n Mabe 58
2.6 TIỂU KẾT CHƯƠNG 2 -55222::222222122111222221 11H rrrne 60
CHUONG 3 UNG DUNG CONG NGHE NHAN DANG MAT NGUOI VOI
DEEP CNNS TRONG VIEC QUAN LY CHONG THỊ HỘ - 61
3.1 NHUNG HIEN TUONG GIAN LAN PHO BIEN TRONG THICU 61
Trang 6quan sát hành vi của mô hình- cũng là tham khảo phổ biến hơn của các trình tr O,,
O¿ Ox được sinh ra như là chuỗi quan sat
Trong các tài liệu nhận dạng mẫu hành vi của HMM luôn được đề cập là một khoảng thời gian hữu hạn chiều dài T Cho việc khởi tạo các mô hình tại khoảng thời điểm xác suất bắt đầu được sử dụng để mô tả sự phân bố xác suất của các trạng
thái tại thời điểm t = 1 Các hành động của các mô hình được phải, chấm dứt ngay càng sớm cảng tốt một trạng thái tùy ý vào thời điểm T Đó không phải là một
thống kê hay là tiêu chí được khai báo để sử dụng để đánh dấu đặc biệt trạng thái
cuối cùng
Một mô hình Markov ẩn khởi tạo đầu tiên, mà thường được ký hiệu là ^„ do đó, hoàn toàn được mô tả bởi:
- Một tập hợp hữu hạn trạng thái {s | 1 < s <N} thường được gọi bằng các chi SỐ ;
- Một ma trận A chứa xác suất chuyển đổi trang thai;
A= {aj | ag= P (St =] | St-1 = 1} (2.19) - m= {nm} la ma tran phan phdi trạng thái ban đầu trong đó m, là xác suất của
mô hình ở trạng thai i tai thoi điểm ban đầu t =1
z=tz,|Z, =P(S\ =0} (2.20) - và trạng thái phân bố xác suất cụ thê đối với đầu ra của mô hình
B={b; (Oy) | bj (Ox) = P (CO Ox |S, = j )} or { bị @) | bị @) = pG|S = J9} (221)
Tuy nhién, su phan bố đầu ra cần được phân biệt tùy thuộc vào loại phát sinh mô hình được tạo ra Trong trường hợp đơn giản các kết quả được tạo ra tử một kho
rời rạc {Oy, O;„ Om} và, đo đó, có một bản chất tượng trưng Số lượng bị (Oy)
sau đó đại diện phân bố xác suất rời rạc mà có thể được nhóm lại với nhau trong một ma trận xác suất đầu ra:
B = {b„ |bụ = P (O, = Ok|Š: = ] )} (2.22) Sự lựa chọn của mô hình đầu ra có được goi la HMMs roi rac Thay vi néu quan sat số lượng vector có giá trị x € IR", sự phân bố đầu ra được mô tả trên cơ sở chức năng mật độ xác suất liên tục:
Bị (x) = p(4IS, = J ) (2.22)
Trang 7DANH MUC CAC BANG
Trang 8DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Các giai đoạn chính trong xử lý ảnh óc c Street 8
Hình 2.1 Các hình ảnh khuôn mặt được sử dụng làm tập huấn luyện 14
Hình 2.2 Khuôn mặt trung bình - - St 12 12 E1 ty He tre 16 Hình 2.3 Bảy trong số các khuôn mặt đặc trưng được tính từ những hỉnh ảnh đầu Xão:của hinth 2s lieeztsot2s01061002)3SSANGSESEIGENIEERENEEIEEEHHEETHGSEEEIGBSHEEISREHEEENHREIRĐNEBBSAMPR 17 Hình 2.4 cho ta thấy một bức ảnh và hình chiếu của nó vào không gian bảy chiều .18
Hình 2.5 Ba ảnh và hình chiếu của nó vào không gian mặt, được xác định bởi các
eigenface Tính tương đối của khoảng cách từ không gian mặt là (a) 29.8, (b) 58.5, (GÌ 52 L5 ÂbesrrsdnttrtrdittiitdintitRTRDIRGIDGISGRGRAHISEORNHTBONERXIBORSRIIRGRRSHASGRWRIGSSPSA8btgR8iteta 20 Hình: 2.6 a ảnh thiếu ánh sáng - 222222 212221221112111211121121122222 xe 22 Hình:2.6 b ảnh điệu bộ nghiêng, ngữa đầu -2- 22 222222222122121.22 2 xe 22 Hình:2.6 c ảnh cảm XÚC CƯỜI ẲO Q0 211 121121111 1111111 tr HH He 22
Hình 2.7: Cấu trúc của một nơ-ron sinh học điển hình 2 s22 222E12525552522x22 25 Hình 2.8: Cấu trúc một nơ ron nhân †ạO . - - 1 2221122211115 1151111122111 12111 E te 26 Hình 2.9 Một số hàm kích hoạt thôngrUHĐisssseecsesrrsnrirseeniditieneriirdenirisraentnirtsegg0100100 27 Hình 2.10 Minh họa cơ chế của tích (0) 05 004 D 151 29
Hình 2.11 Một ví du về tích chập -2-©222222222222122212211121121121121212 xe 30
Hình 2.12 Cơ chế tính tích chập lên một vùng ảnh 32x32x3 với bộ lọc 5x5x3 32 Hình 2.13 Cơ chế sinh ra một bản đổ đặc HƯNPx5g6g2y9920259TREBSHEPRSIEHEEISHBIPĐNMĐSspeRl 33
Hình 2.15 Cơ chế MaxPooling - 22222 221222112111211121112111211212122 1 ee 34
Hình 2.16 Mô hình mạng nơ-ron tích chập được Yann LeCun ứng dụng vào việc
phân tách chữ viết tay - 2222 221221112111211121112112212112121221212222 re 35 Hình 2.17: Chuỗi Markov có 3 trạng thái 2: 2 22221221121122122112112112121 te 37
Hình 2.18: Mô hình Markov ẩn - 55522 2222221 t2 eeeree 38
Hình 2.19 : Ví dụ về mô hình HMM 2-5 225 212112121111211112121151222 2 rae 42 Hình 2.20 Mô hình nhận dạng ảnh rời rạc c5 2S St srEerrerrerrerrrerre 48
Hình 2.21 Trích chọn đặc trưng số vùng -©22222222222211221222122121121 2 xee 49
Hình 2.22 Sơ đồ kiến trúc hệ thống nhận dạng khuôn mặt OpenFace 52
Hình 2.23 Minh họa kỹ thuật huấn luyện mô hình của OpenFace - 53
Trang 9Hình 2.24 Thiết kế của OpenFace tương thích với cac thiét bi cé nguén tai nguyén
85A ]Ï `." nằằằ 54
Hình 2.25 Thư viện dlib cung cấp các hàm tìm khuôn mặt một cách nhanh chóng và
ðnii8c AI 55
Hình 2.26 Sơ đồ 68 điểm đặc trưng trên khn mặt -2©22222222222222-ee 56 Hình 2.27 Quá trình chuẩn hóa ảnh khuôn mặt 2: + s2 SE 212E1E21t2Ezcrkt 56 Hình 2.28 Bộ 128 số đo biêu diễn đặc trưng của một ảnh khuôn mặt 57
Hình 3.1 Mô hình nhận dạng ở phòng tH1 c2: 2222122 2E rererreere 62 Hình 3.2 Sơ đồ use-case tổng quát hệ thống quản lý sinh viên vào/ra phòng thi 64
Hình 3.3 mô tả sơ đồ use-case phân rã mức 1 và 2 của chức năng quản lý đanh tính hy 8 65
Hình 3.4 Giao diện chức năng xem nhận dạng 2:22 Ssrsierrerrrrerres 66 Hình 3.5 Giao diện đăng nhập hệ thống 2- 222222 22122211221222112712121.2xe0 67 Hình 3.6 Giao diện thêm mới sinh viÊn - - c1 2112222111153 1115511115511 112511112 xx 68 Hình 3.7 Giao diện sửa thông tin sinh VIÊN 5 5 2 1S x2 SErrrerxerrrrrrrerre 69 Hình 3.8 Mô hình ứng dụng của OpenFaee - ccc ct nghe reere 70 Hình 3.9 Mô hình ứng dụng cải tiến 222 222222 221221122112211211222ee 71 Hình 3.10 Biểu đồ biểu diễn sự tương quan giữa độ tương tự lớn nhất và mức sai nhằm khả năng lớn nhất giữa các cấu hình 2-2222 221222122212221222221.2 e6 77 Hình 3.11 Thiết kế tổng thể hệ thống quản lý 2-©222222222221222122212221222ee 79 Hình 3.12 Sơ đỗ logic mô tả hệ thống quản lý tại một điểm kiểm soát 80
Hình 3.13 Kiến trúc hệ thống phần mềm tích hợp OpenFace ¿22:22 81 Hình 3.14 Sơ đỗ tuần tự giải thuật xử lý cho chức năng nhận dạng 82
Hình 3.15 Sơ đỗ tuần tự giải thuật xử lý cho chức năng thêm mới sinh viên 83
Hình 3.16 Mô hình thực thê - mối quan hệ hệ thống quản lý sinh viên Khoa 84
Hình 3.17 Mô hình CSDL quan hệ hệ thống thông tin quan lý sinh viên Khoa 85
Trang 10PHAN MO DAU
1 LY DO CHON DE TAI
Cùng với sự bùng nổ thông tin, sự phát triển công nghệ cao, sự giao tiếp giữa con người và máy tính đang thay đôi rất nhanh, giờ đây giao tiếp này không còn đơn thuần đùng những thiết bị như chuột, bàn phím, v.v, mà có thê thông qua các biểu hiện của khuôn mặt Các hệ thống giao tiếp người máy đang được phát triển rất nhiều Trong số đó, có thể nói đến hệ thống nhận dạng mặt người bằng hình ảnh
Nhận dạng mặt người là xác định danh tính tự động cho từng ảnh đối tượng người dựa vào nội dung của ảnh Nhận dạng mặt người được ứng dụng nhiều trong thực tế như xác minh tội phạm, camera chống trộm, hệ thống chấm công, lưu trữ thông tin khuôn mặt ở các máy ATM, các bãi giữ xe siêu thị, v.v
Bên cạnh đó, trong công tác quản lý học sinh, sinh viên tại trường liên quan
tới con người, việc nhận dạng người thông qua các đặc điểm trên khuôn mặt là rất
quan trọng Nếu áp dụng được công nghệ nhận dạng mặt người đề hỗ trợ trong công tác thi học kỳ thì sẽ làm tăng cao tính tiện đụng của hệ thống quản lý
Hiện tượng gian lận trong Giáo dục nói chung và hiện tượng gian lận trong
học hộ, thị hộ nói riêng là vấn dé nan giải và được bản cãi nhiều đặc biệt là trước —
trong và sau mỗi kỳ thi
Trong các trường Đại học, Cao đẳng, Trung Cấp Nghề, Trung học chuyên
nghiệp mục đích của việc học hộ là tránh để mat 30% điểm học phan theo quy ché 25 của Bộ Giáo duc Việc học hộ thường xảy ra ở các lớp Liên thông, Tại chức học
vào ca tối, các lớp có tình trạng lớp đông, giáo viên mới
Đối với hiện tượng thi hộ, việc kiểm tra và đối chiếu học sinh - sinh viên vào
dự thi mất rất nhiều thời gian, đôi khi vẫn bỏ qua được đối tượng thi hộ như trường
hợp anh em thi hộ, hiện tượng tráo anh trong thẻ dự thị, hiện tượng quên thẻ sinh
viên
Tại Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang, cũng
phát hiện nhiều trường hợp thi hộ, học hộ đặc biệt là tại các lớp học tại chức, liên
Trang 11Sau quá trình học tập chương trình thạc sỹ ngành Khoa học máy tinh ở Trường
Đại học Khoa học, Đại học Huế, tôi đã tiếp thu được nhiều kiến thức quý báo, nhất là trong lĩnh vực nhận dạng Xuất phát từ nhu cầu thực tế về việc quản lý chặt chẽ
các sinh viên học tập tại Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An
Giang, khắc phục các hạn chế nêu trên, tôi quyết định chọn và thực hiện để tài
“Nghiên cứu một số phương pháp phát hiện các đặc trưng của khuôn mặt
người”, và ứng đụng vào việc chống hiện tượng gian lận trong học hộ, thi hộ trong
các kỳ thi tại trường
2 TONG QUAN TAI LIEU
Nhận dạng mặt người là một trong những vấn để rất thách thức trong lĩnh vực thị giác máy tính và máy học [1] Các công trình nghiên cứu gần đây đã nâng
khá cao độ chính xác của hệ thống nhận dạng
Bài báo “Nhận dạng mặt người với giải thuật HAAR LIKE FEATURE —
CASCADE OF BOOSTED CLASSIFIERS và đặc trưng SIFT” đăng trên Tạp chí Khoa học của Trường Đại học An Giang, năm 2014, quyền 3, về cơng trình nghiên cứu của Đồn Thanh Nghị và Châu Ngân Khánh về một phương pháp nhận dạng mặt người sử dụng kết hợp Haar Like Feature - Cascade of Boosted Classifiers (CBC) và các đặc trưng cục bộ không đổi (Scale-Invariant Feature Transform - SIFT) [2] có kết quả thử nghiệm trên 80% khi áp dụng cho các tập đữ liệu AT&T,
Face94, Face95, Face96, Grimace, Jaffe Bài báo cũng có đề cập tới một số kỹ thuật
nhận dạng mặt người khác đã được nghiên cứu và sử dụng trước đây
Nhiều phương pháp trong nhận dạng khuôn mặt đã tập trung vào phát hiện
các tính năng riêng biệt như mắt, mũi, miệng, đầu và xác định một số kiểu khuôn mặt bằng vị trí, kích thước, và mối quan hệ Kết quả nhận dạng của nhiều hệ thống
cũng rất khác nhau, tùy thuộc vào dữ liệu kiêm thử Trong những phương pháp nhận dạng khuôn mặt có một số phương pháp rất nổi tiếng và kinh điển đó là
EigenFace [6] được nghiên cứu và tìm hiểu, từ đó phát hiện ra khuôn mặt rõ nét hơn Ngoài ra, Một hệ thống xác thực khuôn mặt dựa trên phân tích thành phần
Trang 12su dung để tạo ra cơ sở dữ liệu khuôn mặt và nhận ra và chứng thực khuôn mặt
bằng cách sử đụng các trọng lượng này [7] Trong công việc này, một mạng riêng
biệt đã được xây dựng cho mỗi người Khuôn mặt đầu vào được chiếu lên vùng
không gian bản địa đầu tiên và mô tả mới được thu được giải pháp dùng mạng nơ-
ron để nhận dạng mặt người [13], kỹ thuật nhận dạng đã tiến một bước dài về hiệu
năng và độ chính xác đóng vai trò rất quan trọng trong lĩnh vực thị giác máy tính
+ Các nghiên cứu trước đây (Bledsoe, & cs., 1960; Goldstein, & cs., 1970), sử dụng tiếp cận dựa trên các đặc trưng như mắt, tai, màu tóc, độ dày môi để tự động nhận dạng (Ion Marqués, 2010)
+ Kirby và Sirovich (1988); Turk và Pentland (1991) áp dụng phương pháp phân
tích thành phan chinh (PCA) va thuat toan eigenfaces dé nhan dang khuôn mặt
3 MỤC TIỂU NGHIÊN CỨU
- Mục tiêu chung: tập trung nghiên cứu công nghệ nhận dạng mặt người sử Deep Learning trong mang no-ron tich chap CNN (Convolutional Nerual Network) và ứng dụng nó để tích hợp vào ứng dụng quan ly sinh viên tránh việc thi hộ tại Trường Trung Cấp Nghẻ Kinh tế - Kỹ thuật Cơng đồn An Giang
* Mục tiệu cụ thé:
“ Tìm hiểu về kỹ thuật nhận đạng mặt người ứng dụng kỹ thuật Deep Learning và mạng nơ-ron tích chập sâu
“ Tìm hiểu nguồn mở OpenFace trong việc nhận dạng mặt người
" Xây dựng hệ thống nhận dạng mặt người hỗ trợ công tác quản lý sinh viên
tránh việc thi hộ dựa vào mã nguồn mở OpenFace
4 DOI TUONG NGHIÊN CỨU
Đối tượng nghiên cứu bao gồm:
- Mô hình nhận dạng mặt người sử dụng kỹ thuật Deep Leaming với mạng nơ-ron tích chập sâu
- Dữ liệu ảnh mặt người của sinh viên Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang
Trang 135 PHUONG PHAP NGHIEN CUU
-Tim hiéu, phan tich va téng hợp tài liệu có liên quan đến để tài từ các nguồn như: Internet, các bài báo, sách, giáo trình trong và ngoài nước
- Tổng hợp và phát triển các kết quả ở trong các bài báo của các tác giả đã nghiên cứu thành công trước đó
- Phân tích các đự án nguồn mở liên quan, từ đó để ra những cải tiến cho phù hợp với ứng dụng mà đề tài đang hướng tới
6 PHẠM VI NGHIÊN CỨU
- Phạm vi nghiên cứu: Luận văn chỉ tập trung nghiên cứu về khía cạnh ứng dụng của công nghệ nhận dạng mặt người sử dụng kỹ thuật Deep Learning với mạng nơ-ron tích chập sâu, dựa trên cơ sở lý thuyết của một số phương pháp nghiên
cứu tìm hiểu được, áp dụng xây dựng chương trình nhận dạng biểu cảm khuôn mặt thông qua mắt, mũi, miệng dựa trên ảnh tĩnh (lưu dưới dạng BIÍTMAP), hoặc trên
ảnh chụp từ webcam
- Đưa ra được kết quả nghiên cứu về mặt lý thuyết một số cơ sở của phương pháp nhận dạng biểu cảm khuôn mặt, xây dựng được chương trình với một số kỹ
thuật biểu cảm khuôn mặt dựa trên đầu vào là ảnh tĩnh hoặc video, từ đó nêu ra một
số vấn để ứng dụng trong thực tế
- Nghiên cứu việc triển khai thực tế thông qua việc ứng dụng mã nguồn mở
OpenFace vào bài toán cụ thể là quản lý sinh viên tránh việc học hộ và thị hộ tại
Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang
- Không gian nghiên cứu: thực hiện tại Trường Trung Cấp Nghề Kt-Kt Cơng đồn An Giang với webcam và camera chụp ảnh tĩnh ở phòng học và phòng thi
- Thời gian thực hiện: 6 tháng từ 20/2/2018 đến 20/07/2018
- Hiện tại liên quan đến phát hiện và thị giác máy tính chưa được nghiên cứu nhiều trong nước, phần lớn các nghiên cứu xuất phát từ quốc gia phát triển như Châu Âu và Châu Mỹ Do đó nghiên cứu lĩnh vực này là một lĩnh vực tương đối
Trang 147 Y NGHIA THUC TIEN CUA DE TAI
Đề tài có tính ứng dụng cao Ngoài việc triển khai thành ứng dụng thực tế với bài toán cụ thể là quản lý sinh viên chống thi hộ ở Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang, tập trung vào phân hệ kiểm soát vào/ra phòng thị,
nó còn có thể triển khai thành một số ứng dụng khác như nhận dạng và điểm danh
học viên trong các lớp học của Trung tâm Ngoại ngữ - Tin học Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Công đồn An Giang: kiểm sốt vào ra ở những khu vực
quan trọng
8 NOI DUNG NGHIEN CUU VA DU KIEN BO CUC CUA LUAN VAN
8.1 Nội dung nghiên cứu
- Lựa chọn lĩnh vực làm luận văn : Mô hình phân lớp sử dụng mạng nơ-ron
tích chập với kỹ thuật Deep Learning
- Lập kế hoạch và quy trình quản lý học sinh sinh viên tránh việc học hộ và thì
hộ Trường Trung Cấp Nghè Kinh tế - Kỹ thuật Cơng đồn An Giang
- Thực hiện nghiên cứu và triển khai thành ứng dụng thực tế với bài toán cụ
thé là quản lý học sinh sinh viên tránh việc thi hộ tại Trường Trung Cấp Nghề Kinh tế - Kỹ thuật Cơng đồn An Giang, tập trung vào phân hệ kiểm soát vào/ra phòng thị
8.2 Bố cục của luận văn
-_ Mở đầu
- Tinh cap thiết của dé tai
- Muc tiéu của luận văn
- Ynghia thuc tiến
Chương 1: Tổng quan về nhận dạng mặt người và xử lý ảnh: Chương này giới thiệu tổng quan về các kỹ thuật sử lý ảnh số, tổng quan nhận dạng mặt người
Chương 2: Các phương pháp nhận dạng khuôn mặt: Chương này trình bày các phương pháp nhận dạng khuôn mặt phổ biến hiện nay như Eigenfaces, mạng
Nơron, SVM, Mô hình Markov ấn,
Chương 3: Ứng dụng công nghệ nhận dạng mặt người với Deep CNNs trong
việc quản lý quản lý học sinh, sinh viên tránh việc học hộ và thị hộ trường Trung
Trang 15PHAN 2 NOI DUNG
CHU ONG 1 TONG QUAN VE NHAN DANG MAT NGUOI VA XU LY ANH
1.1 GIOI THIEU TONG QUAN VE NHAN DANG
1.1.1 Khai niém
Nhận dạng là quá trình phân loại các đối tượng được biểu diễn theo một mô
hình nào đó và gán cho chúng vào một lớp (gán cho đối tượng một tên gọi) dựa theo những quy luật và các mẫu chuẩn Quá trình nhận đạng dựa vào những mẫu học biết trước gọi là nhận dạng có giám sát (supervised learning); trong trường hợp ngược lại gọi là học không có giám sát (non supervised learning) Ngày nay nhận dạng đang là đề tài nghiên cứu áp đụng trong việc thiết kế hầu như tất cả các hệ thống tự
động.Các lĩnh vực liên quan với Nhận dạng: khai phá dữ liệu (data mining), học
may (machine learning), thi giác máy tính (eomputer vision) mạng nơ ron, lý thuyết ra quyết định thống kê
Như vậy có thể hiểu nhận dạng là một môn khoa học nhằm trang bị phương
pháp luận đê mô phỏng nhận thức, trang bị cho máy tính có khả năng nhận biết Đối
tượng nhận dạng: là một thực thể tổn tại mà con người có thể cảm nhận được Vidu: - Hình ảnh được cảm nhận bởi mắt
- Tiéng nói được cảm nhận bởi tai
- Tín hiệu điện tim cảm nhận bởi hình dạng hoặc số số liệu đo - Tín hiệu động đất cảm nhận bởi số liệu đo
1.1.2 Công nghệ nhận dạng ảnh (nhận dạng mẫu )
Nhận dạng mẫu (pattern recognition) 14 mot nganh thudc lĩnh vực hoc may(machine learning) Noi cach khác, nó có thể được xem là việc “cần thực hiện một tác động vào dữ liệu thô mà tác động cụ thể là gì sẽ tùy thuộc vào loại dữ liệu
Trang 16Nhận dạng mẫu nhằm mục đích phân loại dữ liệu (là các mẫu) dựa trên: hoặc là kiến thức tiên nghiệm hoặc dựa vào các thông tin thống kê được trích rút từ các
mẫu có sẵn Các mẫu cần phân loại thường được biểu diễn thành các nhóm của các
dữ liệu đo đạc hay quan sát được, mỗi nhóm là một điểm trong một không gian đa
chiều phủ hợp Đó là không gian của các đặc tính mà dựa vào đó ta có thé phân loại
Một hệ thống nhận dạng mẫu hoản thiện gồm có một thiết bị cảm nhận (sensor) để thu thập các quan sát cần cho việc miêu tả; một cơ chế trích rút đặc
trưng để tính toán các thông tin dưới dạng số hay dạng tượng trưng từ các dữ liệu
quan sát được; và một bộ phân loại nhằm thực hiện công việc phân loại thực sự dựa vào các đặc tính đã được trích rút
Việc phân loại thường dựa vào sự có sẵn của một tập các mẫu mà đã được
phân loại hay mô tả sẵn Tập các mẫu này được gọi là tập huấn luyện và chiến lược
học nhằm phân loại mẫu vào một trong các lớp có sẵn được gọi là học có giám sát
Việc học cũng có thể là không có giám sát, theo nghĩa là hệ thống không được cung cấp các mẫu được cung cấp các mẫu được đánh nhãn tiên nghiệm, mà nó phải tự đưa ra các lớp để phân loại đựa vào tính ổn định trong thống kê của các
mau
Việc phân loại thường dùng một trong các hướng tiếp cận sau: thống kê, cú pháp Nhận dạng mẫu đùng thống kê là dựa vào các đặc tính thông kê của các mẫu,
chang hạn các mẫu được tạo bởi các hệ thống xác suất Nhận dạng dùng cấu trúc là
dựa vào tương quan câu trúc giữa các mâu
Các ứng dụng phổ biến là: nhận đạng tiếng nói tự động, phân loại văn bản
thành nhiều loại khác nhau (ví dụ: những thư điện tử nào là spam/ non-spam), nhận dạng tự động các mã bưu điện viết tay trên các bao thư, hay hệ thống nhận dạng danh tính dựa vào mặt người
1.2 TÔNG QUAN VÈ XỬ LÝ ẢNH SÓ
Xử lý ảnh @XLA) là đối tượng nghiên cứu của lĩnh vực thị giác máy, là quá
trình biến đổi từ một ảnh ban đầu sang một ảnh mới với các đặc tính và tuân theo ý
Trang 17đối tượng, làm tăng chất lượng, phân đoạn và tách cạnh, gán nhãn cho vùng hay quá trình biên dịch các thông tin hình ảnh của ảnh
Cũng như xử lý dữ liệu bằng đỗ hoạ, xử lý ảnh số là một lĩnh vực của tin học
ứng dụng Xử lý dữ liệu bằng đỗ họa dé cập đến những ảnh nhân tạo, các ảnh này
được xem xét như là một cấu trúc dữ liệu và đươc tạo bởi các chương trình Xử lý
ảnh số bao gồm các phương pháp và kỹ thuật biến đổi, đề truyền tải hoặc mã hoá các ảnh tự nhiên Mục đích của xử lý ảnh gồm:
+ Biến đổi ảnh làm tăng chất lượng ảnh
+ Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung của ảnh Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh thành
những phần có ý nghĩa dé phân biệt đối tượng này với đối tượng khác, dựa vào đó ta có thê mô tả cấu trúc của hình ảnh ban đầu Có thê liệt kê một số phương pháp
nhận dạng cơ bản như nhận dạng ảnh của các đối tượng trên ảnh, tách cạnh, phân
đoạn hình ảnh Kỹ thuật này được dùng nhiều trong y học (xử lý tế bào, nhiễm
sắc thé), nhận dang chữ trong văn ban, nhận dạng khuôn mặt người 1.2.1 Các quá trình xử lý ảnh ‘Tach cdc “ Nhận dang | dae tinh | |và giải thích) ‘Thu nhan [Tiên xử ` ` Phần
hình 1 1 Các giai đoạn chính trong xử lý ảnh
Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với quá
trình XLA Ảnh đầu vào sẽ được thu nhận qua các thiết bị như camera, sensor, máy scanner,v.V và sau đó các tín hiệu này sẽ được số hóa Việc lựa chọn các thiết bị
thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối tojợng cần xử lý Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc
độ thu nhận ảnh của các thiết bị
Trang 18nữa, chuẩn bị cho các bước xử lý phức tap hon vé sau trong qua trinh XLA Qua
trình nay thường được thực hiện bởi các bộ lọc
Phân đoạn ảnh: phân đoạn ảnh là bước then chốt trong XLA Giai đoạn này phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông Tiêu chuẩn để xác định các vùng liên thông có thể là cùng
màu, cùng mức xám v.v Mục đích của phân đoạn ảnh là để có một miêu tả tổng
hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu
Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được cho dưới
dạng dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh, hoặc tập hợp
tất cả các điểm ảnh thuộc về chính vùng ảnh đó Trong cả hai trường hợp, sự chuyển đổi đữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính là rất cần thiết Để chuyên đổi chúng, câu hỏi đầu tiên cần phải trả lời là nên biểu diễn một vùng ảnh dưới dạng biên hay dưới dạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó Biểu diễn dạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếu đến các đặc trưng hình đạng bên ngoài của
đối tượng, ví dụ như các góc cạnh và điểm uốn trên biên chẳng hạn Biểu diễn dạng
vùng lại thích hợp cho những ứng dụng khai thác các tính chất bên trong của đối
tượng, ví dụ như vân ảnh hoặc cầu trúc xương của nó Sự chọn lựa cách biểu diễn
thích hợp cho một vùng ảnh chỉ mới là một phần trong việc chuyển đổi đữ liệu ảnh thô sang một dạng thích hợp hơn cho các xử lý về sau Chúng ta còn phải đưa ra một phương pháp mô tả đữ liệu đã được chuyên đổi đó sao cho những tính chất
cần quan tâm đến sẽ được làm nổi bật lên, thuận tiện cho việc xử lý chúng
Nhận dạng và giải thích: Đây là bước cuối cùng trong quá trình XLA Nhận
dang anh co thể được nhìn nhận một cách đơn giản là việc gán nhãn cho các đối tượng trong ảnh Ví dụ đối với nhận dạng chữ viết, các đối tượng trong ảnh cần
Trang 19đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu được trong ảnh
Giải thích là công đoạn gán nghĩa cho một tập các đối tượng đã được nhận biết
Chúng ta cũng có thê thấy rằng, không phải bất kỳ một ứng dụng XLA nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải thích thường chỉ có mặt
trong hệ thống phân tích ảnh tự động hoặc bán tự động, được dùng để rút trích ra
những thông tin quan trọng từ ảnh, ví dụ như các ứng dụng nhận dạng ký tự quang
học, nhận dạng chữ viết tay V.V
1.2.2 Phạm vi ứng dụng của xử lý ảnh
Xử lý ảnh đã đem lại nhiều ứng dụng trong nhiều lĩnh vực khác nhau: y học,
khoa học hình hình sự, khí tượng thuỷ văn, quản lý, giám sát hành vị đối tượng,
quản lý học sinh, sinh viên trường học
Quản lý là là một trong những ứng dụng quan trọng của xử lý ảnh Cùng với sự bùng nỗ của kinh tế thị trường Khối lượng quản lý càng lớn, như quản lý hồ sơ, quân lý phiếu điều tra trong công tác thống kê, các câu hỏi trắc nghiệm Đề thực
hiện các công việc trên một cách chính xác, nhanh chóng và hiệu quả Xử lý ảnh và nhận dạng đã nghiên cứu và phát triển mạnh mẽ bài toán nhập liệu tự động
1.3 GIỚI THIỆU BÀI TỐN NHẬN DẠNG KHN MẶT NGƯỜI VÀ ỨNG DỤNG CỦA ĐÈ TÀI VÀO CƠ SỞ THỰC TIẾN
1.3.1 Giới thiệu bài tốn nhận dạng khn mặt người
Nhận dạng mặt người (Face recognition) được nghiên cứu từ nhưng năm 1980, là một lĩnh vực nghiên cứu của ngành thị giác máy tính (Computer Vision), và cũng
được xem là một lĩnh vực nghiên cứu của ngành sinh trắc học (Bliometries) tương tự
như nhận dạng vân tay — Fingerprint recognition, hay nhận dạng mống mắt - Iris recognition Trong khi nhận dạng vân tay và mống mắt có thể áp dụng trên thực tế
một cách rộng rãi thì nhận dạng mặt người vẫn còn nhiều thách thức So với nhận
dạng vân tay và mống mắt, nhận dạng mặt có nguồn dữ liệu phong phú hơn và ít đòi
hỏi sự tương tác có kiểm soát hơn Bài toán nhận dạng mặt người còn nhiều thách
Trang 20thức nên hàng năm trong và ngoài nước vân có nhiêu nghiên cứu về các phương pháp nhận dạng mặt người
Một hệ thống nhận dạng mặt người thường thực hiện hai bước: phát hiện khuôn mặt và định danh đối tượng Việc quan trọng của hệ thống là sử dụng kỹ thuật để rút trích các đặc trưng từ ảnh khuôn mặt Sau đó thực hiện đối sánh với các mẫu có sẵn để định danh đối tượng hoặc biểu diễn các đặc trưng đó qua một dạng dữ liệu trung gian rồi dùng các thuật toán phân loại để định danh đối tượng Độ
chính xác của hệ thống nhận dạng phụ thuộc rất nhiều vào phương pháp được sử dụng
1.3.2 Ứng dụng của đề tài vào cơ sở thực tiễn
Trong luận văn này, tôi tập trung tìm kiếm và để xuất một thuật toán hiệu
quả nhận dạng khuôn mặt nhằm chống gian lận trong thi cử
Do các khó khăn của bài toán nhận dạng khuôn mặt như: Tư thế góc chụp, sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt, sự biểu cảm của khuôn mặt,
sự che khuất, hướng của ảnh, điều kiện của ảnh
Vì thế trong luận văn này tôi đưa ra những giả định và ràng buộc sau làm giảm độ phức tạp của bài toán như sau:
- Góc ảnh trực diện (frontal) hoặc gần như trực diện, không bị che khuất (no
occlusion)
- Ảnh được chụp trong điều kiện ánh sáng bình thường
- Cơ sở dữ liệu ảnh nhỏ, khoảng trăm ảnh
- Ảnh được xét trong luận văn là ảnh SỐ, nghĩa là ảnh mặt người được chụp từ các thiết bị như máy ảnh số, camera, Luận văn không xem xét các ảnh mặt người nhân tạo như vẽ, điêu khắc
1.4 CAC YEU TO LAM ANH HUONG TOI KET QUA NHAN DANG:
Ánh sáng: Ảnh kỹ thuật số biểu diễn cường độ sáng của đối tượng, đo đó khi ánh sáng thay đổi, thông tin về đối tượng sẽ bị ảnh hưởng
Trang 21Cự ly của đôi tượng so với camera: khoảng cách đôi tượng so với camera sẽ xác định số pixel ảnh quy định nên khuôn mặt
Cảm xúc biêu cảm trên khuôn mặt: các nét biêu cảm cảm xúc trên khuôn mặt
gây ra nhiễu, việc loại nhiễu này vẫn chưa có phương pháp hiệu quả
Tư thế đứng của đối tượng (nghiêng, xoay ): tư thế của đối tượng sẽ xác định thông tin của đối tượng đó Việc tư thế thay đổi quá lớn sẽ làm thay phần lớn thông tin về đối tượng, dẫn đến kết quả nhận dạng sai
Trang phục của đối tượng: Kết quả nhận dạng có thể bị ảnh hưởng lớn nếu như
đối tượng có các trang phục khác biệt so với mẫu như đeo kính, đội mũ, 1.5 TIỂU KẾT CHƯƠNG 1 Chương này giới thiệu tổng quan về các kỹ thuật sử lý ảnh số, tổng quan nhận dạng mặt người 1.1 Giới thiệu chung về Tổng quan nhận dạng mặt người 1.2 Tông về xử lý ảnh sé
1.3 Giới thiệu bài toán nhận dạng khuôn mặt người và Ứng dụng của dé tai vào cơ sở thực tiễn
Trong phần: 1.4 Các yếu tố làm ảnh hưởng tới kết quả nhận dạng, đã nêu
những khó khăn của bài tốn nhận dạng khn mặt như: Tư thế góc chụp, sự xuất hiện hoặc thiếu một số thành phan của khuôn mặt, sự biểu cảm của khuôn mặt, sự che khuất, hướng của ảnh, điều kiện của ảnh
Chương 2 sẽ trình bày rõ về những công nghệ và các phương pháp nhận đạng khuôn mặt phổ biến đã được nghiên cứu và ứng dụng
Trang 22CHƯƠNG 2 CÁC PHƯƠNG PHÁP NHẬN DẠNG KHUÔN MẶT 2.1 PHƯƠNG PHÁP EIGENFACES
2.1.1 Giới thiệu về Eigenface
Ý tưởng sử dụng eigenfaces đã được phát trién béi Sirovich, Kirby (1987), Kirby và Sirovich (1990) tìm các hình ảnh của khuôn mặt bằng cách phân tích
thành phan chính trên khuôn mặt Bắt đầu với tập các hình ảnh khuôn mặt ban đầu, họ đã tính toán một hệ thống tọa độ tốt nhất cho ảnh, mỗi tọa độ là một hình ảnh gọi
là Eigenpicture Tác giả lập luận rằng, tập các hình ảnh khuôn mặt có thể là khoảng cách gần đúng được khôi phục bằng cách lưu trữ một tập nhỏ các trọng số cho từng khuôn mặt và một tập nhỏ các hình ảnh chuẩn (eigenpictures) Trọng số từng khuôn mặt được tính bằng cách chiếu hình ảnh khuôn mặt vào eigenpicture
Nhận diện khuôn mặt gồm các hoạt động khởi tạo sau:
> Khởi tạo tập các hình ảnh khuôn mặt (tập huấn luyện)
> _ Tính eigenfaces từ tập huấn luyện, chỉ giữ lại những hình ảnh M tương ứng với giá trị đặc trưng cao nhất Hình ảnh M xác định không gian mặt, nếu
là khuôn mặt mới, eigenfaces có thể được cập nhật hoặc tính toán lại
> Tính toán phân bổ tương ứng trong không gian trọng lượng M-chiều
cho mỗi khuôn mặt đã nhận dạng, bằng cách chiếu hình ảnh khuôn mặt vào “không
gian mặt”
Trang 232.1.2 Tính Eigenface
Hinh 2 1 Các hình ảnh khuôn mặt được sử dụng làm tập huấn huyện
Chiếu hình ảnh khuôn mặt I (x, y) vào không gian 2 chiều N của mảng A" (8-
bit) gia tri cường độ Hình ảnh được coi như là một vector có kích thước N2, do đó hình ảnh có kích thước 256 x 256 sẽ trở thành vector có kích thước 65.536 hoặc
tương đương với một điểm trong không gian
Hình ảnh khuôn mặt giống hình oval không được phân loại trong không gian ảnh lớn này, nên được mô tả bởi không gian con nhỏ hơn Ý tưởng chính là tìm vector tốt nhất cho việc phân bồ hình ảnh khuôn mặt trong tồn bộ khơng gian ảnh Vectơ xác định không gian con của hình ảnh khuôn mặt, gọi là “không gian mặt”
Mỗi vector có chiều dài N2 là sự kết hợp tuyến tính của các hình ảnh khuôn mặt
ban đầu Vì vector là vector đặc trưng của ma trận phương sai ứng với hình ảnh
khuôn mặt ban đầu Hình 2.1 là tập huấn luyện các hình ảnh khuôn mặt
Trang 24Tap huấn luyện các hình ảnh khuôn mặtlà II ;I2 ; I3 Im Khuôn mặt trung bình của tập hợp được xác định bởi : vo TẾ Ih; méi khuôn mặt
khác nhau có giá trị trung bình : ® ; = Iÿ - W[1[1Eikhuôn mặt trung bình # được thé hiện trong Hình 2.2 Đây là tập lớn các vector phụ thuộc vào việc phân tích thành
phần chính, để tìm kiếm một tập M vector trực chuẩn uạ , mô tả sự phân bổ dữ liệu Vector uy được tính như:
- 1w ry
k=lnalhe,) 2D
Vector này lớn nhất phụ thuộc vào:
T., =œ =Ÿ 1, fl=k
UP we Suc Yrs (22) 0, otherwise
Vector uy và vô hướng À¿ là vector đặc trưng va vector trị riêng, tương ứng của ma trận phương sai :
_1 “AAT
C=— M_@,@, AA (2.3)
Trong do ma tran: A = [ ®1®2 .®A/ ] Tuy nhiên xác định vector đặc trưng NỶ và giá trị đặc trưng là công việc khó khăn đối với kích cỡ các ảnh Như vậy ta cần một phương pháp tính toán để tìm ra vector đặc trưng
Nếu số lượng các điểm đữ liệu trong không gian ảnh là ít hơn so với kích thước của không gian (M <N'?), thì sẽ chỉ có M-I, thay vì NỈ vector đặc trưng (Các vector đặc trưng còn lại sẽ kết hợp với giá trị đặc trưng) Có thê tìm ra phương án cho vector đặc trưng kích thước NŸ trong trường hợp này bằng cách, đầu tiên ta
chiếu vector đặc trưng lên ma trận M của M, (như ta tính ma trận 16x16 chứ không phải ma trận 16,384 x 16,384), sau đó dùng tổ hợp tuyến tính thích hợp của hình ảnh khn mặt ®, tính toán vector đặc trưng vi của ATA như sau :
AT4w,= mự, (2.4)
Trang 25Taco:
AAA; = WAV
Ta thay rang Avi la vector đặc trưng của C = AAT
Hinh 2.2 Khuôn mặt trung bình
Xây dựng ma trận M của M, L=ATA khi L„ụạ= ®Ÿ ®„„ và tìm các vector đặc
trưng M, v, của L Những vector xác định tổ hợp tuyến tính của tập huấn luyện hình
ảnh khuôn mặt M để tạo thành vector đặc trưn gu;
Ur Dies Địy®ịy IS 1 M (2.5)
Trong thuc té, tap huấn luyện của hỉnh ảnh khuôn mặt sẽ tương đối nhỏ
(M<M?), và bài toán trở nên dễ dàng hơn Các giá trị đặc trưng liên quan cho phép ta xếp các vector đặc trưng theo tính hữu dụng của nó trong việc mô tả sự biến đổi giữa các hình ảnh Hình 2.3 cho ta thấy 7 vector đặc trưng bắt nguồn từ những hình
ảnh đầu vào của Hình 2.1
Trang 26
Hình 2.3 Bảy trong số các khuôn mặt đặc trưng được tinh từ những hình ảnh đâu vào của hình 2 1
2.1.3 Sử dụng khuôn mặt đặc trưng để phân loại hình ảnh khuôn mặt
Hình ảnh khuôn mặt đặc trưng được tính từ vector đặc trưng L trải rộng trên
tập mô tả về những hình ảnh khuôn mặt Sirovich và Kirby (1987) đã dự đoán rằng
khoảng 40 eigenfaces là đủ cho một tập mô tả hình ảnh khuôn mặt, vậy M' = 40
eigenfaces
Trong đó M' là điều kiện đủ để nhận đạng Các eigenfaces trải trong không gian con M' chiều của không gian hình ảnh ban đầu NỈ Vector đặc trưng M' của ma trận L là vector có giá trị đặc trưng lớn nhất Trong nhiều trường hợp thử
nghiệm, dựa trên M=16 hình ảnh khuôn mặt thì tính được Mˆ=7 eigenfaces
Một hình ảnh khuôn mặt mới (I) đưa vào “không gian mặt” được tính như
sau:
œy=MẸ(T—W) ;Ướik=1 M— (26)
Trang 27
Hình 2.4 cho ta thấy một bức ảnh và hình chiếu của nó vào không gian bảy chiéu Hình 2.4: Hình ảnh khuôn mặt ban đầu và hình chiếu của nó lên không gian
mặt được xác định bởi các eigenfaces của hình 2.3
Vector QÏ= [ @I; ®a: @„:] mơ tả thuộc tính của eigenface, xu ly các
eigenfaces như tập cơ sở cho hình ảnh khuôn mặt Các vector được sử dụng trong
thuật toán nhận dạng mẫu chuẩn để tìm ra một số lớp khuôn mặt được xác định
trước Phương pháp đơn giản để xác định lớp khuôn mặt tốt nhất là tìm lớp khuôn mặt đó bằng khoảng cách tối thiểu Euclide
Su||2— @/|! 27
Trong đó €2 là vector mô tả lớp khuôn mặt #th Lớp khn mặt ©; được tính bằng trung bình kết quả các eigenface đặc trưng trên một số lượng nhỏ các hình
ảnh khuôn mặt của một người Một khuôn mặt được phân loại thuộc lớp k, khi éy là
nhỏ nhất đến ngưỡng ø; Ngược lại khuôn mặt được phân loại là ‘khéng biét’ va
tùy chọn sử dụng để tạo ra một lớp mặt mới
Việc tạo các vector trọng lượng tương đương với chiếu hình ảnh khuôn mặt
ban đầu lên không gian mặt, nhiều hình ảnh sẽ chiếu vào vector mẫu nhất định Đây
Trang 28không phải là vấn đề đối với hệ thống, tuy nhiên khi khoảng cách £ giữa ảnh và
không gian mặt chỉ đơn giản là khoảng cách bình phương giữa các hình ảnh đầu vào ®=T-V and OF LM, al (2.8) Hình chiếu của nó lên không gian mặt: €= ||S— ||? (2.9) Như vậy có bốn khả năng cho hình ảnh đầu vào và vector mô hình của nó: + Gần không gian mặt và gần một lớp mặt + Gần không gian mặt nhưng không ở gần một lớp mặt đã biết % Xa không gian mặt và gần một lớp mặt %E Xa không gian mặt và xa lớp mặt
Trong trường hợp đầu tiên, mặt người được nhận dạng và xác định Trường
hợp thứ hai chỉ ra rằng hình ảnh không phải là hình ảnh khuôn mặt Trường hợp ba
được thể hiện như một đại lượng dương tính trong hệ thống nhận dạng Hình 2.4
cho thấy một số giải pháp đo lường về khoảng cách giữa không gian mặt
Trang 29(a) 29.8 (b) 58.5 (c) 5217.4
Hình 2.5 Ba ảnh và hình chiếu của nó vào không gian mặt, được xác định bởi
các eigenface Tính tương đối của khoảng cách từ không gian mặt là (a) 29.8,
(b) 58.5, (c) 5217.4
20
Trang 30
2.1.4 Tóm tắt kết luận phương pháp nhận dang bang Eigenface
2.1.4.1 Tóm tắt
Su dung eigenface để nhận diện khuôn mặt bao gồm các bước sau:
* Tạo tập các hình ảnh khuôn mặt đặc trưng, tập này gồm một số hình ảnh của
một số người, với thay đổi trong biéu cảm và ánh sáng (bốn ảnh cho 10 người, do
đó M=40)
» Tính ma trận L (40x40), tìm vector đặc trưng và giá trị đặc trưng của nó,
chọn vector đặc trưng M' với các giá trị đặc trưng liên kết cao nhất (trong ví dụ này
M’=10)
*Két hop hudn luyén tap cdc hinh anh theo phuong Eq Két qua (M’=10) eigenfaces u;
« Với mỗi hình ảnh được biết, tính toán lớp vector ©„ bằng trung bình mẫu vector eigenface © tính từ bốn ảnh cá nhân ban đầu Chọn ngưỡng ø¿ xác định khoảng cách lớn nhất từ bất kỳ lớp mặt, và một ngưỡng ø„xác định khoảng cách tối đa từ không gian mặt
° Với mỗi hình ảnh khuôn mặt mới được xác định, tính tốn vector mơ hình
của nó ©, các khoảng cách £; của mỗi lớp, và khoảng cách £ đến không gian mặt Nếu khoảng cách tối thiểu £¿< ø; và khoảng cách £ < ø„ thì phân loại khuôn mặt đầu vào Nếu khoảng cách tối thiểu £¿ > ø; hình ảnh được phân loại là “không rõ” nhưng ế” < ø¿, thì hình ảnh được phân loại là “khơng rõ”
« Nếu ảnh mới được phân loại là ảnh khuôn mặt đã biết, thì ảnh này được thêm vào tập ban đầu gồm các hình ảnh khuôn mặt quen thuộc, và eigenface được tính
toán lại Do đó có thê thay đổi không gian mặt khi hệ thống gặp nhiều trường hợp là
các khuôn mặt đã biết
Để xây dựng một hệ thống nhận dạng khuôn mặt đòi hỏi phải đánh giá tính
tổng quát, yêu cầu trung thực, và tốc độ nhận dang Nếu nhận dạng khuôn mặt được
Trang 31giới hạn trong một nhóm nhỏ người (chẳng hạn như các thành viên của một gia đình hoặc một công ty nhỏ), một tập hợp nhỏ của eigenfaces sẽ trải rộng những khuôn mặt liên quan Nếu hệ thống là để học những gương mặt mới hoặc gương mặt đại
diện cho nhiều người, thì một tập cơ sở lớn hon cua eigenfaces sẽ được tạo Kết
quả của Sirovich va Kirby (1987), Kirby và Sirovich (1990) mã hóa hình ảnh khuôn mặt chứng minh rằng số eigenfaces là tương đối nhỏ
2.142 Kết luận :
Nhược Điểm Của Eigenfaces
Trang 32Kết luận :
Qua đây ta có thê rút ra kết luận rằng để tăng độ chính xác của phương pháp nhận dạng, ta cần phải tiến hành tiền xử lý ảnh: chuẩn hóa ảnh mặt theo góc nghiêng, hướng nhìn, điều kiện ánh sáng cũng như ảnh nên
2.2 PHƯƠNG PHÁP MẠNG NƠRON 2.2.1 Định Nghĩa:
Mạng nơ-ron nhân tao, Artificial Neural Network (ANN) goi tat là mang no-
ron ANN là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của
các hệ nơ-ron sinh học Nó được tạo lên từ một số lượng lớn các phan tu (goi la
phan tử xử lý hay nơ-ron) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như một thể thống nhất đề giải quyết một vấn dé cu thé nào đó
Một mạng nơ-ron nhân tạo được cầu hình cho một ứng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu, .) thông qua một quá trình học từ tập các mẫu huấn
luyện Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơ-
ron
Giông như các lĩnh vực trí tuệ nhân tạo nói chung, hai mục tiêu cơ bản của việc nghiên cứu mạng nơ-ron nhân tạo là:
Mô hình hóa bộ não: Mục đích khoa học của việc xây dựng các mô hình mạng
nơ-ron nhân tạo là tìm hiểu thực tế não làm việc như thế nào Điều này có thể giúp chúng ta hiểu được bản chất sự thông minh của con người, xây dựng các chiến lược
dạy tốt, hoặc là các hoạt động chữa trị hiệu quả cho các bệnh nhân bị tổn thương về não
Xây dựng hệ thống nhân tạo: Mục đích kỹ thuật của việc xây dựng hệ thống mạng nơ-ron nhân tạo là nhằm mang lại hiệu quả tốt hơn đối với các ứng dụng thực
tế Điều này có thể làm cho máy móc hoạt động tốt hơn, thay thế con người những
công việc nhàm chán và thậm chí có thê cải thiện hiệu suât công việc
Trang 332.2.2 Uu diém va khuyét diém
Ưu điểm:
Ưu điểm lớn nhất của mạng nơ-ron nhân tạo là tính hoàn toàn song song, cái
mà làm cho mạng nơ-ron nhân tạo trở nên hiệu quả Thêm vào đó, mạng nơ-ron
nhân tạo có thể học từ những dữ liệu huấn luyện và khái quát những tình huống mới, nên nó không yêu cầu nhiều về kỹ năng lập trình Mạng nơ-ron nhân tạo còn
đặc biệt chịu lỗi, đây là khả năng thường được tìm thấy trong các hệ thống sinh học
và chịu nhiễu Vì vậy chúng có thê đối phó với tình huống mà các hệ thống chuỗi ký tự thông thường sẽ gặp khó khăn Nói tóm lại, về nguyên tắc, mạng nơ-ron nhân tạo có thể làm bất cứ điều gì mà một hệ thống chuỗi ký tự/chuỗi nguyên lý có thể
làm và thực tế nó còn có thể làm được nhiều hơn thế nữa
Khuyết điểm:
Mạng nơ-ron nhân tạo yêu cầu đữ liệu phải đầy đủ cả về số lượng lẫn chất lượng Đây là yêu cầu quan trọng với tất cả kỹ thuật mô phỏng và mạng nơ-ron nhân tạo cũng không ngoại lệ
Các cách hướng dẫn để chọn cấu trúc mạng cho phù hợp với các bài toán cũng không được tìm thấy
2.2.3 No-ron sinh học và nơ-ron nhân tao
223.1 Nơ-ron sinh học
Qua quá trình nghiên cứu về bộ não, người ta thấy rằng: bộ não con người bao gồm khoảng 1011 nơ-ron tham gia vào khoảng 1015 kết nối trên các đường truyền Mỗi đường truyền này dài khoảng hơn một mét Các nơ-ron có nhiều đặc điểm chung với các tế bào khác trong cơ thể, ngoài ra chúng còn có những khả năng mà
các tế bào khác không có được, đó là khả năng nhận, xử lý và truyền các tín hiệu
điện hóa trên các đường mòn nơ-ron, các con đường này tạo nên hệ thống giao tiếp
của bộ não
Trang 34Các nhánh hình cây truyền tín hiệu vào đến thân tế bào Thân tế bào tổng hợp và xử lý cho tín hiệu đi ra Sợi trục truyền tín hiệu ra từ thân tế bào này sang nơ-ron khác Điểm liên kết giữa sợi trục của nơ-ron này với nhánh hình cây của nơ-ron khác gọi là synapse Liên kết giữa các nơ-ron và độ nhạy của mỗi synapse được xác
định bởi quá trình hóa học phức tạp Một số cấu trúc của nơ-ron được xác định
trước lúc sinh ra Một số cấu trúc được phát triển thông qua quá trình học Trong
cuộc đời cá thể, một số liên kết mới được hình thành, một số khác bị hủy bỏ
Như vậy nơ-ron sinh học hoạt động theo cách thức sau: nhận tín hiệu đầu vào,
xử lý các tín hiệu này và cho ra một tín hiệu output Tin hiéu output nay sau do
được truyền đi làm tín hiệu đầu vào cho các nơ-ron khác
Dựa trên những hiệu biết về nơ-ron sinh học, con người xây dựng nơ-ron nhân
tạo với hy vọng tạo nên một mô hình có sức mạnh như bộ não
Hình 2.7: Cầu trúc của một no-ron sinh học điền hình
Mỗi nơ-ron sinh học có 3 thành phần cơ bản: * Cac nhánh vào hình cây ( dendrites)
+ Than té bao (cell body) * Soi truc ra (axon)
223.2 Nơ-ron nhân tạo
Mạng nơ-ron nhân tạo được xây dựng dựa trên cảm hứng từ mạng nơ-ron sinh
học, đùng để mô phỏng bộ não con người và hệ thống thần kinh
Trang 35Một nơ-ron là một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng nơ-ron Cấu trúc của một nơ-ron (xem Hình 2.8) X¡—> X, & Ham truyén f() He Dau ra Ham tong by xX, —> ngưỡng Đầu vào Trọng số liên kết
Hình 2.8: Cầu trúc một nơ ron nhân tạo
Tập các đâu vào: La cac tin hiéu vao (input signals) cua no-ron, các tín hiệu
này thường được đưa vào dưới dạng một vector N chiêu
® Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số (gọi là trọng số liên
kết - Synaptic weight) Trọng số liên kết giữa tín hiệu vào thứ j với nơ-ron k thường
được kí hiệu là wkJ Thông thường, các trọng sỐ này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học mạng
$ Bộ tổng : Thường dùng để tính tổng của tích các đầu vào với trọng số liên
kết của nó
® Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như một thành phần của hàm truyền
$ Hàm truyền: Hàm này được đùng để giới hạn phạm vi đầu ra của mỗi nơ-ron Nó nhận đầu vào là kết quả của hàm tông và ngưỡng đã cho Thông thường, phạm vi
đầu ra của mỗi nơ-ron được giới hạn trong đoạn [0,I] hoặc [-1, 1] Các hàm truyền rất đa dạng, có thể là các hàm tuyến tính hoặc phi tuyến Việc lựa chọn hàm truyền nào
là tuỳ thuộc vào từng bài toán và kinh nghiệm của người thiết kế mạng
Trang 36®$ Đâu ra: Là tín hiệu đầu ra của một nơ-ron, với môi nơ-ron sẽ có tôi đa là một đâu ra
Như vậy tương tự như nơ-ron sinh học, nơ-ron nhân tạo cũng nhận các tín hiệu
đầu vào, xử lý ( nhân các tín hiệu này với trọng số liên kết, tính tổng các tích thu được rồi gửi kết quả tới hàm truyền), và cho một tín hiệu đầu ra ( là kết quả của hàm truyền)
2.2.4 Các loại hàm kích hoạt
Đề mỗi nơ-ron có thể được kích hoạt, tổng các dữ liệu vào (với trọng số của
nó) phải vượt qua một giá trị giới hạn gọi là ngưỡng kích hoạt Hàm kích hoạt có vai trò quan trọng trong việc làm kích hoạt nơ-ron Các hàm này cần phải có tính phi tuyến để mạng có thể mã hóa được những đữ liệu phức tạp Hình 2.10 cho thấy
đỗ thị của một số hàm kích hoạt thông dụng, đó là hàm Sigmoid, hàm Tanh và hàm
Trang 372.2.5 Huấn luyện mạng nø-ron nhân tạo
Mục tiêu của pha huấn luyện mạng là học các trọng số Chúng ta cần hai thành
tố để huấn luyện một mạng nơ-ron nhân tạo:
- Dữ liệu huấn luyện: các đữ liệu đầu vào cần phân loại Trong trường hợp
phân lớp ảnh hay nhận dạng, dữ liệu vào là các bộ ảnh đã được dán nhãn; - Hàm lỗi: là một hàm để đo độ thiếu chính xác của các dự đoán;
Khi đã có hai thành tố trên, chúng ta có thể huấn luyện mạng nơ-ron nhân tạo bằng một thuật toán gọi là lan truyền ngược với luật học giảm gradien (hoặc một
dạng dẫn xuất của nó)
2.2.6 Mạng nơ-ron tích chập sâu 2.2.6.1 Tich chập:
Tích chập (convolution) duoc st dung phé biến trong xử lý tín hiệu số (digital signal processing) Nguyên lý biến đổi thông tin của nó đã được ứng dụng rộng rãi trong kĩ thuật xử lý ảnh và video số
Tích chập là một toán tử tuyến tính Tích chập trong không gian hai chiều
được mô tả như sau: cho một ma trận hai chiều I có kích thước [m x n] và một ma
trận nhỏ hơn K có kích thước [p x q] (p<m, q<n) Tích chập của ma tran I va K là một ma trận S có kích thước [@m-p+1),(n-q+1)] mà mỗi phần tử S(¡,j) được xác định theo công thức :
S(Œj) =(T+# 1Ú] = > ¥ 1 +Tmị,j + m;).Đ(m1,m2) (2.10)
ni nz
Ma tran I goi la ma trận dau vao Ma tran K gọi là nhân (kernel) hay bộ lọc (fñlter) Trong kỹ thuật xử lý ảnh, nhân còn được gọi là bộ phát hiện đặc trưng
(feature detector) Và S là ma trận kết quả
Trang 38Tnput Kernel ‹ d i ¥ g h v Output L_—>- aw + be + bu + cœ + ew + dx + ey + fz fy + g2 gu + he ew + fa + fw + ge + ge + hao + iy + fz jy + kz ky + fz
Hình 2.10 Minh hoa co ché cia tich chập 2D
Hình 2.10 minh họa cơ chế của phép tích chập trong không gian hai chiều Và
Hình 2.11 là một ví dụ cụ thể về phép tích chập Ma trận bên trái là một bức ảnh
đen trắng Mỗi giá trị của ma trận tương đương với một điểm ảnh (pixel), 0 là màu
den, 1 la mau trắng Nhân là một ma trận 3x3 Ta dùng ma trận nhân 3x3 này nhân
từng thành phần tương ứng (element-wise) với ma trận ảnh bên trái Giá trị đầu ra do tích của các thành phần này cộng lại Kết quả của tích chập là một ma trận
(convoled feature) sinh ra từ việc trượt ma trận nhân từ trái qua phải, từ trên xuống dưới và thực hiện tích chập cùng lúc lên toàn bộ ma trận ảnh bên trái
Trang 39Input Volume (+pad 1) (7x7x3) Filter WO (3x3x3) Filter W1 (3x3x3) Output Volume (3x3x2) x[t,2,0) wO[it,2,0 W1[t,tr0] GO[:,g:,0] 0lollo[o 09 0ö -1llo In ce ee E]: 3 0lJollo|1 0 2 0 0 lJo lì 518 a 7s 0l:illo|2 0 1 0 11h io Ei 8 10 3
eee 2 ee wO[t,3,1 wi[t,t,1] O[t,r,1]
tr HE! TIỀN HP! I0 FDSI TRE -1 Jb 17” -10 0 8 8 3 02122 õ ff y-i ffi 1 10 3 10 0 0 6 0 0 0 fi jo i an 3 8 5 7111) wũ[:rZ72 wi[t,:,2] 0 ]lo [o0 ö J Bee Oto In 1 1 |? 0 0 -1 ¬1 0 1 |2 1 rE 2 coke
eee 2 Bias bO(1x1x1) Bias b1 (1x1x1)
ian ie ae FS “nữ bot, 2,0] bi[:,:,0] 0 0 1⁄2 1 a 0 00 0 Ey#y 2] 0 ae 0 0/0 0 J2 1 00 1 lo oo ie Fes i Fee (fs Fo es ies (es (A ft es (ee as Fe a (ee eater Teed po Hình 2.11 Một ví dụ về tích chập
Mạng tích chập có được bằng cách kết hợp nhiều lớp lại với nhau Sau đây ta sẽ tìm tìm hiểu về các lớp chủ yếu của mạng tích chập gồm: lớp tích chập, lớp pooling và lớp mạng nơ-ron kết nối đầy đủ
2.2.6.2 Lop tích chập
Lớp tích chập là cách gọi vắn tắt của lớp nơ-ron tích chập Lớp tích chập có được bằng cách thực hiện phép tính tích chập lên đữ liệu từ lớp trước đó (gọi là lớp
vào) VỚI nhiều bộ lọc khác nhau kết hợp với một hàm kích hoạt đầu ra
Cơ chế của phép tính tích chập hoàn toàn tương đương với cơ chế liên kết của
mạng nơ-ron Thật vậy, từ công thức tính tích chập (2.10), nếu xem giá trị mỗi phần tử của ma trận vào I là tín hiệu đầu vào từ một nơ-ron đến, xem gia tri mỗi phan tử của ma trận bộ lọc K là một trọng số kết nối thì kết quả một phép tính tích chập cho
một phần tử của ma trận kết quả S tương đương với một phép tính tông tín hiệu đầu
Trang 40vào của một nơ-ron Và khi áp một hàm kích hoạt với một mức ngưỡng kích hoạt
lên kết quả của phép tính tích chập này thì nó hoàn toàn tương đương với đáp ứng của một nơ-ron như biểu diễn trong công thức (2.11)
output axon = f (> W;X; + 7 (2.11)
i
Trong do:
-_ xi: là mức tín hiệu đầu vào của ngõ vào thứ 1;
-_ wi: là trọng số của khớp kết nối thir i;
- b; được xem như là ngưỡng kích hoạt của nơ-ron;
Khi trượt ma trận bộ lọc K trên ma trận vao I, cac trong số trong ma trận K được sử dụng lại trong mỗi lần tính tích chập Đặc điểm này được gọi là đặc điểm chia sẻ trọng số khi thực hiện phép tích chập cho toàn bộ ma trận đầu vào I
Ngưỡng kích hoạt cũng được dùng chung theo cách thức như vậy
Hàm kích hoạt được sử dụng phô biến ở day la ham ReLU f(x)=max(0,x), co
đồ thị đáp ứng như Hình 2.9 Hàm ReLU làm tăng tính phi tuyến cho đữ liệu đầu vào So với các hàm phi tuyến khác như Sigmoid hay TanH thì ReLU vẫn đáp ứng được yêu cầu mà sự thực thi đơn giản hơn, giúp làm tăng hiệu năng tính toán của cả hệ thống Về mặt ý nghĩa, ReLU chỉ đơn giản loại bỏ những giá trị âm đầu vào (đặt bằng 0) và giữ nguyên những giá trị dương
Như vậy, phép tích chập kết hợp với một hàm kích hoạt được xem như là cơ chế sinh ra một nơ-ron ở đầu ra Và khi áp dụng cơ chế này cho một ma trận đầu vào thì sẽ tạo một ma trận nơ-ron đâu ra
Ứng với mỗi bộ lọc, qua phép tích chập với hàm kích hoạt, một ma trận kết quả được tạo ra Ma trận này được gọi là một bản đồ đặc trưng (feature map) hay bản đổ kích hoạt (activation map) ứng với bộ lọc đã sinh ra nó Một lớp tích chập có
thé có tới vài trăm bản đồ đặc trưng Số lượng bản đồ đặc trưng sinh ra tương ứng