Phương Pháp Nhận Dạng Khuôn Mặt Dựa Trên Phương Pháp Học Chuyển Giao Của Mạng Nowrron Tích Chập Và Ứng Dụng Vào Bài Toán Điểm Danh Học Sinh Tại Trường Thpt Chuyên Vĩnh Phúc.pdf

Phương Pháp Nhận Dạng Khuôn Mặt Dựa Trên Phương Pháp Học Chuyển Giao Của Mạng Nowrron Tích Chập Và Ứng Dụng Vào Bài Toán Điểm Danh Học Sinh Tại Trường Thpt Chuyên Vĩnh Phúc

Trang 1

LOI CAM DOAN

Tên tôi là: Nguyễn Thị Nhung

Sinh ngày: 04/11/1984

Học viên lớp cao học I§M - CT52 trường Đại học Mở Hà Nội

Hiện đang công tác tại: Trường THPT Chuyên Vĩnh Phúc, tỉnh Vĩnh Phúc Tôi xin cam đoan đề tài “Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học chuyển giao của mạng noron tích chập và ứng dụng vào bài toán điểm danh học sinh tại trường THPT Chuyên Vĩnh Phúc” do thầy giáo TS Dương Thăng Long hướng dẫn là công trình nghiên cứu của riêng tôi Các kết quả đạt được trong luận văn là sản phâm của riêng cá nhân, không sao chép của người khác Nội dung của luận văn có tham khảo và sử dụng một sỐ thông tin, tài liệu từ các nguồn sách, tạp chí được liệt kê trong danh mục các tài liệu tham khảo

Vĩnh Phúc, ngày 10 thang 8 nam 2021

Tac gia luan van

Nguyén Thi Nhung

Trang 2

LOI CAM ON

Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp

đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn TS Dương Thăng Long, luận văn

với đề tài “Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học chuyền giao của mạng noron tích chập và ứng dụng vào bài toán điểm danh học sinh tại trường THPT Chuyên Vĩnh Phúc” đã hoàn thành

Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn TS Dương

Thăng Long đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn

Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn

Tác giả luận văn

Nguyễn Thị Nhung

Trang 3

NIRGNN TICH GHI Pha doi coygcoatogsatdtbsuVGERGIGGAGGSG01ã0008ã00088 4 1.1 Hé thong GET T aeers yer neenenearneanmeneEn men 4 1-1.1, MS tả bài toán nhận dang khuôn THẾ Eocccoctg at GGaG002000dA40s 4 1.1.2 Hé thong nhan dang Khun Mat eceeeeecessteeceeessececeeeseeeeeeeteeeeenees 5 1.1.3 Một số ứng dụng của hệ thong nhận đang khuôn THÍ: öácc‹ccsccccceccccoe A 1.2 Một số hướng tiếp cận nhận dạng khuôn mặt - - - << +5 55s s3 sss+<+52 8 1.2.1 Huong tiép Gần dựa TRON BIG ccsssccexewexcnanvsaincenscncsmenaasanerenneasemneneiswenetses 9 1.2.2 Hướng tiếp cận dựa trên đặc trưng không thay đồi - c5 +: 11 1.2.3 Huong tiép can dua trén so KhOp MAU .ececceseseeseseeseseesessesesseseseeeeseeeeens 14 1.2.4 Hướng tiếp CSN Cia WEN đI6NH TH tc¿ci2i6iccc020205622tUAG614416804G404k251 15

Do ROA TAS TE SO THỂ reeveeseeaesseeioyronrsteiiie0185605610/00152X0N0110/84v09918505001060x6e 16

1333 Mane noron Sin HOC ccccccccccctiiiccespisá0t002266401161666304656680030366460368A6605:á v64 16 I.3.2 Mạng nơron nhân {ạO - - - «c3 13x13 vn nu 18 E33 G8 Wii Hộc của Biện HƠI: cecciicciaioiocidirioibcoiatuscldofiasd\Gváol854gv 008 23 I.3.4 Các ứng dụng của mạng ƠTOI - - s11 ưu 26 1.1 MBHE 1iØ†0đ LH: GHẾ ca sounaanasebicieakiiiiiti6cs04006G01060)0106055ã800680004646N234000981/0/24//5568 ZT 1:4.1: Định nghĩa mạng nơron tich chap siscsscunnsananinnnminwsasanw 27

1.4.2 Câu trúc tông quát của mạng nơron tích chập ¿2 s2 s52 29 [,43;:GiảrDiff in tuiyÿỂN Dũ HỘ cá ng tũB Gia gthxy k4 l4 0005166606630 48ÿx.gcÿuang 39

Kết luận chương - - tk SE kEE TS TT HT T11 T111 T111 gánh 4]

Trang 4

CHƯƠNG 2: NHẬN DẠNG KHUÔN MẶT DỰA TRÊN PHƯƠNG PHÁP HỌC

CHUYỂN GIÁO CỦA MẠNG NORON TICH CHAP sesssisssssscsssssessvensexanscsaveasnvsia 42

2.1 Thiết kế mạng nơron CNN nhận dạng khuôn mặt - - «+ << ««s>s+ 42 2.1.1 Tiền xử lý ảnh đầu vàO - - ¿+ St tk E3 tt cưng gu 43 2.1.2 Mô hình nhận dạng khuôn mặt dựa trên CNN -55<<<5 44 2.2 Phuong phap hoc chuyén giao trén CNN ccccccccsceessceceessesescecsveversesecevevereesecees 50 2.2.1 Giới thiệu phương pháp học chuyền giao .-2 - + 22s z+szsz 50

2.2.2 Một số biện pháp học chuyền giao trên CNN . ¿5c z+xcsscsez 5]

3:2:3 /Vai trừ dũi:Ngõ GHHVỂN ÌHD cáccanii hinh gg ca HH G4Giöc4020t20403661380G0:3816808g8 54

2.3 Mô số mô hình mạng CNN hiện đại - - ¿6 2S E£E£EE£Ee£xzxevxcvecxez 56

Ded dc AST VD coocccictiogoncuaigiit01500060146607665/0i659005060i408064g6080g00988866983862/39808549ã/ggê 56 2.32: MADĐ COOĐIEHEEi4c200/62g0004142G40A444)3646241,280A0GX344/60xQ 88% 59 Soi: /MNHDE RENHEEsvoeeddgedrtasdtliGev0500002080100585009Ấ619053801646088430/00309/180180400G114/00133//9/G 61

2.4 Áp dụng phương pháp học chuyên giao cho bài toán nhận dạng khuôn mặt để GiGin TH HötsáicctaiioorridiiditiiG60003000860010014008146606/06306551806165966140666086010904200456/600,g888 66 2.4.1 Phân tích bài toán - - - - -Ă 11113 TH ng gu 66 2D CPSC TE GE GO seis cecessaisaseacusrcanacnauereswncruneuuesnwatabiceansweneesae suwteautausuaubetits 67 2.4.3 Áp dụng phương pháp học chuyền giao với mạng VGG và Resnet vào NHDi7iiSnit: HD TT EcneeeaeboeioioiiriigtoiGi040633)00161016151 0018000101160GNSSA1088/60010108008 06146 68

KẾ HIR BHHGE si su noi g01G008000003683283154938003804GU)G09GA950S820628333988X88osvel 7]

CHƯƠNG 3: XÂY DỰNG PHÀN MEM MO PHONG VA KET QUA THU’

BN quang ghotgicG G00 0010011000330110000546093601001380081636000846x2ã063008610031655800403040031068885 72 3.1 Xây dựng chương trình ứng dụng - - -c 62 221111333 sserreva 72 3.1.1 Công cụ xây dựng phần mêm -2- 2 2 eS£SEE£Ek£kcxcrzrxeeerxd 72 112012001: 0E:11:3246270515/2ã0023AG3G52003X8/4đ54A134040Ấ02/80344S0090/10)4361/2sai604316400461148 74 S56 HPhiCHi chữ HHHlaenieeeeeaaaiaeiobroioiliapoidtg2466596956894501264598100048824) 76

3T Tiểu X lý 2H đâữ VD boossiesebtcotooidg0006/10008003000830GRG00E2ã30x2 s0) 76 3.2.2 Đào tạo mô hìnÌh - c1 1 111111111111 1 1v va 79 3:5;3::MIidi) Gi0n Khuốii tá dừa CÀI GB ¡áccsccotioiibcodiiitiiiictii6L1366026604628806/0ố005gả9 86

3.2.4 Nhận diện khuôn mặt qua ảnh có sẵn - - + 2 2z s+s+x+s+xzxzxzxesez 87

Sý2S.80001, 61010 0THffneeeseaiaestoesnrntrttttigstBGGEUEREUINNGES20050236000033800040/0140/-06 0x0 88

Két ludin ChUONG cccccessesesscsesesscsesessescscssesesvsusaesecssstsnsasavsvsatavsusatavsrsacaesneacarseeees 89

Trang 5

KET LUAN VA HUONG PHAT TRIEN cccccccecececcscscsccescecscsesessesvacsesessceavavacaeens 90 TAI LIEU THAM KHAO

123docz.net - File bi loi xin lienhe: lethikim34079 @ hotmail.com

Trang 6

123dớĐiêng- Xidbi loi xin lienhe: lethiki BAY GtiSemail.com

Artificial Neural Network Convolution Neural Network Visual Geometry Group Fully Connected

Rectified Linear Unit

vi

Cơ sở dữ liệu Mạng nơron nhân tạo Mạng nơron tích chập

Lớp kết nối đầy đủ

Hàm kích hoạt

Trang 7

DANH MUC CAC BANG

Trang

Bang 1.1 Mot s6 ham truyén thong dung c.cccececccescsseseeseseesesessesessesessesteseseeseseeees 21 Bảng 2.1 Ví dụ về dữ liệu phân lớp của mô hình CNN 2-2-2 s2 s52: 50 Bảng 3.1 Cấu trúc chương trình .- ¿- 2s 2+ SE SEE£+E£EzEEzEeExrxezxrxerxrserxee 76 Bảng 3.2 Bảng so sánh mô hình VGGI19 - VGG Face .- 55 << << s52 88 Bang 3.3 Bang so sánh hiệu quả mô hình VGG19 - VGGFACE 89

vii

Trang 8

DANH MUC HINH VE

Trang Hình 1.1 Mô hình băi toân nhận dạng mặt người - - 5555 5< << <sss 5 Hình 1.2 Cấu trúc tông quât của hệ thống nhận dạng khuôn mặt -. 6 Hình 1.3 Hệ thống đa độ phđn giải . - 2 ¿2 SE ££E£E£EE+EezxzExzEzrxzxzs 10

Hinh 1.4 Mot loai tri trức của người nghiín cứu phđn tích trín khuôn mặt 10 Hình 1.5 Cấu trúc cơ bản của noron sinh hoC ccccsscscscssesecescscsceseseccscscssececeecacavees 17 Hình 1.6 Cấu tạo mOt Neural .ccccccccscscscsssssscecscscesecececseesscecscscscavavevavavscaveveveeenenees 19

BERT A AE MG Bh ccsecccss cosunrsorcovercecutenaivecnrsiuetcovasteuacecsicasescueieescaceestuscestd: 21

Hinh 1.8 Mang kĩt hop khac kiĩu s cecccccccsesesssscsesessesesesecsessecsrsusevsreesevsneessvaeneeee 22 Hình 1.9 Mang truyĩn thang .c.ccccccsessessessesesessessecsessessessessesesseesessessessesecseseecsess 22

Binh 1,10 Maria phan BOb esses cecarscuem neers ec same aes ecru 23

Hình 1.11 M6 hinh huan luyện mạng có giâm sât [ I I] 2-2 s2 s25 24

Hình 1.12 Mô hình huấn luyện mạng không giâm sât [ I] - - - s5 25

Hình 1.13 Mô hình huấn luyện mạng tăng cường [ I I] - ¿s2 2 25252 26

Hinh: 1.12 MO BÌNH CN Guaevaeooeadianasaaaoaninaiaiainioiiiiisd00014460540616616609066008000/0000500/40545 29 Hình 1.15 Cđu trúc tông quât của mạng nơron tích chập - - 2s s52: 30 Hình 1.16 Minh hoạ tích chập trín ma trận ảnh - << S132 3l HiWifizl, 17: NINH hgg:4el:öNfWliBHHDHfiexeessssssaesusanuitttdiitgtrtaiiGDtiiblsgrsiulitdtovaoetanrgstdi 32

Hình: |;15-:Nihxyioolniesv ÏDG322x62ui6unujtdssowwcdulgsgsoszgauxsguBud 35 Hình 1.19 Mô hình hăm softmax cho mạng NeuraÌ «55 << <x<<<<<<<2 ay: Hhh 1,20 Q06 KH ho nnoaaoattudaGtiogGGGQGAGBGRGVGIGRNHGSREGGAAGĐXSNSNISGSIEAAotoasg 38 Hình 1.21 Mạng nơron truyền thăng nhiều lớp sử dụng giải thuật lan truyền ngược wasn We i a ei a aR in WW aba NS WSN ta aN Gi ata aa a 40

Hình 2.1 Sơ đồ quy trình của mô hình nhận dạng khuôn mặt . - - 42 Hìốh 2:2: Câc dạng đặc ưng HSSš-HĂG:::::c::ccâcc:cccic0L 000202 c000006202200010616ê800ê600608666uguêi 43 Hình 2.3 Kiến trac dang khối của mô hình CNN - c x+ +Ex+svzxzEexxzxexxez 45 Hình 2.4 Một ảnh đầu văo kích thước 100x90x1 (đa cấp MAIN) easowtanuaaydaoasae 46 Hình 2.5 Hình ảnh sau khi xử lý của khối B2 vă lớp nơron POOL 47 Hình 2.6 Hình ảnh kết quả xử lý sau BS, B7 vă B9 - Ăn nho 48 Hình 2.7 Mô hình VGG ban đầu vă mô hình VGG mới - 2s 2 ss2 52: 52 Hình 2.8 Bỏ câc fully connected layer ở model VGG16 đi vă thím văo câc Fully GöliiieGtEO AVEC TION cscssssiccasnnainzssniasancenaponcestansanavuxanans undnesave tannavenmpueuaneicanexeuneasanaananes 53 Hình 2.9 So sânh hiệu suất mô hình trước vă sau khi âp dụng học chuyền giao 55 Hình 2.10 Kiến trúc mô hình GG - ¿25 £ S 2E EE£E£EE£E£EE£E£Erkrzxrkerervee 57

Hìuib:2:L1 Gâc Biển thể của piôiBinlifVQŒEceseoeaoeneisinnbaebididliiadkangtoi(alaxadsd 58

HHẰt 12 - IBGCDHOH(tvvicqtgcicugsgi6tqbalsygiyosottta@G@igiystwiie@xgsgsg 60 Hình:2;13 Vnnishmp CHHHỦNGH câo eeeeoarsobieoieiiiiolioidbii441100540000.031010140144000155456 62

Hình 2.14 Residual Module vă văi lớp đầu tiín của ResNet - 55+: 64

viii

Trang 9

Hinh 2.15 Mang Densenet cccccesesesseeseeseeeseseseeeseseaeeeeeeneaeeseeeneeeeseneaeeeeeeteeees 65 Hình 2.16 Câu hình khác nhau của DenseNet . 5c scsccscsccsceee 66 Hinh 2.17 Hinh anh vé tập dữ liệu ảnh khuôn mặt cho 4 danh tính 67 Hình 2.18 Mô tả định dạng sắp xếp các thư mục trong tập đữ liệu ảnh mẫu ban đầu ÿvsgš002688030880ã08000060360490666668004360060190445860xio13005360466665804305460480G003160656608.086596060/60000005g4 64) 68

Hình 3.1 Kiểm tra cài đặt ngôn ngữ python 2-2 s22 2+2 z+Szzxe£zz£zzxzzxzs 74 Bink 3.2 Gái đất thir viện đÌlÐs:s::gttsgauai:gtt iiidyiloggtiitttqiqqi@0yxst06g 75 Hình) 611 Re PN VIG oF eeaaeeeeeeeeoeaneaeeeaeenoxeenooatesooddsnossuoessei 75 HH3 Gái GIE KG Guawiepicoiiiciicctsii60001142000406180u6A106960606566209916604106410033636096ã8Xấi 76 Hình 3.5 Tiền xử lý ảnh đầu vàO ¿- - c6 SE kEEEE E3 TT ng 79 Hình 3.6 Kết quả nhận diện bằng Camera - mô hình VGG19 - 25: 86

Hinh 3.7 Két qua nhan dién bang Camera - mô hình VGG Faee 86 Hinh 3.8 Anh nhan dién qua File - m6 hinh VGG face .- «5555555 << «s52 87 Hinh 3.9 Anh nhan dién qua tile: f0 HH V GG esscscsicsssscacceveeneccmmnnvnseeseewe 87

Trang 10

MO DAU

1 Ly do chon dé tai

Hiện nay, cùng với sự phát triên của xã hội, vấn đề an ninh bảo mật đang được yêu cầu khắt khe tại mọi quốc gia trên thế giới Các hệ thống nhận dạng con người được ra đời với độ tin cậy ngày càng cao Một trong các bài toán nhận dạng con người rất được quan tâm hiện nay là nhận dạng mặt người

Bài toán nhận dạng khuôn mặt người vốn được nghiên cứu từ những năm 1970

và cho đến nay, rất nhiều nghiên cứu lẫn ứng dụng cho bài toán này đã ra đời Bài toán nhận dạng mặt người có thê áp dụng rộng rãi trong nhiều lĩnh vực khác nhau Các ứng dụng liên quan đến nhận dạng mặt người có thể kê như: hệ thong phat hién tội phạm, hệ thông theo dõi nhân sự trong một đơn vị, hệ thông tìm kiếm thông tin trên ảnh, video dựa trên nội dung

Deep Learning là một thuật toán dựa trên một số ý tưởng từ não bộ tới việc tiếp thu nhiều tầng biểu đạt, cả cụ thê lẫn trừu tượng, qua đó làm rõ nghĩa của các loại dữ liệu Deep Learning được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngôn ngữ tự nhiên Hiện nay rất nhiều các bài toán nhận dạng sử dụng deep learning dé giai quyét do deep learning có thê giải quyết các bài toán với số lượng lớn, kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyền thống

Convolutional Neural Network (CNN — Mang no-ron tích chập) là một trong những

mô hình Deep Learning tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao như hiện nay Trong luận văn cao học này, tôi nghiên cứu “Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học chuyến giao của mạng noron tích chập và ứng dụng vào bài toán điểm danh học sinh tại trường trung học phố thông Chuyên Vĩnh Phúc”

2 Mục tiêu nghiên cứu

- Nghiên cứu tông quan về bài toán nhận dạng khuôn mặt người

Trang 11

- Tập trung làm rõ cơ sở lý thuyết, ứng dụng của bài toán nhận dạng khuôn mặt người dùng mạng nơron tích chập

- Nghiên cứu nhận dạng khuôn mặt dựa trên phương pháp học chuyền giao của mạng noron tích chập

- Phân tích bài toán, thiết kế và cài đặt thử nghiệm phần mềm mô phỏng nhận dạng

thí sinh dự thi ứng dụng mạng nơoron tích chập

3 Đối tượng và phạm vi nghiên cứu

- Đối tượng nghiên cứu: Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học chuyên g1ao của mạng nơron tích chap

- Phạm vi nghiên cứu: Lý thuyết ứng dụng mạng nơron tích chập cho bài toán điểm danh học sinh tại trường THPT Chuyên Vĩnh Phúc

4 Phương pháp nghiên cứu

- Phương pháp nghiên cứu lý thuyết: Tổng hợp, nghiên cứu các tài liệu về nhận dạng khuôn mặt và mạng nơron tích chập: nghiên cứu phương pháp học chuyền giao của mang noron tích chap;

- Phuong pháp nghiên cứu thực nghiệm: Sau khi nghiên cứu lý thuyết, phát biểu

bài toán, đưa ra giải pháp xử lý; cài đặt thử nghiệm chương trình phần mềm mô phỏng nhận dạng học sinh; Đánh giá các kết quả đạt được

5 Bố cục của luận văn

Bồ cục của luận văn được chia làm 3 chương

Chương 1 Giới thiệu về nhận dạng khuôn mặt và mạng noron tích chập

Giới thiệu về hệ thống nhận dạng khuôn mặt, Nghiên cứu lý thuyết về mạng nơron tích chập

Chương 2 Nhận dạng khuôn mặt dựa trên phương pháp học chuyển giao của mạng nơron tích chập

Trang 12

Giới thiệu phương pháp học chuyền giao của mạng nơron, giới thiệu 2 mạng đào tạo trước VGG và Resnet50

Chương 3: Xây dựng phần mềm mô phỏng và kết quả thử nghiệm

Lựa chọn ngôn ngữ cài đặt, xử ly đữ liệu đầu vào đề đưa vào chương trình Quá trình cài đặt chương trình, quá trình chạy thử nghiệm Thống kê, đánh giá các kết quả trong quá trình thử nghiệm chương trình

Trang 13

CHUONG 1: GIOI THIEU VE NHAN DANG KHUON MAT

VA MANG NORON TICH CHAP

1.1 Hệ thống nhận dạng khuôn mặt

1.1.1 Mô tả bài toán nhận dạng khuôn mặt

Nhận dạng mặt người là một trong những ứng dụng quan trọng của thị giác máy tính nói riêng cũng như khoa học máy tính nói chung Bài toán nhận dạng khuôn mặt người vốn được nghiên cứu từ những năm 1970 và cho đến nay, rất nhiều nghiên cứu lẫn ứng dụng cho bài toán này đã ra đời Bài toán nhận dạng mặt người có thể áp dụng rộng rãi trong nhiêu lĩnh vực khác nhau Các ứng dụng liên quan đến nhận dạng mặt người có thể kể như: hệ thông phát hiện tội phạm, hệ thống theo dõi nhân sự trong một đơn vị, hệ thống tìm kiếm thông tin trên ảnh, video dựa trên nội dung [1]

Như chúng ta đã biết, con người khi sinh ra đã có những đặc điểm sinh học tự nhiên riêng biệt phân biệt giữa người này với người kia, rất khó có thể trùng lặp Các đặc điểm đó có thê bị thay đồi trong cuộc sông trừ những tác động khách quan hoặc chủ quan như: tai nạn, tôn thương, phẫu thuật chỉnh hình Chính bởi yếu tố riêng

biệt đó, các nhà khoa học tập trung nghiên cứu, tìm hiểu đặc trưng sinh trắc của con

người và áp dụng vào các biện pháp giúp nhận dạng, xác định danh tính của mỗi người Dựa vào những đặc điểm sinh trắc học của con người, các hệ thống nhận dạng sinh trắc học ra đời nhăm giải quyết nhiều vấn đề có liên quan tới bảo mật, an ninh, khoa học hay các nhu cầu khác trong cuộc sống

Các đặc trưng sinh trắc khuôn mặt là những đặc điểm riêng trên khuôn mặt mỗi người gần như không thay đôi theo thời gian, các đặc điểm này phân biệt giữa người này và người kia, rất khó có thê xảy ra trùng lặp Dựa trên nhận xét thực tế, con người

dễ dàng nhận biết các khuôn mặt và các đối tượng trong các tư thê khác nhau và điều

kiện ánh sáng khác nhau, thì phải tồn tai các thuộc tính hay đặc trưng không thay đổi Chính vì thế, việc xác định danh tính, nhận dạng khuôn mặt người thông qua các đặc trưng sinh trắc học đó sẽ đảm bảo được độ chính xác, tin cậy cao

Trang 14

Ban thân con người có thể nhận dạng ảnh khuôn mặt của mọi người một cách

dễ dàng Thậm chí, ảnh đó có thể năm trong một ảnh nền phức tạp Tuy nhiên, đối với hệ máy thì việc nhận dạng này là một công việc rất phức tạp và khó khăn Chính

vì vậy, trong những năm gần đây lĩnh vực nhận dạng khuôn mặt đã nhận được sự quan tâm nghiên cứu lớn từ các nhà khoa học nhằm tạo ra các hệ hỗ trợ quyết định phục vụ trong rât nhiêu lĩnh vực của cuộc sông

Giả sử ta có một cơ sở dữ liệu ảnh đã được lưu trong máy về một số người (Hình 1.1), bài toán nhận dạng là làm sao đê khi đưa ảnh khuôn mặt của một người bat kỳ vào thì máy sẽ tự động nhận dạng ra người này trong cơ sở dữ liệu

Trang 15

Hình 1.2 Cấu trúc tông quát của hệ thống nhận đạng khuôn mặt

Phát hiện khuôn mặt (face detection): Phát hiện khuôn mặt sẽ lấy ra tất cả các khuôn mặt trong một hình ảnh Chức năng này làm nhiệm vụ xác định vị trí, kích

cỡ của một hoặc nhiều khuôn mặt trên ảnh chụp từ đó tách ra phần mặt Phần ảnh mặt được tách ra thường nhỏ hơn nhiều so với ảnh chụp ban đầu, nó sẽ là các khuôn mặt cần tìm và chức năng trích chọn đặc trưng sẽ sử dụng các ảnh được tách ra này

Tiền xử lý (Pre-Processing): Bước này nhằm mục đích lọc nhiễu, nâng cao chất lượng ảnh để chuẩn hóa ảnh cần tìm giúp cho việc tìm kiếm được hiệu quả hơn Các công việc trong bước tiền xử lý có thê là: Chuân hóa kích cỡ giữa ảnh trong CSDL và ảnh cần tìm, hiệu chỉnh độ sáng, tối của ảnh; lọc nhiễu, chuẩn hóa về vị trí,

tư thé anh mat

Trích chọn đặc trưng (FE): Tìm ra các đặc trưng chính của ảnh mặt, từ các đặc trưng này hình thành các vector đặc trưng, các vector này sẽ được sử dụng đề đối sánh sự giống nhau giữa ảnh mặt cần tìm và ảnh mặt trong CSDL

Nhận dạng/Phán lớp: Bước nhận dang (recognition) hay phan lớp (classification), tức là xác định danh tính (identity) hay nhãn (label) cua anh đó là ảnh

cua al.

Trang 16

Dữ liệu hệ thống nhận dạng: Dữ liệu hệ thống nhận dạng được chia làm 3

tập gồm tập huấn luyện (training set), tập tham chiéu (reference set) va tap dé nhan dang (probe set) Tap huấn luyện gồm các ảnh được dùng đê huấn luyện, thông thường tập này được dùng đề sinh ra một không gian con là một ma trận Tập tham chiếu gồm các ảnh đã biết danh tính được chiếu vào không gian con ở bước huấn luyện Sau khi thực hiện chiều tập tham chiều vào không gian con, hệ thống lưu lại kết quả là một ma trận với mỗi cột của ma trận là một vector tương ứng với ảnh (định danh đã biết) đề thực hiện nhận đạng (hay phân lớp)

Hệ thống nhận dạng khuôn mặt cần đảm bảo các yêu cầu:

-_ Độ chính xác nhận dạng có thể chấp nhận được đối với yêu cầu của bài toán nhận dạng;

- _ Tốc độ vận hành cao đối với các CSDL lớn và số lượng các yêu cầu có thê giải quyết được;

- Đơn giản trong việc cài đặt, lựa chọn thiết bị và vận hành An toàn với người sử dụng

1.1.3 Một số ứng dụng của hệ thông nhận dạng khuôn mặt

Hệ thống nhận dạng khuôn mặt đã và đang được áp dụng trong rất nhiều lĩnh vực của đời sống xã hội Chúng ta có thê liệt kê một sỐ ứng dụng tiêu biêu như sau:

- Hệ thống tương tác giữa người và máy: sẽ giúp những người tàn tật hoặc khiếm khuyết có thể trao đôi Những người câm sẽ nói chuyện với người bình thường bằng ngôn ngữ tay, người bại liệt có thể thông qua các ký hiệu như

nháy mắt, những cử chỉ trên khuôn mặt đề ra hiệu cho người bình thường

- Nhận dạng người có phải là tội phạm bị truy nã hay không? Giúp cơ quan an ninh quản lý tốt con người Hoặc có thê truy tìm nhanh chóng các hồ sơ tội phạm trong cơ sở dữ liệu của máy tính

Trang 17

- Hé thông quan sát theo dõi và bảo vệ Các hệ thống camera sẽ xác định đâu

là con người và theo dõi con người đó xem họ có vi phạm gì không, ví dụ như xâm phạm khu vực không được vào, xâm phạm vào nhà riêng,

-_ Lưu trữ hình ảnh khuôn mặt những người rút tiền từ máy rút tiền, hiện nay có tình trạng những người bị người khác lây mất mã số PIN và những người ăn cap nay đi rút tiền Hoặc những người chủ thẻ đi rút tiền nhưng lại báo mất thẻ và mắt tiền Các ngân hàng có nhu cầu khi giao dịch tiền sẽ kiêm tra hay

lưu trữ khuôn mặt người rút tiền dé sau đó đối chứng và xử lý

- Các hệ thông mở cửa, chấm ngày công lao động của các nhân viên vào ra trong công ty Hệ thống nhận dạng mặt người sẽ cho phép các nhân viên vào

ra những khu vực cho phép, hay đăng nhập máy tính hoặc đăng nhập máy tính cá nhân của mình mà không cân mật khâu,

-_ Phân tích các cảm xúc của con người trên khuôn mặt

- Tương lai sẽ phát triển các loại thẻ thông minh có tích hợp sẵn đặc trưng của người dùng trên đó, khi bất cứ người dùng nào khác dùng để truy cập hay xử

lý tại các hệ thống sẽ được yêu cầu kiểm tra các đặc trưng của khuôn mặt so với thẻ để biết có phải là chủ thẻ hay không [1]

1.2 Một số hướng tiếp cận nhận dạng khuôn mặt

Có nhiều nghiên cứu tìm phương pháp xác định khuôn mặt người, từ ảnh xám đến ngày nay là ảnh màu Tôi sẽ trình bày một cách tông quát nhất những hướng giải quyết chính cho bài toán, từ những hướng chính này nhiều tác giả thay đổi một số ý nhỏ bên trong đê có kêt quả mới

Dựa vào tính chất của các phương pháp xác định khuôn mặt người trên ảnh

Các phương pháp này được chia làm bốn hướng tiếp cận chính Ngoài bốn hướng này, nhiều nghiên cứu có khi liên quan đến không những một hướng tiếp cận mà có

liên quan nhiều hơn một hướng chính [3]

Trang 18

Huong tiép can dua trén tri thirc: Ma hoa các hiệu biệt của con người về các loại khuôn mặt người thành các luật Thông thường các luật mô tả quan hệ của các đặc trưng

Hướng tiếp cận dựa trên đặc trưng không thay đổi: Mục tiêu các thuật toán đi tìm các đặc trưng mô tả cấu trúc khuôn mặt người mà các đặc trưng này sẽ không

thay đôi khi tư thế khuôn mặt, vị trí đặt thiết bị thu hình hoặc điều kiện ánh sáng thay

đôi

Hướng tiếp cận dựa trên so khóp mâu: Dùng các mẫu chuẩn của khuôn mặt người (các mẫu này được chọn lựa và lưu trữ) để mô tả cho khuôn mặt người hay các đặc trưng khuôn mặt (các mẫu này phải chọn làm sao cho tách biệt nhau theo tiêu chuẩn mà các tác giả định ra để so sánh) Các mối tương quan giữa dữ liệu ảnh đưa vào và các mâu dùng đê xác định khuôn mặt người

Hướng tiếp cận dựa trên điện mạo: Trái ngược hăn với so khớp mẫu, các mô hình (hay các mẫu) được học từ một tập ảnh huấn luyện trước đó Sau đó hệ thống (mô hình) sẽ xác định khuôn mặt người Hay một số tác giả còn gọi hướng tiếp cận này là hướng tiếp cận theo phương pháp học

1.2.1 Hướng tiếp cận dựa trên tri thức

Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những tác giả nghiên cứu về bài toán xác định khuôn mặt người Đây là hướng tiếp cận dạng top-down Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của khuôn mặt

và các quan hệ tương ứng Ví dụ, một khuôn mặt thường có hai mắt đối xứng nhau qua trục thắng đứng ở giữa khuôn mặt và có một mũi, một miệng Các quan hệ của các đặc trưng có thê được mô tả như quan hệ về khoảng cách và vị trí Thông thường các tác giả sẽ trích đặc trưng của khuôn mặt trước tiên đề có được các ứng viên, sau

đó các ứng viên này sẽ được xác định thông qua các luật đề biết ứng viên nào là khuôn mặt và ứng viên nào không phải khuôn mặt Thường áp dụng quá trình xác định để giảm sô lượng xác dinh sai

Trang 19

Một vấn đề khá phức tạp khi dùng hướng tiếp cận này là làm sao chuyên từ tri thức con người sang các luật một các hiệu quả Nếu các luật này quá chi tiết (chặt chẽ) thì khi xác định có thê xác định thiếu các khuôn mặt có trong ảnh, vì những khuôn mặt này không thể thỏa mãn tất cả các luật đưa ra Nhưng các luật tổng quát

quá thì có thể chúng ta sẽ xác định lầm một vùng nào đó không phải là khuôn mặt mà lại xác định là khuôn mặt Và cũng khó khăn mở rộng yêu cầu từ bài toán đề xác định các khuôn mặt có nhiều tư thế khác nhau

có thê là khuôn mặt Ở mức kế tiếp, hai ông dùng một tập luật để mô tả tổng quát hình dáng khuôn mặt Còn ở mức cuối cùng lại dùng một tập luật khác đề xem xét ở

mức chỉ tiết các đặc trưng khuôn mặt Một hệ thống đa độ phân giải có thứ tự được

dùng đề xác định, hình 1 Các luật ở mức cao nhất đề tìm ứng viên như: “'vùng trung tâm khuôn mặt (phân tối hơn trong hình 1.4) có bốn phần với một mức độ đều cơ bản”, “phần xung quanh bên trên của một khuôn mặt (phần sáng hơn trong hình 1.4)

có một mức độ đêu cơ bản”, và “mức độ khác nhau giữa các giá trị xám trung bình

10

Trang 20

của phần trung tâm và phần bao bên trên là đáng kê” Độ phân giải thấp nhất (mức mộ) của ảnh dùng dé tim ứng viên khuôn mặt mà còn tìm ở các mức phân giải tốt hơn Ở mức hai, xem xét biêu đồ histogram của các ứng viên đề loại bớt ứng viên nào không phải là khuôn mặt, đồng thời đò ra cạnh bao xung quanh ứng viên Ở mức cuối cùng, những ứng viên nào còn lại sẽ được xem xét các đặc trưng của khuôn mặt về mắt và miệng Hai ông đã dùng một chiến lược “từ thô đến mịn” hay “làm rõ dần” để giảm số lượng tính toán trong xử lý Mặc dù tỷ lệ chính xác chưa cao, nhưng đây là tiên dé cho nhiêu nghiên cứu sau này

Kotropoulos và Pitas đưa một phương pháp tương tự dùng trên độ phân giải thấp Hai ông dùng phương pháp chiếu đề xác định các đặc trưng khuôn mặt, Kanade

đã thành công với phương pháp chiếu để xác định biên của khuôn mặt Với I(x.y) là giá trị xám của một điểm trong ảnh có kích thước m x n ở tại vị trí (x,y), các hàm đề chiếu ảnh theo phương ngang và thăng đứng được định nghĩa như sau:

HI(x) = i I(x,y) va

VI(y) = XI)

Dựa trên biểu đồ hình chiếu ngang, có hai cực tiểu địa phương khi hai ông xét quá trình thay đổi độ đốc của HI, đó chính là cạnh bên trái và phải của hai bên đầu Tương tự với hình chiếu dọc VI, các cực tiêu địa phương cũng cho ta biết vị trí miệng, đỉnh mũi, và hai mắt Các đặc trưng này đủ đề xác định khuôn mặt

1.2.2 Hướng tiếp cận dựa trên đặc trưng không thay đổi

Đây là hướng tiếp cận theo kiêu bottom-up Các tác giả có găng tìm các đặc trưng không thay đôi của khuôn mặt người để xác định khuôn mặt người Dựa trên nhận xét thực tế, con người dễ dàng nhận biết các khuôn mặt và các đối tượng trong các tư thê khác nhau và điều kiện ánh sáng khác nhau, thì phải tôn tại các thuộc tính hay đặc trưng không thay đôi Có nhiều nghiên cứu đầu tiên xác định các đặc trưng khuôn mặt rồi chỉ ra có khuôn mặt trong ảnh hay không Các đặc trưng như: lông mày, mắt, mũi, miệng, và đường viền của tóc được trích bằng phương pháp xác định

11

Trang 21

cạnh Trên cơ sở các đặc trưng này, xây dựng một mô hình thống kê để mô tả quan

hệ của các đặc trưng này và xác định sự tôn tại của khuôn mặt trong ảnh Một vấn đề của các thuật tóan theo hướng tiếp cân đặc trưng cần phải điều chỉnh cho phù hợp điều kiện ánh sáng, nhiễu, và bị che khuất Đôi khi bóng của khuôn mặt sẽ tạo thêm cạnh mới, mà cạnh này lại rõ hơn cạnh thật sự của khuôn mặt, vì thé néu dùng cạnh

để xác định theo hướng các cạnh Hai ông dùng hai blob tối va ba blob sang dé mé ta hai mắt, hai bên gò má, và mũi Mô hình này dùng các treak để mô tả hình dáng ngoài

của khuôn mặt, lông mày, và môi Dùng ảnh có độ phân giải thấp theo biến đổi

Laplace đề xác định khuôn mặt thông qua blob

Leung trình bày một mô hình xác suất để xác định khuôn mặt ở trong ảnh có hình nên phức tạp trên cơ sở một bộ xác định đặc trưng cục bộ và so khớp đồ thị ngẫu nhiên Dùng năm đặc trưng (hai mắt, hai lỗ mũi, phần nói giữa mũi và miệng) để mô

tả một khuôn mặt Luôn tính quan hệ khoảng cách với các đặc trưng cặp (như mắt trái, mắt phải) dùng phân bó Gauss đề mô hình hóa Một mẫu khuôn mặt được đưa

ra thông qua trung bình tương ứng cho một tập đa hướng, đa tỷ lệ của bộ lọc đạo hàm Gauss Từ một ảnh, các đặc trưng ứng viên được xác định bằng cách so khớp từng điểm ảnh khi lọc tương ứng với vector mẫu (tương tự mối tương quan), chọn hai ứng viên đặc trưng đứng đầu đề tìm kiếm cho các đặc trưng khác của khuôn mặt Giống như xây dựng mộ đồ thị quan hệ mỗi node của đồ thị tương ứng như các đặc trưng của một khuôn mặt, đưa xác suât vào đê xác định Tỷ lệ xác định chính xác là §6%

12

Trang 22

Còn rất nhiều phương pháp xác định những đặc trưng khuôn mặt

Kết cầu khuôn mặt:

Khuôn mặt con người có những kết cấu riêng biệt mà có thê dùng đề phân loại

so với các đối tượng khác Augusteijn và Skufca cho rằng hình dạng của khuôn mặt dùng làm kết cấu phân loại, gọi là kết câu giống khuôn mặt (face-like texture) Tính kết cầu qua các đặc trưng thống kê thứ tự thứ hai (SGLD) trên vùng có kích thước 16x16 điểm ảnh Có ba loại đặc trưng được xem xét: màu da, tóc, và những thứ khác Hai ông dùng mạng neural về môi tương quan cascade cho phân loại có giám sát các kết cầu và một ánh xạ đặc trưng tự tổ chức Kohonen để gom nhóm các lớp kết cầu khác nhau Hai tác giả đề xuất dùng phương pháp bầu cử khi không quyết định được kêt câu đưa vào là kêt câu của da hay kêt câu của tóc

Manian và Ross dùng biến đổi wavelet để xây dựng tập dữ liệu kết cấu của khuôn mặt trong ảnh xám thông qua nhiều độ phân giải khác nhau kết hợp xác suất thông kê dé xác định khuôn mặt người Mỗi mẫu sẽ có chín đặc trưng Tỷ lệ chính xác la 87%, ty lé xác định sai la 18%

Sắc màu của đa:

Thông thường các ảnh màu không xác định trực tiếp trên toàn bộ dữ liệu ảnh

mà các tác giả dùng tính chất sắc màu của da người (khuôn mặt người) để chọn

ra được các ứng viên có thê là khuôn mặt người (lúc này dữ liệu đã thu hẹp đáng kể)

đề xác định khuôn mặt người Tôi sẽ trình bày chỉ tiết về mô hình hóa màu da người

ở một bài sau

Đa đặc trưng

Gan đây có nhiều nghiên cứu sử dụng các đặc trưng toàn cục như: màu da người, kích thước, và hình dáng để tìm các ứng viên khuôn mặt, rồi sau đó sẽ xác định ứng viên nào là khuôn mặt thông qua dùng các đặc trưng cục bộ (chi tiết) như: mắt, lông mày, mũi, miệng, và tóc Tùy mỗi tác giả sẽ sử dụng tập đặc trưng khác nhau

13

Trang 23

1.2.3 Hướng tiép cận dwa trén so khép mẫu

Xác định mẫu trước

Sakai đã cô gắng thử xác định khuôn mặt người chụp thăng trong ảnh Ông

dùng vài mẫu con về mắt, mũi, miệng, và đường viền khuôn mặt để mô hình hóa một

khuôn mặt Mỗi mẫu con được định nghĩa trong giới hạn của các đoạn thăng Các đường thăng trong ảnh được trích bằng phương pháp xem xét thay d6i gradient nhiéu nhất và so khớp các mẫu con Đầu tiên tìm các ứng viên thông qua mối tương quan giữa các ảnh con và các mẫu về đường viên Sau đó, so khớp với các mẫu con khác Hay nói một cách khác, giai đoạn đầu xem như là giai đoạn sơ chế đề tìm ứng viên, giai đọan thứ hai là giai đoạn tính chế đề xác định có tôn tại hay không một khuôn mặt người Ý tưởng này được duy trì cho đến các nghiên cứu sau này

Craw đưa ra một phương pháp xác định khuôn mặt người dựa vào các mẫu về hình dáng của các ảnh được chụp thăng (dùng vẻ bề ngoài của hình dáng khuôn mặt) Đầu tiên dùng phép loc Sobel đề tìm các cạnh Các cạnh này sẽ được nhóm lại theo một số ràng buộc Sau đó, tìm đường viền của đầu, quá trình tương tự được lặp

đi lặp lại với mỗi tỷ lệ khác nhau đề xác định các đặc trưng khác như: mắt, lông mày,

và môi Sau đó Craw mô tả một phương thức xác định dùng một tập có 40 mẫu để tìm các đặc trưng khuôn mặt và điều khiến chiến lược đò tìm có rất nhiều nghiên cứu dựa trên phương pháp xác định mẫu trước của hướng tiếp cận So khớp mẫu này

Các mẫu bị biến dạng

Yuille dùng các mẫu biến dạng đề mô hình hóa các đặc trưng của khuôn mặt,

mô hình này có khả năng linh hoạt cho các đặc trưng khuôn mặt Trong hướng tiếp cận này, các đặc trưng khuôn mặt được mô tả bằng các mẫu được tham số hóa Một hàm năng lượng (giá trị) được định nghĩa để liên kết các cạnh, đỉnh, và thung lũng trong ảnh đề tương ứng với các tham số trong mẫu Mô hình này tốt nhất khi tối thiêu

hàm năng lượng qua các tham số, Mặc dù kết quả tốt với mẫu biến dạng trong theo vết đối tượng trên đặc trưng không mô hình theo lưới, một hạn chế của hướng tiếp

14

Trang 24

cận này là các mẫu biên dạng phải được khởi tạo trong phạm vi gân các đôi tượng đề xác định

Huang và Su dùng lý thuyết dòng chảy đề xác định đường viền khuôn mặt dựa trên đặc tính hình học Hai ông dùng lý thuyết tập đồng mức (Level Set) dé loang từ các khởi động ban đâu đề có được các khuôn mặt người

L2.4 Hướng tiếp cận dựa trên điỆH mạo

Trái ngược với các phưong pháp so khớp mẫu với các mẫu đã được định nghĩa

trước bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu Một các tông quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ thuật theo hướng xác suất thống kê và máy học đề tìm những đặc tính liên quan của khuôn mặt và không phải là khuôn mặt Các đặc tính đã được học ở trong hình thái các mô hình phân bồ hay các hàm biệt số nên dùng có thê dùng các đặc tính này để xác định khuôn mặt người Đồng thời, bài toán giảm số chiều thường được quan tâm

dé tăng hiệu quả tính toán cũng như hiệu quả xác định

Có nhiều phương pháp áp dụng xác suất thống kê để giả quyết Một ảnh hay một vector đặc trưng xuất phát từ một ảnh được xem như một biến ngẫu nhiên x, và biến ngẫu nhiên có đặc tính là khuôn mặt hay không phải khuôn mặt bởi công thức tính theo các hàm mật độ phân lớp theo điều kiện

P (x | khuôn mặt) và P(x | ~ khuôn mặt)

Có thể dùng phân loại Bayes hoặc khả năng cực đại dé phân loại một ứng viên

là khuôn mặt hay không phải là khuôn mặt Không thê cài đặt trực tiếp phân loại

Bayes bởi vì số chiều của x khá cao, bởi vì P (x | khuôn mặt) và P(x | ~ khuôn mặt)

là đa phương thức, và chưa thể hiểu nếu xây dựng các dạng tham số hóa một cách tự

nhiên cho P(x | khuôn mặt) và P(x | ~ khuôn mặt) Có khá nhiều nghiên cứu theo hướng tiếp cận này quan tâm xấp xỉ có tham số hay không có tham số cho P(x | khuôn mặt) và P(x | ~ khuôn mặt)

Các tiếp cận khác trong hướng tiếp cận dựa trên diện mạo là tìm một hàm biệt

số (như: mặt phăng quyết định, siêu phăng để tách đữ liệu, hàm ngưỡng) đề phân biệt

15

Trang 25

hai lớp dữ liệu: khuôn mặt và không phải khuôn mặt Bình thường, các mẫu ảnh được chiếu vào không gian có số chiều thấp hơn, rôi sau đó dùng một hàm biệt số (dựa trên các độ đo khoảng cách) đề phân loại, hoặc xây dựng mặt quyết định phi tuyến băng mạng neural đa tầng Hoặc dùng SVM (Support Vector Machine) và các phương thức kernel, chiếu hoàn toàn các mẫu vào không gian có số chiều cao hơn đề dữ liệu bị rời rạc hoàn toàn và ta có thể dùng một mặt phăng quyết định phân loại các mẫu khuôn mặt và không phải khuôn mặt

e« Dvya trén tri thirc (knowledge-based)

e Đặc trưng bat bién (feature invariant)

‹ - Đối sánh mẫu (template matching)

Dựa vào diện mạo (appearance-based) phương pháp này thường dùng một mô hình máy học nên còn được gọi là phương pháp dựa trên máy học (machine learning- based)

Dựa trên tri thức (knowledge-based)

e« Đặc trưng bat bién (feature invariant)

«_ Đối sánh mẫu (template matching)

Dựa vào diện mạo (appearance-based) phương pháp này thường dùng một mô hình máy học nên còn được gọi là phương pháp dựa trên máy học (machine learning- based)

1.3 Mang noron nhan tao

1.3.1 Mang noron sinh hoc

Não bộ con người là một mạng lưới khoảng 10!! tế bào thần kinh hay còn gọi

là nơron Chúng có cấu trúc và chức năng tương đối đồng nhất Các nhà nghiên cứu sinh học về bộ não con người đã đưa ra kết luận rằng các nơron là đơn vị đảm nhiệm những chức năng nhất định trong hệ thần kinh bao gồm não, tuỷ sống và các dây thần kinh Hinh 1.5 chỉ ra cấu tạo của hệ thống tế bào sinh học này

16

Trang 26

Hình 1.5 Câu trúc cơ bản của nơron sinh học

Cấu trúc của một nơron được chia thành 3 phần chính: Phần thân, hệ thống dây thần kinh tiếp nhận và sợi trục thân kinh ra Hệ thống dây thần kinh tiếp nhận tao

thành một mạng lưới dày đặc xung quanh thân tế bào (chiếm diện tích khoảng 0.25 mm?) Chúng là đầu vào đề đưa các tín hiệu điện đến thân tế bào Thân tế bào có nhân bên trong sẽ tông hợp các tín hiệu vào và sẽ làm thay đôi điện thế của bản thân nó

Khi điện thế này vượt quá một mức ngưỡng thì nhân tế bào sẽ kích thích đưa một xung điện ra sợi trục thần kinh ra Sợi trục thần kinh ra có thể dài một vài centimet đến vài met Nó có thê phân thành nhiều nhánh theo dạng hình cây đề nối với các dây

thần kinh vào của nhiều tế bào khác hoặc có thể nối trực tiếp đến thân tế bào của duy nhất một nơron Việc kết nói này được thực hiện nhờ các khớp nối Số khớp nối của

mỗi nơron có thê lên tới hàng trăm ngàn Người ta tính toán rằng mạng lưới dây thần kinh ra và các khớp nối chiếm khoảng 90% diện tích bé mặt nơron Các tín hiệu điện truyền trên các sợi dây thần kinh cũng như hiệu điện thế của nhân tế bào là kết quả của quá trình phản ứng và giải phóng của các chất hữu cơ được đưa ra từ các khớp nói dẫn đến dây thần kinh vào Xung điện đưa ra sợi trục axon sẽ truyền tới các khớp nôi với đâu vào của các nơron khác và sẽ kích thích giải phóng các chât truyên điện

17

Trang 27

Tuỳ theo việc tăng hay giảm hiệu điện thế mà người ta chia thành hai loại khớp nói

là khớp nối kích thích và khớp nối ức chế Cường độ tín hiệu mà một tế bào thần kinh

nhận được phụ thuộc chủ yêu vào mức độ liên kết của khớp nối Các nghiên cứu chỉ

ra rằng quá trình học của mạng nơron sinh học chính là việc thay đôi mức độ liên kết

của các khớp nói Chính cấu trúc mạng nơron và mức độ liên kết của các khớp nói đã

tạo nên chức năng của hệ thần kinh con người Quá trình phát triển của hệ thần kinh

là một quá trình “học ” liên tục Ngay từ khi chúng ta sinh ra, một số cầu trúc thần

kinh đơn giản đã được hình thành Sau đó các cấu trúc khác lần lượt được xây dựng

thêm nhờ quá trình học Do đó cấu trúc mạng nơron liên tục biến đôi đề ngày càng

phát triên hoàn thiện

Một vấn đề đặt ra là dựa trên những kết quả nghiên cứu về hệ thần kinh con người chúng ta có thể mô phỏng, xây dựng lên các hệ thần kinh nhân tạo nhằm phục

vụ cho một chức năng nào đó không Nghiên cứu trả lời câu hỏi này đã đưa ra một hướng phát triển mới: Mạng nơron nhân tạo

1.3.2 Mạng noron nhân tạo

1.3.2.1 Giới thiệu về mang noron

Dinh nghia: Mang noron nhan tao, Artificial Neural Network (ANN) la mot

mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơron sinh học Nó được tạo nên từ một số lượng lớn các phần tử (noron) kết nối với nhau thông qua các liên kết (trọng số liên kết) làm việc như một thể thống nhất đề giải quyết một van đề cụ thê nào đó Một mạng nơron nhân tạo được cầu hình cho một ứng dụng cụ

thê (nhận dạng mẫu, phân loại dữ liệu ) thông qua một quá trình học từ tập các mẫu

huấn luyện Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơron [4|

Câu trúc neural nhân tạo:

18

Trang 28

Dau vao Trọng số liên kết

Hình 1.6 Cấu tạo một Neural Các thành phân cơ bản của một nơron nhân tạo bao gôm:

Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này thường được đưa vào dưới dạng một vector N chiêu

Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết —

Synaptic weight Trọng số liên kết giữa tín hiệu vào thứ j với nơron k thường được kí hiệu là wkJ Thông thường, các trọng số này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học mạng

Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó

Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như một thành phần của hàm truyền

Ham truyén (Transfer function): Ham này được dùng đề giới hạn phạm vi đầu

ra của mỗi nơron Nó nhận đầu vào là kết quả của hàm tông và ngưỡng Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa là một

đâu ra

19

Trang 29

Xét về mặt toán học, cấu trúc của một nơron k, được mô tả bằng cặp biéu

thức sau:

Uk=3)— W1; và Y,= ƒ (m¿ - bạ )

Trong đó: xị, Xa, ., Xp: là các tín hiệu vào; (Wki, Wk2 , Wkp) là các trọng SỐ

liên kết của nơron thứ k; uk là hàm tông: bk là một ngưỡng: f là hàm truyền và yk là

tín hiệu đầu ra của nơron Như vậy nơron nhân tạo nhận các tín hiệu đầu vào, xử lý (nhân các tín hiệu này với trọng số liên kết, tính tông các tích thu được rồi gửi kết quả tới hàm truyền), và cho một tín hiệu đầu ra (là kết quả của hàm truyền)

Trang 30

Cách thức kết nối các nơron trong mạng xác định kiến trúc (/opology) của

mạng Các nơron trong mạng có thể kết ndi day du (fully connected) tức là mỗi nơron đều được kết nối với tất cả các nơron khác, hoặc kết nối cục bộ (partially connected) chăng hạn chỉ kết nối giữa các nơron trong các tầng khác nhau Người ta chia ra hai

loại kiến trúc mạng chính [4]

Tự kêt hợp (a„oassociafive): là mạng có các nơron đâu vào cũng là các nơron đâu

ra Mạng Hopfield là một kiêu mạng tự kết hợp

Hình 1.7 Mạng tự kết hợp

® Kết hợp khác kiều (heteroassociative): la mang c6 tap noron dau vào và

đầu ra riêng biệt Perceptron, các mạng Perceptron nhiều tầng (MLP: MultiLayer

Perceptron), mạng Kohonen, thuộc loại này

21

Trang 31

Tâng vào Tâng ân Tang ra

22

Trang 32

Noron vao Noron ra

Hình 1.10 Mạng phản hồi

1.3.3 Qua trình học cua mang noron

Quá trình học của mạng neural là quá trình lan truyền thông tin để làm thay đôi các trọng số tốt nhất có thể Mạng neural được huấn luyện hay được học theo ba phương pháp học có giám sát, học không giám sát và học tăng cường [Š]

mô hình chưa nhìn thấy bao giờ hay không năm trong tập huấn luyện thì nó sẽ đưa ra

dự đoán chữ số trong bức ảnh đó

23

Trang 33

Hiệu chinh trọng sô

Dau ra mong muon

So sanh s

Hình 1.11 Mô hình huấn luyện mạng có giám sát [1 I]

Phương pháp học giám sát chia ra thành hai loại chính là:

- Phân loại (classification): Nêu nhãn của các dữ liệu đâu vào được chia thành một sô hữu hạn nhóm Như các bài toán nhận dạng chữ sô việt tay, dò tìm khuôn mặt người,

- Hỏi quy (regression): Nếu nhãn của các dữ liệu đầu vào không được chia thành các nhóm mà là một giá trị thực cụ thể Ví dụ như bài toán dự đoán gia cua mot căn nhà, giá trị dinh dưỡng của một món ăn,

Học không giám sát

Học không giảm sát (Unsupervised Learning) là phương pháp học từ một tập

dữ liệu cần học ta không biết trước nhãn của dữ liệu, cũng như số lớp đầu ra Thuật toán sẽ dựa vào câu trúc của dữ liệu để phân nhóm hay giảm chiều của dữ liệu, Học không giám sát có liên quan chặt chẽ đến việc ước lượng mật độ trong thống kê Cách học này không sử dụng tri thức từ bên ngoài trong quá trình học nên còn được

gọi là tự tố chức

24

Trang 34

Hình 1.12 Mô hình huấn luyện mạng không giám sát [11]

Mạng neural điển hình cho cách học này 1a Seft — Organizing Map (SOM) Một số thuật toán học không giám sát khác nhu k-means, Hieararchical Agglomerative Clustering (HAC), Fuzzy Cognitive Map (FCM), Các hướng tiếp cận bài toán học không giám sát là (1) và (2):

(1) Phản cụm (cñsfer): Chia đữ liệu thành các cụm nhỏ dựa trên sự liên quan của các dữ liệu trong môi cụm

(2) Liên kết (association): Bài toán khám phá ra quy luật của bộ dữ liệu cho

trước

Phân lớn ứng dụng học không giám sát vào các bài toán ước lượng như mô

hình hóa thống kê, nén, lọc, phân nhóm,

Học tăng cường

Hoc tang cuong (Reinforcement Learning) là phương pháp học giúp cho một

hệ thông tự động xác định hành động dựa trên hoàn cảnh dé dat loi ich cao nhat Hoc tăng cường băng cách thử nghiệm dữ liệu để khám phá ra hành động nào là tốt nhất

25

Trang 35

Hình 1.13 Mô hình huấn luyện mạng tăng cường [1 I]

Hành động đó không chỉ có lợi ích tốt cho bước hiện tại mà còn cho các bước tiếp theo Hai đặc điểm quan trọng đề phân biệt học tăng cường là tìm kiếm thử - sai (trialand-error search) và bồi dưỡng chậm (delayed reward)

Môi trường học thường được biều diễn dưới dạng Quy trình quyết định markov (Markov Decision Process - MDP) trạng thái hữu hạn Và các thuật toán học tăng cường liên quan đến các kỹ thuật quy hoạch động

Một cách hình thức, mô hình học tăng cường bao gồm: Tập các trạng thái của môi trường, tập các hành động và tập các điểm số Học tăng cường khai thác những

gì nó đã biết và khám phá môi trường mới, những hành động mới

Hiện tại, học tăng cường chủ yếu được áp dụng vào Lý thuyết trò chơi, thuật toán cần xác định hành động tiếp theo đề đạt số điểm tốt nhất Ví dụ, AlphaGo của

Google đánh cờ vây thắng con người, trong khi cờ vây có độ phức tạp cao xấp xĩ

10761

1.3.4 Cac tng dung cia mang noron

Mang nơron thích hợp với các ứng dụng so sánh và phân loại mẫu, dự báo và điều

khién

Dưới đây là một số ứng dụng cụ thể của công nghệ mạng nơron

- _ Không gian vũ trụ: Trình điều khiến máy bay không người lái, chế độ tự bay nâng cao; mô phỏng các đường bay và các bộ phận của máy bay; hệ thống

điều khiên của máy bay và hệ thống phát hiện sai hỏng

26

Trang 36

- - Dự đoán tài chính kinh tế: Dự đoán giá cả biến động cô phiếu Dự đoán cấp SỐ thời gian trong thị trường tài chính Các ứng dụng về điều hành vốn Dự đoán

thị trường ngoại hồi Đánh giá dự đoán rủi ro Dự đoán tình hình kinh tế Đánh

giá hiệu suât vôn vay và vôn đâu tư

- _ Hoạt động ngân hàng: Dự đoán khả năng phá sản Hệ thống thẻ đọc ngân hàng thẻ tín dụng

- Hệ thong phong thu: Hé thong điều khiển vũ khí dò tìm mục tiêu, nhận dạng

mục tiêu Điều khiển đường đạn Xử lý và nhận dạng tín hiệu ảnh, radar, siêu

ˆ

am

- _ Điện tử viễn thông: Dự đoán chuỗi mã Bồ trí mạch tích hợp trên chip Phan tích lỗi mạch tích hợp Nhìn băng máy Nhận dạng và tông hợp tiếng nói Nhận dạng chữ viết tay và chữ ký Xử lý ảnh, nén ảnh và nén số liệu Các địch vụ thông tin tự động Dịch ngôn ngữ nói thời gian thực Hệ thống xử lý thanh toán của khách hàng Định tuyến và chuyên mạch cho mạng ATM

- - Quá trình sản xuất và người máy: Điều khiến quá trình sản xuất Thiết kế và phân tích sản phẩm Chuẩn đoán và giám sát quá trình máy móc Hệ thống

kiểm định chất lượng Hệ thống lập kế hoạch và điều hành Điều khiến vận

động và hệ thống nhìn của robot

- _ Y tế: Phân tích tế bào ung thư vú Phân tích điện não đô Thiết kế bộ phận thay

thé Tối ưu hoá thời gian cấy ghép Dò tìm và đánh giá các hiện tượng y học

- - Vận tải: Hệ thong chuân đoán phanh xe tải Hệ thông định tuyến và lịch trình cho các phương tiện giao thông

- _ Giải trí: Các hiệu ứng chuyên động, các trò chơi

1.4 Mạng noron tích chập

1.4.1 Dinh nghia mang noron tich chap

Mang neural tich chap (Convolutional Neural Network - CNN) la mot trong những mô hình học sâu tiên tiến giúp chúng ta xây dựng được những hệ thống thông

27

Trang 37

minh với độ chính xác cao Như hiện nay, các hệ thống xử lý ảnh lớn như Facebook, Google hay Amazon đã đưa vào sản phẩm của mình những chức năng thông minh như nhận dạng khuôn mặt người dùng, phát triển xe hơi tự lái hay máy bay giao hàng

tự động [5]

Mô hình mạng neural truyền thăng ra đời đã được áp dụng nhiều vào các bài toán nhận dạng Tuy nhiên, đối với đữ liệu hình ảnh, mạng neural truyền thăng thê hiện không thực sự tốt Chính sự liên kết quá đầy đủ tạo nên những hạn chế cho mô hình Dữ liệu ảnh có kích thước khá lớn, một bức ảnh xám 32 x 32 điểm ảnh sẽ cho

ra vector đặc trưng có 1024 chiều, đối với ảnh màu cùng kích thước sẽ có 3072 chiều Điều này cũng có nghĩa là cần tới 3072 trọng số Ø nối giữa lớp đầu vào và một node trong lớp ân tiếp theo Số lượng trọng số sẽ càng nhân rộng hơn nếu số lượng node trong lớp ân tăng lên và số lượng lớp ân tăng lên Như vậy chỉ với một bức ảnh nhỏ

32 x 32 thì cũng cần đến một mô hình mạng neural truyền thăng khá đô sộ Điều này khiên cho việc thao tác với các bức ảnh lớn hơn khá khó khăn

Hơn nữa, việc liên kết đầy đủ các điểm ảnh vào một node trong mạng là dư thừa vì sự phụ thuộc lẫn nhau giữa các điểm ảnh xa nhau là không nhiều, mà chủ yếu

là sự phụ thuộc giữa các điểm ảnh lân cận nó Dựa trên tư tưởng này, mạng neural tích chập ra đời với câu trúc khác hăn mạng neural truyền thăng Thay vì toàn bộ ảnh

nối trực tiếp với một node thì chỉ có một phần cục bộ trong ảnh nối với một node

trong lớp tiếp theo Dữ liệu hình ảnh ban đầu qua các lớp của mô hình mạng neural tích chập sẽ học được ra các đặc trưng đề tiến hành phân lớp hiệu quả

Vé co ban, CNN bao gồm các lớp sau: lớp tích chập (Convolutional layer), lớp hàm kích hoạt (Activation layer), lớp pooling (Pooling layer) hay còn gọi là lớp subsampling, lớp kết nối đầy đủ (Fully Connected layer)

Trong mô hình CNN (Hình 1.14) các lớp được liên kết với nhau thông qua cơ chế tích chập Lớp tiếp theo là kết quả của tích chập của lớp trước đó, nhờ vậy mà ta có được các kết nói cục bộ Nghĩa là mỗi neural ở lớp tiếp theo được sinh ra từ các bộ lọc áp đặt lên một vùng ảnh cục bộ của neural ở lớp trước đó

28

Trang 38

Moi lớp như vậy được áp đặt các bộ lọc khác nhau, thông thường có vài trăm đến vài nghìn bộ lọc như vậy Một SỐ lớp khác như pooling/subsampling được dùng đề chắt lọc lại các thông tin hữu ích hơn

(Conv, Relu và Pool) và Lớp phân loại (FC và softmax)

1.4.2 Cầu trúc tổng quát của mạng noron tích chập

Mạng CNN là một tập hợp các lớp Convolution chồng lên nhau và sử dụng các hàm nonlinear activation như ReLU và tanh đề kích hoạt các trọng số trong các node [5]

Mỗi một lớp được sử dụng các filter khác nhau thông thường có hang tram

hàng nghìn filter như vậy và kết hợp kết quả của chúng lại Ngoài ra có một số layer khác như pooling/subsampling layer dùng đề chắt lọc lại các thông tin hữu ích hơn (loại bỏ các thông tin nhiễu) Trong quá trình huấn luyện mạng, CNN tự động học các giá trị qua các lớp filter dựa vào cách thức mà bạn thực hiện Ví dụ trong tác vụ phân lớp ảnh, CNNs sẽ có gắng tìm ra thông số tối ưu cho các filter tương ứng theo thứ tự raw pixel > edges > shapes > facial > high-level features Layer cuối cùng được dùng đề phân lớp ảnh

29

Trang 39

Hình 1.15 Cấu trúc tông quát của mạng nơron tích chập

Cấu trúc tông quát của mạng nơron tích chập gồm các lớp sau

Lớp tích chập

é€ ; 32

Tích chập (Convolution) là phép toán thực hiện với hai hàm số, kí hiệu là

Phép tích chập được ứng dụng trong thống kê, thị giác máy tính, xử lý ảnh và xử lý tín hiệu

Tich chap cua ham s6 f va g được viết là ƒ*ø, là một phép biến đổi tích

Trang 40

Tích chập trong xử lý ảnh: Tích chập lần đầu tiên được sử dụng trong xử lý tín hiệu số nhờ vào nguyên lý biến đôi thông tin, các nhà khoa học đã áp dụng kỹ thuật này vào xử lý ảnh và video

Đề dễ hình dung, ta có thê xem tích chập như một cửa số trượt áp lên một ma trận Cửa số trượt còn được gọi là nhân (kernel)

Hinh 1.16 minh hoa cach tinh tich chap trên ma trận ảnh đen trang Ma tran

ảnh đen trắng có mỗi ô giá trị là một điểm ảnh, 0 là màu đen, 1 là màu trắng Ta dùng

một ma trận nhân 3 x 3, nhân từng thành phần tương ứng với ma trận ảnh Giá trị đầu

ra do tích các thành phần này cộng lại Kết quả của tích chập là một ma trận sinh ra

từ việc trượt ma trận nhân và thực hiện tích chập cùng lúc lên toàn bộ ma trận ảnh goc

là 3 kênh màu, ta có tích chập 3 chiều bằng cách tính riêng tích chập cho 3 kênh này

với một bộ lọc, sau đó lấy trung bình cộng của ba kết quả đầu ra, ta được tích chập 3

chiêu

Mục tiêu của các lớp tích chập là trích chọn các đặc trưng của ảnh đâu vào

31

Tiêu đề	Phương Pháp Nhận Dạng Khuôn Mặt Dựa Trên Phương Pháp Học Chuyển Giao Của Mạng Noron Tích Chập Và Ứng Dụng Vào Bài Toán Điểm Danh Học Sinh Tại Trường THPT Chuyên Vĩnh Phúc
Tác giả	Nguyễn Thị Nhung
Người hướng dẫn	TS. Dương Thăng Long
Trường học	Trường Đại học Mở Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn
Năm xuất bản	2021
Thành phố	Vĩnh Phúc

Định dạng
Số trang	100
Dung lượng	15,02 MB