Phương Pháp Nhận Dạng Khuôn Mặt Dựa Trên Phương Pháp Học Chuyển Giao Của Mạng Nowrron Tích Chập Và Ứng Dụng Vào Bài Toán Điểm Danh Học Sinh Tại Trường Thpt Chuyên Vĩnh Phúc
Trang 1LOI CAM DOAN
Tên tôi là: Nguyễn Thị Nhung
Sinh ngày: 04/11/1984
Học viên lớp cao học I§M - CT52 trường Đại học Mở Hà Nội
Hiện đang công tác tại: Trường THPT Chuyên Vĩnh Phúc, tỉnh Vĩnh Phúc Tôi xin cam đoan đề tài “Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học chuyển giao của mạng noron tích chập và ứng dụng vào bài toán điểm danh học sinh tại trường THPT Chuyên Vĩnh Phúc” do thầy giáo TS Dương Thăng Long hướng dẫn là công trình nghiên cứu của riêng tôi Các kết quả đạt được trong luận văn là sản phâm của riêng cá nhân, không sao chép của người khác Nội dung của luận văn có tham khảo và sử dụng một sỐ thông tin, tài liệu từ các nguồn sách, tạp chí được liệt kê trong danh mục các tài liệu tham khảo
Vĩnh Phúc, ngày 10 thang 8 nam 2021
Tac gia luan van
Nguyén Thi Nhung
Trang 2LOI CAM ON
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp
đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn TS Dương Thăng Long, luận văn
với đề tài “Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học chuyền giao của mạng noron tích chập và ứng dụng vào bài toán điểm danh học sinh tại trường THPT Chuyên Vĩnh Phúc” đã hoàn thành
Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn TS Dương
Thăng Long đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn
Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn
Tác giả luận văn
Nguyễn Thị Nhung
Trang 3NIRGNN TICH GHI Pha doi coygcoatogsatdtbsuVGERGIGGAGGSG01ã0008ã00088 4 1.1 Hé thong GET T aeers yer neenenearneanmeneEn men 4 1-1.1, MS tả bài toán nhận dang khuôn THẾ Eocccoctg at GGaG002000dA40s 4 1.1.2 Hé thong nhan dang Khun Mat eceeeeecessteeceeessececeeeseeeeeeeteeeeenees 5 1.1.3 Một số ứng dụng của hệ thong nhận đang khuôn THÍ: öácc‹ccsccccceccccoe A 1.2 Một số hướng tiếp cận nhận dạng khuôn mặt - - - << +5 55s s3 sss+<+52 8 1.2.1 Huong tiép Gần dựa TRON BIG ccsssccexewexcnanvsaincenscncsmenaasanerenneasemneneiswenetses 9 1.2.2 Hướng tiếp cận dựa trên đặc trưng không thay đồi - c5 +: 11 1.2.3 Huong tiép can dua trén so KhOp MAU .ececceseseeseseeseseesessesesseseseeeeseeeeens 14 1.2.4 Hướng tiếp CSN Cia WEN đI6NH TH tc¿ci2i6iccc020205622tUAG614416804G404k251 15
Do ROA TAS TE SO THỂ reeveeseeaesseeioyronrsteiiie0185605610/00152X0N0110/84v09918505001060x6e 16
1333 Mane noron Sin HOC ccccccccccctiiiccespisá0t002266401161666304656680030366460368A6605:á v64 16 I.3.2 Mạng nơron nhân {ạO - - - «c3 13x13 vn nu 18 E33 G8 Wii Hộc của Biện HƠI: cecciicciaioiocidirioibcoiatuscldofiasd\Gváol854gv 008 23 I.3.4 Các ứng dụng của mạng ƠTOI - - s11 ưu 26 1.1 MBHE 1i؆0đ LH: GHẾ ca sounaanasebicieakiiiiiti6cs04006G01060)0106055ã800680004646N234000981/0/24//5568 ZT 1:4.1: Định nghĩa mạng nơron tich chap siscsscunnsananinnnminwsasanw 27
1.4.2 Câu trúc tông quát của mạng nơron tích chập ¿2 s2 s52 29 [,43;:GiảrDiff in tuiyÿỂN Dũ HỘ cá ng tũB Gia gthxy k4 l4 0005166606630 48ÿx.gcÿuang 39
Kết luận chương - - tk SE kEE TS TT HT T11 T111 T111 gánh 4]
Trang 4CHƯƠNG 2: NHẬN DẠNG KHUÔN MẶT DỰA TRÊN PHƯƠNG PHÁP HỌC
CHUYỂN GIÁO CỦA MẠNG NORON TICH CHAP sesssisssssscsssssessvensexanscsaveasnvsia 42
2.1 Thiết kế mạng nơron CNN nhận dạng khuôn mặt - - «+ << ««s>s+ 42 2.1.1 Tiền xử lý ảnh đầu vàO - - ¿+ St tk E3 tt cưng gu 43 2.1.2 Mô hình nhận dạng khuôn mặt dựa trên CNN -55<<<5 44 2.2 Phuong phap hoc chuyén giao trén CNN ccccccccsceessceceessesescecsveversesecevevereesecees 50 2.2.1 Giới thiệu phương pháp học chuyền giao .-2 - + 22s z+szsz 50
2.2.2 Một số biện pháp học chuyền giao trên CNN . ¿5c z+xcsscsez 5]
3:2:3 /Vai trừ dũi:Ngõ GHHVỂN ÌHD cáccanii hinh gg ca HH G4Giöc4020t20403661380G0:3816808g8 54
2.3 Mô số mô hình mạng CNN hiện đại - - ¿6 2S E£E£EE£Ee£xzxevxcvecxez 56
Ded dc AST VD coocccictiogoncuaigiit01500060146607665/0i659005060i408064g6080g00988866983862/39808549ã/ggê 56 2.32: MADĐ COOĐIEHEEi4c200/62g0004142G40A444)3646241,280A0GX344/60xQ 88% 59 Soi: /MNHDE RENHEEsvoeeddgedrtasdtliGev0500002080100585009Ấ619053801646088430/00309/180180400G114/00133//9/G 61
2.4 Áp dụng phương pháp học chuyên giao cho bài toán nhận dạng khuôn mặt để GiGin TH HötsáicctaiioorridiiditiiG60003000860010014008146606/06306551806165966140666086010904200456/600,g888 66 2.4.1 Phân tích bài toán - - - - -Ă 11113 TH ng gu 66 2D CPSC TE GE GO seis cecessaisaseacusrcanacnauereswncruneuuesnwatabiceansweneesae suwteautausuaubetits 67 2.4.3 Áp dụng phương pháp học chuyền giao với mạng VGG và Resnet vào NHDi7iiSnit: HD TT EcneeeaeboeioioiiriigtoiGi040633)00161016151 0018000101160GNSSA1088/60010108008 06146 68
KẾ HIR BHHGE si su noi g01G008000003683283154938003804GU)G09GA950S820628333988X88osvel 7]
CHƯƠNG 3: XÂY DỰNG PHÀN MEM MO PHONG VA KET QUA THU’
BN quang ghotgicG G00 0010011000330110000546093601001380081636000846x2ã063008610031655800403040031068885 72 3.1 Xây dựng chương trình ứng dụng - - -c 62 221111333 sserreva 72 3.1.1 Công cụ xây dựng phần mêm -2- 2 2 eS£SEE£Ek£kcxcrzrxeeerxd 72 112012001: 0E:11:3246270515/2ã0023AG3G52003X8/4đ54A134040Ấ02/80344S0090/10)4361/2sai604316400461148 74 S56 HPhiCHi chữ HHHlaenieeeeeaaaiaeiobroioiliapoidtg2466596956894501264598100048824) 76
3T Tiểu X lý 2H đâữ VD boossiesebtcotooidg0006/10008003000830GRG00E2ã30x2 s0) 76 3.2.2 Đào tạo mô hìnÌh - c1 1 111111111111 1 1v va 79 3:5;3::MIidi) Gi0n Khuốii tá dừa CÀI GB ¡áccsccotioiibcodiiitiiiictii6L1366026604628806/0ố005gả9 86
3.2.4 Nhận diện khuôn mặt qua ảnh có sẵn - - + 2 2z s+s+x+s+xzxzxzxesez 87
Sý2S.80001, 61010 0THffneeeseaiaestoesnrntrttttigstBGGEUEREUINNGES20050236000033800040/0140/-06 0x0 88
Két ludin ChUONG cccccessesesscsesesscsesessescscssesesvsusaesecssstsnsasavsvsatavsusatavsrsacaesneacarseeees 89
Trang 5KET LUAN VA HUONG PHAT TRIEN cccccccecececcscscsccescecscsesessesvacsesessceavavacaeens 90 TAI LIEU THAM KHAO
123docz.net - File bi loi xin lienhe: lethikim34079 @ hotmail.com
Trang 6123dớĐiêng- Xidbi loi xin lienhe: lethiki BAY GtiSemail.com
Artificial Neural Network Convolution Neural Network Visual Geometry Group Fully Connected
Rectified Linear Unit
vi
Cơ sở dữ liệu Mạng nơron nhân tạo Mạng nơron tích chập
Lớp kết nối đầy đủ
Hàm kích hoạt
Trang 7DANH MUC CAC BANG
Trang
Bang 1.1 Mot s6 ham truyén thong dung c.cccececccescsseseeseseesesessesessesessesteseseeseseeees 21 Bảng 2.1 Ví dụ về dữ liệu phân lớp của mô hình CNN 2-2-2 s2 s52: 50 Bảng 3.1 Cấu trúc chương trình .- ¿- 2s 2+ SE SEE£+E£EzEEzEeExrxezxrxerxrserxee 76 Bảng 3.2 Bảng so sánh mô hình VGGI19 - VGG Face .- 55 << << s52 88 Bang 3.3 Bang so sánh hiệu quả mô hình VGG19 - VGGFACE 89
vii
Trang 8DANH MUC HINH VE
Trang Hình 1.1 Mô hình băi toân nhận dạng mặt người - - 5555 5< << <sss 5 Hình 1.2 Cấu trúc tông quât của hệ thống nhận dạng khuôn mặt -. 6 Hình 1.3 Hệ thống đa độ phđn giải . - 2 ¿2 SE ££E£E£EE+EezxzExzEzrxzxzs 10
Hinh 1.4 Mot loai tri trức của người nghiín cứu phđn tích trín khuôn mặt 10 Hình 1.5 Cấu trúc cơ bản của noron sinh hoC ccccsscscscssesecescscsceseseccscscssececeecacavees 17 Hình 1.6 Cấu tạo mOt Neural .ccccccccscscscsssssscecscscesecececseesscecscscscavavevavavscaveveveeenenees 19
BERT A AE MG Bh ccsecccss cosunrsorcovercecutenaivecnrsiuetcovasteuacecsicasescueieescaceestuscestd: 21
Hinh 1.8 Mang kĩt hop khac kiĩu s cecccccccsesesssscsesessesesesecsessecsrsusevsreesevsneessvaeneeee 22 Hình 1.9 Mang truyĩn thang .c.ccccccsessessessesesessessecsessessessessesesseesessessessesecseseecsess 22
Binh 1,10 Maria phan BOb esses cecarscuem neers ec same aes ecru 23
Hình 1.11 M6 hinh huan luyện mạng có giâm sât [ I I] 2-2 s2 s25 24
Hình 1.12 Mô hình huấn luyện mạng không giâm sât [ I] - - - s5 25
Hình 1.13 Mô hình huấn luyện mạng tăng cường [ I I] - ¿s2 2 25252 26
Hinh: 1.12 MO BÌNH CN Guaevaeooeadianasaaaoaninaiaiainioiiiiisd00014460540616616609066008000/0000500/40545 29 Hình 1.15 Cđu trúc tông quât của mạng nơron tích chập - - 2s s52: 30 Hình 1.16 Minh hoạ tích chập trín ma trận ảnh - << S132 3l HiWifizl, 17: NINH hgg:4el:öNfWliBHHDHfiexeessssssaesusanuitttdiitgtrtaiiGDtiiblsgrsiulitdtovaoetanrgstdi 32
Hình: |;15-:Nihxyioolniesv ÏDG322x62ui6unujtdssowwcdulgsgsoszgauxsguBud 35 Hình 1.19 Mô hình hăm softmax cho mạng NeuraÌ «55 << <x<<<<<<<2 ay: Hhh 1,20 Q06 KH ho nnoaaoattudaGtiogGGGQGAGBGRGVGIGRNHGSREGGAAGĐXSNSNISGSIEAAotoasg 38 Hình 1.21 Mạng nơron truyền thăng nhiều lớp sử dụng giải thuật lan truyền ngược wasn We i a ei a aR in WW aba NS WSN ta aN Gi ata aa a 40
Hình 2.1 Sơ đồ quy trình của mô hình nhận dạng khuôn mặt . - - 42 Hìốh 2:2: Câc dạng đặc ưng HSSš-HĂG:::::c::ccâcc:cccic0L 000202 c000006202200010616ê800ê600608666uguêi 43 Hình 2.3 Kiến trac dang khối của mô hình CNN - c x+ +Ex+svzxzEexxzxexxez 45 Hình 2.4 Một ảnh đầu văo kích thước 100x90x1 (đa cấp MAIN) easowtanuaaydaoasae 46 Hình 2.5 Hình ảnh sau khi xử lý của khối B2 vă lớp nơron POOL 47 Hình 2.6 Hình ảnh kết quả xử lý sau BS, B7 vă B9 - Ăn nho 48 Hình 2.7 Mô hình VGG ban đầu vă mô hình VGG mới - 2s 2 ss2 52: 52 Hình 2.8 Bỏ câc fully connected layer ở model VGG16 đi vă thím văo câc Fully GöliiieGtEO AVEC TION cscssssiccasnnainzssniasancenaponcestansanavuxanans undnesave tannavenmpueuaneicanexeuneasanaananes 53 Hình 2.9 So sânh hiệu suất mô hình trước vă sau khi âp dụng học chuyền giao 55 Hình 2.10 Kiến trúc mô hình GG - ¿25 £ S 2E EE£E£EE£E£EE£E£Erkrzxrkerervee 57
Hìuib:2:L1 Gâc Biển thể của piôiBinlifVQŒEceseoeaoeneisinnbaebididliiadkangtoi(alaxadsd 58
HHẰt 12 - IBGCDHOH(tvvicqtgcicugsgi6tqbalsygiyosottta@G@igiystwiie@xgsgsg 60 Hình:2;13 Vnnishmp CHHHỦNGH câo eeeeoarsobieoieiiiiolioidbii441100540000.031010140144000155456 62
Hình 2.14 Residual Module vă văi lớp đầu tiín của ResNet - 55+: 64
viii
Trang 9Hinh 2.15 Mang Densenet cccccesesesseeseeseeeseseseeeseseaeeeeeeneaeeseeeneeeeseneaeeeeeeteeees 65 Hình 2.16 Câu hình khác nhau của DenseNet . 5c scsccscsccsceee 66 Hinh 2.17 Hinh anh vé tập dữ liệu ảnh khuôn mặt cho 4 danh tính 67 Hình 2.18 Mô tả định dạng sắp xếp các thư mục trong tập đữ liệu ảnh mẫu ban đầu ÿvsgš002688030880ã08000060360490666668004360060190445860xio13005360466665804305460480G003160656608.086596060/60000005g4 64) 68
Hình 3.1 Kiểm tra cài đặt ngôn ngữ python 2-2 s22 2+2 z+Szzxe£zz£zzxzzxzs 74 Bink 3.2 Gái đất thir viện đÌlÐs:s::gttsgauai:gtt iiidyiloggtiitttqiqqi@0yxst06g 75 Hình) 611 Re PN VIG oF eeaaeeeeeeeeoeaneaeeeaeenoxeenooatesooddsnossuoessei 75 HH3 Gái GIE KG Guawiepicoiiiciicctsii60001142000406180u6A106960606566209916604106410033636096ã8Xấi 76 Hình 3.5 Tiền xử lý ảnh đầu vàO ¿- - c6 SE kEEEE E3 TT ng 79 Hình 3.6 Kết quả nhận diện bằng Camera - mô hình VGG19 - 25: 86
Hinh 3.7 Két qua nhan dién bang Camera - mô hình VGG Faee 86 Hinh 3.8 Anh nhan dién qua File - m6 hinh VGG face .- «5555555 << «s52 87 Hinh 3.9 Anh nhan dién qua tile: f0 HH V GG esscscsicsssscacceveeneccmmnnvnseeseewe 87
Trang 10MO DAU
1 Ly do chon dé tai
Hiện nay, cùng với sự phát triên của xã hội, vấn đề an ninh bảo mật đang được yêu cầu khắt khe tại mọi quốc gia trên thế giới Các hệ thống nhận dạng con người được ra đời với độ tin cậy ngày càng cao Một trong các bài toán nhận dạng con người rất được quan tâm hiện nay là nhận dạng mặt người
Bài toán nhận dạng khuôn mặt người vốn được nghiên cứu từ những năm 1970
và cho đến nay, rất nhiều nghiên cứu lẫn ứng dụng cho bài toán này đã ra đời Bài toán nhận dạng mặt người có thê áp dụng rộng rãi trong nhiều lĩnh vực khác nhau Các ứng dụng liên quan đến nhận dạng mặt người có thể kê như: hệ thong phat hién tội phạm, hệ thông theo dõi nhân sự trong một đơn vị, hệ thông tìm kiếm thông tin trên ảnh, video dựa trên nội dung
Deep Learning là một thuật toán dựa trên một số ý tưởng từ não bộ tới việc tiếp thu nhiều tầng biểu đạt, cả cụ thê lẫn trừu tượng, qua đó làm rõ nghĩa của các loại dữ liệu Deep Learning được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngôn ngữ tự nhiên Hiện nay rất nhiều các bài toán nhận dạng sử dụng deep learning dé giai quyét do deep learning có thê giải quyết các bài toán với số lượng lớn, kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyền thống
Convolutional Neural Network (CNN — Mang no-ron tích chập) là một trong những
mô hình Deep Learning tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao như hiện nay Trong luận văn cao học này, tôi nghiên cứu “Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học chuyến giao của mạng noron tích chập và ứng dụng vào bài toán điểm danh học sinh tại trường trung học phố thông Chuyên Vĩnh Phúc”
2 Mục tiêu nghiên cứu
- Nghiên cứu tông quan về bài toán nhận dạng khuôn mặt người
Trang 11- Tập trung làm rõ cơ sở lý thuyết, ứng dụng của bài toán nhận dạng khuôn mặt người dùng mạng nơron tích chập
- Nghiên cứu nhận dạng khuôn mặt dựa trên phương pháp học chuyền giao của mạng noron tích chập
- Phân tích bài toán, thiết kế và cài đặt thử nghiệm phần mềm mô phỏng nhận dạng
thí sinh dự thi ứng dụng mạng nơoron tích chập
3 Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học chuyên g1ao của mạng nơron tích chap
- Phạm vi nghiên cứu: Lý thuyết ứng dụng mạng nơron tích chập cho bài toán điểm danh học sinh tại trường THPT Chuyên Vĩnh Phúc
4 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết: Tổng hợp, nghiên cứu các tài liệu về nhận dạng khuôn mặt và mạng nơron tích chập: nghiên cứu phương pháp học chuyền giao của mang noron tích chap;
- Phuong pháp nghiên cứu thực nghiệm: Sau khi nghiên cứu lý thuyết, phát biểu
bài toán, đưa ra giải pháp xử lý; cài đặt thử nghiệm chương trình phần mềm mô phỏng nhận dạng học sinh; Đánh giá các kết quả đạt được
5 Bố cục của luận văn
Bồ cục của luận văn được chia làm 3 chương
Chương 1 Giới thiệu về nhận dạng khuôn mặt và mạng noron tích chập
Giới thiệu về hệ thống nhận dạng khuôn mặt, Nghiên cứu lý thuyết về mạng nơron tích chập
Chương 2 Nhận dạng khuôn mặt dựa trên phương pháp học chuyển giao của mạng nơron tích chập
Trang 12Giới thiệu phương pháp học chuyền giao của mạng nơron, giới thiệu 2 mạng đào tạo trước VGG và Resnet50
Chương 3: Xây dựng phần mềm mô phỏng và kết quả thử nghiệm
Lựa chọn ngôn ngữ cài đặt, xử ly đữ liệu đầu vào đề đưa vào chương trình Quá trình cài đặt chương trình, quá trình chạy thử nghiệm Thống kê, đánh giá các kết quả trong quá trình thử nghiệm chương trình
Trang 13CHUONG 1: GIOI THIEU VE NHAN DANG KHUON MAT
VA MANG NORON TICH CHAP
1.1 Hệ thống nhận dạng khuôn mặt
1.1.1 Mô tả bài toán nhận dạng khuôn mặt
Nhận dạng mặt người là một trong những ứng dụng quan trọng của thị giác máy tính nói riêng cũng như khoa học máy tính nói chung Bài toán nhận dạng khuôn mặt người vốn được nghiên cứu từ những năm 1970 và cho đến nay, rất nhiều nghiên cứu lẫn ứng dụng cho bài toán này đã ra đời Bài toán nhận dạng mặt người có thể áp dụng rộng rãi trong nhiêu lĩnh vực khác nhau Các ứng dụng liên quan đến nhận dạng mặt người có thể kể như: hệ thông phát hiện tội phạm, hệ thống theo dõi nhân sự trong một đơn vị, hệ thống tìm kiếm thông tin trên ảnh, video dựa trên nội dung [1]
Như chúng ta đã biết, con người khi sinh ra đã có những đặc điểm sinh học tự nhiên riêng biệt phân biệt giữa người này với người kia, rất khó có thể trùng lặp Các đặc điểm đó có thê bị thay đồi trong cuộc sông trừ những tác động khách quan hoặc chủ quan như: tai nạn, tôn thương, phẫu thuật chỉnh hình Chính bởi yếu tố riêng
biệt đó, các nhà khoa học tập trung nghiên cứu, tìm hiểu đặc trưng sinh trắc của con
người và áp dụng vào các biện pháp giúp nhận dạng, xác định danh tính của mỗi người Dựa vào những đặc điểm sinh trắc học của con người, các hệ thống nhận dạng sinh trắc học ra đời nhăm giải quyết nhiều vấn đề có liên quan tới bảo mật, an ninh, khoa học hay các nhu cầu khác trong cuộc sống
Các đặc trưng sinh trắc khuôn mặt là những đặc điểm riêng trên khuôn mặt mỗi người gần như không thay đôi theo thời gian, các đặc điểm này phân biệt giữa người này và người kia, rất khó có thê xảy ra trùng lặp Dựa trên nhận xét thực tế, con người
dễ dàng nhận biết các khuôn mặt và các đối tượng trong các tư thê khác nhau và điều
kiện ánh sáng khác nhau, thì phải tồn tai các thuộc tính hay đặc trưng không thay đổi Chính vì thế, việc xác định danh tính, nhận dạng khuôn mặt người thông qua các đặc trưng sinh trắc học đó sẽ đảm bảo được độ chính xác, tin cậy cao
Trang 14Ban thân con người có thể nhận dạng ảnh khuôn mặt của mọi người một cách
dễ dàng Thậm chí, ảnh đó có thể năm trong một ảnh nền phức tạp Tuy nhiên, đối với hệ máy thì việc nhận dạng này là một công việc rất phức tạp và khó khăn Chính
vì vậy, trong những năm gần đây lĩnh vực nhận dạng khuôn mặt đã nhận được sự quan tâm nghiên cứu lớn từ các nhà khoa học nhằm tạo ra các hệ hỗ trợ quyết định phục vụ trong rât nhiêu lĩnh vực của cuộc sông
Giả sử ta có một cơ sở dữ liệu ảnh đã được lưu trong máy về một số người (Hình 1.1), bài toán nhận dạng là làm sao đê khi đưa ảnh khuôn mặt của một người bat kỳ vào thì máy sẽ tự động nhận dạng ra người này trong cơ sở dữ liệu
Trang 15Hình 1.2 Cấu trúc tông quát của hệ thống nhận đạng khuôn mặt
Phát hiện khuôn mặt (face detection): Phát hiện khuôn mặt sẽ lấy ra tất cả các khuôn mặt trong một hình ảnh Chức năng này làm nhiệm vụ xác định vị trí, kích
cỡ của một hoặc nhiều khuôn mặt trên ảnh chụp từ đó tách ra phần mặt Phần ảnh mặt được tách ra thường nhỏ hơn nhiều so với ảnh chụp ban đầu, nó sẽ là các khuôn mặt cần tìm và chức năng trích chọn đặc trưng sẽ sử dụng các ảnh được tách ra này
Tiền xử lý (Pre-Processing): Bước này nhằm mục đích lọc nhiễu, nâng cao chất lượng ảnh để chuẩn hóa ảnh cần tìm giúp cho việc tìm kiếm được hiệu quả hơn Các công việc trong bước tiền xử lý có thê là: Chuân hóa kích cỡ giữa ảnh trong CSDL và ảnh cần tìm, hiệu chỉnh độ sáng, tối của ảnh; lọc nhiễu, chuẩn hóa về vị trí,
tư thé anh mat
Trích chọn đặc trưng (FE): Tìm ra các đặc trưng chính của ảnh mặt, từ các đặc trưng này hình thành các vector đặc trưng, các vector này sẽ được sử dụng đề đối sánh sự giống nhau giữa ảnh mặt cần tìm và ảnh mặt trong CSDL
Nhận dạng/Phán lớp: Bước nhận dang (recognition) hay phan lớp (classification), tức là xác định danh tính (identity) hay nhãn (label) cua anh đó là ảnh
cua al.
Trang 16Dữ liệu hệ thống nhận dạng: Dữ liệu hệ thống nhận dạng được chia làm 3
tập gồm tập huấn luyện (training set), tập tham chiéu (reference set) va tap dé nhan dang (probe set) Tap huấn luyện gồm các ảnh được dùng đê huấn luyện, thông thường tập này được dùng đề sinh ra một không gian con là một ma trận Tập tham chiếu gồm các ảnh đã biết danh tính được chiếu vào không gian con ở bước huấn luyện Sau khi thực hiện chiều tập tham chiều vào không gian con, hệ thống lưu lại kết quả là một ma trận với mỗi cột của ma trận là một vector tương ứng với ảnh (định danh đã biết) đề thực hiện nhận đạng (hay phân lớp)
Hệ thống nhận dạng khuôn mặt cần đảm bảo các yêu cầu:
-_ Độ chính xác nhận dạng có thể chấp nhận được đối với yêu cầu của bài toán nhận dạng;
- _ Tốc độ vận hành cao đối với các CSDL lớn và số lượng các yêu cầu có thê giải quyết được;
- Đơn giản trong việc cài đặt, lựa chọn thiết bị và vận hành An toàn với người sử dụng
1.1.3 Một số ứng dụng của hệ thông nhận dạng khuôn mặt
Hệ thống nhận dạng khuôn mặt đã và đang được áp dụng trong rất nhiều lĩnh vực của đời sống xã hội Chúng ta có thê liệt kê một sỐ ứng dụng tiêu biêu như sau:
- Hệ thống tương tác giữa người và máy: sẽ giúp những người tàn tật hoặc khiếm khuyết có thể trao đôi Những người câm sẽ nói chuyện với người bình thường bằng ngôn ngữ tay, người bại liệt có thể thông qua các ký hiệu như
nháy mắt, những cử chỉ trên khuôn mặt đề ra hiệu cho người bình thường
- Nhận dạng người có phải là tội phạm bị truy nã hay không? Giúp cơ quan an ninh quản lý tốt con người Hoặc có thê truy tìm nhanh chóng các hồ sơ tội phạm trong cơ sở dữ liệu của máy tính
Trang 17- Hé thông quan sát theo dõi và bảo vệ Các hệ thống camera sẽ xác định đâu
là con người và theo dõi con người đó xem họ có vi phạm gì không, ví dụ như xâm phạm khu vực không được vào, xâm phạm vào nhà riêng,
-_ Lưu trữ hình ảnh khuôn mặt những người rút tiền từ máy rút tiền, hiện nay có tình trạng những người bị người khác lây mất mã số PIN và những người ăn cap nay đi rút tiền Hoặc những người chủ thẻ đi rút tiền nhưng lại báo mất thẻ và mắt tiền Các ngân hàng có nhu cầu khi giao dịch tiền sẽ kiêm tra hay
lưu trữ khuôn mặt người rút tiền dé sau đó đối chứng và xử lý
- Các hệ thông mở cửa, chấm ngày công lao động của các nhân viên vào ra trong công ty Hệ thống nhận dạng mặt người sẽ cho phép các nhân viên vào
ra những khu vực cho phép, hay đăng nhập máy tính hoặc đăng nhập máy tính cá nhân của mình mà không cân mật khâu,
-_ Phân tích các cảm xúc của con người trên khuôn mặt
- Tương lai sẽ phát triển các loại thẻ thông minh có tích hợp sẵn đặc trưng của người dùng trên đó, khi bất cứ người dùng nào khác dùng để truy cập hay xử
lý tại các hệ thống sẽ được yêu cầu kiểm tra các đặc trưng của khuôn mặt so với thẻ để biết có phải là chủ thẻ hay không [1]
1.2 Một số hướng tiếp cận nhận dạng khuôn mặt
Có nhiều nghiên cứu tìm phương pháp xác định khuôn mặt người, từ ảnh xám đến ngày nay là ảnh màu Tôi sẽ trình bày một cách tông quát nhất những hướng giải quyết chính cho bài toán, từ những hướng chính này nhiều tác giả thay đổi một số ý nhỏ bên trong đê có kêt quả mới
Dựa vào tính chất của các phương pháp xác định khuôn mặt người trên ảnh
Các phương pháp này được chia làm bốn hướng tiếp cận chính Ngoài bốn hướng này, nhiều nghiên cứu có khi liên quan đến không những một hướng tiếp cận mà có
liên quan nhiều hơn một hướng chính [3]
Trang 18Huong tiép can dua trén tri thirc: Ma hoa các hiệu biệt của con người về các loại khuôn mặt người thành các luật Thông thường các luật mô tả quan hệ của các đặc trưng
Hướng tiếp cận dựa trên đặc trưng không thay đổi: Mục tiêu các thuật toán đi tìm các đặc trưng mô tả cấu trúc khuôn mặt người mà các đặc trưng này sẽ không
thay đôi khi tư thế khuôn mặt, vị trí đặt thiết bị thu hình hoặc điều kiện ánh sáng thay
đôi
Hướng tiếp cận dựa trên so khóp mâu: Dùng các mẫu chuẩn của khuôn mặt người (các mẫu này được chọn lựa và lưu trữ) để mô tả cho khuôn mặt người hay các đặc trưng khuôn mặt (các mẫu này phải chọn làm sao cho tách biệt nhau theo tiêu chuẩn mà các tác giả định ra để so sánh) Các mối tương quan giữa dữ liệu ảnh đưa vào và các mâu dùng đê xác định khuôn mặt người
Hướng tiếp cận dựa trên điện mạo: Trái ngược hăn với so khớp mẫu, các mô hình (hay các mẫu) được học từ một tập ảnh huấn luyện trước đó Sau đó hệ thống (mô hình) sẽ xác định khuôn mặt người Hay một số tác giả còn gọi hướng tiếp cận này là hướng tiếp cận theo phương pháp học
1.2.1 Hướng tiếp cận dựa trên tri thức
Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những tác giả nghiên cứu về bài toán xác định khuôn mặt người Đây là hướng tiếp cận dạng top-down Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của khuôn mặt
và các quan hệ tương ứng Ví dụ, một khuôn mặt thường có hai mắt đối xứng nhau qua trục thắng đứng ở giữa khuôn mặt và có một mũi, một miệng Các quan hệ của các đặc trưng có thê được mô tả như quan hệ về khoảng cách và vị trí Thông thường các tác giả sẽ trích đặc trưng của khuôn mặt trước tiên đề có được các ứng viên, sau
đó các ứng viên này sẽ được xác định thông qua các luật đề biết ứng viên nào là khuôn mặt và ứng viên nào không phải khuôn mặt Thường áp dụng quá trình xác định để giảm sô lượng xác dinh sai
Trang 19Một vấn đề khá phức tạp khi dùng hướng tiếp cận này là làm sao chuyên từ tri thức con người sang các luật một các hiệu quả Nếu các luật này quá chi tiết (chặt chẽ) thì khi xác định có thê xác định thiếu các khuôn mặt có trong ảnh, vì những khuôn mặt này không thể thỏa mãn tất cả các luật đưa ra Nhưng các luật tổng quát
quá thì có thể chúng ta sẽ xác định lầm một vùng nào đó không phải là khuôn mặt mà lại xác định là khuôn mặt Và cũng khó khăn mở rộng yêu cầu từ bài toán đề xác định các khuôn mặt có nhiều tư thế khác nhau
có thê là khuôn mặt Ở mức kế tiếp, hai ông dùng một tập luật để mô tả tổng quát hình dáng khuôn mặt Còn ở mức cuối cùng lại dùng một tập luật khác đề xem xét ở
mức chỉ tiết các đặc trưng khuôn mặt Một hệ thống đa độ phân giải có thứ tự được
dùng đề xác định, hình 1 Các luật ở mức cao nhất đề tìm ứng viên như: “'vùng trung tâm khuôn mặt (phân tối hơn trong hình 1.4) có bốn phần với một mức độ đều cơ bản”, “phần xung quanh bên trên của một khuôn mặt (phần sáng hơn trong hình 1.4)
có một mức độ đêu cơ bản”, và “mức độ khác nhau giữa các giá trị xám trung bình
10
Trang 20của phần trung tâm và phần bao bên trên là đáng kê” Độ phân giải thấp nhất (mức mộ) của ảnh dùng dé tim ứng viên khuôn mặt mà còn tìm ở các mức phân giải tốt hơn Ở mức hai, xem xét biêu đồ histogram của các ứng viên đề loại bớt ứng viên nào không phải là khuôn mặt, đồng thời đò ra cạnh bao xung quanh ứng viên Ở mức cuối cùng, những ứng viên nào còn lại sẽ được xem xét các đặc trưng của khuôn mặt về mắt và miệng Hai ông đã dùng một chiến lược “từ thô đến mịn” hay “làm rõ dần” để giảm số lượng tính toán trong xử lý Mặc dù tỷ lệ chính xác chưa cao, nhưng đây là tiên dé cho nhiêu nghiên cứu sau này
Kotropoulos và Pitas đưa một phương pháp tương tự dùng trên độ phân giải thấp Hai ông dùng phương pháp chiếu đề xác định các đặc trưng khuôn mặt, Kanade
đã thành công với phương pháp chiếu để xác định biên của khuôn mặt Với I(x.y) là giá trị xám của một điểm trong ảnh có kích thước m x n ở tại vị trí (x,y), các hàm đề chiếu ảnh theo phương ngang và thăng đứng được định nghĩa như sau:
HI(x) = i I(x,y) va
VI(y) = XI)
Dựa trên biểu đồ hình chiếu ngang, có hai cực tiểu địa phương khi hai ông xét quá trình thay đổi độ đốc của HI, đó chính là cạnh bên trái và phải của hai bên đầu Tương tự với hình chiếu dọc VI, các cực tiêu địa phương cũng cho ta biết vị trí miệng, đỉnh mũi, và hai mắt Các đặc trưng này đủ đề xác định khuôn mặt
1.2.2 Hướng tiếp cận dựa trên đặc trưng không thay đổi
Đây là hướng tiếp cận theo kiêu bottom-up Các tác giả có găng tìm các đặc trưng không thay đôi của khuôn mặt người để xác định khuôn mặt người Dựa trên nhận xét thực tế, con người dễ dàng nhận biết các khuôn mặt và các đối tượng trong các tư thê khác nhau và điều kiện ánh sáng khác nhau, thì phải tôn tại các thuộc tính hay đặc trưng không thay đôi Có nhiều nghiên cứu đầu tiên xác định các đặc trưng khuôn mặt rồi chỉ ra có khuôn mặt trong ảnh hay không Các đặc trưng như: lông mày, mắt, mũi, miệng, và đường viền của tóc được trích bằng phương pháp xác định
11
Trang 21cạnh Trên cơ sở các đặc trưng này, xây dựng một mô hình thống kê để mô tả quan
hệ của các đặc trưng này và xác định sự tôn tại của khuôn mặt trong ảnh Một vấn đề của các thuật tóan theo hướng tiếp cân đặc trưng cần phải điều chỉnh cho phù hợp điều kiện ánh sáng, nhiễu, và bị che khuất Đôi khi bóng của khuôn mặt sẽ tạo thêm cạnh mới, mà cạnh này lại rõ hơn cạnh thật sự của khuôn mặt, vì thé néu dùng cạnh
để xác định theo hướng các cạnh Hai ông dùng hai blob tối va ba blob sang dé mé ta hai mắt, hai bên gò má, và mũi Mô hình này dùng các treak để mô tả hình dáng ngoài
của khuôn mặt, lông mày, và môi Dùng ảnh có độ phân giải thấp theo biến đổi
Laplace đề xác định khuôn mặt thông qua blob
Leung trình bày một mô hình xác suất để xác định khuôn mặt ở trong ảnh có hình nên phức tạp trên cơ sở một bộ xác định đặc trưng cục bộ và so khớp đồ thị ngẫu nhiên Dùng năm đặc trưng (hai mắt, hai lỗ mũi, phần nói giữa mũi và miệng) để mô
tả một khuôn mặt Luôn tính quan hệ khoảng cách với các đặc trưng cặp (như mắt trái, mắt phải) dùng phân bó Gauss đề mô hình hóa Một mẫu khuôn mặt được đưa
ra thông qua trung bình tương ứng cho một tập đa hướng, đa tỷ lệ của bộ lọc đạo hàm Gauss Từ một ảnh, các đặc trưng ứng viên được xác định bằng cách so khớp từng điểm ảnh khi lọc tương ứng với vector mẫu (tương tự mối tương quan), chọn hai ứng viên đặc trưng đứng đầu đề tìm kiếm cho các đặc trưng khác của khuôn mặt Giống như xây dựng mộ đồ thị quan hệ mỗi node của đồ thị tương ứng như các đặc trưng của một khuôn mặt, đưa xác suât vào đê xác định Tỷ lệ xác định chính xác là §6%
12
Trang 22Còn rất nhiều phương pháp xác định những đặc trưng khuôn mặt
Kết cầu khuôn mặt:
Khuôn mặt con người có những kết cấu riêng biệt mà có thê dùng đề phân loại
so với các đối tượng khác Augusteijn và Skufca cho rằng hình dạng của khuôn mặt dùng làm kết cấu phân loại, gọi là kết câu giống khuôn mặt (face-like texture) Tính kết cầu qua các đặc trưng thống kê thứ tự thứ hai (SGLD) trên vùng có kích thước 16x16 điểm ảnh Có ba loại đặc trưng được xem xét: màu da, tóc, và những thứ khác Hai ông dùng mạng neural về môi tương quan cascade cho phân loại có giám sát các kết cầu và một ánh xạ đặc trưng tự tổ chức Kohonen để gom nhóm các lớp kết cầu khác nhau Hai tác giả đề xuất dùng phương pháp bầu cử khi không quyết định được kêt câu đưa vào là kêt câu của da hay kêt câu của tóc
Manian và Ross dùng biến đổi wavelet để xây dựng tập dữ liệu kết cấu của khuôn mặt trong ảnh xám thông qua nhiều độ phân giải khác nhau kết hợp xác suất thông kê dé xác định khuôn mặt người Mỗi mẫu sẽ có chín đặc trưng Tỷ lệ chính xác la 87%, ty lé xác định sai la 18%
Sắc màu của đa:
Thông thường các ảnh màu không xác định trực tiếp trên toàn bộ dữ liệu ảnh
mà các tác giả dùng tính chất sắc màu của da người (khuôn mặt người) để chọn
ra được các ứng viên có thê là khuôn mặt người (lúc này dữ liệu đã thu hẹp đáng kể)
đề xác định khuôn mặt người Tôi sẽ trình bày chỉ tiết về mô hình hóa màu da người
ở một bài sau
Đa đặc trưng
Gan đây có nhiều nghiên cứu sử dụng các đặc trưng toàn cục như: màu da người, kích thước, và hình dáng để tìm các ứng viên khuôn mặt, rồi sau đó sẽ xác định ứng viên nào là khuôn mặt thông qua dùng các đặc trưng cục bộ (chi tiết) như: mắt, lông mày, mũi, miệng, và tóc Tùy mỗi tác giả sẽ sử dụng tập đặc trưng khác nhau
13
Trang 231.2.3 Hướng tiép cận dwa trén so khép mẫu
Xác định mẫu trước
Sakai đã cô gắng thử xác định khuôn mặt người chụp thăng trong ảnh Ông
dùng vài mẫu con về mắt, mũi, miệng, và đường viền khuôn mặt để mô hình hóa một
khuôn mặt Mỗi mẫu con được định nghĩa trong giới hạn của các đoạn thăng Các đường thăng trong ảnh được trích bằng phương pháp xem xét thay d6i gradient nhiéu nhất và so khớp các mẫu con Đầu tiên tìm các ứng viên thông qua mối tương quan giữa các ảnh con và các mẫu về đường viên Sau đó, so khớp với các mẫu con khác Hay nói một cách khác, giai đoạn đầu xem như là giai đoạn sơ chế đề tìm ứng viên, giai đọan thứ hai là giai đoạn tính chế đề xác định có tôn tại hay không một khuôn mặt người Ý tưởng này được duy trì cho đến các nghiên cứu sau này
Craw đưa ra một phương pháp xác định khuôn mặt người dựa vào các mẫu về hình dáng của các ảnh được chụp thăng (dùng vẻ bề ngoài của hình dáng khuôn mặt) Đầu tiên dùng phép loc Sobel đề tìm các cạnh Các cạnh này sẽ được nhóm lại theo một số ràng buộc Sau đó, tìm đường viền của đầu, quá trình tương tự được lặp
đi lặp lại với mỗi tỷ lệ khác nhau đề xác định các đặc trưng khác như: mắt, lông mày,
và môi Sau đó Craw mô tả một phương thức xác định dùng một tập có 40 mẫu để tìm các đặc trưng khuôn mặt và điều khiến chiến lược đò tìm có rất nhiều nghiên cứu dựa trên phương pháp xác định mẫu trước của hướng tiếp cận So khớp mẫu này
Các mẫu bị biến dạng
Yuille dùng các mẫu biến dạng đề mô hình hóa các đặc trưng của khuôn mặt,
mô hình này có khả năng linh hoạt cho các đặc trưng khuôn mặt Trong hướng tiếp cận này, các đặc trưng khuôn mặt được mô tả bằng các mẫu được tham số hóa Một hàm năng lượng (giá trị) được định nghĩa để liên kết các cạnh, đỉnh, và thung lũng trong ảnh đề tương ứng với các tham số trong mẫu Mô hình này tốt nhất khi tối thiêu
hàm năng lượng qua các tham số, Mặc dù kết quả tốt với mẫu biến dạng trong theo vết đối tượng trên đặc trưng không mô hình theo lưới, một hạn chế của hướng tiếp
14
Trang 24cận này là các mẫu biên dạng phải được khởi tạo trong phạm vi gân các đôi tượng đề xác định
Huang và Su dùng lý thuyết dòng chảy đề xác định đường viền khuôn mặt dựa trên đặc tính hình học Hai ông dùng lý thuyết tập đồng mức (Level Set) dé loang từ các khởi động ban đâu đề có được các khuôn mặt người
L2.4 Hướng tiếp cận dựa trên điỆH mạo
Trái ngược với các phưong pháp so khớp mẫu với các mẫu đã được định nghĩa
trước bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu Một các tông quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ thuật theo hướng xác suất thống kê và máy học đề tìm những đặc tính liên quan của khuôn mặt và không phải là khuôn mặt Các đặc tính đã được học ở trong hình thái các mô hình phân bồ hay các hàm biệt số nên dùng có thê dùng các đặc tính này để xác định khuôn mặt người Đồng thời, bài toán giảm số chiều thường được quan tâm
dé tăng hiệu quả tính toán cũng như hiệu quả xác định
Có nhiều phương pháp áp dụng xác suất thống kê để giả quyết Một ảnh hay một vector đặc trưng xuất phát từ một ảnh được xem như một biến ngẫu nhiên x, và biến ngẫu nhiên có đặc tính là khuôn mặt hay không phải khuôn mặt bởi công thức tính theo các hàm mật độ phân lớp theo điều kiện
P (x | khuôn mặt) và P(x | ~ khuôn mặt)
Có thể dùng phân loại Bayes hoặc khả năng cực đại dé phân loại một ứng viên
là khuôn mặt hay không phải là khuôn mặt Không thê cài đặt trực tiếp phân loại
Bayes bởi vì số chiều của x khá cao, bởi vì P (x | khuôn mặt) và P(x | ~ khuôn mặt)
là đa phương thức, và chưa thể hiểu nếu xây dựng các dạng tham số hóa một cách tự
nhiên cho P(x | khuôn mặt) và P(x | ~ khuôn mặt) Có khá nhiều nghiên cứu theo hướng tiếp cận này quan tâm xấp xỉ có tham số hay không có tham số cho P(x | khuôn mặt) và P(x | ~ khuôn mặt)
Các tiếp cận khác trong hướng tiếp cận dựa trên diện mạo là tìm một hàm biệt
số (như: mặt phăng quyết định, siêu phăng để tách đữ liệu, hàm ngưỡng) đề phân biệt
15
Trang 25hai lớp dữ liệu: khuôn mặt và không phải khuôn mặt Bình thường, các mẫu ảnh được chiếu vào không gian có số chiều thấp hơn, rôi sau đó dùng một hàm biệt số (dựa trên các độ đo khoảng cách) đề phân loại, hoặc xây dựng mặt quyết định phi tuyến băng mạng neural đa tầng Hoặc dùng SVM (Support Vector Machine) và các phương thức kernel, chiếu hoàn toàn các mẫu vào không gian có số chiều cao hơn đề dữ liệu bị rời rạc hoàn toàn và ta có thể dùng một mặt phăng quyết định phân loại các mẫu khuôn mặt và không phải khuôn mặt
e« Dvya trén tri thirc (knowledge-based)
e Đặc trưng bat bién (feature invariant)
‹ - Đối sánh mẫu (template matching)
Dựa vào diện mạo (appearance-based) phương pháp này thường dùng một mô hình máy học nên còn được gọi là phương pháp dựa trên máy học (machine learning- based)
Dựa trên tri thức (knowledge-based)
e« Đặc trưng bat bién (feature invariant)
«_ Đối sánh mẫu (template matching)
Dựa vào diện mạo (appearance-based) phương pháp này thường dùng một mô hình máy học nên còn được gọi là phương pháp dựa trên máy học (machine learning- based)
1.3 Mang noron nhan tao
1.3.1 Mang noron sinh hoc
Não bộ con người là một mạng lưới khoảng 10!! tế bào thần kinh hay còn gọi
là nơron Chúng có cấu trúc và chức năng tương đối đồng nhất Các nhà nghiên cứu sinh học về bộ não con người đã đưa ra kết luận rằng các nơron là đơn vị đảm nhiệm những chức năng nhất định trong hệ thần kinh bao gồm não, tuỷ sống và các dây thần kinh Hinh 1.5 chỉ ra cấu tạo của hệ thống tế bào sinh học này
16
Trang 26Hình 1.5 Câu trúc cơ bản của nơron sinh học
Cấu trúc của một nơron được chia thành 3 phần chính: Phần thân, hệ thống dây thần kinh tiếp nhận và sợi trục thân kinh ra Hệ thống dây thần kinh tiếp nhận tao
thành một mạng lưới dày đặc xung quanh thân tế bào (chiếm diện tích khoảng 0.25 mm?) Chúng là đầu vào đề đưa các tín hiệu điện đến thân tế bào Thân tế bào có nhân bên trong sẽ tông hợp các tín hiệu vào và sẽ làm thay đôi điện thế của bản thân nó
Khi điện thế này vượt quá một mức ngưỡng thì nhân tế bào sẽ kích thích đưa một xung điện ra sợi trục thần kinh ra Sợi trục thần kinh ra có thể dài một vài centimet đến vài met Nó có thê phân thành nhiều nhánh theo dạng hình cây đề nối với các dây
thần kinh vào của nhiều tế bào khác hoặc có thể nối trực tiếp đến thân tế bào của duy nhất một nơron Việc kết nói này được thực hiện nhờ các khớp nối Số khớp nối của
mỗi nơron có thê lên tới hàng trăm ngàn Người ta tính toán rằng mạng lưới dây thần kinh ra và các khớp nối chiếm khoảng 90% diện tích bé mặt nơron Các tín hiệu điện truyền trên các sợi dây thần kinh cũng như hiệu điện thế của nhân tế bào là kết quả của quá trình phản ứng và giải phóng của các chất hữu cơ được đưa ra từ các khớp nói dẫn đến dây thần kinh vào Xung điện đưa ra sợi trục axon sẽ truyền tới các khớp nôi với đâu vào của các nơron khác và sẽ kích thích giải phóng các chât truyên điện
17
Trang 27Tuỳ theo việc tăng hay giảm hiệu điện thế mà người ta chia thành hai loại khớp nói
là khớp nối kích thích và khớp nối ức chế Cường độ tín hiệu mà một tế bào thần kinh
nhận được phụ thuộc chủ yêu vào mức độ liên kết của khớp nối Các nghiên cứu chỉ
ra rằng quá trình học của mạng nơron sinh học chính là việc thay đôi mức độ liên kết
của các khớp nói Chính cấu trúc mạng nơron và mức độ liên kết của các khớp nói đã
tạo nên chức năng của hệ thần kinh con người Quá trình phát triển của hệ thần kinh
là một quá trình “học ” liên tục Ngay từ khi chúng ta sinh ra, một số cầu trúc thần
kinh đơn giản đã được hình thành Sau đó các cấu trúc khác lần lượt được xây dựng
thêm nhờ quá trình học Do đó cấu trúc mạng nơron liên tục biến đôi đề ngày càng
phát triên hoàn thiện
Một vấn đề đặt ra là dựa trên những kết quả nghiên cứu về hệ thần kinh con người chúng ta có thể mô phỏng, xây dựng lên các hệ thần kinh nhân tạo nhằm phục
vụ cho một chức năng nào đó không Nghiên cứu trả lời câu hỏi này đã đưa ra một hướng phát triển mới: Mạng nơron nhân tạo
1.3.2 Mạng noron nhân tạo
1.3.2.1 Giới thiệu về mang noron
Dinh nghia: Mang noron nhan tao, Artificial Neural Network (ANN) la mot
mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơron sinh học Nó được tạo nên từ một số lượng lớn các phần tử (noron) kết nối với nhau thông qua các liên kết (trọng số liên kết) làm việc như một thể thống nhất đề giải quyết một van đề cụ thê nào đó Một mạng nơron nhân tạo được cầu hình cho một ứng dụng cụ
thê (nhận dạng mẫu, phân loại dữ liệu ) thông qua một quá trình học từ tập các mẫu
huấn luyện Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơron [4|
Câu trúc neural nhân tạo:
18
Trang 28Dau vao Trọng số liên kết
Hình 1.6 Cấu tạo một Neural Các thành phân cơ bản của một nơron nhân tạo bao gôm:
Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này thường được đưa vào dưới dạng một vector N chiêu
Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết —
Synaptic weight Trọng số liên kết giữa tín hiệu vào thứ j với nơron k thường được kí hiệu là wkJ Thông thường, các trọng số này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học mạng
Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó
Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như một thành phần của hàm truyền
Ham truyén (Transfer function): Ham này được dùng đề giới hạn phạm vi đầu
ra của mỗi nơron Nó nhận đầu vào là kết quả của hàm tông và ngưỡng Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa là một
đâu ra
19
Trang 29Xét về mặt toán học, cấu trúc của một nơron k, được mô tả bằng cặp biéu
thức sau:
Uk=3)— W1; và Y,= ƒ (m¿ - bạ )
Trong đó: xị, Xa, ., Xp: là các tín hiệu vào; (Wki, Wk2 , Wkp) là các trọng SỐ
liên kết của nơron thứ k; uk là hàm tông: bk là một ngưỡng: f là hàm truyền và yk là
tín hiệu đầu ra của nơron Như vậy nơron nhân tạo nhận các tín hiệu đầu vào, xử lý (nhân các tín hiệu này với trọng số liên kết, tính tông các tích thu được rồi gửi kết quả tới hàm truyền), và cho một tín hiệu đầu ra (là kết quả của hàm truyền)
Trang 30Cách thức kết nối các nơron trong mạng xác định kiến trúc (/opology) của
mạng Các nơron trong mạng có thể kết ndi day du (fully connected) tức là mỗi nơron đều được kết nối với tất cả các nơron khác, hoặc kết nối cục bộ (partially connected) chăng hạn chỉ kết nối giữa các nơron trong các tầng khác nhau Người ta chia ra hai
loại kiến trúc mạng chính [4]
Tự kêt hợp (a„oassociafive): là mạng có các nơron đâu vào cũng là các nơron đâu
ra Mạng Hopfield là một kiêu mạng tự kết hợp
Hình 1.7 Mạng tự kết hợp
® Kết hợp khác kiều (heteroassociative): la mang c6 tap noron dau vào và
đầu ra riêng biệt Perceptron, các mạng Perceptron nhiều tầng (MLP: MultiLayer
Perceptron), mạng Kohonen, thuộc loại này
21
Trang 31Tâng vào Tâng ân Tang ra
22
Trang 32Noron vao Noron ra
Hình 1.10 Mạng phản hồi
1.3.3 Qua trình học cua mang noron
Quá trình học của mạng neural là quá trình lan truyền thông tin để làm thay đôi các trọng số tốt nhất có thể Mạng neural được huấn luyện hay được học theo ba phương pháp học có giám sát, học không giám sát và học tăng cường [Š]
mô hình chưa nhìn thấy bao giờ hay không năm trong tập huấn luyện thì nó sẽ đưa ra
dự đoán chữ số trong bức ảnh đó
23
Trang 33Hiệu chinh trọng sô
Dau ra mong muon
So sanh s
Hình 1.11 Mô hình huấn luyện mạng có giám sát [1 I]
Phương pháp học giám sát chia ra thành hai loại chính là:
- Phân loại (classification): Nêu nhãn của các dữ liệu đâu vào được chia thành một sô hữu hạn nhóm Như các bài toán nhận dạng chữ sô việt tay, dò tìm khuôn mặt người,
- Hỏi quy (regression): Nếu nhãn của các dữ liệu đầu vào không được chia thành các nhóm mà là một giá trị thực cụ thể Ví dụ như bài toán dự đoán gia cua mot căn nhà, giá trị dinh dưỡng của một món ăn,
Học không giám sát
Học không giảm sát (Unsupervised Learning) là phương pháp học từ một tập
dữ liệu cần học ta không biết trước nhãn của dữ liệu, cũng như số lớp đầu ra Thuật toán sẽ dựa vào câu trúc của dữ liệu để phân nhóm hay giảm chiều của dữ liệu, Học không giám sát có liên quan chặt chẽ đến việc ước lượng mật độ trong thống kê Cách học này không sử dụng tri thức từ bên ngoài trong quá trình học nên còn được
gọi là tự tố chức
24
Trang 34Hình 1.12 Mô hình huấn luyện mạng không giám sát [11]
Mạng neural điển hình cho cách học này 1a Seft — Organizing Map (SOM) Một số thuật toán học không giám sát khác nhu k-means, Hieararchical Agglomerative Clustering (HAC), Fuzzy Cognitive Map (FCM), Các hướng tiếp cận bài toán học không giám sát là (1) và (2):
(1) Phản cụm (cñsfer): Chia đữ liệu thành các cụm nhỏ dựa trên sự liên quan của các dữ liệu trong môi cụm
(2) Liên kết (association): Bài toán khám phá ra quy luật của bộ dữ liệu cho
trước
Phân lớn ứng dụng học không giám sát vào các bài toán ước lượng như mô
hình hóa thống kê, nén, lọc, phân nhóm,
Học tăng cường
Hoc tang cuong (Reinforcement Learning) là phương pháp học giúp cho một
hệ thông tự động xác định hành động dựa trên hoàn cảnh dé dat loi ich cao nhat Hoc tăng cường băng cách thử nghiệm dữ liệu để khám phá ra hành động nào là tốt nhất
25
Trang 35Hình 1.13 Mô hình huấn luyện mạng tăng cường [1 I]
Hành động đó không chỉ có lợi ích tốt cho bước hiện tại mà còn cho các bước tiếp theo Hai đặc điểm quan trọng đề phân biệt học tăng cường là tìm kiếm thử - sai (trialand-error search) và bồi dưỡng chậm (delayed reward)
Môi trường học thường được biều diễn dưới dạng Quy trình quyết định markov (Markov Decision Process - MDP) trạng thái hữu hạn Và các thuật toán học tăng cường liên quan đến các kỹ thuật quy hoạch động
Một cách hình thức, mô hình học tăng cường bao gồm: Tập các trạng thái của môi trường, tập các hành động và tập các điểm số Học tăng cường khai thác những
gì nó đã biết và khám phá môi trường mới, những hành động mới
Hiện tại, học tăng cường chủ yếu được áp dụng vào Lý thuyết trò chơi, thuật toán cần xác định hành động tiếp theo đề đạt số điểm tốt nhất Ví dụ, AlphaGo của
Google đánh cờ vây thắng con người, trong khi cờ vây có độ phức tạp cao xấp xĩ
10761
1.3.4 Cac tng dung cia mang noron
Mang nơron thích hợp với các ứng dụng so sánh và phân loại mẫu, dự báo và điều
khién
Dưới đây là một số ứng dụng cụ thể của công nghệ mạng nơron
- _ Không gian vũ trụ: Trình điều khiến máy bay không người lái, chế độ tự bay nâng cao; mô phỏng các đường bay và các bộ phận của máy bay; hệ thống
điều khiên của máy bay và hệ thống phát hiện sai hỏng
26
Trang 36- - Dự đoán tài chính kinh tế: Dự đoán giá cả biến động cô phiếu Dự đoán cấp SỐ thời gian trong thị trường tài chính Các ứng dụng về điều hành vốn Dự đoán
thị trường ngoại hồi Đánh giá dự đoán rủi ro Dự đoán tình hình kinh tế Đánh
giá hiệu suât vôn vay và vôn đâu tư
- _ Hoạt động ngân hàng: Dự đoán khả năng phá sản Hệ thống thẻ đọc ngân hàng thẻ tín dụng
- Hệ thong phong thu: Hé thong điều khiển vũ khí dò tìm mục tiêu, nhận dạng
mục tiêu Điều khiển đường đạn Xử lý và nhận dạng tín hiệu ảnh, radar, siêu
ˆ
am
- _ Điện tử viễn thông: Dự đoán chuỗi mã Bồ trí mạch tích hợp trên chip Phan tích lỗi mạch tích hợp Nhìn băng máy Nhận dạng và tông hợp tiếng nói Nhận dạng chữ viết tay và chữ ký Xử lý ảnh, nén ảnh và nén số liệu Các địch vụ thông tin tự động Dịch ngôn ngữ nói thời gian thực Hệ thống xử lý thanh toán của khách hàng Định tuyến và chuyên mạch cho mạng ATM
- - Quá trình sản xuất và người máy: Điều khiến quá trình sản xuất Thiết kế và phân tích sản phẩm Chuẩn đoán và giám sát quá trình máy móc Hệ thống
kiểm định chất lượng Hệ thống lập kế hoạch và điều hành Điều khiến vận
động và hệ thống nhìn của robot
- _ Y tế: Phân tích tế bào ung thư vú Phân tích điện não đô Thiết kế bộ phận thay
thé Tối ưu hoá thời gian cấy ghép Dò tìm và đánh giá các hiện tượng y học
- - Vận tải: Hệ thong chuân đoán phanh xe tải Hệ thông định tuyến và lịch trình cho các phương tiện giao thông
- _ Giải trí: Các hiệu ứng chuyên động, các trò chơi
1.4 Mạng noron tích chập
1.4.1 Dinh nghia mang noron tich chap
Mang neural tich chap (Convolutional Neural Network - CNN) la mot trong những mô hình học sâu tiên tiến giúp chúng ta xây dựng được những hệ thống thông
27
Trang 37minh với độ chính xác cao Như hiện nay, các hệ thống xử lý ảnh lớn như Facebook, Google hay Amazon đã đưa vào sản phẩm của mình những chức năng thông minh như nhận dạng khuôn mặt người dùng, phát triển xe hơi tự lái hay máy bay giao hàng
tự động [5]
Mô hình mạng neural truyền thăng ra đời đã được áp dụng nhiều vào các bài toán nhận dạng Tuy nhiên, đối với đữ liệu hình ảnh, mạng neural truyền thăng thê hiện không thực sự tốt Chính sự liên kết quá đầy đủ tạo nên những hạn chế cho mô hình Dữ liệu ảnh có kích thước khá lớn, một bức ảnh xám 32 x 32 điểm ảnh sẽ cho
ra vector đặc trưng có 1024 chiều, đối với ảnh màu cùng kích thước sẽ có 3072 chiều Điều này cũng có nghĩa là cần tới 3072 trọng số Ø nối giữa lớp đầu vào và một node trong lớp ân tiếp theo Số lượng trọng số sẽ càng nhân rộng hơn nếu số lượng node trong lớp ân tăng lên và số lượng lớp ân tăng lên Như vậy chỉ với một bức ảnh nhỏ
32 x 32 thì cũng cần đến một mô hình mạng neural truyền thăng khá đô sộ Điều này khiên cho việc thao tác với các bức ảnh lớn hơn khá khó khăn
Hơn nữa, việc liên kết đầy đủ các điểm ảnh vào một node trong mạng là dư thừa vì sự phụ thuộc lẫn nhau giữa các điểm ảnh xa nhau là không nhiều, mà chủ yếu
là sự phụ thuộc giữa các điểm ảnh lân cận nó Dựa trên tư tưởng này, mạng neural tích chập ra đời với câu trúc khác hăn mạng neural truyền thăng Thay vì toàn bộ ảnh
nối trực tiếp với một node thì chỉ có một phần cục bộ trong ảnh nối với một node
trong lớp tiếp theo Dữ liệu hình ảnh ban đầu qua các lớp của mô hình mạng neural tích chập sẽ học được ra các đặc trưng đề tiến hành phân lớp hiệu quả
Vé co ban, CNN bao gồm các lớp sau: lớp tích chập (Convolutional layer), lớp hàm kích hoạt (Activation layer), lớp pooling (Pooling layer) hay còn gọi là lớp subsampling, lớp kết nối đầy đủ (Fully Connected layer)
Trong mô hình CNN (Hình 1.14) các lớp được liên kết với nhau thông qua cơ chế tích chập Lớp tiếp theo là kết quả của tích chập của lớp trước đó, nhờ vậy mà ta có được các kết nói cục bộ Nghĩa là mỗi neural ở lớp tiếp theo được sinh ra từ các bộ lọc áp đặt lên một vùng ảnh cục bộ của neural ở lớp trước đó
28
Trang 38Moi lớp như vậy được áp đặt các bộ lọc khác nhau, thông thường có vài trăm đến vài nghìn bộ lọc như vậy Một SỐ lớp khác như pooling/subsampling được dùng đề chắt lọc lại các thông tin hữu ích hơn
(Conv, Relu và Pool) và Lớp phân loại (FC và softmax)
1.4.2 Cầu trúc tổng quát của mạng noron tích chập
Mạng CNN là một tập hợp các lớp Convolution chồng lên nhau và sử dụng các hàm nonlinear activation như ReLU và tanh đề kích hoạt các trọng số trong các node [5]
Mỗi một lớp được sử dụng các filter khác nhau thông thường có hang tram
hàng nghìn filter như vậy và kết hợp kết quả của chúng lại Ngoài ra có một số layer khác như pooling/subsampling layer dùng đề chắt lọc lại các thông tin hữu ích hơn (loại bỏ các thông tin nhiễu) Trong quá trình huấn luyện mạng, CNN tự động học các giá trị qua các lớp filter dựa vào cách thức mà bạn thực hiện Ví dụ trong tác vụ phân lớp ảnh, CNNs sẽ có gắng tìm ra thông số tối ưu cho các filter tương ứng theo thứ tự raw pixel > edges > shapes > facial > high-level features Layer cuối cùng được dùng đề phân lớp ảnh
29
Trang 39Hình 1.15 Cấu trúc tông quát của mạng nơron tích chập
Cấu trúc tông quát của mạng nơron tích chập gồm các lớp sau
Lớp tích chập
é€ ; 32
Tích chập (Convolution) là phép toán thực hiện với hai hàm số, kí hiệu là
Phép tích chập được ứng dụng trong thống kê, thị giác máy tính, xử lý ảnh và xử lý tín hiệu
Tich chap cua ham s6 f va g được viết là ƒ*ø, là một phép biến đổi tích
Trang 40Tích chập trong xử lý ảnh: Tích chập lần đầu tiên được sử dụng trong xử lý tín hiệu số nhờ vào nguyên lý biến đôi thông tin, các nhà khoa học đã áp dụng kỹ thuật này vào xử lý ảnh và video
Đề dễ hình dung, ta có thê xem tích chập như một cửa số trượt áp lên một ma trận Cửa số trượt còn được gọi là nhân (kernel)
Hinh 1.16 minh hoa cach tinh tich chap trên ma trận ảnh đen trang Ma tran
ảnh đen trắng có mỗi ô giá trị là một điểm ảnh, 0 là màu đen, 1 là màu trắng Ta dùng
một ma trận nhân 3 x 3, nhân từng thành phần tương ứng với ma trận ảnh Giá trị đầu
ra do tích các thành phần này cộng lại Kết quả của tích chập là một ma trận sinh ra
từ việc trượt ma trận nhân và thực hiện tích chập cùng lúc lên toàn bộ ma trận ảnh goc
là 3 kênh màu, ta có tích chập 3 chiều bằng cách tính riêng tích chập cho 3 kênh này
với một bộ lọc, sau đó lấy trung bình cộng của ba kết quả đầu ra, ta được tích chập 3
chiêu
Mục tiêu của các lớp tích chập là trích chọn các đặc trưng của ảnh đâu vào
31