Vi lẽ đó, tôi tập trung nghiên cứu bai toán phân loại cho trang phục dân tộc thiểu số Việt Nam sử dụng 3 phương pháp máy học như k — NN, SVM, Logistic Regression với các đặc trưng HOG, L
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA HE THONG THONG TIN
HUYNH THỊ BÍCH TUYEN
KHOA LUAN TOT NGHIEP PHAN LOAI TRANG PHUC DAN TOC THIEU SO
VIET NAM
Vietnamese Ethnic Minority Costumes Classification
KY SU HE THONG THONG TIN
TP HO CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA HE THONG THONG TIN
HUYNH THI BÍCH TUYEN - 17521245
KHOA LUAN TOT NGHIEP
PHAN LOAI TRANG PHUC DAN TOC THIEU SO
VIET NAM
Vietnamese Ethnic Minority Costumes Classification
KY SƯ NGÀNH HE THONG THONG TIN
GIANG VIEN HUONG DAN NGUYEN TAN TRAN MINH KHANG
TP HO CHÍ MINH, 2021
Trang 3THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
.-NYAY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành đến quý Thầy Cô trường Đại học Công Nghệ Thông Tin nói chung và quý Thầy Cô khoa Hệ Thống Thông Tin nói riêng đã truyền đạt cho tôi nhiều kiến thức quý báu làm hành trang đề tôi thực hiện khóa luận lần này Cảm ơn phòng thí nghiệm MMLab — Trường đại học Công Nghệ Thông Tin đã tạo điều kiện tốt nhất có thé dé
tôi hoàn thành khóa luận.
Xin gửi lời cảm ơn sâu sắc đến người Thầy TS Nguyễn Tân Trần Minh Khang và người Thầy ThS Võ Duy Nguyên đã luôn động viên, giúp đỡ tôi mọi lúc có thể, cảm ơn Thay
đã dạy cho tôi nhiều kiến thức và cách tư duy đúng không những trong khóa luận mà còn trong cách sống và làm việc.
Xin cảm ơn Cô TS Cao Thị Nhạn, Thầy ThS Huỳnh Đức Huy, Thầy ThS Trình Trọng Tín và Thầy ThS Hà Lê Hoài Trung đã có những đánh giá và góp ý chân thành cho khóa luận
của tôi ngày càng hoàn thiện.
Cảm ơn gia đình và bạn bè đã luôn bên cạnh động viên, hiểu và thông cảm cho tôi những lúc tôi khó khăn nhất!
Cảm ơn bản thân đã cé gắng, xin cảm ơn và xin kính chúc bình an đến quý Thay Cô cùng tất cả mọi người!
Thành phó Hồ Chí Minh, ngày 20 tháng 06 năm 2021
Huỳnh Thị Bích Tuyền
Trang 5MỤC LỤC
Chương 1 TỎNG QUAN DE TÀI 22:©222222222222122222112122211122221111 22112 ccrkx 1
1.1 Động lực nghiên CỨU -¿ S512 E1 0101 1e 1
1.2 Phát biểu bài toán -: 222222+++2222EE2Y222E22222111122 22222111112 rrrrrrrrir 2
14.1.
1.4.2.
1.5 Đóng góp của khóa luận ¿+ 5+ 2E 2121 1 12 1212121211 HH HH HH 6
1.6 Bố cục khóa luận -222222222+£2222EE222+2222222111121222222111112 2212111112 c Erree 7
Chuong2 | CAC NGHIÊN CỨU LIEN QUAN VÀ HƯỚNG TIEP CẬN 8
2.1 Bài toán phân lOại - - «5:52 St k2 v22 01 12112121 H111 011.1 8
Trang 62.6.2 Đặc trưng kết cầu HOG -2:2222++t222222222312222211 221 rtrrrrrer 21
3.2 Thu thập và Tiền xử Ii ssssssssssssssssessssseeecesceececcessssnnsssnstunnnnsssssseeeeeeeeeceeceesansnnanntttee 31
3.3 Quy trình gan nhãn dữ liệu oo eee es eeeeseseseseeeseacseenesesesesesssneasseesstenesesees 23 3.4 Phân tích bộ dữ liệu -cccccstccrertrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrro.33 3.4.1 Mô tả bộ dữ liệu cccccc2EEErrrrrrhrrrrrirrrrree 33
3.4.2 Thông tin bộ dữ liệu trang phục dân tộc thiểu số Việt Nam - 34
3.4.3 Đánh giá bộ dữ liệu cc-2222 Event erree 39
Chuong 4 THỰC NGHIỆM CÁC PHƯƠNG PHAP MAY HỌC TREN BỘ DỮ LIEU
Trang 74.4 Demo minh họa - c3 2t 3 321133391115 3121511515151 111115111111 48
Chương 5 KÉT LUẬN VA HƯỚNG PHÁT TRIEN
5.1 Kết luận .22-222222+22221122222111122221112221111222111.221111 21.11 49
5.2 Hướng phát trién
TÀI LIEU THAM KHẢO -2222222222£222EEES2222+222222212121222222111112.21211111 rcrrrrr 5I
PHỤ LỤC
Trang 8DANH MỤC HÌNH
Hình 1-1 Hình ảnh trang phục lay cảm hứng từ trang phục phụ nữ H’Méng trong MV ca nhạc
“Đề Mi nói cho mà nghe” của ca sĩ Hoàng Thùy Linh - 2-2 2 22 +E££Ee£Ee£EzEzEze2 2Hình 1-2 Bài toán phân loại trang phục dân tộc thiểu số Việt Nam -: 5¿ 3Hình 1-3 Một số ảnh minh họa thách thức ảnh bị mờ và nhòe trên nhiều nền ảnh, đồng thời
có tư thế và góc chụp che khuất trang phục ¿- ¿+2 +++x++E++2+++Ex++zxtzrxerxeerxesred 4Hình 1-4 Một số ảnh minh họa thách thức về độ sáng của ảnh - 2-2 2 s2 4
Hình 2-1 Minh họa phân loại nhị phân [24Š] - - <5 + + **+*EE+EEEEseEseeerseerereerrree 9 Hình 2-2 Minh họa phân loại đa nhãn [4Š] - - c6 123119113 1153 911191 1 1 1 1x ru 9 Hình 2-3 Minh họa phân loại đa nhãn [46 ] .- - 5 6 E22 EE 33 E*EE+EEESEEEEkkEskksrkrrrkrske 10
Hình 2-4 Minh họa phân loại không cân bằng [45] - 2-22 2 ++£+£+E£+££+£++zxzsez 11Hình 2-5 Kiến trúc của một Convolution Neural Network [6] -.-.-. -<<<<++<<<<s+2 13
Hình 2-6 Minh hoa Convolution Layer[47] .- - << +1 393 1391 E311 11x gen 14 Hình 2-7 Minh họa Max Pooling Layer[47] .- 5 5< + 2< +33 E+3EESeEEeeeeeseeersereeee 15 Hình 2-8 Minh họa hoạt động ở Fully Connected Layer[47] . -« «<< s<>+<es+++ 15 Hình 2-9 Minh họa phương pháp k-Nearest-Neighbours [6] «<< <<s<+s++x 16 Hình 2-10 Minh họa thuật toán SVM [Ø] - 11t 21 21121191101 ng HH ng nh gnư 18 Hình 2-11 So sánh sự khác nhau của 2 thuật toán Linear Regression và Logistic Regression [Ø]- E HHHH« HH 19 Hình 2-12 Minh hoa Hàm Sigmoid [48] .- - - - - 5 2 311391183931 83911 E11 8111 11 vn 20 Hình 2-13 Minh họa phương pháp rút trích đặc trưng Histogram of Orented Gradient [44].
¬— 21 Hình 2-14 Minh họa đặc trưng LBP [ ⁄4], - - - c6 S5 2121121153119 1 111 1 11 vn ren 22
Hình 2-15 Minh họa đặc trưng LBP [ 144] -. 5c 322 323 *+232EESEESEErerirrsrrrerrrrrrrrree 22
Hình 2-16 Kiến trúc mạng VGG16 [18] ¿+ 2 2£ £+E£+E£+E£EE£EE£EEEEEEEEEEEEEEEEerkerkerkrree 23Hình 2-17 Kiến trúc mạng VGG19 [19] - - - - S11 SH HH HH kh 24Hình 2-18 Minh họa kết nói tắt của ResNet[5 Ï] c:-cc+cc+ccxrrerrtrrrrrrrrrrrrrrrrrkee 25Hình 2-19 Kiến trúc mạng ResNet50 [2Ö] - - s9 như, 26Hình 2-20 Kiến trúc mạng MobileNetV2 [2 ] ccscscsssesssessesssesssesssesssssesssesssessesssecsseesesesesssecs 26
Trang 9Hình 2-21 Kiến trúc mạng EfficientNetBO [22] ¿ 2¿©2¿©5z2+22£x£xzvzxesrxzrseee 28 Hình 2-22 Minh họa kiến trúc EfficientNet[50] ¿ -¿©2¿©5z22x+2zxc2x+vzxesrxezrxeee 28
Hình 3-1 Quy trình gan nhãn cho ảnh «+13 9 9 9119 ng ng ng ệt 33
Hình 3-2 Một số hình ảnh trong bộ dữ liệu VEMC21 -2-©22- 5¿22+222++£xz+zxczseei 33
Hình 3-3 Phân bố của bộ dữ liệu VEMC2 2- 5: ©5£22£+E+£EEtEEE£EESEEEEErEvzrxerrerxerree 34
Hình 3-4 Một số hình ảnh trang phục dân tộc Tay trong bộ dữ liệu -« 35
Hình 3-5 Một số hình ảnh trang phục dân tộc Thái trong bộ dit liệu - ‹ 35
Hình 3-6 Một số hình ảnh trang phục dân tộc Mường trong bộ dit liệu . 36
Hình 3-7 Một số hình ảnh trang phục dân tộc H°Mông trong bộ dữ liệu .- 36
Hình 3-8 Một số hình ảnh trang phục dân tộc Dao trong bộ dữ liệu . 37
Hình 3-9 Một số hình ảnh trang phục dân tộc Ê Dé trong bộ dữ liệu - - 37
Hình 3-10 Một số hình ảnh trang phục dân tộc Ba Na trong bộ dữ liệu - 38
Hình 3-11 Một số hình ảnh trang phục dân tộc Chăm trong bộ dữ liệu .- 38
Hình 3-12 Một số hình ảnh trang phục dân tộc San Diu trong bộ dữ liệu - 39
Hình 3-13 Một số hình ảnh trang phục dân tộc Ra Glai trong bộ dữ liệu 39
Hình 4-1 Phân bố dữ liệu huấn luyện và kiểm thử ¿2-2 5 S2 + £+E£+E££Eezxerxerssrez 41 Hình 4-2 Quy trình phân loại hình ảnh trang phục thiêu số Việt Nam -. - 42
Hình 4-3 Biéu diễn kết quả sử dụng Confusion matriX 2-2 2 2+s£E+£x+£+z£szs+2 46 Hình 4-4 Trường hợp nhằm lẫn giữa các trang phục có cùng màu sắc chủ đạo là màu đen Hình 4-5 Trường hợp nhằm lẫn giữa các trang phục có cùng màu sắc chủ đạo là màu đỏ .47 Hình 4-6 Trường hợp nhằm lẫn giữa các trang phục Ba Na, H'Mông, Chăm, Tay, Mường, Hình 4-7 Chương trình demo của phương pháp Logistic Regression sử dụng đặc trưng {30081015 cco 48
Hình 4-8 Demo kết quả của phương pháp Logistic Regression sử dụng đặc trưng ResNet50
Trang 10DANH MỤC BANG
Bảng 2-1 Kiến trúc MobileNet[49] - - + 2 E+S£+EE+E2EEEEEEEEEEEEEEEEEE12112112171 11111 Ee 27Bang 2-2 Kiến trúc mạng EfficientNetB0[Š2] - - - 5 5+1 SE 9 HH nh re 29Bảng 3-1 So sánh các bộ dữ liệu về trang phục -¿- 2¿©2+2++22x+2zxvzxxerxesrxezrxees 31Bảng 4-1 Kết quả thực nghiGi c c.cccccesscsssssessesssssessessessusssessessessusssessessessssssessessessessseesecaes 45
Trang 11DANH MỤC TỪ VIET TAT
Trang 12TÓM TẮT KHÓA LUẬN
Việt Nam có 54 dân tộc tương ứng với 54 trang phục dân tộc khác nhau mang
trong mình hơi thở văn hóa và thời đại, đồng thời điều đó tạo nên một Việt Nam vôcùng đa dạng về văn hóa trong mắt bạn bè quốc tế Tuy nhiên, qua quá trình hội nhập
và phát triển, trang phục dân tộc đặc biệt là trang phục của các dân tộc thiểu số ngàycàng bị mai một, biến tấu làm mắt chất và dần bị quên lãng Cho đến thời gian gầnđây, trang phục dân tộc thiểu số ngày càng được mọi người đặc biệt là giới trẻ đónnhận nhiệt liệt thông qua hình ảnh diện một số trang phục dân tộc thiểu số của nhữngnhân vật nồi tiếng, có ảnh hưởng nhất định đối với xã hội Điều đó dẫn đến nhu cầuthuê hoặc mua trang phục dân tộc thiểu số tăng mạnh
Thương mại điện tử phát triển, trao đổi mua bán ngày càng tiện lợi, việc muahoặc thuê trang phục ngày càng dé dang Tuy nhiên, các website bán hàng chủ yêu
phục vụ nhu cầu mua bán sản phẩm, chưa thật sự quan tâm đến vấn đề bảo tồn và
phát huy trang phục dân tộc Hơn thế nữa, các website hỗ trợ khách hàng tìm kiếmsản phâm chưa tối ưu, đa phan cho phép tìm kiếm qua từ khóa, miêu tả, danh mục vẫn
còn ít website hỗ trợ tìm kiếm qua hình anh gây khó khăn và mat thời gian cho việc
tìm kiếm nhất là đối với tình trạng thiếu hụt quan tâm thực sự của trang phục dân tộcthiêu số Việt Nam hiện nay
Vi lẽ đó, tôi tập trung nghiên cứu bai toán phân loại cho trang phục dân tộc
thiểu số Việt Nam sử dụng 3 phương pháp máy học như k — NN, SVM, Logistic
Regression với các đặc trưng HOG, LBP, VGG16, VGG19, ResNet50,
MobileNetV2, EfficientNetBO dé tiến hành phân loại trang phục dân tộc thiểu sốhướng đến xây dựng một trang bán hàng ở tương lai phục vụ nhu cầu tìm kiếm quahình ảnh, đồng thời cung cấp thêm thông tin trang phục ở phần mô tả giúp mỗi chúng
ta hiểu thêm về nét đẹp văn hóa an chứa trong mỗi bộ phục trang dân tộc Việt Nam.Việc thực hiện đề tài cũng thể hiện được sự quan tâm của giới nghiên cứu về việc bảoton và phát huy bản sắc văn hóa của dan tộc Đề tài thực hiện cũng đã được chấp nhậnđăng trong kỷ yếu “Hội nghị Khoa học trẻ và Nghiên cứu sinh UIT 2021”
Trang 13Chương 1 TONG QUAN DE TÀI
Nội dung chương này trình bày tổng quan về dé tai của khóa luận, bao gồmcác động lực nghiên cứu, phát biểu bài toán, mục tiêu và phạm vi nghiên cứu, nhữngthách thức và đóng góp của khóa luận và cuối cùng là trình bày về toàn bộ bố cục
của khóa luận.
1.1 Động lực nghiên cứu
Bi cảnh của trang phục dân tộc thiểu số
Việt Nam là quốc gia đa dân tộc Mỗi dân tộc có nét riêng về văn hóa, phong
tục, trang phục Sự khác biệt đó tạo nên một Việt Nam đa dạng về văn hóa Sự biếnđộng của thời gian, hoàn cảnh sống, đất nước hội nhập Nước ta chịu ảnh hưởngcủa nhiều văn hóa, đặc biệt là trang phục Từ các dân tộc đông dân đến các dân tộcthiểu số cũng đã dần thay đổi cách ăn mặc của mình, trang phục dân tộc thiểu số
dần bị quên lãng Hiểu biết chưa đầy đủ về trang phục cũng như văn hóa dân tộc
thiêu số, các cá nhân, tô chức xấu đã lợi dụng và sử dụng hình ảnh sai sự thật về
văn hóa của đông bào dân tộc thiêu sô.
Đến hiện nay, trang phục dân tộc thiểu số như hồi sinh từ các MV hoặc từ
hình ảnh của các KOL, người nổi tiéng dan đến nhu cầu thuê hoặc mua trang
phục dân tộc thiểu số tăng (Hình 1-1 Thể hiện hình ảnh trang phục lấy cảm hứng
từ trang phục phụ nữ HˆMông trong MV ca nhạc “Đề Mi nói cho mà nghe” của ca
sĩ Hoàng Thùy Linh) Cùng với sự phát triển của thương mại điện tử, đã có nhiều
website phục vụ nhu cầu mua cũng như thuê trang phục dân tộc thiểu số, ngay cảnhững trang phục dân tộc của đồng bào thiêu số ở nước ta Tuy nhiên, các website
vẫn còn mặt hạn chế trong việc tìm kiếm bang hinh anh, đồng thời chưa thể hiệnđược ý nghĩa sâu xa của việc bảo tồn và phát huy văn hóa trang phục dân tộc thiêu
sô Việt Nam.
Những ảnh hướng của văn hóa doi với xã hội, con người, kinh tế
Trang 14Theo nghiên cứu ứng dụng mô hình hóa phương trình cấu trúc (SEM): cácnhân tổ tác động đến giảm nghèo ở vùng dân tộc thiểu số Việt Nam nằm trong
"Tuyền tập báo cáo hội thảo: Phát triển kinh tế Việt Nam trong bối cảnh biến đổi
toàn cầu" được tổ chức tại Hà Nội năm 2020 Nghiên cứu đã đưa ra kết luận yếu tốvăn hóa đóng vai trò quan trọng đối với việc giảm nghèo và nâng cao chất lượnggiáo dục của vùng dân tộc thiểu số Tuy nhiên, nghiên cứu cũng cho thay trong quátrình phát triển và hội nhập, bản sắc văn hóa ở các dân tộc thiểu số rất dễ bị mai
một [1].
Hình 1-1 Hình ảnh trang phục lay cảm hứng từ trang phục phụ nữ H’Méng trong
MV ca nhạc “Đề Mi nói cho mà nghe” của ca sĩ Hoàng Thùy Linh
1.2 Phát biểu bài toán
Trong bối cảnh trang phục dân tộc trở thành yếu tố văn hóa nổi bật cần bảotồn và phát huy ở hầu hết các quốc gia, đề tài nghiên cứu về trang phục dân tộc ngàycảng được quan tâm, đã có nhiều bài báo nghiên cứu về trang phục dân tộc trên thế
giới [27] [28].
Bài toán: Phân loại trang phục dân tộc thiểu số Việt Nam trên ảnh Trong bài
toán này tôi đã thực hiện phân loại 10 lớp tương ứng với 10 trang phục dân tộc thiểu
số Việt Nam: Tay, Thái, Mường, H'Mông, Dao, E Dé, Ba Na, Chăm, San Diu, RaGiai Hình ảnh minh họa bài toán được thé hiện ở Hình 1-2
Trang 15Đầu vào của bài toán: Ảnh chụp người mặc trang phục dân tộc thiêu số Việt
Nam.
Đầu ra của bài toán: Kết quả phân loại là 1 nhãn trong số 10 nhãn ứng với
tên 10 dân tộc thiểu số: Tay, Thái, Mường, H'Mông, Dao, E Dé, Ba Na, Chăm, San
Hình 1-2 Bài toán phân loại trang phục dân tộc thiêu số Việt Nam
1.3 Thách thức của bài toán
Hình ảnh là cách thức khách quan và quan trọng dé tìm hiểu van đề một cách
trực quan nhất Đó có lẽ cũng là lí do lĩnh vực thị giác phát triển vững mạnh như ngày
nay, trong đó bài toán phân loại ảnh là bài toán rất được quan tâm trong cộng đồng
nghiên cứu.
Trang 16Bài toán phân loại trang phục dân tộc thiểu số Việt Nam gặp các thách thứcthông thường của bài toán phân loại ảnh như: ảnh mờ, nhòe, chất lượng ảnh kém, nền
đa dạng, tư thế và góc chụp đa dạng (Hình 1-3 thé hiện một số thách thức thường gặp
cho bài toán phân loai).
Bên cạnh đó, điều kiện ánh sáng do điều kiện thời tiết ảnh hưởng cũng gâythách thức cho các bài toán phân loại (Hình 1-4 thể hiện một số thách thức về độ sáng
của ảnh đôi với bài toán phân loại).
Hình 1-3 Một số ảnh minh họa thách thức ảnh bị mờ và nhòe trên nhiều nền ảnh,
đông thời có tư thê và góc chụp che khuât trang phục.
Hình 1-4 Một số ảnh minh họa thách thức về độ sáng của ảnh
Ngoài ra, bài toán còn gặp phải các thách thức về sự riêng tư về mặt pháp lí
của các mẫu ảnh, các ảnh được thu thập phải đảm bảo việc sử dụng chỉ phục vụ cho
nhu câu nghiên cứu và phải được câp quyên sử dụng.
Hơn nữa, riêng đối với trang phục dân tộc thiểu số Việt Nam, việc thu thập
tương đối khó khăn do thiếu nguồn thu thập từ các bài báo trước đó Thêm vào đó,
việc thu thập ảnh trên các website hau như không khả thi khi số lượng ảnh tương đối
Trang 17ít và yêu cầu bản quyền từ chủ web, trong khi đó google là nguồn cung cấp ảnh rất
lớn lại không đảm bảo các ảnh được gán đúng nhãn tương ứng với tên của trang phục
cũng là một thách thức của bài toán.
1.4 Mục tiêu và phạm vi của đề tài
1.4.1 Mục tiêu
Trong khóa luận lần này, có 2 mục tiêu chính cần hướng đến:
e Bài toán phân loại
e Bộ dữ liệu phân loại
Bài toán phân loại: Tìm hiéu tong quan về bài toán phân loại, thực hiện thử nghiệmcác giá trị trên từng phương pháp máy học và rút trích đặc trưng khác nhau Cụ thé,nghiên cứu và thực hiện khảo sát áp dụng 3 phương pháp máy học dé phân loại ảnhtrang phục dân tộc thiêu số Việt Nam như: Support Vector Machine [2], k-Nearest-
Neighbours [3], Logistic Regression [4] trên các đặc trưng ảnh thủ công: HOG, LBP
và các đặc trưng hoc sâu: VGG16, VGG19, ResNet50, MobileNetV2, EfficientNetBO
dé tiến hành đánh giá, phân tích đồng thời lựa chọn các đặc trưng và phương pháp
phù hợp cho bài toán.
Bộ dữ liệu phân loại: Tôi tiến hành tìm hiểu về các bộ dữ liệu trang phục, cụ thé là
các bộ dữ liệu liên quan đến ảnh trang phục dân tộc thiểu số Việt Nam dé phân tích
và nghiên cứu, tìm hiéu giá trị văn hóa, tinh thân và hiện trạng của trang phục dân tộc
Trang 18thiêu số Việt Nam Thông qua những thông tin khảo sát được, tiễn hành thu thập bộ
dữ liệu Vietnamese Ethnic Minority Costumes Classification (VEMC21) vé trang
phục dân tộc của 10 dân tộc thiểu số đông dân nhất Việt Nam: Tày, Thái, Mường,
HMông, Dao, E Dé, Ba Na, Chăm, San Diu, Ra Giai được gán các nhãn được dựatrên thông tin trên các website chính thống và cửa hàng chuyên về trang phục dân tộcthiêu số, đồng thời cung cấp thông tin chỉ tiết về bộ dữ liệu đã thu thập
1.4.2 Pham vi đề tài
Phạm vi nghiên cứu được áp dụng cho dtr liệu ảnh trang phục dân tộc thiêu sốvẫn còn ở quy mô nhỏ, thực hiện trên 10 trang phục dân tộc thiểu số đông dân ở ViệtNam: Tay, Thai, Mường, HˆMông, Dao, E Dé, Ba Na, Chăm, San Diu, Ra Giai, đềtài chủ yếu thực nghiệm trên các phương pháp máy học Support Vector Machine [2],
k-Nearest-Neighbours [3], Logistic Regression [4] nhằm đưa ra các đánh giá, phân
tích và so sánh sự ảnh hưởng khi sử dụng các đặc trưng và phương pháp khác nhau.
Nghiên cứu của dé tài được thực hiện tại phòng thí nghiệm MMLab, trường
Đại học Công nghệ Thông tin — Dai học quốc gia thành phố Hồ Chí Minh, khu phố
6, phường Linh Trung, quận Thủ Đức, TP.HCM.
1.5 Đóng góp của khóa luận
Nội dung khóa luận đã có những đóng góp chính như sau:
1) Tóm tắt về hệ thống lại các lí thuyết về bài toán phân loại và các phương pháp rút
trích đặc trưng ảnh.
2) Tìm hiểu và xây dựng thành công bộ dữ liệu trang phục dân tộc thiêu số Việt Nam,
cung cấp day đủ thông tin về bộ dit liệu
3) Thực hiên khảo sát các phương pháp may học như: SVM, k — NN, Logistic
Regression két hop các đặc trưng HOG, LBP, VGG16, VGG19, ResNet50,MobileNetV2, EfficientNetBO cho bài toán phan loại, đồng thời đưa ra nhữngphân tích, đánh giá làm cơ sở cho các bài toán phân loại trang phục dân tộc thiểu
SỐ sau nay.
Trang 194) Kết quả nghiên cứu đã được chấp nhận và được đăng trong kỷ yếu “Hội nghị khoa
học trẻ và nghiên cứu sinh UIT 2021”.
1.6 Bố cục khóa luậnKhóa luận bao gồm 5 chương, nội dung chính từng chương như sau:
Chương 1: Giới thiệu chung về khóa luận, động lực thực hiện bài toán, phát biểu bài
toán, thách thức của bài toán, mục tiêu và phạm vi nghiên cứu, những đóng góp chính
của khóa luận.
Chương 2: Trình bày các cơ sở lý thuyết thực hiện bài toán phân loại, các phương
pháp phân loại và các đặc trưng được sử dụng.
Chương 3: Mô tả cách thức thu thập, phân tích cũng như thông tin chỉ tiết về bộ dữ
Trang 20Chương 2 CAC NGHIÊN CỨU LIEN QUAN VÀ HƯỚNG TIẾP CAN
Nội dung chương 2 chủ yếu mô tả tổng quan về các nghiên cứu liên quan vàhướng tiếp cận của bài toán, trình bày sơ nét về bài toán phân loại — các phươngpháp phân loại được sử dụng trong dé tài, các khái niệm về đặc trưng và rút trích
đặc trưng, đồng thời giới thiệu các phương pháp biểu diễn đặc trưng được sử dụng
trong khóa luận.
2.1 Bài toán phân loại
Bài toán phân loại thuộc loại học giám sát (supervised learning) [9], dữ liệu
đầu vào của bài toán đã được gán nhãn tương ứng trước đó Phân loại chính là một kĩthuật khai thác dữ liệu, các mô hình được sử dụng để phân loại dữ liệu thành cácnhãn Phân loại là một quá trình gồm 2 bước:
e Đảo tạo mô hình
e Dùng mô hình dé phân loại dữ liệu [5]
Ở bài toán này ta thực hiện phân loại một tập dữ liệu thành một hoặc nhiều
lớp nhờ vào mô hình phân loại, như đã nói mô hình được đảo tạo trên một tập dữ liệu
đã có nhãn (còn gọi là tập huấn luyện)
Đối với bài toán phân loại có thê chia thành các dạng:
e Phân loại nhị phân
e Phân loại nhiều lớp
e Phân loại nhiều nhãn
e Phân loại không cân bằng
Phân loại nhị phân:
Phân loại nhị phân (minh họa ở Hình 2-1) thường đề cập đến nhiều nhiệm vụ
phân loại chỉ có 2 nhãn lớp, thường bao gồm phân loại 2 trạng thái Bình thường và
Bat thường Trong đó, lớp cho trạng thái bình thường được gan nhãn lớp 0 và lớp cótrạng thái bất thường được gán nhãn lớp là 1 Các thuật toán phổ biến được sử dụngcho phân loại nhị phân bao gồm:
Trang 21— Hồi quy Logistic
— k—NN
— Cây quyết định
— Máy vector hỗ trợ
— Naive Bayes
Một số bài toán sử dụng phân loại nhị phân:
— Kiểm tra y khoa xem một bệnh nhân: Có bệnh hoặc Không bệnh
— Quản lí chất lượng sản phẩm: Đạt hoặc Không đạt
— Dự đoán quyết định: Mua hàng hoặc Không mua
Phân loại đa lớp:
Hình 2-2 Minh họa phân loại đa nhãn [45]
Trang 22Bài toán phân loại đa lớp được minh họa ở hình 2-2 là quá trình phân loại dữ
liệu với số lớp lớn hơn 2 Với từng dit liệu, chúng ta can xem xét và phân loại chúng
vào các lớp khác nhau Trong đó, các đối tượng được được phân loại vào một trong
các lớp đã biết trước, số lượng các nhãn lớp có thể rất lớn Thực chất, bài toán phânloại nhị phân là một bài toán đặc biệt của phân loại đa lớp và nhiều thuật toán phânloại nhị phân có thê sử dụng cho bài toán phân loại đa lớp Các thuật toán thường
được sử dụng đề phân loại nhiều lớp:
— k—NN
— Cây quyết định
— Rừng ngẫu nhiên
— Tăng cường Gradient
Một số bài toán sử dụng phân loại đa lớp:
— Phân loại hoa.
— Phân loại các loài động vật.
— Nhận dạng chữ số viết tay
Phân loại đa nhãn:
Classification Object Detection
Hình 2-3 Minh họa phân loại đa nhãn [46].
Khác với phân loại nhị phân và phân loại nhiều nhãn, phân loại nhiều nhãn
được minh họa ở Hình 2-3 là sự khái quát của phân loại đa lớp, không ràng buộc về
10
Trang 23số lớp có thể gán cho đối tượng Phân loại đa nhãn là phân loại có hai hoặc nhiều
nhãn lớp, trong đó một hoặc nhiều nhãn lớp có thê được dự đoán cho mỗi ví dụ Các
thuật toán được sử dụng đề phân loại nhị phân và đa lớp không thể được sử dụng trực
tiếp để phân loại đa nhãn Các phiên bản chuyên biệt của thuật toán phân loại tiêuchuẩn có thé được sử dụng hoặc sử dụng một thuật toán phân loại riêng biệt dé dựđoán nhãn cho mỗi lớp, phiên bản chuyên biệt này được gọi là phiên bản nhiều nhãn
của thuật toán, bao gôm:
— Cây quyết định nhiều nhãn
— Rừng ngẫu nhiên nhiều nhãn
— Tăng cường Gradient nhiều nhãn
Một số bài toán sử dụng phân loại đa nhãn:
— Phân loại thể loại âm nhạc
— Phân loại thê loại phim
Phân loại không cân bằng:
Hình 2-4 Minh họa phân loại không cân băng [45]
Phân loại không cân bằng được minh hoa ở Hình 2-4 là phương pháp phân loạitrong đó số lượng ví dụ trong mỗi lớp phân phối không đều nhau Phân loại nhị phân
11
Trang 24thường là nhiệm vụ phân loại không cân bằng khi phần lớn các ví dụ nằm trong lớpbình thường và một số ít ví du nằm trong lớp bat thường Trường hợp dit liệu có thé
được giải quyết bằng các kĩ thuật chuyên biệt dé thay đổi thành phần của các mẫu
trong tập huấn luyện, ví dụ:
— Lấy mẫu dưới ngẫu nhiên
— Lấy mẫu quá mức SMOTE
Một số bài toán sử dụng phân loại không cân bằng:
Vi vậy, lựa chọn số lượng đặc trưng cũng là yêu tố mang tầm quan trọng quyết định
Đặc trưng có thể được chia làm 2 loại: đặc trưng thô và đặc trưng phát sinh
e Đặc trưng thô: Là đặc trưng vốn có được lay trực tiếp từ tập dữ liệu mà không
cần sử dụng thêm thao tác kĩ thuật
e_ Đặc trưng phát sinh: Là đặc trưng thu được từ quá trình trích xuất và xử lí
các đặc trưng có sẵn.
2.3 Rut trích đặc trưng
Trích chọn đặc trưng trong học máy và thong ké (hay con goi 1a trich chon dac
tính, lựa chon đặc trưng, lựa chon thuộc tinh, chon lọc đặc trưng), là quá trình chon
lọc một tập con chứa các thuộc tính liên quan dé sử dụng trong quá trình xây dựng
mô hình.
12
Trang 25Trích xuất đặc trưng đóng góp rất lớn đối với tập dữ liệu lớn cần giảm số lượng
tài nguyên mà không mat đi thông tin quan trọng, đồng thời trích xuất đặc trưng giúpgiảm sự nỗ lực của việc xây dựng mô hình, làm tăng tốc độ học học và quá trình tong
quát hóa trong quá trình máy hoc.
2.4 Kiến trúc mạng học sâu
Input Convolution + Max Convolution + Max
image RELU pooling RELU pooling
Hình 2-5 Kiến trúc của một Convolution Neural Network [6]
Convolution Neural Network (CNN) (được minh họa bởi Hình 2-5) là mạng
nơ ron tích chập, được đánh giá là một trong những mạng học sâu phổ biến và tiêntiến nhất với tốc độ xử lí nhanh và độ chính xác cao nhất hiện nay ConvolutionNeural Network bao gồm nhiều khối xây dựng, chăng hạn như:
e Lớp tích chập (Convolution Layer - Conv),
e Lớp gộp (Pooling Layer - Pool)
© Lớp kết nói đầy đủ (Fully Connected Layer - FC)
Và được thiết kế dé học tự động và thích ứng các cấu trúc phân cấp không gian củacác đối tượng thông qua thuật toán lan truyền ngược[7] Giá tri đầu vào đi qua hàngloạt các lớp Conv va Pool, cuối cùng là lớp FC [6]
Convolution layer:
Convolution minh họa ở Hình 2-6 được xem là lớp cốt lõi trong mạng tích
chập, ban chat của các lớp convolution là các bộ loc (filters) dùng dé trích xuất cácthông tin có giá trị làm giảm chi phí và tăng tốc độ tính toán Nhiệm vụ của lớp Conv
13
Trang 26là tạo ra các bản đồ đặc trưng (Feature map) thu được từ quá trình thực hiện tích chập
trên ảnh và bộ lọc tích chập (còn gọi là Kernel hay Convolution filter).
Convolution Layer in Keras
Output
Hinh 2-6 Minh hoa Convolution Layer[47].
Bộ lọc tích chap là một tenser 3 chiều kích thước F*F, bộ lọc có kích thước
nhỏ và thường là số lẻ, số chiều bằng với số chiều của ảnh, bộ lọc trượt qua từng vị
trí trên ảnh đề tính tích chập giữa kernel và phần tương ứng trên ảnh (còn gọi là trường
tiếp nhận cục bộ — Local receptive field), bước trượt của kernel trên trường tiếp nhận
cục bộ được gọi là Stride — S có tác dụng là giảm kích thước ma trận đầu ra, P —Padding bé sung thêm pixel với giá trị cô định thường là 0 giúp cân bằng kích thướcảnh đồng thời cân bằng số bước dịch chuyền của bộ lọc
Đầu ra của lớp Conv đi qua hàm kích hoạt (Activation function) trước khi trởthành đầu vào của Conv kế tiếp Cùng một ảnh đầu vào, nếu sử dụng filter khác nhau
sẽ cho ra bản đồ đặc trưng khác nhau Khi sử dụng nhiều filter sẽ rút trích được nhiềuđặc trưng của ảnh Giả sử ảnh đầu vào của lớp Conv là tenser kích thước W x H x D
với W là chiều rộng, H là chiều cao và D là chiều sâu thé hiện số chiều của ảnh, filter
có kích thước F*F Khi đó lớp Conv áp dụng K filter là tenser 3 chiều sẽ có kích
thước là:
W-F+2P HN-F+2P
(=???ì) «(P9 yc
14
Trang 27Hình 2-7 Minh họa Max Pooling Layer[47].
Lớp pooling thường giữa các lớp Conv, lớp pooling không học tham số va làthành phan tính toán chính trong CNN, được dùng dé giảm không gian của ma trậntích chập với mục đích làm giảm số lượng tham số của mô hình từ đó giúp giảm tính
toán và thời gian huấn luyện nhưng vẫn giữ được các đặc trưng quan trọng Có nhiều
loại pooling như: Sum pooling, L2 pooling, Max pooing va Average pooling Trong
đó, Max pooling va Average pooling được sử dung phô biến Hình 2-7 minh hoa cách
Max Pooling Layer hoạt động.
Fully Connected layer:
Dense Layer in Keras
Convolution Tt Pooling t& Flattening
L_—_ _——
Hình 2-8 Minh họa hoạt động ở Fully Connected Layer[47].
15
Trang 28Lớp Fully connected được minh họa ở Hình 2-8 là lớp có chức năng kết nốitất cả các neural trong lớp hiện tại và lớp trước đó, nằm ở cuối mạng trong kiến trúc
CNN Fully connected layer sẽ nhận giá trị đầu vào ở lớp trước đó, chuyển ma trận
đặc trưng thành vector một chiều bằng cách làm phẳng (flattening) Đây là lớp chiếmtrọng số nhiều nhất trong mô hình mạng tích chập Đối với các bài toán phân loại, saukhi làm phẳng vector thường sử dụng thêm hàm Softmax hay Sigmoid đề thực hiện
phân loại dữ liệu.
2.5 Các phương pháp phân loại
2.5.1 k-Nearest-Neighbours
Hình 2-9 Minh họa phương pháp k-Nearest-Neighbours [6]
k — NN (được minh họa bởi Hình 2-9) là một thuật toán học có giám sát,
phương pháp phân loại không tham số được phát triển bởi Evelyn Fix và Joseph
Hodges vào năm 1951 và được mở rộng bởi Thomas Cover, k — NN là một trong
những thuật toán phân loại hình ảnh hay học máy đơn giản nhất cho đến hiện nay, nó
áp dụng cho cả hai bài toán phân loại và hồi quy
Đây là thuật toán thuộc loại lazy learning — nghĩa là mô hình không thực sự
học được bắt kì điều gì từ dữ liệu đưa vào mà tất cả kết quả trả về chỉ dựa trực tiếp
vào khoảng cách giữa các vector đặc trưng Cu thé, thuật toán k — NN phân loại cácđiểm dữ liệu chưa biết băng cách tìm lớp phô biến nhất trong số các ví dụ k gần nhất,
mỗi điểm dif liệu trong các ví dụ k gần nhất sẽ bỏ phiêu và danh mục (lớp) có nhiều
16
Trang 29phiếu nhất sẽ được chọn [31] Do đó, việc lựa chọn tham số k ảnh hưởng rất nhiều
đến độ chính xác của mô hình đầu ra Ngoài ra, việc lựa chọn khoảng cách đóng vai
trò quan trọng, tùy theo loại dữ liệu mà ta chọn cách tính khoảng cách sau cho phù
e _N là kích thước của 2 vector x, y (số lượng thuộc tinh, số lượng đặc trưng)
e Vector x và y là 2 điểm dữ liệu
x = (xl, x2, x3, ,xN )
y =(yl, y2, y3, , yN ) Khoảng cach Minkowski:
Khoảng cách Minkowski là một trường hop tổng quát của khoảng cách Euclidean
Minkowski có công thức như sau :
Distance(x, y) =
Trong đó:
e _n: số phan tử của véc-to.
ep: là tham số
e xj: là phan tử thứ j của vector x
e_ y¡: là phan tử thứ j của véc-tơ y
Một số trường hợp:
17
Trang 30p=1, số liệu của Minkowski trả về giá trị của độ đo Manhattan.
p=2 số liệu của Minkowski trả về giá trị của độ đo Euclidean
p = ©, số liệu của Minkowski trả về giá trị của độ đo Chebychev
2.5.2 Support vector machine (SVM)
Hyperplane
Support vector
Hinh 2-10 Minh hoa thuat toan SVM [9]
SVM [10] — Support vector machine (được minh họa bởi Hình 2-10) là mô
hình học có giám sat được phat triển tai Phòng thí nghiệm AT & T bởi VladimirVapnik cùng với các đồng nghiệp
SVM là một trong những phương pháp dự đoán mạnh mẽ nhất, thuật toán xây
dựng một hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc
vô hạn chiều sao cho các siêu phăng nằm ở cách xa các điểm dữ liệu của tất cả các
lớp càng tốt, các điểm dit liệu được tính toán khoảng cách với siêu phăng là các điểm
dé gây nhằm lẫn giữa các lớp gọi là “support vector”, khái niệm là margin là thuậtngữ chỉ khoảng cách gần nhất từ một điểm dữ liệu tới mặt phân cách giữa các lớp.Tóm lại, bài toán SVM là bài toán đi tìm một siêu phẳng tối ưu mà tại đó margin của
các lớp dữ liệu là lớn nhất và bằng nhau
Phương trình tổng quát của siêu phẳng cần tìm có dạng:
18
Trang 31Logistic Regression (được minh họa bởi Hình 2-11) là thuật toán phân loại có
giám sát dùng dé dự đoán các giá trị đầu ra rời rac, đồng thời là một loại phân tíchthống kê với những nỗ lực dự đoán một giá tri đầu vào dựa vào những quan sat trước
đó, xem xét môi quan hệ giữa biên phụ thuộc và biên độc lập.
Nguyên lí hoạt động của hồi quy logistic là đưa đầu ra của mô hình hồi quytuyến tính đi qua một hàm kích hoạt có tên là Sigmoid dé tắt cả giá tri output của hàm
giả định trả về một giá tri xác suất nằm trong khoảng [0,1], sau đó có thể được ánh
xa từ 2 hoặc nhiều lớp rời rac Trong hồi quy logistic, việc lựa chọn ngưỡng rất quantrọng, tuy nhiên việc chọn ngưỡng lại phụ thuộc nhiều vào chính vấn đề phân loại.Ngược lại so với logistic regression, trong hồi quy tuyến tinh có dau ra là các giá trị
liên tục và bài toán chủ yêu giúp dự đoán các giá trị liên tục.
Hàm Sigmoid : Được minh họa ở Hình 2-12.
19
Trang 32Hình 2-12 Minh họa Hàm Sigmoid [48].
Hàm Sigmoid được tính theo công thức:
e c— logarit tư nhiên.
2.6 Cac phương pháp biểu diễn đặc trưng
2.6.1 Đặc trưng ảnh
Đặc trưng ảnh là một phần thông tin của hình ảnh, có thể về một vùng nhấtđịnh của hình ảnh có tính chất nhất định hay không Ngoài ra, đặc trưng ảnh còn cóthé là một cấu trúc như: cạnh, điểm hoặc đối tượng được thể hiện trong ảnh Đặctrưng có thể phân loại thô thành 2 loại:
e_ Đặc trưng cấp thấp
e Dac trưng cap cao
20
Trang 33Trong đó, đặc trưng cấp thấp có được nhờ vào quá trình trích xuất trực tiếp từ
ảnh gốc, đặc trưng cấp cao thì được trích xuất dựa vào các đặc trưng cấp thấp
2.6.2 Đặc trưng kết cấu HOG
1cell=5x5pixels 1block=ä3x3cells
y (a)input image (b)cell and gradient (c)block and normalization
Hinh 2-13 Minh hoa phuong phap rut trich dac trung Histogram of Orented
Gradient [44].
HOG[11] — Histogram of Orented Gradient (minh họa ở Hình 2-13) là phương
pháp rút trích đặc trưng lần đầu được giới thiệu bởi 2 tác gia Navneet Dalal va Bill
Triggs tại hội nghị CVPR năm 2005.
Về cơ ban, HOG là phương pháp chủ yếu dùng dé phát hiện đối tượng trong
thị giác máy tính, tập trung vào hình dạng và cau trúc của một đối tượng, nó chia hìnhảnh thành các vùng nhỏ hơn, tính toán độ dốc và hướng của từng vùng [12] Cụ thể,
HOG chia ảnh thành các vùng nhỏ hơn gọi là các “cells”, mỗi cells sẽ chứa histogram
1 chiều cục bộ về các hướng gradient hoặc hướng biên (edge direction) trên các điểmnam trong cells Cac cells năm cạnh nhau tao thành khối “block”, các khối blocks
chồng lên nhau làm tăng mối quan hệ giữa các điểm ảnh trong không gian, cáchistogram của khối được kết hợp với nhau và tạo thành vector đặc trưng Đề nâng cao
chất lượng đặc trưng thu thập, các histogram cục bộ có thể được chuẩn hóa về độ
tương phan bang cách tính một ngưỡng cường độ cho các khối và dùng giá trị đó
chuẩn hóa tat cả các cells trong khối Từ đó, vector đặc trưng có tính bat biến cao hơn
đôi với sự thay đôi vê điêu kiện ánh sáng.
21
Trang 342.6.3 Dac trưng LBP
Threshold ah Binary: 11101001
Booed BỊ,
Hinh 2-14 Minh hoa dac trang LBP [14]
LBP [13]- Local Binary Patterns (được minh họa bởi Hình 14 và Hình
2-15) còn gọi là mẫu nhị phân địa phương lấy thông tin ảnh từ việc đo độ tương phản
cục bộ xét trên từng pixel ảnh được Ojala giới thiệu lần đầu năm 1996 cho bài toán
nhận dạng khuôn mặt người.
a) Input image b) LBP image
Hinh 2-15 Minh hoa dac trang LBP [14]
Toán tir LBP ban dau sẽ gán nhãn các pixel của một hình anh bằng số thậpphân, được gọi là mẫu nhị phân cục bộ hoặc mã LBP, mã hóa cau trúc cục bộ xungquanh pixel Toán tử gán nhãn cho mọi pixel bằng cách tạo ngưỡng cho vùng lân cận3x3 của mỗi pixel (Hình 2-15) với giá trị pixel trung tâm và coi kết quả là một số nhịphân Mỗi pixel sẽ được so sánh với 8 điểm ảnh láng giềng của nó trong vùng lân cận
3x3 bằng cách trừ đi giá trị trung tâm Kết quả giá trị âm hoàn toàn được mã hóa
thành 0 và giá trị khác là 1 Bằng cách ghép tất cả các mã nhị phân theo chiều kim
22
Trang 35đồng hồ theo thứ tự bắt đầu từ mã trên cùng bên trái và giá trị thập phân tương ứng
của nó được dùng dé ghi nhãn ta thu được số nhị phân Phương pháp này không làmgiảm phạm vi cũng như số lượng của giá trị
2.6.4 Đặc trưng học sâu
2.6.4.1 VGG16
VGGNet [15] (được minh họa bởi Hình 2-16) là một trong những mang học
sâu có sự cải tiến đáng ké về thời gian và độ chính xác so với ZFNet [16] và AlexNet
[17] Cụ thé, VGGNet dùng bộ lọc kích thước nhỏ 3x3 giúp giảm đáng ké tham số
mô hình Qua đó, các trọng số của mạng sẽ hội tụ nhanh hơn và mô hình cũng giảmđược khả năng bị overfitting VGGNet có nhiều biến thé khác nhau về số lớp được
gọi là những mạng thuộc họ VGG.
VGGI6 là mạng convolutional neutral network đề xuất bởi K Simonyan và
A Z1sserman tại đại học Oxford vào năm 2014 [29] VGG16 là mô hình nồi tiếng
trong ILSVRC-2014 Mô hình sau khi được huấn luyện bởi mạng VGG16 cho kết
qua có độ chính xác đến 92.7 % top-5 test trong bộ dit liệu ImageNet bao gồm 14
triệu hình ảnh thuộc 1000 lớp khác nhau.
Trang 36giảm số lượng tham số cho mô hình và tính toán hiệu quả hơn, từ đó cải thiện kết quảđáng ké so với AlexNet Mạng VGG16 có kiến trúc bao gồm 13 lớp Conv và 3 lớp
FC VGG16 lần đầu đưa ra kiến trúc giống nhau lặp lại trong cấu trúc mạng được gọi
là “block”, kiến trúc block thay đổi thứ tự giữa lớp Conv và lớp Pooling khi sắp xếpnhiều lớp Conv và lớp Pooling thay vì em kẽ giữa Conv và Pooling Điều này giúpviệc rút trích đặc trưng cho kết quả tốt hơn
2.6.4.2 VGG19
VGGI9 (được minh họa bởi Hình 2-17) là một biến thé của mô hình VGG,
bao gồm 19 lớp (16 lớp chập, 3 lớp kết nối đầy đủ, 5 lớp MaxPool va 1 lớp SoftMax)
VGG19 có 2 lớp tích chập và 1 lớp MaxPool ở hai blocks đầu tiên như VGG16nhưng có sự thay đổi trong kiến trúc mạng ở blocks thứ 3, thứ 4 và thứ 5 Cụ thé, thay
vì có 3 lớp tích chập như VGG16 thì ở VGG19, tác giả thay thé thành 4 lớp tích chập
và sau đó là 1 lớp MaxPool, cuối cùng vẫn là một kết nói đầy đủ và 1 lớp SoftMax
Chính nhờ điểm cải thiện này, mạng VGG19 học được nhiều đặc trưng của ảnh hơn
20x20x258 1x1x1024 DPA 10x10x512 ne 1x1x64
Trang 372.6.4.3 ResNet50
weight layer
x
identity
Hình 2-18 Minh hoa kết nói tat của ResNet[51]
ResNet là mang học sâu giành vi trí thứ nhất trong cuộc thi ILS VRC2015 [30]
Dé cải thiện tình trạng độ chính xác bị bão hòa và suy giảm của việc thiết kế mạng
sâu hơn với nhiều lớp hơn của các mạng học sâu CNN trước đó Kaiming và những
nhà nghiên cứu của Microsoft giới thiệu kiến trúc mạng ResNet sử dụng các kết nốitat (skip connection) được minh họa ở Hình 2-18 ResNet cũng là một trong những
mạng đầu tiên sử dụng batch normalization và sử dụng skip connection minh họa ở
Hình 2-17 bỏ qua một vài lớp trung gian dé gradient không bị triệt tiêu và có thé lan
truyền được đến những lớp cuối cùng dé giải quyết van dé vanishing va exploding
gradient.
ResNet có kiến trúc bao gồm nhiều residual block (khối dư thừa) ở giữa cáclớp dé tạo thành các lối tắt giữa các lớp với ý tưởng đầu vào sẽ truyền qua một số lớpConv — Max Pooling — Conv thu được kết quả, kết qua này sẽ kết hợp với đầu vàotạo thành đầu ra cho khối residual block
ResNet50 (được minh họa bởi Hình 2-19) là một phiên bản của ResNet có kiếntrúc 50 lớp: từ 1 lớp tích chập, 1 lớp max pool, liền sau đó là 4 lớp tích chập nằmtrong các khối tích chập và khối xác định nối tiếp nhau một cách liên tục, cuối cùng
là 1 lớp AvgPool và | lớp Softmax.
25
Trang 38a Architecture of ResNet50 model
Max pooling layer, Convolution layer
Fully connected layer
Hinh 2-19 Kién trtic mang ResNet50 [20]
Trang 39Điểm chung của các mô hình họ MobileNet minh họa ở Bảng 2-1 là sử dụngmột cách tính tích chập mới có tên là Separale Convolution dé giảm kích thước môhình và giảm độ phức tạp tính toán, giúp mô hình có thê chạy trên thời gian thực.
Bảng 2-1 Kiến trúc MobileNet[49]
Năm 2017, Google công bố một phiên bản mới MobileNetV2 (được minh họabởi Hình 2-20) — mạng CNN sử dụng residual như ResNet cũng với ý tưởng các khốilayer trước đó được cộng vào các layer liền sau Giả sử đầu vào là y, sau khi qua xử
lí tích chập 2 chiều ta thu được F(y) thì cuối cùng đầu ra thu được là residual block
có giá trị y + F(y) Tuy nhiên, với mạng MobileNetV2 có một số khác biệt tạo nên
nhiều sự cải tiễn về độ chính xác và chi phí tính toán Cụ thẻ, thay vì giữ nguyên kết
27