1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Hệ thống thông tin: Phân loại trang phục dân tộc thiểu số Việt Nam

79 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân loại trang phục dân tộc thiểu số Việt Nam
Tác giả Huỳnh Thị Bích Tuyền
Người hướng dẫn TS. Nguyễn Tấn Trần Minh Khang
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa Hệ thống Thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 79
Dung lượng 58,79 MB

Nội dung

Vi lẽ đó, tôi tập trung nghiên cứu bai toán phân loại cho trang phục dân tộc thiểu số Việt Nam sử dụng 3 phương pháp máy học như k — NN, SVM, Logistic Regression với các đặc trưng HOG, L

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA HE THONG THONG TIN

HUYNH THỊ BÍCH TUYEN

KHOA LUAN TOT NGHIEP PHAN LOAI TRANG PHUC DAN TOC THIEU SO

VIET NAM

Vietnamese Ethnic Minority Costumes Classification

KY SU HE THONG THONG TIN

TP HO CHÍ MINH, 2021

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA HE THONG THONG TIN

HUYNH THI BÍCH TUYEN - 17521245

KHOA LUAN TOT NGHIEP

PHAN LOAI TRANG PHUC DAN TOC THIEU SO

VIET NAM

Vietnamese Ethnic Minority Costumes Classification

KY SƯ NGÀNH HE THONG THONG TIN

GIANG VIEN HUONG DAN NGUYEN TAN TRAN MINH KHANG

TP HO CHÍ MINH, 2021

Trang 3

THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

.-NYAY của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành đến quý Thầy Cô trường Đại học Công Nghệ Thông Tin nói chung và quý Thầy Cô khoa Hệ Thống Thông Tin nói riêng đã truyền đạt cho tôi nhiều kiến thức quý báu làm hành trang đề tôi thực hiện khóa luận lần này Cảm ơn phòng thí nghiệm MMLab — Trường đại học Công Nghệ Thông Tin đã tạo điều kiện tốt nhất có thé dé

tôi hoàn thành khóa luận.

Xin gửi lời cảm ơn sâu sắc đến người Thầy TS Nguyễn Tân Trần Minh Khang và người Thầy ThS Võ Duy Nguyên đã luôn động viên, giúp đỡ tôi mọi lúc có thể, cảm ơn Thay

đã dạy cho tôi nhiều kiến thức và cách tư duy đúng không những trong khóa luận mà còn trong cách sống và làm việc.

Xin cảm ơn Cô TS Cao Thị Nhạn, Thầy ThS Huỳnh Đức Huy, Thầy ThS Trình Trọng Tín và Thầy ThS Hà Lê Hoài Trung đã có những đánh giá và góp ý chân thành cho khóa luận

của tôi ngày càng hoàn thiện.

Cảm ơn gia đình và bạn bè đã luôn bên cạnh động viên, hiểu và thông cảm cho tôi những lúc tôi khó khăn nhất!

Cảm ơn bản thân đã cé gắng, xin cảm ơn và xin kính chúc bình an đến quý Thay Cô cùng tất cả mọi người!

Thành phó Hồ Chí Minh, ngày 20 tháng 06 năm 2021

Huỳnh Thị Bích Tuyền

Trang 5

MỤC LỤC

Chương 1 TỎNG QUAN DE TÀI 22:©222222222222122222112122211122221111 22112 ccrkx 1

1.1 Động lực nghiên CỨU -¿ S512 E1 0101 1e 1

1.2 Phát biểu bài toán -: 222222+++2222EE2Y222E22222111122 22222111112 rrrrrrrrir 2

14.1.

1.4.2.

1.5 Đóng góp của khóa luận ¿+ 5+ 2E 2121 1 12 1212121211 HH HH HH 6

1.6 Bố cục khóa luận -222222222+£2222EE222+2222222111121222222111112 2212111112 c Erree 7

Chuong2 | CAC NGHIÊN CỨU LIEN QUAN VÀ HƯỚNG TIEP CẬN 8

2.1 Bài toán phân lOại - - «5:52 St k2 v22 01 12112121 H111 011.1 8

Trang 6

2.6.2 Đặc trưng kết cầu HOG -2:2222++t222222222312222211 221 rtrrrrrer 21

3.2 Thu thập và Tiền xử Ii ssssssssssssssssessssseeecesceececcessssnnsssnstunnnnsssssseeeeeeeeeceeceesansnnanntttee 31

3.3 Quy trình gan nhãn dữ liệu oo eee es eeeeseseseseeeseacseenesesesesesssneasseesstenesesees 23 3.4 Phân tích bộ dữ liệu -cccccstccrertrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrro.33 3.4.1 Mô tả bộ dữ liệu cccccc2EEErrrrrrhrrrrrirrrrree 33

3.4.2 Thông tin bộ dữ liệu trang phục dân tộc thiểu số Việt Nam - 34

3.4.3 Đánh giá bộ dữ liệu cc-2222 Event erree 39

Chuong 4 THỰC NGHIỆM CÁC PHƯƠNG PHAP MAY HỌC TREN BỘ DỮ LIEU

Trang 7

4.4 Demo minh họa - c3 2t 3 321133391115 3121511515151 111115111111 48

Chương 5 KÉT LUẬN VA HƯỚNG PHÁT TRIEN

5.1 Kết luận .22-222222+22221122222111122221112221111222111.221111 21.11 49

5.2 Hướng phát trién

TÀI LIEU THAM KHẢO -2222222222£222EEES2222+222222212121222222111112.21211111 rcrrrrr 5I

PHỤ LỤC

Trang 8

DANH MỤC HÌNH

Hình 1-1 Hình ảnh trang phục lay cảm hứng từ trang phục phụ nữ H’Méng trong MV ca nhạc

“Đề Mi nói cho mà nghe” của ca sĩ Hoàng Thùy Linh - 2-2 2 22 +E££Ee£Ee£EzEzEze2 2Hình 1-2 Bài toán phân loại trang phục dân tộc thiểu số Việt Nam -: 5¿ 3Hình 1-3 Một số ảnh minh họa thách thức ảnh bị mờ và nhòe trên nhiều nền ảnh, đồng thời

có tư thế và góc chụp che khuất trang phục ¿- ¿+2 +++x++E++2+++Ex++zxtzrxerxeerxesred 4Hình 1-4 Một số ảnh minh họa thách thức về độ sáng của ảnh - 2-2 2 s2 4

Hình 2-1 Minh họa phân loại nhị phân [24Š] - - <5 + + **+*EE+EEEEseEseeerseerereerrree 9 Hình 2-2 Minh họa phân loại đa nhãn [4Š] - - c6 123119113 1153 911191 1 1 1 1x ru 9 Hình 2-3 Minh họa phân loại đa nhãn [46 ] .- - 5 6 E22 EE 33 E*EE+EEESEEEEkkEskksrkrrrkrske 10

Hình 2-4 Minh họa phân loại không cân bằng [45] - 2-22 2 ++£+£+E£+££+£++zxzsez 11Hình 2-5 Kiến trúc của một Convolution Neural Network [6] -.-.-. -<<<<++<<<<s+2 13

Hình 2-6 Minh hoa Convolution Layer[47] .- - << +1 393 1391 E311 11x gen 14 Hình 2-7 Minh họa Max Pooling Layer[47] .- 5 5< + 2< +33 E+3EESeEEeeeeeseeersereeee 15 Hình 2-8 Minh họa hoạt động ở Fully Connected Layer[47] . -« «<< s<>+<es+++ 15 Hình 2-9 Minh họa phương pháp k-Nearest-Neighbours [6] «<< <<s<+s++x 16 Hình 2-10 Minh họa thuật toán SVM [Ø] - 11t 21 21121191101 ng HH ng nh gnư 18 Hình 2-11 So sánh sự khác nhau của 2 thuật toán Linear Regression và Logistic Regression [Ø]- E HHHH« HH 19 Hình 2-12 Minh hoa Hàm Sigmoid [48] .- - - - - 5 2 311391183931 83911 E11 8111 11 vn 20 Hình 2-13 Minh họa phương pháp rút trích đặc trưng Histogram of Orented Gradient [44].

¬— 21 Hình 2-14 Minh họa đặc trưng LBP [ ⁄4], - - - c6 S5 2121121153119 1 111 1 11 vn ren 22

Hình 2-15 Minh họa đặc trưng LBP [ 144] -. 5c 322 323 *+232EESEESEErerirrsrrrerrrrrrrrree 22

Hình 2-16 Kiến trúc mạng VGG16 [18] ¿+ 2 2£ £+E£+E£+E£EE£EE£EEEEEEEEEEEEEEEEerkerkerkrree 23Hình 2-17 Kiến trúc mạng VGG19 [19] - - - - S11 SH HH HH kh 24Hình 2-18 Minh họa kết nói tắt của ResNet[5 Ï] c:-cc+cc+ccxrrerrtrrrrrrrrrrrrrrrrrkee 25Hình 2-19 Kiến trúc mạng ResNet50 [2Ö] - - s9 như, 26Hình 2-20 Kiến trúc mạng MobileNetV2 [2 ] ccscscsssesssessesssesssesssesssssesssesssessesssecsseesesesesssecs 26

Trang 9

Hình 2-21 Kiến trúc mạng EfficientNetBO [22] ¿ 2¿©2¿©5z2+22£x£xzvzxesrxzrseee 28 Hình 2-22 Minh họa kiến trúc EfficientNet[50] ¿ -¿©2¿©5z22x+2zxc2x+vzxesrxezrxeee 28

Hình 3-1 Quy trình gan nhãn cho ảnh «+13 9 9 9119 ng ng ng ệt 33

Hình 3-2 Một số hình ảnh trong bộ dữ liệu VEMC21 -2-©22- 5¿22+222++£xz+zxczseei 33

Hình 3-3 Phân bố của bộ dữ liệu VEMC2 2- 5: ©5£22£+E+£EEtEEE£EESEEEEErEvzrxerrerxerree 34

Hình 3-4 Một số hình ảnh trang phục dân tộc Tay trong bộ dữ liệu -« 35

Hình 3-5 Một số hình ảnh trang phục dân tộc Thái trong bộ dit liệu - ‹ 35

Hình 3-6 Một số hình ảnh trang phục dân tộc Mường trong bộ dit liệu . 36

Hình 3-7 Một số hình ảnh trang phục dân tộc H°Mông trong bộ dữ liệu .- 36

Hình 3-8 Một số hình ảnh trang phục dân tộc Dao trong bộ dữ liệu . 37

Hình 3-9 Một số hình ảnh trang phục dân tộc Ê Dé trong bộ dữ liệu - - 37

Hình 3-10 Một số hình ảnh trang phục dân tộc Ba Na trong bộ dữ liệu - 38

Hình 3-11 Một số hình ảnh trang phục dân tộc Chăm trong bộ dữ liệu .- 38

Hình 3-12 Một số hình ảnh trang phục dân tộc San Diu trong bộ dữ liệu - 39

Hình 3-13 Một số hình ảnh trang phục dân tộc Ra Glai trong bộ dữ liệu 39

Hình 4-1 Phân bố dữ liệu huấn luyện và kiểm thử ¿2-2 5 S2 + £+E£+E££Eezxerxerssrez 41 Hình 4-2 Quy trình phân loại hình ảnh trang phục thiêu số Việt Nam -. - 42

Hình 4-3 Biéu diễn kết quả sử dụng Confusion matriX 2-2 2 2+s£E+£x+£+z£szs+2 46 Hình 4-4 Trường hợp nhằm lẫn giữa các trang phục có cùng màu sắc chủ đạo là màu đen Hình 4-5 Trường hợp nhằm lẫn giữa các trang phục có cùng màu sắc chủ đạo là màu đỏ .47 Hình 4-6 Trường hợp nhằm lẫn giữa các trang phục Ba Na, H'Mông, Chăm, Tay, Mường, Hình 4-7 Chương trình demo của phương pháp Logistic Regression sử dụng đặc trưng {30081015 cco 48

Hình 4-8 Demo kết quả của phương pháp Logistic Regression sử dụng đặc trưng ResNet50

Trang 10

DANH MỤC BANG

Bảng 2-1 Kiến trúc MobileNet[49] - - + 2 E+S£+EE+E2EEEEEEEEEEEEEEEEEE12112112171 11111 Ee 27Bang 2-2 Kiến trúc mạng EfficientNetB0[Š2] - - - 5 5+1 SE 9 HH nh re 29Bảng 3-1 So sánh các bộ dữ liệu về trang phục -¿- 2¿©2+2++22x+2zxvzxxerxesrxezrxees 31Bảng 4-1 Kết quả thực nghiGi c c.cccccesscsssssessesssssessessessusssessessessusssessessessssssessessessessseesecaes 45

Trang 11

DANH MỤC TỪ VIET TAT

Trang 12

TÓM TẮT KHÓA LUẬN

Việt Nam có 54 dân tộc tương ứng với 54 trang phục dân tộc khác nhau mang

trong mình hơi thở văn hóa và thời đại, đồng thời điều đó tạo nên một Việt Nam vôcùng đa dạng về văn hóa trong mắt bạn bè quốc tế Tuy nhiên, qua quá trình hội nhập

và phát triển, trang phục dân tộc đặc biệt là trang phục của các dân tộc thiểu số ngàycàng bị mai một, biến tấu làm mắt chất và dần bị quên lãng Cho đến thời gian gầnđây, trang phục dân tộc thiểu số ngày càng được mọi người đặc biệt là giới trẻ đónnhận nhiệt liệt thông qua hình ảnh diện một số trang phục dân tộc thiểu số của nhữngnhân vật nồi tiếng, có ảnh hưởng nhất định đối với xã hội Điều đó dẫn đến nhu cầuthuê hoặc mua trang phục dân tộc thiểu số tăng mạnh

Thương mại điện tử phát triển, trao đổi mua bán ngày càng tiện lợi, việc muahoặc thuê trang phục ngày càng dé dang Tuy nhiên, các website bán hàng chủ yêu

phục vụ nhu cầu mua bán sản phẩm, chưa thật sự quan tâm đến vấn đề bảo tồn và

phát huy trang phục dân tộc Hơn thế nữa, các website hỗ trợ khách hàng tìm kiếmsản phâm chưa tối ưu, đa phan cho phép tìm kiếm qua từ khóa, miêu tả, danh mục vẫn

còn ít website hỗ trợ tìm kiếm qua hình anh gây khó khăn và mat thời gian cho việc

tìm kiếm nhất là đối với tình trạng thiếu hụt quan tâm thực sự của trang phục dân tộcthiêu số Việt Nam hiện nay

Vi lẽ đó, tôi tập trung nghiên cứu bai toán phân loại cho trang phục dân tộc

thiểu số Việt Nam sử dụng 3 phương pháp máy học như k — NN, SVM, Logistic

Regression với các đặc trưng HOG, LBP, VGG16, VGG19, ResNet50,

MobileNetV2, EfficientNetBO dé tiến hành phân loại trang phục dân tộc thiểu sốhướng đến xây dựng một trang bán hàng ở tương lai phục vụ nhu cầu tìm kiếm quahình ảnh, đồng thời cung cấp thêm thông tin trang phục ở phần mô tả giúp mỗi chúng

ta hiểu thêm về nét đẹp văn hóa an chứa trong mỗi bộ phục trang dân tộc Việt Nam.Việc thực hiện đề tài cũng thể hiện được sự quan tâm của giới nghiên cứu về việc bảoton và phát huy bản sắc văn hóa của dan tộc Đề tài thực hiện cũng đã được chấp nhậnđăng trong kỷ yếu “Hội nghị Khoa học trẻ và Nghiên cứu sinh UIT 2021”

Trang 13

Chương 1 TONG QUAN DE TÀI

Nội dung chương này trình bày tổng quan về dé tai của khóa luận, bao gồmcác động lực nghiên cứu, phát biểu bài toán, mục tiêu và phạm vi nghiên cứu, nhữngthách thức và đóng góp của khóa luận và cuối cùng là trình bày về toàn bộ bố cục

của khóa luận.

1.1 Động lực nghiên cứu

Bi cảnh của trang phục dân tộc thiểu số

Việt Nam là quốc gia đa dân tộc Mỗi dân tộc có nét riêng về văn hóa, phong

tục, trang phục Sự khác biệt đó tạo nên một Việt Nam đa dạng về văn hóa Sự biếnđộng của thời gian, hoàn cảnh sống, đất nước hội nhập Nước ta chịu ảnh hưởngcủa nhiều văn hóa, đặc biệt là trang phục Từ các dân tộc đông dân đến các dân tộcthiểu số cũng đã dần thay đổi cách ăn mặc của mình, trang phục dân tộc thiểu số

dần bị quên lãng Hiểu biết chưa đầy đủ về trang phục cũng như văn hóa dân tộc

thiêu số, các cá nhân, tô chức xấu đã lợi dụng và sử dụng hình ảnh sai sự thật về

văn hóa của đông bào dân tộc thiêu sô.

Đến hiện nay, trang phục dân tộc thiểu số như hồi sinh từ các MV hoặc từ

hình ảnh của các KOL, người nổi tiéng dan đến nhu cầu thuê hoặc mua trang

phục dân tộc thiểu số tăng (Hình 1-1 Thể hiện hình ảnh trang phục lấy cảm hứng

từ trang phục phụ nữ HˆMông trong MV ca nhạc “Đề Mi nói cho mà nghe” của ca

sĩ Hoàng Thùy Linh) Cùng với sự phát triển của thương mại điện tử, đã có nhiều

website phục vụ nhu cầu mua cũng như thuê trang phục dân tộc thiểu số, ngay cảnhững trang phục dân tộc của đồng bào thiêu số ở nước ta Tuy nhiên, các website

vẫn còn mặt hạn chế trong việc tìm kiếm bang hinh anh, đồng thời chưa thể hiệnđược ý nghĩa sâu xa của việc bảo tồn và phát huy văn hóa trang phục dân tộc thiêu

sô Việt Nam.

Những ảnh hướng của văn hóa doi với xã hội, con người, kinh tế

Trang 14

Theo nghiên cứu ứng dụng mô hình hóa phương trình cấu trúc (SEM): cácnhân tổ tác động đến giảm nghèo ở vùng dân tộc thiểu số Việt Nam nằm trong

"Tuyền tập báo cáo hội thảo: Phát triển kinh tế Việt Nam trong bối cảnh biến đổi

toàn cầu" được tổ chức tại Hà Nội năm 2020 Nghiên cứu đã đưa ra kết luận yếu tốvăn hóa đóng vai trò quan trọng đối với việc giảm nghèo và nâng cao chất lượnggiáo dục của vùng dân tộc thiểu số Tuy nhiên, nghiên cứu cũng cho thay trong quátrình phát triển và hội nhập, bản sắc văn hóa ở các dân tộc thiểu số rất dễ bị mai

một [1].

Hình 1-1 Hình ảnh trang phục lay cảm hứng từ trang phục phụ nữ H’Méng trong

MV ca nhạc “Đề Mi nói cho mà nghe” của ca sĩ Hoàng Thùy Linh

1.2 Phát biểu bài toán

Trong bối cảnh trang phục dân tộc trở thành yếu tố văn hóa nổi bật cần bảotồn và phát huy ở hầu hết các quốc gia, đề tài nghiên cứu về trang phục dân tộc ngàycảng được quan tâm, đã có nhiều bài báo nghiên cứu về trang phục dân tộc trên thế

giới [27] [28].

Bài toán: Phân loại trang phục dân tộc thiểu số Việt Nam trên ảnh Trong bài

toán này tôi đã thực hiện phân loại 10 lớp tương ứng với 10 trang phục dân tộc thiểu

số Việt Nam: Tay, Thái, Mường, H'Mông, Dao, E Dé, Ba Na, Chăm, San Diu, RaGiai Hình ảnh minh họa bài toán được thé hiện ở Hình 1-2

Trang 15

Đầu vào của bài toán: Ảnh chụp người mặc trang phục dân tộc thiêu số Việt

Nam.

Đầu ra của bài toán: Kết quả phân loại là 1 nhãn trong số 10 nhãn ứng với

tên 10 dân tộc thiểu số: Tay, Thái, Mường, H'Mông, Dao, E Dé, Ba Na, Chăm, San

Hình 1-2 Bài toán phân loại trang phục dân tộc thiêu số Việt Nam

1.3 Thách thức của bài toán

Hình ảnh là cách thức khách quan và quan trọng dé tìm hiểu van đề một cách

trực quan nhất Đó có lẽ cũng là lí do lĩnh vực thị giác phát triển vững mạnh như ngày

nay, trong đó bài toán phân loại ảnh là bài toán rất được quan tâm trong cộng đồng

nghiên cứu.

Trang 16

Bài toán phân loại trang phục dân tộc thiểu số Việt Nam gặp các thách thứcthông thường của bài toán phân loại ảnh như: ảnh mờ, nhòe, chất lượng ảnh kém, nền

đa dạng, tư thế và góc chụp đa dạng (Hình 1-3 thé hiện một số thách thức thường gặp

cho bài toán phân loai).

Bên cạnh đó, điều kiện ánh sáng do điều kiện thời tiết ảnh hưởng cũng gâythách thức cho các bài toán phân loại (Hình 1-4 thể hiện một số thách thức về độ sáng

của ảnh đôi với bài toán phân loại).

Hình 1-3 Một số ảnh minh họa thách thức ảnh bị mờ và nhòe trên nhiều nền ảnh,

đông thời có tư thê và góc chụp che khuât trang phục.

Hình 1-4 Một số ảnh minh họa thách thức về độ sáng của ảnh

Ngoài ra, bài toán còn gặp phải các thách thức về sự riêng tư về mặt pháp lí

của các mẫu ảnh, các ảnh được thu thập phải đảm bảo việc sử dụng chỉ phục vụ cho

nhu câu nghiên cứu và phải được câp quyên sử dụng.

Hơn nữa, riêng đối với trang phục dân tộc thiểu số Việt Nam, việc thu thập

tương đối khó khăn do thiếu nguồn thu thập từ các bài báo trước đó Thêm vào đó,

việc thu thập ảnh trên các website hau như không khả thi khi số lượng ảnh tương đối

Trang 17

ít và yêu cầu bản quyền từ chủ web, trong khi đó google là nguồn cung cấp ảnh rất

lớn lại không đảm bảo các ảnh được gán đúng nhãn tương ứng với tên của trang phục

cũng là một thách thức của bài toán.

1.4 Mục tiêu và phạm vi của đề tài

1.4.1 Mục tiêu

Trong khóa luận lần này, có 2 mục tiêu chính cần hướng đến:

e Bài toán phân loại

e Bộ dữ liệu phân loại

Bài toán phân loại: Tìm hiéu tong quan về bài toán phân loại, thực hiện thử nghiệmcác giá trị trên từng phương pháp máy học và rút trích đặc trưng khác nhau Cụ thé,nghiên cứu và thực hiện khảo sát áp dụng 3 phương pháp máy học dé phân loại ảnhtrang phục dân tộc thiêu số Việt Nam như: Support Vector Machine [2], k-Nearest-

Neighbours [3], Logistic Regression [4] trên các đặc trưng ảnh thủ công: HOG, LBP

và các đặc trưng hoc sâu: VGG16, VGG19, ResNet50, MobileNetV2, EfficientNetBO

dé tiến hành đánh giá, phân tích đồng thời lựa chọn các đặc trưng và phương pháp

phù hợp cho bài toán.

Bộ dữ liệu phân loại: Tôi tiến hành tìm hiểu về các bộ dữ liệu trang phục, cụ thé là

các bộ dữ liệu liên quan đến ảnh trang phục dân tộc thiểu số Việt Nam dé phân tích

và nghiên cứu, tìm hiéu giá trị văn hóa, tinh thân và hiện trạng của trang phục dân tộc

Trang 18

thiêu số Việt Nam Thông qua những thông tin khảo sát được, tiễn hành thu thập bộ

dữ liệu Vietnamese Ethnic Minority Costumes Classification (VEMC21) vé trang

phục dân tộc của 10 dân tộc thiểu số đông dân nhất Việt Nam: Tày, Thái, Mường,

HMông, Dao, E Dé, Ba Na, Chăm, San Diu, Ra Giai được gán các nhãn được dựatrên thông tin trên các website chính thống và cửa hàng chuyên về trang phục dân tộcthiêu số, đồng thời cung cấp thông tin chỉ tiết về bộ dữ liệu đã thu thập

1.4.2 Pham vi đề tài

Phạm vi nghiên cứu được áp dụng cho dtr liệu ảnh trang phục dân tộc thiêu sốvẫn còn ở quy mô nhỏ, thực hiện trên 10 trang phục dân tộc thiểu số đông dân ở ViệtNam: Tay, Thai, Mường, HˆMông, Dao, E Dé, Ba Na, Chăm, San Diu, Ra Giai, đềtài chủ yếu thực nghiệm trên các phương pháp máy học Support Vector Machine [2],

k-Nearest-Neighbours [3], Logistic Regression [4] nhằm đưa ra các đánh giá, phân

tích và so sánh sự ảnh hưởng khi sử dụng các đặc trưng và phương pháp khác nhau.

Nghiên cứu của dé tài được thực hiện tại phòng thí nghiệm MMLab, trường

Đại học Công nghệ Thông tin — Dai học quốc gia thành phố Hồ Chí Minh, khu phố

6, phường Linh Trung, quận Thủ Đức, TP.HCM.

1.5 Đóng góp của khóa luận

Nội dung khóa luận đã có những đóng góp chính như sau:

1) Tóm tắt về hệ thống lại các lí thuyết về bài toán phân loại và các phương pháp rút

trích đặc trưng ảnh.

2) Tìm hiểu và xây dựng thành công bộ dữ liệu trang phục dân tộc thiêu số Việt Nam,

cung cấp day đủ thông tin về bộ dit liệu

3) Thực hiên khảo sát các phương pháp may học như: SVM, k — NN, Logistic

Regression két hop các đặc trưng HOG, LBP, VGG16, VGG19, ResNet50,MobileNetV2, EfficientNetBO cho bài toán phan loại, đồng thời đưa ra nhữngphân tích, đánh giá làm cơ sở cho các bài toán phân loại trang phục dân tộc thiểu

SỐ sau nay.

Trang 19

4) Kết quả nghiên cứu đã được chấp nhận và được đăng trong kỷ yếu “Hội nghị khoa

học trẻ và nghiên cứu sinh UIT 2021”.

1.6 Bố cục khóa luậnKhóa luận bao gồm 5 chương, nội dung chính từng chương như sau:

Chương 1: Giới thiệu chung về khóa luận, động lực thực hiện bài toán, phát biểu bài

toán, thách thức của bài toán, mục tiêu và phạm vi nghiên cứu, những đóng góp chính

của khóa luận.

Chương 2: Trình bày các cơ sở lý thuyết thực hiện bài toán phân loại, các phương

pháp phân loại và các đặc trưng được sử dụng.

Chương 3: Mô tả cách thức thu thập, phân tích cũng như thông tin chỉ tiết về bộ dữ

Trang 20

Chương 2 CAC NGHIÊN CỨU LIEN QUAN VÀ HƯỚNG TIẾP CAN

Nội dung chương 2 chủ yếu mô tả tổng quan về các nghiên cứu liên quan vàhướng tiếp cận của bài toán, trình bày sơ nét về bài toán phân loại — các phươngpháp phân loại được sử dụng trong dé tài, các khái niệm về đặc trưng và rút trích

đặc trưng, đồng thời giới thiệu các phương pháp biểu diễn đặc trưng được sử dụng

trong khóa luận.

2.1 Bài toán phân loại

Bài toán phân loại thuộc loại học giám sát (supervised learning) [9], dữ liệu

đầu vào của bài toán đã được gán nhãn tương ứng trước đó Phân loại chính là một kĩthuật khai thác dữ liệu, các mô hình được sử dụng để phân loại dữ liệu thành cácnhãn Phân loại là một quá trình gồm 2 bước:

e Đảo tạo mô hình

e Dùng mô hình dé phân loại dữ liệu [5]

Ở bài toán này ta thực hiện phân loại một tập dữ liệu thành một hoặc nhiều

lớp nhờ vào mô hình phân loại, như đã nói mô hình được đảo tạo trên một tập dữ liệu

đã có nhãn (còn gọi là tập huấn luyện)

Đối với bài toán phân loại có thê chia thành các dạng:

e Phân loại nhị phân

e Phân loại nhiều lớp

e Phân loại nhiều nhãn

e Phân loại không cân bằng

Phân loại nhị phân:

Phân loại nhị phân (minh họa ở Hình 2-1) thường đề cập đến nhiều nhiệm vụ

phân loại chỉ có 2 nhãn lớp, thường bao gồm phân loại 2 trạng thái Bình thường và

Bat thường Trong đó, lớp cho trạng thái bình thường được gan nhãn lớp 0 và lớp cótrạng thái bất thường được gán nhãn lớp là 1 Các thuật toán phổ biến được sử dụngcho phân loại nhị phân bao gồm:

Trang 21

— Hồi quy Logistic

— k—NN

— Cây quyết định

— Máy vector hỗ trợ

— Naive Bayes

Một số bài toán sử dụng phân loại nhị phân:

— Kiểm tra y khoa xem một bệnh nhân: Có bệnh hoặc Không bệnh

— Quản lí chất lượng sản phẩm: Đạt hoặc Không đạt

— Dự đoán quyết định: Mua hàng hoặc Không mua

Phân loại đa lớp:

Hình 2-2 Minh họa phân loại đa nhãn [45]

Trang 22

Bài toán phân loại đa lớp được minh họa ở hình 2-2 là quá trình phân loại dữ

liệu với số lớp lớn hơn 2 Với từng dit liệu, chúng ta can xem xét và phân loại chúng

vào các lớp khác nhau Trong đó, các đối tượng được được phân loại vào một trong

các lớp đã biết trước, số lượng các nhãn lớp có thể rất lớn Thực chất, bài toán phânloại nhị phân là một bài toán đặc biệt của phân loại đa lớp và nhiều thuật toán phânloại nhị phân có thê sử dụng cho bài toán phân loại đa lớp Các thuật toán thường

được sử dụng đề phân loại nhiều lớp:

— k—NN

— Cây quyết định

— Rừng ngẫu nhiên

— Tăng cường Gradient

Một số bài toán sử dụng phân loại đa lớp:

— Phân loại hoa.

— Phân loại các loài động vật.

— Nhận dạng chữ số viết tay

Phân loại đa nhãn:

Classification Object Detection

Hình 2-3 Minh họa phân loại đa nhãn [46].

Khác với phân loại nhị phân và phân loại nhiều nhãn, phân loại nhiều nhãn

được minh họa ở Hình 2-3 là sự khái quát của phân loại đa lớp, không ràng buộc về

10

Trang 23

số lớp có thể gán cho đối tượng Phân loại đa nhãn là phân loại có hai hoặc nhiều

nhãn lớp, trong đó một hoặc nhiều nhãn lớp có thê được dự đoán cho mỗi ví dụ Các

thuật toán được sử dụng đề phân loại nhị phân và đa lớp không thể được sử dụng trực

tiếp để phân loại đa nhãn Các phiên bản chuyên biệt của thuật toán phân loại tiêuchuẩn có thé được sử dụng hoặc sử dụng một thuật toán phân loại riêng biệt dé dựđoán nhãn cho mỗi lớp, phiên bản chuyên biệt này được gọi là phiên bản nhiều nhãn

của thuật toán, bao gôm:

— Cây quyết định nhiều nhãn

— Rừng ngẫu nhiên nhiều nhãn

— Tăng cường Gradient nhiều nhãn

Một số bài toán sử dụng phân loại đa nhãn:

— Phân loại thể loại âm nhạc

— Phân loại thê loại phim

Phân loại không cân bằng:

Hình 2-4 Minh họa phân loại không cân băng [45]

Phân loại không cân bằng được minh hoa ở Hình 2-4 là phương pháp phân loạitrong đó số lượng ví dụ trong mỗi lớp phân phối không đều nhau Phân loại nhị phân

11

Trang 24

thường là nhiệm vụ phân loại không cân bằng khi phần lớn các ví dụ nằm trong lớpbình thường và một số ít ví du nằm trong lớp bat thường Trường hợp dit liệu có thé

được giải quyết bằng các kĩ thuật chuyên biệt dé thay đổi thành phần của các mẫu

trong tập huấn luyện, ví dụ:

— Lấy mẫu dưới ngẫu nhiên

— Lấy mẫu quá mức SMOTE

Một số bài toán sử dụng phân loại không cân bằng:

Vi vậy, lựa chọn số lượng đặc trưng cũng là yêu tố mang tầm quan trọng quyết định

Đặc trưng có thể được chia làm 2 loại: đặc trưng thô và đặc trưng phát sinh

e Đặc trưng thô: Là đặc trưng vốn có được lay trực tiếp từ tập dữ liệu mà không

cần sử dụng thêm thao tác kĩ thuật

e_ Đặc trưng phát sinh: Là đặc trưng thu được từ quá trình trích xuất và xử lí

các đặc trưng có sẵn.

2.3 Rut trích đặc trưng

Trích chọn đặc trưng trong học máy và thong ké (hay con goi 1a trich chon dac

tính, lựa chon đặc trưng, lựa chon thuộc tinh, chon lọc đặc trưng), là quá trình chon

lọc một tập con chứa các thuộc tính liên quan dé sử dụng trong quá trình xây dựng

mô hình.

12

Trang 25

Trích xuất đặc trưng đóng góp rất lớn đối với tập dữ liệu lớn cần giảm số lượng

tài nguyên mà không mat đi thông tin quan trọng, đồng thời trích xuất đặc trưng giúpgiảm sự nỗ lực của việc xây dựng mô hình, làm tăng tốc độ học học và quá trình tong

quát hóa trong quá trình máy hoc.

2.4 Kiến trúc mạng học sâu

Input Convolution + Max Convolution + Max

image RELU pooling RELU pooling

Hình 2-5 Kiến trúc của một Convolution Neural Network [6]

Convolution Neural Network (CNN) (được minh họa bởi Hình 2-5) là mạng

nơ ron tích chập, được đánh giá là một trong những mạng học sâu phổ biến và tiêntiến nhất với tốc độ xử lí nhanh và độ chính xác cao nhất hiện nay ConvolutionNeural Network bao gồm nhiều khối xây dựng, chăng hạn như:

e Lớp tích chập (Convolution Layer - Conv),

e Lớp gộp (Pooling Layer - Pool)

© Lớp kết nói đầy đủ (Fully Connected Layer - FC)

Và được thiết kế dé học tự động và thích ứng các cấu trúc phân cấp không gian củacác đối tượng thông qua thuật toán lan truyền ngược[7] Giá tri đầu vào đi qua hàngloạt các lớp Conv va Pool, cuối cùng là lớp FC [6]

Convolution layer:

Convolution minh họa ở Hình 2-6 được xem là lớp cốt lõi trong mạng tích

chập, ban chat của các lớp convolution là các bộ loc (filters) dùng dé trích xuất cácthông tin có giá trị làm giảm chi phí và tăng tốc độ tính toán Nhiệm vụ của lớp Conv

13

Trang 26

là tạo ra các bản đồ đặc trưng (Feature map) thu được từ quá trình thực hiện tích chập

trên ảnh và bộ lọc tích chập (còn gọi là Kernel hay Convolution filter).

Convolution Layer in Keras

Output

Hinh 2-6 Minh hoa Convolution Layer[47].

Bộ lọc tích chap là một tenser 3 chiều kích thước F*F, bộ lọc có kích thước

nhỏ và thường là số lẻ, số chiều bằng với số chiều của ảnh, bộ lọc trượt qua từng vị

trí trên ảnh đề tính tích chập giữa kernel và phần tương ứng trên ảnh (còn gọi là trường

tiếp nhận cục bộ — Local receptive field), bước trượt của kernel trên trường tiếp nhận

cục bộ được gọi là Stride — S có tác dụng là giảm kích thước ma trận đầu ra, P —Padding bé sung thêm pixel với giá trị cô định thường là 0 giúp cân bằng kích thướcảnh đồng thời cân bằng số bước dịch chuyền của bộ lọc

Đầu ra của lớp Conv đi qua hàm kích hoạt (Activation function) trước khi trởthành đầu vào của Conv kế tiếp Cùng một ảnh đầu vào, nếu sử dụng filter khác nhau

sẽ cho ra bản đồ đặc trưng khác nhau Khi sử dụng nhiều filter sẽ rút trích được nhiềuđặc trưng của ảnh Giả sử ảnh đầu vào của lớp Conv là tenser kích thước W x H x D

với W là chiều rộng, H là chiều cao và D là chiều sâu thé hiện số chiều của ảnh, filter

có kích thước F*F Khi đó lớp Conv áp dụng K filter là tenser 3 chiều sẽ có kích

thước là:

W-F+2P HN-F+2P

(=???ì) «(P9 yc

14

Trang 27

Hình 2-7 Minh họa Max Pooling Layer[47].

Lớp pooling thường giữa các lớp Conv, lớp pooling không học tham số va làthành phan tính toán chính trong CNN, được dùng dé giảm không gian của ma trậntích chập với mục đích làm giảm số lượng tham số của mô hình từ đó giúp giảm tính

toán và thời gian huấn luyện nhưng vẫn giữ được các đặc trưng quan trọng Có nhiều

loại pooling như: Sum pooling, L2 pooling, Max pooing va Average pooling Trong

đó, Max pooling va Average pooling được sử dung phô biến Hình 2-7 minh hoa cách

Max Pooling Layer hoạt động.

Fully Connected layer:

Dense Layer in Keras

Convolution Tt Pooling t& Flattening

L_—_ _——

Hình 2-8 Minh họa hoạt động ở Fully Connected Layer[47].

15

Trang 28

Lớp Fully connected được minh họa ở Hình 2-8 là lớp có chức năng kết nốitất cả các neural trong lớp hiện tại và lớp trước đó, nằm ở cuối mạng trong kiến trúc

CNN Fully connected layer sẽ nhận giá trị đầu vào ở lớp trước đó, chuyển ma trận

đặc trưng thành vector một chiều bằng cách làm phẳng (flattening) Đây là lớp chiếmtrọng số nhiều nhất trong mô hình mạng tích chập Đối với các bài toán phân loại, saukhi làm phẳng vector thường sử dụng thêm hàm Softmax hay Sigmoid đề thực hiện

phân loại dữ liệu.

2.5 Các phương pháp phân loại

2.5.1 k-Nearest-Neighbours

Hình 2-9 Minh họa phương pháp k-Nearest-Neighbours [6]

k — NN (được minh họa bởi Hình 2-9) là một thuật toán học có giám sát,

phương pháp phân loại không tham số được phát triển bởi Evelyn Fix và Joseph

Hodges vào năm 1951 và được mở rộng bởi Thomas Cover, k — NN là một trong

những thuật toán phân loại hình ảnh hay học máy đơn giản nhất cho đến hiện nay, nó

áp dụng cho cả hai bài toán phân loại và hồi quy

Đây là thuật toán thuộc loại lazy learning — nghĩa là mô hình không thực sự

học được bắt kì điều gì từ dữ liệu đưa vào mà tất cả kết quả trả về chỉ dựa trực tiếp

vào khoảng cách giữa các vector đặc trưng Cu thé, thuật toán k — NN phân loại cácđiểm dữ liệu chưa biết băng cách tìm lớp phô biến nhất trong số các ví dụ k gần nhất,

mỗi điểm dif liệu trong các ví dụ k gần nhất sẽ bỏ phiêu và danh mục (lớp) có nhiều

16

Trang 29

phiếu nhất sẽ được chọn [31] Do đó, việc lựa chọn tham số k ảnh hưởng rất nhiều

đến độ chính xác của mô hình đầu ra Ngoài ra, việc lựa chọn khoảng cách đóng vai

trò quan trọng, tùy theo loại dữ liệu mà ta chọn cách tính khoảng cách sau cho phù

e _N là kích thước của 2 vector x, y (số lượng thuộc tinh, số lượng đặc trưng)

e Vector x và y là 2 điểm dữ liệu

x = (xl, x2, x3, ,xN )

y =(yl, y2, y3, , yN ) Khoảng cach Minkowski:

Khoảng cách Minkowski là một trường hop tổng quát của khoảng cách Euclidean

Minkowski có công thức như sau :

Distance(x, y) =

Trong đó:

e _n: số phan tử của véc-to.

ep: là tham số

e xj: là phan tử thứ j của vector x

e_ y¡: là phan tử thứ j của véc-tơ y

Một số trường hợp:

17

Trang 30

p=1, số liệu của Minkowski trả về giá trị của độ đo Manhattan.

p=2 số liệu của Minkowski trả về giá trị của độ đo Euclidean

p = ©, số liệu của Minkowski trả về giá trị của độ đo Chebychev

2.5.2 Support vector machine (SVM)

Hyperplane

Support vector

Hinh 2-10 Minh hoa thuat toan SVM [9]

SVM [10] — Support vector machine (được minh họa bởi Hình 2-10) là mô

hình học có giám sat được phat triển tai Phòng thí nghiệm AT & T bởi VladimirVapnik cùng với các đồng nghiệp

SVM là một trong những phương pháp dự đoán mạnh mẽ nhất, thuật toán xây

dựng một hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc

vô hạn chiều sao cho các siêu phăng nằm ở cách xa các điểm dữ liệu của tất cả các

lớp càng tốt, các điểm dit liệu được tính toán khoảng cách với siêu phăng là các điểm

dé gây nhằm lẫn giữa các lớp gọi là “support vector”, khái niệm là margin là thuậtngữ chỉ khoảng cách gần nhất từ một điểm dữ liệu tới mặt phân cách giữa các lớp.Tóm lại, bài toán SVM là bài toán đi tìm một siêu phẳng tối ưu mà tại đó margin của

các lớp dữ liệu là lớn nhất và bằng nhau

Phương trình tổng quát của siêu phẳng cần tìm có dạng:

18

Trang 31

Logistic Regression (được minh họa bởi Hình 2-11) là thuật toán phân loại có

giám sát dùng dé dự đoán các giá trị đầu ra rời rac, đồng thời là một loại phân tíchthống kê với những nỗ lực dự đoán một giá tri đầu vào dựa vào những quan sat trước

đó, xem xét môi quan hệ giữa biên phụ thuộc và biên độc lập.

Nguyên lí hoạt động của hồi quy logistic là đưa đầu ra của mô hình hồi quytuyến tính đi qua một hàm kích hoạt có tên là Sigmoid dé tắt cả giá tri output của hàm

giả định trả về một giá tri xác suất nằm trong khoảng [0,1], sau đó có thể được ánh

xa từ 2 hoặc nhiều lớp rời rac Trong hồi quy logistic, việc lựa chọn ngưỡng rất quantrọng, tuy nhiên việc chọn ngưỡng lại phụ thuộc nhiều vào chính vấn đề phân loại.Ngược lại so với logistic regression, trong hồi quy tuyến tinh có dau ra là các giá trị

liên tục và bài toán chủ yêu giúp dự đoán các giá trị liên tục.

Hàm Sigmoid : Được minh họa ở Hình 2-12.

19

Trang 32

Hình 2-12 Minh họa Hàm Sigmoid [48].

Hàm Sigmoid được tính theo công thức:

e c— logarit tư nhiên.

2.6 Cac phương pháp biểu diễn đặc trưng

2.6.1 Đặc trưng ảnh

Đặc trưng ảnh là một phần thông tin của hình ảnh, có thể về một vùng nhấtđịnh của hình ảnh có tính chất nhất định hay không Ngoài ra, đặc trưng ảnh còn cóthé là một cấu trúc như: cạnh, điểm hoặc đối tượng được thể hiện trong ảnh Đặctrưng có thể phân loại thô thành 2 loại:

e_ Đặc trưng cấp thấp

e Dac trưng cap cao

20

Trang 33

Trong đó, đặc trưng cấp thấp có được nhờ vào quá trình trích xuất trực tiếp từ

ảnh gốc, đặc trưng cấp cao thì được trích xuất dựa vào các đặc trưng cấp thấp

2.6.2 Đặc trưng kết cấu HOG

1cell=5x5pixels 1block=ä3x3cells

y (a)input image (b)cell and gradient (c)block and normalization

Hinh 2-13 Minh hoa phuong phap rut trich dac trung Histogram of Orented

Gradient [44].

HOG[11] — Histogram of Orented Gradient (minh họa ở Hình 2-13) là phương

pháp rút trích đặc trưng lần đầu được giới thiệu bởi 2 tác gia Navneet Dalal va Bill

Triggs tại hội nghị CVPR năm 2005.

Về cơ ban, HOG là phương pháp chủ yếu dùng dé phát hiện đối tượng trong

thị giác máy tính, tập trung vào hình dạng và cau trúc của một đối tượng, nó chia hìnhảnh thành các vùng nhỏ hơn, tính toán độ dốc và hướng của từng vùng [12] Cụ thể,

HOG chia ảnh thành các vùng nhỏ hơn gọi là các “cells”, mỗi cells sẽ chứa histogram

1 chiều cục bộ về các hướng gradient hoặc hướng biên (edge direction) trên các điểmnam trong cells Cac cells năm cạnh nhau tao thành khối “block”, các khối blocks

chồng lên nhau làm tăng mối quan hệ giữa các điểm ảnh trong không gian, cáchistogram của khối được kết hợp với nhau và tạo thành vector đặc trưng Đề nâng cao

chất lượng đặc trưng thu thập, các histogram cục bộ có thể được chuẩn hóa về độ

tương phan bang cách tính một ngưỡng cường độ cho các khối và dùng giá trị đó

chuẩn hóa tat cả các cells trong khối Từ đó, vector đặc trưng có tính bat biến cao hơn

đôi với sự thay đôi vê điêu kiện ánh sáng.

21

Trang 34

2.6.3 Dac trưng LBP

Threshold ah Binary: 11101001

Booed BỊ,

Hinh 2-14 Minh hoa dac trang LBP [14]

LBP [13]- Local Binary Patterns (được minh họa bởi Hình 14 và Hình

2-15) còn gọi là mẫu nhị phân địa phương lấy thông tin ảnh từ việc đo độ tương phản

cục bộ xét trên từng pixel ảnh được Ojala giới thiệu lần đầu năm 1996 cho bài toán

nhận dạng khuôn mặt người.

a) Input image b) LBP image

Hinh 2-15 Minh hoa dac trang LBP [14]

Toán tir LBP ban dau sẽ gán nhãn các pixel của một hình anh bằng số thậpphân, được gọi là mẫu nhị phân cục bộ hoặc mã LBP, mã hóa cau trúc cục bộ xungquanh pixel Toán tử gán nhãn cho mọi pixel bằng cách tạo ngưỡng cho vùng lân cận3x3 của mỗi pixel (Hình 2-15) với giá trị pixel trung tâm và coi kết quả là một số nhịphân Mỗi pixel sẽ được so sánh với 8 điểm ảnh láng giềng của nó trong vùng lân cận

3x3 bằng cách trừ đi giá trị trung tâm Kết quả giá trị âm hoàn toàn được mã hóa

thành 0 và giá trị khác là 1 Bằng cách ghép tất cả các mã nhị phân theo chiều kim

22

Trang 35

đồng hồ theo thứ tự bắt đầu từ mã trên cùng bên trái và giá trị thập phân tương ứng

của nó được dùng dé ghi nhãn ta thu được số nhị phân Phương pháp này không làmgiảm phạm vi cũng như số lượng của giá trị

2.6.4 Đặc trưng học sâu

2.6.4.1 VGG16

VGGNet [15] (được minh họa bởi Hình 2-16) là một trong những mang học

sâu có sự cải tiến đáng ké về thời gian và độ chính xác so với ZFNet [16] và AlexNet

[17] Cụ thé, VGGNet dùng bộ lọc kích thước nhỏ 3x3 giúp giảm đáng ké tham số

mô hình Qua đó, các trọng số của mạng sẽ hội tụ nhanh hơn và mô hình cũng giảmđược khả năng bị overfitting VGGNet có nhiều biến thé khác nhau về số lớp được

gọi là những mạng thuộc họ VGG.

VGGI6 là mạng convolutional neutral network đề xuất bởi K Simonyan và

A Z1sserman tại đại học Oxford vào năm 2014 [29] VGG16 là mô hình nồi tiếng

trong ILSVRC-2014 Mô hình sau khi được huấn luyện bởi mạng VGG16 cho kết

qua có độ chính xác đến 92.7 % top-5 test trong bộ dit liệu ImageNet bao gồm 14

triệu hình ảnh thuộc 1000 lớp khác nhau.

Trang 36

giảm số lượng tham số cho mô hình và tính toán hiệu quả hơn, từ đó cải thiện kết quảđáng ké so với AlexNet Mạng VGG16 có kiến trúc bao gồm 13 lớp Conv và 3 lớp

FC VGG16 lần đầu đưa ra kiến trúc giống nhau lặp lại trong cấu trúc mạng được gọi

là “block”, kiến trúc block thay đổi thứ tự giữa lớp Conv và lớp Pooling khi sắp xếpnhiều lớp Conv và lớp Pooling thay vì em kẽ giữa Conv và Pooling Điều này giúpviệc rút trích đặc trưng cho kết quả tốt hơn

2.6.4.2 VGG19

VGGI9 (được minh họa bởi Hình 2-17) là một biến thé của mô hình VGG,

bao gồm 19 lớp (16 lớp chập, 3 lớp kết nối đầy đủ, 5 lớp MaxPool va 1 lớp SoftMax)

VGG19 có 2 lớp tích chập và 1 lớp MaxPool ở hai blocks đầu tiên như VGG16nhưng có sự thay đổi trong kiến trúc mạng ở blocks thứ 3, thứ 4 và thứ 5 Cụ thé, thay

vì có 3 lớp tích chập như VGG16 thì ở VGG19, tác giả thay thé thành 4 lớp tích chập

và sau đó là 1 lớp MaxPool, cuối cùng vẫn là một kết nói đầy đủ và 1 lớp SoftMax

Chính nhờ điểm cải thiện này, mạng VGG19 học được nhiều đặc trưng của ảnh hơn

20x20x258 1x1x1024 DPA 10x10x512 ne 1x1x64

Trang 37

2.6.4.3 ResNet50

weight layer

x

identity

Hình 2-18 Minh hoa kết nói tat của ResNet[51]

ResNet là mang học sâu giành vi trí thứ nhất trong cuộc thi ILS VRC2015 [30]

Dé cải thiện tình trạng độ chính xác bị bão hòa và suy giảm của việc thiết kế mạng

sâu hơn với nhiều lớp hơn của các mạng học sâu CNN trước đó Kaiming và những

nhà nghiên cứu của Microsoft giới thiệu kiến trúc mạng ResNet sử dụng các kết nốitat (skip connection) được minh họa ở Hình 2-18 ResNet cũng là một trong những

mạng đầu tiên sử dụng batch normalization và sử dụng skip connection minh họa ở

Hình 2-17 bỏ qua một vài lớp trung gian dé gradient không bị triệt tiêu và có thé lan

truyền được đến những lớp cuối cùng dé giải quyết van dé vanishing va exploding

gradient.

ResNet có kiến trúc bao gồm nhiều residual block (khối dư thừa) ở giữa cáclớp dé tạo thành các lối tắt giữa các lớp với ý tưởng đầu vào sẽ truyền qua một số lớpConv — Max Pooling — Conv thu được kết quả, kết qua này sẽ kết hợp với đầu vàotạo thành đầu ra cho khối residual block

ResNet50 (được minh họa bởi Hình 2-19) là một phiên bản của ResNet có kiếntrúc 50 lớp: từ 1 lớp tích chập, 1 lớp max pool, liền sau đó là 4 lớp tích chập nằmtrong các khối tích chập và khối xác định nối tiếp nhau một cách liên tục, cuối cùng

là 1 lớp AvgPool và | lớp Softmax.

25

Trang 38

a Architecture of ResNet50 model

Max pooling layer, Convolution layer

Fully connected layer

Hinh 2-19 Kién trtic mang ResNet50 [20]

Trang 39

Điểm chung của các mô hình họ MobileNet minh họa ở Bảng 2-1 là sử dụngmột cách tính tích chập mới có tên là Separale Convolution dé giảm kích thước môhình và giảm độ phức tạp tính toán, giúp mô hình có thê chạy trên thời gian thực.

Bảng 2-1 Kiến trúc MobileNet[49]

Năm 2017, Google công bố một phiên bản mới MobileNetV2 (được minh họabởi Hình 2-20) — mạng CNN sử dụng residual như ResNet cũng với ý tưởng các khốilayer trước đó được cộng vào các layer liền sau Giả sử đầu vào là y, sau khi qua xử

lí tích chập 2 chiều ta thu được F(y) thì cuối cùng đầu ra thu được là residual block

có giá trị y + F(y) Tuy nhiên, với mạng MobileNetV2 có một số khác biệt tạo nên

nhiều sự cải tiễn về độ chính xác và chi phí tính toán Cụ thẻ, thay vì giữ nguyên kết

27

Ngày đăng: 23/10/2024, 02:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN