Nghiên cứu tập trung vào việc tích hợp mô hình máy học để phát triển hệ thống truyvấn, tìm kiếm hình ảnh, áp dụng phương pháp so sánh về các đặc điểm tương đồngnhư màu sắc và cấu trúc đi
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA HE THONG THONG TIN
BUI QUOC HUY - 19521598
VÕ HOANG NHẬT - 19521960
HE THONG LƯU TRU VÀ PHAN TÍCH HÌNH ANH DỰA TREN
CAC MO HINH MAY HOC
IMAGE STORAGE AND PROCESSING SYSTEM POWERED
BY MACHINE LEARNING
KY SU HE THONG THONG TIN
GIANG VIEN HUONG DAN PGS TS NGUYEN ĐÌNH THUAN
TP HO CHÍ MINH, 2023
Trang 2THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
I - Chủ tịch.
An - Thư ký.
.ẻăä - Uỷ viên.
— - Uỷ viên.
Trang 3ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP HCM, ngay thang ndm
NHAN XÉT KHÓA LUẬN TOT NGHIỆP
(CUA CAN BỘ HUONG DAN)
Tên khóa luân:
HE THONG LƯU TRU VÀ PHAN TÍCH HÌNH ANH DỰA TREN CÁC MÔ
HÌNH MÁY HỌC
Nhóm SV thực hiện: Cán bô hướng dẫn:
Bùi Quốc Huy — 19521598
-PGS TS Nguyên Đình Thuân
Võ Hoang Nhật — 19521960
Đánh gia Khóa luân
1 Vê cuôn báo cáo:
Số bang số liệu "¬ Sốhnhvẽ —_
Một sô nhận xét về hình thức cuôn báo cáo:
3 Về chương trình ứng dung:
Trang 4Điểm từng sinh viên:
Bùi Quốc Huy: /10
Võ Hoang Nhat: 10
Người nhận xét (Ký tên và ghi rõ họ tên)
Trang 5ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP HCM, ngày Tháng năm
NHAN XÉT KHÓA LUẬN TOT NGHIỆP
(CUA CAN BỘ HUONG DAN)
Tên khóa luân:
HE THONG LƯU TRU VÀ PHAN TÍCH HÌNH ANH DỰA TREN CÁC MÔ
HÌNH MÁY HỌC
Nhóm SV thực hiện: Cán bô phản biện:
Bùi Quốc Huy — 19521598
Võ Hoang Nhật — 19521960
Đánh gia Khóa luận
1 Về cuôn báo cáo:
Số trang Số chương mm
Số bảng số liệu Sốhnhvẽ =
Một sô nhận xét về hình thức cuôn báo cáo:
Trang 6Điểm từng sinh viên:
Bùi Quốc Huy: /10
V6 Hoàng Nhật: 0
Người nhận xét (Ký tên và ghi rõ họ tên)
Trang 7LOI CAM ON
Lời đầu tiên, chúng em xin được cảm ơn trường Đại hoc Công nghệ Thông tin
-Đại học Quốc gia Thành phố Hồ Chí Minh đã tạo điều kiện tốt nhất để chúng em cóthể học tập và phát triển Trong quá trình học tập tại đây, chúng em đã gặp được rấtnhiều những thầy cô, những người bạn, và những con người tuyệt vời, song song đó
là những cơ hội quý giá dé phát triển bản thân trong sự nghiệp lẫn cuộc sống Dé hoànhoàn thành khóa luận này, chúng em xin được gửi lời cảm ơn đặc biệt đến những
người sau đây.
Chúng em xin trân trọng gửi lời cảm ơn tới thay PGS.TS Nguyễn Dinh Thuan,
thầy đã hết lòng giúp đỡ chúng em trong con đường nghiên cứu lẫn học tập Thầy
Thuân là một nguồn cảm hứng to lớn cho em có thê tự tin và vượt qua vô số thử tháchtrên con đường học tập và nghiên cứu trong suốt thời gian qua
Tiếp theo, chúng em muốn dành lời cảm ơn đến những thầy cô trong trường, đãdạy dỗ và truyền đạt những kinh nghiệm, kiến thức quý báu trong suốt những nămhọc Bên cạnh đó, chúng em muốn gửi lời cảm ơn các thầy cô trong khoa Hệ ThốngThông Tin đã tạo nhiều cơ hội dé chúng em có thé phát triển Chúng em cũng muốncảm ơn những anh chị và những người bạn đã luôn đồng hành cùng chúng em trongsuốt hành trình học đại học, đặc biệt là anh Nguyễn Minh Nhụt và các bạn ở nhóm
nghiên cứu FTISU.
Cuối cùng, chúng em muốn gửi lời cảm ơn đến bố mẹ, gia đình cùng những ngườithân của chúng em, những người đã luôn đồng hành, tin tưởng, ủng hộ, và quan tâm
giúp đỡ chúng em trong những lúc khó khăn nhất Không có mọi người, chúng em đã
không thé có được như ngày hôm nay
Nhóm sinh viên thực hiện
Trang 8MỤC LỤC
¡9v v04: 090079010577 |
Chương I._ MỞ ĐẦU -©-<+SE2EEEEEE122121121121171E 2112111 3
1.1 Đặt vấn đề cute 3y0 41.3 Đối tượng và phạm vi nghiên cứu -¿- + s+++£+£++2E++rx++rxerreerxerrseee 5Chuong2 | CAC CONG TRÌNH NGHIÊN CỨU LIEN QUAN - 6Chuong3 CO SỞ LÝ THUYẾTT 2-22 E£+EE£EEESEEEEEEEEEEEEEEEEkrrrerree 13
3.1 Giới thiệu về phân tích hình ảnh 2 2 ©+££+£+£+£+£E++£z+zrxezrxeeee 13
3.1.1 Định nghÌĨa 5 5c 195195111 1195 vn HT TH HT TH HT cư gà 13 3.1.2 Các phương pháp phân tÍch - + + ++++s£*xE#+sE+seeeeekrserserkerkrre 14
3.1.2.1 Phan tích hình ảnh định tính - ¿5 +<5++sc+x+ecsezrsesx 14
3.1.2.2 Phân tích hình ảnh định lượng - -+++=+++ec++exec+s 14
3.1.3 Tính chất của thị giác máy tính - + +¿++z++++xxe+zxe+rxeeee 153.2 Các kỹ thuật và lý thuyết -¿-©2¿©2+2EE2EEEE2E12212711211 211221 15
3.2.1.Mô hình Convolutional Neural Network (CNN)) -S- 16
3.2.2.Mô hình Graph Neural Network (GNN) Hee 18
3.2.3 Kiến trúc ResNet50 và U2Net -ccvvcctrtrtiirrrrrrrrirrrrrrrieg 19
3.2.4.Mô hình Approximate Nearest Neighbors (ANN) 21
3.2.5.Mô hình Natural Language Processing (NLP) -. c<<<<+2 23
3.2.6 Các phương pháp về đo khoảng các giữa hai vector - 25
3.2.6.1 Phuong pháp Euclidean Disfance scss<+<<++xsereeessss 26 3.2.6.2 Phương pháp Dot prodUCf 5 55255 * 5s *+s+e+eexeereereerrsss 263.2.7 Các thuật toán tìm kiếm xấp xỉ - ¿2 ++z++E+E++tEevrxezrxerreersee 27
Trang 93.2.7.1 Thuật toán Locality-Sensitive Hashing (LSH) - 27 3.2.7.2 Thuật toán K-Nearest Neighbors (KNN) - 28
3.2.7.3 Thuật toán Metric-tree << +22 3v ve see 28
3.2.8 Các thuật toán ân thông tin số trong hình ảnh -¿ + 29
3.2.8.1 Thuật toán Least Significant Bit (LSB) - c-cc-«2 29 3.2.8.2 Thuật toán JPEG steganography - ««+scsscstsetsrssererrre 29
3.2.8.3 Thuật toán JPEG compT€SSIOH - 5-5 55 se *+s+sxeerrerreerses 30
Chương4 GIẢI PHÁP DE XUẤT -222£©2£+EEE+EEtEEEtEEerrkerrerree 31
4.1 Bài toán tìm kiếm hình ảnh theo khuôn mặt bang CNN và GNN 31
4.2 Bài toán tìm kiếm hình anh tương đồng sử dung mô hình ANN 334.3 Bài toán tìm kiếm đối tượng trong anh bằng ResNet50 kết hợp U2Net 34
4.4 Bài toán tìm kiếm theo câu lệnh văn bản sử dụng Natural Language Processing
(NLP) đÊP, GÀ À M@ŒL À1, 36
4.5 Bài toán an thông tin số bằng thuật toán Least Significant Bit (LSB) 36
Chương 5 NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 38
5.1 Tập dữ liệu huấn luyện 2¿- 22 2+©+£2Ex++EEE+EEEtEEEt+Ekrzrkrerkrrrrkerrke 385.2 Bài toán nhận diện và tìm kiếm khuôn mặt bằng CNN kết hợp GNN 505.3 Bài toán tìm kiếm hình ảnh tương đồng sử dung mô hình ANN 515.4.Bài toán tìm kiếm đối tượng trong ảnh bang ResNet50 và U2Net 52
5.5 Bài toán tìm kiếm theo câu lệnh văn bản sử dụng Natural Language Processing
(NLP) ocessssesssseessssessssessssessseccsssessssssssecssusessuscsssecssucsssuessssessssecsssecssseesssesssseesssessssees 56
5.6 Bài toán an thông tin số bang thuật toán Least Significant Bit (LSB) 59Chuong 6 KẾT QUA DANH GIÁ 2£©222+2E£2EEC2EESEEztErkrrreerrree 61
6.1 Bộ dữ liệu đánh g 1á 5 s1 v93 9121 91911 ngàn ng 61
Trang 106.2.1 Độ Chính Xác (ACCUTACV): - - G3 HH nh ng nr 61 6.2.2 Độ Chính Xác Cao (Pr€CISIOI)): 5-5 25 533231112211 Server 61
6.3.2.Két qua bài toán tìm kiếm hình anh tương đồng sử dụng mô hình
Approximate Nearest Neighbor (ANN) HH HH he, 63
6.3.3 Kết quả bài toán tìm kiếm đối tượng trong ảnh bằng ResNet50 kết hợp
ON SAL La ke 64
6.4 Kết qua chạy thực tế trên ứng GUN eee cece esssessesseesseessesseesseessesseesseesseens 66
6.4.1 Kết qua tim kiếm hình ảnh theo khuôn mặt bang CNN va GNN 666.4.2 Kết qua đề xuất hình ảnh tương đồng sử dụng mô hình ANN 676.4.3 Kết qua tìm kiếm đối tượng trong anh bằng ResNet50 kết hợp U2Net 68
6.4.4.Kết quả tìm kiếm theo câu lệnh văn bản sử dụng Natural Language
Processing (NLP) 577 69
Chuong 7 XÂY DUNG HE THÔNG -2- 22 2++2c++2cxzvrxerrrxerree 70
7.1 Quy trình xây dựng hệ thống -2-© 2 2£ ©£+EE£2EE£EEEEEEEEEEEEEErrkrrrrrrke 70
7.2 Xây dựng giao diện trang We€b - cscck+ tt HH HT HH HH ng rệt 96
Chuong 8 | TONG KET VÀ HUONG PHÁT TRIÊỀN -2-¿-: 106
8.1 Kết quả đạt được ooeccecceecesseessesssessssssesssessecssecsusssecssessuessecssesseessecssessecssecseeeses 1068.2 Hạn ChẾ 22-22 ©+ESEEEEEEEEE1221127112711171127112111211.711 711211 Xe 1078.3 Hướng phát triỀn -.2- 2 ©2£©E2EE£SEEE£EEECEEECEEEEEE11711221271 E1 107
Trang 11DANH MỤC HÌNH
Hình 3.1 Kiến trúc của mô hình Convolutional Neural Network (CNN) 16
Hình 3.2 Quá trình xây dựng mô hình Graph Neural NefWOFĂ -.«<-«+ 18
Hình 3.3 Kiến tric ResNei5( cccccccccchrthhHHHHHHH ke 20
Hình 3.4 Quá trình xây dựng mô hình Approximate Nearest Neighbors 22 Hình 3.5 Hình anh phân tách từ của mô hình Natural Language Processing 24 Hình 4.1 Quá trình phân tích hai hình ảnh khuôn mặt sử dụng phương pháp
Euclidean DDiSÍQTIC€ «cu HH HH Hà HH 31
Hình 4.2 Quá trình tìm kiếm khuôn mặt bằng CNN và ŒNN -. -e¿ 32
Hình 4.3 Quá trình xây dung bài toán nhận diện đối tượng trong ảnh 35
Hình 5.1 Tập hình ảnh Face Detection ÏD@fS€F -.- 5 cS5 se s+sksereereeeesks 38 Hình 5.2 Tập dit liệu C@alteCh- Ï(T scS« 5£ S5 ESc St S*+eEkeEEEkstkeexerrersrsrxeerkrrke 39 Hình 5.3 Tập hình ảnh CÏÍVSC(ŒJQ€( 56-2 E91 tk kh HH ng gà, 45 Hình 5 Tap hình anh cua Diverse Driving Dataset for Heterogeneous Multitask
LØTHỦH HH gu họ 50
Hình 5 Xác định mảng đổi tuOng ccccccccsessscsseessesssesssessesssessssssesssesssessssssessseesesssessseess 53Hình 5 Tập log cho quá trình nhận diện đối tượng trong ảnh - 55Hình 5 Quá trình xây dựng bài toán tìm kiếm hình ảnh bằng văn bản người dùng
Hình 6.4 Kết quả hình ảnh được dé xuất bên dưới - 2-2: 5c ©5e+c+c+£srertercez 67
Hình 6.5 Nhập nhãn cân tìm kiếm veccseeccesscssscesssesseessessessesssesssessesssesssesssesseessessessseens 68Hình 6.6 Kết qua sau khi tìm kiếm bằng nhãn - 2 5e+e+£E+Ekzrerrerres 68
Hình 6.7 Quá trình nhập yêu câu cân tìm kiẾm +©-2-©5£+c++cce+cxezrxerrsrres 69Hình 6.8 Kết qua tìm kiếm theo câu lệnh văn bản ©-2- 55c ©c<+cce+cxccsscss 69
Trang 12Hình 7.1 Use Case hệ thong tìm hệ thống toi wu truy xuất đối tượng trong anh áp
dụng phương pháp đối chiếu tương dong bằng các mô hình máy học - 70
Hình 7.2 Sequence diagram quá trình tìm kiếm hình ảnh tương đông 71
Hình 7.3 Sequence diagram quá trình tim kiếm hình ảnh theo khuôn mặt 72
Hình 7.4 Sequence diagram quá trình tim kiếm hình ảnh theo nhãn 73
Hình 7.5 Sequence diagram quá trình xây dựng do thị liên kết khuôn mặt bằng GNN 74
Hình 7.6 Sequence diagram quá trình phân tích, xác định đối tượng bằng mô hình c23/12/00PẺ 75
Hình 7.7 Sequence diagram quá trình tìm kiếm hình ảnh bằng câu lệnh văn bản 71 Hình 7.8 Sequence diagram quá trình tải biểu đồ phân tích dữ liệu 78
Hình 7.9 Sequence diagram quá trình xóa hình anh, thu mục, dự án 79
Hình 7.10 Sequence diagram quá trình xóa hình ảnh, thư mục 80
Hình 7.11 Sequence diagram quá trình tạo thư mục, dự án -. -«- 81
Hình 7.12 Sequence diagram quá trình gắn sao yêu thích -z z-s=ss 82 Hình 7.13 Sequence diagram quá trình quản lý thùng rácC « -« s 83 Hình 7.14 Sequence diagram quá trình tải hình ảnh lên hệ thống, 84
Hình 7.15 Sequence diagram quá trình ẩn thông tin số trong ảnh - 85
Hình 7.16 Sequence diagram quá trình công khai hình ảnh - - <- 86 Hình 7.17 Sequence diagram quá trình quản lý trang cá nhân -. - 87
Hình 7.18 Sequence diagram quá trình đăng NNGp ccccccccccccccesescseeseeseesetsseesensees 88 Hình 7.19 Sequence diagram quá trình đăng Ky ccceccecccsccssceseeseessesseeseeseeeeseessenseess 89 Hình 7.20 Thành phan dữ liệu của hệ thong vesceescssscessesssesssessessseesessesssessesseesseesseess 90 Hình 7.21 Thiết lập hen giờ huấn luyện mô hìnhh -2- 2 s©cs+£xzcxeressrss 95 Hình 7.22 Giao diện trang CHU - sà Sc tk nh ri gi riệt 96 Hình 7.23 Giao điện trang chủ phân bên dhưới -2+©2e©£+c++££s+Etetrterrsrres 97 Hình 7.24 Giao diện trang khám phá tong qAH -5-©22-©525c©cs+£v2cteccscss 97 Hình 7.25 Giao diện trang chỉ tiết hình ảnÌh -©22-552©5e+SEe+£+e£EeEtesrterrsrres 98 Hình 7.26 Giao diện trang chọn khuôn mặt tim kiếm và bấm tìm kiếm 98
Trang 14DANH MỤC BANG
Bang 2.1 Tổng hợp các nghiên cứu liên quan về xử lý hình ảnh 10
Bảng 5.1 Bộ nhãn được sử dung trong tập dit liệu Caltech - -«<-<+ 40
Bang 5.2 Bộ nhãn được sử dụng trong tập dit liệu CỉfySCđD€S -. -<~<+ 45
Bảng 5.3 Bảng thuộc tính chuẩn bị cho huấn luyện nhận diện đối tượng trong anh
"— 52
Bảng 5.4 Bảng thuộc tính tệp CSV nhận diện đối tượng trong ảnh 53Bang 5.5 Bảng thuộc tính của đối tượng Ket QUA eeseecsesssessssssesssesssessesssesseesesssessseess 54Bảng 5.6 Thuộc tính mong muốn nhận được sau khi bóc tách văn bản 57
Bang 5.7 Bảng ý nghĩa các tham số trong xử lý ngôn ngữ tự nhiên - 57
Bảng 6.1 Kết quả bài toán tìm kiếm hình ảnh theo khuôn mặt bằng CNN và GNN62Bảng 6.2 Kết quả bài toán tim kiếm hình ảnh tương dong sử dụng mô hình ANN.63Bang 6.3 Kết quả bài toán nhận diện các đối tượng trong ảnh bằng ResNet50 kết
hợp UANGI /// 66c d Q - -ÂOQQ Ấ LH H H.H« HH sec 64
Bang 7.1 Use Case Tim kiếm hình ảnh tương đÔng, : -:©-sc5e©cs+©c+cse+ 71Bang 7.2 Use Case Tim kiếm hình ảnh theo khuôn mặt - 2-©5©5c©552 72Bang 7.3 Use Case Tìm kiếm hình ảnh theo nhấn 2:©5©55+©c5++c5+z©5s+2 73Bảng 7.4 Use Case Xây dựng đ thị liên kết khuôn mặt bằng GNN 73Bang 7.5 Use Case Phân tích, xác định đối tượng bằng mô hình Resnet50 75Bảng 7.6 Use Case Tìm kiếm hình ảnh bằng câu lệnh văn bản -.-. 76Bang 7.7 Use Case Xem biểu đô phân tích dữ liệu - - : -+75z©5se©cseccss 77
Bảng 7.8 Use Case Xóa hình ảnh, thư mục, dự đH -c<ccscesexeeeersee 78
Bang 7.9 Use Case Di chuyén Minh Anh, ther Mu ccccccccccccccccscscscccescseccssseecesseeeeeees 79
Bảng 7.10 Use Case Tạo thir muc, dy ỐPH S5 Ăn ri, 80
Bảng 7.11 Use Case gắn sao yêu NECN creccsecsseecssesssesssessssesssesssesssessssesssesssessssesseesses 81
Bảng 7.12 Use Case quản lý thing TỐC -.- 5c 33kg gi, 82
Bang 7.13 Use Case tải hình ảnh lên hệ thong -¿-©-c+©cce5cseecsescsce+ 84Bang 7.14 Use Case ẩn thông tin số trong ảnh ©-s©cc5csccxevcxccreerreersee 84
Bảng 7.15 Use Case công khai hình nh «<< éskssEEeEErskrserrrkrrke 85
Trang 15Bang 7.16 Use Case quản lý trang Cá HhÂNH S5 ESekSekssekserserresee 86 Bảng 7.17 Use Case đăng nhập - sàn HH HH rệt 87 Bang 7.18 Use Case Aang hy eccccccccscessesccsscsseeseeseecenseeseesecsecseesessesseseeseasesesseseeenneeas 88 Bang 7.19 Bảng TrlSf— ŒCCOHHHẨ 3x HH HH HH HH rry 90 Bảng 7.20 Bảng THLSf— H-SGT SG KH HH HH HH ng rh 91 Bang 7.21 Bảng THSf—DTO}CÍ << KH HH HH HH Hee 92
Bang 7.23 Bảng 1i$f—DÏOÍO c3 KH HH HH ng nry 93 Bang 7.24 Bảng THLSf— F€SHÍ[, << tk KH KH HH HH HH Hee 94
Trang 16DANH MỤC TU VIET TAT
STT Từ viết tắt Dịch sang tiếng Anh
1 CNN Convolutional Neural Network
2 ANN Approximate Nearest Neighbors
3 GNN Graph Neural Network
4 KNN K-Nearest Neighbors
5 ES Elastic Search
6 NLP Natural Language Processing
7 API Application Programming Interface
8 JSON JavaScript Object Notation
9 CSV Comma Separated Values
10 ANNOY Approximate Nearest Neighbors Oh Yeah
11 LSH Locality-Sensitive Hashing
12 JPEG Joint Photographic Experts Group
13 LSB Least Significant Bit
Trang 17DANH MỤC ĐỊNH NGHĨA
STT Cum tir Dinh nghia
` Tương đồng về mảng màu, các điểm ảnh, cấu trúc thành
1 Hình ảnh tương đông Í
phân trong hình ảnh
Tên các đối tượng được xác định nhưng chỉ thuộc các
2 Nhãn đối tượng chủ đề về phong cảnh, trang phục và bộ phân trên cơ thê
người
Trang 18TOM TAT KHÓA LUẬN
Trong bối cảnh nhu cầu sử dụng hình ảnh ngày càng cao, những khó khăn về vấn đềtruy vấn, phân loại hình ảnh trong lĩnh vực nhiếp ảnh và sáng tạo nội dung đang đượcquan tâm đến Do đó ý tưởng xây dựng đề tài này ra đời để cung cấp các tính nănggiải quyết nhu cầu tìm kiếm một cách thuận tiện cho người dùng, đặc biệt là chongành nghề nghiếp ảnh
Nghiên cứu tập trung vào việc tích hợp mô hình máy học để phát triển hệ thống truyvấn, tìm kiếm hình ảnh, áp dụng phương pháp so sánh về các đặc điểm tương đồngnhư màu sắc và cấu trúc điểm ảnh Đáp ứng các nhu cầu thiết yếu của người dùngnhư: tìm kiếm theo khuôn mặt, đề xuất hình ảnh tương đồng về màu sắc, cấu trúcđiểm ảnh và gán nhãn đối tượng trong ảnh
Ngoài cung cấp các phương thức truy vấn bằng hình ảnh, hệ thống còn tích hợp mô
hình xử lý ngôn ngữ tự nhiên (NLP) dé xử lý câu lệnh văn bản của người dùng
Phương pháp này hỗ trợ thực hiện nhiều yêu cầu tìm kiếm khác nhau chỉ trong một
lân truy vân.
Bên cạnh đó dé đảm bảo cho việc xác minh nguồn gốc hình ảnh, nghiên cứu còn pháttriển tính năng định danh chủ sở hữu của hình ảnh khi áp dụng phương pháp ân thôngtin số trong ảnh Phương pháp ân thông tin định danh chủ sở hữu bên trong hình ảnh
cho phép lưu trữ các thông tin quan trọng bên trong nhưng vẫn đảm bảo được hình
ảnh không bị làm biến đôi về hình dạng, kích thước và mau sắc
Các nội dung sẽ được trình bày thông qua các chương bên dưới:
- _ Chương 1: Trình bày rõ vấn đề, mục tiêu và các đối tượng nghiên cứu hướng
đến
- - Chương 2: Trình bày các công trình nghiên cứu từ những bài báo khoa học
được tham khảo dé phát triển nên ý tưởng thực hiện đề tài
- _ Chương 3: Trình bày lý thuyết các mô hình và thuật toán
- _ Chương 4: Trình bày các giải pháp đề xuất
- _ Chương 5: Trình bày nội dung và phương pháp được phát triển trong đề tài
Trang 19- _ Chương 6: Trình bày các kết quả sau khi thực hiện huấn luyện và đánh giá.
- _ Chương 7: Trình quy trình xây dựng hệ thống và giao diện ứng dụng
- _ Chương 8: Tổng kết dé tài và nêu ra hướng phát triển tương lai
Trang 20Chương 1 MỞ ĐẦU
1.1 Đặt vấn đề
Trong thời đại số hóa hiện nay, hình ảnh không chỉ là một phương tiện ghi chép màcòn trở thành một phần tất yếu của cuộc sống, giúp chúng ta ghi lại những khoảnhkhắc đáng nhớ, chia sẻ cảm xúc và giao tiếp trải nghiệm tuyệt vời Tuy nhiên, với số
lượng hình ảnh mỗi ngày, việc quản lý và tương tác với chúng trở thành một thách
thức không nhỏ nhất là đối với nhiếp ảnh gia hoặc người dùng có nhu cầu quản lýhình anh với số lượng lớn Nắm bắt được van dé mà các nghiếp anh gia gặp phải và
tự đặt những câu hỏi:
e Làm sao tim khuôn mặt khách hàng trong kho dữ liệu của chính mình?
e Làm sao dé phân loại các hình anh theo đối tượng có bên trong hình anh?
e Làm sao dé tìm hình ảnh tương đồng với hình vừa tải về ở một nơi khác?
e Làm sao đề hình ảnh được định danh mà không bị phát hiện bang mắt thường?
Sự kết hợp của mô hình máy học và trí tuệ nhân tạo đã mở ra một hướng giải quyếtcho van dé này Các đối tượng co bản như trang phục, phong cảnh trong bức ảnh đều
có thê được nhận diện, phân loại và gán nhãn một cách tự động Cung cấp các phương
tiện tìm kiêm như:
e - Nhận diện và tìm kiếm theo khuôn mặt
e Tìm kiếm các mối liên hệ với khuôn mặt
e Đề xuất các hình ảnh đặc điểm tương đồng về cấu trúc, màu sắc, điểm anh
e Tìm kiếm theo nhãn chỉ tiết từng đối tuongj có trong hình anh và thậm chí là
tìm kiếm dựa trên việc phân tích, bóc tách văn bản từ người đùng
Ngoài vấn đề giải quyết các bài toán tìm kiếm, bài toán định danh hình ảnh cũng đangđược quan tâm với những ngành nghề mang tính sáng tạo cao Các công cụ ân thông
tin hiện hành như watermark đang được áp dụng.
Nhưng đối với hình ảnh sử dụng watermark là một phương án khá tệ vì hình ảnhkhông còn giữ được chat lượng ban dau Do đó giải pháp ấn thông tin số được triển
Trang 21khai để giải quyết bài toán định danh hình ảnh nhưng không làm thay đổi các yếu tố
về màu sắc, kích cỡ, chất lượng hình ảnh
Với đầu vào là nguồn dữ liệu hình ảnh từ người dùng cung cấp, hình ảnh sẽ đượcnghiên cứu và khai thác dé phát triển một ứng dụng có khả năng tạo ra những đầu rađáp ứng những nhu cầu tìm kiếm khác nhau Những kết quả nay được trình bày mộtcách trực quan thông qua nên tang website thân thiện với người dùng
1.2 Mục tiêu đề tài
Trước hết, mục tiêu phát triển một mô hình nhận diện khuôn mặt dé nhận diện hìnhảnh cá nhân Bên cạnh đó xây dựng hệ thống tìm kiếm dựa trên mạng đồ thị liên kếtcác khuôn mặt, tạo nên tảng cho việc hiệu rõ các môi quan hệ giữa các đôi tượng.
Mục tiêu tiép theo là xây dựng hệ thông đê xuât hình ảnh có đặc điêm tương đông về
câu trúc điềm ảnh và mau sắc Dé xuât các ý tưởng phù hợp với nhu câu ma ngườidùng đang quan tâm đến
Đồng thời hướng đến việc nhận diện sự vật và đôi tượng trong ảnh, gan nhãn và lưutrữ vào kho đữ liệu Elastic Search Mục tiêu là tối ưu hóa tốc độ truy vấn và cung cấp
cơ sở dữ liệu có câu trúc đê thuận tiện cho việc tim kiêm thông tin.
Thêm vào đó, tích hợp xử lý ngôn ngữ tự nhiên (NLP) dé hiểu và xử lý văn bản người
dùng Mục tiêu này giúp hệ thống nắm bắt ý định của người dùng và thực hiện phương
Trang 221.3 - Đối tượng và phạm vi nghiên cứu
Nhằm phục vụ các nhu cầu quản lý, truy vấn hình ảnh cho ngành nghề nhiếp ảnh.Bên cạnh đó phục vụ thêm về nhu cầu thiết kế và cung cấp ý tưởng sáng tạo nội dung
Trong đề tài này, phạm vi nghiên cứu hướng đến:
Bài toán nhận diện khuôn mặt: Face Recognition (Convolutional Neural
Network) , kiến trúc ResNet
Bài toán so sánh độ tương đồng khuôn mặt: Convolutional Neural Network
(CNN).
Bài toán xây dựng mang đồ thị liên kết mối quan hệ giữa các khuôn mặt: Graph
Neural Network (GNN).
Bài toán truy van các hình ảnh tương đồng: Approximate Nearest Neighbors
(ANN), K-Nearest Neighbors (KNN).
Bài toán nhận diện sự vật đối tượng trong ảnh: Res2Ne, U2Net, Elastic Search
Bài toán xử lý ngôn ngữ tự nhiên: Natural Language Processing (NLP).
Sử dụng độ đo dé đánh giá các mô hình: Độ chính xác (Accuracy), độ chính
xác cao (Precision), độ nhớ (Recall), Điểm F1 (F1-Score)
Sử dụng các kiến thức xây dựng website: Spring Boot, ReactJS, Python, các
frameworks và thư viện liên quan.
Trang 23Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Dựa vào các đặc diém, từ khóa liên quan về các thử nghiệm liên quan đên dự đoán,
học máy, học sâu, v.v Dựa trên bài báo liên quan trong những năm gân đây làm tiên
dé dé thực hiện nghiên cứu này và thể hiện chi tiết qua Bang 2.1 dưới đây
Vào năm 2004, bài báo An Investigation of Practical Approximate Nearest Neighbor
Algorithms [21] đã đề cập phương pháp Locality Sensitive Hashing (LSH) như mộtphương pháp thành công của việc tìm kiếm gần nhất xấp xỉ và đặt câu hỏi liệu các
phương pháp truyền thống có còn đánh bại được phương pháp mới này hay không
Tác giả giới thiệu một phương pháp đo lường sự chồng chéo giữa các điểm dữ liệu
và các thuật toán tìm kiếm xấp xi KNN cho thấy tăng tốc lên đến 31 lần so với LSH
Các thuật toán khác nhau được lần lượt đánh giá bao gom ca LSH, Metric-tree,
SR-tree được chạy và so sánh với KNN dé đánh giá hiệu suất và độ chính xác của mỗiphương pháp Kết quả và tốc độ khi áp dụng phương pháp KNN từ đó lựa chọn ANNlàm hệ thống đề xuất tương đồng cho nghiên cứu này Kết hợp với cau trúc liên GNN
dé tạo nên các nút và mỗi nút sẽ gắn theo các hình ảnh tương đồng của chính nó Từ
đó có thê mở rộng xa hơn nữa bài toán đề xuất, bên cạnh đó kết hợp với bài toán truyxuất đối tượng trong ảnh sẽ đảm bảo dữ liệu luôn ở trạng thái sẵn sàng khi người
dùng có yêu câu truy xuât.
Vào năm 2005, ý tưởng và thực tiễn che giấu thông tin đã có lịch sử lâu đời Trongcuốn Lịch sử, sử gia Hy Lạp Herodotus viết của một nhà quý tộc, Histaeus, người cầnliên lạc với con rễ của mình ở Hy Lạp Anh ta cạo đầu một người của những nô lệđáng tin cậy nhất của mình và xăm thông điệp đó lên da đầu của nô lệ Khi tóc của
nô lệ mọc lại nô lệ đã được gửi đi với thông điệp ân [23] Ngày nay steganographychủ yếu được sử dụng trên máy tính với dữ liệu số là kênh phân phối tốc độ cao
Steganography khác với mật mã ở chỗ mật mã tập trung vào việc lưu giữ nội dung
của một thông điệp bí mật, steganography tập trung vào việc giữ bí mật sự tồn tại củamột thông điệp [25] Steganography và mật mã đều là cách dé bảo vệ thông tin khỏi
các bên không mong muốn nhưng không phải công nghệ nào cũng hoàn hảo và có
Trang 24thé bị xâm phạm Một khi sự hiện diện của thông tin ẩn được tiết lộ hoặc thậm chí bịnghi ngờ, mục đích của steganography bị đánh bại một phan [25] Do đó, sức mạnh
của kỹ thuật giấu tin có thé được khuếch đại bằng cách kết hợp với thuật toán mã hóaphức tạp khác Trong bài báo này tác giả đề cập tới các thuật toán Least Significant
Bit (LSB), JPEG steganography, JPEG compression Tác giả đề cập với các phươngpháp che dấu thông tin bằng sử dụng các bit dư không sử dụng tới dé thay đôi hoặcchèn các nội dung dưới dạng bit [20] Đối với phương pháp LSB cho thấy hiệu quả
của vượt trội về mức độ tàng hình và sức chứa tốt hơn đáng kể so với hai phương
pháp JPEG steganography, JPEG compression.
Vào năm 2007, tác gia Thanos Athanasiadis và các cộng sự cũng đóng góp công trìnhnghiên cứu dé tài nhận diện đối tượng trong ảnh [3] Họ sử dụng các thuật toánWatershed và Recursive Shortest Spanning Tree đề tập trung vào phân tích ngữ nghĩacủa ảnh, nghiên cứu này đóng góp vào phân tích đa phương tiện được hỗ trợ bởi kiếnthức và kết nối khoảng cách giữa ngữ nghĩa và đặc trưng hình ảnh cấp thấp Trongquá trình này, việc sử dụng kiến thức ngữ cảnh điều chỉnh lại kết quả gán nhãn củaquá trình phát trién vùng ngữ nghĩa Điều này thực hiện bằng cách thay đôi mức độliên quan của các đôi tượng được nhận diện.
Vào năm 2015, Những thành tựu về trí tuệ nhân tạo đã làm cho các nghiên cứu về xử
lý ảnh được cải thiện về độ chính xác và hiệu suất Có rất nhiều các nghiên cứu đãđược thực hiện với việc áp dụng nhiều mô hình dự báo khác nhau Trong đó, nghiêncứu cua các tác gia Haoxiang Li và Zhe Lin đã thực hiện dựa trên mô hình
Convolutional Neural Networks (CNNs) [2] Mục tiêu của nghiên cứu là xử lý cácthách thức lớn trong việc phát hiện khuôn mặt, như độ biến đổi lớn về góc độ, biéucảm và ánh sáng, đồng thời giữ cho mô hình có hiệu suất tính toán cao Kết quả thực
nghiệm cho thấy rằng phương pháp đề xuất chạy ở 14 FPS trên một lõi CPU đối vớihình ảnh độ phân giải VGA và 100 FPS khi sử dụng GPU, đồng thời đạt được hiệusuất phát hiện hàng đầu trên hai bộ dữ liệu thử nghiệm phô biến về phát hiện khuôn
mặt.
Trang 25Vào năm 2019, Nghiên cứu trong bài báo A Comprehensive Survey on Graph Neural
Networks cung cấp một cái nhìn tổng quan toàn diện về mạng lưới thần kinh đồ thị
(GNN) trong lĩnh vực khai thác dữ liệu và học máy [9] Đề xuất một nguyên tắc phânloại mới để phân chia nơron đồ thị tiên tiến nhất mạng thành bốn loại, cụ thé là đồ thi
thần kinh hồi quy mạng, mạng thần kinh đồ thị tích chập, bộ mã hóa đồ thị tự động
và mạng thần kinh đồ thị không gian-thời gian Thảo luận về các ứng dụng của mạnglưới thần kinh đồ thị trên nhiều lĩnh vực khác nhau tên miền và tóm tắt mã nguồn mở,
dữ liệu điểm chuẩn tập hợp và đánh giá mô hình của mạng lưới thần kinh đồ thị Đề
xuất các hướng nghiên cứu tiềm năng trong lĩnh vực dang phát trién nhanh chóng nay
cánh đồng So sánh các đồ thị mạng lưới thần kinh với bốn loại: mạng lưới thần kinh,
mạng lưới thần kinh đồ thị tích chập, đồ thị bộ mã hóa tự động và mạng lưới thầnkinh đồ thị không gian-thời gian và cung cấp một đánh giá kỹ lưỡng và tóm tắt củacác phương pháp trong hoặc giữa các loại,.
Vào năm 2020, bài báo Graph Neural Networks: A review of methods and
applications thiết kế quy trình chung cho các mô hình GNN và thảo luận về các biếnthê của từng thành phần, phân loại các ứng dụng một cách có hệ thống và đề xuất bốnvấn đề mở cho nghiên cứu trong tương lai [19] GRN đã chứng minh được hiệu suấtđột phá trong nhiều nhiệm vụ học sâu so với mạng chú ý đồ thị (GAT) và mạng tíchchập đồ thị (GCN) Đề xuất bốn van đề mở chỉ ra những thách thức chính và hướngnghiên cứu trong tương lai của đồ thị thần kinh mạng, bao gồm tính mạnh mẽ, khảnăng diễn giải, tiên huân luyện và mô hình câu trúc phức tạp.
Một ứng dụng khác cũng được công bồ vào năm 2020, Dot Product có ứng dụng rộng
rãi trong máy tính thị giác và xử lý ngôn ngữ tự nhiên [27] Tuy nhiên, bộ nhớ và chi
phí tính toán của nó tăng theo hàm bậc hai với kích thước đầu vào Bài báo này đề
xuất một cơ chế chú ý hiệu quả tương đương Dot Product với chi phí tính toán và bộnhớ ít hơn đáng kê Hiệu quả tài nguyên của nó cho phép tích hợp rộng rãi và linh
hoạt hơn các mô-đun chú ý vào mạng, dẫn đến độ chính xác tốt hơn
Trang 26Hay nghiên cứu mới đây được công bố vào năm 2023, bài báo A Survey of Graph
Neural Networks for Recommender Systems: Challenges, Methods, and Directions
các tác giả đề cập tới hệ thống gợi ý về sản phẩm thương mại điện tử, POI, tin tức,phim, video, âm nhac [12] Tác giả thu thập dữ liệu từ internet về các dữ liệu khảo
sát và đánh giá, xây dựng hệ thống Graph Construction dé tạo ra các nút (nodes) vàcạnh (edges) tương ứng Dé liên kết có hướng tác giả kết hợp và phát triển thành môhình GNN dé xác định hướng giữa các vector
Tác giả tập trung vào xử lý dữ liệu có sẵn và phân chia thé loại Mỗi mạng GNN sẽ
là dành cho các một đối tượng đặc thù như mạng nơ-ron đồ thị (GNN) trong đề xuấtứng dụng, GNN trong khả năng giải thích, GNN trong dé xuất chéo miễn,
Tổng hợp, phân tích ưu và nhược điểm của các bài báo trong việc xây mạng đồ thị vàcác phương pháp truy van dữ liệu từ đó triển khai vào ứng dụng của dé tài khóa luậntốt nghiệp này
Trang 27Bảng 2.1 Tổng hợp các nghiên cứu liên quan về xử lý hình ảnh
Mô hình sử Nội dung Năm Tác giả Tên bài báo
dụng chính
An Investigation of ; So sánh cách
Ting Liu, / Approximate
Practical thuat toan
Andrew Moore, Nearest
2004 Approximate ; LSH,
Metric-Ke Yang, Neighbor
Nearest Neighbor tree, SR-tree,
Alexander Gray ; (ANN)
Algorithms k-NN
So sánh các thuật toán
Semantic Image ; hinh nhan
Mylonas, Recursive ;
2007 Segmentation and được gan với
Yannis ; ; Shortest
Object Labeling các đôi tượng
Avrithis, Spanning Tree
-nhận diện Stefanos
Kollias
10
Trang 28Haoxiang L1,
Zhe Lin, A convolutional Convolutional ;
Hinh anh voi
Xiaohui Shen, neural network Neural '
2015 nhiêu độ phân
Jonathan cascade for face Networks ¬
giải khác nhau Brandt, Gang detection (CNNs)
Zhang Efficient Attention: co ché hiéu
Mingyuan Attention with 3 về so sánh
2020 ; Dot Product | 4" Y° 36348
, Zhao Haiyu, Linear tuong duong
Yi Shuai Complexities với chi phi
tính toán và bộ
11
Trang 29Li Hongsheng, nho cai thién Shen Zhuoran đáng kê.
Chen gao, Yu
zheng, Nian li,
; ; A Survey of Graph Yinfeng li,
Neural Networks Yingrong qin, Graph Neural
Detection Using a động trên
2023 | Woungang, Issa Networks
{ Graph Neural mang: DDoS, Traore, Glaucio (GNN)
Network TOR-nonTOR
H S Carvalho
12
Trang 30Chương 3 CƠ SỞ LÝ THUYET
Tập trung vào việc xây dựng cơ sở lý thuyêt cho nghiên cứu, bao gôm giới thiệu vê phân tích hình ảnh và các bài toán tìm kiêm hình ảnh Mục này sẽ cung câp cơ sở
kiên thức cho việc hiêu rõ vê ngữ cảnh lý thuyêt của nghiên cứu và làm nên tảng cho
việc triển khai các phương pháp nghiên cứu được đề xuất
3.1 _ Giới thiệu về phân tích hình ảnh
Phân tích hình ảnh là một lĩnh vực nghiên cứu và ứng dụng sử dụng các phương pháp,
kỹ thuật khoa học dé tìm hiểu và trích xuat thông tin từ đữ liệu hình ảnh bao gồm áp
dụng các nguyên lý toán học, thống kê và công nghệ thông tin để hiểu rõ cấu trúc,
tính chất và ý nghĩa của hình ảnh
3.1.1 Định nghĩa
Phân tích hình ảnh dựa trên việc chuyên đồi dữ liệu hình ảnh thành dit liệu số và sau
đó áp dụng các phương pháp xử lý số liệu và thuật toán đề trích xuất thông cần thiết.Điều này bao gồm việc nhận điện đối tượng, đo lường các thuộc tính như kích thước
và hình dạng, hay thậm chí dự báo các biến đồi trong hình ảnh theo thời gian [34]
Các phương pháp khoa học được áp dụng trong phân tích hình ảnh thường bao gồm
xử lý tín hiệu, thuật toán máy học, và các mô hình toán học dé mô tả mối quan hệgiữa các yếu tố trong hình anh Sự tiến bộ trong lĩnh vực này ngày càng phụ thuộcvào khả năng tích hợp trí tuệ nhân tạo dé tăng cường khả năng hiểu biết và đưa ra dự
đoán chính xác từ dữ liệu hình ảnh phức tạp.
Phân tích hình ảnh không chỉ là một công cụ quan trọng trong nghiên cứu khoa học,
mà còn có ứng dụng rộng rãi trong nhiều lĩnh vực như y học, công nghiệp, và công
nghệ thông tin.
13
Trang 31kỹ thuật phổ biến:
e Phân loại màu sắc: Sử dụng biểu dé histogram dé phân tích phân phối màu
sắc trong hình ảnh và biéu diễn mối quan hệ giữa các kênh mau
e Cấu trúc và hình dạng: Đặc điểm hình học như kích thước, hình dạng, tỉ lệ,
và mỗi quan hệ giữa các yếu tố hình học
e_ Phân tích cấu trúc độ phân giải: Phân tích cấu trúc độ phân giải bang cách
Phương pháp này giúp đưa ra đánh giá về cau trúc cơ bản và tính chat của dữ liệu
hình ảnh, tăng cường khả năng nhận biết về nội dung của hình ảnh
3.1.2.2 Phân tích hình ảnh định lượng
Phân tích hình ảnh định lượng là quá trình sử dụng các phương pháp số học và thống
kê dé đo lường và mô tả các thuộc tính trong đữ liệu hình ảnh [35] Dưới đây là một
số kỹ thuật phô biến :
e_ Xử lý ảnh số: Sử dụng các phương pháp số đề xử lý hình ảnh, bao gồm ca
việc áp dụng bộ lọc và biến đổi hình học
e Phan tích thống kê: Sử dụng histogram dé mô ta phân phối của mức độ
sáng và màu săc trong hình ảnh.
14
Trang 32e Nhận diện và đo lường: Sử dụng các thuật toán dé nhận diện và đo lường
các đặc trưng cụ thé trong hình anh
e Xử lý hình ảnh nâng cao: Sử dụng các phương pháp tiên tiến như mạng
nơ-ron sâu đê học và hiêu câu trúc phức tạp trong dữ liệu hình ảnh.
Phân tích hình ảnh định lượng cung cấp khả năng đo lường chính xác và đối chiếu số
liệu, giúp hiểu rõ hơn về các thuộc tính và đặc điểm có sẵn trong hình ảnh.
3.1.3 Tính chất của thị giác máy tính
Thị giác máy tính là một công nghệ mà máy sử dụng dé tự động nhận biết và mô tả
hình ảnh một cách hiệu quả [35] Ứng dụng thị giác máy tính sử dụng trí tuệ nhân tạo
và máy học dé xử lý những dữ liệu hình ảnh, video nhằm xác định đối tượng và nhậndiện khuôn mặt, cũng như phân loại, đề xuắt, giám sát và phát hiện Dưới đây là một
số tính chất quan trọng của thị giác máy tính:
Phân loại: Tính năng này cho phép hệ thống phân loại các hình ảnh vào các
danh mục hoặc nhóm khác nhau dựa trên nội dung của chúng.
Nhận diện đối tượng: Các thuật toán thị giác máy tính có khả năng nhận diện
và phân loại các đối tượng trong hình ảnh, như người, xe, động vật, vật thể,
Dinh vi đối tượng: Có khả năng xác định vị trí cụ thé của các đối tượng tronghình ảnh, thường là băng cách vẽ ra các hộp giới han (bounding boxes)
Nhận dạng khuôn mặt: Có khả năng xác định và nhận diện khuôn mặt tronghình ảnh, thường được sử dụng trong các hệ thong an ninh hoặc nhận diện
người dùng.
Phân đoạn hình ảnh: Tính chất này chia hình ảnh thành các vùng nhỏ hơn đểphân biệt giữa các lớp đối tượng khác nhau trong hình
3.2 Các kỹ thuật va lý thuyết
Trong phần này, đề tài trình bày một số kỹ thuật và lý thuyết quan trọng được áp dụng
đê nâng cao hiệu suât của hệ thông.
15
Trang 333.2.1 Mô hình Convolutional Neural Network (CNN)
Convolutional Neural Network [2] là một loại mạng nơ-ron sâu được sử dụng rộngrãi trong lĩnh vực thị giác máy tính và xử lý ảnh Nó được thiết kế để nhận diện vàhiểu các đặc trưng trong dữ liệu hình ảnh thông qua quá trình tích chập
΄ 2d convolutional layer with Relu activation and 3x3 kernel
i 2d max pooling layer with 2x2 pool size
Feature Extraction Classifcation
Hình 3.1 Kiến trúc của mô hình Convolutional Neural Network (CNN)
Lớp Convolutional (Convolutional Layer): Là lớp chính của CNN, thực hiện việc
áp dụng các bộ lọc (kernels) trên hình ảnh dé tạo ra các ban đồ chứa thông tin về các
đặc trưng của hình anh được gọi là feature maps Các feature maps này biểu diễn các
đặc trưng cấp thấp đến cấp cao của hình ảnh
- Pau vào: / là ma trận đầu vào (hình ảnh), K là ma trận bộ lọc (kernel)
- Đầura: S(,j) = (I* K)(,j) = Mạ Y„1Œm,n) * K(— m,j —n) là
giá trị tại vi tri (i,j) của feature map S là feature map i,j là tọa độ trên feature map (1)
e Lép Pooling (Pooling Layer): Lam giảm kích thước cua feature maps, giữ lai
thông tin quan trọng và giảm lượng tinh toán cần thiết Max pooling va averagepooling là hai phương pháp thông dụng.
16
Trang 34- Max Pooling: R(i,j) = mmaxm„S( * s +m,j * s +n), trong đó s là
kích thước của cửa số pooling @)
- Average Pooling: R(i,j) = ¬ 3mm SŒ*S +Tn,j *s + n), với
m Xn là kích thước cửa số pooling (3)
e Lớp Flatten (Flatten Layer): Chuyên đồi feature maps thành vector 1 chiều,
chuẩn bị cho lớp fully connected Chuyển đổi feature map thành vector 1
chiêu:
V = Flatten(S) (4)
e Lớp Fully Connected (Fully Connected Layer): La lớp nơ-ron truyền thống,
kết nỗi mỗi nơ-ron với tat cả các nơ-ron trong lớp trước đó Thường xuất hiện
ở cuối mô hình đề thực hiện các tác vụ như phân loại
- Pau vào: X là vector đầu ra từ Flatten Layer, W là ma trận trọng số, b
là vector điều chỉnh (bias)
- Đầu ra: Y = ø(WX + b) là hàm kích hoạt (thường là ReLU cho các
lớp ấn và Softmax cho lớp đầu ra) (5)
Trong các công thức trên:
- I,K,S,R,V,X,W,b là các ma trận hoặc vector.
- i,j,m,n là chỉ số của các phan tử trong ma trận
- s là bước trượt (stride) của cửa số pooling
- o là hàm kích hoạt.
Mặc dù CNN mang lại nhiều ưu điểm như tính cơ động, khả năng học đặc trưng tích
tụ và giảm số lượng tham SỐ, nhưng cũng đối mặt với nhược điểm như yêu cầu dữ
liệu lớn và tài nguyên tính toán [2] Để cải thiện hiệu suất, việc sử dụng transfer
learning, tối ưu hóa tham số, áp dung regularization và dropout là những cải tiền quantrọng CNN không chỉ là công cụ quan trọng trong xử lý ảnh mà còn là nền tảng chonhiều ứng dụng trong lĩnh vực trí tuệ nhân tạo
17
Trang 353.2.2 Mô hình Graph Neural Network (GNN)
Graph Neural Network (GNN) [9] là một loại mô hình máy học được thiết kế để xử
lý và phân tích dữ liệu đồ thị Mục tiêu chính của GNN là học được biểu diễn đặctrưng của đồ thị thông qua việc truyền thông tin qua các đỉnh và cạnh Điều này giúpGNN hiệu quả trong việc phân loại đối tượng trong đồ thị, dự đoán liên kết giữa cácthực thể, và thậm chí là trong việc phân tích cấu trúc mạng xã hội
Trong GNN, mỗi đối tượng trong đồ thị (như đỉnh hoặc cạnh) được đại diện bằngmột nút (node) và các mối quan hệ giữa chúng được biéu diễn bằng các cạnh (edges)
Ý tưởng cơ bản của GNN là cập nhật thông tin của mỗi nút dựa trên thông tin của cácnút lân cận Quá trình này được lặp lại qua nhiều lớp (layer) dé cập nhật thông tin và
tính toán đặc trưng của đồ thị GNN có khả năng học cả thông tin cấp thấp và cấp cao
từ cấu trúc đô thị, giúp nó thích ứng tốt với các tác vụ như phân loại đỉnh, dự đoáncạnh, hay phân loại toàn bộ đồ thị
Hidden layer Hidden layer
ReLU ReLU
— ¬l¬ cọ ¬El¬-¬
J
| J | J |
Input Feature Extraction Output
Hình 3.2 Quá trình xây dung mô hình Graph Neural Network
Đồ thị được định nghĩa bằng công thức [9] chung :
18
Trang 36e_ Đồ thị không đồng nhất: Mỗi cạnh kết nối chỉ hai nút va mỗi nút có thé nối
với nhiều loại cạnh khác nhau
Ngoài các ưu điểm nồi bật, GNN không tránh khỏi nhược điểm [9] như khả năng xử
lý đồ thị lớn và yêu cầu lượng dữ liệu lớn dé huấn luyện mô hình Hiệu suất của GNN
có thé phụ thuộc lớn vào cấu trúc cụ thé của đồ thị và đôi khi nó có thé không hiệu
quả như mong đợi trong trường hợp đồ thị có cau trúc phức tap
3.243 Kiến trúc ResNet50 và U2Net
ResNet50 là một mô hình mạng nơ-ron sâu thuộc họ Residual Networks (ResNets),
được xây dựng với mục đích chính là giải quyết van dé vanishing gradient và khảnăng học sâu trong lĩnh vực học máy [3] Với tông cộng 50 lớp, trong đó bao gồm 48residual blocks và 2 lớp kết nối đầy đủ, ResNet50 đại diện cho một bước tiễn quan
trọng trong phát triên của các kiên trúc mạng nơ-ron sâu.
Sự sử dụng linh hoạt của các lớp tích chập với kích thước kernel khác nhau, cùng vớiviệc kết hợp lớp gộp tối đa, giúp ResNet50 hiệu quả trong việc trích xuất thông tinđặc trưng từ hình anh ở nhiều ty lệ không gian [3] Cuối cùng, với lớp kết nối day đủ
va activation softmax, ResNet50 thực hiện tác vụ phân loại cuối cùng, chuyển đôidau ra thành xác suat.
19
Trang 37Conv1 ReLu Max-pooling SE-Basic-Block Conv3_x
oo ø Oo / @
Conv3_x Conv4_x Fully connected layer Conv5_x Global average
Hình 3.3 Kiến trúc ResNet5O
Cấu trúc của ResNet50 bao gồm các lớp chính:
Lớp Convolutional - Initial Convolution: Chịu trách nhiệm khám phá thông
tin cấp cao từ ảnh, sử dụng kernel kích thước 7x7 và 64 filter Nói một cáchkhoa học, đây là bước quan trọng dé tạo ra một biéu diễn chất lượng và giảm
kích thước không gian của dữ liệu.
Lớp Gộp Tối Da va Convolutional (Stage 1): Kết hợp giữa Lớp Gop Tối Da
và Convolutional tiếp tục tăng cường độ phức tạp của mô hình Lớp Gộp Tối
Đa với kernel 3x3 giúp lọc thông tin quan trọng, trong khi lớp convolutional
với kernel 1x1 giúp giảm số lượng chiều, tối ưu hóa tính toán
Lớp Convolutional va Convolutional (Stage 2): Phát triển của mô hình
thông qua lớp convolutional và residual blocks Các residual blocks giúp tránh tinh trạng giảm vanishing gradient, tang khả năng học sâu của mang
Lớp Convolutional và Convolutional (Stage 3): Lap lại stage 2 giúp giảm
giảm vanishing gradient.
Lớp Convolutional va Convolutional (Stage 4): Hoàn thiện với các lớp
convolutional và residual blocks cuối cùng
Lớp Kết Nối Đầy Du (Fully Connected): Sử dụng dé thực hiện tác vụ phânloại, đưa ra dự đoán dựa trên các đặc trưng đã học được.
20
Trang 38e Lớp Activation Softmax: Ap dụng dé chuyền đổi dau ra thành xác suất Điều
này là quan trọng trong các tác vụ phân loại nhiều lớp
ResNet50 thường được sử dụng trong các bài toán nhận diện hình ảnh, nhưng cũng
có thé được áp dụng cho các nhiệm vụ khác như phân loại và trích xuất đặc trưng
U2Net được thiết kế với mục tiêu chính là cải thiện độ chính xác và khả năng học sâutrong các nhiệm vụ phân đoạn hình ảnh [32] Nó sử dụng cấu trúc encoder-decodergiống như U-Net [32], nhưng cũng tích hợp cơ chế attention mechanism dé tăng khảnăng chọn lọc đặc trưng quan trong Cấu trúc kết nối dư giúp mô hình tránh tình trạngvanishing gradient, làm cho quá trình học sâu trở nên ôn định và hiệu qua.
Đặc biệt, U2Net có khả năng chấp nhận đầu vào từ ResNet50, một mô hình nổi tiếngtrong lĩnh vực nhận dạng hình ảnh [33] Việc sử dụng đầu ra của ResNet50 như là
thông tin đặc trưng đầu vào cho U2Net giúp nâng cao khả năng trích xuất thông tinchỉ tiết và cấp cao từ hình ảnh, đồng thời giữ lại ưu điểm của ResNet50 trong việc
giải quyết van dé vanishing gradient
Với kiến trúc đa tang, sự kết hợp của lớp tích chập va lớp gộp, cũng như sự linh hoạt
trong việc chấp nhận đầu vào từ ResNet50, U2Net [33] trở thành một công cụ mạnh
mẽ trong các ứng dụng y học, nhận dạng đối tượng và xử lý hình ảnh Sự cải tiễn này
không chỉ nâng cao độ chính xác của mô hình mà còn mở rộng khả năng ứng dụngcủa nó trong nhiều lĩnh vực khác nhau
3.2.4 M6 hinh Approximate Nearest Neighbors (ANN)
Trong quá trình quyết định lớp của đối tượng, thuật toán Approximate NearestNeighbors (ANN) dựa trên quy tắc bầu cử có nghĩa là các phiếu bầu chiếm đa số liênquan đến các tham số quan trọng như số hàng xóm (k), phương pháp đo khoảng cách,
và khả năng kích hoạt tương tự thuật toán KNN có trọng số Sự thống nhất giữa cáctham số này đóng vai trò quan trọng trong việc đảm bảo tính chính xác và hiệu suấtcủa hệ thống
21
Trang 39Với dữ liệu lớn, thuật toán ANN xử lý tốt hơn khi kết hợp với cây nhị phân tìm kiếm.Phương pháp sử dụng phép chiếu ngẫu nhiên để giảm chiều dữ liệu (Gaussian
Random Projection) và cây nhị phan dé tạo ra một thuật toán tìm kiếm xấp xỉ Thuậttoán này được thiết kế đặc biệt dé làm việc với các tập dữ liệu có đến n chiều mật độ
phép chiếu nhằm thu gọn vùng xử lý, nơi mà sự chính xác có thể được đánh đổi dé
Hình 3.4 Quá trình xây dung mô hình Approximate Nearest Neighbors
Công thức Gaussian Random ProJection:
= Rx)
Trong do:
e x là vector đặc trưng ban đầu có số chiều lớn
e R là ma trận ngẫu nhiên với các phan tử được rút ra từ phân phối Gaussian
z là vector đặc trưng mới có số chiều giảm
Cây nhị phân tìm kiếm xấp xỉ (ANN) cũng đưa ra một nhược điểm quan trọng: sựchấp nhận độ chệch trong kết quả xấp xỉ Điều này có thê không phù hợp cho những
ứng dụng yêu câu độ chính xác cao, nơi mà độ chệch có thê ảnh hưởng đên độ tin cậy của kêt quả.
22
Trang 40Hơn nữa, việc điêu chỉnh các tham sô của thuật toán, như sô chiêu giảm và sô lượng cây trong cây nhị phan, doi hỏi sự hiệu biệt sâu rộng về đặc diém của dữ liệu và yêu câu cụ thê của ứng dụng Sự phức tạp trong việc điêu chỉnh tham sô có thê làm giảm tính ứng dụng của phương pháp.
3.2.5 Mô hình Natural Language Processing (NLP)
Mô hình xử lý ngôn ngữ tự nhiên (NLP) là một hệ thống máy tính được thiết kế déhiểu, xử lý và tương tác với ngôn ngữ tự nhiên của con người Một số mô hình NLPhiện đại được xây dựng dựa trên các kiến trúc mạng nơ-ron sâu, nhưng có nhiềuphương pháp va mô hình khác nhau được phát triển dé giải quyết các nhiệm vụ cụ
thể
Dưới đây là một số phương pháp cơ bản về nội dung của mô hình xử lý ngôn ngữ tự
nhiên:
e Tokenization (Tach từ): Quá trình chia văn bản thành các đơn vi nhỏ hon,
thường là các từ hoặc các phần tử nhỏ hơn như ký tự
e Embedding (Nhúng): Chuyén đổi từ hoặc câu thành biểu diễn số dé máy tính
có thé hiểu được Một trong những phương pháp phô biến là sử dụng các vectơnhúng (word embeddings) như Word2Vec, GloVe hoặc các biểu diễn nhúngdựa trên mạng nơ-ron như Embedding Layer trong mô hình ngôn ngữ.
e Language Model (Mô hình ngôn ngữ): Một mô hình có khả năng dự đoán
từ tiếp theo trong một chuỗi dựa trên các từ trước đó Mô hình ngôn ngữ cóthé được đào tạo trên dữ liệu lớn để hiểu ngữ cảnh và cấu trúc ngôn ngữ
e Deep Learning Neural Network (Mạng no-ron học sâu): Sử dụng các kiến
trúc mạng nơ-ron sâu, như RNN (Recurrent Neural Networks), LSTM (Long
Short-Term Memory), hoặc Transformer, dé học các mối quan hệ phức tạp
trong dữ liệu ngôn ngữ.
e Fine-tuning (Tỉnh chỉnh): Điều chỉnh mô hình đã được đào tạo chung cho
phù hợp với nhiệm vụ cụ thể hoặc tập dữ liệu cụ thể
23