1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Hệ thống thông tin: Hệ thống lưu trữ và phân tích hình ảnh dựa trên các mô hình máy học

130 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ thống lưu trữ và phân tích hình ảnh dựa trên các mô hình máy học
Tác giả Bùi Quốc Huy, Vũ Hoàng Nhật
Người hướng dẫn PGS. TS Nguyễn Đình Thuận
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Hệ thống thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 130
Dung lượng 70,89 MB

Nội dung

Nghiên cứu tập trung vào việc tích hợp mô hình máy học để phát triển hệ thống truyvấn, tìm kiếm hình ảnh, áp dụng phương pháp so sánh về các đặc điểm tương đồngnhư màu sắc và cấu trúc đi

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA HE THONG THONG TIN

BUI QUOC HUY - 19521598

VÕ HOANG NHẬT - 19521960

HE THONG LƯU TRU VÀ PHAN TÍCH HÌNH ANH DỰA TREN

CAC MO HINH MAY HOC

IMAGE STORAGE AND PROCESSING SYSTEM POWERED

BY MACHINE LEARNING

KY SU HE THONG THONG TIN

GIANG VIEN HUONG DAN PGS TS NGUYEN ĐÌNH THUAN

TP HO CHÍ MINH, 2023

Trang 2

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

I - Chủ tịch.

An - Thư ký.

.ẻăä - Uỷ viên.

— - Uỷ viên.

Trang 3

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

TP HCM, ngay thang ndm

NHAN XÉT KHÓA LUẬN TOT NGHIỆP

(CUA CAN BỘ HUONG DAN)

Tên khóa luân:

HE THONG LƯU TRU VÀ PHAN TÍCH HÌNH ANH DỰA TREN CÁC MÔ

HÌNH MÁY HỌC

Nhóm SV thực hiện: Cán bô hướng dẫn:

Bùi Quốc Huy — 19521598

-PGS TS Nguyên Đình Thuân

Võ Hoang Nhật — 19521960

Đánh gia Khóa luân

1 Vê cuôn báo cáo:

Số bang số liệu "¬ Sốhnhvẽ —_

Một sô nhận xét về hình thức cuôn báo cáo:

3 Về chương trình ứng dung:

Trang 4

Điểm từng sinh viên:

Bùi Quốc Huy: /10

Võ Hoang Nhat: 10

Người nhận xét (Ký tên và ghi rõ họ tên)

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

TP HCM, ngày Tháng năm

NHAN XÉT KHÓA LUẬN TOT NGHIỆP

(CUA CAN BỘ HUONG DAN)

Tên khóa luân:

HE THONG LƯU TRU VÀ PHAN TÍCH HÌNH ANH DỰA TREN CÁC MÔ

HÌNH MÁY HỌC

Nhóm SV thực hiện: Cán bô phản biện:

Bùi Quốc Huy — 19521598

Võ Hoang Nhật — 19521960

Đánh gia Khóa luận

1 Về cuôn báo cáo:

Số trang Số chương mm

Số bảng số liệu Sốhnhvẽ =

Một sô nhận xét về hình thức cuôn báo cáo:

Trang 6

Điểm từng sinh viên:

Bùi Quốc Huy: /10

V6 Hoàng Nhật: 0

Người nhận xét (Ký tên và ghi rõ họ tên)

Trang 7

LOI CAM ON

Lời đầu tiên, chúng em xin được cảm ơn trường Đại hoc Công nghệ Thông tin

-Đại học Quốc gia Thành phố Hồ Chí Minh đã tạo điều kiện tốt nhất để chúng em cóthể học tập và phát triển Trong quá trình học tập tại đây, chúng em đã gặp được rấtnhiều những thầy cô, những người bạn, và những con người tuyệt vời, song song đó

là những cơ hội quý giá dé phát triển bản thân trong sự nghiệp lẫn cuộc sống Dé hoànhoàn thành khóa luận này, chúng em xin được gửi lời cảm ơn đặc biệt đến những

người sau đây.

Chúng em xin trân trọng gửi lời cảm ơn tới thay PGS.TS Nguyễn Dinh Thuan,

thầy đã hết lòng giúp đỡ chúng em trong con đường nghiên cứu lẫn học tập Thầy

Thuân là một nguồn cảm hứng to lớn cho em có thê tự tin và vượt qua vô số thử tháchtrên con đường học tập và nghiên cứu trong suốt thời gian qua

Tiếp theo, chúng em muốn dành lời cảm ơn đến những thầy cô trong trường, đãdạy dỗ và truyền đạt những kinh nghiệm, kiến thức quý báu trong suốt những nămhọc Bên cạnh đó, chúng em muốn gửi lời cảm ơn các thầy cô trong khoa Hệ ThốngThông Tin đã tạo nhiều cơ hội dé chúng em có thé phát triển Chúng em cũng muốncảm ơn những anh chị và những người bạn đã luôn đồng hành cùng chúng em trongsuốt hành trình học đại học, đặc biệt là anh Nguyễn Minh Nhụt và các bạn ở nhóm

nghiên cứu FTISU.

Cuối cùng, chúng em muốn gửi lời cảm ơn đến bố mẹ, gia đình cùng những ngườithân của chúng em, những người đã luôn đồng hành, tin tưởng, ủng hộ, và quan tâm

giúp đỡ chúng em trong những lúc khó khăn nhất Không có mọi người, chúng em đã

không thé có được như ngày hôm nay

Nhóm sinh viên thực hiện

Trang 8

MỤC LỤC

¡9v v04: 090079010577 |

Chương I._ MỞ ĐẦU -©-<+SE2EEEEEE122121121121171E 2112111 3

1.1 Đặt vấn đề cute 3y0 41.3 Đối tượng và phạm vi nghiên cứu -¿- + s+++£+£++2E++rx++rxerreerxerrseee 5Chuong2 | CAC CONG TRÌNH NGHIÊN CỨU LIEN QUAN - 6Chuong3 CO SỞ LÝ THUYẾTT 2-22 E£+EE£EEESEEEEEEEEEEEEEEEEkrrrerree 13

3.1 Giới thiệu về phân tích hình ảnh 2 2 ©+££+£+£+£+£E++£z+zrxezrxeeee 13

3.1.1 Định nghÌĨa 5 5c 195195111 1195 vn HT TH HT TH HT cư gà 13 3.1.2 Các phương pháp phân tÍch - + + ++++s£*xE#+sE+seeeeekrserserkerkrre 14

3.1.2.1 Phan tích hình ảnh định tính - ¿5 +<5++sc+x+ecsezrsesx 14

3.1.2.2 Phân tích hình ảnh định lượng - -+++=+++ec++exec+s 14

3.1.3 Tính chất của thị giác máy tính - + +¿++z++++xxe+zxe+rxeeee 153.2 Các kỹ thuật và lý thuyết -¿-©2¿©2+2EE2EEEE2E12212711211 211221 15

3.2.1.Mô hình Convolutional Neural Network (CNN)) -S- 16

3.2.2.Mô hình Graph Neural Network (GNN) Hee 18

3.2.3 Kiến trúc ResNet50 và U2Net -ccvvcctrtrtiirrrrrrrrirrrrrrrieg 19

3.2.4.Mô hình Approximate Nearest Neighbors (ANN) 21

3.2.5.Mô hình Natural Language Processing (NLP) -. c<<<<+2 23

3.2.6 Các phương pháp về đo khoảng các giữa hai vector - 25

3.2.6.1 Phuong pháp Euclidean Disfance scss<+<<++xsereeessss 26 3.2.6.2 Phương pháp Dot prodUCf 5 55255 * 5s *+s+e+eexeereereerrsss 263.2.7 Các thuật toán tìm kiếm xấp xỉ - ¿2 ++z++E+E++tEevrxezrxerreersee 27

Trang 9

3.2.7.1 Thuật toán Locality-Sensitive Hashing (LSH) - 27 3.2.7.2 Thuật toán K-Nearest Neighbors (KNN) - 28

3.2.7.3 Thuật toán Metric-tree << +22 3v ve see 28

3.2.8 Các thuật toán ân thông tin số trong hình ảnh -¿ + 29

3.2.8.1 Thuật toán Least Significant Bit (LSB) - c-cc-«2 29 3.2.8.2 Thuật toán JPEG steganography - ««+scsscstsetsrssererrre 29

3.2.8.3 Thuật toán JPEG compT€SSIOH - 5-5 55 se *+s+sxeerrerreerses 30

Chương4 GIẢI PHÁP DE XUẤT -222£©2£+EEE+EEtEEEtEEerrkerrerree 31

4.1 Bài toán tìm kiếm hình ảnh theo khuôn mặt bang CNN và GNN 31

4.2 Bài toán tìm kiếm hình anh tương đồng sử dung mô hình ANN 334.3 Bài toán tìm kiếm đối tượng trong anh bằng ResNet50 kết hợp U2Net 34

4.4 Bài toán tìm kiếm theo câu lệnh văn bản sử dụng Natural Language Processing

(NLP) đÊP, GÀ À M@ŒL À1, 36

4.5 Bài toán an thông tin số bằng thuật toán Least Significant Bit (LSB) 36

Chương 5 NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 38

5.1 Tập dữ liệu huấn luyện 2¿- 22 2+©+£2Ex++EEE+EEEtEEEt+Ekrzrkrerkrrrrkerrke 385.2 Bài toán nhận diện và tìm kiếm khuôn mặt bằng CNN kết hợp GNN 505.3 Bài toán tìm kiếm hình ảnh tương đồng sử dung mô hình ANN 515.4.Bài toán tìm kiếm đối tượng trong ảnh bang ResNet50 và U2Net 52

5.5 Bài toán tìm kiếm theo câu lệnh văn bản sử dụng Natural Language Processing

(NLP) ocessssesssseessssessssessssessseccsssessssssssecssusessuscsssecssucsssuessssessssecsssecssseesssesssseesssessssees 56

5.6 Bài toán an thông tin số bang thuật toán Least Significant Bit (LSB) 59Chuong 6 KẾT QUA DANH GIÁ 2£©222+2E£2EEC2EESEEztErkrrreerrree 61

6.1 Bộ dữ liệu đánh g 1á 5 s1 v93 9121 91911 ngàn ng 61

Trang 10

6.2.1 Độ Chính Xác (ACCUTACV): - - G3 HH nh ng nr 61 6.2.2 Độ Chính Xác Cao (Pr€CISIOI)): 5-5 25 533231112211 Server 61

6.3.2.Két qua bài toán tìm kiếm hình anh tương đồng sử dụng mô hình

Approximate Nearest Neighbor (ANN) HH HH he, 63

6.3.3 Kết quả bài toán tìm kiếm đối tượng trong ảnh bằng ResNet50 kết hợp

ON SAL La ke 64

6.4 Kết qua chạy thực tế trên ứng GUN eee cece esssessesseesseessesseesseessesseesseesseens 66

6.4.1 Kết qua tim kiếm hình ảnh theo khuôn mặt bang CNN va GNN 666.4.2 Kết qua đề xuất hình ảnh tương đồng sử dụng mô hình ANN 676.4.3 Kết qua tìm kiếm đối tượng trong anh bằng ResNet50 kết hợp U2Net 68

6.4.4.Kết quả tìm kiếm theo câu lệnh văn bản sử dụng Natural Language

Processing (NLP) 577 69

Chuong 7 XÂY DUNG HE THÔNG -2- 22 2++2c++2cxzvrxerrrxerree 70

7.1 Quy trình xây dựng hệ thống -2-© 2 2£ ©£+EE£2EE£EEEEEEEEEEEEEErrkrrrrrrke 70

7.2 Xây dựng giao diện trang We€b - cscck+ tt HH HT HH HH ng rệt 96

Chuong 8 | TONG KET VÀ HUONG PHÁT TRIÊỀN -2-¿-: 106

8.1 Kết quả đạt được ooeccecceecesseessesssessssssesssessecssecsusssecssessuessecssesseessecssessecssecseeeses 1068.2 Hạn ChẾ 22-22 ©+ESEEEEEEEEE1221127112711171127112111211.711 711211 Xe 1078.3 Hướng phát triỀn -.2- 2 ©2£©E2EE£SEEE£EEECEEECEEEEEE11711221271 E1 107

Trang 11

DANH MỤC HÌNH

Hình 3.1 Kiến trúc của mô hình Convolutional Neural Network (CNN) 16

Hình 3.2 Quá trình xây dựng mô hình Graph Neural NefWOFĂ -.«<-«+ 18

Hình 3.3 Kiến tric ResNei5( cccccccccchrthhHHHHHHH ke 20

Hình 3.4 Quá trình xây dựng mô hình Approximate Nearest Neighbors 22 Hình 3.5 Hình anh phân tách từ của mô hình Natural Language Processing 24 Hình 4.1 Quá trình phân tích hai hình ảnh khuôn mặt sử dụng phương pháp

Euclidean DDiSÍQTIC€ «cu HH HH Hà HH 31

Hình 4.2 Quá trình tìm kiếm khuôn mặt bằng CNN và ŒNN -. -e¿ 32

Hình 4.3 Quá trình xây dung bài toán nhận diện đối tượng trong ảnh 35

Hình 5.1 Tập hình ảnh Face Detection ÏD@fS€F -.- 5 cS5 se s+sksereereeeesks 38 Hình 5.2 Tập dit liệu C@alteCh- Ï(T scS« 5£ S5 ESc St S*+eEkeEEEkstkeexerrersrsrxeerkrrke 39 Hình 5.3 Tập hình ảnh CÏÍVSC(ŒJQ€( 56-2 E91 tk kh HH ng gà, 45 Hình 5 Tap hình anh cua Diverse Driving Dataset for Heterogeneous Multitask

LØTHỦH HH gu họ 50

Hình 5 Xác định mảng đổi tuOng ccccccccsessscsseessesssesssessesssessssssesssesssessssssessseesesssessseess 53Hình 5 Tập log cho quá trình nhận diện đối tượng trong ảnh - 55Hình 5 Quá trình xây dựng bài toán tìm kiếm hình ảnh bằng văn bản người dùng

Hình 6.4 Kết quả hình ảnh được dé xuất bên dưới - 2-2: 5c ©5e+c+c+£srertercez 67

Hình 6.5 Nhập nhãn cân tìm kiếm veccseeccesscssscesssesseessessessesssesssessesssesssesssesseessessessseens 68Hình 6.6 Kết qua sau khi tìm kiếm bằng nhãn - 2 5e+e+£E+Ekzrerrerres 68

Hình 6.7 Quá trình nhập yêu câu cân tìm kiẾm +©-2-©5£+c++cce+cxezrxerrsrres 69Hình 6.8 Kết qua tìm kiếm theo câu lệnh văn bản ©-2- 55c ©c<+cce+cxccsscss 69

Trang 12

Hình 7.1 Use Case hệ thong tìm hệ thống toi wu truy xuất đối tượng trong anh áp

dụng phương pháp đối chiếu tương dong bằng các mô hình máy học - 70

Hình 7.2 Sequence diagram quá trình tìm kiếm hình ảnh tương đông 71

Hình 7.3 Sequence diagram quá trình tim kiếm hình ảnh theo khuôn mặt 72

Hình 7.4 Sequence diagram quá trình tim kiếm hình ảnh theo nhãn 73

Hình 7.5 Sequence diagram quá trình xây dựng do thị liên kết khuôn mặt bằng GNN 74

Hình 7.6 Sequence diagram quá trình phân tích, xác định đối tượng bằng mô hình c23/12/00PẺ 75

Hình 7.7 Sequence diagram quá trình tìm kiếm hình ảnh bằng câu lệnh văn bản 71 Hình 7.8 Sequence diagram quá trình tải biểu đồ phân tích dữ liệu 78

Hình 7.9 Sequence diagram quá trình xóa hình anh, thu mục, dự án 79

Hình 7.10 Sequence diagram quá trình xóa hình ảnh, thư mục 80

Hình 7.11 Sequence diagram quá trình tạo thư mục, dự án -. -«- 81

Hình 7.12 Sequence diagram quá trình gắn sao yêu thích -z z-s=ss 82 Hình 7.13 Sequence diagram quá trình quản lý thùng rácC « -« s 83 Hình 7.14 Sequence diagram quá trình tải hình ảnh lên hệ thống, 84

Hình 7.15 Sequence diagram quá trình ẩn thông tin số trong ảnh - 85

Hình 7.16 Sequence diagram quá trình công khai hình ảnh - - <- 86 Hình 7.17 Sequence diagram quá trình quản lý trang cá nhân -. - 87

Hình 7.18 Sequence diagram quá trình đăng NNGp ccccccccccccccesescseeseeseesetsseesensees 88 Hình 7.19 Sequence diagram quá trình đăng Ky ccceccecccsccssceseeseessesseeseeseeeeseessenseess 89 Hình 7.20 Thành phan dữ liệu của hệ thong vesceescssscessesssesssessessseesessesssessesseesseesseess 90 Hình 7.21 Thiết lập hen giờ huấn luyện mô hìnhh -2- 2 s©cs+£xzcxeressrss 95 Hình 7.22 Giao diện trang CHU - sà Sc tk nh ri gi riệt 96 Hình 7.23 Giao điện trang chủ phân bên dhưới -2+©2e©£+c++££s+Etetrterrsrres 97 Hình 7.24 Giao diện trang khám phá tong qAH -5-©22-©525c©cs+£v2cteccscss 97 Hình 7.25 Giao diện trang chỉ tiết hình ảnÌh -©22-552©5e+SEe+£+e£EeEtesrterrsrres 98 Hình 7.26 Giao diện trang chọn khuôn mặt tim kiếm và bấm tìm kiếm 98

Trang 14

DANH MỤC BANG

Bang 2.1 Tổng hợp các nghiên cứu liên quan về xử lý hình ảnh 10

Bảng 5.1 Bộ nhãn được sử dung trong tập dit liệu Caltech - -«<-<+ 40

Bang 5.2 Bộ nhãn được sử dụng trong tập dit liệu CỉfySCđD€S -. -<~<+ 45

Bảng 5.3 Bảng thuộc tính chuẩn bị cho huấn luyện nhận diện đối tượng trong anh

"— 52

Bảng 5.4 Bảng thuộc tính tệp CSV nhận diện đối tượng trong ảnh 53Bang 5.5 Bảng thuộc tính của đối tượng Ket QUA eeseecsesssessssssesssesssessesssesseesesssessseess 54Bảng 5.6 Thuộc tính mong muốn nhận được sau khi bóc tách văn bản 57

Bang 5.7 Bảng ý nghĩa các tham số trong xử lý ngôn ngữ tự nhiên - 57

Bảng 6.1 Kết quả bài toán tìm kiếm hình ảnh theo khuôn mặt bằng CNN và GNN62Bảng 6.2 Kết quả bài toán tim kiếm hình ảnh tương dong sử dụng mô hình ANN.63Bang 6.3 Kết quả bài toán nhận diện các đối tượng trong ảnh bằng ResNet50 kết

hợp UANGI /// 66c d Q - -ÂOQQ Ấ LH H H.H« HH sec 64

Bang 7.1 Use Case Tim kiếm hình ảnh tương đÔng, : -:©-sc5e©cs+©c+cse+ 71Bang 7.2 Use Case Tim kiếm hình ảnh theo khuôn mặt - 2-©5©5c©552 72Bang 7.3 Use Case Tìm kiếm hình ảnh theo nhấn 2:©5©55+©c5++c5+z©5s+2 73Bảng 7.4 Use Case Xây dựng đ thị liên kết khuôn mặt bằng GNN 73Bang 7.5 Use Case Phân tích, xác định đối tượng bằng mô hình Resnet50 75Bảng 7.6 Use Case Tìm kiếm hình ảnh bằng câu lệnh văn bản -.-. 76Bang 7.7 Use Case Xem biểu đô phân tích dữ liệu - - : -+75z©5se©cseccss 77

Bảng 7.8 Use Case Xóa hình ảnh, thư mục, dự đH -c<ccscesexeeeersee 78

Bang 7.9 Use Case Di chuyén Minh Anh, ther Mu ccccccccccccccccscscscccescseccssseecesseeeeeees 79

Bảng 7.10 Use Case Tạo thir muc, dy ỐPH S5 Ăn ri, 80

Bảng 7.11 Use Case gắn sao yêu NECN creccsecsseecssesssesssessssesssesssesssessssesssesssessssesseesses 81

Bảng 7.12 Use Case quản lý thing TỐC -.- 5c 33kg gi, 82

Bang 7.13 Use Case tải hình ảnh lên hệ thong -¿-©-c+©cce5cseecsescsce+ 84Bang 7.14 Use Case ẩn thông tin số trong ảnh ©-s©cc5csccxevcxccreerreersee 84

Bảng 7.15 Use Case công khai hình nh «<< éskssEEeEErskrserrrkrrke 85

Trang 15

Bang 7.16 Use Case quản lý trang Cá HhÂNH S5 ESekSekssekserserresee 86 Bảng 7.17 Use Case đăng nhập - sàn HH HH rệt 87 Bang 7.18 Use Case Aang hy eccccccccscessesccsscsseeseeseecenseeseesecsecseesessesseseeseasesesseseeenneeas 88 Bang 7.19 Bảng TrlSf— ŒCCOHHHẨ 3x HH HH HH HH rry 90 Bảng 7.20 Bảng THLSf— H-SGT SG KH HH HH HH ng rh 91 Bang 7.21 Bảng THSf—DTO}CÍ << KH HH HH HH Hee 92

Bang 7.23 Bảng 1i$f—DÏOÍO c3 KH HH HH ng nry 93 Bang 7.24 Bảng THLSf— F€SHÍ[, << tk KH KH HH HH HH Hee 94

Trang 16

DANH MỤC TU VIET TAT

STT Từ viết tắt Dịch sang tiếng Anh

1 CNN Convolutional Neural Network

2 ANN Approximate Nearest Neighbors

3 GNN Graph Neural Network

4 KNN K-Nearest Neighbors

5 ES Elastic Search

6 NLP Natural Language Processing

7 API Application Programming Interface

8 JSON JavaScript Object Notation

9 CSV Comma Separated Values

10 ANNOY Approximate Nearest Neighbors Oh Yeah

11 LSH Locality-Sensitive Hashing

12 JPEG Joint Photographic Experts Group

13 LSB Least Significant Bit

Trang 17

DANH MỤC ĐỊNH NGHĨA

STT Cum tir Dinh nghia

` Tương đồng về mảng màu, các điểm ảnh, cấu trúc thành

1 Hình ảnh tương đông Í

phân trong hình ảnh

Tên các đối tượng được xác định nhưng chỉ thuộc các

2 Nhãn đối tượng chủ đề về phong cảnh, trang phục và bộ phân trên cơ thê

người

Trang 18

TOM TAT KHÓA LUẬN

Trong bối cảnh nhu cầu sử dụng hình ảnh ngày càng cao, những khó khăn về vấn đềtruy vấn, phân loại hình ảnh trong lĩnh vực nhiếp ảnh và sáng tạo nội dung đang đượcquan tâm đến Do đó ý tưởng xây dựng đề tài này ra đời để cung cấp các tính nănggiải quyết nhu cầu tìm kiếm một cách thuận tiện cho người dùng, đặc biệt là chongành nghề nghiếp ảnh

Nghiên cứu tập trung vào việc tích hợp mô hình máy học để phát triển hệ thống truyvấn, tìm kiếm hình ảnh, áp dụng phương pháp so sánh về các đặc điểm tương đồngnhư màu sắc và cấu trúc điểm ảnh Đáp ứng các nhu cầu thiết yếu của người dùngnhư: tìm kiếm theo khuôn mặt, đề xuất hình ảnh tương đồng về màu sắc, cấu trúcđiểm ảnh và gán nhãn đối tượng trong ảnh

Ngoài cung cấp các phương thức truy vấn bằng hình ảnh, hệ thống còn tích hợp mô

hình xử lý ngôn ngữ tự nhiên (NLP) dé xử lý câu lệnh văn bản của người dùng

Phương pháp này hỗ trợ thực hiện nhiều yêu cầu tìm kiếm khác nhau chỉ trong một

lân truy vân.

Bên cạnh đó dé đảm bảo cho việc xác minh nguồn gốc hình ảnh, nghiên cứu còn pháttriển tính năng định danh chủ sở hữu của hình ảnh khi áp dụng phương pháp ân thôngtin số trong ảnh Phương pháp ân thông tin định danh chủ sở hữu bên trong hình ảnh

cho phép lưu trữ các thông tin quan trọng bên trong nhưng vẫn đảm bảo được hình

ảnh không bị làm biến đôi về hình dạng, kích thước và mau sắc

Các nội dung sẽ được trình bày thông qua các chương bên dưới:

- _ Chương 1: Trình bày rõ vấn đề, mục tiêu và các đối tượng nghiên cứu hướng

đến

- - Chương 2: Trình bày các công trình nghiên cứu từ những bài báo khoa học

được tham khảo dé phát triển nên ý tưởng thực hiện đề tài

- _ Chương 3: Trình bày lý thuyết các mô hình và thuật toán

- _ Chương 4: Trình bày các giải pháp đề xuất

- _ Chương 5: Trình bày nội dung và phương pháp được phát triển trong đề tài

Trang 19

- _ Chương 6: Trình bày các kết quả sau khi thực hiện huấn luyện và đánh giá.

- _ Chương 7: Trình quy trình xây dựng hệ thống và giao diện ứng dụng

- _ Chương 8: Tổng kết dé tài và nêu ra hướng phát triển tương lai

Trang 20

Chương 1 MỞ ĐẦU

1.1 Đặt vấn đề

Trong thời đại số hóa hiện nay, hình ảnh không chỉ là một phương tiện ghi chép màcòn trở thành một phần tất yếu của cuộc sống, giúp chúng ta ghi lại những khoảnhkhắc đáng nhớ, chia sẻ cảm xúc và giao tiếp trải nghiệm tuyệt vời Tuy nhiên, với số

lượng hình ảnh mỗi ngày, việc quản lý và tương tác với chúng trở thành một thách

thức không nhỏ nhất là đối với nhiếp ảnh gia hoặc người dùng có nhu cầu quản lýhình anh với số lượng lớn Nắm bắt được van dé mà các nghiếp anh gia gặp phải và

tự đặt những câu hỏi:

e Làm sao tim khuôn mặt khách hàng trong kho dữ liệu của chính mình?

e Làm sao dé phân loại các hình anh theo đối tượng có bên trong hình anh?

e Làm sao dé tìm hình ảnh tương đồng với hình vừa tải về ở một nơi khác?

e Làm sao đề hình ảnh được định danh mà không bị phát hiện bang mắt thường?

Sự kết hợp của mô hình máy học và trí tuệ nhân tạo đã mở ra một hướng giải quyếtcho van dé này Các đối tượng co bản như trang phục, phong cảnh trong bức ảnh đều

có thê được nhận diện, phân loại và gán nhãn một cách tự động Cung cấp các phương

tiện tìm kiêm như:

e - Nhận diện và tìm kiếm theo khuôn mặt

e Tìm kiếm các mối liên hệ với khuôn mặt

e Đề xuất các hình ảnh đặc điểm tương đồng về cấu trúc, màu sắc, điểm anh

e Tìm kiếm theo nhãn chỉ tiết từng đối tuongj có trong hình anh và thậm chí là

tìm kiếm dựa trên việc phân tích, bóc tách văn bản từ người đùng

Ngoài vấn đề giải quyết các bài toán tìm kiếm, bài toán định danh hình ảnh cũng đangđược quan tâm với những ngành nghề mang tính sáng tạo cao Các công cụ ân thông

tin hiện hành như watermark đang được áp dụng.

Nhưng đối với hình ảnh sử dụng watermark là một phương án khá tệ vì hình ảnhkhông còn giữ được chat lượng ban dau Do đó giải pháp ấn thông tin số được triển

Trang 21

khai để giải quyết bài toán định danh hình ảnh nhưng không làm thay đổi các yếu tố

về màu sắc, kích cỡ, chất lượng hình ảnh

Với đầu vào là nguồn dữ liệu hình ảnh từ người dùng cung cấp, hình ảnh sẽ đượcnghiên cứu và khai thác dé phát triển một ứng dụng có khả năng tạo ra những đầu rađáp ứng những nhu cầu tìm kiếm khác nhau Những kết quả nay được trình bày mộtcách trực quan thông qua nên tang website thân thiện với người dùng

1.2 Mục tiêu đề tài

Trước hết, mục tiêu phát triển một mô hình nhận diện khuôn mặt dé nhận diện hìnhảnh cá nhân Bên cạnh đó xây dựng hệ thống tìm kiếm dựa trên mạng đồ thị liên kếtcác khuôn mặt, tạo nên tảng cho việc hiệu rõ các môi quan hệ giữa các đôi tượng.

Mục tiêu tiép theo là xây dựng hệ thông đê xuât hình ảnh có đặc điêm tương đông về

câu trúc điềm ảnh và mau sắc Dé xuât các ý tưởng phù hợp với nhu câu ma ngườidùng đang quan tâm đến

Đồng thời hướng đến việc nhận diện sự vật và đôi tượng trong ảnh, gan nhãn và lưutrữ vào kho đữ liệu Elastic Search Mục tiêu là tối ưu hóa tốc độ truy vấn và cung cấp

cơ sở dữ liệu có câu trúc đê thuận tiện cho việc tim kiêm thông tin.

Thêm vào đó, tích hợp xử lý ngôn ngữ tự nhiên (NLP) dé hiểu và xử lý văn bản người

dùng Mục tiêu này giúp hệ thống nắm bắt ý định của người dùng và thực hiện phương

Trang 22

1.3 - Đối tượng và phạm vi nghiên cứu

Nhằm phục vụ các nhu cầu quản lý, truy vấn hình ảnh cho ngành nghề nhiếp ảnh.Bên cạnh đó phục vụ thêm về nhu cầu thiết kế và cung cấp ý tưởng sáng tạo nội dung

Trong đề tài này, phạm vi nghiên cứu hướng đến:

Bài toán nhận diện khuôn mặt: Face Recognition (Convolutional Neural

Network) , kiến trúc ResNet

Bài toán so sánh độ tương đồng khuôn mặt: Convolutional Neural Network

(CNN).

Bài toán xây dựng mang đồ thị liên kết mối quan hệ giữa các khuôn mặt: Graph

Neural Network (GNN).

Bài toán truy van các hình ảnh tương đồng: Approximate Nearest Neighbors

(ANN), K-Nearest Neighbors (KNN).

Bài toán nhận diện sự vật đối tượng trong ảnh: Res2Ne, U2Net, Elastic Search

Bài toán xử lý ngôn ngữ tự nhiên: Natural Language Processing (NLP).

Sử dụng độ đo dé đánh giá các mô hình: Độ chính xác (Accuracy), độ chính

xác cao (Precision), độ nhớ (Recall), Điểm F1 (F1-Score)

Sử dụng các kiến thức xây dựng website: Spring Boot, ReactJS, Python, các

frameworks và thư viện liên quan.

Trang 23

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Dựa vào các đặc diém, từ khóa liên quan về các thử nghiệm liên quan đên dự đoán,

học máy, học sâu, v.v Dựa trên bài báo liên quan trong những năm gân đây làm tiên

dé dé thực hiện nghiên cứu này và thể hiện chi tiết qua Bang 2.1 dưới đây

Vào năm 2004, bài báo An Investigation of Practical Approximate Nearest Neighbor

Algorithms [21] đã đề cập phương pháp Locality Sensitive Hashing (LSH) như mộtphương pháp thành công của việc tìm kiếm gần nhất xấp xỉ và đặt câu hỏi liệu các

phương pháp truyền thống có còn đánh bại được phương pháp mới này hay không

Tác giả giới thiệu một phương pháp đo lường sự chồng chéo giữa các điểm dữ liệu

và các thuật toán tìm kiếm xấp xi KNN cho thấy tăng tốc lên đến 31 lần so với LSH

Các thuật toán khác nhau được lần lượt đánh giá bao gom ca LSH, Metric-tree,

SR-tree được chạy và so sánh với KNN dé đánh giá hiệu suất và độ chính xác của mỗiphương pháp Kết quả và tốc độ khi áp dụng phương pháp KNN từ đó lựa chọn ANNlàm hệ thống đề xuất tương đồng cho nghiên cứu này Kết hợp với cau trúc liên GNN

dé tạo nên các nút và mỗi nút sẽ gắn theo các hình ảnh tương đồng của chính nó Từ

đó có thê mở rộng xa hơn nữa bài toán đề xuất, bên cạnh đó kết hợp với bài toán truyxuất đối tượng trong ảnh sẽ đảm bảo dữ liệu luôn ở trạng thái sẵn sàng khi người

dùng có yêu câu truy xuât.

Vào năm 2005, ý tưởng và thực tiễn che giấu thông tin đã có lịch sử lâu đời Trongcuốn Lịch sử, sử gia Hy Lạp Herodotus viết của một nhà quý tộc, Histaeus, người cầnliên lạc với con rễ của mình ở Hy Lạp Anh ta cạo đầu một người của những nô lệđáng tin cậy nhất của mình và xăm thông điệp đó lên da đầu của nô lệ Khi tóc của

nô lệ mọc lại nô lệ đã được gửi đi với thông điệp ân [23] Ngày nay steganographychủ yếu được sử dụng trên máy tính với dữ liệu số là kênh phân phối tốc độ cao

Steganography khác với mật mã ở chỗ mật mã tập trung vào việc lưu giữ nội dung

của một thông điệp bí mật, steganography tập trung vào việc giữ bí mật sự tồn tại củamột thông điệp [25] Steganography và mật mã đều là cách dé bảo vệ thông tin khỏi

các bên không mong muốn nhưng không phải công nghệ nào cũng hoàn hảo và có

Trang 24

thé bị xâm phạm Một khi sự hiện diện của thông tin ẩn được tiết lộ hoặc thậm chí bịnghi ngờ, mục đích của steganography bị đánh bại một phan [25] Do đó, sức mạnh

của kỹ thuật giấu tin có thé được khuếch đại bằng cách kết hợp với thuật toán mã hóaphức tạp khác Trong bài báo này tác giả đề cập tới các thuật toán Least Significant

Bit (LSB), JPEG steganography, JPEG compression Tác giả đề cập với các phươngpháp che dấu thông tin bằng sử dụng các bit dư không sử dụng tới dé thay đôi hoặcchèn các nội dung dưới dạng bit [20] Đối với phương pháp LSB cho thấy hiệu quả

của vượt trội về mức độ tàng hình và sức chứa tốt hơn đáng kể so với hai phương

pháp JPEG steganography, JPEG compression.

Vào năm 2007, tác gia Thanos Athanasiadis và các cộng sự cũng đóng góp công trìnhnghiên cứu dé tài nhận diện đối tượng trong ảnh [3] Họ sử dụng các thuật toánWatershed và Recursive Shortest Spanning Tree đề tập trung vào phân tích ngữ nghĩacủa ảnh, nghiên cứu này đóng góp vào phân tích đa phương tiện được hỗ trợ bởi kiếnthức và kết nối khoảng cách giữa ngữ nghĩa và đặc trưng hình ảnh cấp thấp Trongquá trình này, việc sử dụng kiến thức ngữ cảnh điều chỉnh lại kết quả gán nhãn củaquá trình phát trién vùng ngữ nghĩa Điều này thực hiện bằng cách thay đôi mức độliên quan của các đôi tượng được nhận diện.

Vào năm 2015, Những thành tựu về trí tuệ nhân tạo đã làm cho các nghiên cứu về xử

lý ảnh được cải thiện về độ chính xác và hiệu suất Có rất nhiều các nghiên cứu đãđược thực hiện với việc áp dụng nhiều mô hình dự báo khác nhau Trong đó, nghiêncứu cua các tác gia Haoxiang Li và Zhe Lin đã thực hiện dựa trên mô hình

Convolutional Neural Networks (CNNs) [2] Mục tiêu của nghiên cứu là xử lý cácthách thức lớn trong việc phát hiện khuôn mặt, như độ biến đổi lớn về góc độ, biéucảm và ánh sáng, đồng thời giữ cho mô hình có hiệu suất tính toán cao Kết quả thực

nghiệm cho thấy rằng phương pháp đề xuất chạy ở 14 FPS trên một lõi CPU đối vớihình ảnh độ phân giải VGA và 100 FPS khi sử dụng GPU, đồng thời đạt được hiệusuất phát hiện hàng đầu trên hai bộ dữ liệu thử nghiệm phô biến về phát hiện khuôn

mặt.

Trang 25

Vào năm 2019, Nghiên cứu trong bài báo A Comprehensive Survey on Graph Neural

Networks cung cấp một cái nhìn tổng quan toàn diện về mạng lưới thần kinh đồ thị

(GNN) trong lĩnh vực khai thác dữ liệu và học máy [9] Đề xuất một nguyên tắc phânloại mới để phân chia nơron đồ thị tiên tiến nhất mạng thành bốn loại, cụ thé là đồ thi

thần kinh hồi quy mạng, mạng thần kinh đồ thị tích chập, bộ mã hóa đồ thị tự động

và mạng thần kinh đồ thị không gian-thời gian Thảo luận về các ứng dụng của mạnglưới thần kinh đồ thị trên nhiều lĩnh vực khác nhau tên miền và tóm tắt mã nguồn mở,

dữ liệu điểm chuẩn tập hợp và đánh giá mô hình của mạng lưới thần kinh đồ thị Đề

xuất các hướng nghiên cứu tiềm năng trong lĩnh vực dang phát trién nhanh chóng nay

cánh đồng So sánh các đồ thị mạng lưới thần kinh với bốn loại: mạng lưới thần kinh,

mạng lưới thần kinh đồ thị tích chập, đồ thị bộ mã hóa tự động và mạng lưới thầnkinh đồ thị không gian-thời gian và cung cấp một đánh giá kỹ lưỡng và tóm tắt củacác phương pháp trong hoặc giữa các loại,.

Vào năm 2020, bài báo Graph Neural Networks: A review of methods and

applications thiết kế quy trình chung cho các mô hình GNN và thảo luận về các biếnthê của từng thành phần, phân loại các ứng dụng một cách có hệ thống và đề xuất bốnvấn đề mở cho nghiên cứu trong tương lai [19] GRN đã chứng minh được hiệu suấtđột phá trong nhiều nhiệm vụ học sâu so với mạng chú ý đồ thị (GAT) và mạng tíchchập đồ thị (GCN) Đề xuất bốn van đề mở chỉ ra những thách thức chính và hướngnghiên cứu trong tương lai của đồ thị thần kinh mạng, bao gồm tính mạnh mẽ, khảnăng diễn giải, tiên huân luyện và mô hình câu trúc phức tạp.

Một ứng dụng khác cũng được công bồ vào năm 2020, Dot Product có ứng dụng rộng

rãi trong máy tính thị giác và xử lý ngôn ngữ tự nhiên [27] Tuy nhiên, bộ nhớ và chi

phí tính toán của nó tăng theo hàm bậc hai với kích thước đầu vào Bài báo này đề

xuất một cơ chế chú ý hiệu quả tương đương Dot Product với chi phí tính toán và bộnhớ ít hơn đáng kê Hiệu quả tài nguyên của nó cho phép tích hợp rộng rãi và linh

hoạt hơn các mô-đun chú ý vào mạng, dẫn đến độ chính xác tốt hơn

Trang 26

Hay nghiên cứu mới đây được công bố vào năm 2023, bài báo A Survey of Graph

Neural Networks for Recommender Systems: Challenges, Methods, and Directions

các tác giả đề cập tới hệ thống gợi ý về sản phẩm thương mại điện tử, POI, tin tức,phim, video, âm nhac [12] Tác giả thu thập dữ liệu từ internet về các dữ liệu khảo

sát và đánh giá, xây dựng hệ thống Graph Construction dé tạo ra các nút (nodes) vàcạnh (edges) tương ứng Dé liên kết có hướng tác giả kết hợp và phát triển thành môhình GNN dé xác định hướng giữa các vector

Tác giả tập trung vào xử lý dữ liệu có sẵn và phân chia thé loại Mỗi mạng GNN sẽ

là dành cho các một đối tượng đặc thù như mạng nơ-ron đồ thị (GNN) trong đề xuấtứng dụng, GNN trong khả năng giải thích, GNN trong dé xuất chéo miễn,

Tổng hợp, phân tích ưu và nhược điểm của các bài báo trong việc xây mạng đồ thị vàcác phương pháp truy van dữ liệu từ đó triển khai vào ứng dụng của dé tài khóa luậntốt nghiệp này

Trang 27

Bảng 2.1 Tổng hợp các nghiên cứu liên quan về xử lý hình ảnh

Mô hình sử Nội dung Năm Tác giả Tên bài báo

dụng chính

An Investigation of ; So sánh cách

Ting Liu, / Approximate

Practical thuat toan

Andrew Moore, Nearest

2004 Approximate ; LSH,

Metric-Ke Yang, Neighbor

Nearest Neighbor tree, SR-tree,

Alexander Gray ; (ANN)

Algorithms k-NN

So sánh các thuật toán

Semantic Image ; hinh nhan

Mylonas, Recursive ;

2007 Segmentation and được gan với

Yannis ; ; Shortest

Object Labeling các đôi tượng

Avrithis, Spanning Tree

-nhận diện Stefanos

Kollias

10

Trang 28

Haoxiang L1,

Zhe Lin, A convolutional Convolutional ;

Hinh anh voi

Xiaohui Shen, neural network Neural '

2015 nhiêu độ phân

Jonathan cascade for face Networks ¬

giải khác nhau Brandt, Gang detection (CNNs)

Zhang Efficient Attention: co ché hiéu

Mingyuan Attention with 3 về so sánh

2020 ; Dot Product | 4" Y° 36348

, Zhao Haiyu, Linear tuong duong

Yi Shuai Complexities với chi phi

tính toán và bộ

11

Trang 29

Li Hongsheng, nho cai thién Shen Zhuoran đáng kê.

Chen gao, Yu

zheng, Nian li,

; ; A Survey of Graph Yinfeng li,

Neural Networks Yingrong qin, Graph Neural

Detection Using a động trên

2023 | Woungang, Issa Networks

{ Graph Neural mang: DDoS, Traore, Glaucio (GNN)

Network TOR-nonTOR

H S Carvalho

12

Trang 30

Chương 3 CƠ SỞ LÝ THUYET

Tập trung vào việc xây dựng cơ sở lý thuyêt cho nghiên cứu, bao gôm giới thiệu vê phân tích hình ảnh và các bài toán tìm kiêm hình ảnh Mục này sẽ cung câp cơ sở

kiên thức cho việc hiêu rõ vê ngữ cảnh lý thuyêt của nghiên cứu và làm nên tảng cho

việc triển khai các phương pháp nghiên cứu được đề xuất

3.1 _ Giới thiệu về phân tích hình ảnh

Phân tích hình ảnh là một lĩnh vực nghiên cứu và ứng dụng sử dụng các phương pháp,

kỹ thuật khoa học dé tìm hiểu và trích xuat thông tin từ đữ liệu hình ảnh bao gồm áp

dụng các nguyên lý toán học, thống kê và công nghệ thông tin để hiểu rõ cấu trúc,

tính chất và ý nghĩa của hình ảnh

3.1.1 Định nghĩa

Phân tích hình ảnh dựa trên việc chuyên đồi dữ liệu hình ảnh thành dit liệu số và sau

đó áp dụng các phương pháp xử lý số liệu và thuật toán đề trích xuất thông cần thiết.Điều này bao gồm việc nhận điện đối tượng, đo lường các thuộc tính như kích thước

và hình dạng, hay thậm chí dự báo các biến đồi trong hình ảnh theo thời gian [34]

Các phương pháp khoa học được áp dụng trong phân tích hình ảnh thường bao gồm

xử lý tín hiệu, thuật toán máy học, và các mô hình toán học dé mô tả mối quan hệgiữa các yếu tố trong hình anh Sự tiến bộ trong lĩnh vực này ngày càng phụ thuộcvào khả năng tích hợp trí tuệ nhân tạo dé tăng cường khả năng hiểu biết và đưa ra dự

đoán chính xác từ dữ liệu hình ảnh phức tạp.

Phân tích hình ảnh không chỉ là một công cụ quan trọng trong nghiên cứu khoa học,

mà còn có ứng dụng rộng rãi trong nhiều lĩnh vực như y học, công nghiệp, và công

nghệ thông tin.

13

Trang 31

kỹ thuật phổ biến:

e Phân loại màu sắc: Sử dụng biểu dé histogram dé phân tích phân phối màu

sắc trong hình ảnh và biéu diễn mối quan hệ giữa các kênh mau

e Cấu trúc và hình dạng: Đặc điểm hình học như kích thước, hình dạng, tỉ lệ,

và mỗi quan hệ giữa các yếu tố hình học

e_ Phân tích cấu trúc độ phân giải: Phân tích cấu trúc độ phân giải bang cách

Phương pháp này giúp đưa ra đánh giá về cau trúc cơ bản và tính chat của dữ liệu

hình ảnh, tăng cường khả năng nhận biết về nội dung của hình ảnh

3.1.2.2 Phân tích hình ảnh định lượng

Phân tích hình ảnh định lượng là quá trình sử dụng các phương pháp số học và thống

kê dé đo lường và mô tả các thuộc tính trong đữ liệu hình ảnh [35] Dưới đây là một

số kỹ thuật phô biến :

e_ Xử lý ảnh số: Sử dụng các phương pháp số đề xử lý hình ảnh, bao gồm ca

việc áp dụng bộ lọc và biến đổi hình học

e Phan tích thống kê: Sử dụng histogram dé mô ta phân phối của mức độ

sáng và màu săc trong hình ảnh.

14

Trang 32

e Nhận diện và đo lường: Sử dụng các thuật toán dé nhận diện và đo lường

các đặc trưng cụ thé trong hình anh

e Xử lý hình ảnh nâng cao: Sử dụng các phương pháp tiên tiến như mạng

nơ-ron sâu đê học và hiêu câu trúc phức tạp trong dữ liệu hình ảnh.

Phân tích hình ảnh định lượng cung cấp khả năng đo lường chính xác và đối chiếu số

liệu, giúp hiểu rõ hơn về các thuộc tính và đặc điểm có sẵn trong hình ảnh.

3.1.3 Tính chất của thị giác máy tính

Thị giác máy tính là một công nghệ mà máy sử dụng dé tự động nhận biết và mô tả

hình ảnh một cách hiệu quả [35] Ứng dụng thị giác máy tính sử dụng trí tuệ nhân tạo

và máy học dé xử lý những dữ liệu hình ảnh, video nhằm xác định đối tượng và nhậndiện khuôn mặt, cũng như phân loại, đề xuắt, giám sát và phát hiện Dưới đây là một

số tính chất quan trọng của thị giác máy tính:

Phân loại: Tính năng này cho phép hệ thống phân loại các hình ảnh vào các

danh mục hoặc nhóm khác nhau dựa trên nội dung của chúng.

Nhận diện đối tượng: Các thuật toán thị giác máy tính có khả năng nhận diện

và phân loại các đối tượng trong hình ảnh, như người, xe, động vật, vật thể,

Dinh vi đối tượng: Có khả năng xác định vị trí cụ thé của các đối tượng tronghình ảnh, thường là băng cách vẽ ra các hộp giới han (bounding boxes)

Nhận dạng khuôn mặt: Có khả năng xác định và nhận diện khuôn mặt tronghình ảnh, thường được sử dụng trong các hệ thong an ninh hoặc nhận diện

người dùng.

Phân đoạn hình ảnh: Tính chất này chia hình ảnh thành các vùng nhỏ hơn đểphân biệt giữa các lớp đối tượng khác nhau trong hình

3.2 Các kỹ thuật va lý thuyết

Trong phần này, đề tài trình bày một số kỹ thuật và lý thuyết quan trọng được áp dụng

đê nâng cao hiệu suât của hệ thông.

15

Trang 33

3.2.1 Mô hình Convolutional Neural Network (CNN)

Convolutional Neural Network [2] là một loại mạng nơ-ron sâu được sử dụng rộngrãi trong lĩnh vực thị giác máy tính và xử lý ảnh Nó được thiết kế để nhận diện vàhiểu các đặc trưng trong dữ liệu hình ảnh thông qua quá trình tích chập

΄ 2d convolutional layer with Relu activation and 3x3 kernel

i 2d max pooling layer with 2x2 pool size

Feature Extraction Classifcation

Hình 3.1 Kiến trúc của mô hình Convolutional Neural Network (CNN)

Lớp Convolutional (Convolutional Layer): Là lớp chính của CNN, thực hiện việc

áp dụng các bộ lọc (kernels) trên hình ảnh dé tạo ra các ban đồ chứa thông tin về các

đặc trưng của hình anh được gọi là feature maps Các feature maps này biểu diễn các

đặc trưng cấp thấp đến cấp cao của hình ảnh

- Pau vào: / là ma trận đầu vào (hình ảnh), K là ma trận bộ lọc (kernel)

- Đầura: S(,j) = (I* K)(,j) = Mạ Y„1Œm,n) * K(— m,j —n) là

giá trị tại vi tri (i,j) của feature map S là feature map i,j là tọa độ trên feature map (1)

e Lép Pooling (Pooling Layer): Lam giảm kích thước cua feature maps, giữ lai

thông tin quan trọng và giảm lượng tinh toán cần thiết Max pooling va averagepooling là hai phương pháp thông dụng.

16

Trang 34

- Max Pooling: R(i,j) = mmaxm„S( * s +m,j * s +n), trong đó s là

kích thước của cửa số pooling @)

- Average Pooling: R(i,j) = ¬ 3mm SŒ*S +Tn,j *s + n), với

m Xn là kích thước cửa số pooling (3)

e Lớp Flatten (Flatten Layer): Chuyên đồi feature maps thành vector 1 chiều,

chuẩn bị cho lớp fully connected Chuyển đổi feature map thành vector 1

chiêu:

V = Flatten(S) (4)

e Lớp Fully Connected (Fully Connected Layer): La lớp nơ-ron truyền thống,

kết nỗi mỗi nơ-ron với tat cả các nơ-ron trong lớp trước đó Thường xuất hiện

ở cuối mô hình đề thực hiện các tác vụ như phân loại

- Pau vào: X là vector đầu ra từ Flatten Layer, W là ma trận trọng số, b

là vector điều chỉnh (bias)

- Đầu ra: Y = ø(WX + b) là hàm kích hoạt (thường là ReLU cho các

lớp ấn và Softmax cho lớp đầu ra) (5)

Trong các công thức trên:

- I,K,S,R,V,X,W,b là các ma trận hoặc vector.

- i,j,m,n là chỉ số của các phan tử trong ma trận

- s là bước trượt (stride) của cửa số pooling

- o là hàm kích hoạt.

Mặc dù CNN mang lại nhiều ưu điểm như tính cơ động, khả năng học đặc trưng tích

tụ và giảm số lượng tham SỐ, nhưng cũng đối mặt với nhược điểm như yêu cầu dữ

liệu lớn và tài nguyên tính toán [2] Để cải thiện hiệu suất, việc sử dụng transfer

learning, tối ưu hóa tham số, áp dung regularization và dropout là những cải tiền quantrọng CNN không chỉ là công cụ quan trọng trong xử lý ảnh mà còn là nền tảng chonhiều ứng dụng trong lĩnh vực trí tuệ nhân tạo

17

Trang 35

3.2.2 Mô hình Graph Neural Network (GNN)

Graph Neural Network (GNN) [9] là một loại mô hình máy học được thiết kế để xử

lý và phân tích dữ liệu đồ thị Mục tiêu chính của GNN là học được biểu diễn đặctrưng của đồ thị thông qua việc truyền thông tin qua các đỉnh và cạnh Điều này giúpGNN hiệu quả trong việc phân loại đối tượng trong đồ thị, dự đoán liên kết giữa cácthực thể, và thậm chí là trong việc phân tích cấu trúc mạng xã hội

Trong GNN, mỗi đối tượng trong đồ thị (như đỉnh hoặc cạnh) được đại diện bằngmột nút (node) và các mối quan hệ giữa chúng được biéu diễn bằng các cạnh (edges)

Ý tưởng cơ bản của GNN là cập nhật thông tin của mỗi nút dựa trên thông tin của cácnút lân cận Quá trình này được lặp lại qua nhiều lớp (layer) dé cập nhật thông tin và

tính toán đặc trưng của đồ thị GNN có khả năng học cả thông tin cấp thấp và cấp cao

từ cấu trúc đô thị, giúp nó thích ứng tốt với các tác vụ như phân loại đỉnh, dự đoáncạnh, hay phân loại toàn bộ đồ thị

Hidden layer Hidden layer

ReLU ReLU

— ¬l¬ cọ ¬El¬-¬

J

| J | J |

Input Feature Extraction Output

Hình 3.2 Quá trình xây dung mô hình Graph Neural Network

Đồ thị được định nghĩa bằng công thức [9] chung :

18

Trang 36

e_ Đồ thị không đồng nhất: Mỗi cạnh kết nối chỉ hai nút va mỗi nút có thé nối

với nhiều loại cạnh khác nhau

Ngoài các ưu điểm nồi bật, GNN không tránh khỏi nhược điểm [9] như khả năng xử

lý đồ thị lớn và yêu cầu lượng dữ liệu lớn dé huấn luyện mô hình Hiệu suất của GNN

có thé phụ thuộc lớn vào cấu trúc cụ thé của đồ thị và đôi khi nó có thé không hiệu

quả như mong đợi trong trường hợp đồ thị có cau trúc phức tap

3.243 Kiến trúc ResNet50 và U2Net

ResNet50 là một mô hình mạng nơ-ron sâu thuộc họ Residual Networks (ResNets),

được xây dựng với mục đích chính là giải quyết van dé vanishing gradient và khảnăng học sâu trong lĩnh vực học máy [3] Với tông cộng 50 lớp, trong đó bao gồm 48residual blocks và 2 lớp kết nối đầy đủ, ResNet50 đại diện cho một bước tiễn quan

trọng trong phát triên của các kiên trúc mạng nơ-ron sâu.

Sự sử dụng linh hoạt của các lớp tích chập với kích thước kernel khác nhau, cùng vớiviệc kết hợp lớp gộp tối đa, giúp ResNet50 hiệu quả trong việc trích xuất thông tinđặc trưng từ hình anh ở nhiều ty lệ không gian [3] Cuối cùng, với lớp kết nối day đủ

va activation softmax, ResNet50 thực hiện tác vụ phân loại cuối cùng, chuyển đôidau ra thành xác suat.

19

Trang 37

Conv1 ReLu Max-pooling SE-Basic-Block Conv3_x

oo ø Oo / @

Conv3_x Conv4_x Fully connected layer Conv5_x Global average

Hình 3.3 Kiến trúc ResNet5O

Cấu trúc của ResNet50 bao gồm các lớp chính:

Lớp Convolutional - Initial Convolution: Chịu trách nhiệm khám phá thông

tin cấp cao từ ảnh, sử dụng kernel kích thước 7x7 và 64 filter Nói một cáchkhoa học, đây là bước quan trọng dé tạo ra một biéu diễn chất lượng và giảm

kích thước không gian của dữ liệu.

Lớp Gộp Tối Da va Convolutional (Stage 1): Kết hợp giữa Lớp Gop Tối Da

và Convolutional tiếp tục tăng cường độ phức tạp của mô hình Lớp Gộp Tối

Đa với kernel 3x3 giúp lọc thông tin quan trọng, trong khi lớp convolutional

với kernel 1x1 giúp giảm số lượng chiều, tối ưu hóa tính toán

Lớp Convolutional va Convolutional (Stage 2): Phát triển của mô hình

thông qua lớp convolutional và residual blocks Các residual blocks giúp tránh tinh trạng giảm vanishing gradient, tang khả năng học sâu của mang

Lớp Convolutional và Convolutional (Stage 3): Lap lại stage 2 giúp giảm

giảm vanishing gradient.

Lớp Convolutional va Convolutional (Stage 4): Hoàn thiện với các lớp

convolutional và residual blocks cuối cùng

Lớp Kết Nối Đầy Du (Fully Connected): Sử dụng dé thực hiện tác vụ phânloại, đưa ra dự đoán dựa trên các đặc trưng đã học được.

20

Trang 38

e Lớp Activation Softmax: Ap dụng dé chuyền đổi dau ra thành xác suất Điều

này là quan trọng trong các tác vụ phân loại nhiều lớp

ResNet50 thường được sử dụng trong các bài toán nhận diện hình ảnh, nhưng cũng

có thé được áp dụng cho các nhiệm vụ khác như phân loại và trích xuất đặc trưng

U2Net được thiết kế với mục tiêu chính là cải thiện độ chính xác và khả năng học sâutrong các nhiệm vụ phân đoạn hình ảnh [32] Nó sử dụng cấu trúc encoder-decodergiống như U-Net [32], nhưng cũng tích hợp cơ chế attention mechanism dé tăng khảnăng chọn lọc đặc trưng quan trong Cấu trúc kết nối dư giúp mô hình tránh tình trạngvanishing gradient, làm cho quá trình học sâu trở nên ôn định và hiệu qua.

Đặc biệt, U2Net có khả năng chấp nhận đầu vào từ ResNet50, một mô hình nổi tiếngtrong lĩnh vực nhận dạng hình ảnh [33] Việc sử dụng đầu ra của ResNet50 như là

thông tin đặc trưng đầu vào cho U2Net giúp nâng cao khả năng trích xuất thông tinchỉ tiết và cấp cao từ hình ảnh, đồng thời giữ lại ưu điểm của ResNet50 trong việc

giải quyết van dé vanishing gradient

Với kiến trúc đa tang, sự kết hợp của lớp tích chập va lớp gộp, cũng như sự linh hoạt

trong việc chấp nhận đầu vào từ ResNet50, U2Net [33] trở thành một công cụ mạnh

mẽ trong các ứng dụng y học, nhận dạng đối tượng và xử lý hình ảnh Sự cải tiễn này

không chỉ nâng cao độ chính xác của mô hình mà còn mở rộng khả năng ứng dụngcủa nó trong nhiều lĩnh vực khác nhau

3.2.4 M6 hinh Approximate Nearest Neighbors (ANN)

Trong quá trình quyết định lớp của đối tượng, thuật toán Approximate NearestNeighbors (ANN) dựa trên quy tắc bầu cử có nghĩa là các phiếu bầu chiếm đa số liênquan đến các tham số quan trọng như số hàng xóm (k), phương pháp đo khoảng cách,

và khả năng kích hoạt tương tự thuật toán KNN có trọng số Sự thống nhất giữa cáctham số này đóng vai trò quan trọng trong việc đảm bảo tính chính xác và hiệu suấtcủa hệ thống

21

Trang 39

Với dữ liệu lớn, thuật toán ANN xử lý tốt hơn khi kết hợp với cây nhị phân tìm kiếm.Phương pháp sử dụng phép chiếu ngẫu nhiên để giảm chiều dữ liệu (Gaussian

Random Projection) và cây nhị phan dé tạo ra một thuật toán tìm kiếm xấp xỉ Thuậttoán này được thiết kế đặc biệt dé làm việc với các tập dữ liệu có đến n chiều mật độ

phép chiếu nhằm thu gọn vùng xử lý, nơi mà sự chính xác có thể được đánh đổi dé

Hình 3.4 Quá trình xây dung mô hình Approximate Nearest Neighbors

Công thức Gaussian Random ProJection:

= Rx)

Trong do:

e x là vector đặc trưng ban đầu có số chiều lớn

e R là ma trận ngẫu nhiên với các phan tử được rút ra từ phân phối Gaussian

z là vector đặc trưng mới có số chiều giảm

Cây nhị phân tìm kiếm xấp xỉ (ANN) cũng đưa ra một nhược điểm quan trọng: sựchấp nhận độ chệch trong kết quả xấp xỉ Điều này có thê không phù hợp cho những

ứng dụng yêu câu độ chính xác cao, nơi mà độ chệch có thê ảnh hưởng đên độ tin cậy của kêt quả.

22

Trang 40

Hơn nữa, việc điêu chỉnh các tham sô của thuật toán, như sô chiêu giảm và sô lượng cây trong cây nhị phan, doi hỏi sự hiệu biệt sâu rộng về đặc diém của dữ liệu và yêu câu cụ thê của ứng dụng Sự phức tạp trong việc điêu chỉnh tham sô có thê làm giảm tính ứng dụng của phương pháp.

3.2.5 Mô hình Natural Language Processing (NLP)

Mô hình xử lý ngôn ngữ tự nhiên (NLP) là một hệ thống máy tính được thiết kế déhiểu, xử lý và tương tác với ngôn ngữ tự nhiên của con người Một số mô hình NLPhiện đại được xây dựng dựa trên các kiến trúc mạng nơ-ron sâu, nhưng có nhiềuphương pháp va mô hình khác nhau được phát triển dé giải quyết các nhiệm vụ cụ

thể

Dưới đây là một số phương pháp cơ bản về nội dung của mô hình xử lý ngôn ngữ tự

nhiên:

e Tokenization (Tach từ): Quá trình chia văn bản thành các đơn vi nhỏ hon,

thường là các từ hoặc các phần tử nhỏ hơn như ký tự

e Embedding (Nhúng): Chuyén đổi từ hoặc câu thành biểu diễn số dé máy tính

có thé hiểu được Một trong những phương pháp phô biến là sử dụng các vectơnhúng (word embeddings) như Word2Vec, GloVe hoặc các biểu diễn nhúngdựa trên mạng nơ-ron như Embedding Layer trong mô hình ngôn ngữ.

e Language Model (Mô hình ngôn ngữ): Một mô hình có khả năng dự đoán

từ tiếp theo trong một chuỗi dựa trên các từ trước đó Mô hình ngôn ngữ cóthé được đào tạo trên dữ liệu lớn để hiểu ngữ cảnh và cấu trúc ngôn ngữ

e Deep Learning Neural Network (Mạng no-ron học sâu): Sử dụng các kiến

trúc mạng nơ-ron sâu, như RNN (Recurrent Neural Networks), LSTM (Long

Short-Term Memory), hoặc Transformer, dé học các mối quan hệ phức tạp

trong dữ liệu ngôn ngữ.

e Fine-tuning (Tỉnh chỉnh): Điều chỉnh mô hình đã được đào tạo chung cho

phù hợp với nhiệm vụ cụ thể hoặc tập dữ liệu cụ thể

23

Ngày đăng: 02/10/2024, 08:30

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w