"Để đổi phó với những thách thức này và đảm bảo khả năng phát hiện đối tượng, dưới nước mạnh mẽ, nghiên cứu về phát hiện đối tượng đưới nước sử dụng mô hình học sâu trở thành một yêu tổ
Trang 1KHOA CÔNG NGHỆ THÔNG TIN
CHÓNG CHÍ DINH
NGUYÊN TÔ THUY ANH
PHÁT HIỆN ĐÓI TƯỢNG DƯỚI NƯỚC SỬ
DỤNG MÔ HÌNH HỌC SÂU
KHÓA LUẬN TÓT NGHIỆP
TP Hỏ Chí Minh ~ Năm 2024
Trang 2
TRUONG DAI HOC SU PHAM TPHCM KHOA CONG NGHE THONG TIN CHONG CHÍ DINH
NGUYÊN TÔ THUY ANH
PHÁT HIỆN ĐÓI TƯỢNG DƯỚI NƯỚC SỬ DỤNG MÔ HÌNH HỌC SÂU
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
KHÓA LUẬN TÓT NGHIỆP
Người Hướng Dẫn Khoa Học: TS Nguyễn Viết Hưng
TP Ho Chi Minh ~ Năm 2024
Trang 3Tôi xin cam đoan luận văn "Phát hiện đối tượng dưới nước sữ dụng mô
hình học sâu” là công trình nghiên cứu của chúng tôi, được thực hiện dưới sự hướng dẫn của TS Nguyễn Viết Hưng Các kết quả nêu rong luận văn là trung thực và nội
mà không ghỉ rõ nguồn trong phan tài liệu tham khảo
Tôi xin chịu trách nhiệm về lời cam đoan này
Thành phổ Hồ Chí Minh, ngày 03 thắng 05 năm 2034
Trang 4“Trong quả trình nghiên cứu và viết luận văn này, nhóm chúng em xin gửi lời trị ân sâu sắc tới giảng viên hướng dẫn của minh - TS Nguyễn Viết Hưng vi TRS
‘Thanh Nhà Quý thầy đã là nguồn động viên và sự hỗ trợ vô cùng quý báu trong suốt thời gian chúng em tiền hành dự án này
Thầy Nguyễn Viết Hưng và thầy Trần Thanh Nhã không chỉ là người hướng
dẫn tận tâm mà côn là người đồng hành đồng tỉnh với nhóm trong việc tìm hiểu và
và chỉ dẫn chúng em trên con đường nghiên cứu Nhờ sự kiên nhẫn và kiến thức sâu rộng của hai thầy, chúng em đã có cơ hội học hỏi và phát triển nang lực của bản thân
ơn đổi với Ban Giám hiệu
Bên cạnh đó, chúng em cũng muốn bầy tỏ lồng
và toàn thể giảng viên, cần bộ, và bạn bè tại Khoa Công nghệ Thông in, Đại học Sư phạm Thành phố Hồ Chí Minh, đã tạo điều kiện tốt nhất để nhóm hoàn thành luận văn này,
Cuối cùng, chúng em xin gửi lời cảm ơn sâu ắc và lòng biết ơn đến gia đình, bạn bê, và những người thân yêu đã luôn đứng bên cạnh chứng em trong suỗt thời động viên không thê thiểu trong hành trình nảy
Mặc dù nhóm đã cổ gắng hoàn thành khóa luận của mình rong phạm vĩ khả năng và hiễu biết tuy nhiên chắc chắn sẽ không tránh khỏi những thiểu sốt Vì vậy,
chúng em rất mong nhận được sự thông cảm và hướng dẫn tận tù h từ quý thầy cô
các bạn trong việc cãi thiện và phát tiến khả nng nghiên cấu của mình
Thành phỏ Hồ Chỉ Minh, ngày 02 thắng 05 năm 2034
NGUYÊN TÔ THỤY ANH CHONG CHI DINH
Trang 5Arliicial Intelligenee Average Precision
Convolutional Neural Networks Detection Transformer DETR with Improved DeNoising Anchor Boxes
Distance Intersection over Union
<i Forward Neural Newwork False Positive
Generalized Intersection over Union Invert Multi-Class Adaboost Intersection over Union Long Short-Term Memory Mean Average Precision Maechine Learning
Non-Maximum Suppression Precision Recall
Region-based Convolutional Neural Network Recurrent Neural Networks Remote Operated Vehicles Region Proposal Newwork State OF The Art
Single Shot MuiBox Detector Suport Vector Machines Truc Positive
Underwater Object Detection
‘You Only Look Once
Trang 6LOICAM DOAN
LOI CAM ON
DANH MUC KY HIEU VA CHU VIET TAT
MUC LUC
DANH MYC BANG BIEU
DANH MUC HiNH ANH
CHUONG 1 MO BAU
1.1 Lý đo chọn để tài
1.2 Mục tiêu nghiên cứu
1.3 Đối tượng và phạm vi nghiên cứu,
1.4 Phương pháp nghiên cứu
1.5 ¥ nghĩa khoa học và thực tiễn
1.6 Cấu trúc luận văn
CHUONG 2, TONG QUAN TINH HÌNH NGHIÊN CỨU 2.1 Tổng quan
2.2 Các tập dữ iệu tiêu chuẩn
CHƯƠNG 3 CƠ SỞ LÝ THUYẾT
3.1 Phuong pháp tiền xử lý dữ liệu hình ảnh
Trang 7DỤNG MÔ HÌNH HỌC SÂU
4,1 Tổng quan phương pháp
4.1.1 Mỡ rộng số lượng query cũa Decoder 4,12, Giảm Giá Trị Box, noise_seale của DeNoising Training 4.1.3 Thay d6i về Loss
4.2 Cie ky thudt dinh gid
CHUONG 5 DU’ LIEU, THỰC NGHIEM VA DANH GIA 3.1 Dữ liệu
6.4 Hướng phát tiến ong tương lại
‘TAI LIEU THAM KHAO
Trang 8Bảng 2.1 Các tập dữ liệu tiêu chuẳn 1B Bảng 5.1 Tom tất số lượng ảnh train và validate của 2 tập dữ liệu DUO và
Bảng 52 Kết quả huấn luyện của phương pháp đề xuất và so sánh với các phương
Bang 5.3 Kết quả huấn luyện của phương pháp để xuất và so sánh với các phương
Bảng 5.4 So sinh độ phúc tạp của phương pháp đề xuất với các phương pháp khác
si
Trang 9Hình 2.1 Téng quan phương pháp GCC "
Hình 2.2 Một nh mẫu trong bộ dữ liệu UTDAC2020 cùng hộp giới han ground truth
4 Hình 23 Một số mẫu trong tập xác thực của bộ dữ liệu UTDAC200 15 Hình 2.4 Tông quan tập xác thục của bộ dữ liệu DƯO thông qua một 16
Hình 3⁄4 Kiến trúc của Huấn luyện denoising theo cách tiếp cận tương phản [39] 0 Hình 3.5 So sinh ba phương pháp khởi tạo truy vấn khác nhan [39] 30
Hinh 3.6 So sánh cập nhật hộp giới han trong Deformabel DETR va phuong phip
Hình 4,1 Các cải iễn cũa chúng tôi đối với mô hình DINO, 3 Hình 4.2 Tổng quan luồng dữ liệu đổi với phương pháp để xuất a4 Hình 4.3 Đồ thị độ đốc của ba hầm mắt mát (xanh đương), L2 (xanh lã) và smooth L1 (đồ) đổi với các giá tị sai số dự đoán khác nhau 37 Hình 4.4 Mô phòng cách tinh ToU 41 Hình 4.5 Biểu dé PR curve minh hoa 42 Hinh 5.1 Biểu 45 Precision Recall Curve ea phuong pháp đề xuất đối với đối tượng
Hình 52 Biểu đồ Precision Recall Curve của phương pháp đề xuất đối với đối tượng, lớn, vừa và nhỏ so sánh với phương pháp GCC [I1] trên bộ dữ liệu DUO, 5
Hình 5.3 Label gốc trên mẫu số 31 trong tập xác thực của bộ DUO 54 Hình 5.4 Dy dodin cia mo hin trén miu s6 31 trong tập xác thực của bộ DUO 5
Trang 10Hình 5.5 biểu đồ PR curve của phương pháp đỀ xuất trên tập xác thực của bộ dữ liệu UTDAC2020 đổi với các đối tượng nhỏ 56 Hình 5.6 Ground truth anh 006495 trong tip xac thực của bộ dữ liệu ƯTDAC2020,
37 Hình 57 Dự đoán của mô hình tên ảnh 006495 trong tập xác thực của bộ dữ liệu
Trang 111.1 Lý do chọn đề tài
Môi trường dưỡi nước là một thể giới đầy bí ân và hắp dẫn với sự đa dạng của đời sống biển, cũng như những thách thức độc đáo mà nó đặt ra Các biến đổi trong
biển, từ đáy biên đến mặt nước, điều kiện ánh sáng và các đối tượng siêu nhỏ tồn tại
trong môi trường biển Điều này đặt ra một loạt các vấn đề phức tạp đối với khả năng biển, cấu trúc dưới nước, và các đối tượng quan trọng như tàu biển và thiết bị khoa
y, sự phát triển và ứng dung của các phương pháp phát hiện đ tượng
thiết và quan trọng đối với nhiều lĩnh vite,
dưới nước đã trở thành một nhiệm vụ
bao gi n kỹ thuật biển, thám hị biển, quản lý tải nguyên b 1, Và bảo VỆ môi trường biển Khả năng phát hiện và theo đối các đối tượng dưới nước không chỉ giáp chúng
ta hiểu sâu hơn về cuộc sống biển mà còn hỗ rợ trong việc xác định và giám sắt các khu vực biển quan trọng đồng gốp vào nghiên cứu khí hậu và môi trường, và hỗ trợ
trong công việc khắc phục sự cổ và tìm kiểm cứu nạn
đáng kể rong môi trường dưới nước, chúng ta phải đối mật với nhiều thách thức độc dio,
Thứ nhất, môi trường dưới nước thường có ảnh sing yêu và biển đổi liên tục
Sự hấp thụ màu sắc và ánh sing trong nước làm cho hình ảnh trở ên mờ mịt và thiếu .độ tương phản Điều này đặt ra câu hỏi về khả năng phục hồi hình ảnh và tối tu bóa chất lượng hình ảnh trước khi phát hiện đối tượng,
“Thứ bai, các biển đổi trong môi trường nước biển, chẳng hạn như sự thay đổi của tỉnh trang đây biển và độ sâu, tạo ra một loạt các thách thức về hình ảnh Các đối
tượng dưới nước có thể xuất hiện ở các góc độ và vị trí khác nhau, làm cho việc phát
Trang 12“Thứ ba, khả năng triển khai các mô hình phát hiện n các phương tiện tự hành digi nue (Autonomous Underwater Vehicles - AUVS) yêu cầu sự nhẹ nhàng
và hiệu suất thời gian thực Mô hình phải đảm bảo rằng nó có thể hoạt động với ải nguyên hạn chế và đáp ứng các yêu cầu về tốc độ xử lý thời gian thực
"Để đổi phó với những thách thức này và đảm bảo khả năng phát hiện đối tượng,
dưới nước mạnh mẽ, nghiên cứu về phát hiện đối tượng đưới nước sử dụng mô hình học sâu trở thành một yêu tổ cắp thiết
1.2 Mục tiêu nghiên cứu
Me tiêu của đề ti là xây dựng một mô bình học sâu để phát hiện các đối tượng là động vật nhỏ dưới môi trường biển
“Thực nghiệm mô hình trên nhiều bộ dữ liệu phổ biển 1.4, Đắi tượng và phạm vĩ nghiên cứu
¡ sẽ tập trung vào phát hiện các đối tượng là sinh vật nhỏ dưới biển, sử cdụng hình ảnh
“Thực nghiệm trên bộ dữ liệu BenchMark về phát hiện sinh vật nhỏ dưới môi trường nước mặn
1.4 Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết
~ Nghiên cứu về lý thuyết về học máy, học sâu và phát hiện đôi tượng
~ Nghiên cứu về cách làm việc với dữ liệu hình ảnh đưới nước
~ Nghiên cứu về các phương pháp tin xử lý hình ảnh và xử lý dữ liệu
~ Nghiên cửu kỹ thuật trích xuất đặc trưng trên dữ liệu hình ảnh sử dụng
mô hình học sâu
~_ˆ Để xuất hướng phát triển trong tương lai
~ _ Phương pháp nghiên cứu thực nghiệm
= ‘Thu thap da ligu dap dng yêu cầu bài toán
+ Tién hanh xay dựng mô hình
2
Trang 13= Diinh gid vaso sánh kết quả đại được
1.5 Ý nghĩa khoa học và thực tiễn
một loạt các nghiên cứu liên quan đến việc ứng dụng học máy và trí tuệ nhân tạo vào
giải quyết các vấn quan dén nước và môi trường nước ĐỀ tải nảy có thể cung
cắp cơ hội để nghiên cứu và phát iển mô hình học sâu trong mỗi trường nước, mở
“Trong ngành công nghiệp khai thắc tà nguyên biển, việc sử dụng học sâu để hát hiện các đối tượng đưới nước có th giáp cải thiện hiệu suất khai th tài nguyên biển
"ĐỂ tài này có thể hỗ trợ nghiên cứu và bảo vệ hệ sinh thái biển bằng cách phát
hiện và giám sắt ác loài, cầu trúc đáy biễn và các yêu tổ khác quan trọng cho hệ sinh thái biển
L6 Cầu trúc luận văn
Dựa vào những mục iêu đã tình bày, nội dung luận văn được chỉa thành cấc
phần như sau:
Chương 1: Mỡ đầu
Chương này sẽ giới thiệu tổng quan về để tài nghiên cứu Đu tiên, nó sẽ trình
bủy lý do vì sao đ ti được chọn, bao gồm tằm quan trọng và tính cắp thiết của vẫn
3
Trang 14phương pháp thu thập dữ liệu và phương pháp xử lý dữ liệu, Tiếp theo, ý nghĩa khoa
học và thực tiễn của nghiên cứu sẽ được đề cập, đặc biệt là những đóng góp mới của
nghiên cứu đối với lĩnh vực liên quan
Chương 2: Tổng quan tinh hình nghiên cứu
“Chương này giới thiệu tổng quan tỉnh bình nghiên cứu của bài toán giới thiệu về các tập dữ liệu tiêu chuẩn đang được các nhà nghiên cứu sử đụng, trình từng phương pháp
Chương 3: Cơ sở lý thuyết
Chương này tập trung vào việc trình bày các khái niệm lý thuyết cơ bản liên
«quan đến đề tải nghiên cứu Đẫu tiền, chương sẽ giải thích các khái niệm cơ bản về
học sâu và cá mô hình học sâu phổ, được sử đụng trong lnh vực phát tượng đưới nước Sau đó là các mô hình phát hiện đối tượng Chương 4: Phương pháp phát hiện đối tượng đưới nước sử dụng mô hình học sâu
Trong chương này, phương pháp cụ thẻ và chỉ tiết liên quan đến quá trình phát hiện đối tượng dưới nước sử dụng mô hình học sâu sẽ được rnh bày Chương sẽ mô
a trúc mô hình học sâu cụ thể và cách áp dụng chúng vào bài toán phát hiện đối tượng dưới nước sẽ được trình bày Ngoài ra, chương cũng thảo luận về các kỹ thuật đánh giá hiệu suất của mô hình và cách tỉnh chỉnh tham số để cải thiện kết quả, Chương 5: Dữ liệu, Thực nghiệm và Đánh giá
Chương này sẽ trình bày về dữ liệu dùng để huấn luyện và đánh giá, cũng như
ce iêu chí đánh giá hiệu suất của mô ình trong việc phát hiện đối tượng dưới nước,
Trang 15phương pháp đã áp dung
Chương 6: Kết luận và hướng pháp triển
“Tổng kết ai kết quả đã dạt được và chưa đạt được sau quả trình nghiên cứu, tiến hành thực nghiệm Từ đó nêu lên những hướng nghiên cứu và phát triển tiếp theo trong tương li để năng cao hiệu suất cũng như đễ khắc phục các hạn chế hiện ti
Trang 162.1 Tổng quan
“Trong thời đại công nghệ hiện đại, việc khám phá và nghiên cứu đưới lòng
biển đã trở thành một lĩnh vực quan trọng và hứa hẹn Từ việc khám phá đáy bi
“quản lý tải nguyên dưới nước, đến việc nghiên cứu và bảo vệ mỗi trường biễn, các vũng của hành nh
Một trong những nhiệm vụ quan trọng nhất trong lĩnh vực này là khả năng
cấu trúc dưới nước,
phát hiện và theo đõi đổi tượng dưới nước, như sinh vật biển,
thiết bị khoa học Để thực hiện điều
này, chúng ta đã chuyển từ sử dụng các phương pháp truyền thống như sử dụng thiết
hoặc các đổi tượng quan trọng như tâ biển
bị đồ ôm cơ bản như sonar (sóng âm) hoặc rndar (sống vô tuyển) và mấy quay dưới ước đến sự kết hợp mạnh mẽ của học máy và học sâu để phát tiễn các mô hình phát hiện đối tượng dưới nước tiên tiến
Những năm gần đây, sự phát triển của học âu (deep learning) di thie diy
nghiên cứu trong lĩnh vực này lên một tằm cao mới Hiện nay, phát hiện đối tượng
dưới nước dựa trên deep leming đã trở thành phương pháp phổ biển nhất và mạnh nước không phải là một nhiệm vụ dễ đàng
Một ong những thách thức lớn à sự hạn chế về lượng dữ liệu dưới nước hiện
có, nhiều nghiên cứu đã tập trung vào việc tăng cường độ đa dạng của dữ liệu thông
qua các phương pháp tăng cường dữ liêu như sử dụng tăng cường dữ liệu kếthợp với
Faster R-CNN [17], Domain Generalization [18] [38] GAN [4] Nồi bật gần đây, Lin cùng cộng sự [36] đã một phương pháp tạo dữ liệu bổ sung cho việc phát hiện đối tượng dưới nước gọi là RoIMix Khác với các phương pháp tăng cường dữ liệu
en thống thường chỉ tác động trên một ảnh đơn lẻ, RoIMix tập trung vào tương tác giữa nhiều ảnh khác nhau Ý tưởng chính của RolMix là kết hợp các đề xuất vùng quan tâm được trích xuất từ nhiều ảnh khác nhau để tạo ra các mẫu dữ liệu ảo mới Quá tình kết hợp này được gọià "proposalfusion" Bằng cách kết hợp các proposals
6
Trang 17từ nhiều ảnh, RolMix có thể mô phỏng các tình huồng chồng lấn, che khuất và mờ đượ điều chỉnh bằng các công điều khiễn Các thứ nghiệm trên tập dữ liệu URPC và
Paseal VÓC đã chứng minh RoIMix đem lại hiệu suất phát hiện đối tượng cao hơn
so với phương pháp cơ sở và các biến thể khác
Ngoài ra, nhiễu nghiên cứu đã tập trung vào, lộc cái thiện hiệu suất phát hiện
bằng cách nâng cao khả năng trích xuất đặc trưng Chen cùng cộng sự [23] để xuất Network) để cải tiện phát hiện đổi tượng nhỏ SWIPENet sit dung Dilated
Convolution Layers và Skip Connections để tăng cườ ig thong tin ngữ nghĩa và chỉ
tiết không gian, cũng như sử dụng nhiều Hyper Feature Maps đễ phát hiện đối tượng
t nhiễu tỷ ệ khác nhau Nhóm tác giả còn giới thiệu một hàm mắt trong sỗ mẫu mới
«qua cde miu 6 trong sé thip va thuật toán Invert Molú-Class Adabooxt([MA) để
‘qui tinh huần luyện Nhược điểm là độ phức tạp tính toán cao hơn M hình đơn lẻ (M &
một mô hình gọi là Boosting R-CNN [29], là một mô hình phát hiện đổi tượng hai
so với mô
xố lần lap cha IMA) Bên cạnh đó, Song cùng cộng sự đã đề xuất
giá đoạn tạo ra các đề xuất chất lượng cao với xác suất iên nghiệm tương ứng
Một vấn đề quan trọng khác trong phát hiện đối tượng dưới nước là chất lượng
hình ảnh Môi trường đưới nước thường gặp các thách thức như độ trơng phản thấp,
đã thử nghiệm việc sử dụng cái thiện hình ánh dudi nude (Underwater Image Enhancement) làm bước tiền xử lý và thực hiện phát hiện đối tượng trê các hình ảnh chất lượng hình ảnh bằng mô hình khuếch tán (Diffusion Model) trong cảnh dưới điều kiện để tạo ra hình ảnh năng cao tương ứng bằng cách sử dụng hình ảnh dưới nước và nhiễu Gaussian lim du vio ĐỂ nâng cao hiệu quả của quả ình ngược lại trong mô hình khuếch tán mô hình sử dụng hai phương pháp khác nhau Mô hình đề
7
Trang 18xuất một mạng khử nhiễu dựa trên Transformer-based, thc day higu quả thời gia
mẫu bỏ qua để giảm số lin lap Dựa trên chiến lược ly mẫu bd qua (skip sampling
srategy), mô bình đề xuất hai phương pháp lấy mẫu không đồng nhất (non-unifom bằng thuật toán tiến hóa
Một nghiên cứu khác về việc sử dụng tương tác không gian-tẫn số và bản đổ
độ dốc để cải thiện hình ảnh dưới nước Chen Zhao ông sự I5] phát triển một khung UIE mới dựa rên bản đỗ độ đốc và tương tác tằn số Không gian, cụ thể là SFGNet Mé hinh gdm hai giả đoạn: Giai đoạn đầu iê
số không gian dày đặc (DSFENet), chủ yếu bao gồm khối hợp nhắt phạm vi dày đặc
sử dụng mạng hợp nhất tần
à khối hợp nhất không gimn dây đặc, đạt được tương tác ẫn số không gian đầy đã nhận bi
học của hình ảnh bằng bản đồ độ dốc độ dốc (GAC) để năng cao hơn nữa các chỉ it cảm nhận và cấu trúc hình
Bên cạnh đó, cũng có nghiên cứu cải thiện hình ảnh dưới nước bằng cách bù
bước sóng và khử sương mù Iohn Y, Chiang và cộng sự [21] 48 xuất một cách tiếp
để bù đấp sự chênh lệch suy giảm dọc theo đường truyén và xem xét tác động của
độ sâu, tức là khoảng cách giữa các đối tượng và máy ảnh, tiễn cảnh và hậu cánh
trong một cảnh sẽ được phần doạn Cường độ ánh sáng của tiền cảnh và hậu cảnh được so sánh để xác định xem nguồn sáng nhân tạo có được sử dụng trong quá trình hyp ảnh hay không Sau khi bù hiệu ứng của ánh sáng nhân tạo hiện tượng sương
mù và sự chênh lệch về độ suy giảm bước sóng dọc theo đường truyền đưới nước tới máy ảnh sẽ được khắc phục Tiếp theo, độ sâu của nước trong cảnh ảnh được ốc tính trên mức độ giảm dẫn ứng với mỗi bước sóng ánh sáng, iến hành bù thay đổi màu
sắc để khôi phục lại sự cân bằng mầu sắc
Mặt khác, Jie Li va cộng sự [20] sir dung mang đối nghịch sinh (GAN) được
8
Trang 19độ sâu trong không khí trong một ống dẫn không giám sát được sử dụng cho việc sửa
màu của các hình ảnh dưới nước đơn mắt WaterGAN được áp dụng cho việc hiệu cặp độ sâu một cách hiệu quả Sử dụng WaterGAN, mô hình tạo ra một tập dữ liệu thực tế trơng ứng Cúc dĩ liệu này được sử dụng như đầu vào cho một mạng hai giai
đoạn để hiệu chỉnh màu sắc của các hình ảnh dưới nước đơn mắt
Một mạng nơ-ron tích chập (CNN) cũng được sử dụng Chongyi Li v
sự [2] sử dụng UWCNN để cải thiện h ảnh đưi nước đựa trên tiên đề của cảnh cộng
dđưới nước Thay vì ước lượng các tham số của mô hình hình ảnh dưới nước, mô hình
48 của cảnh dui nu số thể được sử dụng đ tổng hợp dữ liệu huắn luyện hình ảnh dưới nước Dựa trên cấu trúc mạng nhẹ và dữ liệu huỗn luyện hiệu quả, mô hình
UWCNN mỡ rộng sang video dưới nước để cải thiện từng khung hình Cụ thể, kết hợp mô hình vật lý hình ảnh dưới nước với các tính chất quang học của các cảnh dưới nước, trước tiên tổng hợp các bộ dữ liệu suy giảm hình ảnh dưới nước bao loại nước và mức độ suy giảm khác nhau Sau đó, một mô hình light-weight CNN’ được thiết kế để cải thiện từng loại cảnh đuới nước, được hn
huấn luyện tương ứng
Xi phương pháp loại bỏ nước khỏi hình ảnh dưới nước, D, Aktaynik và cộng
su [10] tinh bay một phương pháp khôi phục màu với mô hình đã sửa đổi bằng hình ảnh RGBD Phương pháp Sea-thru trước tiên tính toán tán xạ ngược bằng cách sử dụng các pixeltối nhất ong ảnh và thông tin phạm vi da biết của chúng Sau đó, nó
sử dụng ước tính nguồn sáng thay đổi theo không gian để thu được hệ số suy giảm
phụ thuộc vào phạm vĩ
Rishens Liu và cộng sự I30] đỀ xuất một phương pháp tăng cường học tập tương phản dưới nước đựa trên đổi thủ song sinh hướng dẫn đối tượng để đạt được mô-đun tăng cường đổi thú vòng kín ràng buộc song phương, giúp giảm bớt yêu cầu
9
Trang 20về dữ liệu được ghép nổi theo cách không được giám sát và duy t nhiều tỉnh năng
thông tin hơn bằng cách ghép với ánh xạ nghịch đáo song sinh Mô bình áp dụng các
tín hiệu tương phân trong giai đoạn huấn luyện để làm cho hình ảnh được khôi phục hướng trực quan và thuận lợi cho việc phát hiện một mô-đun phản hồi nhận biết máy dò được kết hợp để hướng dẫn nâng cao theo hướng đỄ phát hiện
“Trong khi đó, miễn dữ liệu có tác động rất lớn đến quá tình nghiêng về dữ
mối quan hệ giữa khôi phục
liệu hiện đại Tuy nhiên, chỉ ra chính xác hiệu ứng mié
và phát hiện vẫn chưa rõ rằng Xingyu Chen và cộng sự [37| thường điều trả mắt
mô hình tiết lộ cách khôi phục hình ảnh góp phần phát hiện đổi tượng trong các cảnh khám phí quan trọng đã được báo cáo: 1) Chất lượng miễn có ảnh hướng không thể
bỏ qua đến độ chính xác phát hiện và biểu diễn tích chập trong miễn, 2) tên miễn chất lượng thấp dẫn đến khả năng khái quát hóa cao hơn trong việc phát hiện tên miền chéo: 3) miễn chất lượng thấp khó có thể được học tốt trong quá trình học tập hỗn giảm hiệu quả thu hồi, việc khôi phục không thể cải thiện độ chính hợp miễn; 4) là
xác của việc phát hiện trong miễn; 5) khôi phục hình ảnh có lợi cho việc phát hiện
trong tự nhiên bằng cách giảm sự thay đổi miỄn giữa dữ liệu huắn luyện và cảnh trong
thể giới thực,
Wei Chen và cộng sự [9] đề xuất phương pháp phát hiện đối tượng bai giai
đoạn với khối RPN attention và chiến lược đa nâng cao hiệu quả Đồi với trường hợp
hình ảnh đưới nước bị mờ, RPN atention cải thiện biểu hiện đặc trưng của các khu
giới thiệu chiến lược đa năng cao để ci thiện chất lượng của inh inh dug phat hi
"Để nâng cao hiệu quả phát hiện, chiến lược đa nâng cao của chúng tôi hoạt động
nhằm giảm sự dịch chuyển miễn giữa cảnh dưới nước và cảnh thực, đặc biệ là những
hình ảnh có hiện tượng dịch chuyển màu và biến dạng
“Tuy nhiên, những phương pháp này thưởng không đảm bảo hiệu suất phát hiện
10
Trang 21và thậm chí có thé din dén giảm hiệu suất Lý do à các thuật toán thường cảm nhận
cảnh khác biệt so với con người và việc sửa màu sắc và độ tương phản của hình ảnh
cđưới nước không nhất thiết giúp hiểu rỡ ngữ cảnh hơn Do đó, Dai cùng cộng sự [11] đđã đề xuất một phương pháp mới, mà họ gọi là “Gated Cross-domain Collaboradive"
cường và hình ảnh gốc Họ cho rằng cả hai miễn đều có lợi cho việc phát hiện đối
tượng dưới nước Dặc biệt, hình ảnh được tăng cường giúp cải thiện chất lượng hình tương phản thấp và ánh sáng yếu gặp phải trong UOD Mặt khác, hình ảnh gốc giữ
tượng
Hình 2.1 Tổng quan phương pháp GCC
Hình 2.1 mô tả tổng quan phương pháp GCC, trong đó chứa bốn thành phần
chính gồm module tăng cường ảnh MSR, khối tương tác đặc trưng giữa các miễn, 4
module tng hợp đặc trưng có kiểm soát và một detecdon head, 2, Các tập đữ liệu tiêu chuẳn Một khí cạnh không th thị
nước là sử dụng các bộ dữ liệu phù hợp Đổi với lĩnh vực này, dữ liệu chất lượng cao trong nghiên cứu phát hiện đối tượng dưới
và đa dạng là yếu tổ quyết định cho sự phát triển của các mô hình và phương phíp Tiện nay, các nhà nghiên cứu đã xem xét một loạt các bộ dữ liệu, mỗi bộ có những nước, Bao gồm:
« ——— UTDAC2030: Là bộ dữ liệu đưới nước và là viết tất của cuộc thi
"
Trang 22‘Underwater Target Detection Algorithm Competition 2020° C6 5168 inh anh hun Tuyện và 1293 hình ảnh xá thực Nó bao gồm 4 lớp: nhữm, holothurian, sa biển và 720x405 và 586x480
© ODD (241; Bao gồm khoảng 19,000 đối tượng thuộc ba lớp chính bao gồm sea chins (hầu biển), sea cueumbers (sò huyể) và sedllops (ngao biển)
Bộ dữ liệu này đặc trừng bởi sự đa dạng về hình dạng và kích thước của các đối
‘cho vige huấn luyện, 128 hình ảnh cho việc xác thực và 506 hình ảnh cho việc kiểm trà
DUO [3}: Day 1a phién ban duge cai thiện từ bộ dữ liệu ƯTDAC2020
Nó bao sôm 7.782
xác thực), với tổng cộng 74.515 mẫu thuộc 4 loại phổ biến: sea urchin (echinus), sea
gu có bốn độ
ình ảnh (6.671 hình ảnh cho việc huấn luyện và 1,111 cho việc
‘cucumber (holothurian), starfish, va scallop Hinh ảnh trong bộ dữ phân giải: 340 x 2160, 1920 x 1080, 720 x 405, và 586 x 480, cœ _ Brackish[2§]: Là bộ dữ liệu hình ảnh dưới nước được ghỉ lại rong môi trường nước lợ Nó bao gồm 6 lớp: cá lớn, cua, sứa, tôm, cá nhỏ, và sao biển Tập dữ liệu huấn luyện, tập dữ liệu xác thực và tập dữ liệu kiếm tra được chia ngẫu nhiên thành 9.967, 1,467, và 1,468 hình ảnh tương ứng Kích thước hình ảnh là 960 x 540,
« ——— TíashCan [19 LÀ bộ dữ liệu được chú thích về phân đoạn các đối tượng đưới nước đầu tiên, Nó bao gồm 16 lớp, bao gồm rác ROVs (Remote Operated
Vehicles ác thiết bị điều khiển từ xa), và nhiều loại sinh vật biển và cây cỏ dưới nước khác Tập dữ liệu huần luyện và tập dữ liệu kiểm tra được chia ngẫu nhiên thành 6,008 và 1.204 hình ảnh tương ứng
© WPBB [14]: Là bộ dữ liệu phát hiện các túi và chai nhựa dưới nước, bao gồm 900 hình ảnh được chú thích Nó bao gồm 2 loại phổ biển: túi nhựa và chai
và I80 hình ảnh tương ứng,
Trang 23
'Tên bộ dữ liệu | hình ảnh hình ảnh |, | Đặcdiễmchúh layer Training | Validation | Testing |
a dang vé hình
thước
Môi trường nước
Phân đoạn các TrashCan [19] | 6008 - 1204 | 16 | đốitượng dưới
nước Thất hiện túi và 'WPBB [14] Ta0 Bang 2.1 Các tập dữ liệu tiêu chuẩn - Iso | 2 chai nhya
“Thông qua Bảng 21, ta có thể có cái nhìn tổng quan hom vé các bộ dữ liệu sử dụng trong bài toán phát hiện đối tượng đưới nước Bộ đữ liệu ƯTDAC2020 cung sắp một nguồn dữ liệu phong phú về số lượng và đa dạng về độ phân giải, bao gồm
từ cực cao (3840x2160) đến thấp (5865480), cho phép các nhà nghiên cứu thử
bị khác nhau Bồn lớp đối trợng đại diện
Trang 24Hình 2.2 Một ảnh mẫu trong bộ dữ liệu UTDAC2020 củng hộp giới han ground
truth
‘Dac trung ciia bo dit ligu UTDAC2020 được thể hiện thông qua Hình 2.2 kèm
theo hộp giới hạn ground tru cùng phân loại lớp của từng đối tượng Dễ đàng thấy
được, các đối ợng có thước khá nhỏ, nằm chồng lên nhau, màu sắc Không nỗi bật
“Tạo nên nhiề thách thức cho mô hình học máy có thể phát hiện được các đối tượng
GI DL: 4.4 PP PP FPF
Trang 25Hình 23 Một số mẫu trong tập xác thực của bộ dữ liệu UTDAC2020,
Hinh 2.3 mô ả tổng quan tập xác thực của bộ dữ liệu ƯTDAC2020, các hình ảnh thường lấp nhau rắt nhiễu, dẫn tới sự thư thớt và thiểu độ đa dạng trong việc đại
diện cho các điều kiện môi trường biển khác nhau Sự lặp lại nhiều lần của các hình
ảnh có thể dẫn đến mô hình bị overfitin và thiểu khả năng tổng quát hóa rên các tình hoỗng mới Điều này làm giảm khả năng của mô hình trong việc nhận diện đối
tượng dưới nước trong các điều kiện môi trường khác nhau, đặc
nhiên, sự đa dạng về môi trường nước vẫn là một thách thức cần được bỏ sung thêm
đổ đạt được iệu quả cao hơn trong các tỉnh huồng thực tế
Trang 26Hình 2.4 Tổng quan tập xác thực của bộ dữ liệu DUO thông qua một số mẫu
Ở Hình 2.4 cho thấy tổng qu n tập xác thực của bộ đữ liệu DUO, so với tập xác thực của UTDAC2020, các hình ảnh không có tính trìng lắp, dẫn tới một sự đa nhau Sự đa dạng này giúp cung cắp cho mô hình một bộ dữ liệu đa dạng hơn để học điện và phát hiện các đối tượng dưới nước trong các tình huỗng mỗi trường thực , bao gồm cả các điều kiện độ sâu, độ rõ nét và nh sáng khác nhan
“Tuy nhiên, mặc dù bộ dữ liệu DUO đã cung cấp một sự nâng cấp đáng kể so với ƯTDAC2020, thách thức về ộ đa dạng của mỗi trường nước vẫn còn ôn tại đạt được hiệu quả cao hơn trong các tình huồng thực tế, việc bỗ sung thêm các hình ảnh từ các điều in moi trường biển đa dạng sẽ vẫn là cần thế Điễu này giúp mô
hình học được các đặc điểm và biến thể của các đối tượng dưới nước trong nhiều điều, kiện khác nhau, từ đó cải thì khả năng tổng quát hóa và độ chính xác của mô hình 'Về Brackish, sự đặc trưng của bộ dữ liệu này là được ghi lại trong môi trường nước lợ, một điều kiện đặc biệt mà không nhiều bộ dữ liệu khác có Điều này cung
p một cơ hội tuyệt vời để thử nghiệm và tối tru hóa các thuật toán trong một loại
môi trường thử thách Sự đa dạng của các lớp đối tượng cũng giúp nâng cao khả năng,
ấp dụng của bộ dữ liệu này
16
Trang 27Bộ dữ liệu TrashCan là bộ dữ liệu duy nhất tập trung vào việc phân đoạn rác
à các thiết bị điều khiển từ xa đưới nước, là mộtlĩnh vực quan trọng nhưng thường
nguồn dữ liệu vô cùng phù hợp cho đề tài nghiên cứu này,
Bộ dữ liệu UTDAC2020 là một tài nguyên quý giá không chỉ về số lượng bình
ảnh mà còn về chấlượng và da dạng của ức độ phân gi Với tổng cộng 5168 bình ảnh huấ luyện và 1293 hình ảnh xác thực, bộ dữ liệu này cung cấp một nễn táng
vũng chắc cho việc phát triển và kiểm tra các mô hình phát hiện đối tượng Bốn lớp cho một dai da dang của sinh vật biển, cho phép các nhà nghiên cứu tập trung vào các thách thức cụ thể như độ che phủ, màu sắc, và hình dáng trong môi trường dưới nước
DUO, là bản nâng cấp từ UTDAC2020, ti
nghiên cứu bng cách bổ sung thêm hình ảnh và mẫu Bao gồm 6772 hình ảnh huỗn tục mở rộng khả năng của người luyện và 1111 ình ảnh xác thực, bộ này đã tăng cường số lượng mẫu lê đến 7.51 Điều này không chỉ cải thiện khả năng đại diện của bộ dữ liệu mà côn tăng cường độ chính xác và độ tin cậy của các mô hình được phát iển từ đó Bốn độ phân giải
nhau cũng giúp đảm bảo rằng các mô hình có thể được tỗi ưu hỏa cho hiệu s các loại thiết bị khác nhan, ừ cao cắp đến thấp cắp
Trong bối cảnh nghiên cứu về phát hiện đối tượng dưới nước, việc chọn lựa UTDAC2020 va DUO là hết sức phù hợp Sự tương đồng về cúc lớp đối tượng và độ
7
Trang 28.đồ tăng cường tính khách quan và chính xác của nghiên cứu Việc sử dụng cả hai bộ lượng hình ảnh và mẫu lớn, cung cắp một cơ sở dữ liệu to lớn cho cdữ liệu này, với s
Trang 293.1 Phương pháp tiền xử lý dữ liệu hình ảnh
“Tiễn xử lý đỡ liệu hình ảnh là một bước quan trọng trong quá trình chuẩn bị
dữ liệu cho việc ứng dụng học sâu vào phát hiện đối trợng dưới nước Việ hiễu rõ
cách tiễn xử lý dữ liệu có thể cải thiện hiệu suất của mô hình và làm giảm các yêu tổ thuật và phương pháp tiền xử lý dữ iệu hình ảnh phổ bin trong lĩnh vực hộ nhằm giấp tạo ra đữ liệu đầu vào tốt nhất cho mô hình
~ Chuẫn hỏa dữ liệu: Chuẩn hóa dữ liệu hình ảnh là một bước quan trọng để đảm bảo rằng các giá tri pixel trong hình ảnh cỏ cũng phạm vỉ hoặc rung bình và phương khớp
- Cắt ảnh (roppins): Kỹ thuật cắt ảnh được sử dụng để chọn ra vũng quan trọng của hình ảnh vả loại bỏ phần không cần thiết Cắt ảnh giúp giảm kích thước của dữ liệu và tập trung vào các chỉ tiết quan trọng Việc cắt ảnh cổ thể đựa trên vị tí của
cối tượng cần phát hiện hoặc các đặc trưng quan trọng khác trong hình ảnh
~ Chuyển đổi mâu (color augmentation): Mot sé ky thuật chuyên đổi màu sắc như ánh sắng, độ tương phản, hoặc màu sắc được áp dụng để tạo ra các biến thé
của hình ánh gi c Điều này giúp mô hình học sâu học cách nhận tết đối tượng dưới nước trong các điều kiện ánh sáng và màu sắc khác nhau
- Xoay và phóng to thụ nhỏ (votation and scaling): Kỹ thuật xoay và phóng to thu nhỏ được sử dụng để tạo ra các biển thể của hình ảnh Điều nảy giúp mô hình học xâu trở nên bên vững hơn đối v
hình ảnh sự biển đổi vị trí và kích thước của đối tượng trong
- Lâm mịn hình ảnh (smoothing): Lâm mịn hình ảnh là một kỹ thuật được sử dụng để giảm độ nhiễu trong hình ảnh Các kỹ thuật làm mịn hình ảnh bao gồm bộ lọc Gauss và bộ lọ trung bình, giáp loại bỏ nhiễu vả tạo ra hình ảnh mượt mà hơn
~ Phân loại màu sắc (color classification): Kỹ thuật này có thẻ được sử dụng đề: phân loại hình ảnh dựa trên mẫu sắc chung lằng cách áp dụng thuật toán phân loại mẫu sắc, ta có thể xác định các hình ánh có sự tương đồng trong màu sắc và gom
19
Trang 30chúng lạ thành các nhôm
~ Chuyển đổi không gian màu (color space conversion): Chuyển đổi không gian màu là quá trình chuyển đổi bình ảnh ừ không gian mẫu ban đầu (vi dụ: RGB) sang
lâm nổi bật các đ c trưng cụ thể trong hình ảnh
- Phát hiện biên (edge detection): Kỹ thuật phát hiện ên giúp xác định ranh giới giữa các vùng tong hình ảnh Các thuật toán phát hiện biên như Cany hoặc Sobel có thể giúp làm nỗi bật các đường biên quan trọng và giúp mô hình học sâu đễ dàng nhận biết các đối tượng
- Lạc thông tin (infommation filering): Kỹ thuật này giúp loại bỏ thông tin không
‘cn thiết hoặc không quan trọng từ hình ảnh Ta có thể sử dụng các lọc thông tin để
tập trung vào các chỉ tiết quan trọng và giảm kích thước dữ liệu
- Tăng cường dữ liệu (data augmentatioa): Tăng cường dữ liệu là quá trình thêm
các biến thể tạo ra từ dữ lệ sốc ng cường đa dạng của tập dữ ệu Ta có H p dạng các biến đổi như xoay, địch chuyển, nghiöng, hoặc độ sắng khác nhau cho hình, ảnh đễ tạo ra các phiên bản mới cho việc huấn luyện mô hình
- Phân đoạn hình ảnh (image segmentaion): Phân đoạn hình ảnh là quá trình phân chia hình ảnh thành các vùng riêng biệt dựa trên các đặc trưng như màu sắc hoặc
Kỹ thuật này có thể iúp tích riêng đối tượng cần phát hiện khỏi nỀn
~ Loại bỏ nhiễu (noisereduetion): Khi dữ iệu hình ảnh chứa nhiễu, thuật loại
bỏ nhiễu có thể được áp dụng để giảm thiểu ảnh hưởng của nhiễu đến mô hình Các
phương pháp như loại bỏ nhiễu bằng bộ lọc hoặc sử dụng kỹ thuật dự báo có thể được
sử dụng
“Tom hi, các kỹ thuật và phương pháp iền xử ý để hình ảnh này đóng vai trồ quan trọng trong việc ạo ra dỡ liệu đầu vào tố cho mô hình học sâu và cải thiện dang, giúp mô hình học sâu học hiệu quả hơn và đáng tỉn cây hơn 3.2 Mé hinh Transformer
Mô hình Transformer 1a m@t ki trúc được giới thiệu trong bài báo "Attention SAII You Need” của Vaswani cùng cộng sự vào năm 2017 [35], đánh dấu một bước
20
Trang 31được thiết thống như RNN (Recurrent Neural Networks) và L.STM (Long Short-Term Memory) trong việc xử lý cdữ liệu chuỗi dài do giới han
Self-attention cho phép mô hình tính toán trực tiếp các mỗi liên hệ từ xa giữa các từ
trong cùng một câu, mà không cần quan tâm đến thứ tự của chúng trong chuỗi Nhờ vậy, Transformer có thể tận dụng được khả năng tỉnh toán song song tốt hơn và xử lý
dữ liệu nhanh chồng hơn
Cơ chế Self.Attention là một phần trung tâm và đột phá trong kiến trúc
“Transformer, giáp nó phân tích và hiểu các mối quan hệ giữa các từ trong cùng một
2l
Trang 32lập với vị trí của các phần đó trong chuỗi
“Self.Attention hoạt động bằng cách tính toán ba thành phần chính từ mỗi từ trong chuỗi: Query (Q), Key (K), và Value (V) Các vector này được inh ra từ cùng Query của nó sẽ được so sinh với các vector Key của tắt cả các từ khác trong chuỗi
để xác định mức độ quan trọng tương đối của từng từ đối với từ hiện tại Điễu này thường được thực hiện thông qua tích vô hướng giữa Query vi Key Sau khi tính toán tích vô hướng giữa Query và Key, kết quả sẽ được chỉa cho
ấy (rong đó đụ là kích thước của Key) để ôn định các giá trị trước khi áp dụng him
soÑmax
Attention(Q, K,V) = softmax (4) V [35]
“Trong 6 Q, K, ¥ là các ma trận biểu diễn cho query, Key và value; dy là kích
thước của key Phép chia cho đy giúp trắnh tỉnh trang ¿ ddient quá lớn hoặc quá
nhỏ trong quả trình học, làm cho mô hình ôn định hơn
Sau khi áp dyng sofimax, ta được một ma trận điểm số, mỗi phần tử của nó biểu diễn ác suất tương đối mã một từ nên "chú ý" đến một từ khác trong chuỗi Ma trận điểm số này sau đó được nhân với ma trận Value đ sinh ra đầu a cuối cùng của
khối Sel EAtenion
Đầu ra này là một tổng trọng số của các gi tr, nơi trọng số phản ánh mức độ tập trung của từng từ đối với các từ khác, Vì vậy, mỗi phẫn từ rong đầu ra cuỗi cùng
chúng đối với từ hiện tại
Self-Attention cho phí ‘Transformer không chi nhận biết
cđược ngữ nghĩa của từng từ một cách độc lập mà còn cả ngữ cảnh mà từ đó xuất h trong câu Nó khắc phục được hạn chế về khoảng cách giữa các từ mà các mô hình như RNN hay LSTM gặp phải, mở rộng khả năng hiểu và xử lý ngôn ngữ của máy, tính lên một tắm cao mới
2
Trang 33Để tăng cường kha ning hoe ede méi quan he phite tap, Transformer sit dung
sơ chế Multi-Head Attention, Mé hinh niy chia veetordiu vio thinh nhigu phin vi
áp dụng selFatendon lên từng phần một cách độc lập, sau đ kết hợp kết quả lại Điều này cho phép mô hình học được các mối quan hệ từ nhiều góc độ khác nhau, từ
đồ cải thiện hiệu suấttồng thể
Vì selFattemion không có khả năng nhận biết thông ti về vị tí của từ trong cau, Transformer cin mt eich dé bao gồm thông tin này, Diễu này được thục hiện thong qua positional encoding, được cộng trực tiếp vào vector embedding của mỗi
hàm sin và cosin với tần số khác nhau:
Self-Attention, nơi mỗi đầu atention chỉ được phép nhìn vào những từ trước đó trong,
chuỗi đầu ra, nhằm tránh việc "gian lận" bằng cách nhìn vio ti dang cằn dự đoán
QKT
Maskedattention(@,K,¥) = softmas Vee (94M) 35
Trong công thức trên, M là ma trận mặt nạ(mask malrix) được thiết kế để đảm
bảo rằng các đầu atention chỉ có thể tập trung vào các từ ở vị tí rước nổ, Cấu trúc của mô hình Transformer còn bao gồm các khối Feed-Eorward tại indi layer eli encoder vi đecoder Các khối này giúp tăng cường khá năng xử lý phi tuyển của mô hình và được định nghĩa như sau
2
Trang 34Ở đây W,„,W, là trọng số của các ting tuyển tính và bạ,b; là bias Hàm
max(0,x), hay còn gọi là ReLU, được sử dụng để thêm tinh phi tuyến vào mô hỉnh
Nhờ có kiến trúc độc đáo và hiệu quả, Transfomner đã được áp dụng rộng rãi trong nhiều lĩnh vực của AI, không chỉ giới bạn ở NLP Ví dụ, trong dịch máy, mô hình này đã đạt được những thành tựu đáng kể, làm cơ sở cho các hệ thống hiện đại như Google Translate, Bén canh 46, Transformer eng duge sit dung trong cde tae vu
xử lý âm thanh, xử lý video, và thậm chí là sinh mô hình trong học không giám sắt Mặc dù Transformer mang lại nhiễu lợi ích, mô hình này cũng đối mặt với
rất dài Để giải thách thức về tài nguyên tính toán, đặc biệt khi xử lý các chuỗi dữ li
quyết vẫn đỀ này, các nhà nghiên cứu đã phát iễn nhiều biển thé ct Transformer,
bao gồm Transformer nh hon vi higu qua hon, dp ứng tốt hơn với các yêu cầu về
hiệu năng và chi phí tính toán
34 DETR (DEteedon TRansformer)
DETR (DEtection TRansformer) [6| là mô hình phát hiện đối tượng end-to- end dựa trên cơ chế transformer do Facebook AI Research phittrién vio nim 2020
Điểm đột phá của DETR là đã đơn giản hóa pipeline phát hiện đổi tượng truyền thông, bằng ách loại bỏ nhiều thành phần thì kế thủ công như anchor generdion, nơn-
‘maximum suppression (NMS thay vào đó chỉ sử dụng mt mang no-ron end-to-end
Thuật oán hẳn luyện của DETR cũng khác biệt so với truyền thẳng Thay vì phân loại bỗi quy từng đối tượng riêng lệ, DETR sử dụng cơ chế set prediction, te trên ý tưởng bipartite matching, gán nhãn duy nhất cho mỗi đối tượng dự đoán Toàn
py
Trang 35bộ mô hình được huấn luyện end+o-end mà không yêu cầu các giai đoạn riêng biệt như trong R-CNN
So với các mô hình tuyển thống, DETR cho độ chính xác tương đương trên tập di liệu COCO nhưng đã đơn giản hóa đáng kế quy ình phát hiện DETR chỉ cần cũng không yêu cầu các thành phầ thiết kế thủ công như ancbor hay NMS Mô hình
các địc trưng Sau đó, các đặc tưng này đi qua transformer encoder gdm nhieu lip Mỗi lớp encoder có hai phần chinh 14 multi-head self-attention va fully connected network, Transformer encoder 6 nhigm vu ma héa ee de trumg anh theo ech thức toàn cụe, tính toán mỗi quan hệ giữa các vị tí khác nhau trong ảnh Đầu ra cña encoder sau đố được đưa vào transformer decoder eiing véi cic object queries Object queries li cée vector bigu diễn ban đầu về vị tí và thông tin
các đối tuong Transformer decoder cing gdm nhiều lớp, mỗi lớp có hai loại multi-
head attention I self-attention va encoder-decoder attention Mục dich cia decoder
là trích xuất thông tin từ eneoder và biển đổi các object query ban đầu thành các đối tượng cụ thể
CChối cùng, mỗi objeet query sau khi di qua decoder sẽ được dự đoán bởi các predieion head Predietion head sử dụng các Rly connceted nehvork để xác định
25
Trang 36xem đây có phải là một đối tượng hay không, nếu có thì thuộc lớp nào và tọa độ bounding box ciia nd Két quá lả tập các dự đoán bounding box và class của toàn bộ sắc đối tượng tong ảnh
DETR có vài nhược điểm, như tốc độ huấn luyện chậm và khó khăn trong việc phát hiện các đối tượng nho do co ché global dtention không tập trung vào các chỉ tiết tỉnh tế
3.4, Deformable DETR
Deformable DETR [41] là một sự phát triển quan trọng trong lĩnh vực nhận diện đối tượng, xây dựng trên nên tăng của mô hình DETR gốc nhưng mang lại những giải quyết một số thách thức cụ thể mà mô hình DETR gốc gặp phải, đặc bit là khi
xử lý các đối tượng nhỏ hoặc có bình dạng biến dạng Phương pháp Deformable ĐETR được mình hoạ ở Hình 3.3
Hình 3.3 Minh hoạ để
"Một ong những đội mới chính của Defomnable DETR là sự thay th cơ chế
attention toàn điện trong tú Transformer bing deformable attention, Thay vi tính toán atendon đối với toảnbộ không gian dn, deformable ttsaton ci tip tne
26
Trang 37vào những điểm ty chọn xung quanh mỗi vị tham chi, Didw nay khong chi giép giảm bớt số lượng tính toán cần thiết mà còn cho phép mô hình tập trung một cách hiệu quả hơn vào những khu vực cụ thể mà có khả năng chứa đối tượng Cách tếp cận này đặc biệt hữu ích trong việc xử lý các tượng nhỏ hoặc có tính chất biến dạng, nơi mã việc xác định x í chính xác của đối tượng trở nên khó khăn hơn
Cụ thể, module deformable atention trong Deformable DETR tính toán đặc trưng chủ ý bằng cách sử dụng phương trình
ĐeƒformAttn(2,,pạ,x) = XN— Min[SŠ= Ama " Wnxf(Đạ + SPmge)| [41]
Trong đó:
= zy lidie mg Query
= pg lidiém tham ehiéw kh6ng gian ảnh
~ x liiban đồ đặc trưng đầu vào
~ —— M] số lượng đầu ra của Attention
~ _Ñ là số lượng điểm lấy mẫu
~ —ˆ 4sạ, là tọng số chú ý cho điểm lấy mau thir k trong attention head thir
m, được chuẩn hóa sao cho tổng các trọng số chú ý bằng 1
~ _ Apongy là độ lệch mẫu cho phép tập rung vào cúc điểm đáng chú ý
= Wh va WY, Li cae ma trên rọng số học được
Deformable DETR cũng đưa ra một chiến lược học tập đa tỷ lệ bằng cách sử
dạng các bản đồ đặc trưng (fềature maps) với độ phân giải khác nhau Bằng cách kết hợp thông tin từ các lớp khác nhau, mô hình có thể nhận diện các đối tượng ở nhiễu
tỷ ệ khác nhau, ử ắt nhỏ đến lớn, một cách hiệu quả hơn Điều này giúp tăng cường khả năng phát hiện của mô bình trong các tình huống thực tế, nơi mà đối tượng có thể xuất hiện ở bắt kỳ kích thước nào
Bên cạnh đó, để phù hợp hơn với cấu trúc dự đoán của minh, Deformable
1ỗ trợ quá trình học và giúp
ETR đã giới thiệu một hàm loss mới, được thiết kệ
quá tình huấn luyện trở nên ổn định hơn Hầm loss này giúp mô hình nhanh chống
.điều chỉnh các dự đoán của mình, đồng thời giảm thiểu các sai lệch trong quá trình
7