1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện Đối tượng dưới nước sử dụng mô hình học sâu khóa luận tốt nghiệp chuyên ngành khoa học máy tính

74 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện đối tượng dưới nước sử dụng mô hình học sâu
Tác giả Chống Chí Dinh, Nguyên Tô Thùy Anh
Người hướng dẫn TS. Nguyễn Viết Hưng
Trường học Trường Đại học Sư phạm Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 74
Dung lượng 5,91 MB

Nội dung

"Để đổi phó với những thách thức này và đảm bảo khả năng phát hiện đối tượng, dưới nước mạnh mẽ, nghiên cứu về phát hiện đối tượng đưới nước sử dụng mô hình học sâu trở thành một yêu tổ

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN

CHÓNG CHÍ DINH

NGUYÊN TÔ THUY ANH

PHÁT HIỆN ĐÓI TƯỢNG DƯỚI NƯỚC SỬ

DỤNG MÔ HÌNH HỌC SÂU

KHÓA LUẬN TÓT NGHIỆP

TP Hỏ Chí Minh ~ Năm 2024

Trang 2

TRUONG DAI HOC SU PHAM TPHCM KHOA CONG NGHE THONG TIN CHONG CHÍ DINH

NGUYÊN TÔ THUY ANH

PHÁT HIỆN ĐÓI TƯỢNG DƯỚI NƯỚC SỬ DỤNG MÔ HÌNH HỌC SÂU

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH

KHÓA LUẬN TÓT NGHIỆP

Người Hướng Dẫn Khoa Học: TS Nguyễn Viết Hưng

TP Ho Chi Minh ~ Năm 2024

Trang 3

Tôi xin cam đoan luận văn "Phát hiện đối tượng dưới nước sữ dụng mô

hình học sâu” là công trình nghiên cứu của chúng tôi, được thực hiện dưới sự hướng dẫn của TS Nguyễn Viết Hưng Các kết quả nêu rong luận văn là trung thực và nội

mà không ghỉ rõ nguồn trong phan tài liệu tham khảo

Tôi xin chịu trách nhiệm về lời cam đoan này

Thành phổ Hồ Chí Minh, ngày 03 thắng 05 năm 2034

Trang 4

“Trong quả trình nghiên cứu và viết luận văn này, nhóm chúng em xin gửi lời trị ân sâu sắc tới giảng viên hướng dẫn của minh - TS Nguyễn Viết Hưng vi TRS

‘Thanh Nhà Quý thầy đã là nguồn động viên và sự hỗ trợ vô cùng quý báu trong suốt thời gian chúng em tiền hành dự án này

Thầy Nguyễn Viết Hưng và thầy Trần Thanh Nhã không chỉ là người hướng

dẫn tận tâm mà côn là người đồng hành đồng tỉnh với nhóm trong việc tìm hiểu và

và chỉ dẫn chúng em trên con đường nghiên cứu Nhờ sự kiên nhẫn và kiến thức sâu rộng của hai thầy, chúng em đã có cơ hội học hỏi và phát triển nang lực của bản thân

ơn đổi với Ban Giám hiệu

Bên cạnh đó, chúng em cũng muốn bầy tỏ lồng

và toàn thể giảng viên, cần bộ, và bạn bè tại Khoa Công nghệ Thông in, Đại học Sư phạm Thành phố Hồ Chí Minh, đã tạo điều kiện tốt nhất để nhóm hoàn thành luận văn này,

Cuối cùng, chúng em xin gửi lời cảm ơn sâu ắc và lòng biết ơn đến gia đình, bạn bê, và những người thân yêu đã luôn đứng bên cạnh chứng em trong suỗt thời động viên không thê thiểu trong hành trình nảy

Mặc dù nhóm đã cổ gắng hoàn thành khóa luận của mình rong phạm vĩ khả năng và hiễu biết tuy nhiên chắc chắn sẽ không tránh khỏi những thiểu sốt Vì vậy,

chúng em rất mong nhận được sự thông cảm và hướng dẫn tận tù h từ quý thầy cô

các bạn trong việc cãi thiện và phát tiến khả nng nghiên cấu của mình

Thành phỏ Hồ Chỉ Minh, ngày 02 thắng 05 năm 2034

NGUYÊN TÔ THỤY ANH CHONG CHI DINH

Trang 5

Arliicial Intelligenee Average Precision

Convolutional Neural Networks Detection Transformer DETR with Improved DeNoising Anchor Boxes

Distance Intersection over Union

<i Forward Neural Newwork False Positive

Generalized Intersection over Union Invert Multi-Class Adaboost Intersection over Union Long Short-Term Memory Mean Average Precision Maechine Learning

Non-Maximum Suppression Precision Recall

Region-based Convolutional Neural Network Recurrent Neural Networks Remote Operated Vehicles Region Proposal Newwork State OF The Art

Single Shot MuiBox Detector Suport Vector Machines Truc Positive

Underwater Object Detection

‘You Only Look Once

Trang 6

LOICAM DOAN

LOI CAM ON

DANH MUC KY HIEU VA CHU VIET TAT

MUC LUC

DANH MYC BANG BIEU

DANH MUC HiNH ANH

CHUONG 1 MO BAU

1.1 Lý đo chọn để tài

1.2 Mục tiêu nghiên cứu

1.3 Đối tượng và phạm vi nghiên cứu,

1.4 Phương pháp nghiên cứu

1.5 ¥ nghĩa khoa học và thực tiễn

1.6 Cấu trúc luận văn

CHUONG 2, TONG QUAN TINH HÌNH NGHIÊN CỨU 2.1 Tổng quan

2.2 Các tập dữ iệu tiêu chuẩn

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT

3.1 Phuong pháp tiền xử lý dữ liệu hình ảnh

Trang 7

DỤNG MÔ HÌNH HỌC SÂU

4,1 Tổng quan phương pháp

4.1.1 Mỡ rộng số lượng query cũa Decoder 4,12, Giảm Giá Trị Box, noise_seale của DeNoising Training 4.1.3 Thay d6i về Loss

4.2 Cie ky thudt dinh gid

CHUONG 5 DU’ LIEU, THỰC NGHIEM VA DANH GIA 3.1 Dữ liệu

6.4 Hướng phát tiến ong tương lại

‘TAI LIEU THAM KHAO

Trang 8

Bảng 2.1 Các tập dữ liệu tiêu chuẳn 1B Bảng 5.1 Tom tất số lượng ảnh train và validate của 2 tập dữ liệu DUO và

Bảng 52 Kết quả huấn luyện của phương pháp đề xuất và so sánh với các phương

Bang 5.3 Kết quả huấn luyện của phương pháp để xuất và so sánh với các phương

Bảng 5.4 So sinh độ phúc tạp của phương pháp đề xuất với các phương pháp khác

si

Trang 9

Hình 2.1 Téng quan phương pháp GCC "

Hình 2.2 Một nh mẫu trong bộ dữ liệu UTDAC2020 cùng hộp giới han ground truth

4 Hình 23 Một số mẫu trong tập xác thực của bộ dữ liệu UTDAC200 15 Hình 2.4 Tông quan tập xác thục của bộ dữ liệu DƯO thông qua một 16

Hình 3⁄4 Kiến trúc của Huấn luyện denoising theo cách tiếp cận tương phản [39] 0 Hình 3.5 So sinh ba phương pháp khởi tạo truy vấn khác nhan [39] 30

Hinh 3.6 So sánh cập nhật hộp giới han trong Deformabel DETR va phuong phip

Hình 4,1 Các cải iễn cũa chúng tôi đối với mô hình DINO, 3 Hình 4.2 Tổng quan luồng dữ liệu đổi với phương pháp để xuất a4 Hình 4.3 Đồ thị độ đốc của ba hầm mắt mát (xanh đương), L2 (xanh lã) và smooth L1 (đồ) đổi với các giá tị sai số dự đoán khác nhau 37 Hình 4.4 Mô phòng cách tinh ToU 41 Hình 4.5 Biểu dé PR curve minh hoa 42 Hinh 5.1 Biểu 45 Precision Recall Curve ea phuong pháp đề xuất đối với đối tượng

Hình 52 Biểu đồ Precision Recall Curve của phương pháp đề xuất đối với đối tượng, lớn, vừa và nhỏ so sánh với phương pháp GCC [I1] trên bộ dữ liệu DUO, 5

Hình 5.3 Label gốc trên mẫu số 31 trong tập xác thực của bộ DUO 54 Hình 5.4 Dy dodin cia mo hin trén miu s6 31 trong tập xác thực của bộ DUO 5

Trang 10

Hình 5.5 biểu đồ PR curve của phương pháp đỀ xuất trên tập xác thực của bộ dữ liệu UTDAC2020 đổi với các đối tượng nhỏ 56 Hình 5.6 Ground truth anh 006495 trong tip xac thực của bộ dữ liệu ƯTDAC2020,

37 Hình 57 Dự đoán của mô hình tên ảnh 006495 trong tập xác thực của bộ dữ liệu

Trang 11

1.1 Lý do chọn đề tài

Môi trường dưỡi nước là một thể giới đầy bí ân và hắp dẫn với sự đa dạng của đời sống biển, cũng như những thách thức độc đáo mà nó đặt ra Các biến đổi trong

biển, từ đáy biên đến mặt nước, điều kiện ánh sáng và các đối tượng siêu nhỏ tồn tại

trong môi trường biển Điều này đặt ra một loạt các vấn đề phức tạp đối với khả năng biển, cấu trúc dưới nước, và các đối tượng quan trọng như tàu biển và thiết bị khoa

y, sự phát triển và ứng dung của các phương pháp phát hiện đ tượng

thiết và quan trọng đối với nhiều lĩnh vite,

dưới nước đã trở thành một nhiệm vụ

bao gi n kỹ thuật biển, thám hị biển, quản lý tải nguyên b 1, Và bảo VỆ môi trường biển Khả năng phát hiện và theo đối các đối tượng dưới nước không chỉ giáp chúng

ta hiểu sâu hơn về cuộc sống biển mà còn hỗ rợ trong việc xác định và giám sắt các khu vực biển quan trọng đồng gốp vào nghiên cứu khí hậu và môi trường, và hỗ trợ

trong công việc khắc phục sự cổ và tìm kiểm cứu nạn

đáng kể rong môi trường dưới nước, chúng ta phải đối mật với nhiều thách thức độc dio,

Thứ nhất, môi trường dưới nước thường có ảnh sing yêu và biển đổi liên tục

Sự hấp thụ màu sắc và ánh sing trong nước làm cho hình ảnh trở ên mờ mịt và thiếu .độ tương phản Điều này đặt ra câu hỏi về khả năng phục hồi hình ảnh và tối tu bóa chất lượng hình ảnh trước khi phát hiện đối tượng,

“Thứ bai, các biển đổi trong môi trường nước biển, chẳng hạn như sự thay đổi của tỉnh trang đây biển và độ sâu, tạo ra một loạt các thách thức về hình ảnh Các đối

tượng dưới nước có thể xuất hiện ở các góc độ và vị trí khác nhau, làm cho việc phát

Trang 12

“Thứ ba, khả năng triển khai các mô hình phát hiện n các phương tiện tự hành digi nue (Autonomous Underwater Vehicles - AUVS) yêu cầu sự nhẹ nhàng

và hiệu suất thời gian thực Mô hình phải đảm bảo rằng nó có thể hoạt động với ải nguyên hạn chế và đáp ứng các yêu cầu về tốc độ xử lý thời gian thực

"Để đổi phó với những thách thức này và đảm bảo khả năng phát hiện đối tượng,

dưới nước mạnh mẽ, nghiên cứu về phát hiện đối tượng đưới nước sử dụng mô hình học sâu trở thành một yêu tổ cắp thiết

1.2 Mục tiêu nghiên cứu

Me tiêu của đề ti là xây dựng một mô bình học sâu để phát hiện các đối tượng là động vật nhỏ dưới môi trường biển

“Thực nghiệm mô hình trên nhiều bộ dữ liệu phổ biển 1.4, Đắi tượng và phạm vĩ nghiên cứu

¡ sẽ tập trung vào phát hiện các đối tượng là sinh vật nhỏ dưới biển, sử cdụng hình ảnh

“Thực nghiệm trên bộ dữ liệu BenchMark về phát hiện sinh vật nhỏ dưới môi trường nước mặn

1.4 Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết

~ Nghiên cứu về lý thuyết về học máy, học sâu và phát hiện đôi tượng

~ Nghiên cứu về cách làm việc với dữ liệu hình ảnh đưới nước

~ Nghiên cứu về các phương pháp tin xử lý hình ảnh và xử lý dữ liệu

~ Nghiên cửu kỹ thuật trích xuất đặc trưng trên dữ liệu hình ảnh sử dụng

mô hình học sâu

~_ˆ Để xuất hướng phát triển trong tương lai

~ _ Phương pháp nghiên cứu thực nghiệm

= ‘Thu thap da ligu dap dng yêu cầu bài toán

+ Tién hanh xay dựng mô hình

2

Trang 13

= Diinh gid vaso sánh kết quả đại được

1.5 Ý nghĩa khoa học và thực tiễn

một loạt các nghiên cứu liên quan đến việc ứng dụng học máy và trí tuệ nhân tạo vào

giải quyết các vấn quan dén nước và môi trường nước ĐỀ tải nảy có thể cung

cắp cơ hội để nghiên cứu và phát iển mô hình học sâu trong mỗi trường nước, mở

“Trong ngành công nghiệp khai thắc tà nguyên biển, việc sử dụng học sâu để hát hiện các đối tượng đưới nước có th giáp cải thiện hiệu suất khai th tài nguyên biển

"ĐỂ tài này có thể hỗ trợ nghiên cứu và bảo vệ hệ sinh thái biển bằng cách phát

hiện và giám sắt ác loài, cầu trúc đáy biễn và các yêu tổ khác quan trọng cho hệ sinh thái biển

L6 Cầu trúc luận văn

Dựa vào những mục iêu đã tình bày, nội dung luận văn được chỉa thành cấc

phần như sau:

Chương 1: Mỡ đầu

Chương này sẽ giới thiệu tổng quan về để tài nghiên cứu Đu tiên, nó sẽ trình

bủy lý do vì sao đ ti được chọn, bao gồm tằm quan trọng và tính cắp thiết của vẫn

3

Trang 14

phương pháp thu thập dữ liệu và phương pháp xử lý dữ liệu, Tiếp theo, ý nghĩa khoa

học và thực tiễn của nghiên cứu sẽ được đề cập, đặc biệt là những đóng góp mới của

nghiên cứu đối với lĩnh vực liên quan

Chương 2: Tổng quan tinh hình nghiên cứu

“Chương này giới thiệu tổng quan tỉnh bình nghiên cứu của bài toán giới thiệu về các tập dữ liệu tiêu chuẩn đang được các nhà nghiên cứu sử đụng, trình từng phương pháp

Chương 3: Cơ sở lý thuyết

Chương này tập trung vào việc trình bày các khái niệm lý thuyết cơ bản liên

«quan đến đề tải nghiên cứu Đẫu tiền, chương sẽ giải thích các khái niệm cơ bản về

học sâu và cá mô hình học sâu phổ, được sử đụng trong lnh vực phát tượng đưới nước Sau đó là các mô hình phát hiện đối tượng Chương 4: Phương pháp phát hiện đối tượng đưới nước sử dụng mô hình học sâu

Trong chương này, phương pháp cụ thẻ và chỉ tiết liên quan đến quá trình phát hiện đối tượng dưới nước sử dụng mô hình học sâu sẽ được rnh bày Chương sẽ mô

a trúc mô hình học sâu cụ thể và cách áp dụng chúng vào bài toán phát hiện đối tượng dưới nước sẽ được trình bày Ngoài ra, chương cũng thảo luận về các kỹ thuật đánh giá hiệu suất của mô hình và cách tỉnh chỉnh tham số để cải thiện kết quả, Chương 5: Dữ liệu, Thực nghiệm và Đánh giá

Chương này sẽ trình bày về dữ liệu dùng để huấn luyện và đánh giá, cũng như

ce iêu chí đánh giá hiệu suất của mô ình trong việc phát hiện đối tượng dưới nước,

Trang 15

phương pháp đã áp dung

Chương 6: Kết luận và hướng pháp triển

“Tổng kết ai kết quả đã dạt được và chưa đạt được sau quả trình nghiên cứu, tiến hành thực nghiệm Từ đó nêu lên những hướng nghiên cứu và phát triển tiếp theo trong tương li để năng cao hiệu suất cũng như đễ khắc phục các hạn chế hiện ti

Trang 16

2.1 Tổng quan

“Trong thời đại công nghệ hiện đại, việc khám phá và nghiên cứu đưới lòng

biển đã trở thành một lĩnh vực quan trọng và hứa hẹn Từ việc khám phá đáy bi

“quản lý tải nguyên dưới nước, đến việc nghiên cứu và bảo vệ mỗi trường biễn, các vũng của hành nh

Một trong những nhiệm vụ quan trọng nhất trong lĩnh vực này là khả năng

cấu trúc dưới nước,

phát hiện và theo đõi đổi tượng dưới nước, như sinh vật biển,

thiết bị khoa học Để thực hiện điều

này, chúng ta đã chuyển từ sử dụng các phương pháp truyền thống như sử dụng thiết

hoặc các đổi tượng quan trọng như tâ biển

bị đồ ôm cơ bản như sonar (sóng âm) hoặc rndar (sống vô tuyển) và mấy quay dưới ước đến sự kết hợp mạnh mẽ của học máy và học sâu để phát tiễn các mô hình phát hiện đối tượng dưới nước tiên tiến

Những năm gần đây, sự phát triển của học âu (deep learning) di thie diy

nghiên cứu trong lĩnh vực này lên một tằm cao mới Hiện nay, phát hiện đối tượng

dưới nước dựa trên deep leming đã trở thành phương pháp phổ biển nhất và mạnh nước không phải là một nhiệm vụ dễ đàng

Một ong những thách thức lớn à sự hạn chế về lượng dữ liệu dưới nước hiện

có, nhiều nghiên cứu đã tập trung vào việc tăng cường độ đa dạng của dữ liệu thông

qua các phương pháp tăng cường dữ liêu như sử dụng tăng cường dữ liệu kếthợp với

Faster R-CNN [17], Domain Generalization [18] [38] GAN [4] Nồi bật gần đây, Lin cùng cộng sự [36] đã một phương pháp tạo dữ liệu bổ sung cho việc phát hiện đối tượng dưới nước gọi là RoIMix Khác với các phương pháp tăng cường dữ liệu

en thống thường chỉ tác động trên một ảnh đơn lẻ, RoIMix tập trung vào tương tác giữa nhiều ảnh khác nhau Ý tưởng chính của RolMix là kết hợp các đề xuất vùng quan tâm được trích xuất từ nhiều ảnh khác nhau để tạo ra các mẫu dữ liệu ảo mới Quá tình kết hợp này được gọià "proposalfusion" Bằng cách kết hợp các proposals

6

Trang 17

từ nhiều ảnh, RolMix có thể mô phỏng các tình huồng chồng lấn, che khuất và mờ đượ điều chỉnh bằng các công điều khiễn Các thứ nghiệm trên tập dữ liệu URPC và

Paseal VÓC đã chứng minh RoIMix đem lại hiệu suất phát hiện đối tượng cao hơn

so với phương pháp cơ sở và các biến thể khác

Ngoài ra, nhiễu nghiên cứu đã tập trung vào, lộc cái thiện hiệu suất phát hiện

bằng cách nâng cao khả năng trích xuất đặc trưng Chen cùng cộng sự [23] để xuất Network) để cải tiện phát hiện đổi tượng nhỏ SWIPENet sit dung Dilated

Convolution Layers và Skip Connections để tăng cườ ig thong tin ngữ nghĩa và chỉ

tiết không gian, cũng như sử dụng nhiều Hyper Feature Maps đễ phát hiện đối tượng

t nhiễu tỷ ệ khác nhau Nhóm tác giả còn giới thiệu một hàm mắt trong sỗ mẫu mới

«qua cde miu 6 trong sé thip va thuật toán Invert Molú-Class Adabooxt([MA) để

‘qui tinh huần luyện Nhược điểm là độ phức tạp tính toán cao hơn M hình đơn lẻ (M &

một mô hình gọi là Boosting R-CNN [29], là một mô hình phát hiện đổi tượng hai

so với mô

xố lần lap cha IMA) Bên cạnh đó, Song cùng cộng sự đã đề xuất

giá đoạn tạo ra các đề xuất chất lượng cao với xác suất iên nghiệm tương ứng

Một vấn đề quan trọng khác trong phát hiện đối tượng dưới nước là chất lượng

hình ảnh Môi trường đưới nước thường gặp các thách thức như độ trơng phản thấp,

đã thử nghiệm việc sử dụng cái thiện hình ánh dudi nude (Underwater Image Enhancement) làm bước tiền xử lý và thực hiện phát hiện đối tượng trê các hình ảnh chất lượng hình ảnh bằng mô hình khuếch tán (Diffusion Model) trong cảnh dưới điều kiện để tạo ra hình ảnh năng cao tương ứng bằng cách sử dụng hình ảnh dưới nước và nhiễu Gaussian lim du vio ĐỂ nâng cao hiệu quả của quả ình ngược lại trong mô hình khuếch tán mô hình sử dụng hai phương pháp khác nhau Mô hình đề

7

Trang 18

xuất một mạng khử nhiễu dựa trên Transformer-based, thc day higu quả thời gia

mẫu bỏ qua để giảm số lin lap Dựa trên chiến lược ly mẫu bd qua (skip sampling

srategy), mô bình đề xuất hai phương pháp lấy mẫu không đồng nhất (non-unifom bằng thuật toán tiến hóa

Một nghiên cứu khác về việc sử dụng tương tác không gian-tẫn số và bản đổ

độ dốc để cải thiện hình ảnh dưới nước Chen Zhao ông sự I5] phát triển một khung UIE mới dựa rên bản đỗ độ đốc và tương tác tằn số Không gian, cụ thể là SFGNet Mé hinh gdm hai giả đoạn: Giai đoạn đầu iê

số không gian dày đặc (DSFENet), chủ yếu bao gồm khối hợp nhắt phạm vi dày đặc

sử dụng mạng hợp nhất tần

à khối hợp nhất không gimn dây đặc, đạt được tương tác ẫn số không gian đầy đã nhận bi

học của hình ảnh bằng bản đồ độ dốc độ dốc (GAC) để năng cao hơn nữa các chỉ it cảm nhận và cấu trúc hình

Bên cạnh đó, cũng có nghiên cứu cải thiện hình ảnh dưới nước bằng cách bù

bước sóng và khử sương mù Iohn Y, Chiang và cộng sự [21] 48 xuất một cách tiếp

để bù đấp sự chênh lệch suy giảm dọc theo đường truyén và xem xét tác động của

độ sâu, tức là khoảng cách giữa các đối tượng và máy ảnh, tiễn cảnh và hậu cánh

trong một cảnh sẽ được phần doạn Cường độ ánh sáng của tiền cảnh và hậu cảnh được so sánh để xác định xem nguồn sáng nhân tạo có được sử dụng trong quá trình hyp ảnh hay không Sau khi bù hiệu ứng của ánh sáng nhân tạo hiện tượng sương

mù và sự chênh lệch về độ suy giảm bước sóng dọc theo đường truyền đưới nước tới máy ảnh sẽ được khắc phục Tiếp theo, độ sâu của nước trong cảnh ảnh được ốc tính trên mức độ giảm dẫn ứng với mỗi bước sóng ánh sáng, iến hành bù thay đổi màu

sắc để khôi phục lại sự cân bằng mầu sắc

Mặt khác, Jie Li va cộng sự [20] sir dung mang đối nghịch sinh (GAN) được

8

Trang 19

độ sâu trong không khí trong một ống dẫn không giám sát được sử dụng cho việc sửa

màu của các hình ảnh dưới nước đơn mắt WaterGAN được áp dụng cho việc hiệu cặp độ sâu một cách hiệu quả Sử dụng WaterGAN, mô hình tạo ra một tập dữ liệu thực tế trơng ứng Cúc dĩ liệu này được sử dụng như đầu vào cho một mạng hai giai

đoạn để hiệu chỉnh màu sắc của các hình ảnh dưới nước đơn mắt

Một mạng nơ-ron tích chập (CNN) cũng được sử dụng Chongyi Li v

sự [2] sử dụng UWCNN để cải thiện h ảnh đưi nước đựa trên tiên đề của cảnh cộng

dđưới nước Thay vì ước lượng các tham số của mô hình hình ảnh dưới nước, mô hình

48 của cảnh dui nu số thể được sử dụng đ tổng hợp dữ liệu huắn luyện hình ảnh dưới nước Dựa trên cấu trúc mạng nhẹ và dữ liệu huỗn luyện hiệu quả, mô hình

UWCNN mỡ rộng sang video dưới nước để cải thiện từng khung hình Cụ thể, kết hợp mô hình vật lý hình ảnh dưới nước với các tính chất quang học của các cảnh dưới nước, trước tiên tổng hợp các bộ dữ liệu suy giảm hình ảnh dưới nước bao loại nước và mức độ suy giảm khác nhau Sau đó, một mô hình light-weight CNN’ được thiết kế để cải thiện từng loại cảnh đuới nước, được hn

huấn luyện tương ứng

Xi phương pháp loại bỏ nước khỏi hình ảnh dưới nước, D, Aktaynik và cộng

su [10] tinh bay một phương pháp khôi phục màu với mô hình đã sửa đổi bằng hình ảnh RGBD Phương pháp Sea-thru trước tiên tính toán tán xạ ngược bằng cách sử dụng các pixeltối nhất ong ảnh và thông tin phạm vi da biết của chúng Sau đó, nó

sử dụng ước tính nguồn sáng thay đổi theo không gian để thu được hệ số suy giảm

phụ thuộc vào phạm vĩ

Rishens Liu và cộng sự I30] đỀ xuất một phương pháp tăng cường học tập tương phản dưới nước đựa trên đổi thủ song sinh hướng dẫn đối tượng để đạt được mô-đun tăng cường đổi thú vòng kín ràng buộc song phương, giúp giảm bớt yêu cầu

9

Trang 20

về dữ liệu được ghép nổi theo cách không được giám sát và duy t nhiều tỉnh năng

thông tin hơn bằng cách ghép với ánh xạ nghịch đáo song sinh Mô bình áp dụng các

tín hiệu tương phân trong giai đoạn huấn luyện để làm cho hình ảnh được khôi phục hướng trực quan và thuận lợi cho việc phát hiện một mô-đun phản hồi nhận biết máy dò được kết hợp để hướng dẫn nâng cao theo hướng đỄ phát hiện

“Trong khi đó, miễn dữ liệu có tác động rất lớn đến quá tình nghiêng về dữ

mối quan hệ giữa khôi phục

liệu hiện đại Tuy nhiên, chỉ ra chính xác hiệu ứng mié

và phát hiện vẫn chưa rõ rằng Xingyu Chen và cộng sự [37| thường điều trả mắt

mô hình tiết lộ cách khôi phục hình ảnh góp phần phát hiện đổi tượng trong các cảnh khám phí quan trọng đã được báo cáo: 1) Chất lượng miễn có ảnh hướng không thể

bỏ qua đến độ chính xác phát hiện và biểu diễn tích chập trong miễn, 2) tên miễn chất lượng thấp dẫn đến khả năng khái quát hóa cao hơn trong việc phát hiện tên miền chéo: 3) miễn chất lượng thấp khó có thể được học tốt trong quá trình học tập hỗn giảm hiệu quả thu hồi, việc khôi phục không thể cải thiện độ chính hợp miễn; 4) là

xác của việc phát hiện trong miễn; 5) khôi phục hình ảnh có lợi cho việc phát hiện

trong tự nhiên bằng cách giảm sự thay đổi miỄn giữa dữ liệu huắn luyện và cảnh trong

thể giới thực,

Wei Chen và cộng sự [9] đề xuất phương pháp phát hiện đối tượng bai giai

đoạn với khối RPN attention và chiến lược đa nâng cao hiệu quả Đồi với trường hợp

hình ảnh đưới nước bị mờ, RPN atention cải thiện biểu hiện đặc trưng của các khu

giới thiệu chiến lược đa năng cao để ci thiện chất lượng của inh inh dug phat hi

"Để nâng cao hiệu quả phát hiện, chiến lược đa nâng cao của chúng tôi hoạt động

nhằm giảm sự dịch chuyển miễn giữa cảnh dưới nước và cảnh thực, đặc biệ là những

hình ảnh có hiện tượng dịch chuyển màu và biến dạng

“Tuy nhiên, những phương pháp này thưởng không đảm bảo hiệu suất phát hiện

10

Trang 21

và thậm chí có thé din dén giảm hiệu suất Lý do à các thuật toán thường cảm nhận

cảnh khác biệt so với con người và việc sửa màu sắc và độ tương phản của hình ảnh

cđưới nước không nhất thiết giúp hiểu rỡ ngữ cảnh hơn Do đó, Dai cùng cộng sự [11] đđã đề xuất một phương pháp mới, mà họ gọi là “Gated Cross-domain Collaboradive"

cường và hình ảnh gốc Họ cho rằng cả hai miễn đều có lợi cho việc phát hiện đối

tượng dưới nước Dặc biệt, hình ảnh được tăng cường giúp cải thiện chất lượng hình tương phản thấp và ánh sáng yếu gặp phải trong UOD Mặt khác, hình ảnh gốc giữ

tượng

Hình 2.1 Tổng quan phương pháp GCC

Hình 2.1 mô tả tổng quan phương pháp GCC, trong đó chứa bốn thành phần

chính gồm module tăng cường ảnh MSR, khối tương tác đặc trưng giữa các miễn, 4

module tng hợp đặc trưng có kiểm soát và một detecdon head, 2, Các tập đữ liệu tiêu chuẳn Một khí cạnh không th thị

nước là sử dụng các bộ dữ liệu phù hợp Đổi với lĩnh vực này, dữ liệu chất lượng cao trong nghiên cứu phát hiện đối tượng dưới

và đa dạng là yếu tổ quyết định cho sự phát triển của các mô hình và phương phíp Tiện nay, các nhà nghiên cứu đã xem xét một loạt các bộ dữ liệu, mỗi bộ có những nước, Bao gồm:

« ——— UTDAC2030: Là bộ dữ liệu đưới nước và là viết tất của cuộc thi

"

Trang 22

‘Underwater Target Detection Algorithm Competition 2020° C6 5168 inh anh hun Tuyện và 1293 hình ảnh xá thực Nó bao gồm 4 lớp: nhữm, holothurian, sa biển và 720x405 và 586x480

© ODD (241; Bao gồm khoảng 19,000 đối tượng thuộc ba lớp chính bao gồm sea chins (hầu biển), sea cueumbers (sò huyể) và sedllops (ngao biển)

Bộ dữ liệu này đặc trừng bởi sự đa dạng về hình dạng và kích thước của các đối

‘cho vige huấn luyện, 128 hình ảnh cho việc xác thực và 506 hình ảnh cho việc kiểm trà

DUO [3}: Day 1a phién ban duge cai thiện từ bộ dữ liệu ƯTDAC2020

Nó bao sôm 7.782

xác thực), với tổng cộng 74.515 mẫu thuộc 4 loại phổ biến: sea urchin (echinus), sea

gu có bốn độ

ình ảnh (6.671 hình ảnh cho việc huấn luyện và 1,111 cho việc

‘cucumber (holothurian), starfish, va scallop Hinh ảnh trong bộ dữ phân giải: 340 x 2160, 1920 x 1080, 720 x 405, và 586 x 480, cœ _ Brackish[2§]: Là bộ dữ liệu hình ảnh dưới nước được ghỉ lại rong môi trường nước lợ Nó bao gồm 6 lớp: cá lớn, cua, sứa, tôm, cá nhỏ, và sao biển Tập dữ liệu huấn luyện, tập dữ liệu xác thực và tập dữ liệu kiếm tra được chia ngẫu nhiên thành 9.967, 1,467, và 1,468 hình ảnh tương ứng Kích thước hình ảnh là 960 x 540,

« ——— TíashCan [19 LÀ bộ dữ liệu được chú thích về phân đoạn các đối tượng đưới nước đầu tiên, Nó bao gồm 16 lớp, bao gồm rác ROVs (Remote Operated

Vehicles ác thiết bị điều khiển từ xa), và nhiều loại sinh vật biển và cây cỏ dưới nước khác Tập dữ liệu huần luyện và tập dữ liệu kiểm tra được chia ngẫu nhiên thành 6,008 và 1.204 hình ảnh tương ứng

© WPBB [14]: Là bộ dữ liệu phát hiện các túi và chai nhựa dưới nước, bao gồm 900 hình ảnh được chú thích Nó bao gồm 2 loại phổ biển: túi nhựa và chai

và I80 hình ảnh tương ứng,

Trang 23

'Tên bộ dữ liệu | hình ảnh hình ảnh |, | Đặcdiễmchúh layer Training | Validation | Testing |

a dang vé hình

thước

Môi trường nước

Phân đoạn các TrashCan [19] | 6008 - 1204 | 16 | đốitượng dưới

nước Thất hiện túi và 'WPBB [14] Ta0 Bang 2.1 Các tập dữ liệu tiêu chuẩn - Iso | 2 chai nhya

“Thông qua Bảng 21, ta có thể có cái nhìn tổng quan hom vé các bộ dữ liệu sử dụng trong bài toán phát hiện đối tượng đưới nước Bộ đữ liệu ƯTDAC2020 cung sắp một nguồn dữ liệu phong phú về số lượng và đa dạng về độ phân giải, bao gồm

từ cực cao (3840x2160) đến thấp (5865480), cho phép các nhà nghiên cứu thử

bị khác nhau Bồn lớp đối trợng đại diện

Trang 24

Hình 2.2 Một ảnh mẫu trong bộ dữ liệu UTDAC2020 củng hộp giới han ground

truth

‘Dac trung ciia bo dit ligu UTDAC2020 được thể hiện thông qua Hình 2.2 kèm

theo hộp giới hạn ground tru cùng phân loại lớp của từng đối tượng Dễ đàng thấy

được, các đối ợng có thước khá nhỏ, nằm chồng lên nhau, màu sắc Không nỗi bật

“Tạo nên nhiề thách thức cho mô hình học máy có thể phát hiện được các đối tượng

GI DL: 4.4 PP PP FPF

Trang 25

Hình 23 Một số mẫu trong tập xác thực của bộ dữ liệu UTDAC2020,

Hinh 2.3 mô ả tổng quan tập xác thực của bộ dữ liệu ƯTDAC2020, các hình ảnh thường lấp nhau rắt nhiễu, dẫn tới sự thư thớt và thiểu độ đa dạng trong việc đại

diện cho các điều kiện môi trường biển khác nhau Sự lặp lại nhiều lần của các hình

ảnh có thể dẫn đến mô hình bị overfitin và thiểu khả năng tổng quát hóa rên các tình hoỗng mới Điều này làm giảm khả năng của mô hình trong việc nhận diện đối

tượng dưới nước trong các điều kiện môi trường khác nhau, đặc

nhiên, sự đa dạng về môi trường nước vẫn là một thách thức cần được bỏ sung thêm

đổ đạt được iệu quả cao hơn trong các tỉnh huồng thực tế

Trang 26

Hình 2.4 Tổng quan tập xác thực của bộ dữ liệu DUO thông qua một số mẫu

Ở Hình 2.4 cho thấy tổng qu n tập xác thực của bộ đữ liệu DUO, so với tập xác thực của UTDAC2020, các hình ảnh không có tính trìng lắp, dẫn tới một sự đa nhau Sự đa dạng này giúp cung cắp cho mô hình một bộ dữ liệu đa dạng hơn để học điện và phát hiện các đối tượng dưới nước trong các tình huỗng mỗi trường thực , bao gồm cả các điều kiện độ sâu, độ rõ nét và nh sáng khác nhan

“Tuy nhiên, mặc dù bộ dữ liệu DUO đã cung cấp một sự nâng cấp đáng kể so với ƯTDAC2020, thách thức về ộ đa dạng của mỗi trường nước vẫn còn ôn tại đạt được hiệu quả cao hơn trong các tình huồng thực tế, việc bỗ sung thêm các hình ảnh từ các điều in moi trường biển đa dạng sẽ vẫn là cần thế Điễu này giúp mô

hình học được các đặc điểm và biến thể của các đối tượng dưới nước trong nhiều điều, kiện khác nhau, từ đó cải thì khả năng tổng quát hóa và độ chính xác của mô hình 'Về Brackish, sự đặc trưng của bộ dữ liệu này là được ghi lại trong môi trường nước lợ, một điều kiện đặc biệt mà không nhiều bộ dữ liệu khác có Điều này cung

p một cơ hội tuyệt vời để thử nghiệm và tối tru hóa các thuật toán trong một loại

môi trường thử thách Sự đa dạng của các lớp đối tượng cũng giúp nâng cao khả năng,

ấp dụng của bộ dữ liệu này

16

Trang 27

Bộ dữ liệu TrashCan là bộ dữ liệu duy nhất tập trung vào việc phân đoạn rác

à các thiết bị điều khiển từ xa đưới nước, là mộtlĩnh vực quan trọng nhưng thường

nguồn dữ liệu vô cùng phù hợp cho đề tài nghiên cứu này,

Bộ dữ liệu UTDAC2020 là một tài nguyên quý giá không chỉ về số lượng bình

ảnh mà còn về chấlượng và da dạng của ức độ phân gi Với tổng cộng 5168 bình ảnh huấ luyện và 1293 hình ảnh xác thực, bộ dữ liệu này cung cấp một nễn táng

vũng chắc cho việc phát triển và kiểm tra các mô hình phát hiện đối tượng Bốn lớp cho một dai da dang của sinh vật biển, cho phép các nhà nghiên cứu tập trung vào các thách thức cụ thể như độ che phủ, màu sắc, và hình dáng trong môi trường dưới nước

DUO, là bản nâng cấp từ UTDAC2020, ti

nghiên cứu bng cách bổ sung thêm hình ảnh và mẫu Bao gồm 6772 hình ảnh huỗn tục mở rộng khả năng của người luyện và 1111 ình ảnh xác thực, bộ này đã tăng cường số lượng mẫu lê đến 7.51 Điều này không chỉ cải thiện khả năng đại diện của bộ dữ liệu mà côn tăng cường độ chính xác và độ tin cậy của các mô hình được phát iển từ đó Bốn độ phân giải

nhau cũng giúp đảm bảo rằng các mô hình có thể được tỗi ưu hỏa cho hiệu s các loại thiết bị khác nhan, ừ cao cắp đến thấp cắp

Trong bối cảnh nghiên cứu về phát hiện đối tượng dưới nước, việc chọn lựa UTDAC2020 va DUO là hết sức phù hợp Sự tương đồng về cúc lớp đối tượng và độ

7

Trang 28

.đồ tăng cường tính khách quan và chính xác của nghiên cứu Việc sử dụng cả hai bộ lượng hình ảnh và mẫu lớn, cung cắp một cơ sở dữ liệu to lớn cho cdữ liệu này, với s

Trang 29

3.1 Phương pháp tiền xử lý dữ liệu hình ảnh

“Tiễn xử lý đỡ liệu hình ảnh là một bước quan trọng trong quá trình chuẩn bị

dữ liệu cho việc ứng dụng học sâu vào phát hiện đối trợng dưới nước Việ hiễu rõ

cách tiễn xử lý dữ liệu có thể cải thiện hiệu suất của mô hình và làm giảm các yêu tổ thuật và phương pháp tiền xử lý dữ iệu hình ảnh phổ bin trong lĩnh vực hộ nhằm giấp tạo ra đữ liệu đầu vào tốt nhất cho mô hình

~ Chuẫn hỏa dữ liệu: Chuẩn hóa dữ liệu hình ảnh là một bước quan trọng để đảm bảo rằng các giá tri pixel trong hình ảnh cỏ cũng phạm vỉ hoặc rung bình và phương khớp

- Cắt ảnh (roppins): Kỹ thuật cắt ảnh được sử dụng để chọn ra vũng quan trọng của hình ảnh vả loại bỏ phần không cần thiết Cắt ảnh giúp giảm kích thước của dữ liệu và tập trung vào các chỉ tiết quan trọng Việc cắt ảnh cổ thể đựa trên vị tí của

cối tượng cần phát hiện hoặc các đặc trưng quan trọng khác trong hình ảnh

~ Chuyển đổi mâu (color augmentation): Mot sé ky thuật chuyên đổi màu sắc như ánh sắng, độ tương phản, hoặc màu sắc được áp dụng để tạo ra các biến thé

của hình ánh gi c Điều này giúp mô hình học sâu học cách nhận tết đối tượng dưới nước trong các điều kiện ánh sáng và màu sắc khác nhau

- Xoay và phóng to thụ nhỏ (votation and scaling): Kỹ thuật xoay và phóng to thu nhỏ được sử dụng để tạo ra các biển thể của hình ảnh Điều nảy giúp mô hình học xâu trở nên bên vững hơn đối v

hình ảnh sự biển đổi vị trí và kích thước của đối tượng trong

- Lâm mịn hình ảnh (smoothing): Lâm mịn hình ảnh là một kỹ thuật được sử dụng để giảm độ nhiễu trong hình ảnh Các kỹ thuật làm mịn hình ảnh bao gồm bộ lọc Gauss và bộ lọ trung bình, giáp loại bỏ nhiễu vả tạo ra hình ảnh mượt mà hơn

~ Phân loại màu sắc (color classification): Kỹ thuật này có thẻ được sử dụng đề: phân loại hình ảnh dựa trên mẫu sắc chung lằng cách áp dụng thuật toán phân loại mẫu sắc, ta có thể xác định các hình ánh có sự tương đồng trong màu sắc và gom

19

Trang 30

chúng lạ thành các nhôm

~ Chuyển đổi không gian màu (color space conversion): Chuyển đổi không gian màu là quá trình chuyển đổi bình ảnh ừ không gian mẫu ban đầu (vi dụ: RGB) sang

lâm nổi bật các đ c trưng cụ thể trong hình ảnh

- Phát hiện biên (edge detection): Kỹ thuật phát hiện ên giúp xác định ranh giới giữa các vùng tong hình ảnh Các thuật toán phát hiện biên như Cany hoặc Sobel có thể giúp làm nỗi bật các đường biên quan trọng và giúp mô hình học sâu đễ dàng nhận biết các đối tượng

- Lạc thông tin (infommation filering): Kỹ thuật này giúp loại bỏ thông tin không

‘cn thiết hoặc không quan trọng từ hình ảnh Ta có thể sử dụng các lọc thông tin để

tập trung vào các chỉ tiết quan trọng và giảm kích thước dữ liệu

- Tăng cường dữ liệu (data augmentatioa): Tăng cường dữ liệu là quá trình thêm

các biến thể tạo ra từ dữ lệ sốc ng cường đa dạng của tập dữ ệu Ta có H p dạng các biến đổi như xoay, địch chuyển, nghiöng, hoặc độ sắng khác nhau cho hình, ảnh đễ tạo ra các phiên bản mới cho việc huấn luyện mô hình

- Phân đoạn hình ảnh (image segmentaion): Phân đoạn hình ảnh là quá trình phân chia hình ảnh thành các vùng riêng biệt dựa trên các đặc trưng như màu sắc hoặc

Kỹ thuật này có thể iúp tích riêng đối tượng cần phát hiện khỏi nỀn

~ Loại bỏ nhiễu (noisereduetion): Khi dữ iệu hình ảnh chứa nhiễu, thuật loại

bỏ nhiễu có thể được áp dụng để giảm thiểu ảnh hưởng của nhiễu đến mô hình Các

phương pháp như loại bỏ nhiễu bằng bộ lọc hoặc sử dụng kỹ thuật dự báo có thể được

sử dụng

“Tom hi, các kỹ thuật và phương pháp iền xử ý để hình ảnh này đóng vai trồ quan trọng trong việc ạo ra dỡ liệu đầu vào tố cho mô hình học sâu và cải thiện dang, giúp mô hình học sâu học hiệu quả hơn và đáng tỉn cây hơn 3.2 Mé hinh Transformer

Mô hình Transformer 1a m@t ki trúc được giới thiệu trong bài báo "Attention SAII You Need” của Vaswani cùng cộng sự vào năm 2017 [35], đánh dấu một bước

20

Trang 31

được thiết thống như RNN (Recurrent Neural Networks) và L.STM (Long Short-Term Memory) trong việc xử lý cdữ liệu chuỗi dài do giới han

Self-attention cho phép mô hình tính toán trực tiếp các mỗi liên hệ từ xa giữa các từ

trong cùng một câu, mà không cần quan tâm đến thứ tự của chúng trong chuỗi Nhờ vậy, Transformer có thể tận dụng được khả năng tỉnh toán song song tốt hơn và xử lý

dữ liệu nhanh chồng hơn

Cơ chế Self.Attention là một phần trung tâm và đột phá trong kiến trúc

“Transformer, giáp nó phân tích và hiểu các mối quan hệ giữa các từ trong cùng một

2l

Trang 32

lập với vị trí của các phần đó trong chuỗi

“Self.Attention hoạt động bằng cách tính toán ba thành phần chính từ mỗi từ trong chuỗi: Query (Q), Key (K), và Value (V) Các vector này được inh ra từ cùng Query của nó sẽ được so sinh với các vector Key của tắt cả các từ khác trong chuỗi

để xác định mức độ quan trọng tương đối của từng từ đối với từ hiện tại Điễu này thường được thực hiện thông qua tích vô hướng giữa Query vi Key Sau khi tính toán tích vô hướng giữa Query và Key, kết quả sẽ được chỉa cho

ấy (rong đó đụ là kích thước của Key) để ôn định các giá trị trước khi áp dụng him

soÑmax

Attention(Q, K,V) = softmax (4) V [35]

“Trong 6 Q, K, ¥ là các ma trận biểu diễn cho query, Key và value; dy là kích

thước của key Phép chia cho đy giúp trắnh tỉnh trang ¿ ddient quá lớn hoặc quá

nhỏ trong quả trình học, làm cho mô hình ôn định hơn

Sau khi áp dyng sofimax, ta được một ma trận điểm số, mỗi phần tử của nó biểu diễn ác suất tương đối mã một từ nên "chú ý" đến một từ khác trong chuỗi Ma trận điểm số này sau đó được nhân với ma trận Value đ sinh ra đầu a cuối cùng của

khối Sel EAtenion

Đầu ra này là một tổng trọng số của các gi tr, nơi trọng số phản ánh mức độ tập trung của từng từ đối với các từ khác, Vì vậy, mỗi phẫn từ rong đầu ra cuỗi cùng

chúng đối với từ hiện tại

Self-Attention cho phí ‘Transformer không chi nhận biết

cđược ngữ nghĩa của từng từ một cách độc lập mà còn cả ngữ cảnh mà từ đó xuất h trong câu Nó khắc phục được hạn chế về khoảng cách giữa các từ mà các mô hình như RNN hay LSTM gặp phải, mở rộng khả năng hiểu và xử lý ngôn ngữ của máy, tính lên một tắm cao mới

2

Trang 33

Để tăng cường kha ning hoe ede méi quan he phite tap, Transformer sit dung

sơ chế Multi-Head Attention, Mé hinh niy chia veetordiu vio thinh nhigu phin vi

áp dụng selFatendon lên từng phần một cách độc lập, sau đ kết hợp kết quả lại Điều này cho phép mô hình học được các mối quan hệ từ nhiều góc độ khác nhau, từ

đồ cải thiện hiệu suấttồng thể

Vì selFattemion không có khả năng nhận biết thông ti về vị tí của từ trong cau, Transformer cin mt eich dé bao gồm thông tin này, Diễu này được thục hiện thong qua positional encoding, được cộng trực tiếp vào vector embedding của mỗi

hàm sin và cosin với tần số khác nhau:

Self-Attention, nơi mỗi đầu atention chỉ được phép nhìn vào những từ trước đó trong,

chuỗi đầu ra, nhằm tránh việc "gian lận" bằng cách nhìn vio ti dang cằn dự đoán

QKT

Maskedattention(@,K,¥) = softmas Vee (94M) 35

Trong công thức trên, M là ma trận mặt nạ(mask malrix) được thiết kế để đảm

bảo rằng các đầu atention chỉ có thể tập trung vào các từ ở vị tí rước nổ, Cấu trúc của mô hình Transformer còn bao gồm các khối Feed-Eorward tại indi layer eli encoder vi đecoder Các khối này giúp tăng cường khá năng xử lý phi tuyển của mô hình và được định nghĩa như sau

2

Trang 34

Ở đây W,„,W, là trọng số của các ting tuyển tính và bạ,b; là bias Hàm

max(0,x), hay còn gọi là ReLU, được sử dụng để thêm tinh phi tuyến vào mô hỉnh

Nhờ có kiến trúc độc đáo và hiệu quả, Transfomner đã được áp dụng rộng rãi trong nhiều lĩnh vực của AI, không chỉ giới bạn ở NLP Ví dụ, trong dịch máy, mô hình này đã đạt được những thành tựu đáng kể, làm cơ sở cho các hệ thống hiện đại như Google Translate, Bén canh 46, Transformer eng duge sit dung trong cde tae vu

xử lý âm thanh, xử lý video, và thậm chí là sinh mô hình trong học không giám sắt Mặc dù Transformer mang lại nhiễu lợi ích, mô hình này cũng đối mặt với

rất dài Để giải thách thức về tài nguyên tính toán, đặc biệt khi xử lý các chuỗi dữ li

quyết vẫn đỀ này, các nhà nghiên cứu đã phát iễn nhiều biển thé ct Transformer,

bao gồm Transformer nh hon vi higu qua hon, dp ứng tốt hơn với các yêu cầu về

hiệu năng và chi phí tính toán

34 DETR (DEteedon TRansformer)

DETR (DEtection TRansformer) [6| là mô hình phát hiện đối tượng end-to- end dựa trên cơ chế transformer do Facebook AI Research phittrién vio nim 2020

Điểm đột phá của DETR là đã đơn giản hóa pipeline phát hiện đổi tượng truyền thông, bằng ách loại bỏ nhiều thành phần thì kế thủ công như anchor generdion, nơn-

‘maximum suppression (NMS thay vào đó chỉ sử dụng mt mang no-ron end-to-end

Thuật oán hẳn luyện của DETR cũng khác biệt so với truyền thẳng Thay vì phân loại bỗi quy từng đối tượng riêng lệ, DETR sử dụng cơ chế set prediction, te trên ý tưởng bipartite matching, gán nhãn duy nhất cho mỗi đối tượng dự đoán Toàn

py

Trang 35

bộ mô hình được huấn luyện end+o-end mà không yêu cầu các giai đoạn riêng biệt như trong R-CNN

So với các mô hình tuyển thống, DETR cho độ chính xác tương đương trên tập di liệu COCO nhưng đã đơn giản hóa đáng kế quy ình phát hiện DETR chỉ cần cũng không yêu cầu các thành phầ thiết kế thủ công như ancbor hay NMS Mô hình

các địc trưng Sau đó, các đặc tưng này đi qua transformer encoder gdm nhieu lip Mỗi lớp encoder có hai phần chinh 14 multi-head self-attention va fully connected network, Transformer encoder 6 nhigm vu ma héa ee de trumg anh theo ech thức toàn cụe, tính toán mỗi quan hệ giữa các vị tí khác nhau trong ảnh Đầu ra cña encoder sau đố được đưa vào transformer decoder eiing véi cic object queries Object queries li cée vector bigu diễn ban đầu về vị tí và thông tin

các đối tuong Transformer decoder cing gdm nhiều lớp, mỗi lớp có hai loại multi-

head attention I self-attention va encoder-decoder attention Mục dich cia decoder

là trích xuất thông tin từ eneoder và biển đổi các object query ban đầu thành các đối tượng cụ thể

CChối cùng, mỗi objeet query sau khi di qua decoder sẽ được dự đoán bởi các predieion head Predietion head sử dụng các Rly connceted nehvork để xác định

25

Trang 36

xem đây có phải là một đối tượng hay không, nếu có thì thuộc lớp nào và tọa độ bounding box ciia nd Két quá lả tập các dự đoán bounding box và class của toàn bộ sắc đối tượng tong ảnh

DETR có vài nhược điểm, như tốc độ huấn luyện chậm và khó khăn trong việc phát hiện các đối tượng nho do co ché global dtention không tập trung vào các chỉ tiết tỉnh tế

3.4, Deformable DETR

Deformable DETR [41] là một sự phát triển quan trọng trong lĩnh vực nhận diện đối tượng, xây dựng trên nên tăng của mô hình DETR gốc nhưng mang lại những giải quyết một số thách thức cụ thể mà mô hình DETR gốc gặp phải, đặc bit là khi

xử lý các đối tượng nhỏ hoặc có bình dạng biến dạng Phương pháp Deformable ĐETR được mình hoạ ở Hình 3.3

Hình 3.3 Minh hoạ để

"Một ong những đội mới chính của Defomnable DETR là sự thay th cơ chế

attention toàn điện trong tú Transformer bing deformable attention, Thay vi tính toán atendon đối với toảnbộ không gian dn, deformable ttsaton ci tip tne

26

Trang 37

vào những điểm ty chọn xung quanh mỗi vị tham chi, Didw nay khong chi giép giảm bớt số lượng tính toán cần thiết mà còn cho phép mô hình tập trung một cách hiệu quả hơn vào những khu vực cụ thể mà có khả năng chứa đối tượng Cách tếp cận này đặc biệt hữu ích trong việc xử lý các tượng nhỏ hoặc có tính chất biến dạng, nơi mã việc xác định x í chính xác của đối tượng trở nên khó khăn hơn

Cụ thể, module deformable atention trong Deformable DETR tính toán đặc trưng chủ ý bằng cách sử dụng phương trình

ĐeƒformAttn(2,,pạ,x) = XN— Min[SŠ= Ama " Wnxf(Đạ + SPmge)| [41]

Trong đó:

= zy lidie mg Query

= pg lidiém tham ehiéw kh6ng gian ảnh

~ x liiban đồ đặc trưng đầu vào

~ —— M] số lượng đầu ra của Attention

~ _Ñ là số lượng điểm lấy mẫu

~ —ˆ 4sạ, là tọng số chú ý cho điểm lấy mau thir k trong attention head thir

m, được chuẩn hóa sao cho tổng các trọng số chú ý bằng 1

~ _ Apongy là độ lệch mẫu cho phép tập rung vào cúc điểm đáng chú ý

= Wh va WY, Li cae ma trên rọng số học được

Deformable DETR cũng đưa ra một chiến lược học tập đa tỷ lệ bằng cách sử

dạng các bản đồ đặc trưng (fềature maps) với độ phân giải khác nhau Bằng cách kết hợp thông tin từ các lớp khác nhau, mô hình có thể nhận diện các đối tượng ở nhiễu

tỷ ệ khác nhau, ử ắt nhỏ đến lớn, một cách hiệu quả hơn Điều này giúp tăng cường khả năng phát hiện của mô bình trong các tình huống thực tế, nơi mà đối tượng có thể xuất hiện ở bắt kỳ kích thước nào

Bên cạnh đó, để phù hợp hơn với cấu trúc dự đoán của minh, Deformable

1ỗ trợ quá trình học và giúp

ETR đã giới thiệu một hàm loss mới, được thiết kệ

quá tình huấn luyện trở nên ổn định hơn Hầm loss này giúp mô hình nhanh chống

.điều chỉnh các dự đoán của mình, đồng thời giảm thiểu các sai lệch trong quá trình

7

Ngày đăng: 30/10/2024, 07:18

w