Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện đối tượng trong không ảnh sử dụng kiến trúc RPN nhạy cảm với hướng

Tổng quan, bài toán phát hiện đối tượng trong không ảnh phải đối mặt với một số các thách thức sau: ¢ Hướng tùy ý Arbitrary orientations: Đối với hình ảnh được chụp từ góc nhìn trên cao,

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

NGUYÊN ĐỨC ANH PHÚC - 20520276

HUYNH VIET TUẦN KIỆT - 20521494

KHÓA LUẬN TÓT NGHIỆP

PHAT HIỆN DOI TƯỢNG TRONG KHÔNG ANH SỬ DỤNG KIÊN TRÚC RPN NHẠY CẢM VỚI HUONG

Object Detection in aerial image using Orientation-sensitivity RPN

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN THS VO DUY NGUYEN

TP HO CHÍ MINH, 2023

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, chúng tôi xin gửi đến hai thầy Th§ Võ Duy Nguyên và TS.

Nguyễn Tan Tran Minh Khang hai chữ “cảm ơn” chân thành nhất Trong suốt quá

trình thực hiện khóa luận, chúng tôi đã được sự quan tâm, giúp đỡ và hướng dẫn rất tận tình và tâm huyết từ hai thầy, những người đã luôn sẵn lòng trả lời mọi câu hỏi,

hỗ trợ chúng tôi vượt qua những khó khăn và khám phá tiềm năng bản thân Sự chỉ bảo của các thầy không chỉ giới hạn ở mặt chuyên môn, mà còn truyền đạt cho chúng

tôi nhiều kỹ năng và kiến thức khác, giúp chúng tôi có cái nhìn sâu sắc hơn về cuộc sống, học tập và xã hội Từ những kiến thức mà thay truyền đạt, chúng tôi đã nhận ra

ý nghĩa và cách thực hiện nghiên cứu khoa học một cách đúng đắn Thầy đã giúp tôi

nhận thức rõ ràng về tầm quan trọng của việc nghiên cứu khoa học, cũng như cách truyền tải nội dung nghiên cứu của mình một cách rõ ràng và hiệu quả đến người đọc

và người nghe Sự quan tâm và hướng dẫn tận tình cùng với những kiến thức các thầy

truyền đạt đã trở thành động lực mạnh mẽ giúp tôi hoàn thành khóa luận này.

Bên cạnh đó, tôi muốn gửi lời cảm ơn sâu sắc tới nhóm nghiên cứu

UIT-Together vì những đóng góp và thảo luận tích cực của các thành viên Nhờ sự hỗ trợ

và đóng góp ý kiến của các thầy cô, anh chị va bạn bẻ trong nhóm, tôi đã nhận được nhiều ý tưởng mới dé thử nghiệm trong khóa luận của mình Khoảng thời gian làm

việc cùng nhóm này có thé coi là một kỷ niệm đẹp nhất trong cuộc sống sinh viên của tôi, và cũng sẽ là một mốc thời gian đáng nhớ trong cuộc đời cá nhân mỗi chúng tôi.

Và cuối cùng, tôi muốn bày tỏ lòng biết ơn đến gia đình, bạn bè và các bạn

cùng trang lứa lớp KHMT2020 khóa K15 trường Đại học Công Nghệ Thông Tin Sự

chia sẻ và sự giúp đỡ mà các bạn đã dành cho tôi trong quá trình học tập và cuộc sống thật sự quý giá Tôi hy vọng rằng chúng ta sẽ mãi mãi duy trì mối quan hệ đáng quý

này.

Hy vọng rằng những điều tốt đẹp nhất sẽ luôn tiếp tục đồng hành với tất cả

mọi người.

Trang 3

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐÈ CƯƠNG CHI TIẾT

TEN DE TAI: PHÁT HIỆN DOI TƯỢNG TRONG KHÔNG ANH SỬ DỤNG

KIÊN TRÚC RPN NHẠY CẢM VỚI HƯỚNG

TEN DE TÀI TIENG ANH: OBJECT DETECTION IN AERIAL IMAGE USING

ORIENTATION-SENSITIVITY RPN

Cán bộ hướng dẫn: ThS VÕ DUY NGUYEN

Thời gian thực hiện: Từ ngày 20/02/2023 đến ngày 26/06/2023.

Sinh viên thực hiện:

1 Sinh viên 1

NGUYEN ĐỨC ANH PHÚC - 20520276 Lớp: KHMT2020

Email: 20520276@gm.uit.edu.vn Điện thoại: 0911592002

2 Sinh viên 2

HUYNH VIET TUAN KIỆT - 20521494 Lớp: KHMT2020

Email: 20521494@gm.uit.edu.vn Điện thoại: 0796616454

Nội dung đề tài:

1 Giới thiệu

Phát hiện đối tượng có hướng trong không anh (Oriented Object Detection in Aerial

images) dé cập đến tác vụ phát hiện đối tượng trong ảnh chụp từ một vị trí trên cao đồng

thời ước lượng hình dạng và hướng của các đối tượng đó trong không gian Không ảnh

thường được chụp từ máy bay, drone, vệ tinh hoặc các nền tảng bay khác và những hình

Trang 4

ảnh này cung câp chê độ xem toàn cảnh bê mặt Trái đât, ghi lại nhiêu cảnh quan, khu đô

thị, đặc điểm tự nhiên và cấu trúc nhân tạo Các phương pháp tiếp cận cho bài toán này dựa vào Deep Learning, mục tiêu trích xuất các đặc trưng được căn chỉnh hiệu quả và ước

lượng chính xác về hướng của đối tượng trong không ảnh Thông tin kết quả có thể được

sử dụng trong nhiều ứng dụng thực tế, đặc biệt trong lĩnh vực Thị giác Máy Tính (Computer Vision) như giám sát, dự báo thảm họa, cứu hộ khẩn cấp và quản lý đô thị.

Khác với cách biểu diễn đối tượng sử dụng các hộp giới hạn ngang (Horizontal Bounding Boxes), các hộp giới hạn có hướng (Oriented Bounding Boxes) bé sung thêm tham số góc

liên quan đến hướng của đối tượng trong quá trình tính toán Do đó, các mô hình phát hiện đối tượng cho bài toán này yêu cầu có nhiều tham số dé mã hóa thông tin về hướng, điều

này dư thừa và cực kì không hiệu quả Những nghiên cứu về phát hiện đối tượng trong

không ảnh trước đây đối mặt với những khó khăn do các đối tượng được chụp từ góc nhìn

chim bay thường xuất hiện với hướng tùy ý khác với các đối tượng trong ảnh chụp tự nhiên

[1] Tổng quan, bài toán phát hiện đối tượng trong không ảnh phải đối mặt với một số các

thách thức sau:

¢ Hướng tùy ý (Arbitrary orientations): Đối với hình ảnh được chụp từ góc nhìn

trên cao, các đối tượng xuất hiện với hướng tùy ý, dẫn đến nhiều thách thức ảnh

hưởng đến hiệu suất phát hiện đối tượng chính xác của mô hình.

bị như Drone/ vệ tinh có thé thay đổi từ vài centimet đến hàng trăm mét, do đó hình

ảnh được chụp bởi các cảm biến khác nhau có thể có các biến thể quy mô lớn, đặt

ra nhiều thách thức hơn yêu cầu mô hình thích ứng chính xác với kích thước đối

tượng.

e _ Nền ngoại cánh phức tap (Complex background): Bởi vì sự đa dạng và phức tạp

của bề mặt trái đất, các hình ảnh có thể chứa đa dạng các yếu tố ngoại cảnh (background) phức tap, dẫn đến đáng kể các đối tượng nhiễu sẽ can thiệp trong quá

trình phát hiện Nói cách khác, nhiều đối tượng không liên quan sẽ được phát hiện

Trang 5

đôi với hình ảnh có nên ngoại cảnh phức tạp, yêu câu mô hình phải phân biệt tôt

những đối tượng cần quan tâm và phần còn lại của hình ảnh.

Ngoài ra còn rất nhiều thách thức phải đối mặt trong bài toán phát hiện đối tượng có hướng

trong không ảnh dé xây dựng được một mô hình hoàn chỉnh có thé phát hiện chính xác và

thích ứng hoàn hảo với hướng của đối tượng [2].

Nắm bắt được xu hướng nghiên cứu và giá trị thực tiễn mà bài toán mang lại, chúng tôi

quyết định lựa chọn bài toán này để tìm hiểu, nghiên cứu và thực hiện khóa luận tốt nghiỆp.

Trong nghiên cứu này, chúng tôi đề xuất một mô hình chất lượng cao có tính nhạy cảm về

hướng thực hiện cho bài toán phát hiện đối tượng có hướng trong không ảnh, với mục tiêu

sẽ giải quyết được các thách thức mà bài toán phải đối mặt, đồng thời cải thiện độ chính

xác của mô hình dé xuất trên các bộ dữ liệu không ảnh tiêu chuẩn.

2 Phát biểu bài toán

Bài toán phát hiện đối tượng có hướng trong không ảnh biểu diễn các đối tượng xuất hiện

trong hình ảnh sứ dụng các hộp giới hạn có hướng (Oriented Bounding Box) và đồng thời

cho biết nhãn lớp (class) cũng như độ tin cậy (confidence score) của đối tượng đã được biểu diễn.

¢ Input: Hình ảnh được chụp từ góc nhìn trên cao với một hay nhiều đối tượng (hoặc

không có đối tượng) Không ảnh là ảnh được thu thập từ các ứng dụng hỗ trợ theo

dõi từ trên cao (Drone, vệ tỉnh, flycam, ) Trong đó các đối tượng được quan tâm

sẽ được phát hiện đồng thời ước lượng chính xác hướng của chúng.

¢ Output: Đầu ra của bài toán bao gồm tập các hộp giới hạn có hướng (Oriented

Bounding Boxes) xác định vị trí và hướng mỗi đối tượng xuất hiện trong hình ảnh đầu vào Ngoài ra, đầu ra cũng bao gồm nhãn/ lớp (class) của đối tượng và điểm tin

cậy (confidence score) cho biết xác suất tin cậy đối tượng hiện diện ở vị trí và

hướng đã cho.

Trang 6

Có thé thấy ngoài việc phát hiện và xác định chính xác hướng của đối tượng trong hình

ảnh Các mô hình trong bài toán phát hiện đối tượng có hướng trong không ảnh còn phải xác định được chính xác nhãn/ lớp thuộc về đối tượng đó trong điều kiện ảnh chụp từ trên

cao và kích thước của các đối tượng là cực kì nhỏ.

3 Đối tượng, phạm vi nghiên cứu

¢ = Miền dữ liệu: Ảnh chụp từ các thiết bị hỗ trợ thu thập từ trên không như Drone, vệ

tinh,

e Dé liệu thực nghiệm:

+ Bộ dữ liệu DOTA-vI [3]: DOTA-v1 là bộ dữ liệu quy mô lớn cung cấp cho

bài toán phát hiện đối tượng trong không ảnh, bao gồm 15 lớp đối tượng,

2806 hình ảnh và 188282 trường hợp được gán nhãn.

+ Bộ dữ liệu dự kiến: HRSC2016, DIOR-R

4 Mục tiêu của đề tài

Mục tiêu đề tài hướng tới bao gồm:

— Nghiên cứu và khảo sát các mô hình Deep Learning hiện có áp dụng cho bài toán

phát hiện đối tượng có hướng trong không ảnh Phân tích chỉ tiết các module có thé

tận dụng để nâng cao hiệu suất phát hiện.

Trang 7

Đề xuất phương pháp xử lí nhạy cảm với những đặc trưng có hướng và sinh ra các

đề xuất chất lượng cao cho bài toán phát hiện đối tượng có hướng trong không ảnh.

Thực nghiệm đánh giá hiệu suất của mô hình đề xuất trên các bộ dữ liệu tiêu chuẩn cho bài toán phát hiện đối tượng có hướng trong không ảnh.

Triển khai chương trình ứng dụng thực tế cho mô hình đã được đề xuất.

Nội dung nghiên cứu cúa đề tài Nội dung nghiên cứu của đề tài chia làm bốn phần:

Tim hiéu tổng quan về các cách tiếp cận cho bài toán phát hiện đối tượng có hướng

trong không ảnh.

Nghiên cứu các kiến trúc rời Tạc (backbones, necks, heads) có thể tận dụng để nâng

cao hiệu suất bài toán áp dụng trên các đối tượng có hướng trong các mô hình Deep Learning tiền nhiệm.

"Thực hiện cài đặt các phương pháp phát hiện đối tượng có hướng với các cách tiếp

cận khác nhau như One-stage, Two-stage hay Transformer-based đề so sánh và đối chiếu kết quả Tổng hợp kết quả khảo sát, phân tích cụ thể các kiến trúc bên trong

mô hình để tìm ra những ưu, nhược điềm cho từng thành phần.

Đề xuất phương pháp phát hiện đối tượng có hướng, kết hợp hiệu quả các module

dé mô hình có thể nhạy cảm thích ứng tốt với hướng (Orientation-sensitivity) và sinh ra các đề xuất chất lượng cao.

Cài đặt thực nghiệm các phương pháp label assigment cho phát hiện đối tượng có

hướng để cải thiện kết quả mô hình đề xuất.

Xem xét các kỹ thuật phát triển chương trình ứng dụng minh họa.

Phương pháp thực hiện

Đọc và tìm hiểu các mô hình và các hướng tiếp cận bài toán phát hiện đối tượng có

hướng trong không ảnh.

Đọc, va tìm hiểu, cài đặt các cách xử lí dit liệu từ bộ dữ liệu DOTA và các phương pháp phát hiện đối tượng có hướng.

Trang 8

Cài đặt phương pháp phát hiện đối tượng có hướng nhạy cảm với các đặc trưng có

hướng và sinh ra các vùng đề xuất chất lượng cao

Xây dựng mô hình đề xuất bằng cách kết hợp hiệu quả các module dưới framework

của MMDetection [4] và MMRotate [5].

So sánh và phân tích kết quả mô hình đề xuất với các phương pháp khác dé đánh

giá độ hiệu quả.

Kết quả dự kiến

Tài liệu báo cáo chỉ tiết các tìm hiểu/ khảo sát về các cách tiếp cận cho bài toán

phát hiện đối tượng trong không ảnh

Xây dựng mô hình bài toán hoàn chỉnh Thử nghiệm thành công mô hình đã xây

dựng với độ chính xác tốt hơn trong khi đạt tốc độ xử lý 6n định so với các mô hìnhhiện nay thực hiện trên bài toán phát hiện đối tượng có hướng trong không ảnh

Cung cấp source code hoàn chỉnh, các hướng dẫn và yêu cầu cần thiết về tài nguyên

Tài liệu tham khảo

[1] J Han, J Ding, N Xue and G.-S Xia, "Redet: A rotation-equivariant detector for

aerial object detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.

Y Xu, M Fu, Q Wang, Y Wang, K Chen, G.-S Xia and X Bai, "Gliding vertex

on the horizontal bounding box for multi-oriented object detection," [EEE transactions on pattern analysis and machine intelligence, vol 43, p 1452-1459,

2020.

Trang 9

K Chen, J Wang, J Pang, Y Cao, Y Xiong, X Li, S Sun, W Feng, Z Liu, J Xu

and others, "MMDetection: Open mmlab detection toolbox and benchmark," arXiv

preprint arXiv: 1906.07155, 2019.

Y Zhou, X Yang, G Zhang, J Wang, Y Liu, L Hou, X Jiang, X Liu, J Yan, C.

Lyu and others, "Mmrotate: A rotated object detection benchmark using pytorch,"

in Proceedings of the 30th ACM International Conference on Multimedia, 2022.

Kế hoạch thực hiện:

Tuan 1 - 3: Khảo sát các nghiên cứu cho bài toán phát hiện đối tượng có hướng.Tổng hợp và phân tích các kết quả khảo sát Phân tích chuyên sâu các kiến trúc rời

rạc bên trong mỗi mô hình.

Tuần 3 — 5: Cài đặt lại các phương pháp phát hiện đối tượng có hướng tiền nhiệm

và cai đặt xử lí trên bộ dữ liệu DOTA-v1 cũng như một số bộ dữ liệu dự kiến

Tuần 5 - 15: Thiết kế pipeline của mô hình, tiền hành cài đặt phương pháp đề xuất

và chạy thực nghiệm trên bộ dữ liệu DOTA.

Tuần 15 — 18: Phân tích và đánh giá kết quả của mô hình đề xuất với các phươngpháp phát hiện đối tượng có hướng trong không ảnh

Tuần 18 — Phần còn lại: Tổng kết và hoàn thiện kết quả nghiên cứu và viết báocáo dé thực nghiệm nghiên cứu khoa học Nghiên cứu và triển khai mô hình đề xuất

lên ứng dụng di động hoặc web.

Thực hiện:

e SV Nguyễn Đức Anh Phúc

e SV Huỳnh Viết Tuấn Kiệt

Trang 10

Xác nhận của CBHD TP HCM, ngày 07 tháng 03 năm 2023

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

ThS Võ Duy Nguyên Nguyễn Đức Anh Phúc

Huỳnh Viết Tuan Kiệt

Trang 11

MỤC LỤC

25590/9)1919:0090)502225 5TOM TAT KHOA LUAN 01157 20Chương 1 MO DAU ciccesceccecsssssssssesssssesscsessessessesssssesscscsssessesssssesscsessessessessessesseseeas 1

2.1 Hướng nghiên cứu phát hiện đối tượng cĩ hướng -. : + 12

2.1.1 Hồi quy hộp giới hạn định hướng (OBB Regression) - 132.1.2 Sự phát triển của phát hiện đối tượng cĩ hướng trong khơng ảnh l62.2 Cách tiếp cận phụ thuộc hộp neo (Anchor-based approaches) 19

2.2.1 Phuong pháp hai giai đoạn (Two-stage) cccccsseieeireersres 20

2.2.1.1 Rotated Faster RCNN HH HH HH HH, 20 2.2.1.2 Rotated RPN (RRPN) - -Ặ SH HH HH HH gi, 22 2.2.1.3 Rol TTranSÏOTIN€T G0 00113191 gu 23 2.2.1.4 Oriented R-CNN HH HH ng HH ng, 24 2.2.2 Phương pháp một giai đoạn (One-sStaØ€) - - 75s c+css+sssxsss 25

2.2.2.1 Rotated RetinalÌNet - LH HH HT HH HH, 25

Trang 12

2.2.2.3 Single-shot Alignment NetWOrK - 5S s series 28

2.3 Cách tiếp cận khơng phụ thuộc hộp neo (Anchor-free approaches) 29

2.3.1 Các phương pháp dựa trên điểm chính (keypoint-based) 30

2.3.2 Các phương pháp dựa trên trung tâm (center-based) - 31

2.4 Căn chỉnh đặc trưng trong phát hiện đối tượng (Feature Alignment in

6) 1882-00 33

Chương 3 PHƯƠNG PHÁP DE XUẤTT -2-©2+©++2x2£+v£x+vrxesrxrsrxeee 36

3.1 Tổng quan phương pháp dé Xuất - 2- + + ++E£+E++Ee£Eerkerkerxerxereee 363.2 Mạng dé xuất khu vực kết hợp chiến lược neo hỗn hợp 38

3.2.1 Co chế mã hĩa giải mã hộp neo 2-2 2+ s+zx+rs+rs+cez 403.2.2 Cơ chế khởi tạo 21819 101m 1 ` 42

3.2.3 Cơ chế tinh chỉnh hộp neo :- + ©5++2++zxerxzx+zrxerxerxersee 43

3.2.4 Mơ-đun tích chập nhận biết hướng (Orientation-aware Convolution)

ey A A, 44

3.3 Đầu R-CNN hộp giới hạn định hướng 2 2 s£s£+zz+£s+rxzszee 47

3.4 Cài đặt chỉ tiẾt 2c 2c 21221 2212211221211 11a 48

Chương 4 THỰC NGHIỆM - 2+ ©22+2ESEEt2EE+EEEEEEEEEEEEEEEEEEEErrkrrrrree 50

4.1.1 DOTA-VI -Ăc22S 2EE2EE 2E 2121122111111 erree 50 4.1.2 HRSC2016 ©22-2C< EEEEE22E1211711221211 11111 1C xe 51 4.1.3 — DIOR-R veccescessesssesssesssesssessesssessssssssssesssssssssssssesssessesssesssessuesseseseeesecs 51

4.2 Tiêu chuẩn đánh gid c.ccccccccccccccscsscsscssessessessesesecseesessessessessssussessessessessesseass 52

4.2.1.1 Rotated Intersection over Union (IoÙ) - s<<<<<<<++<+ 53

Trang 13

4.2.1.2 Average PreciSiOn cccccescessecesceceneeeeneceeeeceseeceaeeesneceeeseaeeeeaeees 53 4.2.2 Frame Per Second (FPS), 11111112 vn ve, 54 4.2.3 Video Random Access Memory (VRAM) :cceccesseeseeeteeeeeeereeaeees 55

4.3 Cài đặt chỉ tH6t ee eecceecccssseeecessseeseessnseecessnneecessniecessneesssnneecessnecessnees 56

A.A Các kết quả chính ¿- ¿+ k+SE+EE9EE£EE2EEEEEEEEEEEEEEEEEE121171 2111111 xe 57

4.4.1 So sánh với các phương pháp hiện đại - - 5 5< 5< <<s<+s++ 57

4.4.2 So sánh cụ thê với các chiến lược tiếp cận khác - 624.4.3 So sánh độ hiệu quả của mô-đun tích chập nhận biết hướng 63

4.5 Nghiên cứu tác động của từng mô-un - - 5 ++s+++s£++erssexseeeeerss 64

4.6 Một số kết quả trực quan hóa - s2 2 ©SE+SE+EE+EE£E£EerEerkerxerxrree 66Chương 5 KẾT LUẬN VA HƯỚNG PHÁT TRIÉN -. -: ¿-z-: 68

5.1 Kết luận ⁄ đế đ» @ \ / 68

Trang 14

DANH MỤC HÌNH

Hình 1.1 Đầu vào và đầu ra của bài toán ccccccvtitrrrtrrrrtrrrrrrrrrrrrrrir 5Hình 2.1 Minh họa sự khác nhau giữa cách biéu diễn đối tượng sử dụng hộp giới

hạn ngang căn chỉnh theo trục và hộp giới hạn định hướng [ 10] - - 14

Hình 2.2 Kiến trúc cơ bản các phương pháp phát hiện có hướng hai giai đoạn [6] 21Hình 2.3 Kiến trúc Rol Transformer được thiết kế dé phát hiện hiệu quả các đối

tượng định hướng trong hình ảnh chụp từ trên không Bao gồm hai phần chính:

RRol Learner va Rotated Position-Sensitive RoI Align (RPS-RoI-Align) [24] 23

Hình 2.4 Minh họa kiến tric Oriented R-CNN cho phát hiện đối tượng định hướnghai giai đoạn, bao gồm mạng đề xuất khu vực định hướng (oriented RPN) và đầu R-

CNN định hướng (oriented R-CNN head [40] c 52c ScccSscssexsersseresrrsses 24

Hình 2.5 Kiến trúc cơ bản của kiến trúc phương pháp phát hiện đối tượng có hướng

MOt Biai GOAN [6] - 26

Hình 2.6 Minh hoa mô hình phat hiện đối tượng Refined Rotation RetinaNet

R3BDet [31 Jo — 27

Hình 2.7 Kiến trúc phương pháp Single-shot Alignment Network S2ANet bao gồm

Hình 2.8 Sự khác nhau giữa các phương pháp không phụ thuộc neo (Anchor-free)

và dựa vào trung tâm (cenfer-basedl) [O]| - ¿5+ <+s£++ek+skEseeksekseessekseersks 32

Hình 2.9 Minh hoạt sự khác nhau trong việc lấy mẫu vị trí với trường tiếp nhận 3 x

3 của Convolution 2D tiêu chuẩn, Deformable Convolution và Alignment

Convolution (với hộp neo xoay) Cham xanh lục biéu thị vị trí lay mau, cham xanhlam biểu thi vi trí lấy mẫu được biến đổi va > đại điện trường độ dời 35Hình 3.1 Tổng quan phương pháp đề xuất Hybrid-Anchor Rotation Detector cho

bài toán phát hiện đối tượng có hướng, áp dụng chiến lược hỗn hợp cơ chế neo

trong quá trình huấn luyện . +- 2 2 2 E2 £+E£EE£EE£EEEEESEEEEEEEEEEEEEEEEerkerkerkrree 36Hình 3.2 So sánh sơ đồ tạo các đề xuất có hướng của 3 phương pháp: Rol

Transformer, Oriented R-CNN và HA-RDet (2222221111 eecee 40

Trang 15

Hình 3.3 Màu xanh lam: Mẫu tiêu cực Màu cam: Mẫu tích cực Trục đứng: số

lượng mẫu Trục ngang: Số lượng epoch Các mẫu tích cực dé huấn luyện ít và

không ồn khi quá trình huấn luyện diễn ra dẫn đến việc thiếu thông tin mà mô hình

có thé học Hiệu suất phát hiện có thé suy giảm với các mẫu tiêu cực áp đảo 41Hình 3.4 Minh họa mô-đun tích chập nhận biết hướng (O-AwareConv) Trường Độ

đời hình dạng được tính toán thông qua kích thước hộp neo; hộp giới hạn thực được

thông qua đề thực hiện phép tính độ dời hướng Độ dời hình dạng và độ dời hướngtạo ra các đặc trưng cuối cùng được sử dụng dé huấn luyện giai đoạn sàng lọc dựa

trên hộp neo Hình chữ nhật đỏ, xanh lục, xanh lam lần lượt là hộp giới hạn thực

(Ground-truth box), hộp neo (Anchor box), hình chữ nhật bao hộp giới hạn thực

(Rectangularized Ground-truth target) Mũi tên xanh va đỏ lần lượt biểu diễn độ

dời kích thước (Shape offset) và độ dời hướng (Orientation offset) Cham xanh lục,xanh lam, đó lần lượt thể hiện đặc trưng Convolution, đặc trưng hình dạng, và đặctrưng kết hợp hướng cuối cùng - + 2 2 +E£SE9EE£EEEEESEEEEEEEEEEEEErkerkerkrrkrree 44Hình 3.5 Mạng chuyên đồi dé xuat icc ceccecccccccccccscessseseesessessessessessescsssessessessessease 47

Hình 4.1 Minh hoa tinh toán Intersection over Union va Rotated Intersection over

Union trong phát hiện đối tượng -¿- 2-2 2 2S +E9EE£EEEEESEEEEEEEEEEEEEEEEErkerkerkrree 53Hinh 4.2 Két quả trực quan HA-RDet ResNet50+FPN trên bộ dữ liệu DOTA-v1.0

— _Õ- c 66

Hình 4.3 Kết quả trực quan một vài trường hợp chưa tốt của mô hình HA-RDet

ResNet50+FPN trên bộ dữ liệu DO TA -v Í.Ô -. c5 S221 vs sex 66

Trang 16

DANH MỤC BANG

Bang | Thông số chi tiết các bộ dữ liệu ảnh viễn thám được thực nghiệm 50

Bảng 2 So sánh các kết quả hiện đại trên bộ dữ liệu DOTA-v1.0 cho bài toán phát

hiện đối tượng có hướng trong không ảnh R50, R101, ReR50, RX101DCNv2,

SwinT lần lượt viết tắt cho các backbone ResNet50, ResNet101, ReResNet50,

ResNeXt101_ DCNv2, và SwiInTranSfOrImeT - - «<< < << << SE 8 1E ££eeeee 57

Bang 3 Huấn luyện HA-RDet ResNet50+FPN trên bộ dữ liệu DOTA-v1.0 với số

lượng các neo được khởi tạo khác nhau - - <6 2+ 1E E + ESkEEkEkkksrkkserske 59

Bang 4 Két quả trên bộ dữ liệu HRSC2016 dựa trên độ chính xác và số lượng neo

sinh ra trên mỗi vùng của bản đồ đặc trưng - 2-2 2+ z+EE+ExerEezExrrserxerreee 61

Bảng 5 So sánh kết quả thực nghiệm các phương pháp hiện đại trên bộ dữ liệu

DIOR-R, sử dụng cùng backbone ResNet50+FPN dé rút trích đặc trưng 61

Bảng 6 Đánh giá kết quả 3 chiến lược sử dụng hộp neo khác nhau S2A — Net tuântheo chiến lược không phụ thuộc neo, Oriented R-CNN sinh 20 hộp neo trên mỗi

vùng của bản đồ đặc trưng HA-RDet tận dụng cả hai chiến lược, sử dụng chỉ một

hộp neo trên mỗi vùng, va điều chỉnh hộp neo này sử dụng chiến lược phụ thuộc

'.n ẺÔẺ r“.ố *®eèo Yẻ //(ứ <^s ố 62 Bảng 7 So sánh độ hiệu quả của O-AwareConv so với các Convolution khác trong mô-đun căn chỉnh đặc trưng tích chập Thử nghiệm thực hiện trên bộ dữ liệu

P.9VU.0200 63

Bảng 8 Đánh giá thực nghiệm độ chính xác của mạng đề xuất khu vực kết hợp

chiến lược neo (Hybrid-Anchor RPN) trong điều kiện lược bỏ một vài các thành

0110 64

Trang 17

DANH MỤC TỪ VIET TAT

HA-RDet Hybrid-Anchor Rotation Detector

CNN Convolutional Neural Network

RNN Recurrent Neural Network

HRol(s) Horizontal Region of Interest

RRol(s) Rotated Region of Interest

HBB Horizontal Bounding Box

OBB Oriented Bounding Box

NMS Non-maximum Suppression

FPN Feature Pyramid Network

RPN Region Proposal Network

RRPN Rotated Region Proposal Network

UAV Unmanned Aerial Vehicle

GPU Graphics Processing Unit

Trang 18

TOM TAT KHÓA LUẬN

Khóa luận của chúng tôi tập trung tiếp cận bài toán phát hiện đối tượng trong

không anh sử dung cách biểu diễn hộp giới hạn định hướng (Oriented Bounding Box)

cho đối tượng Cách biễu diễn hộp giới hạn này cho phép miêu tả các đối tượng cóhướng bắt kì tốt hơn, đặc biệt trong ngữ cảnh ảnh chụp từ góc nhìn trên không

Các nghiên cứu thiết kế phương pháp phát hiện đối tượng có hướng trước đây

chủ yếu đề cập đến 2 cách tiếp cận chính là phụ thuộc neo (anchor-based) và không

phụ thuộc neo (anchor-free) Các phương pháp phụ thuộc neo thường yêu cầu một

số lượng lớn các hộp neo sinh ra dẫn đến phức tạp tính toán và tiêu thụ tài nguyên

lưu trữ lớn, trong khi các phương pháp không phụ thuộc neo chỉ sử dụng một hộp neo

trên mỗi vùng của bản đồ đặc trưng nên bị giảm một số lượng lớn mẫu huấn luyện

tích cực, dẫn đến những van đề hạn chế về độ chính xác phát hiện đạt được

Dé giải quyết các hạn chế này, khóa luận của chúng tôi tập trung giới thiệumột kiến trúc phát hiện định hướng mới gọi là Hybrid-Anchor Rotation Detector chobài toán phát hiện đối tượng có hướng trong không ảnh Nghiên cứu của chúng tôi

thực hiện một sơ đồ huấn luyện kết hợp hiệu quả điểm mạnh của cả hai cơ chế liên

quan đến neo Ngoài ra, chúng tôi giới thiệu một Orientation-aware Convolution mới

sử dung trong giai đoạn tinh chỉnh, cho phép rút trích đặc trưng dựa vào hình dang

va hướng hộp giới hạn thực mà đối tượng biéu diễn, giúp cải thiện đáng ké chất lượng

các vùng đề xuất sinh ra Dé đánh giá tính hiệu qua của phương pháp đề xuất, chúngtôi thực nghiệm mở rộng trên các bộ dữ liệu tiêu chuẩn cho bài toán phát hiện đốitượng định hướng bao gồm: DOTA-v1, HRSC2016 va DIOR-R Kết quả dat đượcthé hiện sự hiệu quả của mô hình đề xuất trong huấn luyện và thử nghiệm, chỉ yêucầu một số lượng nhỏ tài nguyên tính toán trong khi đạt được độ chính xác tiệm cận

các phương pháp hiện đại và đặc biệt thúc đây tốc độ suy luận (inference time)

Nghiên cứu của chúng tôi mục tiêu để “cầu nối” khoảng cách giữa cách tiếp

cận phụ thuộc neo và không phụ thuộc neo, cung cấp một ý tưởng cơ sở mạnh mẽ

cho các nghiên cứu phát hiện đối tượng có hướng trong tương lai

Trang 19

Chương 1 MỞ ĐẦU

1.1 Động lực nghiên cứu

Phát hiện đối tượng trong Thị giác máy tính liên quan đến tác vụ nhận diện và

định vị đối tượng quan tâm trong hình ảnh hoặc video Đây là một chủ đề quan trọngcũng như cơ bản trong lĩnh vực Thị giác máy tính và có nhiều ứng dụng thực tế trongcông nghiệp như phương tiện tự hành (autonomous vehicles), hệ thông giám sát

(surveillance systems), người may (robotics), thực té tang cuong (augmented reality)

và nhiều ứng dụng khác Mục tiêu của phát hiện đối tượng không chi phân lớp cụ thé

các đối tượng biểu diễn trong hình ảnh mà còn xác định chính xác vị trí của chúngbởi các hộp giới hạn Điều này cho phép hệ thống hiểu bối cảnh không gian và mối

quan hệ giữa các đôi tượng khác nhau.

Trong bài toán phát hiện đối tượng, hộp giới hạn ngang (Horizontal Bounding Box

— HBB) được sử dụng như một cách biểu diễn đối tượng tiêu chuẩn cho tác vụ định

vị đối tượng Tuy nhiên, cách tiếp cận này có nhiều những hạn chế khi xử lý vớikhông ảnh Đầu tiên, các đối tượng trong hình ảnh chụp từ góc nhìn trên cao thườngxuất hiện theo hướng tùy ý, chang hạn như tòa nha, xe cộ, sân bóng, đường băng, HBB với cách biéu diễn căn chỉnh theo các trục ngang dọc không thể hiện chính xáccác đối tượng này, dẫn đến xác định không chính xác vị trí đối tượng và làm giảmhiệu xuất phát hiện Chúng tôi tập trung giải quyết các thiếu sót trên của HBB trong

khóa luận này băng cách tiếp cận hướng nghiên cứu mới cho bài toán phát hiện đối

tượng, gọi là phát hiện đối tượng định hướng (Oriented Object Detection — OOD).

Bài toán OOD trình bày cách biểu diễn đối tượng sử dụng các hộp giới hạn định

hướng (Oriented Bounding Box — OBB), có thé biéu diễn chính xác hơn các đối tượngvới nhiều hướng và hình dạng khác nhau, cho phép cải thiện độ chính xác định vi.OBB căn chỉnh tốt hơn với các ranh giới đối tượng và mang lại sự phù hợp chặt chẽhơn, giúp nâng cao mạnh mẽ hiệu suất phát hiện đối tượng Do đó, việc áp dụng cáchbiểu diễn sử dung OBB ngày càng trở nên quan trọng dé đáp ứng nhu cầu định vịchính xác và hiệu quả các đối tượng trong hình ảnh hàng không

Trang 20

Hầu hết các mô hình phát hiện đối tượng tiền nhiệm cho bài toán phát hiện đốitượng có hướng phụ thuộc vào khung làm việc dựa trên các đề xuất (Proposals), bangcách sử dung Mang dé xuất khu vực dé sinh các vùng quan tam (Region of Interest —Rols) Cách biểu diễn các vùng đề xuất sinh ra cũng được quan tâm dang ké trongRPN Vùng quan tâm biểu diễn ngang (Horizontal Rols) thường bao gồm nhiều

trường hợp bên ngoài đối tượng chính cần quan tâm, điều này có thé dẫn đến sự không

rõ ràng trong các tác vụ kế tiếp như phân loại và định vi đối tượng Mặt khác, các

vùng quan tâm xoay (Rotated Rols) có thê cải thiện khả năng bao phủ (recall) và hoạt

động tốt khi các đối tượng được định hướng được phân bồ thưa thớt, nhưng cách biểu

diễn này đánh đôi với các tính toán phức tạp và yêu cầu nhiều tài nguyên máy tính délưu trữ và tính toán Chúng tôi nghiên cứu một số lí do đăng sau sự thiếu hiệu quảtrong các trình phát hiện đối tượng định hướng dựa trên đề xuất khu vực cho đến nay:

1) Đầu tiên, hau hết các phương pháp phát hiện đối tượng được định hướng

sử dụng một trong hai cách tiếp cận: phụ thuộc neo (Anchor-based) và

không phụ thuộc neo (Anchor-free) Các phương pháp phụ thuộc neo

sinh day đặc các hộp neo trên mỗi vùng của bản dé đặc trưng, cho phép đạtđược độ chính xác cao, nhưng cách tiếp cận này đối mặt với những tháchthức trong việc xử lý lượng thông tin không lồ trong chiến lược mã hóa —giải mã, dẫn đến độ nhạy đối với siêu tham số của các hộp neo và giảmđáng kể độ hiệu quả phát hiện Mặt khác, các phương pháp không phụthuộc neo loại bỏ các siêu tham số phức tạp liên quan đến các neo địnhhướng, có thé tăng tốc độ huấn luyện và suy luận nhưng giảm đáng kê độchính xác phát hiện do thiếu mẫu huấn luyện tích cực và thiếu các đặc trưng

phân cấp.

2) Kỹ thuật tích chập 2D (convolution) thông thường được sử dụng trong các

mô hình phát hiện đối tượng được thiết kế với trường tiếp nhận (receptive

field) cỗ định và được căn chỉnh theo trục, không phù hợp với các đối tượng

có hướng tùy ý và tỷ lệ khác nhau trong ảnh hàng không Sự sai lệch giữa

các đặc trưng tích chập cố định và hướng của các đối tượng trong ảnh dẫn

Trang 21

đến sự không nhất quán giữa định vị và phân loại đối tượng, dẫn đến thoái

hóa độ hiệu quả của các mô hình phát hiện đối tượng định hướng.

Những vấn đề trên dẫn đến việc phát triển một mạng đề xuất khu vực hiệu quả cókhả năng tạo ra các đề xuất chất lượng cao là rat quan trọng dé khắc phục các hạn chế

về độ chính xác và chỉ phí tính toán của các phương pháp phát hiện đối tượng cóhướng tiền nhiệm Nắm bắt được xu hướng nghiên cứu cũng như tiềm năng có thểcải thiện của bài toán, chúng tôi quyết định tập trung nghiên cứu, giải quyết bài toán

phát hiện đối tượng có hướng ảnh hàng không trong khóa luận tốt nghiệp, với mục

tiêu sẽ khảo sát và tìm ra các cách tiếp cận hiệu quả hơn, mục tiêu giải quyết triệt đểcác van đề đặt ra và đạt được kết quả state-of-the-art trên hướng nghiên cứu này

1.2 Định nghĩa bài toán

Định nghĩa chi tiết được thực hiện bởi [6], bài toán phát hiện đối tượng có hướng

liên quan đến hai tác vụ chính: Định vi (detect) và nhận diện ( identity) Mục tiêu là

xác định vị trí chính xác của các đối tượng thuộc các danh mục được xác định trướctrong một hình ảnh nhất định và gán chính xác cho chúng nhãn phân loại tương ứng.Các phương pháp phát hiện đối tượng cần phân biệt rõ ràng các đối tượng với bối

cảnh nên băng cách dự đoán danh mục và vi trí chính xác của chúng.

Trong ngữ cảnh phát hiện đối tượng có hướng, nhãn dự đoán cho mỗi đối tượng

cụ thé được xác định như một phân phối xác suất với C + 1 chiều với C là số lượng

nhãn được xác định trước, và định dạng phân phối được ký hiệu là c = (po, Py) - pc)

Phân phối nay bao gồm giá trị xác suất cho phân lớp bối cảnh nền py và C phân lớp

đã xác định trước (ø¡ > pc) Công thức chung cho bài toán phát hiện định hướng

dựa trên học sâu:

R3, giả sử răng có N đối tượng được gán

Xem xét một hình ảnh đầu vào I €

nhãn trong hình anh và thuộc một trong các nhãn lớp được xác định trước, cf và bị

biểu thị nhãn lớp và tọa độ có hướng thực của đối tượng thứ n trong ảnh IJ, ta có:

G = {(ï, bị), (có, bệ), , (cụ, bu) } (1)

Trang 22

Tập kết quả dự đoán trên hình ảnh / cũng được biểu diễn tương tự:

- Í(-P pP (cP pP P pp

P = {(cP, bP), (cP, BP), (ch, bY, ) } (2)

trong đó N, biểu thị số lượng các kết quả dự đoán, c? biểu diễn phân phối xác suất

thứ của các nhãn lớp được xác định trước va bP biểu thị tọa độ hộp giới hạn định

hướng được dự đoán thứ n.

Dé tối ưu hóa hiệu suất phát hiện, cần phải gin mỗi dự đoán là nhãn tích cực(positive) hay tiêu cực (negative) dựa vào chỉ số RloU (Rotated Intersection-over-

Union) Độ đo nay biéu diễn mức độ trùng nhau giữa 2 hộp giới han định hướng, một

dự đoán được xem là tích cực nếu tồn tại ít nhất một đối tượng được gán nhãn có mức

độ RIoU so với nó cao hơn một ngưỡng nhất định (thường là 0.5), ngược lại sẽ là

mẫu tiêu cực Với tọa độ hộp giới hạn thực có hướng Dé và tọa độ dự đoán có hướng

bP, ta có:

Area(b? nb‘)

RIoU(b?P, bt) =dc 12) Area(b? U b*)

trong đó n va U lần lượt biêu thị toán tử hợp nhau và toán tử giao nhau

Mỗi dự đoán tích cực (c?, b?) sẽ được gán với một đối tượng được chú thích(êš, P§) với giá trị RIoU cao nhất và mỗi đối tượng được chú thích có thé được gan

nhãn tích cực với nhiêu dự đoán khác nhau Cuôi cùng, mô hình sẽ được huân luyện

đê tôi thiêu hóa hàm mục tiêu, được xác định:

1 Npositiue h Np

Loss(G,P) = N » objn * Lreg( bh, bE) + TỜ, Leis (ch, ef (4)

positive n=1 Pn=1

trong đó:

e obj, giá tri nhị phan (obj, = 1 nếu mẫu dự đoán là tích cực va ngược lại

obj„ = 0 được coi là mẫu tiêu cực).

Trang 23

quả dự đoán.

e 1a tham số cân bằng điều chỉnh sự đánh đổi giữa phân loại và hồi quy

e Phép: biểu thị hàm mất mát hồi quy được kích hoạt cho mẫu dự đoán tích cực

và vô hiệu hóa với các mẫu tiêu cực.

mục tiêu hàm mất mát là định lượng sự khác nhau giữa các dự đoán và các nhãn thực

tương ứng Hàm mât mát khác nhau sẽ ảnh hưởng đên hiệu suât phát hiện cuôi cùng.

1.3 Phát biểu bài toán

Đầu vào bài toán bao gồm tập hình ảnh trên không được chụp bằng công nghệviễn thám, chăng hạn như hình ảnh vệ tinh hoặc drone, flycam Trong đó các đốitượng được quan tâm sẽ được phát hiện đồng thời ước lượng chính xác hướng của

chúng.

Đầu ra của bài toán là tập các đối tượng được phát hiện trong ảnh đầu vào Mỗi

đối tượng được phát hiện sẽ biểu diễn các thông tin: (1) nhãn lớp ma đối tượng được

phát hiện thuộc về (chăng hạn như “stadium”, “bridge”, “vehicle”), (2) hộp giới han

định hướng biểu thị tọa độ vị trí của đối tượng (các hộp giới hạn này đã hàm ý thông

tin về hình dạng, hướng và vi trí của đối tượng trong ảnh).

Đâu vào Đâu ra

Trang 24

Thuật toán phân tích hình ảnh được chụp từ trên không và phát hiện ra các đối

tượng với các nhãn lớp tương ứng của chúng di kèm với các hộp giới hạn định hướng làm đâu ra, cho phép phân tích và hiéu sâu hơn về các đôi tượng có trong hình ảnh

bối cảnh trên không

phát hiện đối tượng Vì hình ảnh viễn thám thường được chụp từ góc nhìn

chim bay, các đối tượng có thê bị nghiêng, xoay hoặc lệch theo các hướng

khác nhau — gây khó khăn cho các mô hình trong việc phát hiện va phân loại

chính xác các đối tượng có hướng tùy ý Các biến thể đa dạng của hướng đốitượng yêu cầu mô hình phải mạnh mẽ và có khả năng xử lý các đối tượng ở

các tư thế khác nhau

Da dạng ti lệ (Scale variations): Sự đa dạng tỉ lệ trong anh viễn thám phát sinh do hai yếu tố chính Thứ nhất, khoảng cách lấy mẫu mặt đất của các cảm

biến có thé thay đôi đáng kể, từ vài centimet (cm) đến hàng trăm mét (m) Điều

này dẫn đến các biến thê đa tỉ lệ trong hình ảnh viễn thám được chụp bởi cáccảm biến khác nhau tại cùng một bối cảnh Thứ hai, ngay cả trong cùng mộtdanh mục, các đối tượng trong ảnh viễn thám có thé khác nhau về kích thước

Điều này đưa ra sự đa dạng tỉ lệ ngay trong một lớp và giữa các lớp với nhau,

làm phức tạp thêm các nhiệm vụ phát hiện đối tượng.

Bối cảnh nền phức tạp (Complex background): Các đối tượng trong ảnhviễn thám thường được bao quanh bởi các bối cảnh nên khác nhau, đòi hỏi các

mô hình phát hiện phải có đủ khả năng dé phân biệt chính xác các đối tượng

Trang 25

với môi trường xung quanh Sự phân biệt này là cần thiết dé tránh dương tinhgid và dam bảo phát hiện đối tượng chính xác Ngoài ra, có thé có bối cảnhnên trong hình anh viễn thám chứa kết cấu và hình dạng tương tự đối tượng,dẫn đến một số lượng lớn cảnh báo sai Điều này có nghĩa là các mô hình cần

có khả năng phân biệt chính xác giữa các đối tượng và các yếu tố bối cảnh nền

tương tự nhau về đặc điểm

Điều kiện môi trường kém (Poor environmental conditions): Điều kiện môitrường kém trong ảnh viễn thám cũng tác động lớn đến chất lượng ảnh Cụthể, hình ảnh có thể bị ảnh hưởng bởi những thay đổi về ánh sáng, điều kiệnthời tiết xấu, sự thay đổi theo mùa và mây mù Những điều kiện môi trườngnày có thể làm giảm chất lượng của hình ảnh, dẫn đến những thách thức trongviệc phát hiện đối tượng Ngoài ra, các hình ảnh rõ ràng ban đầu có thể gặpphải các van đề như bóng, che khuất, mờ và nhiễu, điều này làm phức tạp thêm

quá trình phát hiện.

Phân bố đối tượng dày đặc (Densely packed distribution): Sự sắp xếp dàyđặc trong ảnh viễn thám đề cập đến các tình huống trong đó có nhiều vat thékích thước nhỏ được chụp và phân bố dày đặc trong ảnh, chăng hạn như tàu

trong bến cảng hoặc xe cộ trong bãi đậu xe, đặt ra một thách thức đáng ké cho

các thuật toán phát hiện đối tượng Sự sắp xếp dày đặc này dẫn đến sự giao

thoa lẫn nhau giữa các đối tượng, làm tăng độ phức tạp của việc phát hiện và

phân biệt chính xác các đối tượng riêng lẻ

Vấn đề mắt cân bằng (Imbalance problems): Một trong những thách thứctrong các nhiệm vụ phát hiện đối tượng trong ảnh viễn thám là vấn đề mat cân

bang, một số danh mục có thé có số lượng thể hiện cao hơn so với các danh

mục khác và việc phân bổ vị trí đối tượng có thể không đồng đều Hon nữa,ảnh viễn thám thường có một vùng nhỏ chứa các đối tượng, trong khi phần lớnảnh thuộc về bối cảnh nền, dẫn đến sự mat cân bang cực độ giữa tiền cảnh và

hậu cảnh Những van dé mat cân bằng này đưa ra hai thách thức: (1) hầu hếtcác vị trí trong ảnh viễn thám là bối cảnh nền, không cung cấp thông tin hữu

Trang 26

ích để huấn luyện các mô hình phát hiện đối tượng (2) Các lớp đối tượng cónhiều thể hiện hơn có xu hướng thống trị gradients trong quá trình huấn luyện,gây ra sự suy thoái mô hình, vì các mô hình có thé trở nên thiên về các danhmục chiếm ưu thế và gặp khó khăn trong việc phát hiện chính xác các đốitượng thuộc danh mục thiểu số.

ø) Tỷ lệ kích thước cạnh lớn (Large aspect ratio): Sự hiện diện của các vật thể

có hình dạng cực kỳ dài hoặc kéo dài, chăng hạn như cầu, tàu và bến cảng khiđược chụp từ góc nhìn trên cao tạo sự khác biệt đáng kê giữa chiều rộng vàchiều dài, dẫn đến tỷ lệ kích thước cạnh lớn Do góc nhìn toàn cảnh của hình

ảnh, việc phát hiện và định vị chính xác các đôi tượng này trở nên khó khăn.

Giải quyết những thách thức này thường yêu cầu phát triển các thuật toán và kỹ

thuật chuyên biệt có thê xử lý độ phức tạp và tính thay đôi liên quan đến phát hiệnđối tượng có định hướng Các phương pháp học sâu, chăng hạn như mạng thần kinhtích chập (CNN) và mang than kinh truy hồi (RNN), đã cho thấy nhiều hứa hen trongviệc giải quyết những thách thức này và cải thiện hiệu suất của các phương pháp pháthiện đối tượng định hướng

1.5 Mục tiêu và phạm vi nghiên cứu

s* Mục tiêu khóa luận hướng đến bao gồm:

— Nghiên cứu và khảo sát các mô hình dựa trên học sâu hiện có áp dụng cho bài

toán phát hiện đối tượng có hướng trong không ảnh (Oriented Object Detection

in aerial images).

— Tổng hợp một cách hệ thống các bộ dữ liệu phô biến, các mạng học sâu và các

phương pháp state-of-the-art cho bài toán phát hiện đối tượng có hướng

— Phân tích sâu và thảo luận các cách tiếp cận phổ biến khi xây dựng mô hình

phát hiện đối tượng: Một giai đoạn (one-stage) với hai giai đoạn (two-stage),

phụ thuộc neo (anchor-based) với không phụ thuộc neo (anchor-free).

Trang 27

Đề xuất phương pháp xử lý nhạy cảm với những đặc trưng có hướng va sinh

ra các đề xuất chất lượng cao cho bài toán phát hiện đối tượng có hướng trongkhông ảnh Mô hình hướng đến cải thiện độ chính xác, thúc đầy quá trình suy

luận và giảm chi phí tính toán phù hợp với ngữ cảnh giới hạn tài nguyên máy

tính.

Thực nghiệm và đánh giá hiệu suất của mô hình đề xuất trên các bộ dit liệutiêu chuẩn cho bài toán phát hiện đối tượng có hướng trong không ảnh baogồm: DOTA-v1, HRSC2016, DIOR-R Thực hiện đánh giá dựa trên nhiều tiêuchuẩn khác nhau: Độ chính xác (accuracy), thời gian suy luận (inference time),tài nguyên tính toán (VRAM), số lượng tham số

Triển khai chương trình thực tế cho mô hình xây dựng được

Phạm vi triển khai trong khóa luận:

Phương pháp: Trong nghiên cứu này, chúng tôi sẽ đề xuất một kiến trúc mớicho bài toán phát hiện đối tượng có hướng trong không ảnh (Oriented Object

Detection).

Dữ liệu thực nghiệm: Trong nghiên cứu này, chúng tôi sẽ thực nghiệm và

đánh giá phương pháp trên các bộ dữ liệu tiêu chuẩn nổi tiếng cho bài toán

phát hiện đối tượng có hướng trong không ảnh bao gồm DOTA-vi,

HRSC2016, DIOR-R.

Định dang dữ liệu: Hình ảnh (.jpg, png)

Đối tượng quan tâm: Các đối tượng phô biến trong ảnh vệ tỉnh như phương

tiện giao thông (xe, thuyền, máy bay, ), sân vận động, cầu, cảng biển, nhà

ga, và sự phân bồ nhãn lớp phụ thuộc vào việc thu thập cũng như gan nhãn

cho mỗi bộ dữ liệu.

Khung làm việc: Trong nghiên cứu này, phương pháp của chúng tôi được đề

xuất và hoạt động trên khung làm việc được được cung cấp sẵn MMRotate,

ngoài ra phụ thuộc vào Pytorch, MMCV và MMDetection.

Trang 28

1.6 Đóng góp của nghiên cứu

Nội dung cuốn báo cáo trình bày chỉ tiết về định nghĩa, mô tả bài toán phát hiện

đối tượng có hướng (Oriented Object Detection) Đối với bài toán phát hiện đối tượng

có hướng trong không ảnh (Oriened Object Detection in aerial images), báo cáo trình

bày đầy đủ các cách tiếp cận tiền nhiệm cho hướng nghiên cứu này, đưa ra phân tích

ưu nhược điểm của mỗi phương pháp dựa trên các tiêu chí đánh giá cho một bài toán

phát hiện đối tượng cơ bản Cuốn khóa luận đóng vai trò như một tài liệu tổng hợp

khá đầy đủ cho hướng nghiên cứu này

Dựa trên bài toán, báo cáo trình bày chi tiết các bộ dữ liệu tiêu chuẩn nổi tiếngcho bài toán phát hiện đối tượng có hướng trong không ảnh Đồng thời đưa ra những

phân tích chuyên sâu thách thức đối mặt trên mỗi bộ dữ liệu trong ngữ cảnh bài toán

liên quan đến hướng của đối tượng

Cuối cùng, khóa luận dé xuất một kiến trúc mới bao gồm các chiến lược và các

mô-đun mới được đánh giá kỹ lưỡng, mục tiêu cung cấp một hướng tiếp cận mới hiệuquả hơn cho bài toán phát hiện đối tượng có hướng trong không ảnh Cụ thể thiết kếmạng đề xuất khu vực đạt đề xuất chất lượng cao sử dụng chiến lược kết hợp neo vàmô-đun tích chập nhận biết hướng Thực nghiệm mở rộng được cung cấp trên các bộ

dữ liệu nổi tiếng, các backbone khác nhau và đưa ra các báo cáo phân tích đánh giá

chi tiét vê độ hiệu quả của mô hình đê xuât.

1.7 Bồ cục của luận văn

Phần còn lại của khóa luận được trình bày theo bố cục như sau:

CHUONG 2 - CÁC NGHIÊN CỨU LIEN QUAN: cung cấp một khảo sát toàn

diện về các phương pháp tiền nhiệm đã được áp dụng trong các nghiên cứu trước đây

đối với bài toán phát hiện đối tượng có hướng trong không ảnh

CHƯƠNG 3 - PHƯƠNG PHÁP ĐÈ XUẤT: Trình bày cách tiếp cận hiệu quả mớiđược đề xuất dựa cho bài toán phát hiện đối tượng có hướng trong không ảnh, bao

gôm chiên lược tiêp cận và các mô-đun đê xuât.

10

Trang 29

CHUONG 4- KET QUÁ THỰC NGHIỆM: Trinh bày thực nghiệm đánh giá chitiết mô hình đề xuất trên các bộ dữ liệu tiêu chuẩn nồi tiếng cho bài toán phát hiện

đối tượng trong không ảnh Đặc biệt mở rộng so sánh hiệu suất của các thử nghiệm

trên bộ dữ liệu DOTA-v1.0.

CHƯƠNG 5 - KET LUẬN VA HUONG PHAT TRIEN: Kết luận toàn bộ đóng

góp và nghiên cứu trong khóa luận, đưa ra các vấn đề còn tồn đọng đối với phương

pháp đề xuất và trình bày các hướng tiếp cận chưa và dự định sẽ áp dụng trong khóa

luận này.

11

Trang 30

Chương 2 CAC NGHIÊN CUU LIÊN QUAN

2.1 Hướng nghiên cứu phát hiện đối tượng có hướng

Phát hiện đối tượng (Object Detection) trong lĩnh vực thị giác máy tính trình bàycác tác vụ nhận diện và định vị đối tượng trong hình ảnh hay video Các phương phápphát hiện đối tượng kinh điển như YOLO (You Only Look Once) [7], SSD (SingleShot multi-box Detector) [8] hay Faster R-CNN [9] thường phát hiện các đối tượng

bằng cách dự đoán các hộp giới hạn căn chỉnh theo trục (Horizontal Bounding Boxes)xung quanh chúng Tuy nhiên, cách biểu diễn các hộp giới hạn này thường không

luôn luôn là cách tốt nhất dé biéu diễn đối tượng Cụ thể, nếu đối tượng bị xoay hoặc

có hình dạng bắt thường, hộp giới hạn ngang căn chỉnh theo trục có thể biêu diễn baogồm cả khu vực chứa bối cảnh nền (background), gây nhầm lẫn cho mô hình trongquá trình huấn luyện và rút trích đặc trưng vùng Hướng nghiên cứu phát hiện đốitượng có hướng (Oriented Object Detection) xuất hiện và trong tâm tập trung vào

việc cải thiện độ chính xác cũng như độ hiệu quả của việc phát hiện các đối tượng

quan tâm trong hình ảnh, đặc biệt khi đối tượng xu hiện với có hướng tùy ý trong

ảnh Hướng nghiên cứu này đặc biệt phù hợp trong các lĩnh vực như viễn thám hoặc

chụp ảnh trên không, nơi hình ảnh được chụp từ góc nhìn trên cao hoặc các vật thể

trên mặt đất được định hướng bất kỳ.

Một phần quan trọng của nghiên cứu trong lĩnh vực này liên quan đến việc thiết

kế và huấn luyện các mô hình có thé học cách nhận biết và định vị chính xác hướng

các đối tượng Điều này liên quan đến việc phát triển các kiến trúc và kỹ thuật mới

trong học máy, đặc biệt là trong lĩnh vực học sâu, bao gồm cả mạng thần kinh tích

chập (CNN) và gần đây hơn là các mô hình dựa trên Transformer Ngoài ra, nghiêncứu cũng liên quan đến việc thu thập và sàng lọc các bộ dữ liệu tiêu chuẩn dé huấnluyện các mô hình này Các bộ dữ liệu dé phát hiện đối tượng định hướng thườngđược lây từ hình ảnh trên không hoặc vệ tinh và việc gắn nhãn các bộ dữ liệu này có

thé là một nhiệm vụ day thách thức.

12

Trang 31

Đề cập đến hộp giới hạn định hướng (Oriented Bounding Box), đây là một cách

biểu diễn được sử dụng trong phát hiện đối tượng trong đó hộp giới hạn có thé được

định hướng theo hướng bất kì, không được căn chỉnh theo bất kì trục nào OBBthường được biểu thị bang một điểm trung tâm (center point), chiều rộng (width),chiều cao (height) và góc quay (angle of rotation) Điều này làm cho nó linh hoạt hơn

và phù hợp hơn dé phát hiện các đối tượng định hướng tùy ý Chi tiết về cách biểu

diễn (hồi quy) các hộp giới hạn định hướng ở mục 2.1.1

Trong ngữ cảnh ảnh chụp từ trên không, việc phát hiện đối tượng có hướng đặc

biệt quan trọng vì các đối tượng có thé xuất hiện theo bat kỳ hướng nào do phối cảnh

mà ảnh được chụp Việc phát hiện các đối tượng như vậy một cách chính xác có thê

có lợi trong một số ứng dụng như giám sát, quy hoạch đô thị, quản lý thảm họa, v.v

Mục 2.1.2 trình bày sự phát triển của bài toán phát hiện đối tượng có hướng trong

không ảnh một cách tông quan nhất

2.1.1 Hồi quy hộp giới hạn định hướng (OBB Regression)Thông thường, các phương pháp phát hiện tập trung phát hiện các đối tượng được

căn chỉnh theo trục ngang/ dọc tương ứng với hình ảnh Tuy nhiên, trong phát hiện

đối tượng có hướng, các đối tượng được chụp từ góc nhìn trên cao và đa số xuất hiện

với hướng tùy ý Hình 2.1 minh họa sự khác nhau giữa hai cách biéu diễn hộp giớihạn ngang căn chỉnh với trục và hộp giới hạn định hướng trong bối cảnh các đối tượngđược phân bố day đặc

13

Trang 32

a) Biểu diễn hộp giới hạn ngang căn b) Biểu diễn hộp giới hạn định hướng

chỉnh theo trục

Hình 2.1 Minh họa sự khác nhau giữa cách biéu diễn đối tượng sử dụng hộp giới

hạn ngang căn chỉnh theo trục và hộp giới hạn định hướng [10]

Các phương pháp dựa trên vùng đề xuất thường được sử dung dé phát hiện đốitượng định hướng Cách tiếp cận này dau tiên thường tao các “vùng ứng cử viên”trong hình anh có kha năng chứa các đối tượng và sau đó tinh chỉnh các vùng dé định

vị chính xác các đối tượng Các phương pháp dựa vào các vùng quan tâm được căn

chỉnh theo ngang (Horizontally aligned Region of Interest — HRo]) [3] [11] sử dụng

Rol Warping dé trích xuất đặc trưng từ các HRol được sinh ra Các đặc trưng này sau

đó được sử dung dé hồi quy độ dời vị trí (position offsets) so với các hộp giới hạnđược gán nhãn thực Tuy nhiên, các phương pháp dựa trên HRol gặp phải một vấn

đề gọi là căn chỉnh sai (misalignment), trong đó có thể có sự sai lệch giữa các đặc

trưng vùng và các thể hiện đối tượng thực tế được phát hiện Mặc khác, các phương

pháp dựa trên vùng quan tâm xoay (Rotated Region of Interest — RRo]) [12] [13] giải

quyết van dé căn chỉnh sai sử dung Rotated Rol Warping dé trích xuất đặc trưng từcác RRol Bang cách căn chỉnh các đặc trưng vùng với hướng của đối tượng, van dé

sai lệch được giảm thiêu Tuy nhiên, một nhược điểm của các phương pháp dựa trên

14

Trang 33

RRol là chúng yêu cầu tạo ra một số lượng lớn các đề xuất xoay (Rotated Proposals),

điêu này có thê tôn kém về mặt tính toán.

Một vài các phương pháp [12] [14] [15] [16] sử dụng thiết kế các hộp neo xoay

(Rotated Anchors) trong Mạng đề xuất khu vực [9] cho phát hiện đối tượng có hướng.

Các hộp neo xoay được xem như các hộp giới hạn xác định trước với nhiều tỉ lệ, kíchthước và góc khác nhau đóng vai trò như các mẫu tham chiếu dé tạo ra các đề xuất

khu vực Các hộp neo này được sử dụng dé khớp với các thé hiện đối tượng tiềm năng

trong hình ảnh trong quá trình tạo đề xuất Tuy nhiên, việc thiết kế neo xoay có thé

tốn nhiều thời gian do số lượng neo tăng lên đáng kẻ, dẫn đến không chỉ tăng chi phítính toán của mạng mà còn gây suy thoái độ hiệu quả của việc khớp giữa các đề xuất

và hộp giới hạn được gan nhãn thực Dé giải quyết những van đề nay, một số phươngpháp [12] [17] đã sử dụng chiến lược “relaxed mactching” dé thiết kế các hộp neoxoay Trong chiến lược này, có những hộp neo không đạt được IoU trên một ngưỡngnhất định (ví dụ: 0.5) với bất kỳ hộp giới hạn được gán nhãn thực nào nhưng vẫnđược chỉ định là mau True Positive Tuy nhiên, chiến lược này vẫn có thé gây ra vấn

đê sai lệch giữa các đặc trưng khu vực được trích xuât.

Thay vì sử dụng các hộp neo xoay, cách tiếp cận của chúng tôi vẫn xử lý dựa trên

các hộp neo được căn chỉnh ngang, và sử dụng một mạng kết nối đầy đủ nhẹ(lightweight fully connected network) để chuyên d6i các HRols sang RRols Cách

tiếp cận này tránh được yêu cầu một số lượng lớn các hộp neo, làm giảm gánh nặng

tính toán liên quan đến việc tạo và xử lý một số lượng lớn các neo xoay Hơn nữa,mạng chuyên đổi này cho phép thu được một số lượng đáng ké các RRols được xácđịnh chính xác, điều này có thể có lợi cho các tác vụ tiếp theo Ngoài ra, IoU giữa cácOBB được trực tiếp sử dụng như một tiêu chuan so khớp, giúp giải quyết hiệu quảcác van dé căn chỉnh sai có thé xảy ra khi sử dụng chiến lược “relaxed matching” hay

phụ thuộc vào so khớp hộp giới hạn ngang, góp phần cải thiện hiệu suất phát hiệntong thé

15

Trang 34

2.1.2 Sự phát triển của phát hiện đối tượng có hướng trong không ảnh

Phát hiện đối tượng đề cập đến tác vụ nhận diện và định vị đối tượng trong ảnh

hay video [7] [8] [18] [19] [20] [21] [22] [23] đã chứng kiến những tiến bộ đáng ké

trong những năm gan đây, nhờ những tiễn bộ trong kỹ thuật học sâu và thị giác máytính Phát hiện đối tượng đã tìm thấy nhiều ứng dụng trong các lĩnh vực khác nhau,chăng hạn như lái xe tự động, giám sát, người máy, v.v

Phát hiện đối tượng định hướng [24] [2] [12] [25] [26] [27] là một nghiên cứu mở

rộng của phát hiện đối tượng chung, đặc biệt tập trung vào việc phát hiện các đốitượng có thông tin định hướng Trong một số tình huống nhất định, chang hạn như

hình anh trên không, các đối tượng quan tâm có thé có hướng tùy ý do tính chất ba

chiều của chúng và góc nhìn mà hình ảnh được chụp Phát hiện đối tượng định hướng

trong ảnh hàng không đã thu hút được sự quan tâm đáng kể do phạm vi ứng dụng

rộng rãi của nó Hình ảnh trên không được sử dụng trong các lĩnh vực như viễn thám,

quy hoạch đô thị, nông nghiệp hay quản lý thảm họa Việc phát hiện và định vị chính

xác các đối tượng trong ảnh hàng không, đồng thời xem xét hướng của chúng là rất

quan trọng và được xem như là yếu tố cốt lõi mà các phương pháp phát hiện đối trongcần phải quan tâm giải quyết

Sự phát triển của các phương pháp phát hiện đối tượng định hướng cho hình ảnh

trên không hướng đến giải quyết các thách thức trong bài toán này, bao gồm tỷ lệ đốitượng xuất hiện khác nhau, thay đổi điểm nhìn, bối cảnh nền phức tạp, che khuất vàcòn nhiều các yếu tô khác Các nghiên cứu đã khám phá các kỹ thuật như hộp giớihạn định hướng (Oriented Bounding Boxes), trích xuất đặc trưng (feature extraction),

kiến trúc học sâu (Deep Learning architectures) và tăng cường dữ liệu (data

augmentation) dé cải thiện độ chính xác của phát hiện đối tượng định hướng trong

ảnh chụp từ trên không.

Các phương pháp phát hiện đối tượng kinh điển, chăng hạn như Faster R-CNN

[9], dựa vào các hộp giới hạn ngang dé định vi các đối tượng trong hình ảnh Tuy

nhiên, cách tiêp cận này có thê không năm bắt chính xác ranh giới của các đôi tượng

16

Trang 35

xuất hiện với hướng tùy ý trong ảnh hàng không Các hộp giới hạn ngang có thể baogồm cả bối cảnh nền (background), thậm chi chiém nhiéu hon déi tượng, dẫn đến sựkhông nhất quán giữa độ tin cậy phân loại cuối cùng và độ chính xác hồi quy của các

đối tượng được định hướng Dé giải quyết van dé này, các nhà nghiên cứu đã dành

sự quan tâm đáng kê dé phát triển các phương pháp phát hiện đối tượng định hướngtrong ảnh hàng không Một đóng góp đáng chú ý là việc tạo ra các bộ dữ liệu chuẩnphát hiện đối tượng quy mô lớn với các nhãn định hướng được gán, chang hạn như

bộ dữ liệu DOTA của Xia và các cộng sự [3] Các bộ dữ liệu này cung cấp một nềntảng đánh giá được tiêu chuan hóa dé đánh giá hiệu suất của các bộ phát hiện đối

tượng định hướng.

Nhiều phương pháp phát hiện đối tượng định hướng hiện có dựa trên các khunglàm việc sử dung vùng đề xuất [24] [2] [28] [12] [29] [30] Một giải pháp tự nhiên làgiới thiệu các hộp neo xoay [29] [12] chăng hạn như trong Mạng đề xuất khu Vựcxoay (Rotated RPN) [12] Các neo xoay được thiết kế với các góc, hình dạng và tỷ lệ

kích thước cạnh khác nhau, được đặt tại mỗi vị trí trong ảnh cho phép định vị chính

xác hơn các đối tượng được định hướng Tuy nhiên, nhược điểm của việc sử dụng

các hộp neo xoay dày đặc là làm tăng độ phức tạp tính toán trong quá trình phát hiện

và tăng dung lượng bộ nhớ của hệ thong Các nhà nghiên cứu tiếp tục khám phá các

kỹ thuật đề đạt được sự cân bằng giữa độ chính xác và hiệu quả, chăng hạn như tối

ưu hóa thiết kế neo, kết hợp các phương pháp trích xuất đặc trưng và tận dụng kiếntrúc học sâu dé cải thiện hiệu suất của các phương pháp phát hiện đối tượng định

hướng trong hình ảnh trên không.

Một cách tiếp cận dé giảm thiểu số lượng lớn các hộp neo xoay và cải thiện sựliên kết giữa các đặc trưng và đối tượng là sử dụng Rol Transformer do Ding và cáccộng sự đề xuất [24] Phương pháp này học vùng quan tâm xoay (Rotated Rols) từ

các Rols theo chiều ngang được tạo bởi mạng dé xuất khu vực, bằng cách chuyển đổicác Rols năm ngang thành các Rols xoay sử dụng một mang được kết nói day đủ, độ

chính xác phát hiện đối với các đối tượng được định hướng cải thiện đáng kể Tuynhiên, cách tiếp cận này tạo ra độ phức tạp bổ sung cho mạng do có sự tham gia của

17

Trang 36

các lớp được kết nối đầy đủ và thao tác căn chỉnh Rol trong quá trình học các Rolxoay Sự phức tạp gia tăng này có thê làm cho mạng nặng hơn và đòi hỏi nhiều tínhtoán hơn Dé giải quyết các thách thức cụ thé đối với phát hiện đối tượng nhỏ, dàyđặc và xoay, Yang và các cộng sự [28] đã phát trién một phương pháp phát hiện đối

tượng định hướng dựa trên khung làm việc phát hiện đối tượng Faster R-CNN, cụ thé

tạo ra một mang kết hợp lay mẫu dé kết hợp đặc trưng nhiều lớp với lay mẫu neo hiệu

quả, mục đích cải thiện độ nhạy đối với các vật thể nhỏ Xu và các cộng sự [2] xâydựng phương pháp phát hiện các đối tượng định hướng bằng cách kết hợp một biểudiễn mới gọi là các đỉnh trượt (gliding vertexes), nó học bốn độ dời đỉnh trượt trongnhánh hồi quy của đầu Faster R-CNN Tuy nhiên, cả hai phương pháp được đề cậpvan sử dung Rol ngang dé phân loại và hồi quy hộp giới hạn định hướng Do đó,

chúng có thê gặp phải các vấn đề sai lệch đáng kê giữa các đối tượng và các đặc trưng

được trích xuất, dẫn đến giảm độ chính xác của phát hiện

Các khung làm việc phát hiện đối tượng định hướng một giai đoạn hoặc khôngphụ thuộc neo [25] [27] [31] [32] [33] [34] [35] [36] [37] nhằm mục đích tao đầu ratrực tiếp các lớp đôi tượng và các hộp giới hạn được định hướng từ hình ảnh đầu vào.Các khung làm việc này loại bỏ bước trung gian của việc tạo đề xuất khu vực và thaotác căn chỉnh Rol tiếp theo, giúp đơn giản hóa quy trình phát hiện Cho ví dụ, Yang

và cộng sự [31] đã đề xuất một mô hình phát hiện đối tượng định hướng một giai

đoạn được tinh chỉnh (refined one-stage oriented object detector), kết hợp hai cải tiễnchính: Đầu tiên là tinh chỉnh đặc trưng, giúp giải quyết vấn đề sai lệch đặc trưng trongviệc phát hiện các đối tượng định hướng, cải tiến thứ hai là hồi quy lũy tiến(progressive regression), cho phép mô hình điều chỉnh dan các hộp giới hạn dự đoán,

cải thiện độ chính xác của tác vụ định vị Ming và cộng sự [32] đã thiết kế một chiến

lược gán nhãn mới dành riêng cho phát hiện đối tượng định hướng một giai đoạn dựa

trên kiến trúc cơ sở RetinaNet [19] Ý tưởng là chỉ định các hộp neo tích cực hoặc

tiêu cực bang cach su dung chiến lược so khớp mới một cách tự động Han và cộng

sự [25] đã giới thiệu Single-Shot Alignment Network (S?ANet) dé phát hiện đối

tượng định hướng S2ANet nhằm mục đích giảm bớt sự không nhất quán giữa điểm

18

Trang 37

phân loại và độ chính xác vị trí băng cách kết hợp các kỹ thuật căn chỉnh đặc trưngchuyên sâu Điều này giúp cải thiện sự căn chỉnh giữa các đặc trưng và các đối tượngđược định hướng, dẫn đến việc định vị chính xác hơn Pan và cộng sự [27] đã phát

minh ra Dynamic Refinement Network (DRN) dé phát hiện đối tượng có định

hướng dựa trên phương pháp phát hiện đối tượng không phụ thuộc neo gọi là

CenterNet [38] DRN tập trung vào việc điều chỉnh cách tiếp cận không neo dé xử lý

các đối tượng được định hướng bằng cách kết hợp các kỹ thuật sàng lọc động, chophép định vị chính xác hơn và phát hiện các đối tượng có hướng tùy ý Tóm lại, tất

cả các phương pháp này đưa ra các chiến lược và cải tiến khác nhau dé giải quyết cácthách thức của việc phát hiện đối tượng định hướng trong ảnh chụp từ trên không.Mục tiêu chung cải thiện độ chính xác của việc xác định vi trí, giải quyết sai lệch đặc

trưng và cung cấp khả năng phát hiện hiệu quả các đối tượng được định hướng mà

không cần dựa vào các bước tạo dé xuất khu vực và căn chỉnh Rol truyền thống

Khác với các phương pháp một giai đoạn đã dé cập, trong khóa luận này, chúngtôi xây dựng một hệ thống phát hiện đối tượng định hướng dựa trên vùng đề xuất,trọng tâm giải quyết những thách thức bằng cách thiết kế RPN sinh ra các vùng đềxuất ngang hiệu quả cao Hướng đến phá vỡ các tắc nghẽn về tính toán của các đềxuất có hướng và độ chính xác của các đề xuất ngang, nâng cao hiệu suất tong thé

của hệ thống phát hiện đối tượng định hướng

2.2 Cách tiếp cận phụ thuộc hộp neo (Anchor-based approaches)

Phương pháp tiếp cận dựa trên mỏ neo (anchor-based) trong phát hiện đối tượngđịnh hướng được xây dựng trên nền tang của các phương pháp phát hiện đối tượngbiéu diễn hộp giới hạn được căn chỉnh ngang (HBB) Các phương pháp này phụ thuộc

vào các điểm neo được xác định trước, được coi là các hộp giới hạn thiết kế thủ công

được sử dụng làm mẫu tham chiếu trong quá trình phát hiện Các phương pháp tiếpcận dựa trên mỏ neo có thé được chia thành hai loại phương pháp: Phát hiện hai giai

đoạn (two-stage) và một giai đoạn (one-stage).

19

Trang 38

2.2.1 Phương pháp hai giai đoạn (Two-stage)

Trong các phương pháp phát hiện hai giai đoạn, đúng với tên gọi của nó, quy trình

phát hiện bao gồm hai giai đoạn chính Đầu tiên, một tập hợp các đề xuất khu vựcđộc lập với danh mục được tạo, các đề xuất vùng này là các hộp giới hạn tiềm năng

có thé chứa các đối tượng quan tâm Trong giai đoạn thứ hai, các đặc trưng vùng quantâm cho mỗi vùng đề xuất được trích xuất từ các mạng thần kinh tích chập sâu (Deep

Convolutional Neural Networks — DCNNs) Các đặc trưng nay sau đó được sử dụng

dé phân loại và hồi quy nhằm định vị chính xác các đối tượng Cuối cùng, các kỹ

thuật hậu xử lý như Non-Maximum Suppression (NMS) được sử dụng dé loại bỏ cácphát hiện dư thừa và thu được tập đối tượng được phát hiện cuối cùng Các phươngpháp phát hiện hai giai đoạn thường thể hiện một quy trình phức tạp hơn nhưng có

xu hướng đạt được độ chính xác cao hơn.

2.2.1.1 Rotated Faster RCNN

Faster R-CNN [9] đã thu hút được sự chú ý đáng kể, được xem là phương phápphát hiện đối tượng hai giai đoạn phô biến nhờ độ chính xác cao, hiệu quả và khảnăng huấn luyện hoàn chỉnh từ đầu đến cuối (end-to-end) Nhiều cải tiến và các cấutrúc mở rộng đã được đề xuất dựa trên Faster R-CNN, chăng hạn như Mask R-CNN

[23], Cascade R-CNN [20] va Feature Pyramid Networks (FPN) [39] FPN đặc biệt

dang chú ý vì nó trích xuất thông tin ngữ nghĩa cấp cao có giá trị từ nhiều thang dobang cách sử dụng kiến trúc từ trên xuống (top-down), cho phép phát hiện đề xuấtkhu vực trên các bản đồ đặc trưng khác nhau Sự kết hợp giữa Faster R-CNN va FPN

đã cho thấy những cải tiến đáng ké trong việc phát hiện các đối tượng có kích thước

khác nhau, đặc biệt là các đối tượng nhỏ Do đó, Faster R-CNN + FPN đã trở thành

một tiêu chuẩn dé phát triển và so sánh các phương pháp phát hiện đối tượng khác.Bang cách giới thiệu một chiều đầu ra bé sung dé ước tính hướng của từng đối tượng,

một phiên bản mở rộng của Faster R-CNN được gọi là Faster R-CNN OBB (Faster

R-CNN Oriented Bounding Box) hoặc Rotated Faster R-CNN [9] có thé duoc strdung dé phát hiện đối tượng định hướng Phiên ban mở rộng này cho phép mô hình

20

Trang 39

phát hiện các đối tượng có hướng tùy ý một cách chính xác và đóng vai trò là điểmchuẩn dé đánh giá hiệu suất của các phương pháp phát hiện đối tượng có định hướngmới khác Kiến trúc Rotated Faster R-CNN được minh họa ở Hình 2.2:

= sf oriented region proposals

I operator

Hình 2.2 Kiến trúc co bản các phương pháp phát hiện có hướng hai giai đoạn [6]Kiến trúc cơ bản được thé hiện bao gồm:

(1) Tạo bản đồ đặc trưng (Feature map generation): Bản đồ đặc trưng đa cấp

với thông tin ngữ nghĩa được trích xuất bằng CNN và kiến trúc FPN

(2) Mạng đề xuất khu vực (Region Proposal Networks): RPN lấy các bản đồ

đặc trưng làm đầu vào và tạo các đề xuất khu vực băng cách đây các đầu vàoqua một mạng Nó dự đoán xác suất của các đối tượng hoặc bối cảnh nền và

tinh chỉnh vi trí thô của các hộp neo đại diện cho các đối tượng tiềm năng.

(3) Đặc trưng vùng với CNN (Regions with CNN features): Các thao tác Rol

chuyên đổi các đề xuất vùng thành bản đồ đặc trưng kích thước cố định Các

bản đồ này sau đó được xử lý bởi các lớp kết nối đầy đủ (Fully Connected) dé

ước tính xác suất cho các danh mục khác nhau và tinh chỉnh hướng cũng như

vị trí của các đối tượng

Tuy nhiên, thiết kế vốn có của mạng đề xuất khu vực cơ bản tạo ra các đề xuấtvùng ngang (HRols), đưa ra các vấn đề căn chỉnh giữa các hộp giới hạn ngang và cácđối tượng hướng tùy ý Ngoài ra, sự hiện diện của nhiều đối tượng được định hướng

21

Trang 40

và đóng gói day đặc trong một HRols duy nhất dẫn đến chứa một lượng đáng ké dữ

liệu không liên quan, do đó thêm các thách thức trong việc phân loại và định vị Tuy

nhiên, những hạn chế này đã thúc đây những tiễn bộ tiếp theo và cách tiếp cận sángtạo trong lĩnh vực này Một số cách tiếp cận đáng chú ý trong hướng nghiên cứu pháthiện đối tượng hướng hai giai đoạn, bao gồm RRPN, Rol Transformer và OrientedR-CNN, đã nổi lên như những phương pháp có ảnh hưởng

2.2.1.2 Rotated RPN (RRPN)

Do những han chế của hộp neo ngang và HRols trong phát hiện đối tượng định

hướng, mạng đề xuất khu vực xoay (Rotated RPN — RRPN) đã được phát triển đểgiải quyết những thách thức này trong ảnh viễn thám RRPN [12] giới thiệu các hộpneo xoay dé phù hợp hơn với các đối tượng có các hướng khác nhau và tạo các đề

xuất xoay Các tham số định hướng được kết hợp dé tạo ra nhiều loại neo với các góc,

kích thước và hình dạng khác nhau, các neo này sau đó được sử dụng trong các lớp

hồi quy hộp giới hạn định hướng dé cải thiện độ chính xác của các đề xuất vùng được

xoay Đề xử lý các đề xuất xoay này, RRPN giới thiệu các phép Rotated Rol (RRol),

chăng hạn như RRol Pooling [12] hoặc RRoI Align [16] [24] Không giống như các

phép Rol truyền thống chỉ xử lý các đề xuất theo chiều ngang, phép RRol trích xuất

bản đồ tính năng có kích thước cô định dựa trên OBB của các đề xuất xoay, cho phéploại bỏ các thông tin nhiễu không liên quan Thiết kế của neo xoay và các phép RRoltrong RRPN góp phan cải thiện hồi quy và tỷ lệ thu hồi (recall) cao hon

Tuy nhiên, RRPN có những nhược điểm đáng kể Thứ nhất, dé cân bằng phạm viđịnh hướng và độ phức tạp tính toán, chỉ một số lượng giới hạn các hướng được lây

mẫu, gây khó khăn cho việc bao phủ toàn diện Thứ hai, mật độ hộp neo xoay trong

RRPN dẫn đến số lượng neo lớn hơn đáng ké so với RPN thông thường, dẫn đến tăngyêu cau về bộ nhớ và tính toán Cuối cùng, số lượng lớn các neo xoay ảnh hưởng tiêucực đến hiệu quả của quá trình so khớp tiếp theo giữa các đề xuất và các hộp giới hạn

được gan nhãn thực Quá trình tính toán cua Rotated IoU (RIoU) phức tap hơn IoU

và chứa các tính toán dư thừa, làm chậm quá trình hơn nữa.

22

Tiêu đề	Phát hiện đối tượng trong không ảnh sử dụng kiến trúc RPN nhạy cảm với hướng
Tác giả	Nguyên Đức Anh Phúc, Huynh Viet Tuan Kiet
Người hướng dẫn	ThS. Võ Duy Nguyên
Trường học	Trường Đại học Công Nghệ Thông Tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	94
Dung lượng	57,78 MB