Tổng quan, bài toán phát hiện đối tượng trong không ảnh phải đối mặt với một số các thách thức sau: ¢ Hướng tùy ý Arbitrary orientations: Đối với hình ảnh được chụp từ góc nhìn trên cao,
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
NGUYÊN ĐỨC ANH PHÚC - 20520276
HUYNH VIET TUẦN KIỆT - 20521494
KHÓA LUẬN TÓT NGHIỆP
PHAT HIỆN DOI TƯỢNG TRONG KHÔNG ANH SỬ DỤNG KIÊN TRÚC RPN NHẠY CẢM VỚI HUONG
Object Detection in aerial image using Orientation-sensitivity RPN
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN THS VO DUY NGUYEN
TP HO CHÍ MINH, 2023
Trang 2LỜI CẢM ƠN
Lời đầu tiên, chúng tôi xin gửi đến hai thầy Th§ Võ Duy Nguyên và TS.
Nguyễn Tan Tran Minh Khang hai chữ “cảm ơn” chân thành nhất Trong suốt quá
trình thực hiện khóa luận, chúng tôi đã được sự quan tâm, giúp đỡ và hướng dẫn rất tận tình và tâm huyết từ hai thầy, những người đã luôn sẵn lòng trả lời mọi câu hỏi,
hỗ trợ chúng tôi vượt qua những khó khăn và khám phá tiềm năng bản thân Sự chỉ bảo của các thầy không chỉ giới hạn ở mặt chuyên môn, mà còn truyền đạt cho chúng
tôi nhiều kỹ năng và kiến thức khác, giúp chúng tôi có cái nhìn sâu sắc hơn về cuộc sống, học tập và xã hội Từ những kiến thức mà thay truyền đạt, chúng tôi đã nhận ra
ý nghĩa và cách thực hiện nghiên cứu khoa học một cách đúng đắn Thầy đã giúp tôi
nhận thức rõ ràng về tầm quan trọng của việc nghiên cứu khoa học, cũng như cách truyền tải nội dung nghiên cứu của mình một cách rõ ràng và hiệu quả đến người đọc
và người nghe Sự quan tâm và hướng dẫn tận tình cùng với những kiến thức các thầy
truyền đạt đã trở thành động lực mạnh mẽ giúp tôi hoàn thành khóa luận này.
Bên cạnh đó, tôi muốn gửi lời cảm ơn sâu sắc tới nhóm nghiên cứu
UIT-Together vì những đóng góp và thảo luận tích cực của các thành viên Nhờ sự hỗ trợ
và đóng góp ý kiến của các thầy cô, anh chị va bạn bẻ trong nhóm, tôi đã nhận được nhiều ý tưởng mới dé thử nghiệm trong khóa luận của mình Khoảng thời gian làm
việc cùng nhóm này có thé coi là một kỷ niệm đẹp nhất trong cuộc sống sinh viên của tôi, và cũng sẽ là một mốc thời gian đáng nhớ trong cuộc đời cá nhân mỗi chúng tôi.
Và cuối cùng, tôi muốn bày tỏ lòng biết ơn đến gia đình, bạn bè và các bạn
cùng trang lứa lớp KHMT2020 khóa K15 trường Đại học Công Nghệ Thông Tin Sự
chia sẻ và sự giúp đỡ mà các bạn đã dành cho tôi trong quá trình học tập và cuộc sống thật sự quý giá Tôi hy vọng rằng chúng ta sẽ mãi mãi duy trì mối quan hệ đáng quý
này.
Hy vọng rằng những điều tốt đẹp nhất sẽ luôn tiếp tục đồng hành với tất cả
mọi người.
Trang 3ĐẠI HỌC QUOC GIA TP HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐÈ CƯƠNG CHI TIẾT
TEN DE TAI: PHÁT HIỆN DOI TƯỢNG TRONG KHÔNG ANH SỬ DỤNG
KIÊN TRÚC RPN NHẠY CẢM VỚI HƯỚNG
TEN DE TÀI TIENG ANH: OBJECT DETECTION IN AERIAL IMAGE USING
ORIENTATION-SENSITIVITY RPN
Cán bộ hướng dẫn: ThS VÕ DUY NGUYEN
Thời gian thực hiện: Từ ngày 20/02/2023 đến ngày 26/06/2023.
Sinh viên thực hiện:
1 Sinh viên 1
NGUYEN ĐỨC ANH PHÚC - 20520276 Lớp: KHMT2020
Email: 20520276@gm.uit.edu.vn Điện thoại: 0911592002
2 Sinh viên 2
HUYNH VIET TUAN KIỆT - 20521494 Lớp: KHMT2020
Email: 20521494@gm.uit.edu.vn Điện thoại: 0796616454
Nội dung đề tài:
1 Giới thiệu
Phát hiện đối tượng có hướng trong không anh (Oriented Object Detection in Aerial
images) dé cập đến tác vụ phát hiện đối tượng trong ảnh chụp từ một vị trí trên cao đồng
thời ước lượng hình dạng và hướng của các đối tượng đó trong không gian Không ảnh
thường được chụp từ máy bay, drone, vệ tinh hoặc các nền tảng bay khác và những hình
Trang 4ảnh này cung câp chê độ xem toàn cảnh bê mặt Trái đât, ghi lại nhiêu cảnh quan, khu đô
thị, đặc điểm tự nhiên và cấu trúc nhân tạo Các phương pháp tiếp cận cho bài toán này dựa vào Deep Learning, mục tiêu trích xuất các đặc trưng được căn chỉnh hiệu quả và ước
lượng chính xác về hướng của đối tượng trong không ảnh Thông tin kết quả có thể được
sử dụng trong nhiều ứng dụng thực tế, đặc biệt trong lĩnh vực Thị giác Máy Tính (Computer Vision) như giám sát, dự báo thảm họa, cứu hộ khẩn cấp và quản lý đô thị.
Khác với cách biểu diễn đối tượng sử dụng các hộp giới hạn ngang (Horizontal Bounding Boxes), các hộp giới hạn có hướng (Oriented Bounding Boxes) bé sung thêm tham số góc
liên quan đến hướng của đối tượng trong quá trình tính toán Do đó, các mô hình phát hiện đối tượng cho bài toán này yêu cầu có nhiều tham số dé mã hóa thông tin về hướng, điều
này dư thừa và cực kì không hiệu quả Những nghiên cứu về phát hiện đối tượng trong
không ảnh trước đây đối mặt với những khó khăn do các đối tượng được chụp từ góc nhìn
chim bay thường xuất hiện với hướng tùy ý khác với các đối tượng trong ảnh chụp tự nhiên
[1] Tổng quan, bài toán phát hiện đối tượng trong không ảnh phải đối mặt với một số các
thách thức sau:
¢ Hướng tùy ý (Arbitrary orientations): Đối với hình ảnh được chụp từ góc nhìn
trên cao, các đối tượng xuất hiện với hướng tùy ý, dẫn đến nhiều thách thức ảnh
hưởng đến hiệu suất phát hiện đối tượng chính xác của mô hình.
© Da tilé (Scale variations): Khoảng cách đề lấy mẫu/ thu thập dữ liệu của các thiết
bị như Drone/ vệ tinh có thé thay đổi từ vài centimet đến hàng trăm mét, do đó hình
ảnh được chụp bởi các cảm biến khác nhau có thể có các biến thể quy mô lớn, đặt
ra nhiều thách thức hơn yêu cầu mô hình thích ứng chính xác với kích thước đối
tượng.
e _ Nền ngoại cánh phức tap (Complex background): Bởi vì sự đa dạng và phức tạp
của bề mặt trái đất, các hình ảnh có thể chứa đa dạng các yếu tố ngoại cảnh (background) phức tap, dẫn đến đáng kể các đối tượng nhiễu sẽ can thiệp trong quá
trình phát hiện Nói cách khác, nhiều đối tượng không liên quan sẽ được phát hiện
Trang 5đôi với hình ảnh có nên ngoại cảnh phức tạp, yêu câu mô hình phải phân biệt tôt
những đối tượng cần quan tâm và phần còn lại của hình ảnh.
Ngoài ra còn rất nhiều thách thức phải đối mặt trong bài toán phát hiện đối tượng có hướng
trong không ảnh dé xây dựng được một mô hình hoàn chỉnh có thé phát hiện chính xác và
thích ứng hoàn hảo với hướng của đối tượng [2].
Nắm bắt được xu hướng nghiên cứu và giá trị thực tiễn mà bài toán mang lại, chúng tôi
quyết định lựa chọn bài toán này để tìm hiểu, nghiên cứu và thực hiện khóa luận tốt nghiỆp.
Trong nghiên cứu này, chúng tôi đề xuất một mô hình chất lượng cao có tính nhạy cảm về
hướng thực hiện cho bài toán phát hiện đối tượng có hướng trong không ảnh, với mục tiêu
sẽ giải quyết được các thách thức mà bài toán phải đối mặt, đồng thời cải thiện độ chính
xác của mô hình dé xuất trên các bộ dữ liệu không ảnh tiêu chuẩn.
2 Phát biểu bài toán
Bài toán phát hiện đối tượng có hướng trong không ảnh biểu diễn các đối tượng xuất hiện
trong hình ảnh sứ dụng các hộp giới hạn có hướng (Oriented Bounding Box) và đồng thời
cho biết nhãn lớp (class) cũng như độ tin cậy (confidence score) của đối tượng đã được biểu diễn.
¢ Input: Hình ảnh được chụp từ góc nhìn trên cao với một hay nhiều đối tượng (hoặc
không có đối tượng) Không ảnh là ảnh được thu thập từ các ứng dụng hỗ trợ theo
dõi từ trên cao (Drone, vệ tỉnh, flycam, ) Trong đó các đối tượng được quan tâm
sẽ được phát hiện đồng thời ước lượng chính xác hướng của chúng.
¢ Output: Đầu ra của bài toán bao gồm tập các hộp giới hạn có hướng (Oriented
Bounding Boxes) xác định vị trí và hướng mỗi đối tượng xuất hiện trong hình ảnh đầu vào Ngoài ra, đầu ra cũng bao gồm nhãn/ lớp (class) của đối tượng và điểm tin
cậy (confidence score) cho biết xác suất tin cậy đối tượng hiện diện ở vị trí và
hướng đã cho.
Trang 6Có thé thấy ngoài việc phát hiện và xác định chính xác hướng của đối tượng trong hình
ảnh Các mô hình trong bài toán phát hiện đối tượng có hướng trong không ảnh còn phải xác định được chính xác nhãn/ lớp thuộc về đối tượng đó trong điều kiện ảnh chụp từ trên
cao và kích thước của các đối tượng là cực kì nhỏ.
3 Đối tượng, phạm vi nghiên cứu
¢ = Miền dữ liệu: Ảnh chụp từ các thiết bị hỗ trợ thu thập từ trên không như Drone, vệ
tinh,
e Dé liệu thực nghiệm:
+ Bộ dữ liệu DOTA-vI [3]: DOTA-v1 là bộ dữ liệu quy mô lớn cung cấp cho
bài toán phát hiện đối tượng trong không ảnh, bao gồm 15 lớp đối tượng,
2806 hình ảnh và 188282 trường hợp được gán nhãn.
+ Bộ dữ liệu dự kiến: HRSC2016, DIOR-R
4 Mục tiêu của đề tài
Mục tiêu đề tài hướng tới bao gồm:
— Nghiên cứu và khảo sát các mô hình Deep Learning hiện có áp dụng cho bài toán
phát hiện đối tượng có hướng trong không ảnh Phân tích chỉ tiết các module có thé
tận dụng để nâng cao hiệu suất phát hiện.
Trang 7Đề xuất phương pháp xử lí nhạy cảm với những đặc trưng có hướng và sinh ra các
đề xuất chất lượng cao cho bài toán phát hiện đối tượng có hướng trong không ảnh.
Thực nghiệm đánh giá hiệu suất của mô hình đề xuất trên các bộ dữ liệu tiêu chuẩn cho bài toán phát hiện đối tượng có hướng trong không ảnh.
Triển khai chương trình ứng dụng thực tế cho mô hình đã được đề xuất.
Nội dung nghiên cứu cúa đề tài Nội dung nghiên cứu của đề tài chia làm bốn phần:
Tim hiéu tổng quan về các cách tiếp cận cho bài toán phát hiện đối tượng có hướng
trong không ảnh.
Nghiên cứu các kiến trúc rời Tạc (backbones, necks, heads) có thể tận dụng để nâng
cao hiệu suất bài toán áp dụng trên các đối tượng có hướng trong các mô hình Deep Learning tiền nhiệm.
"Thực hiện cài đặt các phương pháp phát hiện đối tượng có hướng với các cách tiếp
cận khác nhau như One-stage, Two-stage hay Transformer-based đề so sánh và đối chiếu kết quả Tổng hợp kết quả khảo sát, phân tích cụ thể các kiến trúc bên trong
mô hình để tìm ra những ưu, nhược điềm cho từng thành phần.
Đề xuất phương pháp phát hiện đối tượng có hướng, kết hợp hiệu quả các module
dé mô hình có thể nhạy cảm thích ứng tốt với hướng (Orientation-sensitivity) và sinh ra các đề xuất chất lượng cao.
Cài đặt thực nghiệm các phương pháp label assigment cho phát hiện đối tượng có
hướng để cải thiện kết quả mô hình đề xuất.
Xem xét các kỹ thuật phát triển chương trình ứng dụng minh họa.
Phương pháp thực hiện
Đọc và tìm hiểu các mô hình và các hướng tiếp cận bài toán phát hiện đối tượng có
hướng trong không ảnh.
Đọc, va tìm hiểu, cài đặt các cách xử lí dit liệu từ bộ dữ liệu DOTA và các phương pháp phát hiện đối tượng có hướng.
Trang 8Cài đặt phương pháp phát hiện đối tượng có hướng nhạy cảm với các đặc trưng có
hướng và sinh ra các vùng đề xuất chất lượng cao
Xây dựng mô hình đề xuất bằng cách kết hợp hiệu quả các module dưới framework
của MMDetection [4] và MMRotate [5].
So sánh và phân tích kết quả mô hình đề xuất với các phương pháp khác dé đánh
giá độ hiệu quả.
Kết quả dự kiến
Tài liệu báo cáo chỉ tiết các tìm hiểu/ khảo sát về các cách tiếp cận cho bài toán
phát hiện đối tượng trong không ảnh
Xây dựng mô hình bài toán hoàn chỉnh Thử nghiệm thành công mô hình đã xây
dựng với độ chính xác tốt hơn trong khi đạt tốc độ xử lý 6n định so với các mô hìnhhiện nay thực hiện trên bài toán phát hiện đối tượng có hướng trong không ảnh
Cung cấp source code hoàn chỉnh, các hướng dẫn và yêu cầu cần thiết về tài nguyên
Tài liệu tham khảo
[1] J Han, J Ding, N Xue and G.-S Xia, "Redet: A rotation-equivariant detector for
aerial object detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.
Y Xu, M Fu, Q Wang, Y Wang, K Chen, G.-S Xia and X Bai, "Gliding vertex
on the horizontal bounding box for multi-oriented object detection," [EEE transactions on pattern analysis and machine intelligence, vol 43, p 1452-1459,
2020.
Trang 9K Chen, J Wang, J Pang, Y Cao, Y Xiong, X Li, S Sun, W Feng, Z Liu, J Xu
and others, "MMDetection: Open mmlab detection toolbox and benchmark," arXiv
preprint arXiv: 1906.07155, 2019.
Y Zhou, X Yang, G Zhang, J Wang, Y Liu, L Hou, X Jiang, X Liu, J Yan, C.
Lyu and others, "Mmrotate: A rotated object detection benchmark using pytorch,"
in Proceedings of the 30th ACM International Conference on Multimedia, 2022.
Kế hoạch thực hiện:
Tuan 1 - 3: Khảo sát các nghiên cứu cho bài toán phát hiện đối tượng có hướng.Tổng hợp và phân tích các kết quả khảo sát Phân tích chuyên sâu các kiến trúc rời
rạc bên trong mỗi mô hình.
Tuần 3 — 5: Cài đặt lại các phương pháp phát hiện đối tượng có hướng tiền nhiệm
và cai đặt xử lí trên bộ dữ liệu DOTA-v1 cũng như một số bộ dữ liệu dự kiến
Tuần 5 - 15: Thiết kế pipeline của mô hình, tiền hành cài đặt phương pháp đề xuất
và chạy thực nghiệm trên bộ dữ liệu DOTA.
Tuần 15 — 18: Phân tích và đánh giá kết quả của mô hình đề xuất với các phươngpháp phát hiện đối tượng có hướng trong không ảnh
Tuần 18 — Phần còn lại: Tổng kết và hoàn thiện kết quả nghiên cứu và viết báocáo dé thực nghiệm nghiên cứu khoa học Nghiên cứu và triển khai mô hình đề xuất
lên ứng dụng di động hoặc web.
Thực hiện:
e SV Nguyễn Đức Anh Phúc
e SV Huỳnh Viết Tuấn Kiệt
Trang 10Xác nhận của CBHD TP HCM, ngày 07 tháng 03 năm 2023
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
ThS Võ Duy Nguyên Nguyễn Đức Anh Phúc
Huỳnh Viết Tuan Kiệt
Trang 11MỤC LỤC
25590/9)1919:0090)502225 5TOM TAT KHOA LUAN 01157 20Chương 1 MO DAU ciccesceccecsssssssssesssssesscsessessessesssssesscscsssessesssssesscsessessessessessesseseeas 1
2.1 Hướng nghiên cứu phát hiện đối tượng cĩ hướng -. : + 12
2.1.1 Hồi quy hộp giới hạn định hướng (OBB Regression) - 132.1.2 Sự phát triển của phát hiện đối tượng cĩ hướng trong khơng ảnh l62.2 Cách tiếp cận phụ thuộc hộp neo (Anchor-based approaches) 19
2.2.1 Phuong pháp hai giai đoạn (Two-stage) cccccsseieeireersres 20
2.2.1.1 Rotated Faster RCNN HH HH HH HH, 20 2.2.1.2 Rotated RPN (RRPN) - -Ặ SH HH HH HH gi, 22 2.2.1.3 Rol TTranSÏOTIN€T G0 00113191 gu 23 2.2.1.4 Oriented R-CNN HH HH ng HH ng, 24 2.2.2 Phương pháp một giai đoạn (One-sStaØ€) - - 75s c+css+sssxsss 25
2.2.2.1 Rotated RetinalÌNet - LH HH HT HH HH, 25
Trang 122.2.2.3 Single-shot Alignment NetWOrK - 5S s series 28
2.3 Cách tiếp cận khơng phụ thuộc hộp neo (Anchor-free approaches) 29
2.3.1 Các phương pháp dựa trên điểm chính (keypoint-based) 30
2.3.2 Các phương pháp dựa trên trung tâm (center-based) - 31
2.4 Căn chỉnh đặc trưng trong phát hiện đối tượng (Feature Alignment in
6) 1882-00 33
Chương 3 PHƯƠNG PHÁP DE XUẤTT -2-©2+©++2x2£+v£x+vrxesrxrsrxeee 36
3.1 Tổng quan phương pháp dé Xuất - 2- + + ++E£+E++Ee£Eerkerkerxerxereee 363.2 Mạng dé xuất khu vực kết hợp chiến lược neo hỗn hợp 38
3.2.1 Co chế mã hĩa giải mã hộp neo 2-2 2+ s+zx+rs+rs+cez 403.2.2 Cơ chế khởi tạo 21819 101m 1 ` 42
3.2.3 Cơ chế tinh chỉnh hộp neo :- + ©5++2++zxerxzx+zrxerxerxersee 43
3.2.4 Mơ-đun tích chập nhận biết hướng (Orientation-aware Convolution)
ey A A, 44
3.3 Đầu R-CNN hộp giới hạn định hướng 2 2 s£s£+zz+£s+rxzszee 47
3.4 Cài đặt chỉ tiẾt 2c 2c 21221 2212211221211 11a 48
Chương 4 THỰC NGHIỆM - 2+ ©22+2ESEEt2EE+EEEEEEEEEEEEEEEEEEEErrkrrrrree 50
4.1.1 DOTA-VI -Ăc22S 2EE2EE 2E 2121122111111 erree 50 4.1.2 HRSC2016 ©22-2C< EEEEE22E1211711221211 11111 1C xe 51 4.1.3 — DIOR-R veccescessesssesssesssesssessesssessssssssssesssssssssssssesssessesssesssessuesseseseeesecs 51
4.2 Tiêu chuẩn đánh gid c.ccccccccccccccscsscsscssessessessesesecseesessessessessssussessessessessesseass 52
4.2.1.1 Rotated Intersection over Union (IoÙ) - s<<<<<<<++<+ 53
Trang 134.2.1.2 Average PreciSiOn cccccescessecesceceneeeeneceeeeceseeceaeeesneceeeseaeeeeaeees 53 4.2.2 Frame Per Second (FPS), 11111112 vn ve, 54 4.2.3 Video Random Access Memory (VRAM) :cceccesseeseeeteeeeeeereeaeees 55
4.3 Cài đặt chỉ tH6t ee eecceecccssseeecessseeseessnseecessnneecessniecessneesssnneecessnecessnees 56
A.A Các kết quả chính ¿- ¿+ k+SE+EE9EE£EE2EEEEEEEEEEEEEEEEEE121171 2111111 xe 57
4.4.1 So sánh với các phương pháp hiện đại - - 5 5< 5< <<s<+s++ 57
4.4.2 So sánh cụ thê với các chiến lược tiếp cận khác - 624.4.3 So sánh độ hiệu quả của mô-đun tích chập nhận biết hướng 63
4.5 Nghiên cứu tác động của từng mô-un - - 5 ++s+++s£++erssexseeeeerss 64
4.6 Một số kết quả trực quan hóa - s2 2 ©SE+SE+EE+EE£E£EerEerkerxerxrree 66Chương 5 KẾT LUẬN VA HƯỚNG PHÁT TRIÉN -. -: ¿-z-: 68
5.1 Kết luận ⁄ đế đ» @ \ / 68
Trang 14DANH MỤC HÌNH
Hình 1.1 Đầu vào và đầu ra của bài toán ccccccvtitrrrtrrrrtrrrrrrrrrrrrrrir 5Hình 2.1 Minh họa sự khác nhau giữa cách biéu diễn đối tượng sử dụng hộp giới
hạn ngang căn chỉnh theo trục và hộp giới hạn định hướng [ 10] - - 14
Hình 2.2 Kiến trúc cơ bản các phương pháp phát hiện có hướng hai giai đoạn [6] 21Hình 2.3 Kiến trúc Rol Transformer được thiết kế dé phát hiện hiệu quả các đối
tượng định hướng trong hình ảnh chụp từ trên không Bao gồm hai phần chính:
RRol Learner va Rotated Position-Sensitive RoI Align (RPS-RoI-Align) [24] 23
Hình 2.4 Minh họa kiến tric Oriented R-CNN cho phát hiện đối tượng định hướnghai giai đoạn, bao gồm mạng đề xuất khu vực định hướng (oriented RPN) và đầu R-
CNN định hướng (oriented R-CNN head [40] c 52c ScccSscssexsersseresrrsses 24
Hình 2.5 Kiến trúc cơ bản của kiến trúc phương pháp phát hiện đối tượng có hướng
MOt Biai GOAN [6] - 26
Hình 2.6 Minh hoa mô hình phat hiện đối tượng Refined Rotation RetinaNet
R3BDet [31 Jo — 27
Hình 2.7 Kiến trúc phương pháp Single-shot Alignment Network S2ANet bao gồm
Hình 2.8 Sự khác nhau giữa các phương pháp không phụ thuộc neo (Anchor-free)
và dựa vào trung tâm (cenfer-basedl) [O]| - ¿5+ <+s£++ek+skEseeksekseessekseersks 32
Hình 2.9 Minh hoạt sự khác nhau trong việc lấy mẫu vị trí với trường tiếp nhận 3 x
3 của Convolution 2D tiêu chuẩn, Deformable Convolution và Alignment
Convolution (với hộp neo xoay) Cham xanh lục biéu thị vị trí lay mau, cham xanhlam biểu thi vi trí lấy mẫu được biến đổi va > đại điện trường độ dời 35Hình 3.1 Tổng quan phương pháp đề xuất Hybrid-Anchor Rotation Detector cho
bài toán phát hiện đối tượng có hướng, áp dụng chiến lược hỗn hợp cơ chế neo
trong quá trình huấn luyện . +- 2 2 2 E2 £+E£EE£EE£EEEEESEEEEEEEEEEEEEEEEerkerkerkrree 36Hình 3.2 So sánh sơ đồ tạo các đề xuất có hướng của 3 phương pháp: Rol
Transformer, Oriented R-CNN và HA-RDet (2222221111 eecee 40
Trang 15Hình 3.3 Màu xanh lam: Mẫu tiêu cực Màu cam: Mẫu tích cực Trục đứng: số
lượng mẫu Trục ngang: Số lượng epoch Các mẫu tích cực dé huấn luyện ít và
không ồn khi quá trình huấn luyện diễn ra dẫn đến việc thiếu thông tin mà mô hình
có thé học Hiệu suất phát hiện có thé suy giảm với các mẫu tiêu cực áp đảo 41Hình 3.4 Minh họa mô-đun tích chập nhận biết hướng (O-AwareConv) Trường Độ
đời hình dạng được tính toán thông qua kích thước hộp neo; hộp giới hạn thực được
thông qua đề thực hiện phép tính độ dời hướng Độ dời hình dạng và độ dời hướngtạo ra các đặc trưng cuối cùng được sử dụng dé huấn luyện giai đoạn sàng lọc dựa
trên hộp neo Hình chữ nhật đỏ, xanh lục, xanh lam lần lượt là hộp giới hạn thực
(Ground-truth box), hộp neo (Anchor box), hình chữ nhật bao hộp giới hạn thực
(Rectangularized Ground-truth target) Mũi tên xanh va đỏ lần lượt biểu diễn độ
dời kích thước (Shape offset) và độ dời hướng (Orientation offset) Cham xanh lục,xanh lam, đó lần lượt thể hiện đặc trưng Convolution, đặc trưng hình dạng, và đặctrưng kết hợp hướng cuối cùng - + 2 2 +E£SE9EE£EEEEESEEEEEEEEEEEEErkerkerkrrkrree 44Hình 3.5 Mạng chuyên đồi dé xuat icc ceccecccccccccccscessseseesessessessessessescsssessessessessease 47
Hình 4.1 Minh hoa tinh toán Intersection over Union va Rotated Intersection over
Union trong phát hiện đối tượng -¿- 2-2 2 2S +E9EE£EEEEESEEEEEEEEEEEEEEEEErkerkerkrree 53Hinh 4.2 Két quả trực quan HA-RDet ResNet50+FPN trên bộ dữ liệu DOTA-v1.0
— _Õ- c 66
Hình 4.3 Kết quả trực quan một vài trường hợp chưa tốt của mô hình HA-RDet
ResNet50+FPN trên bộ dữ liệu DO TA -v Í.Ô -. c5 S221 vs sex 66
Trang 16DANH MỤC BANG
Bang | Thông số chi tiết các bộ dữ liệu ảnh viễn thám được thực nghiệm 50
Bảng 2 So sánh các kết quả hiện đại trên bộ dữ liệu DOTA-v1.0 cho bài toán phát
hiện đối tượng có hướng trong không ảnh R50, R101, ReR50, RX101DCNv2,
SwinT lần lượt viết tắt cho các backbone ResNet50, ResNet101, ReResNet50,
ResNeXt101_ DCNv2, và SwiInTranSfOrImeT - - «<< < << << SE 8 1E ££eeeee 57
Bang 3 Huấn luyện HA-RDet ResNet50+FPN trên bộ dữ liệu DOTA-v1.0 với số
lượng các neo được khởi tạo khác nhau - - <6 2+ 1E E + ESkEEkEkkksrkkserske 59
Bang 4 Két quả trên bộ dữ liệu HRSC2016 dựa trên độ chính xác và số lượng neo
sinh ra trên mỗi vùng của bản đồ đặc trưng - 2-2 2+ z+EE+ExerEezExrrserxerreee 61
Bảng 5 So sánh kết quả thực nghiệm các phương pháp hiện đại trên bộ dữ liệu
DIOR-R, sử dụng cùng backbone ResNet50+FPN dé rút trích đặc trưng 61
Bảng 6 Đánh giá kết quả 3 chiến lược sử dụng hộp neo khác nhau S2A — Net tuântheo chiến lược không phụ thuộc neo, Oriented R-CNN sinh 20 hộp neo trên mỗi
vùng của bản đồ đặc trưng HA-RDet tận dụng cả hai chiến lược, sử dụng chỉ một
hộp neo trên mỗi vùng, va điều chỉnh hộp neo này sử dụng chiến lược phụ thuộc
'.n ẺÔẺ r“.ố *®eèo Yẻ //(ứ <^s ố 62 Bảng 7 So sánh độ hiệu quả của O-AwareConv so với các Convolution khác trong mô-đun căn chỉnh đặc trưng tích chập Thử nghiệm thực hiện trên bộ dữ liệu
P.9VU.0200 63
Bảng 8 Đánh giá thực nghiệm độ chính xác của mạng đề xuất khu vực kết hợp
chiến lược neo (Hybrid-Anchor RPN) trong điều kiện lược bỏ một vài các thành
0110 64
Trang 17DANH MỤC TỪ VIET TAT
HA-RDet Hybrid-Anchor Rotation Detector
CNN Convolutional Neural Network
RNN Recurrent Neural Network
HRol(s) Horizontal Region of Interest
RRol(s) Rotated Region of Interest
HBB Horizontal Bounding Box
OBB Oriented Bounding Box
NMS Non-maximum Suppression
FPN Feature Pyramid Network
RPN Region Proposal Network
RRPN Rotated Region Proposal Network
UAV Unmanned Aerial Vehicle
GPU Graphics Processing Unit
Trang 18TOM TAT KHÓA LUẬN
Khóa luận của chúng tôi tập trung tiếp cận bài toán phát hiện đối tượng trong
không anh sử dung cách biểu diễn hộp giới hạn định hướng (Oriented Bounding Box)
cho đối tượng Cách biễu diễn hộp giới hạn này cho phép miêu tả các đối tượng cóhướng bắt kì tốt hơn, đặc biệt trong ngữ cảnh ảnh chụp từ góc nhìn trên không
Các nghiên cứu thiết kế phương pháp phát hiện đối tượng có hướng trước đây
chủ yếu đề cập đến 2 cách tiếp cận chính là phụ thuộc neo (anchor-based) và không
phụ thuộc neo (anchor-free) Các phương pháp phụ thuộc neo thường yêu cầu một
số lượng lớn các hộp neo sinh ra dẫn đến phức tạp tính toán và tiêu thụ tài nguyên
lưu trữ lớn, trong khi các phương pháp không phụ thuộc neo chỉ sử dụng một hộp neo
trên mỗi vùng của bản đồ đặc trưng nên bị giảm một số lượng lớn mẫu huấn luyện
tích cực, dẫn đến những van đề hạn chế về độ chính xác phát hiện đạt được
Dé giải quyết các hạn chế này, khóa luận của chúng tôi tập trung giới thiệumột kiến trúc phát hiện định hướng mới gọi là Hybrid-Anchor Rotation Detector chobài toán phát hiện đối tượng có hướng trong không ảnh Nghiên cứu của chúng tôi
thực hiện một sơ đồ huấn luyện kết hợp hiệu quả điểm mạnh của cả hai cơ chế liên
quan đến neo Ngoài ra, chúng tôi giới thiệu một Orientation-aware Convolution mới
sử dung trong giai đoạn tinh chỉnh, cho phép rút trích đặc trưng dựa vào hình dang
va hướng hộp giới hạn thực mà đối tượng biéu diễn, giúp cải thiện đáng ké chất lượng
các vùng đề xuất sinh ra Dé đánh giá tính hiệu qua của phương pháp đề xuất, chúngtôi thực nghiệm mở rộng trên các bộ dữ liệu tiêu chuẩn cho bài toán phát hiện đốitượng định hướng bao gồm: DOTA-v1, HRSC2016 va DIOR-R Kết quả dat đượcthé hiện sự hiệu quả của mô hình đề xuất trong huấn luyện và thử nghiệm, chỉ yêucầu một số lượng nhỏ tài nguyên tính toán trong khi đạt được độ chính xác tiệm cận
các phương pháp hiện đại và đặc biệt thúc đây tốc độ suy luận (inference time)
Nghiên cứu của chúng tôi mục tiêu để “cầu nối” khoảng cách giữa cách tiếp
cận phụ thuộc neo và không phụ thuộc neo, cung cấp một ý tưởng cơ sở mạnh mẽ
cho các nghiên cứu phát hiện đối tượng có hướng trong tương lai
Trang 19Chương 1 MỞ ĐẦU
1.1 Động lực nghiên cứu
Phát hiện đối tượng trong Thị giác máy tính liên quan đến tác vụ nhận diện và
định vị đối tượng quan tâm trong hình ảnh hoặc video Đây là một chủ đề quan trọngcũng như cơ bản trong lĩnh vực Thị giác máy tính và có nhiều ứng dụng thực tế trongcông nghiệp như phương tiện tự hành (autonomous vehicles), hệ thông giám sát
(surveillance systems), người may (robotics), thực té tang cuong (augmented reality)
và nhiều ứng dụng khác Mục tiêu của phát hiện đối tượng không chi phân lớp cụ thé
các đối tượng biểu diễn trong hình ảnh mà còn xác định chính xác vị trí của chúngbởi các hộp giới hạn Điều này cho phép hệ thống hiểu bối cảnh không gian và mối
quan hệ giữa các đôi tượng khác nhau.
Trong bài toán phát hiện đối tượng, hộp giới hạn ngang (Horizontal Bounding Box
— HBB) được sử dụng như một cách biểu diễn đối tượng tiêu chuẩn cho tác vụ định
vị đối tượng Tuy nhiên, cách tiếp cận này có nhiều những hạn chế khi xử lý vớikhông ảnh Đầu tiên, các đối tượng trong hình ảnh chụp từ góc nhìn trên cao thườngxuất hiện theo hướng tùy ý, chang hạn như tòa nha, xe cộ, sân bóng, đường băng, HBB với cách biéu diễn căn chỉnh theo các trục ngang dọc không thể hiện chính xáccác đối tượng này, dẫn đến xác định không chính xác vị trí đối tượng và làm giảmhiệu xuất phát hiện Chúng tôi tập trung giải quyết các thiếu sót trên của HBB trong
khóa luận này băng cách tiếp cận hướng nghiên cứu mới cho bài toán phát hiện đối
tượng, gọi là phát hiện đối tượng định hướng (Oriented Object Detection — OOD).
Bài toán OOD trình bày cách biểu diễn đối tượng sử dụng các hộp giới hạn định
hướng (Oriented Bounding Box — OBB), có thé biéu diễn chính xác hơn các đối tượngvới nhiều hướng và hình dạng khác nhau, cho phép cải thiện độ chính xác định vi.OBB căn chỉnh tốt hơn với các ranh giới đối tượng và mang lại sự phù hợp chặt chẽhơn, giúp nâng cao mạnh mẽ hiệu suất phát hiện đối tượng Do đó, việc áp dụng cáchbiểu diễn sử dung OBB ngày càng trở nên quan trọng dé đáp ứng nhu cầu định vịchính xác và hiệu quả các đối tượng trong hình ảnh hàng không
Trang 20Hầu hết các mô hình phát hiện đối tượng tiền nhiệm cho bài toán phát hiện đốitượng có hướng phụ thuộc vào khung làm việc dựa trên các đề xuất (Proposals), bangcách sử dung Mang dé xuất khu vực dé sinh các vùng quan tam (Region of Interest —Rols) Cách biểu diễn các vùng đề xuất sinh ra cũng được quan tâm dang ké trongRPN Vùng quan tâm biểu diễn ngang (Horizontal Rols) thường bao gồm nhiều
trường hợp bên ngoài đối tượng chính cần quan tâm, điều này có thé dẫn đến sự không
rõ ràng trong các tác vụ kế tiếp như phân loại và định vi đối tượng Mặt khác, các
vùng quan tâm xoay (Rotated Rols) có thê cải thiện khả năng bao phủ (recall) và hoạt
động tốt khi các đối tượng được định hướng được phân bồ thưa thớt, nhưng cách biểu
diễn này đánh đôi với các tính toán phức tạp và yêu cầu nhiều tài nguyên máy tính délưu trữ và tính toán Chúng tôi nghiên cứu một số lí do đăng sau sự thiếu hiệu quảtrong các trình phát hiện đối tượng định hướng dựa trên đề xuất khu vực cho đến nay:
1) Đầu tiên, hau hết các phương pháp phát hiện đối tượng được định hướng
sử dụng một trong hai cách tiếp cận: phụ thuộc neo (Anchor-based) và
không phụ thuộc neo (Anchor-free) Các phương pháp phụ thuộc neo
sinh day đặc các hộp neo trên mỗi vùng của bản dé đặc trưng, cho phép đạtđược độ chính xác cao, nhưng cách tiếp cận này đối mặt với những tháchthức trong việc xử lý lượng thông tin không lồ trong chiến lược mã hóa —giải mã, dẫn đến độ nhạy đối với siêu tham số của các hộp neo và giảmđáng kể độ hiệu quả phát hiện Mặt khác, các phương pháp không phụthuộc neo loại bỏ các siêu tham số phức tạp liên quan đến các neo địnhhướng, có thé tăng tốc độ huấn luyện và suy luận nhưng giảm đáng kê độchính xác phát hiện do thiếu mẫu huấn luyện tích cực và thiếu các đặc trưng
phân cấp.
2) Kỹ thuật tích chập 2D (convolution) thông thường được sử dụng trong các
mô hình phát hiện đối tượng được thiết kế với trường tiếp nhận (receptive
field) cỗ định và được căn chỉnh theo trục, không phù hợp với các đối tượng
có hướng tùy ý và tỷ lệ khác nhau trong ảnh hàng không Sự sai lệch giữa
các đặc trưng tích chập cố định và hướng của các đối tượng trong ảnh dẫn
Trang 21đến sự không nhất quán giữa định vị và phân loại đối tượng, dẫn đến thoái
hóa độ hiệu quả của các mô hình phát hiện đối tượng định hướng.
Những vấn đề trên dẫn đến việc phát triển một mạng đề xuất khu vực hiệu quả cókhả năng tạo ra các đề xuất chất lượng cao là rat quan trọng dé khắc phục các hạn chế
về độ chính xác và chỉ phí tính toán của các phương pháp phát hiện đối tượng cóhướng tiền nhiệm Nắm bắt được xu hướng nghiên cứu cũng như tiềm năng có thểcải thiện của bài toán, chúng tôi quyết định tập trung nghiên cứu, giải quyết bài toán
phát hiện đối tượng có hướng ảnh hàng không trong khóa luận tốt nghiệp, với mục
tiêu sẽ khảo sát và tìm ra các cách tiếp cận hiệu quả hơn, mục tiêu giải quyết triệt đểcác van đề đặt ra và đạt được kết quả state-of-the-art trên hướng nghiên cứu này
1.2 Định nghĩa bài toán
Định nghĩa chi tiết được thực hiện bởi [6], bài toán phát hiện đối tượng có hướng
liên quan đến hai tác vụ chính: Định vi (detect) và nhận diện ( identity) Mục tiêu là
xác định vị trí chính xác của các đối tượng thuộc các danh mục được xác định trướctrong một hình ảnh nhất định và gán chính xác cho chúng nhãn phân loại tương ứng.Các phương pháp phát hiện đối tượng cần phân biệt rõ ràng các đối tượng với bối
cảnh nên băng cách dự đoán danh mục và vi trí chính xác của chúng.
Trong ngữ cảnh phát hiện đối tượng có hướng, nhãn dự đoán cho mỗi đối tượng
cụ thé được xác định như một phân phối xác suất với C + 1 chiều với C là số lượng
nhãn được xác định trước, và định dạng phân phối được ký hiệu là c = (po, Py) - pc)
Phân phối nay bao gồm giá trị xác suất cho phân lớp bối cảnh nền py và C phân lớp
đã xác định trước (ø¡ > pc) Công thức chung cho bài toán phát hiện định hướng
dựa trên học sâu:
R3, giả sử răng có N đối tượng được gán
Xem xét một hình ảnh đầu vào I €
nhãn trong hình anh và thuộc một trong các nhãn lớp được xác định trước, cf và bị
biểu thị nhãn lớp và tọa độ có hướng thực của đối tượng thứ n trong ảnh IJ, ta có:
G = {(ï, bị), (có, bệ), , (cụ, bu) } (1)
Trang 22Tập kết quả dự đoán trên hình ảnh / cũng được biểu diễn tương tự:
- Í(-P pP (cP pP P pp
P = {(cP, bP), (cP, BP), (ch, bY, ) } (2)
trong đó N, biểu thị số lượng các kết quả dự đoán, c? biểu diễn phân phối xác suất
thứ của các nhãn lớp được xác định trước va bP biểu thị tọa độ hộp giới hạn định
hướng được dự đoán thứ n.
Dé tối ưu hóa hiệu suất phát hiện, cần phải gin mỗi dự đoán là nhãn tích cực(positive) hay tiêu cực (negative) dựa vào chỉ số RloU (Rotated Intersection-over-
Union) Độ đo nay biéu diễn mức độ trùng nhau giữa 2 hộp giới han định hướng, một
dự đoán được xem là tích cực nếu tồn tại ít nhất một đối tượng được gán nhãn có mức
độ RIoU so với nó cao hơn một ngưỡng nhất định (thường là 0.5), ngược lại sẽ là
mẫu tiêu cực Với tọa độ hộp giới hạn thực có hướng Dé và tọa độ dự đoán có hướng
bP, ta có:
Area(b? nb‘)
RIoU(b?P, bt) =dc 12) Area(b? U b*)
trong đó n va U lần lượt biêu thị toán tử hợp nhau và toán tử giao nhau
Mỗi dự đoán tích cực (c?, b?) sẽ được gán với một đối tượng được chú thích(êš, P§) với giá trị RIoU cao nhất và mỗi đối tượng được chú thích có thé được gan
nhãn tích cực với nhiêu dự đoán khác nhau Cuôi cùng, mô hình sẽ được huân luyện
đê tôi thiêu hóa hàm mục tiêu, được xác định:
1 Npositiue h Np
Loss(G,P) = N » objn * Lreg( bh, bE) + TỜ, Leis (ch, ef (4)
positive n=1 Pn=1
trong đó:
© (cP, b?) € P là dự đoán tích cực với đối tượng được chú thích (ce, ñ}.) EG.
e obj, giá tri nhị phan (obj, = 1 nếu mẫu dự đoán là tích cực va ngược lại
obj„ = 0 được coi là mẫu tiêu cực).
Trang 23© Npositive Va Np tương ứng là số lượng mẫu dự đoán tích cực va số lượng kết
quả dự đoán.
e 1a tham số cân bằng điều chỉnh sự đánh đổi giữa phân loại và hồi quy
e Phép: biểu thị hàm mất mát hồi quy được kích hoạt cho mẫu dự đoán tích cực
và vô hiệu hóa với các mẫu tiêu cực.
mục tiêu hàm mất mát là định lượng sự khác nhau giữa các dự đoán và các nhãn thực
tương ứng Hàm mât mát khác nhau sẽ ảnh hưởng đên hiệu suât phát hiện cuôi cùng.
1.3 Phát biểu bài toán
Đầu vào bài toán bao gồm tập hình ảnh trên không được chụp bằng công nghệviễn thám, chăng hạn như hình ảnh vệ tinh hoặc drone, flycam Trong đó các đốitượng được quan tâm sẽ được phát hiện đồng thời ước lượng chính xác hướng của
chúng.
Đầu ra của bài toán là tập các đối tượng được phát hiện trong ảnh đầu vào Mỗi
đối tượng được phát hiện sẽ biểu diễn các thông tin: (1) nhãn lớp ma đối tượng được
phát hiện thuộc về (chăng hạn như “stadium”, “bridge”, “vehicle”), (2) hộp giới han
định hướng biểu thị tọa độ vị trí của đối tượng (các hộp giới hạn này đã hàm ý thông
tin về hình dạng, hướng và vi trí của đối tượng trong ảnh).
Đâu vào Đâu ra
Trang 24Thuật toán phân tích hình ảnh được chụp từ trên không và phát hiện ra các đối
tượng với các nhãn lớp tương ứng của chúng di kèm với các hộp giới hạn định hướng làm đâu ra, cho phép phân tích và hiéu sâu hơn về các đôi tượng có trong hình ảnh
bối cảnh trên không
phát hiện đối tượng Vì hình ảnh viễn thám thường được chụp từ góc nhìn
chim bay, các đối tượng có thê bị nghiêng, xoay hoặc lệch theo các hướng
khác nhau — gây khó khăn cho các mô hình trong việc phát hiện va phân loại
chính xác các đối tượng có hướng tùy ý Các biến thể đa dạng của hướng đốitượng yêu cầu mô hình phải mạnh mẽ và có khả năng xử lý các đối tượng ở
các tư thế khác nhau
Da dạng ti lệ (Scale variations): Sự đa dạng tỉ lệ trong anh viễn thám phát sinh do hai yếu tố chính Thứ nhất, khoảng cách lấy mẫu mặt đất của các cảm
biến có thé thay đôi đáng kể, từ vài centimet (cm) đến hàng trăm mét (m) Điều
này dẫn đến các biến thê đa tỉ lệ trong hình ảnh viễn thám được chụp bởi cáccảm biến khác nhau tại cùng một bối cảnh Thứ hai, ngay cả trong cùng mộtdanh mục, các đối tượng trong ảnh viễn thám có thé khác nhau về kích thước
Điều này đưa ra sự đa dạng tỉ lệ ngay trong một lớp và giữa các lớp với nhau,
làm phức tạp thêm các nhiệm vụ phát hiện đối tượng.
Bối cảnh nền phức tạp (Complex background): Các đối tượng trong ảnhviễn thám thường được bao quanh bởi các bối cảnh nên khác nhau, đòi hỏi các
mô hình phát hiện phải có đủ khả năng dé phân biệt chính xác các đối tượng
Trang 25với môi trường xung quanh Sự phân biệt này là cần thiết dé tránh dương tinhgid và dam bảo phát hiện đối tượng chính xác Ngoài ra, có thé có bối cảnhnên trong hình anh viễn thám chứa kết cấu và hình dạng tương tự đối tượng,dẫn đến một số lượng lớn cảnh báo sai Điều này có nghĩa là các mô hình cần
có khả năng phân biệt chính xác giữa các đối tượng và các yếu tố bối cảnh nền
tương tự nhau về đặc điểm
Điều kiện môi trường kém (Poor environmental conditions): Điều kiện môitrường kém trong ảnh viễn thám cũng tác động lớn đến chất lượng ảnh Cụthể, hình ảnh có thể bị ảnh hưởng bởi những thay đổi về ánh sáng, điều kiệnthời tiết xấu, sự thay đổi theo mùa và mây mù Những điều kiện môi trườngnày có thể làm giảm chất lượng của hình ảnh, dẫn đến những thách thức trongviệc phát hiện đối tượng Ngoài ra, các hình ảnh rõ ràng ban đầu có thể gặpphải các van đề như bóng, che khuất, mờ và nhiễu, điều này làm phức tạp thêm
quá trình phát hiện.
Phân bố đối tượng dày đặc (Densely packed distribution): Sự sắp xếp dàyđặc trong ảnh viễn thám đề cập đến các tình huống trong đó có nhiều vat thékích thước nhỏ được chụp và phân bố dày đặc trong ảnh, chăng hạn như tàu
trong bến cảng hoặc xe cộ trong bãi đậu xe, đặt ra một thách thức đáng ké cho
các thuật toán phát hiện đối tượng Sự sắp xếp dày đặc này dẫn đến sự giao
thoa lẫn nhau giữa các đối tượng, làm tăng độ phức tạp của việc phát hiện và
phân biệt chính xác các đối tượng riêng lẻ
Vấn đề mắt cân bằng (Imbalance problems): Một trong những thách thứctrong các nhiệm vụ phát hiện đối tượng trong ảnh viễn thám là vấn đề mat cân
bang, một số danh mục có thé có số lượng thể hiện cao hơn so với các danh
mục khác và việc phân bổ vị trí đối tượng có thể không đồng đều Hon nữa,ảnh viễn thám thường có một vùng nhỏ chứa các đối tượng, trong khi phần lớnảnh thuộc về bối cảnh nền, dẫn đến sự mat cân bang cực độ giữa tiền cảnh và
hậu cảnh Những van dé mat cân bằng này đưa ra hai thách thức: (1) hầu hếtcác vị trí trong ảnh viễn thám là bối cảnh nền, không cung cấp thông tin hữu
Trang 26ích để huấn luyện các mô hình phát hiện đối tượng (2) Các lớp đối tượng cónhiều thể hiện hơn có xu hướng thống trị gradients trong quá trình huấn luyện,gây ra sự suy thoái mô hình, vì các mô hình có thé trở nên thiên về các danhmục chiếm ưu thế và gặp khó khăn trong việc phát hiện chính xác các đốitượng thuộc danh mục thiểu số.
ø) Tỷ lệ kích thước cạnh lớn (Large aspect ratio): Sự hiện diện của các vật thể
có hình dạng cực kỳ dài hoặc kéo dài, chăng hạn như cầu, tàu và bến cảng khiđược chụp từ góc nhìn trên cao tạo sự khác biệt đáng kê giữa chiều rộng vàchiều dài, dẫn đến tỷ lệ kích thước cạnh lớn Do góc nhìn toàn cảnh của hình
ảnh, việc phát hiện và định vị chính xác các đôi tượng này trở nên khó khăn.
Giải quyết những thách thức này thường yêu cầu phát triển các thuật toán và kỹ
thuật chuyên biệt có thê xử lý độ phức tạp và tính thay đôi liên quan đến phát hiệnđối tượng có định hướng Các phương pháp học sâu, chăng hạn như mạng thần kinhtích chập (CNN) và mang than kinh truy hồi (RNN), đã cho thấy nhiều hứa hen trongviệc giải quyết những thách thức này và cải thiện hiệu suất của các phương pháp pháthiện đối tượng định hướng
1.5 Mục tiêu và phạm vi nghiên cứu
s* Mục tiêu khóa luận hướng đến bao gồm:
— Nghiên cứu và khảo sát các mô hình dựa trên học sâu hiện có áp dụng cho bài
toán phát hiện đối tượng có hướng trong không ảnh (Oriented Object Detection
in aerial images).
— Tổng hợp một cách hệ thống các bộ dữ liệu phô biến, các mạng học sâu và các
phương pháp state-of-the-art cho bài toán phát hiện đối tượng có hướng
— Phân tích sâu và thảo luận các cách tiếp cận phổ biến khi xây dựng mô hình
phát hiện đối tượng: Một giai đoạn (one-stage) với hai giai đoạn (two-stage),
phụ thuộc neo (anchor-based) với không phụ thuộc neo (anchor-free).
Trang 27Đề xuất phương pháp xử lý nhạy cảm với những đặc trưng có hướng va sinh
ra các đề xuất chất lượng cao cho bài toán phát hiện đối tượng có hướng trongkhông ảnh Mô hình hướng đến cải thiện độ chính xác, thúc đầy quá trình suy
luận và giảm chi phí tính toán phù hợp với ngữ cảnh giới hạn tài nguyên máy
tính.
Thực nghiệm và đánh giá hiệu suất của mô hình đề xuất trên các bộ dit liệutiêu chuẩn cho bài toán phát hiện đối tượng có hướng trong không ảnh baogồm: DOTA-v1, HRSC2016, DIOR-R Thực hiện đánh giá dựa trên nhiều tiêuchuẩn khác nhau: Độ chính xác (accuracy), thời gian suy luận (inference time),tài nguyên tính toán (VRAM), số lượng tham số
Triển khai chương trình thực tế cho mô hình xây dựng được
Phạm vi triển khai trong khóa luận:
Phương pháp: Trong nghiên cứu này, chúng tôi sẽ đề xuất một kiến trúc mớicho bài toán phát hiện đối tượng có hướng trong không ảnh (Oriented Object
Detection).
Dữ liệu thực nghiệm: Trong nghiên cứu này, chúng tôi sẽ thực nghiệm và
đánh giá phương pháp trên các bộ dữ liệu tiêu chuẩn nổi tiếng cho bài toán
phát hiện đối tượng có hướng trong không ảnh bao gồm DOTA-vi,
HRSC2016, DIOR-R.
Định dang dữ liệu: Hình ảnh (.jpg, png)
Đối tượng quan tâm: Các đối tượng phô biến trong ảnh vệ tỉnh như phương
tiện giao thông (xe, thuyền, máy bay, ), sân vận động, cầu, cảng biển, nhà
ga, và sự phân bồ nhãn lớp phụ thuộc vào việc thu thập cũng như gan nhãn
cho mỗi bộ dữ liệu.
Khung làm việc: Trong nghiên cứu này, phương pháp của chúng tôi được đề
xuất và hoạt động trên khung làm việc được được cung cấp sẵn MMRotate,
ngoài ra phụ thuộc vào Pytorch, MMCV và MMDetection.
Trang 281.6 Đóng góp của nghiên cứu
Nội dung cuốn báo cáo trình bày chỉ tiết về định nghĩa, mô tả bài toán phát hiện
đối tượng có hướng (Oriented Object Detection) Đối với bài toán phát hiện đối tượng
có hướng trong không ảnh (Oriened Object Detection in aerial images), báo cáo trình
bày đầy đủ các cách tiếp cận tiền nhiệm cho hướng nghiên cứu này, đưa ra phân tích
ưu nhược điểm của mỗi phương pháp dựa trên các tiêu chí đánh giá cho một bài toán
phát hiện đối tượng cơ bản Cuốn khóa luận đóng vai trò như một tài liệu tổng hợp
khá đầy đủ cho hướng nghiên cứu này
Dựa trên bài toán, báo cáo trình bày chi tiết các bộ dữ liệu tiêu chuẩn nổi tiếngcho bài toán phát hiện đối tượng có hướng trong không ảnh Đồng thời đưa ra những
phân tích chuyên sâu thách thức đối mặt trên mỗi bộ dữ liệu trong ngữ cảnh bài toán
liên quan đến hướng của đối tượng
Cuối cùng, khóa luận dé xuất một kiến trúc mới bao gồm các chiến lược và các
mô-đun mới được đánh giá kỹ lưỡng, mục tiêu cung cấp một hướng tiếp cận mới hiệuquả hơn cho bài toán phát hiện đối tượng có hướng trong không ảnh Cụ thể thiết kếmạng đề xuất khu vực đạt đề xuất chất lượng cao sử dụng chiến lược kết hợp neo vàmô-đun tích chập nhận biết hướng Thực nghiệm mở rộng được cung cấp trên các bộ
dữ liệu nổi tiếng, các backbone khác nhau và đưa ra các báo cáo phân tích đánh giá
chi tiét vê độ hiệu quả của mô hình đê xuât.
1.7 Bồ cục của luận văn
Phần còn lại của khóa luận được trình bày theo bố cục như sau:
CHUONG 2 - CÁC NGHIÊN CỨU LIEN QUAN: cung cấp một khảo sát toàn
diện về các phương pháp tiền nhiệm đã được áp dụng trong các nghiên cứu trước đây
đối với bài toán phát hiện đối tượng có hướng trong không ảnh
CHƯƠNG 3 - PHƯƠNG PHÁP ĐÈ XUẤT: Trình bày cách tiếp cận hiệu quả mớiđược đề xuất dựa cho bài toán phát hiện đối tượng có hướng trong không ảnh, bao
gôm chiên lược tiêp cận và các mô-đun đê xuât.
10
Trang 29CHUONG 4- KET QUÁ THỰC NGHIỆM: Trinh bày thực nghiệm đánh giá chitiết mô hình đề xuất trên các bộ dữ liệu tiêu chuẩn nồi tiếng cho bài toán phát hiện
đối tượng trong không ảnh Đặc biệt mở rộng so sánh hiệu suất của các thử nghiệm
trên bộ dữ liệu DOTA-v1.0.
CHƯƠNG 5 - KET LUẬN VA HUONG PHAT TRIEN: Kết luận toàn bộ đóng
góp và nghiên cứu trong khóa luận, đưa ra các vấn đề còn tồn đọng đối với phương
pháp đề xuất và trình bày các hướng tiếp cận chưa và dự định sẽ áp dụng trong khóa
luận này.
11
Trang 30Chương 2 CAC NGHIÊN CUU LIÊN QUAN
2.1 Hướng nghiên cứu phát hiện đối tượng có hướng
Phát hiện đối tượng (Object Detection) trong lĩnh vực thị giác máy tính trình bàycác tác vụ nhận diện và định vị đối tượng trong hình ảnh hay video Các phương phápphát hiện đối tượng kinh điển như YOLO (You Only Look Once) [7], SSD (SingleShot multi-box Detector) [8] hay Faster R-CNN [9] thường phát hiện các đối tượng
bằng cách dự đoán các hộp giới hạn căn chỉnh theo trục (Horizontal Bounding Boxes)xung quanh chúng Tuy nhiên, cách biểu diễn các hộp giới hạn này thường không
luôn luôn là cách tốt nhất dé biéu diễn đối tượng Cụ thể, nếu đối tượng bị xoay hoặc
có hình dạng bắt thường, hộp giới hạn ngang căn chỉnh theo trục có thể biêu diễn baogồm cả khu vực chứa bối cảnh nền (background), gây nhầm lẫn cho mô hình trongquá trình huấn luyện và rút trích đặc trưng vùng Hướng nghiên cứu phát hiện đốitượng có hướng (Oriented Object Detection) xuất hiện và trong tâm tập trung vào
việc cải thiện độ chính xác cũng như độ hiệu quả của việc phát hiện các đối tượng
quan tâm trong hình ảnh, đặc biệt khi đối tượng xu hiện với có hướng tùy ý trong
ảnh Hướng nghiên cứu này đặc biệt phù hợp trong các lĩnh vực như viễn thám hoặc
chụp ảnh trên không, nơi hình ảnh được chụp từ góc nhìn trên cao hoặc các vật thể
trên mặt đất được định hướng bất kỳ.
Một phần quan trọng của nghiên cứu trong lĩnh vực này liên quan đến việc thiết
kế và huấn luyện các mô hình có thé học cách nhận biết và định vị chính xác hướng
các đối tượng Điều này liên quan đến việc phát triển các kiến trúc và kỹ thuật mới
trong học máy, đặc biệt là trong lĩnh vực học sâu, bao gồm cả mạng thần kinh tích
chập (CNN) và gần đây hơn là các mô hình dựa trên Transformer Ngoài ra, nghiêncứu cũng liên quan đến việc thu thập và sàng lọc các bộ dữ liệu tiêu chuẩn dé huấnluyện các mô hình này Các bộ dữ liệu dé phát hiện đối tượng định hướng thườngđược lây từ hình ảnh trên không hoặc vệ tinh và việc gắn nhãn các bộ dữ liệu này có
thé là một nhiệm vụ day thách thức.
12
Trang 31Đề cập đến hộp giới hạn định hướng (Oriented Bounding Box), đây là một cách
biểu diễn được sử dụng trong phát hiện đối tượng trong đó hộp giới hạn có thé được
định hướng theo hướng bất kì, không được căn chỉnh theo bất kì trục nào OBBthường được biểu thị bang một điểm trung tâm (center point), chiều rộng (width),chiều cao (height) và góc quay (angle of rotation) Điều này làm cho nó linh hoạt hơn
và phù hợp hơn dé phát hiện các đối tượng định hướng tùy ý Chi tiết về cách biểu
diễn (hồi quy) các hộp giới hạn định hướng ở mục 2.1.1
Trong ngữ cảnh ảnh chụp từ trên không, việc phát hiện đối tượng có hướng đặc
biệt quan trọng vì các đối tượng có thé xuất hiện theo bat kỳ hướng nào do phối cảnh
mà ảnh được chụp Việc phát hiện các đối tượng như vậy một cách chính xác có thê
có lợi trong một số ứng dụng như giám sát, quy hoạch đô thị, quản lý thảm họa, v.v
Mục 2.1.2 trình bày sự phát triển của bài toán phát hiện đối tượng có hướng trong
không ảnh một cách tông quan nhất
2.1.1 Hồi quy hộp giới hạn định hướng (OBB Regression)Thông thường, các phương pháp phát hiện tập trung phát hiện các đối tượng được
căn chỉnh theo trục ngang/ dọc tương ứng với hình ảnh Tuy nhiên, trong phát hiện
đối tượng có hướng, các đối tượng được chụp từ góc nhìn trên cao và đa số xuất hiện
với hướng tùy ý Hình 2.1 minh họa sự khác nhau giữa hai cách biéu diễn hộp giớihạn ngang căn chỉnh với trục và hộp giới hạn định hướng trong bối cảnh các đối tượngđược phân bố day đặc
13
Trang 32a) Biểu diễn hộp giới hạn ngang căn b) Biểu diễn hộp giới hạn định hướng
chỉnh theo trục
Hình 2.1 Minh họa sự khác nhau giữa cách biéu diễn đối tượng sử dụng hộp giới
hạn ngang căn chỉnh theo trục và hộp giới hạn định hướng [10]
Các phương pháp dựa trên vùng đề xuất thường được sử dung dé phát hiện đốitượng định hướng Cách tiếp cận này dau tiên thường tao các “vùng ứng cử viên”trong hình anh có kha năng chứa các đối tượng và sau đó tinh chỉnh các vùng dé định
vị chính xác các đối tượng Các phương pháp dựa vào các vùng quan tâm được căn
chỉnh theo ngang (Horizontally aligned Region of Interest — HRo]) [3] [11] sử dụng
Rol Warping dé trích xuất đặc trưng từ các HRol được sinh ra Các đặc trưng này sau
đó được sử dung dé hồi quy độ dời vị trí (position offsets) so với các hộp giới hạnđược gán nhãn thực Tuy nhiên, các phương pháp dựa trên HRol gặp phải một vấn
đề gọi là căn chỉnh sai (misalignment), trong đó có thể có sự sai lệch giữa các đặc
trưng vùng và các thể hiện đối tượng thực tế được phát hiện Mặc khác, các phương
pháp dựa trên vùng quan tâm xoay (Rotated Region of Interest — RRo]) [12] [13] giải
quyết van dé căn chỉnh sai sử dung Rotated Rol Warping dé trích xuất đặc trưng từcác RRol Bang cách căn chỉnh các đặc trưng vùng với hướng của đối tượng, van dé
sai lệch được giảm thiêu Tuy nhiên, một nhược điểm của các phương pháp dựa trên
14
Trang 33RRol là chúng yêu cầu tạo ra một số lượng lớn các đề xuất xoay (Rotated Proposals),
điêu này có thê tôn kém về mặt tính toán.
Một vài các phương pháp [12] [14] [15] [16] sử dụng thiết kế các hộp neo xoay
(Rotated Anchors) trong Mạng đề xuất khu vực [9] cho phát hiện đối tượng có hướng.
Các hộp neo xoay được xem như các hộp giới hạn xác định trước với nhiều tỉ lệ, kíchthước và góc khác nhau đóng vai trò như các mẫu tham chiếu dé tạo ra các đề xuất
khu vực Các hộp neo này được sử dụng dé khớp với các thé hiện đối tượng tiềm năng
trong hình ảnh trong quá trình tạo đề xuất Tuy nhiên, việc thiết kế neo xoay có thé
tốn nhiều thời gian do số lượng neo tăng lên đáng kẻ, dẫn đến không chỉ tăng chi phítính toán của mạng mà còn gây suy thoái độ hiệu quả của việc khớp giữa các đề xuất
và hộp giới hạn được gan nhãn thực Dé giải quyết những van đề nay, một số phươngpháp [12] [17] đã sử dụng chiến lược “relaxed mactching” dé thiết kế các hộp neoxoay Trong chiến lược này, có những hộp neo không đạt được IoU trên một ngưỡngnhất định (ví dụ: 0.5) với bất kỳ hộp giới hạn được gán nhãn thực nào nhưng vẫnđược chỉ định là mau True Positive Tuy nhiên, chiến lược này vẫn có thé gây ra vấn
đê sai lệch giữa các đặc trưng khu vực được trích xuât.
Thay vì sử dụng các hộp neo xoay, cách tiếp cận của chúng tôi vẫn xử lý dựa trên
các hộp neo được căn chỉnh ngang, và sử dụng một mạng kết nối đầy đủ nhẹ(lightweight fully connected network) để chuyên d6i các HRols sang RRols Cách
tiếp cận này tránh được yêu cầu một số lượng lớn các hộp neo, làm giảm gánh nặng
tính toán liên quan đến việc tạo và xử lý một số lượng lớn các neo xoay Hơn nữa,mạng chuyên đổi này cho phép thu được một số lượng đáng ké các RRols được xácđịnh chính xác, điều này có thể có lợi cho các tác vụ tiếp theo Ngoài ra, IoU giữa cácOBB được trực tiếp sử dụng như một tiêu chuan so khớp, giúp giải quyết hiệu quảcác van dé căn chỉnh sai có thé xảy ra khi sử dụng chiến lược “relaxed matching” hay
phụ thuộc vào so khớp hộp giới hạn ngang, góp phần cải thiện hiệu suất phát hiệntong thé
15
Trang 342.1.2 Sự phát triển của phát hiện đối tượng có hướng trong không ảnh
Phát hiện đối tượng đề cập đến tác vụ nhận diện và định vị đối tượng trong ảnh
hay video [7] [8] [18] [19] [20] [21] [22] [23] đã chứng kiến những tiến bộ đáng ké
trong những năm gan đây, nhờ những tiễn bộ trong kỹ thuật học sâu và thị giác máytính Phát hiện đối tượng đã tìm thấy nhiều ứng dụng trong các lĩnh vực khác nhau,chăng hạn như lái xe tự động, giám sát, người máy, v.v
Phát hiện đối tượng định hướng [24] [2] [12] [25] [26] [27] là một nghiên cứu mở
rộng của phát hiện đối tượng chung, đặc biệt tập trung vào việc phát hiện các đốitượng có thông tin định hướng Trong một số tình huống nhất định, chang hạn như
hình anh trên không, các đối tượng quan tâm có thé có hướng tùy ý do tính chất ba
chiều của chúng và góc nhìn mà hình ảnh được chụp Phát hiện đối tượng định hướng
trong ảnh hàng không đã thu hút được sự quan tâm đáng kể do phạm vi ứng dụng
rộng rãi của nó Hình ảnh trên không được sử dụng trong các lĩnh vực như viễn thám,
quy hoạch đô thị, nông nghiệp hay quản lý thảm họa Việc phát hiện và định vị chính
xác các đối tượng trong ảnh hàng không, đồng thời xem xét hướng của chúng là rất
quan trọng và được xem như là yếu tố cốt lõi mà các phương pháp phát hiện đối trongcần phải quan tâm giải quyết
Sự phát triển của các phương pháp phát hiện đối tượng định hướng cho hình ảnh
trên không hướng đến giải quyết các thách thức trong bài toán này, bao gồm tỷ lệ đốitượng xuất hiện khác nhau, thay đổi điểm nhìn, bối cảnh nền phức tạp, che khuất vàcòn nhiều các yếu tô khác Các nghiên cứu đã khám phá các kỹ thuật như hộp giớihạn định hướng (Oriented Bounding Boxes), trích xuất đặc trưng (feature extraction),
kiến trúc học sâu (Deep Learning architectures) và tăng cường dữ liệu (data
augmentation) dé cải thiện độ chính xác của phát hiện đối tượng định hướng trong
ảnh chụp từ trên không.
Các phương pháp phát hiện đối tượng kinh điển, chăng hạn như Faster R-CNN
[9], dựa vào các hộp giới hạn ngang dé định vi các đối tượng trong hình ảnh Tuy
nhiên, cách tiêp cận này có thê không năm bắt chính xác ranh giới của các đôi tượng
16
Trang 35xuất hiện với hướng tùy ý trong ảnh hàng không Các hộp giới hạn ngang có thể baogồm cả bối cảnh nền (background), thậm chi chiém nhiéu hon déi tượng, dẫn đến sựkhông nhất quán giữa độ tin cậy phân loại cuối cùng và độ chính xác hồi quy của các
đối tượng được định hướng Dé giải quyết van dé này, các nhà nghiên cứu đã dành
sự quan tâm đáng kê dé phát triển các phương pháp phát hiện đối tượng định hướngtrong ảnh hàng không Một đóng góp đáng chú ý là việc tạo ra các bộ dữ liệu chuẩnphát hiện đối tượng quy mô lớn với các nhãn định hướng được gán, chang hạn như
bộ dữ liệu DOTA của Xia và các cộng sự [3] Các bộ dữ liệu này cung cấp một nềntảng đánh giá được tiêu chuan hóa dé đánh giá hiệu suất của các bộ phát hiện đối
tượng định hướng.
Nhiều phương pháp phát hiện đối tượng định hướng hiện có dựa trên các khunglàm việc sử dung vùng đề xuất [24] [2] [28] [12] [29] [30] Một giải pháp tự nhiên làgiới thiệu các hộp neo xoay [29] [12] chăng hạn như trong Mạng đề xuất khu Vựcxoay (Rotated RPN) [12] Các neo xoay được thiết kế với các góc, hình dạng và tỷ lệ
kích thước cạnh khác nhau, được đặt tại mỗi vị trí trong ảnh cho phép định vị chính
xác hơn các đối tượng được định hướng Tuy nhiên, nhược điểm của việc sử dụng
các hộp neo xoay dày đặc là làm tăng độ phức tạp tính toán trong quá trình phát hiện
và tăng dung lượng bộ nhớ của hệ thong Các nhà nghiên cứu tiếp tục khám phá các
kỹ thuật đề đạt được sự cân bằng giữa độ chính xác và hiệu quả, chăng hạn như tối
ưu hóa thiết kế neo, kết hợp các phương pháp trích xuất đặc trưng và tận dụng kiếntrúc học sâu dé cải thiện hiệu suất của các phương pháp phát hiện đối tượng định
hướng trong hình ảnh trên không.
Một cách tiếp cận dé giảm thiểu số lượng lớn các hộp neo xoay và cải thiện sựliên kết giữa các đặc trưng và đối tượng là sử dụng Rol Transformer do Ding và cáccộng sự đề xuất [24] Phương pháp này học vùng quan tâm xoay (Rotated Rols) từ
các Rols theo chiều ngang được tạo bởi mạng dé xuất khu vực, bằng cách chuyển đổicác Rols năm ngang thành các Rols xoay sử dụng một mang được kết nói day đủ, độ
chính xác phát hiện đối với các đối tượng được định hướng cải thiện đáng kể Tuynhiên, cách tiếp cận này tạo ra độ phức tạp bổ sung cho mạng do có sự tham gia của
17
Trang 36các lớp được kết nối đầy đủ và thao tác căn chỉnh Rol trong quá trình học các Rolxoay Sự phức tạp gia tăng này có thê làm cho mạng nặng hơn và đòi hỏi nhiều tínhtoán hơn Dé giải quyết các thách thức cụ thé đối với phát hiện đối tượng nhỏ, dàyđặc và xoay, Yang và các cộng sự [28] đã phát trién một phương pháp phát hiện đối
tượng định hướng dựa trên khung làm việc phát hiện đối tượng Faster R-CNN, cụ thé
tạo ra một mang kết hợp lay mẫu dé kết hợp đặc trưng nhiều lớp với lay mẫu neo hiệu
quả, mục đích cải thiện độ nhạy đối với các vật thể nhỏ Xu và các cộng sự [2] xâydựng phương pháp phát hiện các đối tượng định hướng bằng cách kết hợp một biểudiễn mới gọi là các đỉnh trượt (gliding vertexes), nó học bốn độ dời đỉnh trượt trongnhánh hồi quy của đầu Faster R-CNN Tuy nhiên, cả hai phương pháp được đề cậpvan sử dung Rol ngang dé phân loại và hồi quy hộp giới hạn định hướng Do đó,
chúng có thê gặp phải các vấn đề sai lệch đáng kê giữa các đối tượng và các đặc trưng
được trích xuất, dẫn đến giảm độ chính xác của phát hiện
Các khung làm việc phát hiện đối tượng định hướng một giai đoạn hoặc khôngphụ thuộc neo [25] [27] [31] [32] [33] [34] [35] [36] [37] nhằm mục đích tao đầu ratrực tiếp các lớp đôi tượng và các hộp giới hạn được định hướng từ hình ảnh đầu vào.Các khung làm việc này loại bỏ bước trung gian của việc tạo đề xuất khu vực và thaotác căn chỉnh Rol tiếp theo, giúp đơn giản hóa quy trình phát hiện Cho ví dụ, Yang
và cộng sự [31] đã đề xuất một mô hình phát hiện đối tượng định hướng một giai
đoạn được tinh chỉnh (refined one-stage oriented object detector), kết hợp hai cải tiễnchính: Đầu tiên là tinh chỉnh đặc trưng, giúp giải quyết vấn đề sai lệch đặc trưng trongviệc phát hiện các đối tượng định hướng, cải tiến thứ hai là hồi quy lũy tiến(progressive regression), cho phép mô hình điều chỉnh dan các hộp giới hạn dự đoán,
cải thiện độ chính xác của tác vụ định vị Ming và cộng sự [32] đã thiết kế một chiến
lược gán nhãn mới dành riêng cho phát hiện đối tượng định hướng một giai đoạn dựa
trên kiến trúc cơ sở RetinaNet [19] Ý tưởng là chỉ định các hộp neo tích cực hoặc
tiêu cực bang cach su dung chiến lược so khớp mới một cách tự động Han và cộng
sự [25] đã giới thiệu Single-Shot Alignment Network (S?ANet) dé phát hiện đối
tượng định hướng S2ANet nhằm mục đích giảm bớt sự không nhất quán giữa điểm
18
Trang 37phân loại và độ chính xác vị trí băng cách kết hợp các kỹ thuật căn chỉnh đặc trưngchuyên sâu Điều này giúp cải thiện sự căn chỉnh giữa các đặc trưng và các đối tượngđược định hướng, dẫn đến việc định vị chính xác hơn Pan và cộng sự [27] đã phát
minh ra Dynamic Refinement Network (DRN) dé phát hiện đối tượng có định
hướng dựa trên phương pháp phát hiện đối tượng không phụ thuộc neo gọi là
CenterNet [38] DRN tập trung vào việc điều chỉnh cách tiếp cận không neo dé xử lý
các đối tượng được định hướng bằng cách kết hợp các kỹ thuật sàng lọc động, chophép định vị chính xác hơn và phát hiện các đối tượng có hướng tùy ý Tóm lại, tất
cả các phương pháp này đưa ra các chiến lược và cải tiến khác nhau dé giải quyết cácthách thức của việc phát hiện đối tượng định hướng trong ảnh chụp từ trên không.Mục tiêu chung cải thiện độ chính xác của việc xác định vi trí, giải quyết sai lệch đặc
trưng và cung cấp khả năng phát hiện hiệu quả các đối tượng được định hướng mà
không cần dựa vào các bước tạo dé xuất khu vực và căn chỉnh Rol truyền thống
Khác với các phương pháp một giai đoạn đã dé cập, trong khóa luận này, chúngtôi xây dựng một hệ thống phát hiện đối tượng định hướng dựa trên vùng đề xuất,trọng tâm giải quyết những thách thức bằng cách thiết kế RPN sinh ra các vùng đềxuất ngang hiệu quả cao Hướng đến phá vỡ các tắc nghẽn về tính toán của các đềxuất có hướng và độ chính xác của các đề xuất ngang, nâng cao hiệu suất tong thé
của hệ thống phát hiện đối tượng định hướng
2.2 Cách tiếp cận phụ thuộc hộp neo (Anchor-based approaches)
Phương pháp tiếp cận dựa trên mỏ neo (anchor-based) trong phát hiện đối tượngđịnh hướng được xây dựng trên nền tang của các phương pháp phát hiện đối tượngbiéu diễn hộp giới hạn được căn chỉnh ngang (HBB) Các phương pháp này phụ thuộc
vào các điểm neo được xác định trước, được coi là các hộp giới hạn thiết kế thủ công
được sử dụng làm mẫu tham chiếu trong quá trình phát hiện Các phương pháp tiếpcận dựa trên mỏ neo có thé được chia thành hai loại phương pháp: Phát hiện hai giai
đoạn (two-stage) và một giai đoạn (one-stage).
19
Trang 382.2.1 Phương pháp hai giai đoạn (Two-stage)
Trong các phương pháp phát hiện hai giai đoạn, đúng với tên gọi của nó, quy trình
phát hiện bao gồm hai giai đoạn chính Đầu tiên, một tập hợp các đề xuất khu vựcđộc lập với danh mục được tạo, các đề xuất vùng này là các hộp giới hạn tiềm năng
có thé chứa các đối tượng quan tâm Trong giai đoạn thứ hai, các đặc trưng vùng quantâm cho mỗi vùng đề xuất được trích xuất từ các mạng thần kinh tích chập sâu (Deep
Convolutional Neural Networks — DCNNs) Các đặc trưng nay sau đó được sử dụng
dé phân loại và hồi quy nhằm định vị chính xác các đối tượng Cuối cùng, các kỹ
thuật hậu xử lý như Non-Maximum Suppression (NMS) được sử dụng dé loại bỏ cácphát hiện dư thừa và thu được tập đối tượng được phát hiện cuối cùng Các phươngpháp phát hiện hai giai đoạn thường thể hiện một quy trình phức tạp hơn nhưng có
xu hướng đạt được độ chính xác cao hơn.
2.2.1.1 Rotated Faster RCNN
Faster R-CNN [9] đã thu hút được sự chú ý đáng kể, được xem là phương phápphát hiện đối tượng hai giai đoạn phô biến nhờ độ chính xác cao, hiệu quả và khảnăng huấn luyện hoàn chỉnh từ đầu đến cuối (end-to-end) Nhiều cải tiến và các cấutrúc mở rộng đã được đề xuất dựa trên Faster R-CNN, chăng hạn như Mask R-CNN
[23], Cascade R-CNN [20] va Feature Pyramid Networks (FPN) [39] FPN đặc biệt
dang chú ý vì nó trích xuất thông tin ngữ nghĩa cấp cao có giá trị từ nhiều thang dobang cách sử dụng kiến trúc từ trên xuống (top-down), cho phép phát hiện đề xuấtkhu vực trên các bản đồ đặc trưng khác nhau Sự kết hợp giữa Faster R-CNN va FPN
đã cho thấy những cải tiến đáng ké trong việc phát hiện các đối tượng có kích thước
khác nhau, đặc biệt là các đối tượng nhỏ Do đó, Faster R-CNN + FPN đã trở thành
một tiêu chuẩn dé phát triển và so sánh các phương pháp phát hiện đối tượng khác.Bang cách giới thiệu một chiều đầu ra bé sung dé ước tính hướng của từng đối tượng,
một phiên bản mở rộng của Faster R-CNN được gọi là Faster R-CNN OBB (Faster
R-CNN Oriented Bounding Box) hoặc Rotated Faster R-CNN [9] có thé duoc strdung dé phát hiện đối tượng định hướng Phiên ban mở rộng này cho phép mô hình
20
Trang 39phát hiện các đối tượng có hướng tùy ý một cách chính xác và đóng vai trò là điểmchuẩn dé đánh giá hiệu suất của các phương pháp phát hiện đối tượng có định hướngmới khác Kiến trúc Rotated Faster R-CNN được minh họa ở Hình 2.2:
= sf oriented region proposals
I operator
Hình 2.2 Kiến trúc co bản các phương pháp phát hiện có hướng hai giai đoạn [6]Kiến trúc cơ bản được thé hiện bao gồm:
(1) Tạo bản đồ đặc trưng (Feature map generation): Bản đồ đặc trưng đa cấp
với thông tin ngữ nghĩa được trích xuất bằng CNN và kiến trúc FPN
(2) Mạng đề xuất khu vực (Region Proposal Networks): RPN lấy các bản đồ
đặc trưng làm đầu vào và tạo các đề xuất khu vực băng cách đây các đầu vàoqua một mạng Nó dự đoán xác suất của các đối tượng hoặc bối cảnh nền và
tinh chỉnh vi trí thô của các hộp neo đại diện cho các đối tượng tiềm năng.
(3) Đặc trưng vùng với CNN (Regions with CNN features): Các thao tác Rol
chuyên đổi các đề xuất vùng thành bản đồ đặc trưng kích thước cố định Các
bản đồ này sau đó được xử lý bởi các lớp kết nối đầy đủ (Fully Connected) dé
ước tính xác suất cho các danh mục khác nhau và tinh chỉnh hướng cũng như
vị trí của các đối tượng
Tuy nhiên, thiết kế vốn có của mạng đề xuất khu vực cơ bản tạo ra các đề xuấtvùng ngang (HRols), đưa ra các vấn đề căn chỉnh giữa các hộp giới hạn ngang và cácđối tượng hướng tùy ý Ngoài ra, sự hiện diện của nhiều đối tượng được định hướng
21
Trang 40và đóng gói day đặc trong một HRols duy nhất dẫn đến chứa một lượng đáng ké dữ
liệu không liên quan, do đó thêm các thách thức trong việc phân loại và định vị Tuy
nhiên, những hạn chế này đã thúc đây những tiễn bộ tiếp theo và cách tiếp cận sángtạo trong lĩnh vực này Một số cách tiếp cận đáng chú ý trong hướng nghiên cứu pháthiện đối tượng hướng hai giai đoạn, bao gồm RRPN, Rol Transformer và OrientedR-CNN, đã nổi lên như những phương pháp có ảnh hưởng
2.2.1.2 Rotated RPN (RRPN)
Do những han chế của hộp neo ngang và HRols trong phát hiện đối tượng định
hướng, mạng đề xuất khu vực xoay (Rotated RPN — RRPN) đã được phát triển đểgiải quyết những thách thức này trong ảnh viễn thám RRPN [12] giới thiệu các hộpneo xoay dé phù hợp hơn với các đối tượng có các hướng khác nhau và tạo các đề
xuất xoay Các tham số định hướng được kết hợp dé tạo ra nhiều loại neo với các góc,
kích thước và hình dạng khác nhau, các neo này sau đó được sử dụng trong các lớp
hồi quy hộp giới hạn định hướng dé cải thiện độ chính xác của các đề xuất vùng được
xoay Đề xử lý các đề xuất xoay này, RRPN giới thiệu các phép Rotated Rol (RRol),
chăng hạn như RRol Pooling [12] hoặc RRoI Align [16] [24] Không giống như các
phép Rol truyền thống chỉ xử lý các đề xuất theo chiều ngang, phép RRol trích xuất
bản đồ tính năng có kích thước cô định dựa trên OBB của các đề xuất xoay, cho phéploại bỏ các thông tin nhiễu không liên quan Thiết kế của neo xoay và các phép RRoltrong RRPN góp phan cải thiện hồi quy và tỷ lệ thu hồi (recall) cao hon
Tuy nhiên, RRPN có những nhược điểm đáng kể Thứ nhất, dé cân bằng phạm viđịnh hướng và độ phức tạp tính toán, chỉ một số lượng giới hạn các hướng được lây
mẫu, gây khó khăn cho việc bao phủ toàn diện Thứ hai, mật độ hộp neo xoay trong
RRPN dẫn đến số lượng neo lớn hơn đáng ké so với RPN thông thường, dẫn đến tăngyêu cau về bộ nhớ và tính toán Cuối cùng, số lượng lớn các neo xoay ảnh hưởng tiêucực đến hiệu quả của quá trình so khớp tiếp theo giữa các đề xuất và các hộp giới hạn
được gan nhãn thực Quá trình tính toán cua Rotated IoU (RIoU) phức tap hơn IoU
và chứa các tính toán dư thừa, làm chậm quá trình hơn nữa.
22