Đề đạt được mục tiêu này, chúng tôi tiếp cận vấn đề bằng cách áp dụng các phương pháp huấn luyện động và hàm loss phù hợp trên các phương pháp phát hiện đối tượng có hướng hai giai đoạn
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TiNH
NGO VAN TAN LƯU - 20521591
TRUONG THANH THANG - 20521907
KHOA LUAN TOT NGHIEP
HUAN LUYEN DONG TREN CAC PHUONG PHAP
PHAT HIEN DOI TUONG CO HUONG HAI GIAI DOAN
Dynamic Training on Two-state Oriented Object Detection
CỬ NHÂN NGANH KHOA HỌC MAY TÍNH
GIẢNG VIÊN HƯỚNG DAN ThS VÕ DUY NGUYÊN
TP HÒ CHÍ MINH, 2023
Trang 2LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn chân thành nhất đến Thầy TS Nguyễn
Tấn Trần Minh Khang và Thay ThS Võ Duy Nguyên Trong quá trình thực hiện
khóa luận, tôi đã nhận được sự quan tâm giúp đỡ, hướng dẫn rất tận tình và tâm huyết của hai Thay Không chỉ có kiến thức chuyên môn, các Thay truyền đạt cho
tôi rất nhiều kỹ năng, kiến thức khác giúp tôi có cái nhìn sâu sắc hơn về sự nghiệp,
học tập và xã hội Từ những kiến thức các Thay truyền đạt, tôi nhận ra thế nào mới
là nghiên cứu khoa học đúng cách, tầm quan trọng của nghiên cứu khoa học, cũng như cách truyền tải nội dung nghiên cứu của mình đến người đọc, người nghe Sự
quan tâm hướng dẫn tận tình và các kiến thức hai Thầy truyền đạt là động lực mạnh
mẽ giúp tôi hoàn thành khóa luận này.
Bên cạnh đó, tôi xin gửi lời cảm ơn đến nhóm nghiên cứu UIT-Together.
Nhờ những thảo luận, đóng góp rất tích cực của các Thầy, các anh chị, các bạn
trong nhóm đã giúp tôi có nhiều ý tưởng dé thử nghiệm Khoảng thời gian thực hiện khóa luận cùng với nhóm có lẽ là khoảng thời gian đẹp nhất quãng đời sinh viên, cũng như là một trong những khoảng thời gian đẹp nhất trong cuộc đời.
Và cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, bạn bè và tập thể lớp
KHMT2020, những người luôn sẵn sàng sẻ chia và giúp đỡ tôi trong học tập và cuộc sống Mong rằng, sau này chúng ta sẽ mãi mãi gắn bó với nhau.
Xin chúc những điều tốt đẹp nhất sẽ luôn đồng hành cùng mọi người.
Trang 3ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
ĐÈ CƯƠNG CHI TIẾT
TÊN ĐÈ TÀI: HUAN LUYEN DONG TREN CÁC PHƯƠNG PHAP PHAT HIỆNĐÓI TƯỢNG CÓ HƯỚNG HAI GIAI ĐOẠN
TÊN DE TÀI TIENG ANH: DYNAMIC TRAINING ON TWO-STAGE
ORIENTED OBJECT DETECTION
Can bộ hướng dẫn: ThS VÕ DUY NGUYEN
Thời gian thực hiện: Từ ngày 20/02/2023 đến ngay26/06/2023
Sinh viên thực hiện:
NGÔ VĂN TẤN LƯU - 20521591 Lớp: KHMT2020
Email: 20521591@gm.uit.edu.vn Điện thoại: 0344550403
TRƯƠNG THÀNH THANG - 20521907 Lớp: KHMT2020
Email: 205210907@gm.uit.edu.vn Điện thoại: 0979297634
Nội dung đề tài:
1 Giới thiệu
Phát hiện đối tượng có hướng là một bài toán quan trọng trong lĩnh vực máy học hiện
đại Trong đó, các phương pháp phải trải qua quá trình huấn luyện dé đưa ra các dự đoán
chính xác, và phương pháp phát hiện đối tượng có hướng hai giai đoạn cũng không phải
là ngoại lệ Các phương pháp phát hiện đối tượng có hướng hai giai đoạn phụ thuộc rất
nhiều vào sự chính xác của việc đề xuất các vị trí của các đối tượng Tuy nhiên, việchuấn luyện mô hình một cách cứng nhắc có thể khiến cho mô hình không thể tận dụng
tôi đa kêt quả của các vùng đê xuât trong quá trình huân luyện Do đó, độ hiệu quả của
Trang 4quá trình huấn luyện chưa đạt được tôi ưu.
Với nhận thức về vấn đề này, chúng tôi đã lựa chọn bài toán phát hiện đối tượng có
hướng dé tìm hiểu, nghiên cứu và thực hiện khóa luận tốt nghiệp Mục tiêu của chúng tôi
là khảo sát và tìm ra các cách huấn luyện tốt hơn về độ hiệu quả, và đạt được kết quả
state-of-the-art trên bài toán phát hiện đối tượng hai giai đoạn Đề đạt được mục tiêu này,
chúng tôi tiếp cận vấn đề bằng cách áp dụng các phương pháp huấn luyện động và hàm
loss phù hợp trên các phương pháp phát hiện đối tượng có hướng hai giai đoạn mới nhất
và thực hiện các thí nghiệm toàn diện đê đánh giá hiệu quả cách tiệp cận của chúng tôi.
2 Phát biêu bài toán
Đâu vào của bai toán là một bức ảnh, dau ra cua bài toán là các hộp giới hạn có hướng
tối tiêu chứa đối tượng được phát hiện và phân lớp
INPUT MODEL OUTPUT
Hình 0-1 Mô hình bài toán
3 Mục tiêu của đề tài
Mục tiêu đề tài là khảo sát hiệu quả của việc áp dụng huấn luyện động vào trong quátrình huấn luyện phương pháp phát hiện đối tượng có hướng hai giai đoạn Qua đó phântích ảnh hưởng của các mô-đun động đến các phương pháp đó
4 Nội dung nghiên cứu của đề tài
Nội dung nghiên cứu đề tài chia làm bốn phần:
— Tìm hiểu về cách tiếp cận của các phương pháp hai giai đoạn cho bài toán phát
hiện đối tượng có hướng Rol Transformer [1], Oriented R-CNN [2], ReDet [3]
Trang 5Nghiên cứu các phương pháp huấn luyện động Dynamic R-CNN [4], Adaptive
Training Sample Selection [5].
Nghiên cứu các các ham loss trên bài toán phát hiện đối tượng có hướng GWD
[6], KFIoU [7], SmoothL1 [8].
Phân tích tác động các tổ hop huấn luyện động và ham loss trên mô hình pháthiện đối tượng có hướng hai giai đoạn trên bộ dữ liệu DOTA [9] và HRSC2016
[10].
Phuong phap thuc hién
Doc va tóm tat các cách tiếp cận cho bài toán phat hiện đối tượng có hướng của
các phương pháp hai giai đoạn.
Đọc, tìm hiểu các phương pháp huấn luyện động và các hàm loss được phát triển
cho bài toán phát hiện đối tượng có hướng.
Cài đặt source code Dynamic Rol Head phù hợp cho việc huấn luyện động chocác mô hình phát hiện đối tượng có hướng hai giai đoạn
Thực nghiệm tổ hợp các mô-đun huấn luyện động va hàm loss trên các phươngpháp phát hiện đối tượng có hướng hai giai đoạn
Phân tích ưu điểm, hạn chế của các mô-đun huấn luyện động và hàm loss dựa trênkết quả thực nghiệm đạt được
Kết quả dự kiến
Báo cáo chỉ tiết các tim hiéu/ khảo sát về các phương pháp hai giai đoạn sử dụngcho bài toán phát hiện đối tượng có hướng, các phương pháp huấn luyện động,các hàm loss có sẵn và kết quả các tổ hợp thử nghiệm sử dụng các kiểu huấn
luyện động và hàm loss khác nhau.
Cung cấp source code cài đặt thử nghiệm
Xây dung demo dé trực quan kết quả nghiên cứu
Tổng hợp toàn bộ kết quả nghiên cứu, báo cáo tổng kết và công bố 01 bài báo
khoa học tại hội nghi/tap chí được đánh chỉ mục SCOPUS Tài liệu tham khảo
Trang 6Kế hoạch thực hiện:
Thực hiện: SV Ngô Văn Tan Luu, SV Trương Thành Thang
Thời gian Công việc Thực hiện
Tuần 1-3 | Tìm hiểu, nghiên cứu phương pháp phát hiện đối tượng Ngô Văn Tấn Lưu
có hướng hai giai đoạn: Oriented RCNN.
Tìm hiểu phương pháp huấn luyện động trên mô hình
phát hiện đối tượng: Dynamic RCNN, Adaptive
Training Sample Selection.
Tìm hiểu, nghiên cứu phương pháp phát hiện đối tượng | Truong Thanh Thắng
có hướng hai giai đoạn: RoI Transformer, ReDet.
Tuần4-6 | Tìm hiểu, nghiên cứu phương pháp huấn luyện động Ngô Văn Tan Lưu
trên mô hình phát hiện đối trong: Dynamic IoU.
Tìm hiểu, nghiên cứu phương pháp tính loss động cho | Truong Thanh Thắng bài toán phát hiện đối tượng có hướng: Dynamic
SmoothL1 Loss.
Tuan 7-10 | Cài đặt mô-đun Dynamic RoI Head cho mô hình phát Ngô Văn Tan Lưu
hiện đối tượng có hướng.
Tìm hiểu, cài đặt các hàm loss hiệu quả cho bài toán | Trương Thành Thắng phát hiện đối tượng có hướng: KFIoU, GWD,
SmoothL1.
Tuan 11-16 | Thuc nghiém, phan tich, danh gia toan dién cac t6 hop Ngo Van Tan Lưu,
mô-đun huân luyện động trên các phương pháp phát Trương Thành Thắng
hiện đôi tượng có hướng: Oriented R-CNN, Rol
Transformer, ReDet.
Tuần 16-18 | Hoàn thiện kết quả nghiên cứu để thực hiện công bố Ngô Văn Tan Lưu,
Trang 7khoa học Trương Thành Thăng
Tuần 18— | Xây dựng Demo Ngô Văn Tan Lưu,
Phân còn lại Trương Thành Thăng
TP HCM, ngày | thang | nam 2023
Xác nhận của CBHD Sinh viên
(Ký tên và ghi rõ họ tên) (Ký tên và ghi rõ họ tên)
Võ Duy Nguyên Ngô Văn Tan Lưu Trương Thành Thang
Trang 8MỤC LỤC
30uxIc9rieiin 5
TÓM TAT KHÓA LUẬN -:-cs v9 10.1.112.1.10.1 11.1.11.1.111 1.111.11 ie 17Churong 1 (062710027 - HH)H,.,., 1
1.1 Dong lực nghiên CỨU -. setcrrverrrerrkrtetrrrrtrrirrrrrrtrrirrrrrrrrierrrrrrirrree 1
1.2 Phát biểu bài toán cerritriiriiriiiiiiiiiriirierrererrie 2
1.3 Các thách thức «.c-c-ceesrihhHHHHH He 2 1.4 Mục tiêu và phạm vi nghiÊn CỨU -«-©ccesrrrxerrrrerrrrkrtrrrerrrrrerrrrerrrrrrree 4
1.5 Đóng góp của nghiÊn CỨU -ss-ss-+x++ExxtEEkktrkktrkrktrriktririeirrieriirkerrrkerrire 4
1.6 Bố cục của luận VĂN 222111111112212122212 11 kkkkkkkkkLEEErrtrrrrrrrrrre 5
Chương 2 CAC NGHIÊN CỨU LIÊN QUAN -cc:++rrceecevevvvrrrrrrrrree 6
2.1 Phát hiện đối tượng có hướng hai giai đoạn eceeiicceeccerrrrrrseeerre 6
2.1.1 Rol TransfOTImT cc«cceserketrrirrtirtrirrrrirtiirirriirrrirrrrrre 6
2.1.2.1 Rotation-Equivariant Feature EXffaCẦOT -«-ce-crxserx 9
2.1.2.2 Rotation-Invariant Rol A ÍIg1 ««cecceeekeierrietrtiirrriiririiirriee 9 2.1.3 Oriented R-CNN HH He 9
2.1.3.1 Orlented RPN c ierirriiiriiiiiiriirree 11 2.1.3.2 Midpoint Offset RepresenfatIOn c-reerrssrrrrerrrrrirrrke 11
2.1.3.3 Oriented R-CNN Head cccceieriiriiiiiiiiiiiiriiie 12
"No cố ẽ ẽẽẽẻẻẽẻ 13
2.1.1 SmoothLÏ ecc< SE 13
2.1.2 Gaussian Wasserstein [DIstance -ceekrikieiiirrrrie 14
2.1.3 Kalman Filter-based Skew Intersection over n1on - 15
Trang 92.2 Huan luyén dO can ẽ.ẽẽ 17
2.2.1 Dynamic R-CNN c-cererrrrirrrrirrrriirrriiirrirrrirrrrirrrrree 17
2.2.1.1 Dynamic Label ÀssIgnmeI -cseeecxeerereerrrrerrrrerrrrreee 18 2.2.1.2 Dynamic Smooth] cs-c«cxs+xxeeeeerteererxeerterrkerrerreererre 19
2.2.2 — Self-Adjusting Smooth L1 LLOSS c-«e<ccccceerxeerrerree 20
2.2.3 Adaptive Training Sample Selection cesses 21
2.2.4 Cascade R-CNN HH rà 23
Chương 3 DE XUẤT TINH CHỈNH -22+.esteZttrezttrrrtrrrrrrrrrrrre 25
3.1 VAI ẽa ẽ 253.2 Hướng giải quyét scssssssssesssnesssssssssnsssssssssssesssssesnssssssssesisssesssssssssssnsessusssssnsee 26
4.2.1 Pr€CISIOH ii heg 37 2m ‹ 37
4.2.3 AP và mAP cnhHHHHHHH re 38
4.4 Các kết quả chính -. +-csexrccetrrevertererrtrrtrrrrrtrrrrrrrirrrrrrrrrrrrre 40
Trang 104.5 Phân tích kết quả trực quan hóa -s.++cestrecetrrreetrrrerrrrrrrrrrre 45
4.6 Nghiên cứu tác động của từng mô-đun huấn luyện động 48
4.6.1 Tac động của mô-đun DLA và DSÌ -cccs-cereeererseee 48
4.6.1 Tac động của mô-đun DLA với các hàm lỗi khác - 50
4.6.2 Huấn luyện động với số epoch khác nhau -cce ::rres 50
4.6.3 Oriented R-CNN + DLA và các hàm lỗi khác - 53
Chương 5 KET LUẬN VÀ HƯỚNG PHÁT TRIỂN 2.-:c-2:zecerrz 59
Â.‹)a 595.2 Hướng phát triỂn -«ccesreeetrteeerrtertrtrrrtrtrrvrrrrrtrrrrrrrrrrrre 59DANH MỤC CÔNG TRÌNH TÁC GIẢ cccccccc++++ece2SSSEEEEEEEEEEEireeevvvvrrrrrrrirreee 60
Trang 11DANH MỤC HÌNH
Hình 0-1 Mô hình bài toán scc+LkHHHHHH HH HH HH hà 6
Hình 1-1 Đầu vào và đầu ra của bài toán ccccccrirceccerrrririerrrrrtrrrrrrrrrrrrrrrree 2
Hình 1-2 Các đối tượng xe đỗ với nhiều góc xoay khác nhau 3
Hình 1-3 Ảnh với phông nền phức tạp (cây cối, bóng ram, đồi núi) 3
Hình 1-4 Bãi xe với nhiêu loại xe có hình dạng, kích thước, màu sắc khác nhau xuât hiện dày đặc HH HH HH HH HH HH1 1111111 4 Hình 2-1 Mô hình Rol Transformer [ Ï ] -. -< e<5eeeccssrvserxetxrterrktkrerrkrrkrerrrk 6 Hình 2-2 Mô hình ReDet [3] . c-seecrcxesrrrrrirrrrrrirttrrrirrrrrirrrriiirriirriiree 8
Hình 2-3 Mô hình Oriented R-CNN [2] -. cccsccccceerseeeeereersetrrrtrrerrrrrerreee 10
Hình 2-4 Minh hoa midpoint offset representation [2] ‹ -«scccseecxeecrrs 12 Hình 2-5 KFIOU Loss [7] eecscceccccccceeecrrrerterrtirtrttrirtrtrirrtrrirririirrrrirrrrirrrrrek 16
Hình 2-6 Minh họa tác động cua Dynamic Label Assignment va Dynamic
SmoothL1 trong quá trình huấn luyện [4] Cac vùng dé xuất hợp lệ ban đầu sẽ đượcloại bỏ khi ngưỡng IoU tăng cao đo các vùng đề xuất được cải thiện Các vùng đề
xuất nếu giữ nguyên chất lượng sẽ bi phạt nặng hơn trong quá trình huấn luyện 19Hình 2-7 Hình minh họa giá trị cập của phương pháp ATSS [5] bằng giá trị ngưỡng
là tong giữa giá trị trung bình và giá trị phương sai của các giá trị IoU tính toán
Hình 2-8 Kiến trúc của mô hình Cascade R-CNN [13], với “I” là ảnh đầu vào,
“conv” là backbone, “pool” là mé-dun rút trích đặc trưng, “H” là dau của môi giai
đoạn, “B” là hộp giới hạn, “C” là nhãn dự đoán, “BO” là vùng đề xuắt 23Hình 3-1 Mô hình chung của các phương pháp phát hiện đối tượng có hướng hai
li ẽ 26 Hình 3-2 Mã gia Rol Transformer & ReDet + Dynamic essences 28
Hình 3-3 Mã gia Oriented R-CNN + DynamIC ccsscscseeerrererkerirrkrrrrkrrike 31
Hình 4-1 Một số ảnh trong bộ dữ liệu DOTA [9| e-ccccsrcserersreereexree 34
Hình 4-2 Các đối tượng trong bộ dữ liệu DOTA [9], -. .-eceerreeccerrecee 35
Hình 4-3 Một số ảnh trong bộ dữ liệu HRSC2016 [10] -.ccc-ee:zcs< 36
Trang 12Hình 4-4 Trực quan công thức tinh AP trên mỗi lớp .-. c - 39
Hình 4-5 Trực quan hoá kết quả trong trường hợp đối tượng dày đặc của phương
pháp Rol Transformer trước (bên trái) và sau khi áp dụng huấn luyện động (bên
phải) Vùng khác biệt giữa 2 kết quả được khoanh vùng đỏ -. - 47
Hình 4-6 Trực quan kết quả trong trường hợp đối tượng có nhiều góc xoay khác
nhau của phương pháp Rol Transformer trước (trái) và sau khi áp dụng huấn luyện
động (phải) Vùng khác biệt được khoanh vùng đỏ c-cccccsreereerree 47
Hình 4-7 Trực quan kết quả trong trường hợp chưa tốt của cả phương pháp Rol
Transformer trước (trái) và sau khi áp dụng huấn luyện động (phải) Vùng khác biệt
được khoanh vùng đỎ sen HH TH HH pH pH phi 47
Trang 13DANH MỤC BANG
Bảng 4-1 Confusion TmAfTIC ss -sscnx+ kh HH HH nghiên 36
Bảng 4-2 Kết quả thực nghiệm trên bộ dữ liệu DOTA [9] của các phương pháp pháthiện đối tượng có hướng hai giai đoạn trước và sau khi áp dụng huấn luyện động
Các kết quả cao nhất mỗi cột được tô đậm -cccvvttttttttresvvvvvrrrrrrrrrrreee 43Bảng 4-3 Kết quả thực nghiệm trên bộ dữ liệu HRSC của các phương pháp phát
hiện đối tượng có hướng hai giai đoạn trước và sau khi áp dụng huấn luyện động
Kết quả cao nhất mỗi cột được tô đậm -ccc+++vvvv+SS2222222222111222222222122221E e 44
Bảng 4-4 Tác động mé-dun DLA va DSL trên phương phấp ‹ -‹ 48
Bảng 4-5 Kết quả đánh giá Roi Trasnformer và Oriented R-CNN với các hàm lỗi
trên tập đánh giá của bộ dữ liệu DOTA Giá trị cao nhất mỗi cột của mỗi phương
pháp được tô đậm -s-c-ccccct H1 HH HH1 11 HH HH tr triet 52
Bảng 4-6 Kết quả thực nghiệm ảnh hưởng của tham số module DLA trên phương
pháp Oriented-RCNNN «-ccccccrkrrrHHH HH Hrrrrrrrrierrrrerrrke 56
Bảng 4-7 Kết quả huấn luyện động các phương pháp cùng mô-đun DLA và DSL
với số vòng lặp huấn luyện khác nhau -.-2 icccssireeceetrreeevrrrreerrrrreverrrresee 58
Trang 14DANH MỤC TỪ VIET TAT
ATSS Adaptive Training Sample Selection
CNN Convolutional Neural Network
DLA Dynamic Label Assignment
DSL Dynamic SmoothL1
FPN Feature Pyramid Network
GWD Gaussian Wasserstein Distance
HRol Horizontal Region of Interest
IoU Itersection of Union
RPN Region Proposal Network
RPS Rotated Position Sensitive
RRol Rotated Region of Interest
R-CNN wegen based Convolutional Neural
SOTA State-of-the-art
Trang 15TÓM TAT KHÓA LUẬN
Khoá luận này nhằm mục tiêu giải quyết bài toán phát hiện đối tượng có hướng, đây
là một bài toán thú vị và rất có nhiều ứng dụng trong thực tế So với phát hiện đốitượng thông thường, phát hiện đối tượng có hướng yêu cầu hộp giới hạn đầu rakhông chỉ bao đúng vị trí đối tượng cùng với nhãn của đối tượng đó mà còn yêu cầuhộp giới hạn đó phải xoay khớp với hướng xoay của đối tượng Do đó bài toán nàykhó khăn hơn bài toán phát hiện đối tượng truyền thống do phát sinh thêm gócxoay.
Thách thức trong việc giải quyết bài toán này là tìm ra phương pháp nâng cao hiệu
suất của việc chọn lọc các vùng đề xuất là mục tiêu quan trọng trong nghiên cứu vàphát triển các phương pháp phát hiện đối tượng có hướng hai giai đoạn Việc tối ưuhóa quá trình này có thé đóng góp quan trọng vào việc cải thiện chất lượng và độ tincậy của mô hình, đồng thời mở ra cơ hội tận dụng tối đa thông tin từ các vùng đềxuất dé đạt được kết quả chính xác và ôn định hơn trong phát hiện đối tượng cóhướng Dé làm điều này, kỹ thuật huấn luyện động đã được áp dụng dé nâng caohiệu suất mô hình trong quá trình huấn luyện
Khóa luận này tập trung vào việc cải thiện hiệu suất học tập của các phương phápphát hiện đối tượng có hướng hai giai đoạn băng kỹ thuật huấn luyện động Cụ thẻ,khóa luận này đề xuất áp dụng hai mô-đun huấn luyện động là Dynamic Label
Assignment (DLA) [4] và Dynamic SmoothL1 (DSL) [4] lên giai đoạn hai của các
phương pháp phát hiện đối tượng có hướng nồi bật hiện tại là Rol Transformer [1],ReDet [3] và Oriented R-CNN [2] Mô-đun huấn luyện động DLA sẽ giúp các môhình học nhận được đủ lượng đặc trưng cần thiết trong suốt quá trình huấn luyện.Bên cạnh đó, mô-đun DSL sẽ giúp các mô hình thích ứng được với sự tiễn triển vàgiúp tăng cường đóng góp của các vùng đề xuất chất lượng cao
Các kết quả thu được của khóa luận này chứng minh được sự hiệu quả khi áp
dụng huấn luyện động và ảnh hưởng của chúng lên các phương pháp phát hiện đối tượng có hướng hai giai đoạn.
Trang 16Chương 1 MỞ ĐẦU
1.1 Động lực nghiên cứu
Bài toán phát hiện đối tượng trong không ảnh là bài toán xác định vị trí vật thể trên
ảnh cùng với thông tin có hướng và xác định nhãn của vật thể đó Đây là một bài
toán mang lại nhiều ứng dụng trong thực tế như áp dụng vào giám sát giao thông từ
trên cao giúp tăng cường an ninh khi xác định được hướng xoay giúp theo dõi được
hướng đi của xe cộ, hay làm tiền đề cho các bai toán khác như dự đoán góc xoaycủa chữ giúp rút trích thông tin văn bản bằng hình ảnh chính xác hơn Đã cónhững nghiên cứu nhằm tăng hiệu suất của bài toán này trong những năm gần đây
[11] [12] [7] [13] Mục tiêu của các phương pháp là xử lý tam ảnh đầu vào, rút trích
thông tin của các khu vực có khả năng chứa vật thể trong ảnh và cho ra tọa độ, góc
xoay và nhãn của vật thê đó.
Các phương pháp được sử dụng dé giải quyết bài toán phát hiện đối tượng có hướng
trong không ảnh hiện nay được chia thành hai loại chính: phương pháp phát hiện
đối tượng có hướng một giai đoạn và phương pháp phát hiện đối tượng có hướnghai giai đoạn Các phương pháp một giai đoạn chỉ gồm giai đoạn dự đoán vị trí củacác vật thê từ tập đặc trưng Trong khi đó, các phương pháp hai giai đoạn gồm hai
bước là đề xuất vị trí vật thê và làm giàu đặc trưng rồi đưa ra dự đoán cuối cùng vịtrí vật thé và nhãn của của vật thé đó Các nghiên cứu hiện nay thường tập trung vào
phát triển thành phan đề xuất vật thé, phát triển cách rút trích đặc trưng, Trong số
đó, kỹ thuật huấn luyện động là kỹ thuật mang nhiều tiềm năng phát triển khi có thé
tôi ưu hiệu suât của mô hình mà không làm tăng độ phức tạp của nó.
Nhận thấy hướng nghiên cứu này chứa đựng nhiều tiềm năng, do đó chúng tôi quyết
định lựa chọn bài toán phát hiện đối tượng có hướng trong không ảnh và kỹ thuậthuấn luyện động đề tìm hiểu, nghiên cứu và thực hiện khóa luận tốt nghiệp, với mục
đích sẽ khảo sát để tìm ra phương pháp áp dụng huấn luyện động tốt hơn cho cácphương pháp phát hiện đối tượng có hướng trong không ảnh
Trang 171.2 Phát biêu bài toán
Đâu vào của bài toán là một bức ảnh, đâu ra là tập các hộp giới hạn tôi tiêu có
hướng bao đối tượng và nhãn lớp đối tượng thuộc về
1.3 Các thách thức
Đây là một bài toán phức tạp và đầy thách thức [1] [2] [3] Sau đây chúng tôi xin
trình bày các thách thức chính sau:
a) Các đối tượng có nhiều góc xoay khác nhau: không ảnh thường được chụp
từ trên cao, do đó các vật thể trong ảnh thường có các góc xoay khác nhau
Các góc xoay này rất đa dạng (Hình 1-2)
b) Phông nền phức tạp: Với việc là ảnh chụp từ trên không, những bức ảnh
này thường sẽ chứa các phông nền phức tạp như bién ca, đất liền, cây cối, Các vật thể thường sẽ nằm trên các phông nền này khiến các vật thé bi che
mờ do cùng màu với phông nền (Hình 1-3)
c) Các đối tượng có đa dạng hình thái, tỉ lệ, xuất hiện dày đặc: Các đối
tượng trong bài toán phát hiện đối tượng có hướng trong không ảnh thườngxuất hiện với số lượng dày đặc và nằm sát nhau Bên cạnh đó, một lớp đốitượng mang rất nhiều hình thái, phiên bản khác nhau khiến đây là cũng là
Trang 18một thách thức lớn Bên cạnh đó, các đối tượng không xuất hiện theo tỉ lệ cố
định mà tỉ lệ nay cũng rất đa dạng, từ xuất hiện li ti đến chiếm phần lớn diện
tích ảnh (Hình 1-4).
Hình 1-3 Ảnh với phông nền phức tạp (cây cối, bóng ram, đồi núi)
Trang 19Hình 1-4 Bãi xe với nhiêu loại xe có hình dạng, kích thước, màu sắc khác nhau xuât
hiện dày đặc.
1.4 Mục tiêu và phạm vi nghiên cứu
Đề tài nghiên cứu áp dụng các phương pháp huấn luyện động trên các mô hình pháthiện đối tượng có hướng hai giai đoạn Cụ thể, các phương pháp huấn luyện động
được áp dụng là Dynamic Label Assignment [4] và Dynamic SmoothL1 [4]; các
phương pháp phát hiện đối tượng có hướng hai giai đoạn phô biến hiện nay là RolTransformer [1], ReDet [3] và Oriented R-CNN [2] Dé tài thực nghiệm trên 2 bộ
dữ liệu gồm các hình ảnh chụp từ trên không là: DOTA [9] và HRSC2016 [10]
1.5 Đóng góp của nghiên cứu
Nội dung cuốn báo cáo mô tả cách hoạt động của một số phương pháp phát hiện đốitượng hai giai đoạn có hướng trong không ảnh nỗi bật hiện nay, mô tả cách hoạt
động của một số kỹ thuật huấn luyện động sử dụng trong bài toán phát hiện đốitượng, trình bày một số hàm lỗi sử dụng trong bài toán phát hiện đối tượng cóhướng Báo cáo trình bày ưu nhược điểm của các phương pháp phát hiện đối tượng
có hướng cũng như là một tài liệu tổng hợp trên bài toán này
Trang 20Bên cạnh đó, báo cáo trình bày các bộ dữ liệu hiện có và được sử dụng rộng rãi cho
bài toán phát hiện đối tượng có hướng
Cuối cùng, khóa luận trình bày cách tiếp cận kỹ thuật huấn luyện động cho các
phương pháp phát hiện đối tượng có hướng trong không ảnh, bao gồm thử nghiệmtrên nhiều vị trí khác nhau và thử nghiệm với các hàm lỗi khác nhau và đề xuất một
số tinh chỉnh dé đạt được kết quả cao hơn so với phương pháp ban đầu
1.6 Bo cục của luận văn
Phân còn lại của khóa luận được trình bày theo bô cục như sau:
CHƯƠNG 2 - CÁC NGHIÊN CỨU LIEN QUAN: trình bày một khảo sát đầy đủ
về các phương pháp phát hiện đối tượng có hướng hai giai đoạn hiện nay, các kỹ
thuật huấn luyện động và các hàm lỗi sử dụng trong bài toán phát hiện đối tượng có
trong quá trình nghiên cứu
CHUONG 5 - KET LUẬN VA HUONG PHAT TRIEN: Sơ lược lại một số nội
dung chính trong toàn bộ nội dung nghiên cứu và tình bày một số ý tưởng cải tiến
mà sinh viên chưa kịp thực hiện trong nội dung khóa luận này.
Trang 21Chương2 CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Phát hiện đối tượng có hướng hai giai đoạn
Trong mục này, chúng tôi sẽ giới thiệu và phân tích ba phương pháp phát hiện đối
tượng có hướng hai giai đoạn hàng dau là Oriented RCNN [2], Rol Transformer [1]
và ReDet [3] Mỗi phương pháp mang đến những cải tiến và ưu điểm độc đáo, đồngthời đối mặt với những thách thức riêng trong việc nâng cao hiệu suất của quá trìnhphát hiện đối tượng có hướng hai giai đoạn Sau đó chúng tôi sẽ đưa ra điểm chungcủa các phương pháp và điểm hạn chế của chúng
2.1.1 RoI Transformer
Rol Transformer [1] là phương pháp rút trích đặc trưng xoay bat biến invariant feature) giúp giải quyết vấn đề lệch khớp giữa đặc trưng và đối tượngtrong vùng được rút trích đặc trưng Rol Transformer nhắm đến việc phát hiện đối
(rotation-tượng có hướng trong không ảnh thông qua việc huấn luyện thành phần RRolLearning và rút trích đặc trưng các vùng nhận được từ mô-đun đề xuất vị trí đối
tượng bằng mô-đun Rol Transformer có hai thành phan Hai thành phần đó baogồm RRol Learner và RRol Wraping Thanh phần RRol Learner có nhiệm vụ hoccách chuyền đổi HRols thành RRols thông qua quá trình huấn luyện
Hinh 2-1 M6 hinh Rol Transformer [1]
Thành phan thứ hai là RRoI Wraping với cốt lõi là Rotated Position Sensitive RolAlign có nhiệm vụ rút trích các đặc trưng xoay bất biến (rotation-invariant) từ
Trang 22RRols cho giai đoạn cuối cùng là dự đoán hộp giới hạn có hướng và phân loại vật
thể Sự kết hợp giữa RRol Learner và RRol Wraping tạo thành mô-đun ROI
Transformer.
— RRol Learner được tao ra dé học vung dé xuất vật thé có hướng (RRol) từ
các đặc trưng của các vùng đề xuất vật thể không hướng (HRol) Ý tưởng
chính của thành phan nay là sử dung fully connected layers dé đưa ra độ doi
của vùng tin tưởng, độ dời này sau đó sẽ được sử dụng dé đưa ra thông tin
hình học của RRols trong các tập feature map Các giá trị độ đời này cho biết
các tham số cần thay đổi như thé nào dé có thê khớp được với vùng tin tưởng
của nó Khi các giá trị này được học bởi mạng fully connected layer, thành
phan nay cho phép Rol Transformer có khả năng đưa ra dự đoán vùng déxuất có hướng từ vùng đề xuất không hướng Một khi đã được học, các giátrị đội doi này có thé được đem vào quá trình dự đoán bằng cách chuyền đôiHRols thành RRols thông qua quá trình biến đổi từng phần trong RRol
Wraping.
— RRol Wraping: Thanh phan RRol Wraping là thành phan chuyên đổi từng
phần (spatial transformation) lên RRols để rút trích đặt trưng Cốt lõi củathành phan này là Rotated Position Sensitive (RPS) Rol Align Cho đầu vào
là tap feature map D có kích thước (H, W, K x K x C) va một vung RRol
(X;s Vrs w„, Ay, 6„), RPS Rol Align chia RRol thành K x K phan và cho ratập feature map Y có kích thước K x K x C Với phần tại vị trí (i, j) của
kênh C, ta có
Y,j)= À _ Du„Œ;G,y))/n
(x,y)€bin(Lj)
Với D,„ „ là tập đặc trưng của có chỉ số i,j, c trong tập đặc trưng đầu vào D,
Tạ là hàm chuyên đổi (x, y) thành (x', y’) có công thức là
()=(06 sine) (Wel) 4 (07)
Trang 23Trong quá trình huấn luyện, đầu tiên khi nhận đầu vào là các vùng đề xuất vật thê
không hướng (horizontal proposal), các vùng đó được gan với một vùng tin tưởng
có hướng (oriented ground-truth box) Sau đó, với mỗi cặp gán được sẽ cho ra một
giá trị IoU giữa chúng Những cặp có IoU lớn hơn một ngưỡng thì vùng đề xuất của
cặp đó sẽ được gán nhãn hợp lệ còn thấp hơn ngưỡng thì được gán không hợp lệ
Các vùng đề xuất hợp lệ sau đó sẽ được tiếp tục trong quá trình huấn luyện Cácvùng đó lần lượt đi qua mô-đun Rol Transformer dé trích xuất đặc trưng va di quamô-đun R-CNN dé hồi quy vi trí vật thé và nhãn tương ứng của vật thé đó
2.1.2 ReDet
ReDet [3] là phương pháp phát hiện đối tượng có hướng trong không ảnh mạnh mẽ
được đề xuất trong khoảng thời gian gần đây Một trong những thách thức lớn nhấtcủa bài toán phát hiện đối tượng có hướng trong không ảnh là các góc xoay thườngrất đa dạng và đã gây rất nhiều khó khăn cho các phương pháp truyền thống để cóthé phát hiện chính xác
classification
bbox regression
Hình 2-2 Mô hình ReDet [3]
Dé giải quyết van dé này, ReDet đã sử dụng các mạng xoay tương đương
(rotation-equivariant network) Các mang này có kha năng rút trích đặc trưng xoay từ bức
ảnh sao cho các đặc trưng đó sẽ tương đương với bất kỳ góc xoay nào Nói cáchkhác, nếu ta xoay bức ảnh theo nhiều góc khác nhau thì các đặc trưng rút trích được
cũng sẽ xoay theo các góc đó Thêm vào đó, ReDet còn đề xuất thêm một mô-đun
gọi là Rotation-invariant RoI Align (RiRoIAlign) M6-dun này có khả năng rút trích
đặc trưng xoay bat biến từ các đặc trưng xoay tương đương dựa trên các vùng được
đề xuất là có khả năng chứa vật thể trên ảnh Tóm lại, ReDet gồm có ba mô-đun
chính sau:
Trang 242.1.2.1 Rotation-Equivariant Feature Extractor
Rotation-Equivariant Feature Extractor sử dụng các CNN với cơ chế chia sẻ tham
số có định sao cho tập đặc trưng rút trích được sẽ tương đương theo các góc xoay
Tập đặc trưng ƒ rút trích được sẽ có thêm một kênh dành cho các góc xoay có dạng
(K,N,H,W) với N là các kênh xoay sao cho f = {f'|i € {1,2, ,N}} Các đặc
trưng ở các góc xoay khác nhau có thể chia sẻ chung các bộ lọc với các phép biếnđổi góc xoay khác nhau Do đó, tập đặc trưng rút trích được sẽ mang nhiều thông
tin về các góc xoay hơn
2.1.2.2 Rotation-Invariant Rol Align
Với mỗi vùng đề xuất tir Region Proposal Network, mô-đun này rút trích đặc trưng
xoay bắt biến từ các đặc trưng xoay tương đương đã rút trích được trước đó nhờ vào
Rotation-Equivariant Feature Extractor Rotation-Invariant Rol Align gồm haithành phan chính là Spatial Alignment va Orientation Alignment Spatial Alignmenttrích xuất đặt trưng xoay bat biến từ các vùng đề xuất có hướng trong không giancủa Spatial Alignment Va dé đảm bảo các đặc trưng xoay bất biến được rút tríchhoàn toàn, các tác giả đã sử dụng thêm phép biến đối Orientation Alignment Cụthé, phép biến đổi này có công thức như sau:
biến này ReDet sẽ đưa ra dự đoán vị trí, góc xoay của hộp giới hạn cùng với nhãn
của hộp giới hạn đó thông qua các lớp CNN và Neural Network.
2.1.3 Oriented R-CNN
Các phương pháp phát hiện đối tượng có hướng 2 giai đoạn trước Oriented R-CNN[2] sinh các đề xuất có hướng (oriented proposal) thông qua các cơ chế tốn thời
Trang 25gian Điều này làm giảm tốc độ của trình phát hiện, do đó dẫn đến tình trạng tắcnghẽn do tính toán trong các hệ thống phát hiện đối tượng có hướng hiện đại Vi
vậy câu hỏi đặt ra là: “Liệu chúng ta có thể thiết kế một mang oriented region
proposal chung va don giản có thể trực tiếp sinh ra các proposal có hướng được
không?”.
Dé trả lời cho câu hỏi đó, nhóm tác giả đề xuất phương pháp phát hiện đối tượng có
hướng 2 giai đoạn Oriented R-CNN.
Feature map
Hình 2-3 Mô hình Oriented R-CNN [2]
— Giai đoạn đầu tiên tác giả đề xuất một Oriented Region Proposal Network
(Oriented RPN) trực tiếp sinh các proposal có hướng chất lượng cao gần như
không tốn chi phí thêm Cách tiếp cận của tác giả: biểu diễn midpoint offset.
Mỗi đối tượng có hướng tùy ý trong ảnh (arbitrary-oriented) được biéu diễnbởi 6 tham số Midpoint offset representation kế thừa từ cơ chế horizontal
regression.
— Giai đoạn hai là oriented R-CNN head dé điều chỉnh Oriented Regions of
Interest (oriented Rols) và phân lớp nó Rút trích đặt trưng từ mỗi oriented
proposal bằng rotated Rol alignment và triển khai phân lớp và hồi quy
10
Trang 262.1.3.1 Oriented RPN
Thành phan Oriented RPN nhận đầu vào là một tam ảnh bat kỳ, đầu ra của nó là
một tập các vùng đê xuât có hướng.
Cụ thể, đầu vào của nó là 5 bậc đặc trưng nhận được từ FPN [11] sẽ được đưa vào
mạng 3x3 convolution và 2 mang 1x1 convolution Một trong hai mạng
convolution 1 x 1 làm nhiệm vụ đưa ra giá trị độ dời của vùng dé xuất là (x, y, W,
h, a, b), mạng còn lại có nhiệm vụ đưa ra độ tin cậy cho vùng đề xuất có hướng đó
Có 3 anchors không hướng được định nghĩa sẵn với ba tỉ lệ là {1: 2, 1:1, 2:1} Khi
giải mã các giá trị đầu ra, ta sẽ nhận được vùng đề xuất có hướng, quá trình giải mã
diễn ra như sau:
Aa = OgiinatWs AB = ög.h
W = dy.eỀ, h = an eÊh
X= ôy.d„ + dy, Y = by.an + ay
Với x, y là tọa độ giữa cua vùng đề xuất, w, h là giá tri chiều dai, chiều cao của
hình chữ nhật không hướng bao vùng đề xuất, da, SB là độ dời so với điểm giữa
của cạnh trên và cạnh phải của hình chữ nhật ngoại tiếp Cuối cùng, thành phần này
cho ra vùng đề xuất gồm các giá tri là (x, y, w, h, da, 66) và điểm tin cậy của vùng
đề xuất đó
2.1.3.2 Midpoint Offset Representation
Các tác giả dé xuất một cơ chế biéu diễn của đối tượng có hướng, tên là Midpoint
Offset Represenfation Mỗi cham den là trung điểm của mỗi cạnh của hình chữ nhậtngang (hình chữ nhật ngoại tiếp của bounding box có hướng) Chấm cam là các
đỉnh của hình chữ nhật nghiêng.
11
Trang 27Hình 2-4 Minh hoa midpoint offset representation [2]
Cụ thé tac giả sử dụng hộp giới han nghiêng O với 6 tham số O =(x,y,w,h, Aa, AB) dé biéu diễn một đối tượng Thông qua 6 tham sé, họ có thé xác
định được tọa độ các đỉnh của mỗi proposal.
Thanh phan Oriented R-CNN nhận đầu vao là tập đặc trưng và các vùng đề xuất.
Thành phan này sử dung Rol Align dé rút trích các đặc trưng xoay bat biến từ cácvùng đề xuất Sau đó các đặc trưng này được đưa vào mạng fully connected để đưa
ra vi trí, hướng của hộp giới hạn và nhãn của hộp giới hạn đó.
Nhìn chung, các phương pháp phát hiện đối tượng có hướng hai giai đoạn đều baogồm hai giai đoạn chính: giai đoạn đề xuất vị trí vật thể và giai đoạn đưa ra dự đoáncuối cùng Trong quá trình huấn luyện của các phương pháp này, việc chọn lọc các
vùng đề xuất hợp lệ sau khi nhận được từ mô-đun đề xuất vị trí vật thể đóng góp rất
quan trọng dé quyết định hiệu suất của mô hình
12
Trang 28Thông thường, quá trình chọn lọc diễn ra trong quá trình huấn luyện bằng cách sửdụng một ngưỡng IoU cô định dé loại bỏ các vùng đề xuất kém chất lượng và giữ
lại các vùng đề xuất chất lượng cao Tuy nhiên, việc sử dụng ngưỡng IoU cố định
dé lựa chọn các vùng đề xuất hợp lệ chưa đạt hiệu quả tối ưu cho việc huấn luyện
hiện đối tượng có hướng
2.1 Hàm lỗi
Trong quá trình huấn luyện các mô hình phát hiện đối tượng có hướng hai giai
đoạn, việc chọn các hàm loss phù hợp là một yếu tố quyết định quan trọng đối với
hiệu suất và độ 6n định của mô hình Trong nghiên cứu này, chúng tôi sẽ tập trungvào ba hàm lỗi nôi bật trong bài toán phát hiện đối tượng có hướng là SmoothL1
[8], Gaussian Wasserstein Distance và KFIoU [7], đồng thời giải thích cách chúng
có thé thay thé cho hàm loss Dynamic SmoothL1 [4] dé kết hợp với Dynamic LabelAssignment [4] trong quá trình huấn luyện mô hình phát hiện đối tượng có hướng
hai giai đoạn được nghiên cứu ở Mục 4.6.1.
2.1.1 SmoothL1
Hàm lỗi SmoothLI [8] là hàm lỗi thường đường sử dụng trong học máy, cụ thé làcác bài toán hồi quy Hàm lỗi này giúp cung cấp độ lỗ tối ưu và ít nhạy cảm hơn cáchàm lỗi khác SmoothLI mang trong mình sự cân bằng khi cho ra giá trị tuyến tínhđối với độ lỗi nhỏ và giá trị bình phương đối với độ lỗi lớn SmoothL1 có thé được
viết dưới dạng công thức như sau:
0.5 « x2, Ix] <1
SmoothLi = tu _ 05, Ix] >1
13
Trang 29Trong đó, x là hiệu số khác biệt giữa giá trị dự đoán và giá trị thực Hàm lỗi
SmoothL1 cô một sô ưu điêm sau:
— Hàm lỗi này ít nhạy cảm với nhiễu do các giá trị có độ sai lệch lớn không bị
phạt quá nhiêu
— Hàm lỗi này cung cấp độ ôn định khi gặp các giá trị đạo hàm lớn
— Đạo hàm của hàm lỗi này luôn được giữ ôn định bat ké giá trị đầu vào Mọi
giá trị dau vào đêu sẽ góp phân cải thiện mô hình như nhau.
2.1.2 Gaussian Wasserstein Distance
Gaussian Wasserstein Distance [6] là hàm lỗi được đề xuất dé giải quyết van đề các
hàm lỗi hiện tại của các giá trị hồi quy không nhất quán với ma trận đánh giá của
bài toán phát hiện đối tượng có hướng Cụ thé, do các hộp giới han có hướng
thường có các góc xoay đa dạng, các hàm lỗi hiện tại gặp khó khăn khi thường gây
ra giá trị lỗi lớn cho một sự khác biệt nhỏ trong góc xoay nên gây ra hiện tượng giá
trị cập nhật cho các góc xoay không én định Thêm vào đó, các hàm lỗi hiện tại
được thiết kế dựa trên bài toán phát hiện đối tượng không hướng, do đó cách hoạt
động của chúng thừa dựa trên giả định là hộp giới hạn không hướng dẫn đến việckhông nhất quán với ma trận đánh giá của bài toán phát hiện đối tượng có hướng.Ngoài ra, các tác giả còn chỉ ra việc vấn đề trường hợp các hộp giới hạn có hìnhdang gần giống với hình vuông khiến cho việc biéu diễn góc xoay gặp nhiều khó
khăn Từ đó, các tác giả giải quyết các vấn đề trên bằng cách sử dụng Gaussian
Wasserstein Distance (GWD) Các tác giả thực hiện chuyên đổi các hộp giới hạn cóhướng B(x, y,w,h,@) thành phân phối 2-D Gaussian NŒn,Š) để tính toán độ lỗi
IoU thông qua GWD bằng công thức như sau:
1
»z = RSRT
Với R biểu diễn ma trận xoay, S biểu diễn ma trận đường chéo của vector riêng.
Bằng cách biểu diễn hộp giới hạn có hướng bằng Gaussian cho phép các tác giả so
sánh sự khác nhau và giông nhau giữa các hộp giới hạn có hướng với nhau chính
14
Trang 30xác hơn thay vì sử dụng IoU vì độ đo GWD đo lường sự giống nhau của hai phân
phối bang cách xác định khối lượng cần dịch chuyền từ phân phối này sang phânphối khác có công thức là
1
W(u, v) = inƒE(||X — Y|lễ)?
Như vậy, với đề xuất sử dụng GWD, các tác giả đã giúp giải quyết một phan van dékhông nhất quán giữa độ đo IoU cho bài toán phát hiện đối tượng có hướng và hàmlỗi hồi quy và vấn đề các vật thể có hình dạng như hìn vuông với nhiều góc xoaygiúp nâng cao chất lượng của các mô hình phát hiện đối tượng có hướng như đã
được thử nghiệm là RetinaNet hay R3Det.
2.1.3 Kalman Filter-based Skew Intersection over Union
Kalman Filter-based Skew Intersection over Union (KFIoU) [7] là hàm lỗi được đề
xuất dé tim cách áp dụng độ do SkewloU vào bài toán phat hiện đối tượng cóhướng SkewloU là hàm độ do được sử dung để xem xét sự giống nhau của hai hộp
giới hạn ở khía cạnh độ lệnh của các hộp giới hạn đó Đây là độ đo phức tạp hơn so
với độ đo IoU thông thường khi độ đo này không những xem xét mức độ giao thoa
giữa hai hộp giới hạn mà còn xem xét độ lệch giữa hai hộp giới hạn đó với nhau.
Trong hàm lỗi KFIoU, các tác giả đề xuất sử dụng thêm phương pháp biểu diễn
Gaussian và bộ lọc Kalman Biểu diễn bằng Gaussian tương tự như GWD [6] giúp
giám sát quá trình huấn luyện để đưa các hộp giới hạn dự đoán được về gần vớiground-truth nhanh hon Tiép theo, bộ loc Kalman được đề xuất để thay thế xấp xikết qua của độ đo SkewloU thay vì sử dụng chính SkewloU khi độ do nay có độphức tạp lớn và không phù hợp cho các quá trình huấn luyện dựa vào gradient
Công thức sử dung Kalman dé xấp xi SkewloU là
Yn; Ψ)
KFIoU =—————————
YB, (21) + yp, (S2) — Ye, (2)
Với yg, (3) là phân phối Gaussian của một hộp giới hạn có hướng, B,, Bp, Bz lần
lượt là hộp giới hạn có hướng thứ nhất, hộp giới hạn có hướng thứ hai và hộp giới
15
Trang 31hạn có hướng giao thoa giữa hộp giới hạn thứ nhất và thứ hai Quá trình xấp xi này
cho phép KFIoU có thé đạo hàm được trên mọi điểm va dé dang áp dụng vào các
phương pháp phát hiện đối tượng có hướng mà không cần thêm việc điều chỉnh
tham số Cuối cùng, hàm lỗi các giá trị hồi quy được đề xuất trong KFIoU là
L,(t,t") = » `.
i€(x„y
LựyŒ, ba) = e1-KFIou —1
Lreg = Le + Lg
Với t,t* lần lượt là giá trị độ dời mục tiêu và giá trị độ dời dự đoán của các hộp
neo, > là phân phối Gaussian Sự xuất hiện của KFIoU đã cung cấp một hướng tiếp
cận hiệu quả cho bài tóan phát hiện đối tượng có hướng băng cách kết hợp phươngpháp biểu diễn Gaussian và bộ lọc Kalman giúp tăng cường hiệu suất của độ đo
SkewloU trong cùng bài toán mà vẫn duy trì được sự đơn giản và giúp quá trình hội
tụ mô hình trong quá trình huấn luyện dién ra nhanh hơn
The KEIoU Loss for Rotated Object Detection
(yy R= (ee Fuld) Gp (HE) = Gy (4s, ¥) Ga» Ea) Aera,(E) = 4 Teo
w= @y’ ~\sin® cos : K =2,( +2) Ỷ
2 Lele, tạ) = L(t tị) ia n Aeras, (E)
w/t 0 ẻ a cà = be BEI |
ae a=( : 12/4 * aes a TT Tig Ta) ¥ Aera Ga) —-Aera,,0)
Lựy(,Š2) = 1— KFloU
(a) Convert the bounding box to a (b) Narrow the center distance by center (c) Get the Gaussian distribution ofthe (đ) Invert Gaussian distribution to bbox to
Gaussian distribution point loss overlapping area by Kalman filtering calculate approximate SkewloU
Hinh 2-5 KFIoU Loss [7]
Hai hàm lỗi GWD va KFIoU là hai hàm lỗi được thiết kết cho bài toán phát hiện đối
tượng sử dụng phương pháp biểu diễn Gaussian dé biểu diễn các hộp giới hạn có
hướng khi mà giá trị hồi quy gồm 5 tham số là (x, y,w, h, ø) với (x, y) là giá trị tọa
độ giữa của hộp giới hạn, (w,h) là chiều rộng và chiều cao của hộp giới han, a làgóc xoay của hộp giới hạn Vì thế, hàm lỗi GWD và KFloU mà chúng tôi tìm hiểu
16
Trang 32rất thích hợp dé áp dụng ở đầu R-CNN của các phương pháp phát hiện đối tượng có
hướng hai giai đoạn khi mà giá trị hồi quy của các đầu R-CNN là tọa độ vị trí cùng
với góc xoay của đối tượng Bên cạnh GWD và KFloU, SmoothL1 cũng được sử
dụng rat rộng rãi trong bài toán phát hiện đối tượng Tuy nhiên, SmoothL1 còn cóthể áp dụng ở quá trình tính toán độ lỗi của các vùng đề xuất mà GWD và KFloU
không thể áp dụng được Do ở giai đoạn này của các phương pháp phát hiện đốitượng có hướng, giá tri tọa độ của các vùng đề xuất được biểu diễn bởi giá trị độ dời
hay còn gọi là of fset biểu diễn độ lệch giữa các vùng đề xuất so với ground-truth
mục tiêu của chúng Vì vậy, trong khóa luận này, chúng tôi tập trung sử dụng
SmoothL1 dé huấn luyện động
2.2 Huấn luyện động
2.2.1 Dynamic R-CNN
Dynamic R-CNN [4] là phương pháp được đề xuất nhằm tăng cường hiệu suất củacác phương pháp phát hiện đối tượng hai gia đoạn bang cách chỉ ra điểm yếu củaphương pháp huấn luyện có định truyền thống và sửa chữa băng cách dé ra phươngpháp huấn luyện động Cụ thé, trong các phương pháp phát hiện đối tượng hai giaiđoạn, có một chiến lược gan nhãn có định bằng ngưỡng JoU va hàm lỗi có tham số
có định Tuy nhiên, các tham số cố định ấy không thực sự tối ưu trong quá trìnhhuấn luyện vì không thé thích nghi được sự thay đổi của mô hình trong quá trìnhhuấn luyện Đề giải quyết van dé này, các tác giả đề xuất Dynamic R-CNN đã giớithiệu một thiết kế huấn luyện động mà phương pháp này sử dụng trong quá trìnhhuấn luyện Phương pháp này tự động điều chỉnh chiến lược gán nhãn và điều chỉnhtham số của hàm lỗi dựa trên thông tin phân bố của các vùng đề xuất Hai mô-đun
mà các tác giả đề xuất là Dynamic Label Assignment (DLA) và DynamicSmoothL1 (DLS) DLA giúp điều chỉnh ngưỡng IoU sử dụng dé gan nhãn trong quátrình huấn luyện giúp mô hình nhận được nhiều vùng đề xuất có chất lượng cao hơn
mà không lo thiếu mau DLS thay đổi giá trị / trong hàm lỗi SmoothL1 giúp hướng
17
Trang 33tới việc sử dụng hàm lỗi mượt mà hơn va tăng sự đĩng gĩp của các vùng đê xuât
chất lượng cao
2.2.1.1 Dynamic Label Assignment
Dynamic Label Assignment (DLA) là quá trình gắn nhãn cho các vùng dé xuất dựatrên IoU với các vùng tin tưởng Nĩi cách khác, việc gan nhãn này đánh giá việc các
vùng dé xuất khớp với vật thé cần phát hiện như thé nào DLA được cơng bồ trongphương pháp Dynamic R-CNN Các tác giả cho rằng chiến lược gắn nhãn cố định
và hàm lỗi cơ định khơng phù hợp với sự phân bố JoU của các vùng đề xuất trongquá trình huấn luyện gây giảm hiệu suất mơ hình trong quá trình huấn luyện Do đĩ,các tác giả đã đề xuất mơ-đun DLA, mơ-đun này tự động cập nhật ngưỡng IoUtrong quá trình huấn luyện dựa trên chất lượng của các vùng đề xuất giúp tăng hiệusuất mơ hình thơng qua việc gắn với các mẫu chất lượng cao DLA cĩ thé được viết
dưới dạng cơng thức như sau:
1, néu mmaxIoU(b, G) = Tnow
label = to neu maxIoU (b, G) < Thow
Với Tàw là giá trị ngưỡng JoU tại một thời điểm Trong quá trình huấn luyện, phânphối của các vùng đề xuất thay đổi theo thời gian DLA sẽ tự động cập nhật giá triT»„„„ dựa trên phân phối của các vùng đề xuất sao cho tương ứng với sự thay đổi
Cụ thể, trong mỗi ảnh, sau khi nhận được các vùng đề xuất từ mơ-đun đề xuất vị trí
Ta cần tinh giá trị loU của các vùng đề xuất đĩ so với các ground-truth Mỗi vùng
đề xuất được gán với một ground-truth cĩ IoU với nĩ lớn nhất Nếu vùng đề xuấtkhơng chồng chất với bất kỳ ground-truth nào thì vùng đề xuất đĩ sẽ được gán vớiground-truth gần nĩ nhất Sau đĩ, các tác giả đã đề xuất đầu tiên là tính giá trị loU
lớn thứ K; trong tất cả các giá trị IoU của các vùng đề xuất so với ground-truth Sau
đĩ, với mỗi C gia trị loU lớn thứ K; tính được trong mỗi ảnh, các tác giá cập nhật
Trow bang giá trị trung bình của chúng Khi đĩ, giá trị T,>y mới đĩ sẽ được sửdụng dé chọn lựa đánh giá các vùng đề xuất hợp lệ hay khơng hợp lệ cho quá tìnhhuấn luyện tiếp theo Hình 2-6 (a) minh họa ảnh hưởng của quá trình tăng ngưỡng
18
Trang 34IoU, trong giai đoạn đầu, các vùng đề xuất hợp lệ sẽ được sử dụng cho quá trình
huấn luyện tiếp theo, tuy nhiên trong các giai đoạn sau của quá trình huấn luyện, khi
đã xuất hiện các vùng đề xuất khác tốt hon thì ngưỡng IoU cũng tăng lên Khi đó,
vùng đề xuất ở giai đoạn đầu của quá trình huấn luyện là hợp lệ nhưng sau đó sẽkhông còn được sử dụng mà nhường chỗ cho các vùng đề xuất khác tốt hơn Từ đógia tăng hiệu suất mô hình thông qua quá trình huấn luyện
Hình 2-6 Minh họa tác động của Dynamic Label Assignment và Dynamic
SmoothL1 trong quá trình huấn luyện [4] Cac vùng đề xuất hợp lệ ban đầu sẽ đượcloại bỏ khi ngưỡng IoU tăng cao do các vùng đề xuất được cải thiện Các vùng déxuất néu giữ nguyên chất lượng sẽ bị phạt nặng hơn trong quá trình huấn luyện
2.2.1.2 Dynamic SmoothL1
Dynamic SmoothL1 (DSL) là phiên ban được phát triển từ SmoothL1 và được dùng
chủ yếu trong việc tính độ lỗi trong tác vụ hồi quy Điểm mới của DSL so với
SmoothLI là quá trình thay đổi giá trị Mục đích của Dynamic SmoothLI là điềuchỉnh giá trị trong hàm lỗi SmoothL1 tron quá trình huấn luyện sao cho thích ứng
được với sự thay đổi phân bố chất lượng của các vùng đề xuất trong quá trình huấnluyện và đồng thời tăng cường sự đóng góp của các vùng đề xuất chất lượng cao
Công thức của Dynamic SmoothL1 có thé được viết như sau:
19
Trang 35DSLŒ, now) = Âu — 0.5zow, otherwise
Với x là hiệu số giữa tọa độ vị trí của vùng đề xuất và ground-truth tương ứng với
nó, Brow là tham số quyết định khoảng cách nào nên dùng hàm lỗi Ll, hay hàm lỗi J).Không giống như hàm lỗi SmoothL1 sử dụng giá trị cố định dé lựa chọn hàm lỗi
L, hay lạ, Dynamic SmoothLI thay đổi gia trị B gọi là B,oy trong quá trình huấn
luyện dựa trên chất lượng của các vùng đề xuất Tương tự như DLA, DSL sẽ cập
nhật giá trị của Byoy dựa vào chất lượng của các vùng đề xuất mỗi C lần ghi nhận.
Cu thé, sau khi nhận được tập các vùng đề xuất từ mô-đun đề xuất vị trí vật thé, các
tác giả tính hiệu số giữa giá trị tọa độ của các vùng đề xuất và ground-truth tương
ứng với vùng đề xuất đó Trong bài toán này, chúng tôi áp dụng tương tự với DSL
được đề xuất của các tác giả là tính hiệu số giữa giá trị (x, y) là tọa độ chính giữacủa vùng dé xuất và giá trị (¿,y¿) là tọa độ chính giữa của ground-truth Sau đó,với tập giá trị hiệu số nhận được, các tác giả ghi nhận giá trị nhỏ thứ Kp Sau đó, với
C giá trị hiệu số, các tác giả cập nhật giá trị /„oụ bang giá trị trung vị của các Kg Ở
đây, các tác gia sử dụng giá trị trung vi thay cho gia trị trung bình vì các tác gia phat
hiện nhiều giá trị nhiễu trong quá trình ghi nhận Mô-đun huấn luyện động DSLgồm có hai tham số là Ke là giá trị hiệu số nhỏ thứ Kg trong tập hiệu số giữa vùng
dé xuất và ground-truth, và tham số C là tần số cập nhật giá trị Boy Hình 2-6 (b)
mô tả tác động của sự thay đổi giá trị của hàm SmoothLI trong quá trình huấn
luyện băng mô-đun DSL Hình minh họa cho thấy, với cùng hiệu số khoảng cáchgiữa vùng đề xuất và ground-truth, trong giai đoạn đầu, DSL sẽ cập nhật giá trị
Brow để SmoothL1 ưu tiên sử dung hàm lỗi 1, do mô-đun đề xuất vị trí hoạt động
chưa tốt, trong giai đoạn sau, DSL sẽ cập nhật sao cho với khoảng cách đó
SmoothL1 sẽ ưu tiên sử dụng hàm lỗi L, giúp thúc day quá trình huấn luyện
2.2.2 Self-Adjusting Smooth L1 Loss
Self-Adjusting Smooth L1 Loss [12] là hàm lỗi cải tiến của hàm lỗi SmoothL1 đượcgiới thiệu trong RetinaMask Hàm lỗi này được đề xuất dé giải quyết điểm yêu của
20
Trang 36hàm lỗi SmoothLI là sự cứng nhắc của gia trị 6 Giá tri B có tác dụng lựa chon hàmlỗi trong quá trình huấn luyện, thường được xác định sẵn và không thay đổi trongsuốt quá trình Dé giải quyết van đề trên, Self-Adjusting SmoothLI Loss tính toángiá trị / trong quá trình huấn luyện dựa trên giá trị trung bình và phương sai của tậpgiá trị tuyệt đối hiệu số giữa hộp giới hạn dự đoán và ground-truth Cụ thẻ, giá trị
cập nhật được tính toán như công thức sau:
1 1
Mạ = Mạ * M+ tp * (1 — ?n)
OR = of *†1m + đệ * (1 — Tn)
B = max (0,min (Ổ, uy — og)
Với B là batch, R là running, m là momentum, là giá trị B trước đó Bằng việc
điều chỉnh giá trị @ của hàm lỗi SmoothL1, Self-Adjusting Smooth LI đã giúp giatăng khả năng thích nghỉ va tính ôn định của hàm lỗi này trong quá trình huấn luyệnbang cách xem xét sự thay đổi của các giá trị dự đoán trong suốt quá trình huấnluyện Điều này đảm bảo các giá trị tọa độ dự đoán được đánh giá tốt hơn trongtừng giai đoạn huấn luyện
2.2.3 Adaptive Training Sample Selection
Adaptive Training Sample Selection (ATSS) [5] là phương pháp được sử trong bai
toán phát hiện đối tượng nhằm mục đích tự động xác định phân loại các vùng đề
xuất dựa trên phân phối của chúng mà không dựa trên các tham số có định được càisan Dé phân loại các vùng đề xuất, ATSS xem xét khoảng cách của điểm giữa của
các vùng đề xuất và điểm giữa của các vùng ground-truth bằng khoảng cách
Euclidean dé đánh giá các hộp giới hạn đó cách nhau bao xa Vì nếu vùng đề xuất
càng gần với ground-truth thì càng có khả năng vùng đề xuất đó là hợp lệ Sau đó,
ATSS tính giá trị JoU giữa các vùng đề xuất với các vùng ground-truth ATSS sau
đó sử dụng giá trị ngưỡng JoU được xác định bằng cách tính toán giá trị trung bình
và độ lệch chuẩn của các vùng đề xuất dé phân loại vùng đề xuất đó hợp lệ hay
21
Trang 37không Cụ thé, ở mỗi tang của Feature Pyramid Network (FPN), các tác giả chọn ra
k hộp neo có điểm chính giữa gần nhất với vùng ground-truth tương ứng của nó dựa
trên khoảng cách L2 Sau đó, các tác giả tính toán giá trị loU giữa các cặp hộp neo
và ground-truth tương ứng được chon, ở bước nảy, các tác giả ghi nhận lại giá tri
trung bình và phương sai của các giá tri loU vừa tính được Sau đó, giá tri ngưỡng
IoU mới được cập nhật sẽ là tổng của giá trị trung bình và giá trị phương sai này
Hình 2-7 Hình minh họa giá tri cập của phương pháp ATSS [5] bang gia trị ngưỡng
là tong giữa giá trị trung bình và giá trị phương sai của các giá trị IoU tính toán
được.
Với cách xác định này, ATSS giúp mô hình trong quá trình huấn luyện có thể chọn
được các vùng đề xuất hợp lệ tốt hơn giúp cải thiện mô hình trong quá trình huấnluyện Hình 2-7 mô tả giá trị ngưỡng IoU cập nhật khi sử dụng tổng của giá trị trungbình và giá trị phương sai Giá trị ngưỡng IoU khi được cập nhật bằng công thức
này giúp chọn lọc được các vùng đề xuất hợp lệ có chất lượng cao và có thể loại bỏ
được hầu hết các vùng đề xuất chất lượng thấp và đánh dấu chúng là không hợp lệ
22
Trang 382.2.4 Cascade R-CNN
Hình 2-8 Kiến trúc của mô hình Cascade R-CNN [13], với “I” là ảnh đầu vào,
“conv” là backbone, “pool” là mô-đun rút trích đặc trưng, “H” là đầu của mỗi giai
đoạn, “B” là hộp giới hạn, “C” là nhãn dự đoán, “BO” là vùng đề xuất
Cascade R-CNN [13] là phương pháp phát hiện đối tượng nhiều giai đoạn được đềxuất nhằm mục đích nhận được các vùng đề xuất chất lượng cao trong quá trìnhthực hiện dự đoán khi không có ground-truth Các vùng đề xuất là thành phần chủđạo dé quyết định hiệu suất của một mô hình phát hiện đối tượng Trong quá trình
huấn luyện, các vùng đề xuất có thể được so khớp với ground-truth dé lựa chọn các
vùng đề xuất tốt để tiếp tục đưa vào quá trình huấn luyện mô-đun R-CNN Tuynhiên trong quá trình dự đoán, các ground-truth không tồn tại để các vùng đề xuất
có thể được so khớp lựa chọn Do đó, Cascade R-CNN dé xuất quá trình dự đoán
thành nhiều giai đoạn Mỗi giai đoạn là một quá trình dự đoán hay một tập các mô
hình hồi quy Mục đích của việc chia ra nhiều giai đoạn là để khả năng lựa chọn
đúng các vùng đề xuất nhờ đó giúp tăng hiệu suất mô hình Trong quá trình huấn
luyện, mỗi giai đoạn được huấn luyện theo chuỗi với các ngưỡng IoU tăng dần để
lựa chọn các vùng đề xuất hợp lệ hoặc không hợp lệ Đầu ra của một giai đoạn dựđoán là đầu vào của giai đoạn tiếp theo, điều này giúp cho việc chọn lọc mẫu diễn rađược thận trọng và tăng khả năng lựa chọn được các vùng đề xuất tốt và cũng giúp
23
Trang 39giảm thiểu hiện tượng quá khớp do số lượng các vùng đề xuất hợp lệ quá ít khi
ngưỡng IoU tăng cao Trong quá trình dự đoán, tat cả các tang được áp dụng theo
chuỗi trên vùng đề xuất Mục đích là dé loại bỏ sự lệch khớp giữa các vùng đề xuất
được đưa ra bởi các giai đoạn và đảm bảo sự các dự đoán của các giai đoạn được
nhất quán
Trong các phương pháp huấn luyện động vừa được trình bày, phương pháp huấnluyện động ATSS đã được chứng minh là mang lại sự hiệu quả khi giúp thay đổingưỡng IoU trong quá trình huấn luyện dé lựa chọn được các mẫu hợp lệ hoặckhông hợp lệ Tuy nhiên, ATSS chỉ giúp thay đổi ngưỡng trong quá trình huấnluyện giúp cho quá trình chọn lọc các mẫu hợp lệ được diễn ra tốt hơn mà không
giúp tăng cường sự đóng góp của các mẫu hợp lệ trong quá trình huấn luyện Bên
cạnh ATSS, Cascade R-CNN với ý tưởng chia quá trình huấn luyện và quá trình dựđoán thành nhiều thành phần nhiều giai đoạn giúp tăng khả năng lựa chọn các vùng
đề xuất tốt nhiều hơn nhưng cách làm này tốn chỉ phí lớn khi phải chia ra nhiều giaiđoạn Phương pháp huấn luyện động của Dynamic R-CNN khi bao gồm mô-đun
Dynamic Label Assignment giúp lựa chọn ngưỡng IoU thích hợp trong quá trình
huấn luyện và Dynamic SmoothLI giúp tăng sự đóng góp của các mẫu chất lượngcao trong quá trình huấn luyện mà không tăng sự phức tạp của mô hình khi quátrình huấn luyện động chỉ diễn ra trong quá trình huấn luyện mà không diễn ra trong
quá trình dự đoán Bên cạnh đó, sử dụng mô-đun Self-Adjusting Smooth LI Loss
thay thế cho DSL là không nhất quán do mô-đun DLA cập nhật giá trị ngưỡng IoU
qua mỗi vòng lặp € trong khi mô-đun Self-Adjusting Smooth LI Loss cập nhật giá
trị 6 qua mỗi batch huấn luyện Do đó, trong khóa luận này, chúng tôi lựa chọn áp
dụng hai mô-đun Dynamic Label Assignment và Dynamic SmoothL1 của phương
pháp Dynamic R-CNN lên các phương pháp phát hiện đối tượng có hướng hai giai
đoạn.
24