Khóa luận tốt nghiệp Khoa học máy tính: Huấn luyện động trên các phương pháp phát hiện đối tượng có hướng hai giai đoạn

Đề đạt được mục tiêu này, chúng tôi tiếp cận vấn đề bằng cách áp dụng các phương pháp huấn luyện động và hàm loss phù hợp trên các phương pháp phát hiện đối tượng có hướng hai giai đoạn

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TiNH

NGO VAN TAN LƯU - 20521591

TRUONG THANH THANG - 20521907

KHOA LUAN TOT NGHIEP

HUAN LUYEN DONG TREN CAC PHUONG PHAP

PHAT HIEN DOI TUONG CO HUONG HAI GIAI DOAN

Dynamic Training on Two-state Oriented Object Detection

CỬ NHÂN NGANH KHOA HỌC MAY TÍNH

GIẢNG VIÊN HƯỚNG DAN ThS VÕ DUY NGUYÊN

TP HÒ CHÍ MINH, 2023

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, tôi xin gửi lời cảm ơn chân thành nhất đến Thầy TS Nguyễn

Tấn Trần Minh Khang và Thay ThS Võ Duy Nguyên Trong quá trình thực hiện

khóa luận, tôi đã nhận được sự quan tâm giúp đỡ, hướng dẫn rất tận tình và tâm huyết của hai Thay Không chỉ có kiến thức chuyên môn, các Thay truyền đạt cho

tôi rất nhiều kỹ năng, kiến thức khác giúp tôi có cái nhìn sâu sắc hơn về sự nghiệp,

học tập và xã hội Từ những kiến thức các Thay truyền đạt, tôi nhận ra thế nào mới

là nghiên cứu khoa học đúng cách, tầm quan trọng của nghiên cứu khoa học, cũng như cách truyền tải nội dung nghiên cứu của mình đến người đọc, người nghe Sự

quan tâm hướng dẫn tận tình và các kiến thức hai Thầy truyền đạt là động lực mạnh

mẽ giúp tôi hoàn thành khóa luận này.

Bên cạnh đó, tôi xin gửi lời cảm ơn đến nhóm nghiên cứu UIT-Together.

Nhờ những thảo luận, đóng góp rất tích cực của các Thầy, các anh chị, các bạn

trong nhóm đã giúp tôi có nhiều ý tưởng dé thử nghiệm Khoảng thời gian thực hiện khóa luận cùng với nhóm có lẽ là khoảng thời gian đẹp nhất quãng đời sinh viên, cũng như là một trong những khoảng thời gian đẹp nhất trong cuộc đời.

Và cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, bạn bè và tập thể lớp

KHMT2020, những người luôn sẵn sàng sẻ chia và giúp đỡ tôi trong học tập và cuộc sống Mong rằng, sau này chúng ta sẽ mãi mãi gắn bó với nhau.

Xin chúc những điều tốt đẹp nhất sẽ luôn đồng hành cùng mọi người.

Trang 3

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

ĐÈ CƯƠNG CHI TIẾT

TÊN ĐÈ TÀI: HUAN LUYEN DONG TREN CÁC PHƯƠNG PHAP PHAT HIỆNĐÓI TƯỢNG CÓ HƯỚNG HAI GIAI ĐOẠN

TÊN DE TÀI TIENG ANH: DYNAMIC TRAINING ON TWO-STAGE

ORIENTED OBJECT DETECTION

Can bộ hướng dẫn: ThS VÕ DUY NGUYEN

Thời gian thực hiện: Từ ngày 20/02/2023 đến ngay26/06/2023

Sinh viên thực hiện:

NGÔ VĂN TẤN LƯU - 20521591 Lớp: KHMT2020

Email: 20521591@gm.uit.edu.vn Điện thoại: 0344550403

TRƯƠNG THÀNH THANG - 20521907 Lớp: KHMT2020

Email: 205210907@gm.uit.edu.vn Điện thoại: 0979297634

Nội dung đề tài:

1 Giới thiệu

Phát hiện đối tượng có hướng là một bài toán quan trọng trong lĩnh vực máy học hiện

đại Trong đó, các phương pháp phải trải qua quá trình huấn luyện dé đưa ra các dự đoán

chính xác, và phương pháp phát hiện đối tượng có hướng hai giai đoạn cũng không phải

là ngoại lệ Các phương pháp phát hiện đối tượng có hướng hai giai đoạn phụ thuộc rất

nhiều vào sự chính xác của việc đề xuất các vị trí của các đối tượng Tuy nhiên, việchuấn luyện mô hình một cách cứng nhắc có thể khiến cho mô hình không thể tận dụng

tôi đa kêt quả của các vùng đê xuât trong quá trình huân luyện Do đó, độ hiệu quả của

Trang 4

quá trình huấn luyện chưa đạt được tôi ưu.

Với nhận thức về vấn đề này, chúng tôi đã lựa chọn bài toán phát hiện đối tượng có

hướng dé tìm hiểu, nghiên cứu và thực hiện khóa luận tốt nghiệp Mục tiêu của chúng tôi

là khảo sát và tìm ra các cách huấn luyện tốt hơn về độ hiệu quả, và đạt được kết quả

state-of-the-art trên bài toán phát hiện đối tượng hai giai đoạn Đề đạt được mục tiêu này,

chúng tôi tiếp cận vấn đề bằng cách áp dụng các phương pháp huấn luyện động và hàm

loss phù hợp trên các phương pháp phát hiện đối tượng có hướng hai giai đoạn mới nhất

và thực hiện các thí nghiệm toàn diện đê đánh giá hiệu quả cách tiệp cận của chúng tôi.

2 Phát biêu bài toán

Đâu vào của bai toán là một bức ảnh, dau ra cua bài toán là các hộp giới hạn có hướng

tối tiêu chứa đối tượng được phát hiện và phân lớp

INPUT MODEL OUTPUT

Hình 0-1 Mô hình bài toán

3 Mục tiêu của đề tài

Mục tiêu đề tài là khảo sát hiệu quả của việc áp dụng huấn luyện động vào trong quátrình huấn luyện phương pháp phát hiện đối tượng có hướng hai giai đoạn Qua đó phântích ảnh hưởng của các mô-đun động đến các phương pháp đó

4 Nội dung nghiên cứu của đề tài

Nội dung nghiên cứu đề tài chia làm bốn phần:

— Tìm hiểu về cách tiếp cận của các phương pháp hai giai đoạn cho bài toán phát

hiện đối tượng có hướng Rol Transformer [1], Oriented R-CNN [2], ReDet [3]

Trang 5

Nghiên cứu các phương pháp huấn luyện động Dynamic R-CNN [4], Adaptive

Training Sample Selection [5].

Nghiên cứu các các ham loss trên bài toán phát hiện đối tượng có hướng GWD

[6], KFIoU [7], SmoothL1 [8].

Phân tích tác động các tổ hop huấn luyện động và ham loss trên mô hình pháthiện đối tượng có hướng hai giai đoạn trên bộ dữ liệu DOTA [9] và HRSC2016

[10].

Phuong phap thuc hién

Doc va tóm tat các cách tiếp cận cho bài toán phat hiện đối tượng có hướng của

các phương pháp hai giai đoạn.

Đọc, tìm hiểu các phương pháp huấn luyện động và các hàm loss được phát triển

cho bài toán phát hiện đối tượng có hướng.

Cài đặt source code Dynamic Rol Head phù hợp cho việc huấn luyện động chocác mô hình phát hiện đối tượng có hướng hai giai đoạn

Thực nghiệm tổ hợp các mô-đun huấn luyện động va hàm loss trên các phươngpháp phát hiện đối tượng có hướng hai giai đoạn

Phân tích ưu điểm, hạn chế của các mô-đun huấn luyện động và hàm loss dựa trênkết quả thực nghiệm đạt được

Kết quả dự kiến

Báo cáo chỉ tiết các tim hiéu/ khảo sát về các phương pháp hai giai đoạn sử dụngcho bài toán phát hiện đối tượng có hướng, các phương pháp huấn luyện động,các hàm loss có sẵn và kết quả các tổ hợp thử nghiệm sử dụng các kiểu huấn

luyện động và hàm loss khác nhau.

Cung cấp source code cài đặt thử nghiệm

Xây dung demo dé trực quan kết quả nghiên cứu

Tổng hợp toàn bộ kết quả nghiên cứu, báo cáo tổng kết và công bố 01 bài báo

khoa học tại hội nghi/tap chí được đánh chỉ mục SCOPUS Tài liệu tham khảo

Trang 6

Kế hoạch thực hiện:

Thực hiện: SV Ngô Văn Tan Luu, SV Trương Thành Thang

Thời gian Công việc Thực hiện

Tuần 1-3 | Tìm hiểu, nghiên cứu phương pháp phát hiện đối tượng Ngô Văn Tấn Lưu

có hướng hai giai đoạn: Oriented RCNN.

Tìm hiểu phương pháp huấn luyện động trên mô hình

phát hiện đối tượng: Dynamic RCNN, Adaptive

Training Sample Selection.

Tìm hiểu, nghiên cứu phương pháp phát hiện đối tượng | Truong Thanh Thắng

có hướng hai giai đoạn: RoI Transformer, ReDet.

Tuần4-6 | Tìm hiểu, nghiên cứu phương pháp huấn luyện động Ngô Văn Tan Lưu

trên mô hình phát hiện đối trong: Dynamic IoU.

Tìm hiểu, nghiên cứu phương pháp tính loss động cho | Truong Thanh Thắng bài toán phát hiện đối tượng có hướng: Dynamic

SmoothL1 Loss.

Tuan 7-10 | Cài đặt mô-đun Dynamic RoI Head cho mô hình phát Ngô Văn Tan Lưu

hiện đối tượng có hướng.

Tìm hiểu, cài đặt các hàm loss hiệu quả cho bài toán | Trương Thành Thắng phát hiện đối tượng có hướng: KFIoU, GWD,

SmoothL1.

Tuan 11-16 | Thuc nghiém, phan tich, danh gia toan dién cac t6 hop Ngo Van Tan Lưu,

mô-đun huân luyện động trên các phương pháp phát Trương Thành Thắng

hiện đôi tượng có hướng: Oriented R-CNN, Rol

Transformer, ReDet.

Tuần 16-18 | Hoàn thiện kết quả nghiên cứu để thực hiện công bố Ngô Văn Tan Lưu,

Trang 7

khoa học Trương Thành Thăng

Tuần 18— | Xây dựng Demo Ngô Văn Tan Lưu,

Phân còn lại Trương Thành Thăng

TP HCM, ngày | thang | nam 2023

Xác nhận của CBHD Sinh viên

(Ký tên và ghi rõ họ tên) (Ký tên và ghi rõ họ tên)

Võ Duy Nguyên Ngô Văn Tan Lưu Trương Thành Thang

Trang 8

MỤC LỤC

30uxIc9rieiin 5

TÓM TAT KHÓA LUẬN -:-cs v9 10.1.112.1.10.1 11.1.11.1.111 1.111.11 ie 17Churong 1 (062710027 - HH)H,.,., 1

1.1 Dong lực nghiên CỨU -. setcrrverrrerrkrtetrrrrtrrirrrrrrtrrirrrrrrrrierrrrrrirrree 1

1.2 Phát biểu bài toán cerritriiriiriiiiiiiiiriirierrererrie 2

1.3 Các thách thức «.c-c-ceesrihhHHHHH He 2 1.4 Mục tiêu và phạm vi nghiÊn CỨU -«-©ccesrrrxerrrrerrrrkrtrrrerrrrrerrrrerrrrrrree 4

1.5 Đóng góp của nghiÊn CỨU -ss-ss-+x++ExxtEEkktrkktrkrktrriktririeirrieriirkerrrkerrire 4

1.6 Bố cục của luận VĂN 222111111112212122212 11 kkkkkkkkkLEEErrtrrrrrrrrrre 5

Chương 2 CAC NGHIÊN CỨU LIÊN QUAN -cc:++rrceecevevvvrrrrrrrrree 6

2.1 Phát hiện đối tượng có hướng hai giai đoạn eceeiicceeccerrrrrrseeerre 6

2.1.1 Rol TransfOTImT cc«cceserketrrirrtirtrirrrrirtiirirriirrrirrrrrre 6

2.1.2.1 Rotation-Equivariant Feature EXffaCẦOT -«-ce-crxserx 9

2.1.2.2 Rotation-Invariant Rol A ÍIg1 ««cecceeekeierrietrtiirrriiririiirriee 9 2.1.3 Oriented R-CNN HH He 9

2.1.3.1 Orlented RPN c ierirriiiriiiiiiriirree 11 2.1.3.2 Midpoint Offset RepresenfatIOn c-reerrssrrrrerrrrrirrrke 11

2.1.3.3 Oriented R-CNN Head cccceieriiriiiiiiiiiiiiriiie 12

"No cố ẽ ẽẽẽẻẻẽẻ 13

2.1.1 SmoothLÏ ecc< SE 13

2.1.2 Gaussian Wasserstein [DIstance -ceekrikieiiirrrrie 14

2.1.3 Kalman Filter-based Skew Intersection over n1on - 15

Trang 9

2.2 Huan luyén dO can ẽ.ẽẽ 17

2.2.1 Dynamic R-CNN c-cererrrrirrrrirrrriirrriiirrirrrirrrrirrrrree 17

2.2.1.1 Dynamic Label ÀssIgnmeI -cseeecxeerereerrrrerrrrerrrrreee 18 2.2.1.2 Dynamic Smooth] cs-c«cxs+xxeeeeerteererxeerterrkerrerreererre 19

2.2.2 — Self-Adjusting Smooth L1 LLOSS c-«e<ccccceerxeerrerree 20

2.2.3 Adaptive Training Sample Selection cesses 21

2.2.4 Cascade R-CNN HH rà 23

Chương 3 DE XUẤT TINH CHỈNH -22+.esteZttrezttrrrtrrrrrrrrrrrre 25

3.1 VAI ẽa ẽ 253.2 Hướng giải quyét scssssssssesssnesssssssssnsssssssssssesssssesnssssssssesisssesssssssssssnsessusssssnsee 26

4.2.1 Pr€CISIOH ii heg 37 2m ‹ 37

4.2.3 AP và mAP cnhHHHHHHH re 38

4.4 Các kết quả chính -. +-csexrccetrrevertererrtrrtrrrrrtrrrrrrrirrrrrrrrrrrrre 40

Trang 10

4.5 Phân tích kết quả trực quan hóa -s.++cestrecetrrreetrrrerrrrrrrrrrre 45

4.6 Nghiên cứu tác động của từng mô-đun huấn luyện động 48

4.6.1 Tac động của mô-đun DLA và DSÌ -cccs-cereeererseee 48

4.6.1 Tac động của mô-đun DLA với các hàm lỗi khác - 50

4.6.2 Huấn luyện động với số epoch khác nhau -cce ::rres 50

4.6.3 Oriented R-CNN + DLA và các hàm lỗi khác - 53

Chương 5 KET LUẬN VÀ HƯỚNG PHÁT TRIỂN 2.-:c-2:zecerrz 59

Â.‹)a 595.2 Hướng phát triỂn -«ccesreeetrteeerrtertrtrrrtrtrrvrrrrrtrrrrrrrrrrrre 59DANH MỤC CÔNG TRÌNH TÁC GIẢ cccccccc++++ece2SSSEEEEEEEEEEEireeevvvvrrrrrrrirreee 60

Trang 11

DANH MỤC HÌNH

Hình 0-1 Mô hình bài toán scc+LkHHHHHH HH HH HH hà 6

Hình 1-1 Đầu vào và đầu ra của bài toán ccccccrirceccerrrririerrrrrtrrrrrrrrrrrrrrrree 2

Hình 1-2 Các đối tượng xe đỗ với nhiều góc xoay khác nhau 3

Hình 1-3 Ảnh với phông nền phức tạp (cây cối, bóng ram, đồi núi) 3

Hình 1-4 Bãi xe với nhiêu loại xe có hình dạng, kích thước, màu sắc khác nhau xuât hiện dày đặc HH HH HH HH HH HH1 1111111 4 Hình 2-1 Mô hình Rol Transformer [ Ï ] -. -< e<5eeeccssrvserxetxrterrktkrerrkrrkrerrrk 6 Hình 2-2 Mô hình ReDet [3] . c-seecrcxesrrrrrirrrrrrirttrrrirrrrrirrrriiirriirriiree 8

Hình 2-3 Mô hình Oriented R-CNN [2] -. cccsccccceerseeeeereersetrrrtrrerrrrrerreee 10

Hình 2-4 Minh hoa midpoint offset representation [2] ‹ -«scccseecxeecrrs 12 Hình 2-5 KFIOU Loss [7] eecscceccccccceeecrrrerterrtirtrttrirtrtrirrtrrirririirrrrirrrrirrrrrek 16

Hình 2-6 Minh họa tác động cua Dynamic Label Assignment va Dynamic

SmoothL1 trong quá trình huấn luyện [4] Cac vùng dé xuất hợp lệ ban đầu sẽ đượcloại bỏ khi ngưỡng IoU tăng cao đo các vùng đề xuất được cải thiện Các vùng đề

xuất nếu giữ nguyên chất lượng sẽ bi phạt nặng hơn trong quá trình huấn luyện 19Hình 2-7 Hình minh họa giá trị cập của phương pháp ATSS [5] bằng giá trị ngưỡng

là tong giữa giá trị trung bình và giá trị phương sai của các giá trị IoU tính toán

Hình 2-8 Kiến trúc của mô hình Cascade R-CNN [13], với “I” là ảnh đầu vào,

“conv” là backbone, “pool” là mé-dun rút trích đặc trưng, “H” là dau của môi giai

đoạn, “B” là hộp giới hạn, “C” là nhãn dự đoán, “BO” là vùng đề xuắt 23Hình 3-1 Mô hình chung của các phương pháp phát hiện đối tượng có hướng hai

li ẽ 26 Hình 3-2 Mã gia Rol Transformer & ReDet + Dynamic essences 28

Hình 3-3 Mã gia Oriented R-CNN + DynamIC ccsscscseeerrererkerirrkrrrrkrrike 31

Hình 4-1 Một số ảnh trong bộ dữ liệu DOTA [9| e-ccccsrcserersreereexree 34

Hình 4-2 Các đối tượng trong bộ dữ liệu DOTA [9], -. .-eceerreeccerrecee 35

Hình 4-3 Một số ảnh trong bộ dữ liệu HRSC2016 [10] -.ccc-ee:zcs< 36

Trang 12

Hình 4-4 Trực quan công thức tinh AP trên mỗi lớp .-. c - 39

Hình 4-5 Trực quan hoá kết quả trong trường hợp đối tượng dày đặc của phương

pháp Rol Transformer trước (bên trái) và sau khi áp dụng huấn luyện động (bên

phải) Vùng khác biệt giữa 2 kết quả được khoanh vùng đỏ -. - 47

Hình 4-6 Trực quan kết quả trong trường hợp đối tượng có nhiều góc xoay khác

nhau của phương pháp Rol Transformer trước (trái) và sau khi áp dụng huấn luyện

động (phải) Vùng khác biệt được khoanh vùng đỏ c-cccccsreereerree 47

Hình 4-7 Trực quan kết quả trong trường hợp chưa tốt của cả phương pháp Rol

Transformer trước (trái) và sau khi áp dụng huấn luyện động (phải) Vùng khác biệt

được khoanh vùng đỎ sen HH TH HH pH pH phi 47

Trang 13

DANH MỤC BANG

Bảng 4-1 Confusion TmAfTIC ss -sscnx+ kh HH HH nghiên 36

Bảng 4-2 Kết quả thực nghiệm trên bộ dữ liệu DOTA [9] của các phương pháp pháthiện đối tượng có hướng hai giai đoạn trước và sau khi áp dụng huấn luyện động

Các kết quả cao nhất mỗi cột được tô đậm -cccvvttttttttresvvvvvrrrrrrrrrrreee 43Bảng 4-3 Kết quả thực nghiệm trên bộ dữ liệu HRSC của các phương pháp phát

hiện đối tượng có hướng hai giai đoạn trước và sau khi áp dụng huấn luyện động

Kết quả cao nhất mỗi cột được tô đậm -ccc+++vvvv+SS2222222222111222222222122221E e 44

Bảng 4-4 Tác động mé-dun DLA va DSL trên phương phấp ‹ -‹ 48

Bảng 4-5 Kết quả đánh giá Roi Trasnformer và Oriented R-CNN với các hàm lỗi

trên tập đánh giá của bộ dữ liệu DOTA Giá trị cao nhất mỗi cột của mỗi phương

pháp được tô đậm -s-c-ccccct H1 HH HH1 11 HH HH tr triet 52

Bảng 4-6 Kết quả thực nghiệm ảnh hưởng của tham số module DLA trên phương

pháp Oriented-RCNNN «-ccccccrkrrrHHH HH Hrrrrrrrrierrrrerrrke 56

Bảng 4-7 Kết quả huấn luyện động các phương pháp cùng mô-đun DLA và DSL

với số vòng lặp huấn luyện khác nhau -.-2 icccssireeceetrreeevrrrreerrrrreverrrresee 58

Trang 14

DANH MỤC TỪ VIET TAT

ATSS Adaptive Training Sample Selection

CNN Convolutional Neural Network

DLA Dynamic Label Assignment

DSL Dynamic SmoothL1

FPN Feature Pyramid Network

GWD Gaussian Wasserstein Distance

HRol Horizontal Region of Interest

IoU Itersection of Union

RPN Region Proposal Network

RPS Rotated Position Sensitive

RRol Rotated Region of Interest

R-CNN wegen based Convolutional Neural

SOTA State-of-the-art

Trang 15

TÓM TAT KHÓA LUẬN

Khoá luận này nhằm mục tiêu giải quyết bài toán phát hiện đối tượng có hướng, đây

là một bài toán thú vị và rất có nhiều ứng dụng trong thực tế So với phát hiện đốitượng thông thường, phát hiện đối tượng có hướng yêu cầu hộp giới hạn đầu rakhông chỉ bao đúng vị trí đối tượng cùng với nhãn của đối tượng đó mà còn yêu cầuhộp giới hạn đó phải xoay khớp với hướng xoay của đối tượng Do đó bài toán nàykhó khăn hơn bài toán phát hiện đối tượng truyền thống do phát sinh thêm gócxoay.

Thách thức trong việc giải quyết bài toán này là tìm ra phương pháp nâng cao hiệu

suất của việc chọn lọc các vùng đề xuất là mục tiêu quan trọng trong nghiên cứu vàphát triển các phương pháp phát hiện đối tượng có hướng hai giai đoạn Việc tối ưuhóa quá trình này có thé đóng góp quan trọng vào việc cải thiện chất lượng và độ tincậy của mô hình, đồng thời mở ra cơ hội tận dụng tối đa thông tin từ các vùng đềxuất dé đạt được kết quả chính xác và ôn định hơn trong phát hiện đối tượng cóhướng Dé làm điều này, kỹ thuật huấn luyện động đã được áp dụng dé nâng caohiệu suất mô hình trong quá trình huấn luyện

Khóa luận này tập trung vào việc cải thiện hiệu suất học tập của các phương phápphát hiện đối tượng có hướng hai giai đoạn băng kỹ thuật huấn luyện động Cụ thẻ,khóa luận này đề xuất áp dụng hai mô-đun huấn luyện động là Dynamic Label

Assignment (DLA) [4] và Dynamic SmoothL1 (DSL) [4] lên giai đoạn hai của các

phương pháp phát hiện đối tượng có hướng nồi bật hiện tại là Rol Transformer [1],ReDet [3] và Oriented R-CNN [2] Mô-đun huấn luyện động DLA sẽ giúp các môhình học nhận được đủ lượng đặc trưng cần thiết trong suốt quá trình huấn luyện.Bên cạnh đó, mô-đun DSL sẽ giúp các mô hình thích ứng được với sự tiễn triển vàgiúp tăng cường đóng góp của các vùng đề xuất chất lượng cao

Các kết quả thu được của khóa luận này chứng minh được sự hiệu quả khi áp

dụng huấn luyện động và ảnh hưởng của chúng lên các phương pháp phát hiện đối tượng có hướng hai giai đoạn.

Trang 16

Chương 1 MỞ ĐẦU

1.1 Động lực nghiên cứu

Bài toán phát hiện đối tượng trong không ảnh là bài toán xác định vị trí vật thể trên

ảnh cùng với thông tin có hướng và xác định nhãn của vật thể đó Đây là một bài

toán mang lại nhiều ứng dụng trong thực tế như áp dụng vào giám sát giao thông từ

trên cao giúp tăng cường an ninh khi xác định được hướng xoay giúp theo dõi được

hướng đi của xe cộ, hay làm tiền đề cho các bai toán khác như dự đoán góc xoaycủa chữ giúp rút trích thông tin văn bản bằng hình ảnh chính xác hơn Đã cónhững nghiên cứu nhằm tăng hiệu suất của bài toán này trong những năm gần đây

[11] [12] [7] [13] Mục tiêu của các phương pháp là xử lý tam ảnh đầu vào, rút trích

thông tin của các khu vực có khả năng chứa vật thể trong ảnh và cho ra tọa độ, góc

xoay và nhãn của vật thê đó.

Các phương pháp được sử dụng dé giải quyết bài toán phát hiện đối tượng có hướng

trong không ảnh hiện nay được chia thành hai loại chính: phương pháp phát hiện

đối tượng có hướng một giai đoạn và phương pháp phát hiện đối tượng có hướnghai giai đoạn Các phương pháp một giai đoạn chỉ gồm giai đoạn dự đoán vị trí củacác vật thê từ tập đặc trưng Trong khi đó, các phương pháp hai giai đoạn gồm hai

bước là đề xuất vị trí vật thê và làm giàu đặc trưng rồi đưa ra dự đoán cuối cùng vịtrí vật thé và nhãn của của vật thé đó Các nghiên cứu hiện nay thường tập trung vào

phát triển thành phan đề xuất vật thé, phát triển cách rút trích đặc trưng, Trong số

đó, kỹ thuật huấn luyện động là kỹ thuật mang nhiều tiềm năng phát triển khi có thé

tôi ưu hiệu suât của mô hình mà không làm tăng độ phức tạp của nó.

Nhận thấy hướng nghiên cứu này chứa đựng nhiều tiềm năng, do đó chúng tôi quyết

định lựa chọn bài toán phát hiện đối tượng có hướng trong không ảnh và kỹ thuậthuấn luyện động đề tìm hiểu, nghiên cứu và thực hiện khóa luận tốt nghiệp, với mục

đích sẽ khảo sát để tìm ra phương pháp áp dụng huấn luyện động tốt hơn cho cácphương pháp phát hiện đối tượng có hướng trong không ảnh

Trang 17

1.2 Phát biêu bài toán

Đâu vào của bài toán là một bức ảnh, đâu ra là tập các hộp giới hạn tôi tiêu có

hướng bao đối tượng và nhãn lớp đối tượng thuộc về

1.3 Các thách thức

Đây là một bài toán phức tạp và đầy thách thức [1] [2] [3] Sau đây chúng tôi xin

trình bày các thách thức chính sau:

a) Các đối tượng có nhiều góc xoay khác nhau: không ảnh thường được chụp

từ trên cao, do đó các vật thể trong ảnh thường có các góc xoay khác nhau

Các góc xoay này rất đa dạng (Hình 1-2)

b) Phông nền phức tạp: Với việc là ảnh chụp từ trên không, những bức ảnh

này thường sẽ chứa các phông nền phức tạp như bién ca, đất liền, cây cối, Các vật thể thường sẽ nằm trên các phông nền này khiến các vật thé bi che

mờ do cùng màu với phông nền (Hình 1-3)

c) Các đối tượng có đa dạng hình thái, tỉ lệ, xuất hiện dày đặc: Các đối

tượng trong bài toán phát hiện đối tượng có hướng trong không ảnh thườngxuất hiện với số lượng dày đặc và nằm sát nhau Bên cạnh đó, một lớp đốitượng mang rất nhiều hình thái, phiên bản khác nhau khiến đây là cũng là

Trang 18

một thách thức lớn Bên cạnh đó, các đối tượng không xuất hiện theo tỉ lệ cố

định mà tỉ lệ nay cũng rất đa dạng, từ xuất hiện li ti đến chiếm phần lớn diện

tích ảnh (Hình 1-4).

Hình 1-3 Ảnh với phông nền phức tạp (cây cối, bóng ram, đồi núi)

Trang 19

Hình 1-4 Bãi xe với nhiêu loại xe có hình dạng, kích thước, màu sắc khác nhau xuât

hiện dày đặc.

1.4 Mục tiêu và phạm vi nghiên cứu

Đề tài nghiên cứu áp dụng các phương pháp huấn luyện động trên các mô hình pháthiện đối tượng có hướng hai giai đoạn Cụ thể, các phương pháp huấn luyện động

được áp dụng là Dynamic Label Assignment [4] và Dynamic SmoothL1 [4]; các

phương pháp phát hiện đối tượng có hướng hai giai đoạn phô biến hiện nay là RolTransformer [1], ReDet [3] và Oriented R-CNN [2] Dé tài thực nghiệm trên 2 bộ

dữ liệu gồm các hình ảnh chụp từ trên không là: DOTA [9] và HRSC2016 [10]

1.5 Đóng góp của nghiên cứu

Nội dung cuốn báo cáo mô tả cách hoạt động của một số phương pháp phát hiện đốitượng hai giai đoạn có hướng trong không ảnh nỗi bật hiện nay, mô tả cách hoạt

động của một số kỹ thuật huấn luyện động sử dụng trong bài toán phát hiện đốitượng, trình bày một số hàm lỗi sử dụng trong bài toán phát hiện đối tượng cóhướng Báo cáo trình bày ưu nhược điểm của các phương pháp phát hiện đối tượng

có hướng cũng như là một tài liệu tổng hợp trên bài toán này

Trang 20

Bên cạnh đó, báo cáo trình bày các bộ dữ liệu hiện có và được sử dụng rộng rãi cho

bài toán phát hiện đối tượng có hướng

Cuối cùng, khóa luận trình bày cách tiếp cận kỹ thuật huấn luyện động cho các

phương pháp phát hiện đối tượng có hướng trong không ảnh, bao gồm thử nghiệmtrên nhiều vị trí khác nhau và thử nghiệm với các hàm lỗi khác nhau và đề xuất một

số tinh chỉnh dé đạt được kết quả cao hơn so với phương pháp ban đầu

1.6 Bo cục của luận văn

Phân còn lại của khóa luận được trình bày theo bô cục như sau:

CHƯƠNG 2 - CÁC NGHIÊN CỨU LIEN QUAN: trình bày một khảo sát đầy đủ

về các phương pháp phát hiện đối tượng có hướng hai giai đoạn hiện nay, các kỹ

thuật huấn luyện động và các hàm lỗi sử dụng trong bài toán phát hiện đối tượng có

trong quá trình nghiên cứu

CHUONG 5 - KET LUẬN VA HUONG PHAT TRIEN: Sơ lược lại một số nội

dung chính trong toàn bộ nội dung nghiên cứu và tình bày một số ý tưởng cải tiến

mà sinh viên chưa kịp thực hiện trong nội dung khóa luận này.

Trang 21

Chương2 CÁC NGHIÊN CỨU LIÊN QUAN

2.1 Phát hiện đối tượng có hướng hai giai đoạn

Trong mục này, chúng tôi sẽ giới thiệu và phân tích ba phương pháp phát hiện đối

tượng có hướng hai giai đoạn hàng dau là Oriented RCNN [2], Rol Transformer [1]

và ReDet [3] Mỗi phương pháp mang đến những cải tiến và ưu điểm độc đáo, đồngthời đối mặt với những thách thức riêng trong việc nâng cao hiệu suất của quá trìnhphát hiện đối tượng có hướng hai giai đoạn Sau đó chúng tôi sẽ đưa ra điểm chungcủa các phương pháp và điểm hạn chế của chúng

2.1.1 RoI Transformer

Rol Transformer [1] là phương pháp rút trích đặc trưng xoay bat biến invariant feature) giúp giải quyết vấn đề lệch khớp giữa đặc trưng và đối tượngtrong vùng được rút trích đặc trưng Rol Transformer nhắm đến việc phát hiện đối

(rotation-tượng có hướng trong không ảnh thông qua việc huấn luyện thành phần RRolLearning và rút trích đặc trưng các vùng nhận được từ mô-đun đề xuất vị trí đối

tượng bằng mô-đun Rol Transformer có hai thành phan Hai thành phần đó baogồm RRol Learner và RRol Wraping Thanh phần RRol Learner có nhiệm vụ hoccách chuyền đổi HRols thành RRols thông qua quá trình huấn luyện

Hinh 2-1 M6 hinh Rol Transformer [1]

Thành phan thứ hai là RRoI Wraping với cốt lõi là Rotated Position Sensitive RolAlign có nhiệm vụ rút trích các đặc trưng xoay bất biến (rotation-invariant) từ

Trang 22

RRols cho giai đoạn cuối cùng là dự đoán hộp giới hạn có hướng và phân loại vật

thể Sự kết hợp giữa RRol Learner và RRol Wraping tạo thành mô-đun ROI

Transformer.

— RRol Learner được tao ra dé học vung dé xuất vật thé có hướng (RRol) từ

các đặc trưng của các vùng đề xuất vật thể không hướng (HRol) Ý tưởng

chính của thành phan nay là sử dung fully connected layers dé đưa ra độ doi

của vùng tin tưởng, độ dời này sau đó sẽ được sử dụng dé đưa ra thông tin

hình học của RRols trong các tập feature map Các giá trị độ đời này cho biết

các tham số cần thay đổi như thé nào dé có thê khớp được với vùng tin tưởng

của nó Khi các giá trị này được học bởi mạng fully connected layer, thành

phan nay cho phép Rol Transformer có khả năng đưa ra dự đoán vùng déxuất có hướng từ vùng đề xuất không hướng Một khi đã được học, các giátrị đội doi này có thé được đem vào quá trình dự đoán bằng cách chuyền đôiHRols thành RRols thông qua quá trình biến đổi từng phần trong RRol

Wraping.

— RRol Wraping: Thanh phan RRol Wraping là thành phan chuyên đổi từng

phần (spatial transformation) lên RRols để rút trích đặt trưng Cốt lõi củathành phan này là Rotated Position Sensitive (RPS) Rol Align Cho đầu vào

là tap feature map D có kích thước (H, W, K x K x C) va một vung RRol

(X;s Vrs w„, Ay, 6„), RPS Rol Align chia RRol thành K x K phan và cho ratập feature map Y có kích thước K x K x C Với phần tại vị trí (i, j) của

kênh C, ta có

Y,j)= À _ Du„Œ;G,y))/n

(x,y)€bin(Lj)

Với D,„ „ là tập đặc trưng của có chỉ số i,j, c trong tập đặc trưng đầu vào D,

Tạ là hàm chuyên đổi (x, y) thành (x', y’) có công thức là

()=(06 sine) (Wel) 4 (07)

Trang 23

Trong quá trình huấn luyện, đầu tiên khi nhận đầu vào là các vùng đề xuất vật thê

không hướng (horizontal proposal), các vùng đó được gan với một vùng tin tưởng

có hướng (oriented ground-truth box) Sau đó, với mỗi cặp gán được sẽ cho ra một

giá trị IoU giữa chúng Những cặp có IoU lớn hơn một ngưỡng thì vùng đề xuất của

cặp đó sẽ được gán nhãn hợp lệ còn thấp hơn ngưỡng thì được gán không hợp lệ

Các vùng đề xuất hợp lệ sau đó sẽ được tiếp tục trong quá trình huấn luyện Cácvùng đó lần lượt đi qua mô-đun Rol Transformer dé trích xuất đặc trưng va di quamô-đun R-CNN dé hồi quy vi trí vật thé và nhãn tương ứng của vật thé đó

2.1.2 ReDet

ReDet [3] là phương pháp phát hiện đối tượng có hướng trong không ảnh mạnh mẽ

được đề xuất trong khoảng thời gian gần đây Một trong những thách thức lớn nhấtcủa bài toán phát hiện đối tượng có hướng trong không ảnh là các góc xoay thườngrất đa dạng và đã gây rất nhiều khó khăn cho các phương pháp truyền thống để cóthé phát hiện chính xác

classification

bbox regression

Hình 2-2 Mô hình ReDet [3]

Dé giải quyết van dé này, ReDet đã sử dụng các mạng xoay tương đương

(rotation-equivariant network) Các mang này có kha năng rút trích đặc trưng xoay từ bức

ảnh sao cho các đặc trưng đó sẽ tương đương với bất kỳ góc xoay nào Nói cáchkhác, nếu ta xoay bức ảnh theo nhiều góc khác nhau thì các đặc trưng rút trích được

cũng sẽ xoay theo các góc đó Thêm vào đó, ReDet còn đề xuất thêm một mô-đun

gọi là Rotation-invariant RoI Align (RiRoIAlign) M6-dun này có khả năng rút trích

đặc trưng xoay bat biến từ các đặc trưng xoay tương đương dựa trên các vùng được

đề xuất là có khả năng chứa vật thể trên ảnh Tóm lại, ReDet gồm có ba mô-đun

chính sau:

Trang 24

2.1.2.1 Rotation-Equivariant Feature Extractor

Rotation-Equivariant Feature Extractor sử dụng các CNN với cơ chế chia sẻ tham

số có định sao cho tập đặc trưng rút trích được sẽ tương đương theo các góc xoay

Tập đặc trưng ƒ rút trích được sẽ có thêm một kênh dành cho các góc xoay có dạng

(K,N,H,W) với N là các kênh xoay sao cho f = {f'|i € {1,2, ,N}} Các đặc

trưng ở các góc xoay khác nhau có thể chia sẻ chung các bộ lọc với các phép biếnđổi góc xoay khác nhau Do đó, tập đặc trưng rút trích được sẽ mang nhiều thông

tin về các góc xoay hơn

2.1.2.2 Rotation-Invariant Rol Align

Với mỗi vùng đề xuất tir Region Proposal Network, mô-đun này rút trích đặc trưng

xoay bắt biến từ các đặc trưng xoay tương đương đã rút trích được trước đó nhờ vào

Rotation-Equivariant Feature Extractor Rotation-Invariant Rol Align gồm haithành phan chính là Spatial Alignment va Orientation Alignment Spatial Alignmenttrích xuất đặt trưng xoay bat biến từ các vùng đề xuất có hướng trong không giancủa Spatial Alignment Va dé đảm bảo các đặc trưng xoay bất biến được rút tríchhoàn toàn, các tác giả đã sử dụng thêm phép biến đối Orientation Alignment Cụthé, phép biến đổi này có công thức như sau:

biến này ReDet sẽ đưa ra dự đoán vị trí, góc xoay của hộp giới hạn cùng với nhãn

của hộp giới hạn đó thông qua các lớp CNN và Neural Network.

2.1.3 Oriented R-CNN

Các phương pháp phát hiện đối tượng có hướng 2 giai đoạn trước Oriented R-CNN[2] sinh các đề xuất có hướng (oriented proposal) thông qua các cơ chế tốn thời

Trang 25

gian Điều này làm giảm tốc độ của trình phát hiện, do đó dẫn đến tình trạng tắcnghẽn do tính toán trong các hệ thống phát hiện đối tượng có hướng hiện đại Vi

vậy câu hỏi đặt ra là: “Liệu chúng ta có thể thiết kế một mang oriented region

proposal chung va don giản có thể trực tiếp sinh ra các proposal có hướng được

không?”.

Dé trả lời cho câu hỏi đó, nhóm tác giả đề xuất phương pháp phát hiện đối tượng có

hướng 2 giai đoạn Oriented R-CNN.

Feature map

Hình 2-3 Mô hình Oriented R-CNN [2]

— Giai đoạn đầu tiên tác giả đề xuất một Oriented Region Proposal Network

(Oriented RPN) trực tiếp sinh các proposal có hướng chất lượng cao gần như

không tốn chi phí thêm Cách tiếp cận của tác giả: biểu diễn midpoint offset.

Mỗi đối tượng có hướng tùy ý trong ảnh (arbitrary-oriented) được biéu diễnbởi 6 tham số Midpoint offset representation kế thừa từ cơ chế horizontal

regression.

— Giai đoạn hai là oriented R-CNN head dé điều chỉnh Oriented Regions of

Interest (oriented Rols) và phân lớp nó Rút trích đặt trưng từ mỗi oriented

proposal bằng rotated Rol alignment và triển khai phân lớp và hồi quy

10

Trang 26

2.1.3.1 Oriented RPN

Thành phan Oriented RPN nhận đầu vào là một tam ảnh bat kỳ, đầu ra của nó là

một tập các vùng đê xuât có hướng.

Cụ thể, đầu vào của nó là 5 bậc đặc trưng nhận được từ FPN [11] sẽ được đưa vào

mạng 3x3 convolution và 2 mang 1x1 convolution Một trong hai mạng

convolution 1 x 1 làm nhiệm vụ đưa ra giá trị độ dời của vùng dé xuất là (x, y, W,

h, a, b), mạng còn lại có nhiệm vụ đưa ra độ tin cậy cho vùng đề xuất có hướng đó

Có 3 anchors không hướng được định nghĩa sẵn với ba tỉ lệ là {1: 2, 1:1, 2:1} Khi

giải mã các giá trị đầu ra, ta sẽ nhận được vùng đề xuất có hướng, quá trình giải mã

diễn ra như sau:

Aa = OgiinatWs AB = ög.h

W = dy.eỀ, h = an eÊh

X= ôy.d„ + dy, Y = by.an + ay

Với x, y là tọa độ giữa cua vùng đề xuất, w, h là giá tri chiều dai, chiều cao của

hình chữ nhật không hướng bao vùng đề xuất, da, SB là độ dời so với điểm giữa

của cạnh trên và cạnh phải của hình chữ nhật ngoại tiếp Cuối cùng, thành phần này

cho ra vùng đề xuất gồm các giá tri là (x, y, w, h, da, 66) và điểm tin cậy của vùng

đề xuất đó

2.1.3.2 Midpoint Offset Representation

Các tác giả dé xuất một cơ chế biéu diễn của đối tượng có hướng, tên là Midpoint

Offset Represenfation Mỗi cham den là trung điểm của mỗi cạnh của hình chữ nhậtngang (hình chữ nhật ngoại tiếp của bounding box có hướng) Chấm cam là các

đỉnh của hình chữ nhật nghiêng.

11

Trang 27

Hình 2-4 Minh hoa midpoint offset representation [2]

Cụ thé tac giả sử dụng hộp giới han nghiêng O với 6 tham số O =(x,y,w,h, Aa, AB) dé biéu diễn một đối tượng Thông qua 6 tham sé, họ có thé xác

định được tọa độ các đỉnh của mỗi proposal.

Thanh phan Oriented R-CNN nhận đầu vao là tập đặc trưng và các vùng đề xuất.

Thành phan này sử dung Rol Align dé rút trích các đặc trưng xoay bat biến từ cácvùng đề xuất Sau đó các đặc trưng này được đưa vào mạng fully connected để đưa

ra vi trí, hướng của hộp giới hạn và nhãn của hộp giới hạn đó.

Nhìn chung, các phương pháp phát hiện đối tượng có hướng hai giai đoạn đều baogồm hai giai đoạn chính: giai đoạn đề xuất vị trí vật thể và giai đoạn đưa ra dự đoáncuối cùng Trong quá trình huấn luyện của các phương pháp này, việc chọn lọc các

vùng đề xuất hợp lệ sau khi nhận được từ mô-đun đề xuất vị trí vật thể đóng góp rất

quan trọng dé quyết định hiệu suất của mô hình

12

Trang 28

Thông thường, quá trình chọn lọc diễn ra trong quá trình huấn luyện bằng cách sửdụng một ngưỡng IoU cô định dé loại bỏ các vùng đề xuất kém chất lượng và giữ

lại các vùng đề xuất chất lượng cao Tuy nhiên, việc sử dụng ngưỡng IoU cố định

dé lựa chọn các vùng đề xuất hợp lệ chưa đạt hiệu quả tối ưu cho việc huấn luyện

hiện đối tượng có hướng

2.1 Hàm lỗi

Trong quá trình huấn luyện các mô hình phát hiện đối tượng có hướng hai giai

đoạn, việc chọn các hàm loss phù hợp là một yếu tố quyết định quan trọng đối với

hiệu suất và độ 6n định của mô hình Trong nghiên cứu này, chúng tôi sẽ tập trungvào ba hàm lỗi nôi bật trong bài toán phát hiện đối tượng có hướng là SmoothL1

[8], Gaussian Wasserstein Distance và KFIoU [7], đồng thời giải thích cách chúng

có thé thay thé cho hàm loss Dynamic SmoothL1 [4] dé kết hợp với Dynamic LabelAssignment [4] trong quá trình huấn luyện mô hình phát hiện đối tượng có hướng

hai giai đoạn được nghiên cứu ở Mục 4.6.1.

2.1.1 SmoothL1

Hàm lỗi SmoothLI [8] là hàm lỗi thường đường sử dụng trong học máy, cụ thé làcác bài toán hồi quy Hàm lỗi này giúp cung cấp độ lỗ tối ưu và ít nhạy cảm hơn cáchàm lỗi khác SmoothLI mang trong mình sự cân bằng khi cho ra giá trị tuyến tínhđối với độ lỗi nhỏ và giá trị bình phương đối với độ lỗi lớn SmoothL1 có thé được

viết dưới dạng công thức như sau:

0.5 « x2, Ix] <1

SmoothLi = tu _ 05, Ix] >1

13

Trang 29

Trong đó, x là hiệu số khác biệt giữa giá trị dự đoán và giá trị thực Hàm lỗi

SmoothL1 cô một sô ưu điêm sau:

— Hàm lỗi này ít nhạy cảm với nhiễu do các giá trị có độ sai lệch lớn không bị

phạt quá nhiêu

— Hàm lỗi này cung cấp độ ôn định khi gặp các giá trị đạo hàm lớn

— Đạo hàm của hàm lỗi này luôn được giữ ôn định bat ké giá trị đầu vào Mọi

giá trị dau vào đêu sẽ góp phân cải thiện mô hình như nhau.

2.1.2 Gaussian Wasserstein Distance

Gaussian Wasserstein Distance [6] là hàm lỗi được đề xuất dé giải quyết van đề các

hàm lỗi hiện tại của các giá trị hồi quy không nhất quán với ma trận đánh giá của

bài toán phát hiện đối tượng có hướng Cụ thé, do các hộp giới han có hướng

thường có các góc xoay đa dạng, các hàm lỗi hiện tại gặp khó khăn khi thường gây

ra giá trị lỗi lớn cho một sự khác biệt nhỏ trong góc xoay nên gây ra hiện tượng giá

trị cập nhật cho các góc xoay không én định Thêm vào đó, các hàm lỗi hiện tại

được thiết kế dựa trên bài toán phát hiện đối tượng không hướng, do đó cách hoạt

động của chúng thừa dựa trên giả định là hộp giới hạn không hướng dẫn đến việckhông nhất quán với ma trận đánh giá của bài toán phát hiện đối tượng có hướng.Ngoài ra, các tác giả còn chỉ ra việc vấn đề trường hợp các hộp giới hạn có hìnhdang gần giống với hình vuông khiến cho việc biéu diễn góc xoay gặp nhiều khó

khăn Từ đó, các tác giả giải quyết các vấn đề trên bằng cách sử dụng Gaussian

Wasserstein Distance (GWD) Các tác giả thực hiện chuyên đổi các hộp giới hạn cóhướng B(x, y,w,h,@) thành phân phối 2-D Gaussian NŒn,Š) để tính toán độ lỗi

IoU thông qua GWD bằng công thức như sau:

1

»z = RSRT

Với R biểu diễn ma trận xoay, S biểu diễn ma trận đường chéo của vector riêng.

Bằng cách biểu diễn hộp giới hạn có hướng bằng Gaussian cho phép các tác giả so

sánh sự khác nhau và giông nhau giữa các hộp giới hạn có hướng với nhau chính

14

Trang 30

xác hơn thay vì sử dụng IoU vì độ đo GWD đo lường sự giống nhau của hai phân

phối bang cách xác định khối lượng cần dịch chuyền từ phân phối này sang phânphối khác có công thức là

1

W(u, v) = inƒE(||X — Y|lễ)?

Như vậy, với đề xuất sử dụng GWD, các tác giả đã giúp giải quyết một phan van dékhông nhất quán giữa độ đo IoU cho bài toán phát hiện đối tượng có hướng và hàmlỗi hồi quy và vấn đề các vật thể có hình dạng như hìn vuông với nhiều góc xoaygiúp nâng cao chất lượng của các mô hình phát hiện đối tượng có hướng như đã

được thử nghiệm là RetinaNet hay R3Det.

2.1.3 Kalman Filter-based Skew Intersection over Union

Kalman Filter-based Skew Intersection over Union (KFIoU) [7] là hàm lỗi được đề

xuất dé tim cách áp dụng độ do SkewloU vào bài toán phat hiện đối tượng cóhướng SkewloU là hàm độ do được sử dung để xem xét sự giống nhau của hai hộp

giới hạn ở khía cạnh độ lệnh của các hộp giới hạn đó Đây là độ đo phức tạp hơn so

với độ đo IoU thông thường khi độ đo này không những xem xét mức độ giao thoa

giữa hai hộp giới hạn mà còn xem xét độ lệch giữa hai hộp giới hạn đó với nhau.

Trong hàm lỗi KFIoU, các tác giả đề xuất sử dụng thêm phương pháp biểu diễn

Gaussian và bộ lọc Kalman Biểu diễn bằng Gaussian tương tự như GWD [6] giúp

giám sát quá trình huấn luyện để đưa các hộp giới hạn dự đoán được về gần vớiground-truth nhanh hon Tiép theo, bộ loc Kalman được đề xuất để thay thế xấp xikết qua của độ đo SkewloU thay vì sử dụng chính SkewloU khi độ do nay có độphức tạp lớn và không phù hợp cho các quá trình huấn luyện dựa vào gradient

Công thức sử dung Kalman dé xấp xi SkewloU là

Yn; Œ®)

KFIoU =—————————

YB, (21) + yp, (S2) — Ye, (2)

Với yg, (3) là phân phối Gaussian của một hộp giới hạn có hướng, B,, Bp, Bz lần

lượt là hộp giới hạn có hướng thứ nhất, hộp giới hạn có hướng thứ hai và hộp giới

15

Trang 31

hạn có hướng giao thoa giữa hộp giới hạn thứ nhất và thứ hai Quá trình xấp xi này

cho phép KFIoU có thé đạo hàm được trên mọi điểm va dé dang áp dụng vào các

phương pháp phát hiện đối tượng có hướng mà không cần thêm việc điều chỉnh

tham số Cuối cùng, hàm lỗi các giá trị hồi quy được đề xuất trong KFIoU là

L,(t,t") = » `.

i€(x„y

LựyŒ, ba) = e1-KFIou —1

Lreg = Le + Lg

Với t,t* lần lượt là giá trị độ dời mục tiêu và giá trị độ dời dự đoán của các hộp

neo, > là phân phối Gaussian Sự xuất hiện của KFIoU đã cung cấp một hướng tiếp

cận hiệu quả cho bài tóan phát hiện đối tượng có hướng băng cách kết hợp phươngpháp biểu diễn Gaussian và bộ lọc Kalman giúp tăng cường hiệu suất của độ đo

SkewloU trong cùng bài toán mà vẫn duy trì được sự đơn giản và giúp quá trình hội

tụ mô hình trong quá trình huấn luyện dién ra nhanh hơn

The KEIoU Loss for Rotated Object Detection

(yy R= (ee Fuld) Gp (HE) = Gy (4s, ¥) Ga» Ea) Aera,(E) = 4 Teo

w= @y’ ~\sin® cos : K =2,( +2) Ỷ

2 Lele, tạ) = L(t tị) ia n Aeras, (E)

w/t 0 ẻ a cà = be BEI |

ae a=( : 12/4 * aes a TT Tig Ta) ¥ Aera Ga) —-Aera,,0)

Lựy(,Š2) = 1— KFloU

(a) Convert the bounding box to a (b) Narrow the center distance by center (c) Get the Gaussian distribution ofthe (đ) Invert Gaussian distribution to bbox to

Gaussian distribution point loss overlapping area by Kalman filtering calculate approximate SkewloU

Hinh 2-5 KFIoU Loss [7]

Hai hàm lỗi GWD va KFIoU là hai hàm lỗi được thiết kết cho bài toán phát hiện đối

tượng sử dụng phương pháp biểu diễn Gaussian dé biểu diễn các hộp giới hạn có

hướng khi mà giá trị hồi quy gồm 5 tham số là (x, y,w, h, ø) với (x, y) là giá trị tọa

độ giữa của hộp giới hạn, (w,h) là chiều rộng và chiều cao của hộp giới han, a làgóc xoay của hộp giới hạn Vì thế, hàm lỗi GWD và KFloU mà chúng tôi tìm hiểu

16

Trang 32

rất thích hợp dé áp dụng ở đầu R-CNN của các phương pháp phát hiện đối tượng có

hướng hai giai đoạn khi mà giá trị hồi quy của các đầu R-CNN là tọa độ vị trí cùng

với góc xoay của đối tượng Bên cạnh GWD và KFloU, SmoothL1 cũng được sử

dụng rat rộng rãi trong bài toán phát hiện đối tượng Tuy nhiên, SmoothL1 còn cóthể áp dụng ở quá trình tính toán độ lỗi của các vùng đề xuất mà GWD và KFloU

không thể áp dụng được Do ở giai đoạn này của các phương pháp phát hiện đốitượng có hướng, giá tri tọa độ của các vùng đề xuất được biểu diễn bởi giá trị độ dời

hay còn gọi là of fset biểu diễn độ lệch giữa các vùng đề xuất so với ground-truth

mục tiêu của chúng Vì vậy, trong khóa luận này, chúng tôi tập trung sử dụng

SmoothL1 dé huấn luyện động

2.2 Huấn luyện động

2.2.1 Dynamic R-CNN

Dynamic R-CNN [4] là phương pháp được đề xuất nhằm tăng cường hiệu suất củacác phương pháp phát hiện đối tượng hai gia đoạn bang cách chỉ ra điểm yếu củaphương pháp huấn luyện có định truyền thống và sửa chữa băng cách dé ra phươngpháp huấn luyện động Cụ thé, trong các phương pháp phát hiện đối tượng hai giaiđoạn, có một chiến lược gan nhãn có định bằng ngưỡng JoU va hàm lỗi có tham số

có định Tuy nhiên, các tham số cố định ấy không thực sự tối ưu trong quá trìnhhuấn luyện vì không thé thích nghi được sự thay đổi của mô hình trong quá trìnhhuấn luyện Đề giải quyết van dé này, các tác giả đề xuất Dynamic R-CNN đã giớithiệu một thiết kế huấn luyện động mà phương pháp này sử dụng trong quá trìnhhuấn luyện Phương pháp này tự động điều chỉnh chiến lược gán nhãn và điều chỉnhtham số của hàm lỗi dựa trên thông tin phân bố của các vùng đề xuất Hai mô-đun

mà các tác giả đề xuất là Dynamic Label Assignment (DLA) và DynamicSmoothL1 (DLS) DLA giúp điều chỉnh ngưỡng IoU sử dụng dé gan nhãn trong quátrình huấn luyện giúp mô hình nhận được nhiều vùng đề xuất có chất lượng cao hơn

mà không lo thiếu mau DLS thay đổi giá trị / trong hàm lỗi SmoothL1 giúp hướng

17

Trang 33

tới việc sử dụng hàm lỗi mượt mà hơn va tăng sự đĩng gĩp của các vùng đê xuât

chất lượng cao

2.2.1.1 Dynamic Label Assignment

Dynamic Label Assignment (DLA) là quá trình gắn nhãn cho các vùng dé xuất dựatrên IoU với các vùng tin tưởng Nĩi cách khác, việc gan nhãn này đánh giá việc các

vùng dé xuất khớp với vật thé cần phát hiện như thé nào DLA được cơng bồ trongphương pháp Dynamic R-CNN Các tác giả cho rằng chiến lược gắn nhãn cố định

và hàm lỗi cơ định khơng phù hợp với sự phân bố JoU của các vùng đề xuất trongquá trình huấn luyện gây giảm hiệu suất mơ hình trong quá trình huấn luyện Do đĩ,các tác giả đã đề xuất mơ-đun DLA, mơ-đun này tự động cập nhật ngưỡng IoUtrong quá trình huấn luyện dựa trên chất lượng của các vùng đề xuất giúp tăng hiệusuất mơ hình thơng qua việc gắn với các mẫu chất lượng cao DLA cĩ thé được viết

dưới dạng cơng thức như sau:

1, néu mmaxIoU(b, G) = Tnow

label = to neu maxIoU (b, G) < Thow

Với Tàw là giá trị ngưỡng JoU tại một thời điểm Trong quá trình huấn luyện, phânphối của các vùng đề xuất thay đổi theo thời gian DLA sẽ tự động cập nhật giá triT»„„„ dựa trên phân phối của các vùng đề xuất sao cho tương ứng với sự thay đổi

Cụ thể, trong mỗi ảnh, sau khi nhận được các vùng đề xuất từ mơ-đun đề xuất vị trí

Ta cần tinh giá trị loU của các vùng đề xuất đĩ so với các ground-truth Mỗi vùng

đề xuất được gán với một ground-truth cĩ IoU với nĩ lớn nhất Nếu vùng đề xuấtkhơng chồng chất với bất kỳ ground-truth nào thì vùng đề xuất đĩ sẽ được gán vớiground-truth gần nĩ nhất Sau đĩ, các tác giả đã đề xuất đầu tiên là tính giá trị loU

lớn thứ K; trong tất cả các giá trị IoU của các vùng đề xuất so với ground-truth Sau

đĩ, với mỗi C gia trị loU lớn thứ K; tính được trong mỗi ảnh, các tác giá cập nhật

Trow bang giá trị trung bình của chúng Khi đĩ, giá trị T,>y mới đĩ sẽ được sửdụng dé chọn lựa đánh giá các vùng đề xuất hợp lệ hay khơng hợp lệ cho quá tìnhhuấn luyện tiếp theo Hình 2-6 (a) minh họa ảnh hưởng của quá trình tăng ngưỡng

18

Trang 34

IoU, trong giai đoạn đầu, các vùng đề xuất hợp lệ sẽ được sử dụng cho quá trình

huấn luyện tiếp theo, tuy nhiên trong các giai đoạn sau của quá trình huấn luyện, khi

đã xuất hiện các vùng đề xuất khác tốt hon thì ngưỡng IoU cũng tăng lên Khi đó,

vùng đề xuất ở giai đoạn đầu của quá trình huấn luyện là hợp lệ nhưng sau đó sẽkhông còn được sử dụng mà nhường chỗ cho các vùng đề xuất khác tốt hơn Từ đógia tăng hiệu suất mô hình thông qua quá trình huấn luyện

Hình 2-6 Minh họa tác động của Dynamic Label Assignment và Dynamic

SmoothL1 trong quá trình huấn luyện [4] Cac vùng đề xuất hợp lệ ban đầu sẽ đượcloại bỏ khi ngưỡng IoU tăng cao do các vùng đề xuất được cải thiện Các vùng déxuất néu giữ nguyên chất lượng sẽ bị phạt nặng hơn trong quá trình huấn luyện

2.2.1.2 Dynamic SmoothL1

Dynamic SmoothL1 (DSL) là phiên ban được phát triển từ SmoothL1 và được dùng

chủ yếu trong việc tính độ lỗi trong tác vụ hồi quy Điểm mới của DSL so với

SmoothLI là quá trình thay đổi giá trị Mục đích của Dynamic SmoothLI là điềuchỉnh giá trị trong hàm lỗi SmoothL1 tron quá trình huấn luyện sao cho thích ứng

được với sự thay đổi phân bố chất lượng của các vùng đề xuất trong quá trình huấnluyện và đồng thời tăng cường sự đóng góp của các vùng đề xuất chất lượng cao

Công thức của Dynamic SmoothL1 có thé được viết như sau:

19

Trang 35

DSLŒ, now) = Âu — 0.5zow, otherwise

Với x là hiệu số giữa tọa độ vị trí của vùng đề xuất và ground-truth tương ứng với

nó, Brow là tham số quyết định khoảng cách nào nên dùng hàm lỗi Ll, hay hàm lỗi J).Không giống như hàm lỗi SmoothL1 sử dụng giá trị cố định dé lựa chọn hàm lỗi

L, hay lạ, Dynamic SmoothLI thay đổi gia trị B gọi là B,oy trong quá trình huấn

luyện dựa trên chất lượng của các vùng đề xuất Tương tự như DLA, DSL sẽ cập

nhật giá trị của Byoy dựa vào chất lượng của các vùng đề xuất mỗi C lần ghi nhận.

Cu thé, sau khi nhận được tập các vùng đề xuất từ mô-đun đề xuất vị trí vật thé, các

tác giả tính hiệu số giữa giá trị tọa độ của các vùng đề xuất và ground-truth tương

ứng với vùng đề xuất đó Trong bài toán này, chúng tôi áp dụng tương tự với DSL

được đề xuất của các tác giả là tính hiệu số giữa giá trị (x, y) là tọa độ chính giữacủa vùng dé xuất và giá trị (¿,y¿) là tọa độ chính giữa của ground-truth Sau đó,với tập giá trị hiệu số nhận được, các tác giả ghi nhận giá trị nhỏ thứ Kp Sau đó, với

C giá trị hiệu số, các tác giả cập nhật giá trị /„oụ bang giá trị trung vị của các Kg Ở

đây, các tác gia sử dụng giá trị trung vi thay cho gia trị trung bình vì các tác gia phat

hiện nhiều giá trị nhiễu trong quá trình ghi nhận Mô-đun huấn luyện động DSLgồm có hai tham số là Ke là giá trị hiệu số nhỏ thứ Kg trong tập hiệu số giữa vùng

dé xuất và ground-truth, và tham số C là tần số cập nhật giá trị Boy Hình 2-6 (b)

mô tả tác động của sự thay đổi giá trị của hàm SmoothLI trong quá trình huấn

luyện băng mô-đun DSL Hình minh họa cho thấy, với cùng hiệu số khoảng cáchgiữa vùng đề xuất và ground-truth, trong giai đoạn đầu, DSL sẽ cập nhật giá trị

Brow để SmoothL1 ưu tiên sử dung hàm lỗi 1, do mô-đun đề xuất vị trí hoạt động

chưa tốt, trong giai đoạn sau, DSL sẽ cập nhật sao cho với khoảng cách đó

SmoothL1 sẽ ưu tiên sử dụng hàm lỗi L, giúp thúc day quá trình huấn luyện

2.2.2 Self-Adjusting Smooth L1 Loss

Self-Adjusting Smooth L1 Loss [12] là hàm lỗi cải tiến của hàm lỗi SmoothL1 đượcgiới thiệu trong RetinaMask Hàm lỗi này được đề xuất dé giải quyết điểm yêu của

20

Trang 36

hàm lỗi SmoothLI là sự cứng nhắc của gia trị 6 Giá tri B có tác dụng lựa chon hàmlỗi trong quá trình huấn luyện, thường được xác định sẵn và không thay đổi trongsuốt quá trình Dé giải quyết van đề trên, Self-Adjusting SmoothLI Loss tính toángiá trị / trong quá trình huấn luyện dựa trên giá trị trung bình và phương sai của tậpgiá trị tuyệt đối hiệu số giữa hộp giới hạn dự đoán và ground-truth Cụ thẻ, giá trị

cập nhật được tính toán như công thức sau:

1 1

Mạ = Mạ * M+ tp * (1 — ?n)

OR = of *†1m + đệ * (1 — Tn)

B = max (0,min (Ổ, uy — og)

Với B là batch, R là running, m là momentum, là giá trị B trước đó Bằng việc

điều chỉnh giá trị @ của hàm lỗi SmoothL1, Self-Adjusting Smooth LI đã giúp giatăng khả năng thích nghỉ va tính ôn định của hàm lỗi này trong quá trình huấn luyệnbang cách xem xét sự thay đổi của các giá trị dự đoán trong suốt quá trình huấnluyện Điều này đảm bảo các giá trị tọa độ dự đoán được đánh giá tốt hơn trongtừng giai đoạn huấn luyện

2.2.3 Adaptive Training Sample Selection

Adaptive Training Sample Selection (ATSS) [5] là phương pháp được sử trong bai

toán phát hiện đối tượng nhằm mục đích tự động xác định phân loại các vùng đề

xuất dựa trên phân phối của chúng mà không dựa trên các tham số có định được càisan Dé phân loại các vùng đề xuất, ATSS xem xét khoảng cách của điểm giữa của

các vùng đề xuất và điểm giữa của các vùng ground-truth bằng khoảng cách

Euclidean dé đánh giá các hộp giới hạn đó cách nhau bao xa Vì nếu vùng đề xuất

càng gần với ground-truth thì càng có khả năng vùng đề xuất đó là hợp lệ Sau đó,

ATSS tính giá trị JoU giữa các vùng đề xuất với các vùng ground-truth ATSS sau

đó sử dụng giá trị ngưỡng JoU được xác định bằng cách tính toán giá trị trung bình

và độ lệch chuẩn của các vùng đề xuất dé phân loại vùng đề xuất đó hợp lệ hay

21

Trang 37

không Cụ thé, ở mỗi tang của Feature Pyramid Network (FPN), các tác giả chọn ra

k hộp neo có điểm chính giữa gần nhất với vùng ground-truth tương ứng của nó dựa

trên khoảng cách L2 Sau đó, các tác giả tính toán giá trị loU giữa các cặp hộp neo

và ground-truth tương ứng được chon, ở bước nảy, các tác giả ghi nhận lại giá tri

trung bình và phương sai của các giá tri loU vừa tính được Sau đó, giá tri ngưỡng

IoU mới được cập nhật sẽ là tổng của giá trị trung bình và giá trị phương sai này

Hình 2-7 Hình minh họa giá tri cập của phương pháp ATSS [5] bang gia trị ngưỡng

là tong giữa giá trị trung bình và giá trị phương sai của các giá trị IoU tính toán

được.

Với cách xác định này, ATSS giúp mô hình trong quá trình huấn luyện có thể chọn

được các vùng đề xuất hợp lệ tốt hơn giúp cải thiện mô hình trong quá trình huấnluyện Hình 2-7 mô tả giá trị ngưỡng IoU cập nhật khi sử dụng tổng của giá trị trungbình và giá trị phương sai Giá trị ngưỡng IoU khi được cập nhật bằng công thức

này giúp chọn lọc được các vùng đề xuất hợp lệ có chất lượng cao và có thể loại bỏ

được hầu hết các vùng đề xuất chất lượng thấp và đánh dấu chúng là không hợp lệ

22

Trang 38

2.2.4 Cascade R-CNN

Hình 2-8 Kiến trúc của mô hình Cascade R-CNN [13], với “I” là ảnh đầu vào,

“conv” là backbone, “pool” là mô-đun rút trích đặc trưng, “H” là đầu của mỗi giai

đoạn, “B” là hộp giới hạn, “C” là nhãn dự đoán, “BO” là vùng đề xuất

Cascade R-CNN [13] là phương pháp phát hiện đối tượng nhiều giai đoạn được đềxuất nhằm mục đích nhận được các vùng đề xuất chất lượng cao trong quá trìnhthực hiện dự đoán khi không có ground-truth Các vùng đề xuất là thành phần chủđạo dé quyết định hiệu suất của một mô hình phát hiện đối tượng Trong quá trình

huấn luyện, các vùng đề xuất có thể được so khớp với ground-truth dé lựa chọn các

vùng đề xuất tốt để tiếp tục đưa vào quá trình huấn luyện mô-đun R-CNN Tuynhiên trong quá trình dự đoán, các ground-truth không tồn tại để các vùng đề xuất

có thể được so khớp lựa chọn Do đó, Cascade R-CNN dé xuất quá trình dự đoán

thành nhiều giai đoạn Mỗi giai đoạn là một quá trình dự đoán hay một tập các mô

hình hồi quy Mục đích của việc chia ra nhiều giai đoạn là để khả năng lựa chọn

đúng các vùng đề xuất nhờ đó giúp tăng hiệu suất mô hình Trong quá trình huấn

luyện, mỗi giai đoạn được huấn luyện theo chuỗi với các ngưỡng IoU tăng dần để

lựa chọn các vùng đề xuất hợp lệ hoặc không hợp lệ Đầu ra của một giai đoạn dựđoán là đầu vào của giai đoạn tiếp theo, điều này giúp cho việc chọn lọc mẫu diễn rađược thận trọng và tăng khả năng lựa chọn được các vùng đề xuất tốt và cũng giúp

23

Trang 39

giảm thiểu hiện tượng quá khớp do số lượng các vùng đề xuất hợp lệ quá ít khi

ngưỡng IoU tăng cao Trong quá trình dự đoán, tat cả các tang được áp dụng theo

chuỗi trên vùng đề xuất Mục đích là dé loại bỏ sự lệch khớp giữa các vùng đề xuất

được đưa ra bởi các giai đoạn và đảm bảo sự các dự đoán của các giai đoạn được

nhất quán

Trong các phương pháp huấn luyện động vừa được trình bày, phương pháp huấnluyện động ATSS đã được chứng minh là mang lại sự hiệu quả khi giúp thay đổingưỡng IoU trong quá trình huấn luyện dé lựa chọn được các mẫu hợp lệ hoặckhông hợp lệ Tuy nhiên, ATSS chỉ giúp thay đổi ngưỡng trong quá trình huấnluyện giúp cho quá trình chọn lọc các mẫu hợp lệ được diễn ra tốt hơn mà không

giúp tăng cường sự đóng góp của các mẫu hợp lệ trong quá trình huấn luyện Bên

cạnh ATSS, Cascade R-CNN với ý tưởng chia quá trình huấn luyện và quá trình dựđoán thành nhiều thành phần nhiều giai đoạn giúp tăng khả năng lựa chọn các vùng

đề xuất tốt nhiều hơn nhưng cách làm này tốn chỉ phí lớn khi phải chia ra nhiều giaiđoạn Phương pháp huấn luyện động của Dynamic R-CNN khi bao gồm mô-đun

Dynamic Label Assignment giúp lựa chọn ngưỡng IoU thích hợp trong quá trình

huấn luyện và Dynamic SmoothLI giúp tăng sự đóng góp của các mẫu chất lượngcao trong quá trình huấn luyện mà không tăng sự phức tạp của mô hình khi quátrình huấn luyện động chỉ diễn ra trong quá trình huấn luyện mà không diễn ra trong

quá trình dự đoán Bên cạnh đó, sử dụng mô-đun Self-Adjusting Smooth LI Loss

thay thế cho DSL là không nhất quán do mô-đun DLA cập nhật giá trị ngưỡng IoU

qua mỗi vòng lặp € trong khi mô-đun Self-Adjusting Smooth LI Loss cập nhật giá

trị 6 qua mỗi batch huấn luyện Do đó, trong khóa luận này, chúng tôi lựa chọn áp

dụng hai mô-đun Dynamic Label Assignment và Dynamic SmoothL1 của phương

pháp Dynamic R-CNN lên các phương pháp phát hiện đối tượng có hướng hai giai

đoạn.

24

Tiêu đề	Huấn luyện động trên các phương pháp phát hiện đối tượng có hướng hai giai đoạn
Tác giả	Ngô Văn Tấn Lưu, Trương Thành Thang
Người hướng dẫn	ThS. Võ Duy Nguyên
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	78
Dung lượng	54,49 MB