Ở đây đối tượng nhỏ có nghĩa là các đối tượng mà có kích thước vật lý lớn nhưng chỉ được thể hiện bằng [18] hoặc các đối tượng thực sự có kích thước nhỏ [19] được minh họa trong ảnh[T.T|
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THONG TIN
HEL,
NGUYEN NHAT DUY
PHAT HIEN DOI TUGNG NHO TRONG ANH
SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC SAU
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ: 8480101
Trang 2NGUYEN NHAT DUY
PHAT HIỆN ĐỐI TƯỢNG NHỎ TRONG ANH
SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC SÂU
LUẬN VĂN THẠC SĨNGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ: 8480101
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS NGÔ ĐỨC THÀNH
TP HỒ CHÍ MINH - NĂM 2021
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của TS Ngô Đức Thành
Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên côngtrình, và thời gian công bố
Moi sao chép không hợp lệ và vi phạm quy chế đào tạo tôi xin chịu hoàn toàn
trách nhiệm.
Thành phó Hồ Chí Minh, tháng 07 năm 2021
Học viên
Nguyễn Nhật Duy
Trang 4LỜI CẮM ƠN
Đầu tiên, học viên xin gửi lời cảm ơn chân thành đến TS Ngô Đức Thành, thầy
đã truyền cảm hứng giúp học viên có được định hướng trong con đường học thuật
và nghiên cứu khoa học Thầy đã rèn luyện cho học viên các kỹ năng nghiên cứukhoa học độc lập như đọc hiểu báo cáo khoa học, viết báo cáo khoa học, và kỹ năngphản biện báo cáo khoa học Thầy đã tạo mọi điều kiện tốt nhất cho học viên trongquá trình thực hiện luận văn cũng như công việc nghiên cứu khoa của học viên trong
tương lai.
Trong quá trình học tập tại Trường Đại học Công nghệ Thông tin - Đại học Quốc
gia Thành phố Hồ Chí Minh, học viên đã tiếp nhận các kiến thức quan trọng dưới sựhướng dẫn của các thầy cô tại trường trong suốt hai năm học cao học Học viên xingửi lời cảm ơn chân thành nhất đến quý thầy cô
Học viên xin gửi lời cảm ơn chân thành đến quý thầy cô phản biện khoa học bởi
vì những góp ý quan trọng của quý thầy cô giúp luận văn này trở nên tốt hơn
Học viên cũng xin được gửi lời cảm ơn đến các thầy cô, anh chị đang công táctại Phòng Thí nghiệm Truyền thông Đa phương tiện - Trường Đại học Công nghệThông tin đã có những góp ý đến tôi trong quá trình thực hiện luận văn
Cuối cùng, học viên muốn gửi lời cảm ơn chân thành nhất đến đắng sinh thành.Cảm ơn bố mẹ đã luôn đi tạo động lực thúc đẩy tinh than của học viên, luôn ủng hộ
con đường mà học viên đã chọn.
Trong quá trình thực hiện luận văn, dù có hoàn chỉnh đến đâu, học viên cũng
không thể tránh những thiếu sót và hạn chế Học viên mong nhận được sự phản hồi
và góp ý quý báu đến từ quý thầy cô Một lần nữa, tôi xin chân thành cảm ơn
Thành phó Hồ Chí Minh, tháng 07 năm 2021
Học viên Nguyễn Nhật Duy
ii
Trang 5MỤC LỤC
ời cam đoan] i
ời cảm ơi ii
lục lục| iii
IDanh mục các bảng| Y
[Danh mục các hình vẽ và đô thị| vi
Chương 1Iổng quan) 1
11 Dit van dg co 1
12 Mục tiêu và phạm vi nghiên cứu| 5
1.2.1 Mục têu⁄⁄⁄ ag RM ee 5 1.2.2 Phạm vinghiéncitu] 5
1.3 Ý nghĩa thực tiễn và ý nghĩa khoahọc| - 6
1.3.1 Ý nghĩa thực tin| - 6
13.2 Y nghĩa khoahoc| - 6
1⁄4 Các đóng góp chính của luận van] 2 “ 7
1.5 Câu trúc HH HH NBNE”.” 8
Chương 2£6 sở lý thuyêt| 9 2.1 Thách thức bài toàn phát hiện đôi tượng nhỏ| 9
2.1.1 Thểhiệnnhỏ| - 9
2.1.2 Các khái niệm về doi tượng có kích thước nhỏ| 10
2.2 Tập dữ liệu và các hướng tiếp cận| - 11
Các mô hình học sâu cho bài toán phát hiện doi tượng| 13
RCNN] 14
2.3.2 _ Mạng chiét xuat phân tan không gian (Spatial Pyramid Pooling-SPP eee eee ee 16 2.3.3 FastRCNN| 17
2.3.4 FaserRCNN| 18
Trang 6MỤC LỤC
2.3.5 RetinaNel
2.3.6 You only look once (YOLO)]
[2.3.7 Single Shot MultiBox Detector (SSD)|
2.3.8 Một so hạn chế của mang tích chập đôi với đôi tượng nhỏi
Chương 3Panh giá thực nghiém|
3.1 Thiét lập thực nghiém|
(Chương 4Két quả thực nghiệm và phân tích
3.1.1 Tập dữ liệu tổng hợp cho bài toán phát hiện đối tượng nhỏ|_
4.1 Độ chính xác
4.1.1 Tập dữ liệu Small Object Dataset]
1.1.1 Tập dữ liệu MmiVOC|
4.1.1.2 Thời gian xử lý và tài nguyên sử dụng|
4.1.1.3 Một số phân tích đánh đổi giữa các mô hinh]
Chương 5.Kết luận và hướng phát triển)
[Tai liệu tham khao|
3 32 35
Trang 7DANH MỤC CÁC BANG
3.1 Thông tin về tập dữ liệu do học viên tạo ra từ các khái niệm đôi tượng.
nhỏ Tập dữ liệu này gôm 4 tập dữ liệu con| 33
3.2 Bảng chỉ tiết về tham số thiết lập mặc định của các mô hình huan luyện.| 34
4.1 Ket quả đánh giá thực nghiệm trên tập Small Object Dataset| 38
4.2 Bảng ket quả thực nghiệm phát hiện đôi tượng kích thước nhỏ trên
tap Small Object Dataset| - 42
4.3 Bảng thông tin so sánh về thời gian kiểm thử, tài nguyên sử dung
trong quá trình kiểm thử và huấn luyện (RAM) cho tập dữ liệu MiniVOC.| 48]
4.4 Bảng kết quả so sánh thực nghiệm trên miniVOC Bảng kết quả cho
thay mức độ ảnh hưởng của tỉ lệ doi tượng khác nhau lên các mô
hình Màu xanh đại diện cho kết quả tốt nhất đôi với các mô hình |
giải đoán và màu đỏ thể hiện kết quả tốt nhất cho các phương pháp 2
50
Trang 8DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
1.1 Ảnh (a) thể hiện cho các đối tượng có kích thước lớn nhưng chỉ được
thể hiện một phần nhỏ trong ảnh như xe buýt, máy bay hoặc xe hơi
{7 Ảnh (b) gồm những đối tượng thực sự có kích thước vat lý nhỏ
{TT hư chuột mặy tính đĩa ãn[Ï9Ï] 3
Bal Tổng quan vẻ kiến nức mạng RCNN] 15
2.2 Kiên trúc mạng sử dung mạng chiết xuat phân tan không gian SPP} 17
2.3 Kiến trúc mạng của FastRCNN| 18
2.4 Kiến trúc mạng của Faster RCNN| 19
2.5_ Kiên trúc mang của RetinaNet RetinaNet sử dụng FPN làm mang
cơ bản nằm sau kiến trúc ResNet để tạo ra đặc trưng phân tang với
ngữ nghĩa cao ở mức độ da ti lệ Đông thời cudi mạng RetinaNet
đính kèm 2 mạng con, môt mạng cho việc phân lớp khung bao đôi
tượng (mạng ở trên) và một mạng cho việc hôi quy vị trí tọa độ các
khung bao dựa trên các khung bao đôi tượng đã được gán nhãn (mạng ddướ) ay lợn @0Ẻ / 21
2.6 Kiên trúc mạng của phiên bản YOLOvI.| 21
2.7_ mAP of YOLOv2 với mỗi phan cải tiên được thêm vào mô hình [8 2
2.8 Kiên trúc mạng Darknet-53 [9|| 24
2.9 Vị trí các khung bao mặt định với nhiều t lệ khác nhau| 29
4.1 Ví dụ minh họa kêt qua phát hiện đôi tượng với các mạng cơ bản có.
hiệu suất cao trên các tập dữ liệu của miniVOC gồm VOC_MRA_0.58,
VOC_MRA_10, VOC_MRA_20 và VOC_WH_20.|
vi
Trang 9DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
4.2 Kết quả thực nghiệm doi với các mạng cơ bản khác nhau trên tap
Small Object Dataset Học viên ở đây chọn YOLO với Darknet-53
và ResNet-50 để so sánh bởi vì 2 mạng này gần như có lớp lớp bằng
nhau và được tích hợp các kỹ thuật tiên tiên giỗng nhau như kết nôi chọn lọc, khôi residual Khung bao đôi tượng cho thây ResNet-50
nhạy hơn so với Darknet-53 với những đối tượng gần giông nhau.
Một cách tương tự, ResNet-50-EPN và ResNet-50-C4 được chọn Ket
quả phát hiện cho thây việc kết hợp ResNet-50 với FPN cho kết quảtốt hơn so với bản gốc Cụ thể, các kết quả phát hiện bị bỏ xótc của
ResNet-50-C4 xảy ra với mật độ day hơn so với ResNet-50-FPN như.
cột 4 và 5 Vui lòng phóng to ảnh để xem |
Trang 10Chương 1 TỔNG QUAN
1.1 Đặt vấn đề
Phat hiện đối tượng (object detection) được biết đến là bài toán xác định vị trí củacác đối tượng quan tâm (objects of interest) xuất hiện trong dữ liệu đầu vào (ảnh
hoặc video) được thể hiện bằng các khung bao đối tượng (bounding box) và nhãn
đối tượng (caterogy) cho các khung bao đối tượng đó Để thực hiện bài toán này đã
có nhiều phương pháp được đề xuất từ các hướng tiếp cận truyền thống cho đến cáchướng tiếp cận hiện đại dựa trên các mô hình học sâu (deep learning) Trong đó,hướng tiếp cận học sâu hiện là hướng tiếp cận tiên tiến được sử dụng phổ biến vàmang lại hiệu suất cao Các phương pháp phát hiện đối tượng dựa trên hướng tiếpcận học sâu chủ yếu được chia thành hai hướng tiếp cận chính bao gồm: (1) hướngtiếp cận dựa trên các vùng đề xuất đối tượng (object proposal) và được biết đến là
các phương pháp hai giai đoạn (two-stage approach) fi Bị 5]: (2) hướng tiếp
cận không sử dụng các vùng đề xuất đối tượng (free proposal) và có tên gọi khác là
các phương pháp một giai đoạn (one-stage approach) {6} [7| [8} 9} [T0 (TT) [12] [13]
Một cách cụ thể, các phương pháp một giai đoạn thường xem bài toán phát hiện
đối tượng như là bài toán hồi quy và sử các khung bao đối tượng mặc định (defaultbox) hoặc chia lưới ảnh (grid view) thay vì phải dựa trên các vùng đề xuất đối tượng
từ các thuật toán hỗ trợ bên ngoài [14] Với cách tiếp này thì các phương pháp
một giai đoạn thường đạt được tốc độ xử lý cao theo thời gian thực nhưng đánh đổilại độ chính xác thấp hơn so với phương pháp khác Trong khi đó, các phương pháptrong hướng tiếp cận hai giai đoạn thì đa phần sử dụng thuật toán đề xuất các vùngđối tượng sau đó sử dụng các ứng viên này để đưa vào mạng cùng với dữ liệu đầuvào Với cách tiếp cận này mặc dù đạt hiệu suất cao trong độ chính xác nhưng đánhđổi lại là tốc độ xử lý chậm ngược lại so với các phương pháp một giai đoạn Hiện tại
các ứng dụng phát hiện đối tượng xử lý theo thời gian thực thu hút sự quan tâm của
nhiều người dùng vì đáp ứng các nhu câu thực tiễn và hỗ trợ họ trong các công việchằng ngày Trong đó, xe tự lái là ví dụ nổi bật trong việc song song giúp cho xe di
chuyển an toàn trên đường và giảm tỉ lệ tai nạn giao thông do sự sao nhãn của người
cầm lái Một ứng dụng khác như trong ngành công nghiệp sản xuất thì nhu cầu phát
Trang 11CHƯƠNG 1 TONG QUAN
hiện các bộ phận lắp ráp bị lỗi hoặc có sự bat thường về bề ngoài, kích thước va có
sự biến dạng hoặc hình dạng bên ngoài bị thay đổi đáng kể trong quá trình lắp ráp
Qua các yêu tố vừa được trình bày thì cho thấy bài toán phát hiện đối tượng theo.thời gian thực là bài toán thu hút nhiều sự quan tâm trong cộng đồng và được ápdụng nhiều trong các ứng dụng dựa trên thông tin thị giác Tuy nhiên, các ứng dụngnày yêu cầu phải phát hiện đối tượng sớm để phục vụ cho các tác vụ xử lý phía sau
[16] Bởi vì điều này cho nên thông tin thi giác để thể hiện sự hiện diện của các
đối tượng thường có kích thước nhỏ Nói cách khác, khi có dữ liệu đầu vào, mục tiêucủa phát hiện đối tượng nhỏ là phải phát hiện các đối tượng quan tâm có khả năngxuất hiện trong ảnh đặc biệt là các đối tượng có kích thước nhỏ Ở đây đối tượng nhỏ
có nghĩa là các đối tượng mà có kích thước vật lý lớn nhưng chỉ được thể hiện bằng
[18] hoặc các đối tượng
thực sự có kích thước nhỏ [19] được minh họa trong ảnh[T.T|
các vùng nhỏ trong ảnh như máy bay, xe buýt, xe hơi
Do đó, phát hiện đối tượng kích thước nhỏ được xem là bài toán thách thức trongthị giác máy tính bởi vì ngoài van đề các đối tượng được biểu diễn với kích thướcnhỏ trong dữ liệu ảnh mà còn vì sự da dạng về kích thước ảnh Lý do là một timảnh có thể được thể hiện ở nhiều độ phân giải khác nhau, nếu ảnh có độ phân giảithấp thì có thể là một khó khăn cho các bộ phát hiện đối tượng để phát hiện các đối
tượng có kích thước nhỏ Trong trường hợp này, thông tin thị giác dùng để thể hiện
vị trí của đối tượng sẽ bị giới hạn một cách đáng kể Bên cạnh đó, các đối tượng cókích thước nhỏ có thể bị chia thành nhiều phần do bị che khuất bởi các đối tượngkhác hoặc thể hiện bên ngoài của đối tượng nhỏ có khả năng giống với các đối tượng
nhiễu khác, đặc biệt khi xuất hiện trong ngữ cảnh ảnh nền phức tạp Như đã đề cập
ở trên, hiện tại đã có nhiều phương pháp được dé xuất trong những năm qua từ sự
phát triển của các mô hình học sâu Nhiéu ý tưởng đã được triển khai và các đánh
giá đi kèm cũng đã được thực hiện để cho thấy khả năng giải quyết các thách thứcđối với bài toán phát hiện đối tượng, tuy nhiên các phương pháp dé xuất da phan tậptrung vào các đối tượng có kích thước lớn hoặc trung bình và chưa thực sự tập trungvào đối tượng có kích thước nhỏ Do đó, việc cung cấp các thông tin đánh giá trên
Trang 13CHƯƠNG 1 TONG QUAN
hiện đối tượng có kích nhỏ dựa trên các phương pháp học sâu hiện tai là cần thiết
Ngày nay, các phương pháp phát hiện đối tượng dựa trên mạng học sâu đang đạt
hiệu suất cao trên các tập dữ liệu thách thức và có sự đa dạng về số lượng lớp đốitượng như PASCAL VOC và COCO Các phương pháp hiện đại này đầu tiên đượchuấn luyện trên tập dữ liệu lớn như ImageNet và được chuyển tiếp huấn luyện với cáctập dữ liệu phát hiện đối tượng Ví dụ công trình [2], tác giả sử dung kiến trúc mạng
dé xuất ứng dụng lớp chiết xuất đặc trưng phân tang không gian (spatial pyramidpooling layer) để rút trích đặc trưng và tính toán các đặc trưng này lần lượt trên toànảnh đầu vào với bất kỳ độ phân giải thay vì phải sử dụng các mô hình dựa trên thành
phần đối tượng [20] R-CNN (l được xem là công trình nổi bật trong bài toán phát
hiện đối tượng và có nhiều cải tiến so với các phương pháp tiếp cận trước đó Ảnh
đầu vào được thay đổi về kích thước cố định sau đó đưa vào mạng và áp dụng thêm
một thuật toán bên ngoài để tạo ra các vùng đề xuất đối tượng Được hoàn thiện
từ (i) Fast R-CNN [2] áp dung các vùng quan tam (regions of interest-Rols) để rút
trích đặc trưng với độ dài cố định từ các bản đồ đặc trưng cho mỗi vung dé xuất.Faster R-CNN [3| sử dụng kiến trúc mạng dược đề xuất riêng để tạo ra các vùng déxuất đối tượng thay vì áp dụng thuật toán bên ngoài
Cho đến hiện tại hầu hết các mô hình phát hiện đối tượng hoạt động tốt với các
tập dữ liệu thách thức như COCO và PASCAL VOC Tuy nhiên các đánh giá này đa
phần dựa trên hiệu suất phát hiện các đối tượng lớn hoặc trung bình và chưa thực
sự tập trung vào đối tượng có kích nhỏ Bên cạnh đó, các tập dữ liệu này đa phầnchứa các đối tượng lớn và trung bình nhiều hơn so với đối tượng nhỏ Việc này tạo
ra sự mat cân bằng dữ liệu giữa các đối tượng ở các kích thước khác nhau và dẫn đến
việc các mô hình có xu hướng phát hiện đối tượng các số lượng mẫu lớn trong tập
dữ liệu Thêm vào đó số lượng lớp đối tượng hiện tại của các tập dữ liệu cho các đốitượng nhỏ còn hạn chế so với các tập dữ liệu phổ thông Ngoài ra, hầu hết các bộphát hiện tiên tiến kể cả các phương pháp một giai đoạn hay hai giai đoạn đa phangặp vấn đề liên quan đến phát hiện đối tượng nhỏ
Trang 141.2 MỤC TIÊU VÀ PHAM VI NGHIÊN CUU
1.2 Mục tiêu và phạm vi nghiên cứu
1.21 Mục tiêu
Với nội dụng đã trình bày ở trên, để có cái nhìn tổng quan hơn về hiệu suất của cácphương pháp tiên tiến cho bài toán phát hiện đối tượng, đặc biệt là đối tượng nhỏ,trong luận văn nay, học viên /hực hiện đánh gid các mô hình tiên tiến được sử dụngphổ biến hiện tại dựa trên mạng học sâu như là các mô hình phát hiện cơ bản chobài toán phát hiện đối tượng có kích thước nhỏ Mô hình cơ bản phát hiện đối tượngtrong ngữ cảnh luận văn này có nghĩa là các mô hình mà được các phương pháp tiêntiến hiện nay chọn làm phương pháp cơ sở để cải tiến và phát triển Các mục tiêu cụ
thể được trình bày như sau:
+ Tìm hiểu và nghiên cứu các phương pháp học sâu, tập trung vào các phương
pháp được sử dụng phổ biến như các phương pháp phát hiện cơ bản cho bàitoán phát hiện đối tượng, đặc biệt là đối tượng có kích thước nhỏ
* Tìm hiểu và nghiên cứu về các tập dữ liệu hiện tại cho bài toán phát hiện đốitượng có kích thước nhỏ.
5 Xây dựng tập dữ liệu phục vụ cho việc đánh giá các mô hình học sâu cho bài
toán phát hiện đối tượng nhỏ
* Thực hiện đánh giá, phân tích các mô hình học sâu phổ biến thường được sửdụng là mạng phát hiện đối tượng cơ bản đã khảo sát cho bài toán phát hiệnđối tượng nhỏ với 3 yếu tố là thời gian thực thi, tài nguyên sử dụng và độ chínhxác cũng như là sự ảnh hưởng của việc kết hợp các mô hình phát hiện với các
mạng rút trích đặc trưng khác nhau.
1.2.2 Pham vi nghiên cứu
Trong phạm vi dé tài luận văn, học viên :hực hiện đánh giá các mô hình phát hiện
đối tượng tiên tiến dựa trên mang học sâu mà thường được sử dụng như là mô hình
co bản để phát triển cho các công trình tiên tiến hiện nay bao gồm You Only Look
Once (YOLO) [10] Single Shot MultiBox Detector (SSD) [TT], RetinaNet [6]
Trang 15CHƯƠNG 1 TONG QUAN
Fast RCNN [2], Faster RCNN [3], Mask RCNN [4] trên ba yếu tố: độ chính xác, tài
nguyên sử dụng và thời gian xử lý Các mô hình được đánh giá trên 2 tập dữ liệu
và (2)
tập dữ liệu do học viên tổng ho được lọc ra từ PASCAL VOC [17] dựa trên các định
cho bài toán phát hiện đối tượng có kích thước nhỏ: (1) tập dữ liệu chuẩn
nghĩa về đối tượng có kích thước nhỏ [(19||21| 22] có tên là miniVOC
1.3 Ý nghĩa thực tiễn và ý nghĩa khoa học
13.1 Ý nghĩa thực tiễn
'Việc cung cấp số liệu đánh giá, so sánh giữa các mô hình học sâu tiên tiến mà thườngđược sử dụng là các mạng cơ bản để phát triển cho các công trình tiên tiền hiện naycho bài toán phát hiện đối tượng nhỏ sẽ là nền tảng để phát triển các bài toán khác
mà sử dụng kết quả của bài toàn phát hiện đối tượng làm dữ liệu đầu vào như pháthiện đối tượng sử dụng hướng tiếp cận học dựa trên ít dữ liệu (Few-shot ObjectDetection), phát hiện đối tượng dựa trên sự không chắc chắn (Uncertainty basedObject Detection), phát hiện đối tượng dựa trên mô hình tạo dữ liệu (GenerativeModels for Object Detection), v.v Bên cạnh đó, dựa vào kết quả đánh giá, các nhàphát triển ứng dụng có cái nhìn tổng quan về ngữ cảnh hoạt động hiệu quả của các
mô hình phát hiện từ đó đưa ra được sự lựa chọn thích hợp cho các ngữ cảnh, môi
trường khác nhau Trong phạm vi luận văn của học viên thì bài toán phát hiện đốitượng nhỏ có quan tâm đến việc gan nhãn dữ liệu tức phân lớp đối tượng cụ thể chocác khung bao đối tượng Bài toán này có thể ứng dụng trong một số ngữ cảnh như
sau: sử dụng máy bay không người lái như drone để phát hiện người ra ngoài nơi cư
trú trong giờ giới nghiêm hoặc trong lệnh hạn chế ra đường như trong thời gian dịch
bệnh.
1.3.2 Ý nghĩa khoa học
Về mặt ý nghĩa khoa học, luận văn có một số đóng góp như sau:
+ Tổng hợp tình hình nghiên cứu về bài toán phát hiện đối tượng đặc biệt là đối
Trang 161.4 CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN
+ Tổng hợp tình hình nghiên cứu về các tập dữ liệu hiện tại cho bài toán phát
hiện đối tượng có kích thước nhỏ
* Cung cấp tập dữ liệu đánh giá cho bài toán phát hiện đối tượng có kích thước
nhỏ.
* Cung cấp số liệu đánh giá, phân tích các mô hình học sâu đã khảo sát cho baitoán phát hiện đối tượng nhỏ với 3 yếu tố là thời gian thực thi, tài nguyên sửdụng và độ chính xác cũng như là sự ảnh hưởng của việc kết hợp các mô hình
phát hiện với các mạng rút trích đặc trưng khác nhau.
* Từ việc so sánh các hướng tiếp cận, học viên đưa ra các thảo luận cho hướngphát triển tiếp theo
1.4 Các đóng góp chính của luận văn
Các đóng góp chính của luận văn như sau:
+ Hệ thống lại các kiến thức nổi bật của các công trình liên quan đến bài toán
phát hiện đối tượng đặc biệt là đối tượng có kích thước nhỏ Chủ yếu tập trung
vào các phương pháp cơ bản được sử dụng phổ biến
* Cung cấp các lại các kiến thức nổi bật và các công trình liên quan đến bài toánphát hiện đối tượng đặc biệt là đối tượng có kích thước nhỏ
* Tổng hợp tình hình nghiên cứu về các tập dữ liệu hiện tại cho bài toán phát
hiện đối tượng có kích thước nhỏ
* Thực hiện đánh giá, phân tích các mô hình học sâu đã khảo sát cho bài toán
phát hiện đối tượng nhỏ với 3 yếu tố là thời gian thực thi, tài nguyên sử dụng
và độ chính xác cũng như là sự ảnh hưởng của việc kết hợp các mô hình phát
hiện với các mạng rút trích đặc trưng khác nhau.
* Từ kết quả nghiên cứu của luận văn học viên đã viết một bài báo khoa học vàđược chấp nhận đăng tại tạp chí Journal of Electrical and Computer Engineer-ing (JECE) 2020 nằm trong danh mục tạp chí uy tín SCOPUS được xếp hang
Trang 17CHƯƠNG 1 TONG QUAN
Q2 theo Scimag: fl.
1.5 Cấu trúc luận văn
Luận văn “Phát hiện đối tượng nhỏ trong ảnh sử dụng mạng học sâu” được trình bàybao gồm 05 chương Nội dung tóm tắt từng chương được trình bày như sau:
* Chương 1: Tổng quan Bao gồm các nội dung như đặt vấn đề, bối cảnhnghiên cứu, mục tiêu của dé tài, phạm vi nghiên cứu của dé tài và cuối cùng làkết quả đạt được của đề tài
Chương 2: Cơ sở lý thuyết Trình bày các thách thức liên quan đến bài toán
phát hiện đối tượng nhỏ và sau đó là các nghiên cứu liên quan cho bài toán này
Chương 3: Đánh giá thực nghiệm Trình bày các thông tin liên quan việcthiết lập thực nghiệm và các tập dữ liệu được chọn cho việc đánh giá các
phương pháp.
Chương 4: Kết quả thực nghiệm và phân tích Trình bày và phân tích các
kết quả mà học viên đạt được thông qua quá trình thực nghiệm
Chương 5: Kết luận và hướng phát triển Trong chương này, học viên tóm
tắt nội dung đã đạt được và đưa ra hướng phát triển tiếp theo
Íwww scimagojr.com/journalsearch.php?q=21100197510stip=sid
Trang 18Chương 2 CƠ SỞ LÝ THUYET
Trong chương này, học viên trình bày các thách thức liên quan đến bài toán pháthiện đối tượng nhỏ và sau đó là các nghiên cứu liên quan cho bài toán này
2.1 Thách thức bài toàn phát hiện đối tượng nhỏ
Nhìn chung có rất nhiều vấn đề liên quan đến các thách thức mà bài toàn phát hiệnđối tượng cần phải giải quyết Mặc dù bài toán phát hiện đối tượng từ lâu đã thu hútđược sự quan tâm của nhiều nhà nghiên cứu nhưng sau khoảng thời gian thực hiệnthì các thách thức chỉ mới giải quyết được ở mức độ nhất định Cụ thể, tập dữ liệuCOCO được đánh giá dựa trên 3 tỉ lệ đối tượng là lớn, trung bình và nhỏ từ đó đãtạo ra thách thức về độ chính xác liên quan đến các tỉ lệ khác nhau, đặc biệt là pháthiện đối tượng có kích thước nhỏ Các phương pháp hiện tại chủ yếu đạt được độchính xác cao đối với tỉ lệ đối tượng là lớn và trung bình mà chưa thực sự tập trungvào đối tượng nhỏ Do đó, trong ngữ cảnh phát hiên đối tượng có kích thước nhỏ thìrất khó cho các nhà nghiên cứu bởi vì ngoài các thách thức phổ thông tổn tại trongbài toán phát hiện đối tượng thì họ còn phải giải quyết các thách thức liên quan đếnphát hiện đối tượng có kích thước nhỏ Bên cạnh đó các định nghĩa về đối tượng có
kích thước nhỏ chưa thực sự rõ ràng, việc định nghĩa này phụ thuộc vào tập dữ liệu
cũng như mục đích đề xuất của từng công trình khoa học Phần nội dung được trìnhbày sau đây sẽ làm rõ các vấn đề này
2.11 Thểhiện nhỏ
Thể hiện nhỏ ở đây có thể hiểu là đối tượng quan tâm được biểu diễn trong ảnh với
kích thước nhỏ tức có số lượng điểm ảnh dùng để biểu diễn cho đối tượng là giới hạn
ở một mức độ nhất định Như đã đề cập, bài toán phát hiện đối tượng nhỏ gần đâyđược xem là một van dé thu hút nhiều quan tâm bởi vi bản thân bài toàn này có nhiều
thách thức thú vị với các nhà nghiên cứu và khả năng ứng dụng của bài toán này vào.
thực tiễn Đầu tiên, khả năng xuất hiện của các đối tượng có kích thước nhỏ thì caohơn so với các đối tượng có kích thước khác trong dữ liệu ảnh đầu vào Bat cứ vịtrí nào của ảnh cũng có thể là đối tượng nhỏ bởi vì sự giống nhau về thể hiện bên
Trang 19CHƯƠNG 2 CƠ SỞ LÝ THUYET
ngoài giữa các đối tượng, thậm chí là giữa đối tượng nhỏ và với ảnh nền Bên cạnh
đó, bởi vì các đối tượng có kích thước nhỏ nên dẫn đến sự thật là các bộ phát hiện
đối tượng gặp khó khăn khi phải xác định vị trí của các đối tượng này giữa nhiều đốitượng khác nằm xung quanh chúng hoặc thậm chí là cùng kích thước và thể hiện bềngoài Điều này thực sư gây ra các khó khăn nhất định khi phải phân biệt các đốitượng có kích thước nhỏ từ ảnh nền có nội dung lộn xộn Bởi các điểm ảnh để théhiện thông tin thị giác cho các đối tượng có kích thước nhỏ thì ít hơn nhiều so vớicác đối tượng có kích thước lớn khác Nói cách khác là sẽ có ít sư thể hiện có nhiều
thông tin hỗ trợ cho các bộ phát hiện thực hiện nhiệm vụ của nó Bên cạnh đó, các
đặc trưng phân biệt thể hiện cho các đối tượng nhỏ trong ảnh thì dễ bị ảnh hưởng,thâm chí là mất dần dần sau khi phải đi qua các lớp của mạng học sâu như lớp tích
chập hoặc lớp chiết xuất đặc trưng Ví dụ, trong VGG16 thì nếu đối tượng quan tâm
được thể hiện bằng 32 x 32 điểm ảnh, nó sẽ có kích thước khoảng 1 điểm ảnh sau khi
đi qua khối chiết xuất thông tin 5 lần Kết quả là việc tìm kiếm vét cạn bằng các cửa
SỐ trượt | hoặc tăng số lượng các khung dé xuất đối tượng như selective search [14] có khả năng là không khả khi để cho ra kết quả tốt Một vài mẫu về đối tượng
có kích thước được trình bày trong Hinh|I.1
2.1.2 Các khái niệm về đối tượng có kích thước nhỏ
Van dé đặt ra đối với bài toán phát hiện đối tượng nhỏ là làm sao xác định như thénào là đối tượng có kích thước nhỏ hoặc số lượng điểm ảnh mà các đối tượng nàyđược thể hiện trong ảnh Việc này gây ra các khó khăn nhất định và sẽ khác nhaukhi chung ta xét chung các đối tượng trên ảnh có độ phân giải cao hoặc độ phân giảithấp Ví dụ, một đối tượng được xem là đối tượng nhỏ bởi vì nó chỉ được thể hiệnbằng một phan ảnh với kích thước 400 x 400 trên ảnh 2048 x 2048 nhưng sẽ là rất
lớn trên ảnh 500 x 500 Do đó, nó gây ra các khó khăn cho các nhà nghiên cứu khi
một tập dữ liệu có nhiều ảnh với các kích thước ảnh đa dạng có độ phân giải chênhlệch lớn Cho đến hiện tại, có một vài định nghĩa về đối tượng có kích thước nhỏ
và các định nghãi này chưa được rõ ràng hoàn toàn Nó phụ thuộc vào tập dữ liệu
mà được sử dụng cho việc đánh giá và đặc trưng thể hiện của các đối tượng đượcquan tâm Do đó để thực hiện việc phát hiện các đối tượng có kích thước nhỏ, các
Trang 202.2 TAP DU LIỆU VÀ CÁC HƯỚNG TIẾP CAN
nhà nghiên cứu tự định nghĩa các điều kiện khác nhau cho các tập dữ liệu khác nhauthay vì chỉ dựa trên kích cỡ của các khung bao đối tượng mà chứa các đối tượng để
xác định liệu đối tượng đang xét có kích thước nhỏ hay không Ví dụ, Zhu và cộng
sự [21] cho rằng đối tượng có kích thước nhỏ là các đối tượng mà kích thước của
nó chỉ chiếm 20% diện tích của ảnh khi công bố tập dữ liệu về biển báo giao thông.Nếu biển báo giao thông có kích thước là hình vuông, nó được xem là đối tượng cókích thước nhỏ khi chiều rộng của khung bao đối tượng nhỏ hơn 20% của ảnh vàchiều cao của khung bao đói tượng không quá chiều cao của ảnh Trong công trình22), Torralba và cộng sự cho rằng đối tượng có kích thước nhỏ sẽ chiếm ít hơn hoặc bằng 32 x 32 điểm ảnh Trong tập dữ liệu các đối tượng có kích thước nhỏ [
đối tượng được xem là có kích thước nhỏ khi chúng có tỉ lệ chồng lắp giữa diện tích
khung bao đối tượng của chúng với diện tích của ảnh từ 0.08% tới 0.58%, một cách
tương ứng từ 16 x 16 đến 42 x 42 điểm ảnh trong ảnh VGA Trong luận văn này, họcviên sử dụng lại các định nghĩa về các đối tượng nhỏ đã trình bày, đặc biệt là các
| như là các nguồn tham khảo chính bởi vìđịnh nghĩa từ các công trình |
các định nghĩa này có độ tin cậy cao và được chấp nhận sử dụng một cách rộng rãi
bởi ác nhà nghiên cứu.
2.2 Tập dữ liệu và các hướng tiếp cận
Tại thời điểm học viên thực hiện nghiên cứu này thì có ít công trình tập trung vào
giải quyết các van đề liên quan đến đối tượng có kích thước nhỏ, và điều này dẫn đếnkhó khăn trong việc tiếp cận đến với các kiến thức liên quan để đưa ra một nghiêncứu toàn diện do sự giới hạn của các công trình Các phương pháp tiếp cận trước đóchủ yếu tập trung vào đối tượng có kích thước lớn mà chưa thực sự quan tâm nhiều
sự có mặt của đối tượng có kích thước nhỏ Do đó, hiệu suất hiện tại mà các phươngpháp đã giải quyết các thách thức liên quan đến bài toán phát hiện đối tượng nhỏ
chưa được trình bày một cách rõ ràng Đây là một trong các lý do mà học viên thực
hiện vịiệc đánh giá hiệu xuất của các mô hình phát hiện đối tượng tiên tiến hiện nay
để đưa ra được cái nhìn sơ khởi về khả năng giải quyết thách thức cho bài toán pháthiện đối tượng nhỏ
Trong ngữ cảnh bài toán phát hiện đối tượng có kích thước nhỏ, có vài công trình
11
Trang 21CHƯƠNG 2 CƠ SỞ LÝ THUYET
liên quan đến bài toán này Cho đến hiện tại, hầu hết các công trình chỉ phát hiện
một loại đối tượng thuộc vào một lớp đồi tượng cu thể như biển báo giao thông [21].phương tiện di chuyển [23| [24] 25] hoặc người di bi Các tập dữ liệu không
phải là các tập dữ liệu mà chứa nhiều đối tượng thuộc nhiều lớp khác nhau trongđời sống Điều này dẫn đến việc thiéu hụt cho việc đánh giá khách quan các hướngtiếp cận để thể hiện khả năng phát hiện các đối tượng khác nhau và có độ đa dạng
về hình dáng bên ngoài Tuy nhiên, Chen cùng cộng sự [19] công bố tập dữ liệudành cho bài toán phát hiện đối tượng nhỏ bằng cách kết hợp tập dữ liệu COCO
va SUN [27], cuối cùng tap dữ liệu dé xuất có chứa 10 lớp phổ biến như “mouse,”
“telephone,” “switch,” “outlet,” “clock,” “tissue box,” “faucet,” “plate,” and “jar”.
Chen cũng tăng cường mô hình RCNN với một số điều chỉnh dé cải thiện hiệu xuất
phát hiện đối tượng nhỏ Theo ý tưởng này, học viên tiến hành khảo sát các tập
dữ liệu hiên tại và học viên thấy rằng PASCAL VOC có điểm chung với COCO và
SUN có chứa các đối tượng có kích thước nhỏ với nhiều lớp đối tượng khác nhau
Vi thé học viên dựa trên các định nghĩa về đối tượng nhỏ hiện tại và phổ biến như
đã trình bày ở trên để lọc ra các đối tượng thỏa mãn điều kiện của các định nghĩa vềđôi tượng nhỏ và tạo nên một tập dữ bao gồm 4 tập con liên quan đến 4 địnhnghĩa về đối tượng nhỏ để xem xét sự ảnh hưởng của tỉ lệ đối tượng ảnh hưởng nhưthế nào đối với hiệu suất của các mô hình Thêm vào đó, gần đây có một tập dữ liệu
về đối tượng nhỏ được công bồ trong | thách thức có tên là Vision Meets Drones:
và tập dữ liệu này được xem là tập dữ liệu thách thức bởi vì nó chứa
nhiều đối tượng có kích thước nhỏ, thậm chí là rất nhỏ trong ảnh ở nhiều ngữ cảnh
khác nhau Tuy nhiên, góc nhìn của ảnh được chụp từ thiết bị tự lái drones, nên gócnhìn sẽ là từ trên xuống là độ phân giải rất cao khoảng 2K và tập dữ liệu này không
có cúng cấp nhãn cho tập thử nghiệm vì thế sẽ gặp khó khăn trong việc đánh giá
Do đó, trong luận văn này học viên chọn tập dữ liệu đối tượng nhỏ [19] và tập dữ
liệu do học viên loc ra từ PASCAL VOC có tên là miniVOC, bởi vì các tập dữ liệu
này chữa nhiều loại đối tượng thuộc nhiều lớp khác nhau và số lượng ảnh lớn, vi théphan đánh giá sẽ khách quan
laiskyeye com
Trang 222.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG
2.3 Các mô hình học sâu cho bài toán phát hiện đối tượng
Gần đây với sự phát triển của các mô hình học sâu, các phương pháp tiếp cận sử
dung mạng nơ ron tích chập (convolutional neural network) đã đạt được các thành
tựu nhất định trong nhiều bài toán Trong ngữ cảnh bài toán phát hiện đối tượng,
mạng nơ ron tích chập được ứng dụng phổ biến trong các công trình nổi bật như fi
bị 10} {11} {13} Hầu hết các công trình đã chứng minh được hiệu suất trong
việc phát hiện các đối tượng có kích thước trung bình hoặc lớn Các công trình nàyhiện nay được chia ra thành 2 hướng tiếp cận chính cho bài toán phát hiện đối tượngbao gồm các phương pháp tiếp cận một giai đoạn (one-stage approaches) và hai giaiđoạn (two-stage approaches) Mỗi hướng tiếp cận có chung các tinh chất và ý nghĩa
riêng, các phương pháp thuộc hướng tiếp cận hai giai đoạn thường là các phương
pháp dựa trên các thuật toán đề xuất vùng ứng viên đối tượng (object proposals).Đặc điểm nổi bật của các phương pháp này thường có kết quả cao nhưng đối lại tốc
Fast RCNN [2], Faster
EfficientDet [I3] v.v Trong khi đó các phương pháp thuộc nhóm một
độ xử lý chậm gồm các phương pháp nổi bật như RCNN
RCNN
giai đoạn thì ngược lại, các phương pháp này thường có khả năng xử lý dữ liệu theo
thời gian thực và vẫn đạt được độ chính xác cao Tuy nhiên việc hy sinh đánh đổi
giữa độ chính xác và tốc độ xử lý là yêu tố mà các phương pháp dang xem xét để đưa
ra chiến lược phù hợp Các phương pháp nổi bật trong hướng này bao gồm YOLO[ii8|Í9[Tð] SSD [TT] DSSD [I2], RetinaNet [6]
RCNN [1] là một trong các công trình tiên phong đầu tiên mạng lại bước tiền
lớn trong bài toán phát hiện đối tượng Các phương pháp sau đây là các bản cải tiến
từ RCNN như |; 28] Trong đó đặc biệt là Faster RCNN được xem là một
công trình tiên tiến hiện nay Mặc dù một chuỗi các công trình này sử dụng các
ý tưởng nổi bật từ cửa sổ trượt cho đến các vùng đề xuất đối tượng và hấu hết đạtkết quả tốt trên các tập dữ liệu chuẩn như PASCAL VOC, COCO and ILSVRC Tuynhiên các hoạt động của các phương pháp này tốn nhiêu thời gian để xử lý xong mộttắm ảnh và việc này có thể làm giảm hiệu xuất xử lý của các bộ phát hiện Kết quả
là các bộ phát hiện gặp khó khăn trong việc phát hiện đối tượng theo thời gian thựcmặc dù đạt được độ chính xác cao Điều này có nghĩa là các phương pháp chủ yếu
Trang 23CHƯƠNG 2 CƠ SỞ LÝ THUYET
tập trung vào độ chính xác mà bỏ qua phần ảnh hưởng của tốc độ xử lý Thêm vào
đó, việc phát hiện các đối tượng có kích thước nhỏ trong các ứng dụng thực tế thì
không kém phần quan trọng so với các đối tượng có kích trước lớn hoặc trung bình,thậm chí là cần thiết hơn chúng ta tưởng Đặc biệt là đối với công nghệ xe tự hành,
xe thông minh, các dự án quân đội và giao thông thông minh, dữ liệu phải được xử
lý không những nhanh mà còn phải chính xác để đảm bảo rằng an toàn được đặt lênhang đầu Nhưng trong các trường hợp này, một cách tổng quan dữ liệu được ghi lạithường là nằm ở xa camera và các thông tin đa phần là các đối tượng nhỏ.
Trong điều kiện phát hiện đối tượng theo thời gian thực, các phương pháp mộtgiai đoạn thay vì sử dụng các vùng dé xuất đối tượng để có được các vùng quantâm trước khi đến với bộ phân lớp giống như các phương pháp 2 giai đoạn như đã
trình bày ở trên thì các phương pháp này sử dụng thông tin cục bộ của ảnh để đưa
ra các dự đoán như YOLO và SSD Cả 2 phương pháp này đều xử lý ảnh theo thời
gian thực, phát hiện đối tượng một cách chính xác mà vẫn giữ được độ chính xác
cao Tuy nhiên, các phương pháp này chỉ đề cập đến là có khả năng phát hiện đượcđối tượng nhỏ nhưng chưa có các thực nghiệm chứng mình đi kèm để thể hiện khảnăng hoặc mức độ mà các phương pháp này có thể phát hiện được các đối tượng cókích thước nhỏ Phần nội dung trình bày tiếp theo là các ý tưởng tổng quan của cácphương pháp đã được đề cập
243.1 RCNN
RCNN (1 là một phương pháp được xem là tiên phong trong bài toán phát hiện đối
tượng sử dụng kiến trúc mạng học sâu, RCNN đạt được kết quả cao hơn 30% độ
chính xác trung bình (mAP) so với hơn các phương pháp trước đó trên tập dữ liệu
PASCAL VOC Tổng quan kiến trúc mạng của RCNN bao gồm 4 phần được biếtđến là các kỹ thuật mới của phương pháp này Đầu tiên, mạng RCNN thay đổi kíchthước ảnh về 227 x 227 như là ảnh đầu vào Sau đó, thuật toán selective search [14được triển khai để tạo ra 2000 ứng viên là các vùng đề xuất đối tượng trên ảnh đầuvào Thông qua mỗi vùng dé xuất, mạng RCNN rit trích một vectơ đặc trưng có
4096 chiều và tính toán các đặc trưng này Cuối cùng sử dụng bộ phân lớp tuyếntính cụ thể cho các lớp đối tượng SVM được đặt phía sau lớp cuối cùng của mạng để
Trang 242.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG
R-CNN: Regions with CNN features
warped region aeroplane? no.
ve
person? yes.
1 Input 2 Extract region 3 Compute 4 Classify
image proposals (~2k) CNN features regions
Hình 2.1 Tổng quan về kiến trúc mạng RCNN
phân lớp các vùng đối tượng xem liệu có bất cứ đối tượng nào xuất hiện trong đó và
đối tượng đó là gì Hình |2 1|thể hiện tổng quan kiến trục mạng RCNN
Điểm chính dẫn đến thành công của RCNN là phương pháp rút trích đặc trưng.Trong mạng RCNN các đặc trưng cấp thấp như HOG được thay thế bằng đặc trưng
học sâu được rút trích từ mạng nơron tích chập, các đặc trưng này có đặc điểm là
thể hiện sự phân biệt rõ ràng hơn Tuy nhiên việc đánh giá cho từng ảnh thì tiêu tốnnhiều tài nguyên tính toán bởi vì RCNN phải áp dụng việc rút trích đặc trưng củamạng nơron tích chập 2000 lần cho tương ứng 2000 vùng ứng viên đối tượng Theo
dé xuất của RCNN thì ảnh đầu vào được thay đổi về độ phân giải về 227 x 227, tuynhiên việc thay đổi độ phân giải thấp này là một van đề quan trọng vì nó ảnh hưởngđến các đối tượng nhỏ ở một số gốc độ và làm giải hiệu suất phát hiện các đối tượng.nhỏ Cụ thể, các đối tượng có kích nhỏ là các đối tượng dễ bị ảnh hưởng và thậm chí
là mất mát thông tin khi phải thay đối kích thước ảnh quá chênh lệch kích thước ảnh
gốc ban đầu Ngoài ra các vùng đề xuất đối tượng có tỉ lệ chồng lấp lên nhau nhiềucho nên dẫn đến việc lặp lại quá trình tính toán giữa các vùng giống nhau nhiều lần
mà chưa tận dụng được các kết quả trước đó Đồng thời với mỗi vùng đề xuất thìkết quả tính toán phải được lưu lại trước khi thực hiện việc rút trích đặc trưng, việcnày làm cho RCNN xử lý chậm và tốn rất nhiều tài nguyên tính toàn cũng như là lưutrữ Một yếu tố quan trọng khác nữa đó là việc nhiều khung bao đối tượng chồnglên nhau dẫn đến giảm độ chính xác mAP nếu đối tượng kích nhỏ nằm gần các đốitượng lớn bởi vì sự mắt cân bằng dữ liệu liên quan đến không gian đặc trưng của cáckhung bao đối tượng cụ thể là sự chênh lệch kích thước của các vùng đề xuất đốitượng giữa các đối tượng lớn và đối tượng nhỏ cho nên RCNN có xu hướng chọn các
15
Trang 25CHƯƠNG 2 CƠ SỞ LÝ THUYET
khung bao của các đối tượng có kích thước lớn và bỏ qua các khung bao của các đối
tượng có kích thước nhỏ.
2.3.2 Mạng chiết xuất phân tần không gian (Spatial Pyramid Pooling-SPP)
Ý tưởng chính của SPP [28] được phát triển từ các hạn chế của mang nơron tích
chập bởi vì mạng nơron tích chập tại thời điểm ấy thường chỉ nhận đầu vào với kíchthước ảnh thấp và cố định khoảng 224 x 224 như AlexNet cho nên không thể sử dungkích thước ảnh gốc mà phải sử dụng kỹ thuật cắt vùng đối tượng (cropping) hoặc
cố định kích thước của các vùng quan tâm (wrapping) để có được thông tin tươngđối về đối tượng quan tâm Ngoài ra, lớp kết nối day đủ (fully connected layer) cầnmột đầu vào cố định nhưng các lớp tích chập thì có thể nhận vào ảnh với bat kỳ kích
thước nào do đó cần một lớp trung gian như là cây cầu kết nối giữa lớp tích chập và
lớp kết nối day đủ đó là lý do mà lớp chiết xuất phân tần không gian (SPP) được đềxuất Cụ thé, SPP dau tiên tim 2000 vùng dé xuất đối tượng như RCNN va sau đó
rút trích đặc trưng của toàn bộ ảnh SPP ánh xạ mỗi cửa s đặc trưng tương ứng với
mỗi vùng đề xuất đối tượng thành một vectơ biểu diễn có kích thước cố định bat kếkích thước của dữ liệu đầu vào Cuối cùng đặc trưng từ 2 lớp kết nối đầy đủ sẽ được
sử dụng cho phân lớp bằng SVM Hình|2.2| thể hiện kiến trúc mang sử dụng mạngchiết xuất phân tần không gian SPP
Nói cách khác, mạng chiết xuất phân tần đối tượng SPP tốt hơn RCNN Cụ thểtốc độ xử lý cao gấp 200 lần so với RCNN nhưng thời gian huấn luyện lâu hơn do
có nhiều giai đoạn huấn luyện như tỉnh chỉnh các lớp cuối, SVM và hôi quy, đồngthời cần rất nhiều tài nguyên lưu trữ để lưu lai các vectơ có kích thước cố định như
đã trình bày ở trên Một điểm cộng của SPP đó là xem xét đặc trưng ở nhiều cấp độkhác nhau nhằm bắt được nhiều đối tượng mà có kích thước khác nhau Tuy nhiênđiểm yêu vẫn còn tồn tại của SPP cũng giống như RCNN đó là kích thước ảnh đầuvào có độ phân giải thấp, chưa tận dụng được thông tin giống nhau giữa các vùng
để xuất mà vẫn xem các vùng đề xuất đối tượng một cách độc lập cho nên chưa giảiquyết được vấn đề tính toán và lưu trữ Đồng thời các đối tượng lớn và nhỏ đượcđánh trọng số đặc trưng giống nhau là bằng kích thước cô định có thể gây ra mất cânbằng về việc mô tả đặc trưng giữa các đối tượng
Trang 262.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG
fully-connected layers (fies, fe7)
spatial pyramid pooling layer
feature maps of convs
nơron tích chập đa phần giống RCNN Kiến trúc mang Fast RCNN (Hình {2.3} là
mạng thống nhất được huấn luyện với hàm độ lỗi đa tác vụ Cụ thể, Fast RCNNnhận ảnh đầu vào với bất kỳ kích thước và 2000 vùng đề xuất đối tượng Điểm khácbiệt ở đây là thay vì triển khai các vùng đề xuất đối tượng lên ảnh đầu vào hoặc thayđổi kích thước cố định để đưa vào kiến trúc mang ở giai đoạn đầu tiên như RCNN,Fast RCNN đặt các vùng đề xuất đối tượng lên bản đồ đặc trưng ở vị trí mà sau khi
ảnh đầu vào đã qua các lớp tích chập đầu hay mạng cơ bản Với mỗi vùng dé xuất
đối tượng được rút trích đặc trưng có chiều dài vectơ cố định bởi lớp chiết xuất giá trịlớn nhất hoặc trung bình (pooling layer) và được ánh xạ thành vectơ đặc trưng bằngcác lớp kết nối đầy đủ Mạng Fast RCNN có 2 đầu vectơ đầu ra ứng với mỗi vùngđối tượng: vectơ xác xuất softmax và vecto vị trí hồi quy tọa độ khung bao đối tượngcho từng lớp đối tượng Các đặc trưng quan trọng của các vùng đối tượng được chia
sẻ trong việc tính toán và bộ nhớ lưu trữ trong quá trình lan truyền tiến và lan truyền
17
Trang 27CHƯƠNG 2 CƠ SỞ LÝ THUYET
Outputs: baie
softmax regressor
Rol feature
Vector foreach Ra!
Hình 2.3 Kiến trúc mang của Fast RCNN
ngược từ chung 1 ảnh Đóng góp quan trọng nhất của Fast RCNN là đã khắc phục được nhược điểm của RCNN và mạng SPP mà vẫn tăng được độ chính xác và tốc độ
xử lý Lợi ích ở đây là giúp tăng độ chính xác trung bình (mean Avearge Precision)
cao hơn RCNN và SPP Giai đoạn huấn luyện đơn giản hơn, sử dụng hàm độ lỗi đatác vụ và có thể cập nhật cho toàn bộ mang Khả năng lưu trữ trên 6 dia khong cầnquá nhiều trên bộ nhớ tạm
2.3.4 Faster RCNN
Faster RCNN [3] là phương pháp cải tiến của Fast RCNN và được xem là phươngpháp nổi bật nhất thường được dùng làm phương pháp cơ sở cho các bài toán liênquan đến phát hiện đối tượng Không giống như 2 phương pháp tiền đề trước đónhư RCNN và Fast RCNN là phải tạo ra các vùng đề xuất đối tượng bằng các thuậttoán bên ngoài như [14], Faster RCNN dé xuất một mạng dé xuất các khung bao đốitượng mới được tích hợp vào kiến trúc mạng của Faster RCNN được gọi là mạng đềxuất đối tượng (region proposal network-RPN) Hin! minh họa kiến trúc FasterRCNN Mạng RPN có khả năng tạo ra các vùng đề xuất chất lượng chỉ sau một lầnhuấn luyện Sau khi có được đặc trưng học sâu từ các lớp tích chập đầu tiên củamạng cơ bản như VGG hay AlexNet, RPN nhận các đặc trưng này làm đầu vào sau
đó sử dụng cửa sổ trượt trên các bản đồ đặc trưng này để rút trích đặc trưng cho mỗivùng dé xuất RPN ban chất là gồm 2 lớp tích chập tương ứng với việc song songvừa thực hiện nhiệm vụ dự đoán các khung bao đối tượng và chỉ số khả năng đốitượng tại mỗi vị trí vùng đề xuất Đầu vào của RPN là anh bat kì kích thước nào vàđầu ra là tập hợp 1000 các vùng đề xuất đối tượng như là khung bao đối tượng cùng
Trang 282.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG
Hình 2.4 Kiến trúc mang của Faster RCNN
với đó là chỉ số đối tượng cho từng khung bao Cụ thể, RPN nhận đầu vào là bản đồđặc trưng sau mạng cơ bản và chạy các cửa sổ trượt 3x3 trên các bản đồ đặc trưng
đó Kết quả đầu ra sẽ được dưa vào 2 nhánh khác nhau, một nhánh thực hiện dựđoán chỉ số đối tượng dùng để xác định liệu có đối tương hay không và nhánh cònlại là hồi quy vị trí các khung bao đối tượng dùng để xác định xem vị trí hồi quy cókhớp với khung bao thực tế hay chưa Do đó RPN giúp Faster RCNN cải thiện độchính xác và tốc độ xử lý cũng như là tránh tạo ra quá nhiều khung bao đối tượng dưthừa ảnh hưởng đến hiệu suất của toàn mạng Vì điều này Faster RCNN giảm được
chi phí tính toán bởi việc chia sẽ được các tính toán giữa các đặc trưng từ các lớp
tích chập Cuối cùng, Faster RCNN được xem là phương pháp tiên tiến về độ chính
xác cũng như cái thiện thời gian xử lý đáng kể so với các phương pháp trước và trở
thành phương pháp phổ biến được các công trình phía sau tham khảo và cải thiệnnhằm đạt được độ chính xác tốt nhất
19
Trang 29CHƯƠNG 2 CƠ SỞ LÝ THUYET
2.3.5 RetinaNet
RetinaNet [6] là mang được sinh ra để giải quyết van đề mắt cân bằng dữ liệu giữa
vùng đối tượng (foreground) và vùng ảnh nên (background) bằng cách đề xuất hàm
độ lỗi mới có tên là Focal Loss Các thành phan chính của kiến thúc mạng RetinaNetHình với thiết kế mạng này RetinaNet được xếp vào các phương pháp | giaiđoạn Vấn đề mắt cân bằng dữ liệu giữa vùng đối tượng và ảnh nền xảy ra hầu hết ởcác phương pháp phát hiện đối tượng, ví dụ như SSD [1 I] tạo ra khoảng 101 — 10° vị
trí ứng viên trên mỗi ảnh nhưng chỉ phần nhỏ trong số đó chứa đối tượng Việc nàygây ra 2 vấn đề chính cho bộ phát hiện như hiệu xuất huấn luyện không hiệu quả do.hầu hết các dữ liệu không phù hợp gậy ra hiện tượng dư thừa và cản trợ việc huấn
luyện Cũng đã có nhiều công trình đề xuất để giải quyết vấn để này như khai thác
|
quá trình huấn luyện và khai thác chúng Ngược lại, hàm độ lỗi Focal Loss mới có
dữ liệu khó (hard negative mining) [11 , các mô hình này tạo ra dữ liệu khó trong
khả năng giải quyết vấn đề mất cân bằng này và cho phép mô hình huấn luyện một
cách hiệu quả mà không phải tạo ra dữ liệu mới.
Ngoài việc đề xuất hàm độ lỗi mới thì kiến trúc mạng của RetinaNet cũng đóngvai trò trong việc cải thiện hiệu suất phát hiện đối tượng Như trong hình kiến trúcmạng của RetinaNet thì RetinaNet thiết kế với FPN là mạng cơ bản được đặt sauResNet và cuối cùng 2 mạng con là class subnet và box subnet Mạng cơ bản cótrách nhiệm tính toán các bản đồ đặc trưng sử dụng các cửa sổ tích chạp trên toàn bộảnh Việc đặt FPN sau ResNet, tác giả muốn FPN tạo ra nhiều đặc trưng phân tầngvới ngữ nghĩa cao ở mức độ đa tỉ lệ Mạng con thứ nhất thực hiện việc phân lớp đốitượng dựa trên kết quả đầu ra của mạng cơ bản, mạng con thứ 2 thực hiện việc hồi
quy vị trí tọa độ các khung bao đối tượng Cả 2 mạng con kết hợp lại tạo ra một thiết
kế đơn giảng cho một kiến trúc mang | giai đoạn như RetinaNet
2.3.6 You only look once (YOLO)
Kế thừa những cải tiến từ các phương pháp đã được giới thiệu trước đó, YOLOđược xem là phương pháp phát hiện đối tượng tiên tiến đầu tiên về tốc độ xử lýnhưng vẫn cân bằng được độ chính xác cho đến thời gian hiện tại YOLO chính thức
Trang 302.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG
Hình 2.5 Kiến trúc mạng của RetinaNet RetinaNet sử dụng FPN làm mạng cơ bản
nằm sau kiến trúc ResNet để tạo ra đặc trưng phân tầng với ngữ nghĩa cao ở mức độ
da ti lệ Đồng thời cuối mạng RetinaNet đính kèm 2 mạng con, môt mạng cho việcphân lớp khung bao đối tượng (mạng ở trên) và một mạng cho việc hồi quy vị trítọa độ các khung bao dựa trên các khung bao đối tượng đã được gán nhãn (mạng ở
Conv Layer Conv Layer Conv: Layers Comeoyem Conv Layers Conv Layers Conn Layer Conn Layer
TaTxbhe2 3x3x192 1xIx128 Tx2561/4 IxIxối2 Yep 3x3x1024
‘Moxpool Layer Moxpool Layer 3x3x256 3x30512 3x3x1024 Ì ” 3xaxl024
2232 2232 113256 1xIx512 3x3x1024
353x512 3x3x1024 — 3x3x1024+2
Moxeool Layer Moxpool Layer
nde? 2x2x2
Hình 2.6 Kiến trúc mạng của phiên bản YOLOvI
có 4 phiên bản đã được công bố thông qua các công trình nghiên cứu với tên gọi
, YOLOv2 [8Ì,
YOLOv3 ID và YOLOv4 [10] 3 phiên bản đầu được tác giả J.Redmon cùng cộng
tắt lần lượt dựa trên thứ tự của phiên bản đó bao gôm YOLOv1
sự nghiên cứu và phát triển, riêng phiên bản YOLOv4 là do A.Bochkovskiy và cộng
sự dựa trên 3 phiên bản trước rồi cải tiến Sau đây học viên trình bày phần nội dungtóm tắt của từng phiên bản:
YOLOvI là phiên bản đầu tiên và được cộng đồng biết đến với tên gọi tắt làYOLO YOLO có kiến trúc mạng thống nhất và là phương pháp một giai đoạn, kiếntrúc mang của YOLO được trình bày như trong Hình|2.6| Tại thời điểm ra mắt YOLO
là phương pháp đề xuất cách tiếp cận hoàn toàn mới dựa trên ý tưởng là thay vì giải
21
Trang 31CHƯƠNG 2 CƠ SỞ LÝ THUYET
quyết bài toán phát hiện đối tượng như các công trình trước đó như (Bi bằng cách
sử dụng cửa sổ trượt để trượt trên toàn bộ ảnh va sau đó cung cấp kết quả dau ra cho
bộ phân loại để thực hiện việc định vị đặc trưng các đối tượng ở vị trí cách đều nhau
trên toàn bộ hình ảnh hoặc sử dụng vùng đề xuất đối tượng để tạo các khung baođối tượng có thể chứa các đối tượng và sau đó cung cấp chúng vào mạng nơron tíchchập, YOLO xem bài toán phát hiện đối tượng như là bài toán hồi quy song songthực hiện việc dự đoán tọa độ vị trí các đối tượng và xác xuất mà các vị trí này chứađối tượng thuộc lớp đối tượng nào Ý tưởng chính của YOLO đó là chia ảnh đầu vàothành lưới như là một dạng chia để trị thay vì phải xét toàn bộ ảnh và đây là yếu tốchính giúp YOLO cải thiện tốc độ xử lý nhanh hơn so với các phương pháp trước
đó mà vẫn đạt được độ chính xác cao trong việc phát hiện đối tượng Do thực hiện
việc chia lưới và thực hiện 2 công việc song song cho nên mỗi ô lưới sẽ có 2 câu hỏi
cần trả lời là đối tượng có nằm trong ô lưới hay không và đó là loại đối tượng nào.
Tóm lại, YOLO bao gồm 3 bước thực hiện chính để giải quyết bài toán phát hiện đối
tượng Đầu tiên, YOLO chia lưới ảnh đầu vào với kích thước cố định, sau đó thựchiện các phép tích chập trên ảnh đầu vào với mạng thiết kế thống nhất, cuối cùng sửdụng 1 ngưỡng chung để đưa ra kết quả phát hiện và độ tin cậy của các kết quả đó.YOLO xử lý 45 FPS với GPU và phiên bản nhỏ hơn thì có thể là 150 FPS Với tốc
độ xử lý như thế YOLO có thể xử lý với các video trực tiếp Mặc dù thiết kế mạngcủa YOLO với việc nhận kích thước ảnh đầu vào với độ phân giải cố định từ thấpđến cao làm ảnh hưởng đến kết quả xử lý theo thời gian thực và độ chính xác nhưng
YOLO vẫn giữ được độ chính xác trung bình cao
Kiến trúc mang YOLO khi nhận ảnh với kích thước cố định là dữ liệu đầu vào sẽ
chia ảnh thành lưới 9 x 5, với điều kiện là S x bằng với chiều dài và chiều rộng củavectơ biểu diễn kết quả dự đoán cuối cùng Trong trường hợp tâm của đối tượng nằmtrong 1 ô lưới thi ô lưới đó chịu trách nghiệm phát hiện đối tượng đó Hơn thế như
đã nói ở trên mỗi ô lưới song song thực hiện 2 công việc là dự đoán khung bao đốitượng và chỉ số tin cậy thể hiện độ tin cậy mà mô hình dư đoán cho rằng khung bao.đối tượng đó có chứa đối tượng loại nào, cũng như là độ chính xác về vị trí khungbao đối tượng đó so với khung bao đối tượng được gán nhãn Điểm yếu của YOLO
là không phải mô hình tiên tiến về độ chính xác tuy nhiên YOLO có khả năng xử
Trang 322.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG
YOLO YOLOv2 batch norm? v v v hi-res classifier? v
Hình 2.7 mAP of YOLOv2 với mỗi phan cải tiến được thêm vào mô hình (3)
lý dữ liệu theo thời gian thực va đưa ra số lượng dự đoán sai của ảnh nền thấp hơnnhiều so với Faster RCNN Phương pháp YOLO có độ tổng quát cao, do đó nhanhchóng dự đoán được đối tượng có trong ảnh tuy nhiên gặp khó khăn khi đưa ra vị trí
chính xác của đối tượng đặc biệt là đối tượng có kích thước nhỏ Đây là một trong
các lý do mà tác giả chính cải thiện YOLO để cho ra phiên bản thứ 2 là YOLOv2
YOLOv2 [8Ì có nhiều hoàn thiện đáng kể so với phiên bản đầu tiên Giống nhưYOLOv1, YOLOv2 vẫn nhận dữ liệu đầu vào là ảnh với kích thước cố định nhưng
có nhiều phương pháp huấn luyện mới được tích hợp như chuẩn hóa dữ liệu hàngloạt (batch normalization), huấn luyện đa tỉ lệ kích thước ảnh với độ phân giải caohơn, dự đoán kết quả phát hiện cuối cùng trên không gian có kích thước cao hơn,
sử dụng các khung bao đối tượng mặc định thay vì chỉ dựa trên các lớp kết nối đầy
đủ Để lựa chọn số lượng và kích thước khung bao đối tượng mặc định hợp lý thì
K-Means là thuật toán được chọn như là 1 thuật toán cơ sở Tuy nhiên, việc thay
đổi này ảnh hưởng đến sự đánh đổi giữa tốc độ và độc chính xác, chỉ tiết về độ hoàn
thiện độ chính xác dựa trên PASCAL VOC 2007 được thể hiện trong Hình 2.7]
Những phần cải tiền mới này cho phép YOLOv2 huấn luyện với các tập dữ liệu
đa lớp đối tượng như COCO và đạt được độ chính xác cao Bên cạnh đó YOLOv2cũng cho ra phiên bản YOLO9000 với hiệu suất có thể phát hiện 9000 lớp đối tượngkhác nhau YOLOv2 sử dụng kiến trúc mạng được tinh chỉnh từ phiên bản gốc đầutiên YOLOv2 chủ yếu tập trung vào cải thiện độ phủ của mô hình và khả năng định
vị đối tượng mà vẫn đạt được độ chính xác cao với việc phân lớp đối tượng so với
23
Trang 33CHƯƠNG 2 CƠ SỞ LÝ THUYET
Type Filters Size Output Convolutional 32 3x3 256 x 256 Convolutional 64 3x3/2 128 x 128
4x| Convolutional 1024 3 x3
Residual 8x8Avgpool Global
Connected 1000
Softmax
Hình 2.8 Kiến trúc mang Darknet-53 (9)
các bộ phát hiện đối tượng hiện đại khác Bản chất kiến trúc mang của YOLO gây
ra nhiều lỗi về định vị đối tượng hơn nhưng ít có khả năng dự đoán các phát hiện sai
6 những nơi không có đối tượng nào xuất hiện Mặc dù YOLOv2 cải thiện được độchính xác nhưng vẫn gặp van dé trong việc phát hiện các đối tượng nhỏ bởi vì dữ liệuđầu vào được giảm độ phân giải dẫn đến kích thước thấp của các bản đồ đặc trưng
được sử dụng cho dữ đoán kết quả cuối cùng Đề giải quyết vấn dé này YOLOv3 [9]
ra đời với nhiều cải thiện đáng kể cho bài toán phát hiện đối tượng đặc biệt là đốitượng nhỏ Một cách tổng quát thì các mô hình mạng sau này có xu hướng về kiếntrúc mạng sâu hơn và đạt nhiều kết quả trên nhiều bài toán khác nhau với các đặc
trưng được học từ các lớp mạng khác nhau.
YOLOv3 9 là phương pháp thuộc xu hướng này, thay vì tiếp tục phát triển dựa
trên kiến truc mạng của 2 phiên bản trước là Darknet-19, YOLOv3 phát triển mộtkiến trúc mạng sâu hơn với 53 lớp tích chập được gọi là Darknet-53 Kiến trúc mạng
Darknet-53 được mô tả trong Hình|2.8| Bên cạnh đó, YOLOv3 được tích hợp nhiều
kỹ thuật tiên tiến hiện này như sử dụng các khối bổ sung (residual blocks), giảm liên