1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Phát hiện đối tượng nhỏ trong ảnh sử dụng phương pháp học sâu

66 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện đối tượng nhỏ trong ảnh sử dụng các phương pháp học sâu
Tác giả Nguyễn Nhật Duy
Người hướng dẫn TS. Ngô Đức Thành
Trường học Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 66
Dung lượng 35,11 MB

Nội dung

Ở đây đối tượng nhỏ có nghĩa là các đối tượng mà có kích thước vật lý lớn nhưng chỉ được thể hiện bằng [18] hoặc các đối tượng thực sự có kích thước nhỏ [19] được minh họa trong ảnh[T.T|

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THONG TIN

HEL,

NGUYEN NHAT DUY

PHAT HIEN DOI TUGNG NHO TRONG ANH

SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC SAU

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

MÃ SỐ: 8480101

Trang 2

NGUYEN NHAT DUY

PHAT HIỆN ĐỐI TƯỢNG NHỎ TRONG ANH

SỬ DỤNG CÁC PHƯƠNG PHÁP HỌC SÂU

LUẬN VĂN THẠC SĨNGÀNH KHOA HỌC MÁY TÍNH

MÃ SỐ: 8480101

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS NGÔ ĐỨC THÀNH

TP HỒ CHÍ MINH - NĂM 2021

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực

tiếp của TS Ngô Đức Thành

Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên côngtrình, và thời gian công bố

Moi sao chép không hợp lệ và vi phạm quy chế đào tạo tôi xin chịu hoàn toàn

trách nhiệm.

Thành phó Hồ Chí Minh, tháng 07 năm 2021

Học viên

Nguyễn Nhật Duy

Trang 4

LỜI CẮM ƠN

Đầu tiên, học viên xin gửi lời cảm ơn chân thành đến TS Ngô Đức Thành, thầy

đã truyền cảm hứng giúp học viên có được định hướng trong con đường học thuật

và nghiên cứu khoa học Thầy đã rèn luyện cho học viên các kỹ năng nghiên cứukhoa học độc lập như đọc hiểu báo cáo khoa học, viết báo cáo khoa học, và kỹ năngphản biện báo cáo khoa học Thầy đã tạo mọi điều kiện tốt nhất cho học viên trongquá trình thực hiện luận văn cũng như công việc nghiên cứu khoa của học viên trong

tương lai.

Trong quá trình học tập tại Trường Đại học Công nghệ Thông tin - Đại học Quốc

gia Thành phố Hồ Chí Minh, học viên đã tiếp nhận các kiến thức quan trọng dưới sựhướng dẫn của các thầy cô tại trường trong suốt hai năm học cao học Học viên xingửi lời cảm ơn chân thành nhất đến quý thầy cô

Học viên xin gửi lời cảm ơn chân thành đến quý thầy cô phản biện khoa học bởi

vì những góp ý quan trọng của quý thầy cô giúp luận văn này trở nên tốt hơn

Học viên cũng xin được gửi lời cảm ơn đến các thầy cô, anh chị đang công táctại Phòng Thí nghiệm Truyền thông Đa phương tiện - Trường Đại học Công nghệThông tin đã có những góp ý đến tôi trong quá trình thực hiện luận văn

Cuối cùng, học viên muốn gửi lời cảm ơn chân thành nhất đến đắng sinh thành.Cảm ơn bố mẹ đã luôn đi tạo động lực thúc đẩy tinh than của học viên, luôn ủng hộ

con đường mà học viên đã chọn.

Trong quá trình thực hiện luận văn, dù có hoàn chỉnh đến đâu, học viên cũng

không thể tránh những thiếu sót và hạn chế Học viên mong nhận được sự phản hồi

và góp ý quý báu đến từ quý thầy cô Một lần nữa, tôi xin chân thành cảm ơn

Thành phó Hồ Chí Minh, tháng 07 năm 2021

Học viên Nguyễn Nhật Duy

ii

Trang 5

MỤC LỤC

ời cam đoan] i

ời cảm ơi ii

lục lục| iii

IDanh mục các bảng| Y

[Danh mục các hình vẽ và đô thị| vi

Chương 1Iổng quan) 1

11 Dit van dg co 1

12 Mục tiêu và phạm vi nghiên cứu| 5

1.2.1 Mục têu⁄⁄⁄ ag RM ee 5 1.2.2 Phạm vinghiéncitu] 5

1.3 Ý nghĩa thực tiễn và ý nghĩa khoahọc| - 6

1.3.1 Ý nghĩa thực tin| - 6

13.2 Y nghĩa khoahoc| - 6

1⁄4 Các đóng góp chính của luận van] 2 “ 7

1.5 Câu trúc HH HH NBNE”.” 8

Chương 2£6 sở lý thuyêt| 9 2.1 Thách thức bài toàn phát hiện đôi tượng nhỏ| 9

2.1.1 Thểhiệnnhỏ| - 9

2.1.2 Các khái niệm về doi tượng có kích thước nhỏ| 10

2.2 Tập dữ liệu và các hướng tiếp cận| - 11

Các mô hình học sâu cho bài toán phát hiện doi tượng| 13

RCNN] 14

2.3.2 _ Mạng chiét xuat phân tan không gian (Spatial Pyramid Pooling-SPP eee eee ee 16 2.3.3 FastRCNN| 17

2.3.4 FaserRCNN| 18

Trang 6

MỤC LỤC

2.3.5 RetinaNel

2.3.6 You only look once (YOLO)]

[2.3.7 Single Shot MultiBox Detector (SSD)|

2.3.8 Một so hạn chế của mang tích chập đôi với đôi tượng nhỏi

Chương 3Panh giá thực nghiém|

3.1 Thiét lập thực nghiém|

(Chương 4Két quả thực nghiệm và phân tích

3.1.1 Tập dữ liệu tổng hợp cho bài toán phát hiện đối tượng nhỏ|_

4.1 Độ chính xác

4.1.1 Tập dữ liệu Small Object Dataset]

1.1.1 Tập dữ liệu MmiVOC|

4.1.1.2 Thời gian xử lý và tài nguyên sử dụng|

4.1.1.3 Một số phân tích đánh đổi giữa các mô hinh]

Chương 5.Kết luận và hướng phát triển)

[Tai liệu tham khao|

3 32 35

Trang 7

DANH MỤC CÁC BANG

3.1 Thông tin về tập dữ liệu do học viên tạo ra từ các khái niệm đôi tượng.

nhỏ Tập dữ liệu này gôm 4 tập dữ liệu con| 33

3.2 Bảng chỉ tiết về tham số thiết lập mặc định của các mô hình huan luyện.| 34

4.1 Ket quả đánh giá thực nghiệm trên tập Small Object Dataset| 38

4.2 Bảng ket quả thực nghiệm phát hiện đôi tượng kích thước nhỏ trên

tap Small Object Dataset| - 42

4.3 Bảng thông tin so sánh về thời gian kiểm thử, tài nguyên sử dung

trong quá trình kiểm thử và huấn luyện (RAM) cho tập dữ liệu MiniVOC.| 48]

4.4 Bảng kết quả so sánh thực nghiệm trên miniVOC Bảng kết quả cho

thay mức độ ảnh hưởng của tỉ lệ doi tượng khác nhau lên các mô

hình Màu xanh đại diện cho kết quả tốt nhất đôi với các mô hình |

giải đoán và màu đỏ thể hiện kết quả tốt nhất cho các phương pháp 2

50

Trang 8

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

1.1 Ảnh (a) thể hiện cho các đối tượng có kích thước lớn nhưng chỉ được

thể hiện một phần nhỏ trong ảnh như xe buýt, máy bay hoặc xe hơi

{7 Ảnh (b) gồm những đối tượng thực sự có kích thước vat lý nhỏ

{TT hư chuột mặy tính đĩa ãn[Ï9Ï] 3

Bal Tổng quan vẻ kiến nức mạng RCNN] 15

2.2 Kiên trúc mạng sử dung mạng chiết xuat phân tan không gian SPP} 17

2.3 Kiến trúc mạng của FastRCNN| 18

2.4 Kiến trúc mạng của Faster RCNN| 19

2.5_ Kiên trúc mang của RetinaNet RetinaNet sử dụng FPN làm mang

cơ bản nằm sau kiến trúc ResNet để tạo ra đặc trưng phân tang với

ngữ nghĩa cao ở mức độ da ti lệ Đông thời cudi mạng RetinaNet

đính kèm 2 mạng con, môt mạng cho việc phân lớp khung bao đôi

tượng (mạng ở trên) và một mạng cho việc hôi quy vị trí tọa độ các

khung bao dựa trên các khung bao đôi tượng đã được gán nhãn (mạng ddướ) ay lợn @0Ẻ / 21

2.6 Kiên trúc mạng của phiên bản YOLOvI.| 21

2.7_ mAP of YOLOv2 với mỗi phan cải tiên được thêm vào mô hình [8 2

2.8 Kiên trúc mạng Darknet-53 [9|| 24

2.9 Vị trí các khung bao mặt định với nhiều t lệ khác nhau| 29

4.1 Ví dụ minh họa kêt qua phát hiện đôi tượng với các mạng cơ bản có.

hiệu suất cao trên các tập dữ liệu của miniVOC gồm VOC_MRA_0.58,

VOC_MRA_10, VOC_MRA_20 và VOC_WH_20.|

vi

Trang 9

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

4.2 Kết quả thực nghiệm doi với các mạng cơ bản khác nhau trên tap

Small Object Dataset Học viên ở đây chọn YOLO với Darknet-53

và ResNet-50 để so sánh bởi vì 2 mạng này gần như có lớp lớp bằng

nhau và được tích hợp các kỹ thuật tiên tiên giỗng nhau như kết nôi chọn lọc, khôi residual Khung bao đôi tượng cho thây ResNet-50

nhạy hơn so với Darknet-53 với những đối tượng gần giông nhau.

Một cách tương tự, ResNet-50-EPN và ResNet-50-C4 được chọn Ket

quả phát hiện cho thây việc kết hợp ResNet-50 với FPN cho kết quảtốt hơn so với bản gốc Cụ thể, các kết quả phát hiện bị bỏ xótc của

ResNet-50-C4 xảy ra với mật độ day hơn so với ResNet-50-FPN như.

cột 4 và 5 Vui lòng phóng to ảnh để xem |

Trang 10

Chương 1 TỔNG QUAN

1.1 Đặt vấn đề

Phat hiện đối tượng (object detection) được biết đến là bài toán xác định vị trí củacác đối tượng quan tâm (objects of interest) xuất hiện trong dữ liệu đầu vào (ảnh

hoặc video) được thể hiện bằng các khung bao đối tượng (bounding box) và nhãn

đối tượng (caterogy) cho các khung bao đối tượng đó Để thực hiện bài toán này đã

có nhiều phương pháp được đề xuất từ các hướng tiếp cận truyền thống cho đến cáchướng tiếp cận hiện đại dựa trên các mô hình học sâu (deep learning) Trong đó,hướng tiếp cận học sâu hiện là hướng tiếp cận tiên tiến được sử dụng phổ biến vàmang lại hiệu suất cao Các phương pháp phát hiện đối tượng dựa trên hướng tiếpcận học sâu chủ yếu được chia thành hai hướng tiếp cận chính bao gồm: (1) hướngtiếp cận dựa trên các vùng đề xuất đối tượng (object proposal) và được biết đến là

các phương pháp hai giai đoạn (two-stage approach) fi Bị 5]: (2) hướng tiếp

cận không sử dụng các vùng đề xuất đối tượng (free proposal) và có tên gọi khác là

các phương pháp một giai đoạn (one-stage approach) {6} [7| [8} 9} [T0 (TT) [12] [13]

Một cách cụ thể, các phương pháp một giai đoạn thường xem bài toán phát hiện

đối tượng như là bài toán hồi quy và sử các khung bao đối tượng mặc định (defaultbox) hoặc chia lưới ảnh (grid view) thay vì phải dựa trên các vùng đề xuất đối tượng

từ các thuật toán hỗ trợ bên ngoài [14] Với cách tiếp này thì các phương pháp

một giai đoạn thường đạt được tốc độ xử lý cao theo thời gian thực nhưng đánh đổilại độ chính xác thấp hơn so với phương pháp khác Trong khi đó, các phương pháptrong hướng tiếp cận hai giai đoạn thì đa phần sử dụng thuật toán đề xuất các vùngđối tượng sau đó sử dụng các ứng viên này để đưa vào mạng cùng với dữ liệu đầuvào Với cách tiếp cận này mặc dù đạt hiệu suất cao trong độ chính xác nhưng đánhđổi lại là tốc độ xử lý chậm ngược lại so với các phương pháp một giai đoạn Hiện tại

các ứng dụng phát hiện đối tượng xử lý theo thời gian thực thu hút sự quan tâm của

nhiều người dùng vì đáp ứng các nhu câu thực tiễn và hỗ trợ họ trong các công việchằng ngày Trong đó, xe tự lái là ví dụ nổi bật trong việc song song giúp cho xe di

chuyển an toàn trên đường và giảm tỉ lệ tai nạn giao thông do sự sao nhãn của người

cầm lái Một ứng dụng khác như trong ngành công nghiệp sản xuất thì nhu cầu phát

Trang 11

CHƯƠNG 1 TONG QUAN

hiện các bộ phận lắp ráp bị lỗi hoặc có sự bat thường về bề ngoài, kích thước va có

sự biến dạng hoặc hình dạng bên ngoài bị thay đổi đáng kể trong quá trình lắp ráp

Qua các yêu tố vừa được trình bày thì cho thấy bài toán phát hiện đối tượng theo.thời gian thực là bài toán thu hút nhiều sự quan tâm trong cộng đồng và được ápdụng nhiều trong các ứng dụng dựa trên thông tin thị giác Tuy nhiên, các ứng dụngnày yêu cầu phải phát hiện đối tượng sớm để phục vụ cho các tác vụ xử lý phía sau

[16] Bởi vì điều này cho nên thông tin thi giác để thể hiện sự hiện diện của các

đối tượng thường có kích thước nhỏ Nói cách khác, khi có dữ liệu đầu vào, mục tiêucủa phát hiện đối tượng nhỏ là phải phát hiện các đối tượng quan tâm có khả năngxuất hiện trong ảnh đặc biệt là các đối tượng có kích thước nhỏ Ở đây đối tượng nhỏ

có nghĩa là các đối tượng mà có kích thước vật lý lớn nhưng chỉ được thể hiện bằng

[18] hoặc các đối tượng

thực sự có kích thước nhỏ [19] được minh họa trong ảnh[T.T|

các vùng nhỏ trong ảnh như máy bay, xe buýt, xe hơi

Do đó, phát hiện đối tượng kích thước nhỏ được xem là bài toán thách thức trongthị giác máy tính bởi vì ngoài van đề các đối tượng được biểu diễn với kích thướcnhỏ trong dữ liệu ảnh mà còn vì sự da dạng về kích thước ảnh Lý do là một timảnh có thể được thể hiện ở nhiều độ phân giải khác nhau, nếu ảnh có độ phân giảithấp thì có thể là một khó khăn cho các bộ phát hiện đối tượng để phát hiện các đối

tượng có kích thước nhỏ Trong trường hợp này, thông tin thị giác dùng để thể hiện

vị trí của đối tượng sẽ bị giới hạn một cách đáng kể Bên cạnh đó, các đối tượng cókích thước nhỏ có thể bị chia thành nhiều phần do bị che khuất bởi các đối tượngkhác hoặc thể hiện bên ngoài của đối tượng nhỏ có khả năng giống với các đối tượng

nhiễu khác, đặc biệt khi xuất hiện trong ngữ cảnh ảnh nền phức tạp Như đã đề cập

ở trên, hiện tại đã có nhiều phương pháp được dé xuất trong những năm qua từ sự

phát triển của các mô hình học sâu Nhiéu ý tưởng đã được triển khai và các đánh

giá đi kèm cũng đã được thực hiện để cho thấy khả năng giải quyết các thách thứcđối với bài toán phát hiện đối tượng, tuy nhiên các phương pháp dé xuất da phan tậptrung vào các đối tượng có kích thước lớn hoặc trung bình và chưa thực sự tập trungvào đối tượng có kích thước nhỏ Do đó, việc cung cấp các thông tin đánh giá trên

Trang 13

CHƯƠNG 1 TONG QUAN

hiện đối tượng có kích nhỏ dựa trên các phương pháp học sâu hiện tai là cần thiết

Ngày nay, các phương pháp phát hiện đối tượng dựa trên mạng học sâu đang đạt

hiệu suất cao trên các tập dữ liệu thách thức và có sự đa dạng về số lượng lớp đốitượng như PASCAL VOC và COCO Các phương pháp hiện đại này đầu tiên đượchuấn luyện trên tập dữ liệu lớn như ImageNet và được chuyển tiếp huấn luyện với cáctập dữ liệu phát hiện đối tượng Ví dụ công trình [2], tác giả sử dung kiến trúc mạng

dé xuất ứng dụng lớp chiết xuất đặc trưng phân tang không gian (spatial pyramidpooling layer) để rút trích đặc trưng và tính toán các đặc trưng này lần lượt trên toànảnh đầu vào với bất kỳ độ phân giải thay vì phải sử dụng các mô hình dựa trên thành

phần đối tượng [20] R-CNN (l được xem là công trình nổi bật trong bài toán phát

hiện đối tượng và có nhiều cải tiến so với các phương pháp tiếp cận trước đó Ảnh

đầu vào được thay đổi về kích thước cố định sau đó đưa vào mạng và áp dụng thêm

một thuật toán bên ngoài để tạo ra các vùng đề xuất đối tượng Được hoàn thiện

từ (i) Fast R-CNN [2] áp dung các vùng quan tam (regions of interest-Rols) để rút

trích đặc trưng với độ dài cố định từ các bản đồ đặc trưng cho mỗi vung dé xuất.Faster R-CNN [3| sử dụng kiến trúc mạng dược đề xuất riêng để tạo ra các vùng déxuất đối tượng thay vì áp dụng thuật toán bên ngoài

Cho đến hiện tại hầu hết các mô hình phát hiện đối tượng hoạt động tốt với các

tập dữ liệu thách thức như COCO và PASCAL VOC Tuy nhiên các đánh giá này đa

phần dựa trên hiệu suất phát hiện các đối tượng lớn hoặc trung bình và chưa thực

sự tập trung vào đối tượng có kích nhỏ Bên cạnh đó, các tập dữ liệu này đa phầnchứa các đối tượng lớn và trung bình nhiều hơn so với đối tượng nhỏ Việc này tạo

ra sự mat cân bằng dữ liệu giữa các đối tượng ở các kích thước khác nhau và dẫn đến

việc các mô hình có xu hướng phát hiện đối tượng các số lượng mẫu lớn trong tập

dữ liệu Thêm vào đó số lượng lớp đối tượng hiện tại của các tập dữ liệu cho các đốitượng nhỏ còn hạn chế so với các tập dữ liệu phổ thông Ngoài ra, hầu hết các bộphát hiện tiên tiến kể cả các phương pháp một giai đoạn hay hai giai đoạn đa phangặp vấn đề liên quan đến phát hiện đối tượng nhỏ

Trang 14

1.2 MỤC TIÊU VÀ PHAM VI NGHIÊN CUU

1.2 Mục tiêu và phạm vi nghiên cứu

1.21 Mục tiêu

Với nội dụng đã trình bày ở trên, để có cái nhìn tổng quan hơn về hiệu suất của cácphương pháp tiên tiến cho bài toán phát hiện đối tượng, đặc biệt là đối tượng nhỏ,trong luận văn nay, học viên /hực hiện đánh gid các mô hình tiên tiến được sử dụngphổ biến hiện tại dựa trên mạng học sâu như là các mô hình phát hiện cơ bản chobài toán phát hiện đối tượng có kích thước nhỏ Mô hình cơ bản phát hiện đối tượngtrong ngữ cảnh luận văn này có nghĩa là các mô hình mà được các phương pháp tiêntiến hiện nay chọn làm phương pháp cơ sở để cải tiến và phát triển Các mục tiêu cụ

thể được trình bày như sau:

+ Tìm hiểu và nghiên cứu các phương pháp học sâu, tập trung vào các phương

pháp được sử dụng phổ biến như các phương pháp phát hiện cơ bản cho bàitoán phát hiện đối tượng, đặc biệt là đối tượng có kích thước nhỏ

* Tìm hiểu và nghiên cứu về các tập dữ liệu hiện tại cho bài toán phát hiện đốitượng có kích thước nhỏ.

5 Xây dựng tập dữ liệu phục vụ cho việc đánh giá các mô hình học sâu cho bài

toán phát hiện đối tượng nhỏ

* Thực hiện đánh giá, phân tích các mô hình học sâu phổ biến thường được sửdụng là mạng phát hiện đối tượng cơ bản đã khảo sát cho bài toán phát hiệnđối tượng nhỏ với 3 yếu tố là thời gian thực thi, tài nguyên sử dụng và độ chínhxác cũng như là sự ảnh hưởng của việc kết hợp các mô hình phát hiện với các

mạng rút trích đặc trưng khác nhau.

1.2.2 Pham vi nghiên cứu

Trong phạm vi dé tài luận văn, học viên :hực hiện đánh giá các mô hình phát hiện

đối tượng tiên tiến dựa trên mang học sâu mà thường được sử dụng như là mô hình

co bản để phát triển cho các công trình tiên tiến hiện nay bao gồm You Only Look

Once (YOLO) [10] Single Shot MultiBox Detector (SSD) [TT], RetinaNet [6]

Trang 15

CHƯƠNG 1 TONG QUAN

Fast RCNN [2], Faster RCNN [3], Mask RCNN [4] trên ba yếu tố: độ chính xác, tài

nguyên sử dụng và thời gian xử lý Các mô hình được đánh giá trên 2 tập dữ liệu

và (2)

tập dữ liệu do học viên tổng ho được lọc ra từ PASCAL VOC [17] dựa trên các định

cho bài toán phát hiện đối tượng có kích thước nhỏ: (1) tập dữ liệu chuẩn

nghĩa về đối tượng có kích thước nhỏ [(19||21| 22] có tên là miniVOC

1.3 Ý nghĩa thực tiễn và ý nghĩa khoa học

13.1 Ý nghĩa thực tiễn

'Việc cung cấp số liệu đánh giá, so sánh giữa các mô hình học sâu tiên tiến mà thườngđược sử dụng là các mạng cơ bản để phát triển cho các công trình tiên tiền hiện naycho bài toán phát hiện đối tượng nhỏ sẽ là nền tảng để phát triển các bài toán khác

mà sử dụng kết quả của bài toàn phát hiện đối tượng làm dữ liệu đầu vào như pháthiện đối tượng sử dụng hướng tiếp cận học dựa trên ít dữ liệu (Few-shot ObjectDetection), phát hiện đối tượng dựa trên sự không chắc chắn (Uncertainty basedObject Detection), phát hiện đối tượng dựa trên mô hình tạo dữ liệu (GenerativeModels for Object Detection), v.v Bên cạnh đó, dựa vào kết quả đánh giá, các nhàphát triển ứng dụng có cái nhìn tổng quan về ngữ cảnh hoạt động hiệu quả của các

mô hình phát hiện từ đó đưa ra được sự lựa chọn thích hợp cho các ngữ cảnh, môi

trường khác nhau Trong phạm vi luận văn của học viên thì bài toán phát hiện đốitượng nhỏ có quan tâm đến việc gan nhãn dữ liệu tức phân lớp đối tượng cụ thể chocác khung bao đối tượng Bài toán này có thể ứng dụng trong một số ngữ cảnh như

sau: sử dụng máy bay không người lái như drone để phát hiện người ra ngoài nơi cư

trú trong giờ giới nghiêm hoặc trong lệnh hạn chế ra đường như trong thời gian dịch

bệnh.

1.3.2 Ý nghĩa khoa học

Về mặt ý nghĩa khoa học, luận văn có một số đóng góp như sau:

+ Tổng hợp tình hình nghiên cứu về bài toán phát hiện đối tượng đặc biệt là đối

Trang 16

1.4 CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN

+ Tổng hợp tình hình nghiên cứu về các tập dữ liệu hiện tại cho bài toán phát

hiện đối tượng có kích thước nhỏ

* Cung cấp tập dữ liệu đánh giá cho bài toán phát hiện đối tượng có kích thước

nhỏ.

* Cung cấp số liệu đánh giá, phân tích các mô hình học sâu đã khảo sát cho baitoán phát hiện đối tượng nhỏ với 3 yếu tố là thời gian thực thi, tài nguyên sửdụng và độ chính xác cũng như là sự ảnh hưởng của việc kết hợp các mô hình

phát hiện với các mạng rút trích đặc trưng khác nhau.

* Từ việc so sánh các hướng tiếp cận, học viên đưa ra các thảo luận cho hướngphát triển tiếp theo

1.4 Các đóng góp chính của luận văn

Các đóng góp chính của luận văn như sau:

+ Hệ thống lại các kiến thức nổi bật của các công trình liên quan đến bài toán

phát hiện đối tượng đặc biệt là đối tượng có kích thước nhỏ Chủ yếu tập trung

vào các phương pháp cơ bản được sử dụng phổ biến

* Cung cấp các lại các kiến thức nổi bật và các công trình liên quan đến bài toánphát hiện đối tượng đặc biệt là đối tượng có kích thước nhỏ

* Tổng hợp tình hình nghiên cứu về các tập dữ liệu hiện tại cho bài toán phát

hiện đối tượng có kích thước nhỏ

* Thực hiện đánh giá, phân tích các mô hình học sâu đã khảo sát cho bài toán

phát hiện đối tượng nhỏ với 3 yếu tố là thời gian thực thi, tài nguyên sử dụng

và độ chính xác cũng như là sự ảnh hưởng của việc kết hợp các mô hình phát

hiện với các mạng rút trích đặc trưng khác nhau.

* Từ kết quả nghiên cứu của luận văn học viên đã viết một bài báo khoa học vàđược chấp nhận đăng tại tạp chí Journal of Electrical and Computer Engineer-ing (JECE) 2020 nằm trong danh mục tạp chí uy tín SCOPUS được xếp hang

Trang 17

CHƯƠNG 1 TONG QUAN

Q2 theo Scimag: fl.

1.5 Cấu trúc luận văn

Luận văn “Phát hiện đối tượng nhỏ trong ảnh sử dụng mạng học sâu” được trình bàybao gồm 05 chương Nội dung tóm tắt từng chương được trình bày như sau:

* Chương 1: Tổng quan Bao gồm các nội dung như đặt vấn đề, bối cảnhnghiên cứu, mục tiêu của dé tài, phạm vi nghiên cứu của dé tài và cuối cùng làkết quả đạt được của đề tài

Chương 2: Cơ sở lý thuyết Trình bày các thách thức liên quan đến bài toán

phát hiện đối tượng nhỏ và sau đó là các nghiên cứu liên quan cho bài toán này

Chương 3: Đánh giá thực nghiệm Trình bày các thông tin liên quan việcthiết lập thực nghiệm và các tập dữ liệu được chọn cho việc đánh giá các

phương pháp.

Chương 4: Kết quả thực nghiệm và phân tích Trình bày và phân tích các

kết quả mà học viên đạt được thông qua quá trình thực nghiệm

Chương 5: Kết luận và hướng phát triển Trong chương này, học viên tóm

tắt nội dung đã đạt được và đưa ra hướng phát triển tiếp theo

Íwww scimagojr.com/journalsearch.php?q=21100197510stip=sid

Trang 18

Chương 2 CƠ SỞ LÝ THUYET

Trong chương này, học viên trình bày các thách thức liên quan đến bài toán pháthiện đối tượng nhỏ và sau đó là các nghiên cứu liên quan cho bài toán này

2.1 Thách thức bài toàn phát hiện đối tượng nhỏ

Nhìn chung có rất nhiều vấn đề liên quan đến các thách thức mà bài toàn phát hiệnđối tượng cần phải giải quyết Mặc dù bài toán phát hiện đối tượng từ lâu đã thu hútđược sự quan tâm của nhiều nhà nghiên cứu nhưng sau khoảng thời gian thực hiệnthì các thách thức chỉ mới giải quyết được ở mức độ nhất định Cụ thể, tập dữ liệuCOCO được đánh giá dựa trên 3 tỉ lệ đối tượng là lớn, trung bình và nhỏ từ đó đãtạo ra thách thức về độ chính xác liên quan đến các tỉ lệ khác nhau, đặc biệt là pháthiện đối tượng có kích thước nhỏ Các phương pháp hiện tại chủ yếu đạt được độchính xác cao đối với tỉ lệ đối tượng là lớn và trung bình mà chưa thực sự tập trungvào đối tượng nhỏ Do đó, trong ngữ cảnh phát hiên đối tượng có kích thước nhỏ thìrất khó cho các nhà nghiên cứu bởi vì ngoài các thách thức phổ thông tổn tại trongbài toán phát hiện đối tượng thì họ còn phải giải quyết các thách thức liên quan đếnphát hiện đối tượng có kích thước nhỏ Bên cạnh đó các định nghĩa về đối tượng có

kích thước nhỏ chưa thực sự rõ ràng, việc định nghĩa này phụ thuộc vào tập dữ liệu

cũng như mục đích đề xuất của từng công trình khoa học Phần nội dung được trìnhbày sau đây sẽ làm rõ các vấn đề này

2.11 Thểhiện nhỏ

Thể hiện nhỏ ở đây có thể hiểu là đối tượng quan tâm được biểu diễn trong ảnh với

kích thước nhỏ tức có số lượng điểm ảnh dùng để biểu diễn cho đối tượng là giới hạn

ở một mức độ nhất định Như đã đề cập, bài toán phát hiện đối tượng nhỏ gần đâyđược xem là một van dé thu hút nhiều quan tâm bởi vi bản thân bài toàn này có nhiều

thách thức thú vị với các nhà nghiên cứu và khả năng ứng dụng của bài toán này vào.

thực tiễn Đầu tiên, khả năng xuất hiện của các đối tượng có kích thước nhỏ thì caohơn so với các đối tượng có kích thước khác trong dữ liệu ảnh đầu vào Bat cứ vịtrí nào của ảnh cũng có thể là đối tượng nhỏ bởi vì sự giống nhau về thể hiện bên

Trang 19

CHƯƠNG 2 CƠ SỞ LÝ THUYET

ngoài giữa các đối tượng, thậm chí là giữa đối tượng nhỏ và với ảnh nền Bên cạnh

đó, bởi vì các đối tượng có kích thước nhỏ nên dẫn đến sự thật là các bộ phát hiện

đối tượng gặp khó khăn khi phải xác định vị trí của các đối tượng này giữa nhiều đốitượng khác nằm xung quanh chúng hoặc thậm chí là cùng kích thước và thể hiện bềngoài Điều này thực sư gây ra các khó khăn nhất định khi phải phân biệt các đốitượng có kích thước nhỏ từ ảnh nền có nội dung lộn xộn Bởi các điểm ảnh để théhiện thông tin thị giác cho các đối tượng có kích thước nhỏ thì ít hơn nhiều so vớicác đối tượng có kích thước lớn khác Nói cách khác là sẽ có ít sư thể hiện có nhiều

thông tin hỗ trợ cho các bộ phát hiện thực hiện nhiệm vụ của nó Bên cạnh đó, các

đặc trưng phân biệt thể hiện cho các đối tượng nhỏ trong ảnh thì dễ bị ảnh hưởng,thâm chí là mất dần dần sau khi phải đi qua các lớp của mạng học sâu như lớp tích

chập hoặc lớp chiết xuất đặc trưng Ví dụ, trong VGG16 thì nếu đối tượng quan tâm

được thể hiện bằng 32 x 32 điểm ảnh, nó sẽ có kích thước khoảng 1 điểm ảnh sau khi

đi qua khối chiết xuất thông tin 5 lần Kết quả là việc tìm kiếm vét cạn bằng các cửa

SỐ trượt | hoặc tăng số lượng các khung dé xuất đối tượng như selective search [14] có khả năng là không khả khi để cho ra kết quả tốt Một vài mẫu về đối tượng

có kích thước được trình bày trong Hinh|I.1

2.1.2 Các khái niệm về đối tượng có kích thước nhỏ

Van dé đặt ra đối với bài toán phát hiện đối tượng nhỏ là làm sao xác định như thénào là đối tượng có kích thước nhỏ hoặc số lượng điểm ảnh mà các đối tượng nàyđược thể hiện trong ảnh Việc này gây ra các khó khăn nhất định và sẽ khác nhaukhi chung ta xét chung các đối tượng trên ảnh có độ phân giải cao hoặc độ phân giảithấp Ví dụ, một đối tượng được xem là đối tượng nhỏ bởi vì nó chỉ được thể hiệnbằng một phan ảnh với kích thước 400 x 400 trên ảnh 2048 x 2048 nhưng sẽ là rất

lớn trên ảnh 500 x 500 Do đó, nó gây ra các khó khăn cho các nhà nghiên cứu khi

một tập dữ liệu có nhiều ảnh với các kích thước ảnh đa dạng có độ phân giải chênhlệch lớn Cho đến hiện tại, có một vài định nghĩa về đối tượng có kích thước nhỏ

và các định nghãi này chưa được rõ ràng hoàn toàn Nó phụ thuộc vào tập dữ liệu

mà được sử dụng cho việc đánh giá và đặc trưng thể hiện của các đối tượng đượcquan tâm Do đó để thực hiện việc phát hiện các đối tượng có kích thước nhỏ, các

Trang 20

2.2 TAP DU LIỆU VÀ CÁC HƯỚNG TIẾP CAN

nhà nghiên cứu tự định nghĩa các điều kiện khác nhau cho các tập dữ liệu khác nhauthay vì chỉ dựa trên kích cỡ của các khung bao đối tượng mà chứa các đối tượng để

xác định liệu đối tượng đang xét có kích thước nhỏ hay không Ví dụ, Zhu và cộng

sự [21] cho rằng đối tượng có kích thước nhỏ là các đối tượng mà kích thước của

nó chỉ chiếm 20% diện tích của ảnh khi công bố tập dữ liệu về biển báo giao thông.Nếu biển báo giao thông có kích thước là hình vuông, nó được xem là đối tượng cókích thước nhỏ khi chiều rộng của khung bao đối tượng nhỏ hơn 20% của ảnh vàchiều cao của khung bao đói tượng không quá chiều cao của ảnh Trong công trình22), Torralba và cộng sự cho rằng đối tượng có kích thước nhỏ sẽ chiếm ít hơn hoặc bằng 32 x 32 điểm ảnh Trong tập dữ liệu các đối tượng có kích thước nhỏ [

đối tượng được xem là có kích thước nhỏ khi chúng có tỉ lệ chồng lắp giữa diện tích

khung bao đối tượng của chúng với diện tích của ảnh từ 0.08% tới 0.58%, một cách

tương ứng từ 16 x 16 đến 42 x 42 điểm ảnh trong ảnh VGA Trong luận văn này, họcviên sử dụng lại các định nghĩa về các đối tượng nhỏ đã trình bày, đặc biệt là các

| như là các nguồn tham khảo chính bởi vìđịnh nghĩa từ các công trình |

các định nghĩa này có độ tin cậy cao và được chấp nhận sử dụng một cách rộng rãi

bởi ác nhà nghiên cứu.

2.2 Tập dữ liệu và các hướng tiếp cận

Tại thời điểm học viên thực hiện nghiên cứu này thì có ít công trình tập trung vào

giải quyết các van đề liên quan đến đối tượng có kích thước nhỏ, và điều này dẫn đếnkhó khăn trong việc tiếp cận đến với các kiến thức liên quan để đưa ra một nghiêncứu toàn diện do sự giới hạn của các công trình Các phương pháp tiếp cận trước đóchủ yếu tập trung vào đối tượng có kích thước lớn mà chưa thực sự quan tâm nhiều

sự có mặt của đối tượng có kích thước nhỏ Do đó, hiệu suất hiện tại mà các phươngpháp đã giải quyết các thách thức liên quan đến bài toán phát hiện đối tượng nhỏ

chưa được trình bày một cách rõ ràng Đây là một trong các lý do mà học viên thực

hiện vịiệc đánh giá hiệu xuất của các mô hình phát hiện đối tượng tiên tiến hiện nay

để đưa ra được cái nhìn sơ khởi về khả năng giải quyết thách thức cho bài toán pháthiện đối tượng nhỏ

Trong ngữ cảnh bài toán phát hiện đối tượng có kích thước nhỏ, có vài công trình

11

Trang 21

CHƯƠNG 2 CƠ SỞ LÝ THUYET

liên quan đến bài toán này Cho đến hiện tại, hầu hết các công trình chỉ phát hiện

một loại đối tượng thuộc vào một lớp đồi tượng cu thể như biển báo giao thông [21].phương tiện di chuyển [23| [24] 25] hoặc người di bi Các tập dữ liệu không

phải là các tập dữ liệu mà chứa nhiều đối tượng thuộc nhiều lớp khác nhau trongđời sống Điều này dẫn đến việc thiéu hụt cho việc đánh giá khách quan các hướngtiếp cận để thể hiện khả năng phát hiện các đối tượng khác nhau và có độ đa dạng

về hình dáng bên ngoài Tuy nhiên, Chen cùng cộng sự [19] công bố tập dữ liệudành cho bài toán phát hiện đối tượng nhỏ bằng cách kết hợp tập dữ liệu COCO

va SUN [27], cuối cùng tap dữ liệu dé xuất có chứa 10 lớp phổ biến như “mouse,”

“telephone,” “switch,” “outlet,” “clock,” “tissue box,” “faucet,” “plate,” and “jar”.

Chen cũng tăng cường mô hình RCNN với một số điều chỉnh dé cải thiện hiệu xuất

phát hiện đối tượng nhỏ Theo ý tưởng này, học viên tiến hành khảo sát các tập

dữ liệu hiên tại và học viên thấy rằng PASCAL VOC có điểm chung với COCO và

SUN có chứa các đối tượng có kích thước nhỏ với nhiều lớp đối tượng khác nhau

Vi thé học viên dựa trên các định nghĩa về đối tượng nhỏ hiện tại và phổ biến như

đã trình bày ở trên để lọc ra các đối tượng thỏa mãn điều kiện của các định nghĩa vềđôi tượng nhỏ và tạo nên một tập dữ bao gồm 4 tập con liên quan đến 4 địnhnghĩa về đối tượng nhỏ để xem xét sự ảnh hưởng của tỉ lệ đối tượng ảnh hưởng nhưthế nào đối với hiệu suất của các mô hình Thêm vào đó, gần đây có một tập dữ liệu

về đối tượng nhỏ được công bồ trong | thách thức có tên là Vision Meets Drones:

và tập dữ liệu này được xem là tập dữ liệu thách thức bởi vì nó chứa

nhiều đối tượng có kích thước nhỏ, thậm chí là rất nhỏ trong ảnh ở nhiều ngữ cảnh

khác nhau Tuy nhiên, góc nhìn của ảnh được chụp từ thiết bị tự lái drones, nên gócnhìn sẽ là từ trên xuống là độ phân giải rất cao khoảng 2K và tập dữ liệu này không

có cúng cấp nhãn cho tập thử nghiệm vì thế sẽ gặp khó khăn trong việc đánh giá

Do đó, trong luận văn này học viên chọn tập dữ liệu đối tượng nhỏ [19] và tập dữ

liệu do học viên loc ra từ PASCAL VOC có tên là miniVOC, bởi vì các tập dữ liệu

này chữa nhiều loại đối tượng thuộc nhiều lớp khác nhau và số lượng ảnh lớn, vi théphan đánh giá sẽ khách quan

laiskyeye com

Trang 22

2.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG

2.3 Các mô hình học sâu cho bài toán phát hiện đối tượng

Gần đây với sự phát triển của các mô hình học sâu, các phương pháp tiếp cận sử

dung mạng nơ ron tích chập (convolutional neural network) đã đạt được các thành

tựu nhất định trong nhiều bài toán Trong ngữ cảnh bài toán phát hiện đối tượng,

mạng nơ ron tích chập được ứng dụng phổ biến trong các công trình nổi bật như fi

bị 10} {11} {13} Hầu hết các công trình đã chứng minh được hiệu suất trong

việc phát hiện các đối tượng có kích thước trung bình hoặc lớn Các công trình nàyhiện nay được chia ra thành 2 hướng tiếp cận chính cho bài toán phát hiện đối tượngbao gồm các phương pháp tiếp cận một giai đoạn (one-stage approaches) và hai giaiđoạn (two-stage approaches) Mỗi hướng tiếp cận có chung các tinh chất và ý nghĩa

riêng, các phương pháp thuộc hướng tiếp cận hai giai đoạn thường là các phương

pháp dựa trên các thuật toán đề xuất vùng ứng viên đối tượng (object proposals).Đặc điểm nổi bật của các phương pháp này thường có kết quả cao nhưng đối lại tốc

Fast RCNN [2], Faster

EfficientDet [I3] v.v Trong khi đó các phương pháp thuộc nhóm một

độ xử lý chậm gồm các phương pháp nổi bật như RCNN

RCNN

giai đoạn thì ngược lại, các phương pháp này thường có khả năng xử lý dữ liệu theo

thời gian thực và vẫn đạt được độ chính xác cao Tuy nhiên việc hy sinh đánh đổi

giữa độ chính xác và tốc độ xử lý là yêu tố mà các phương pháp dang xem xét để đưa

ra chiến lược phù hợp Các phương pháp nổi bật trong hướng này bao gồm YOLO[ii8|Í9[Tð] SSD [TT] DSSD [I2], RetinaNet [6]

RCNN [1] là một trong các công trình tiên phong đầu tiên mạng lại bước tiền

lớn trong bài toán phát hiện đối tượng Các phương pháp sau đây là các bản cải tiến

từ RCNN như |; 28] Trong đó đặc biệt là Faster RCNN được xem là một

công trình tiên tiến hiện nay Mặc dù một chuỗi các công trình này sử dụng các

ý tưởng nổi bật từ cửa sổ trượt cho đến các vùng đề xuất đối tượng và hấu hết đạtkết quả tốt trên các tập dữ liệu chuẩn như PASCAL VOC, COCO and ILSVRC Tuynhiên các hoạt động của các phương pháp này tốn nhiêu thời gian để xử lý xong mộttắm ảnh và việc này có thể làm giảm hiệu xuất xử lý của các bộ phát hiện Kết quả

là các bộ phát hiện gặp khó khăn trong việc phát hiện đối tượng theo thời gian thựcmặc dù đạt được độ chính xác cao Điều này có nghĩa là các phương pháp chủ yếu

Trang 23

CHƯƠNG 2 CƠ SỞ LÝ THUYET

tập trung vào độ chính xác mà bỏ qua phần ảnh hưởng của tốc độ xử lý Thêm vào

đó, việc phát hiện các đối tượng có kích thước nhỏ trong các ứng dụng thực tế thì

không kém phần quan trọng so với các đối tượng có kích trước lớn hoặc trung bình,thậm chí là cần thiết hơn chúng ta tưởng Đặc biệt là đối với công nghệ xe tự hành,

xe thông minh, các dự án quân đội và giao thông thông minh, dữ liệu phải được xử

lý không những nhanh mà còn phải chính xác để đảm bảo rằng an toàn được đặt lênhang đầu Nhưng trong các trường hợp này, một cách tổng quan dữ liệu được ghi lạithường là nằm ở xa camera và các thông tin đa phần là các đối tượng nhỏ.

Trong điều kiện phát hiện đối tượng theo thời gian thực, các phương pháp mộtgiai đoạn thay vì sử dụng các vùng dé xuất đối tượng để có được các vùng quantâm trước khi đến với bộ phân lớp giống như các phương pháp 2 giai đoạn như đã

trình bày ở trên thì các phương pháp này sử dụng thông tin cục bộ của ảnh để đưa

ra các dự đoán như YOLO và SSD Cả 2 phương pháp này đều xử lý ảnh theo thời

gian thực, phát hiện đối tượng một cách chính xác mà vẫn giữ được độ chính xác

cao Tuy nhiên, các phương pháp này chỉ đề cập đến là có khả năng phát hiện đượcđối tượng nhỏ nhưng chưa có các thực nghiệm chứng mình đi kèm để thể hiện khảnăng hoặc mức độ mà các phương pháp này có thể phát hiện được các đối tượng cókích thước nhỏ Phần nội dung trình bày tiếp theo là các ý tưởng tổng quan của cácphương pháp đã được đề cập

243.1 RCNN

RCNN (1 là một phương pháp được xem là tiên phong trong bài toán phát hiện đối

tượng sử dụng kiến trúc mạng học sâu, RCNN đạt được kết quả cao hơn 30% độ

chính xác trung bình (mAP) so với hơn các phương pháp trước đó trên tập dữ liệu

PASCAL VOC Tổng quan kiến trúc mạng của RCNN bao gồm 4 phần được biếtđến là các kỹ thuật mới của phương pháp này Đầu tiên, mạng RCNN thay đổi kíchthước ảnh về 227 x 227 như là ảnh đầu vào Sau đó, thuật toán selective search [14được triển khai để tạo ra 2000 ứng viên là các vùng đề xuất đối tượng trên ảnh đầuvào Thông qua mỗi vùng dé xuất, mạng RCNN rit trích một vectơ đặc trưng có

4096 chiều và tính toán các đặc trưng này Cuối cùng sử dụng bộ phân lớp tuyếntính cụ thể cho các lớp đối tượng SVM được đặt phía sau lớp cuối cùng của mạng để

Trang 24

2.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG

R-CNN: Regions with CNN features

warped region aeroplane? no.

ve

person? yes.

1 Input 2 Extract region 3 Compute 4 Classify

image proposals (~2k) CNN features regions

Hình 2.1 Tổng quan về kiến trúc mạng RCNN

phân lớp các vùng đối tượng xem liệu có bất cứ đối tượng nào xuất hiện trong đó và

đối tượng đó là gì Hình |2 1|thể hiện tổng quan kiến trục mạng RCNN

Điểm chính dẫn đến thành công của RCNN là phương pháp rút trích đặc trưng.Trong mạng RCNN các đặc trưng cấp thấp như HOG được thay thế bằng đặc trưng

học sâu được rút trích từ mạng nơron tích chập, các đặc trưng này có đặc điểm là

thể hiện sự phân biệt rõ ràng hơn Tuy nhiên việc đánh giá cho từng ảnh thì tiêu tốnnhiều tài nguyên tính toán bởi vì RCNN phải áp dụng việc rút trích đặc trưng củamạng nơron tích chập 2000 lần cho tương ứng 2000 vùng ứng viên đối tượng Theo

dé xuất của RCNN thì ảnh đầu vào được thay đổi về độ phân giải về 227 x 227, tuynhiên việc thay đổi độ phân giải thấp này là một van đề quan trọng vì nó ảnh hưởngđến các đối tượng nhỏ ở một số gốc độ và làm giải hiệu suất phát hiện các đối tượng.nhỏ Cụ thể, các đối tượng có kích nhỏ là các đối tượng dễ bị ảnh hưởng và thậm chí

là mất mát thông tin khi phải thay đối kích thước ảnh quá chênh lệch kích thước ảnh

gốc ban đầu Ngoài ra các vùng đề xuất đối tượng có tỉ lệ chồng lấp lên nhau nhiềucho nên dẫn đến việc lặp lại quá trình tính toán giữa các vùng giống nhau nhiều lần

mà chưa tận dụng được các kết quả trước đó Đồng thời với mỗi vùng đề xuất thìkết quả tính toán phải được lưu lại trước khi thực hiện việc rút trích đặc trưng, việcnày làm cho RCNN xử lý chậm và tốn rất nhiều tài nguyên tính toàn cũng như là lưutrữ Một yếu tố quan trọng khác nữa đó là việc nhiều khung bao đối tượng chồnglên nhau dẫn đến giảm độ chính xác mAP nếu đối tượng kích nhỏ nằm gần các đốitượng lớn bởi vì sự mắt cân bằng dữ liệu liên quan đến không gian đặc trưng của cáckhung bao đối tượng cụ thể là sự chênh lệch kích thước của các vùng đề xuất đốitượng giữa các đối tượng lớn và đối tượng nhỏ cho nên RCNN có xu hướng chọn các

15

Trang 25

CHƯƠNG 2 CƠ SỞ LÝ THUYET

khung bao của các đối tượng có kích thước lớn và bỏ qua các khung bao của các đối

tượng có kích thước nhỏ.

2.3.2 Mạng chiết xuất phân tần không gian (Spatial Pyramid Pooling-SPP)

Ý tưởng chính của SPP [28] được phát triển từ các hạn chế của mang nơron tích

chập bởi vì mạng nơron tích chập tại thời điểm ấy thường chỉ nhận đầu vào với kíchthước ảnh thấp và cố định khoảng 224 x 224 như AlexNet cho nên không thể sử dungkích thước ảnh gốc mà phải sử dụng kỹ thuật cắt vùng đối tượng (cropping) hoặc

cố định kích thước của các vùng quan tâm (wrapping) để có được thông tin tươngđối về đối tượng quan tâm Ngoài ra, lớp kết nối day đủ (fully connected layer) cầnmột đầu vào cố định nhưng các lớp tích chập thì có thể nhận vào ảnh với bat kỳ kích

thước nào do đó cần một lớp trung gian như là cây cầu kết nối giữa lớp tích chập và

lớp kết nối day đủ đó là lý do mà lớp chiết xuất phân tần không gian (SPP) được đềxuất Cụ thé, SPP dau tiên tim 2000 vùng dé xuất đối tượng như RCNN va sau đó

rút trích đặc trưng của toàn bộ ảnh SPP ánh xạ mỗi cửa s đặc trưng tương ứng với

mỗi vùng đề xuất đối tượng thành một vectơ biểu diễn có kích thước cố định bat kếkích thước của dữ liệu đầu vào Cuối cùng đặc trưng từ 2 lớp kết nối đầy đủ sẽ được

sử dụng cho phân lớp bằng SVM Hình|2.2| thể hiện kiến trúc mang sử dụng mạngchiết xuất phân tần không gian SPP

Nói cách khác, mạng chiết xuất phân tần đối tượng SPP tốt hơn RCNN Cụ thểtốc độ xử lý cao gấp 200 lần so với RCNN nhưng thời gian huấn luyện lâu hơn do

có nhiều giai đoạn huấn luyện như tỉnh chỉnh các lớp cuối, SVM và hôi quy, đồngthời cần rất nhiều tài nguyên lưu trữ để lưu lai các vectơ có kích thước cố định như

đã trình bày ở trên Một điểm cộng của SPP đó là xem xét đặc trưng ở nhiều cấp độkhác nhau nhằm bắt được nhiều đối tượng mà có kích thước khác nhau Tuy nhiênđiểm yêu vẫn còn tồn tại của SPP cũng giống như RCNN đó là kích thước ảnh đầuvào có độ phân giải thấp, chưa tận dụng được thông tin giống nhau giữa các vùng

để xuất mà vẫn xem các vùng đề xuất đối tượng một cách độc lập cho nên chưa giảiquyết được vấn đề tính toán và lưu trữ Đồng thời các đối tượng lớn và nhỏ đượcđánh trọng số đặc trưng giống nhau là bằng kích thước cô định có thể gây ra mất cânbằng về việc mô tả đặc trưng giữa các đối tượng

Trang 26

2.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG

fully-connected layers (fies, fe7)

spatial pyramid pooling layer

feature maps of convs

nơron tích chập đa phần giống RCNN Kiến trúc mang Fast RCNN (Hình {2.3} là

mạng thống nhất được huấn luyện với hàm độ lỗi đa tác vụ Cụ thể, Fast RCNNnhận ảnh đầu vào với bất kỳ kích thước và 2000 vùng đề xuất đối tượng Điểm khácbiệt ở đây là thay vì triển khai các vùng đề xuất đối tượng lên ảnh đầu vào hoặc thayđổi kích thước cố định để đưa vào kiến trúc mang ở giai đoạn đầu tiên như RCNN,Fast RCNN đặt các vùng đề xuất đối tượng lên bản đồ đặc trưng ở vị trí mà sau khi

ảnh đầu vào đã qua các lớp tích chập đầu hay mạng cơ bản Với mỗi vùng dé xuất

đối tượng được rút trích đặc trưng có chiều dài vectơ cố định bởi lớp chiết xuất giá trịlớn nhất hoặc trung bình (pooling layer) và được ánh xạ thành vectơ đặc trưng bằngcác lớp kết nối đầy đủ Mạng Fast RCNN có 2 đầu vectơ đầu ra ứng với mỗi vùngđối tượng: vectơ xác xuất softmax và vecto vị trí hồi quy tọa độ khung bao đối tượngcho từng lớp đối tượng Các đặc trưng quan trọng của các vùng đối tượng được chia

sẻ trong việc tính toán và bộ nhớ lưu trữ trong quá trình lan truyền tiến và lan truyền

17

Trang 27

CHƯƠNG 2 CƠ SỞ LÝ THUYET

Outputs: baie

softmax regressor

Rol feature

Vector foreach Ra!

Hình 2.3 Kiến trúc mang của Fast RCNN

ngược từ chung 1 ảnh Đóng góp quan trọng nhất của Fast RCNN là đã khắc phục được nhược điểm của RCNN và mạng SPP mà vẫn tăng được độ chính xác và tốc độ

xử lý Lợi ích ở đây là giúp tăng độ chính xác trung bình (mean Avearge Precision)

cao hơn RCNN và SPP Giai đoạn huấn luyện đơn giản hơn, sử dụng hàm độ lỗi đatác vụ và có thể cập nhật cho toàn bộ mang Khả năng lưu trữ trên 6 dia khong cầnquá nhiều trên bộ nhớ tạm

2.3.4 Faster RCNN

Faster RCNN [3] là phương pháp cải tiến của Fast RCNN và được xem là phươngpháp nổi bật nhất thường được dùng làm phương pháp cơ sở cho các bài toán liênquan đến phát hiện đối tượng Không giống như 2 phương pháp tiền đề trước đónhư RCNN và Fast RCNN là phải tạo ra các vùng đề xuất đối tượng bằng các thuậttoán bên ngoài như [14], Faster RCNN dé xuất một mạng dé xuất các khung bao đốitượng mới được tích hợp vào kiến trúc mạng của Faster RCNN được gọi là mạng đềxuất đối tượng (region proposal network-RPN) Hin! minh họa kiến trúc FasterRCNN Mạng RPN có khả năng tạo ra các vùng đề xuất chất lượng chỉ sau một lầnhuấn luyện Sau khi có được đặc trưng học sâu từ các lớp tích chập đầu tiên củamạng cơ bản như VGG hay AlexNet, RPN nhận các đặc trưng này làm đầu vào sau

đó sử dụng cửa sổ trượt trên các bản đồ đặc trưng này để rút trích đặc trưng cho mỗivùng dé xuất RPN ban chất là gồm 2 lớp tích chập tương ứng với việc song songvừa thực hiện nhiệm vụ dự đoán các khung bao đối tượng và chỉ số khả năng đốitượng tại mỗi vị trí vùng đề xuất Đầu vào của RPN là anh bat kì kích thước nào vàđầu ra là tập hợp 1000 các vùng đề xuất đối tượng như là khung bao đối tượng cùng

Trang 28

2.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG

Hình 2.4 Kiến trúc mang của Faster RCNN

với đó là chỉ số đối tượng cho từng khung bao Cụ thể, RPN nhận đầu vào là bản đồđặc trưng sau mạng cơ bản và chạy các cửa sổ trượt 3x3 trên các bản đồ đặc trưng

đó Kết quả đầu ra sẽ được dưa vào 2 nhánh khác nhau, một nhánh thực hiện dựđoán chỉ số đối tượng dùng để xác định liệu có đối tương hay không và nhánh cònlại là hồi quy vị trí các khung bao đối tượng dùng để xác định xem vị trí hồi quy cókhớp với khung bao thực tế hay chưa Do đó RPN giúp Faster RCNN cải thiện độchính xác và tốc độ xử lý cũng như là tránh tạo ra quá nhiều khung bao đối tượng dưthừa ảnh hưởng đến hiệu suất của toàn mạng Vì điều này Faster RCNN giảm được

chi phí tính toán bởi việc chia sẽ được các tính toán giữa các đặc trưng từ các lớp

tích chập Cuối cùng, Faster RCNN được xem là phương pháp tiên tiến về độ chính

xác cũng như cái thiện thời gian xử lý đáng kể so với các phương pháp trước và trở

thành phương pháp phổ biến được các công trình phía sau tham khảo và cải thiệnnhằm đạt được độ chính xác tốt nhất

19

Trang 29

CHƯƠNG 2 CƠ SỞ LÝ THUYET

2.3.5 RetinaNet

RetinaNet [6] là mang được sinh ra để giải quyết van đề mắt cân bằng dữ liệu giữa

vùng đối tượng (foreground) và vùng ảnh nên (background) bằng cách đề xuất hàm

độ lỗi mới có tên là Focal Loss Các thành phan chính của kiến thúc mạng RetinaNetHình với thiết kế mạng này RetinaNet được xếp vào các phương pháp | giaiđoạn Vấn đề mắt cân bằng dữ liệu giữa vùng đối tượng và ảnh nền xảy ra hầu hết ởcác phương pháp phát hiện đối tượng, ví dụ như SSD [1 I] tạo ra khoảng 101 — 10° vị

trí ứng viên trên mỗi ảnh nhưng chỉ phần nhỏ trong số đó chứa đối tượng Việc nàygây ra 2 vấn đề chính cho bộ phát hiện như hiệu xuất huấn luyện không hiệu quả do.hầu hết các dữ liệu không phù hợp gậy ra hiện tượng dư thừa và cản trợ việc huấn

luyện Cũng đã có nhiều công trình đề xuất để giải quyết vấn để này như khai thác

|

quá trình huấn luyện và khai thác chúng Ngược lại, hàm độ lỗi Focal Loss mới có

dữ liệu khó (hard negative mining) [11 , các mô hình này tạo ra dữ liệu khó trong

khả năng giải quyết vấn đề mất cân bằng này và cho phép mô hình huấn luyện một

cách hiệu quả mà không phải tạo ra dữ liệu mới.

Ngoài việc đề xuất hàm độ lỗi mới thì kiến trúc mạng của RetinaNet cũng đóngvai trò trong việc cải thiện hiệu suất phát hiện đối tượng Như trong hình kiến trúcmạng của RetinaNet thì RetinaNet thiết kế với FPN là mạng cơ bản được đặt sauResNet và cuối cùng 2 mạng con là class subnet và box subnet Mạng cơ bản cótrách nhiệm tính toán các bản đồ đặc trưng sử dụng các cửa sổ tích chạp trên toàn bộảnh Việc đặt FPN sau ResNet, tác giả muốn FPN tạo ra nhiều đặc trưng phân tầngvới ngữ nghĩa cao ở mức độ đa tỉ lệ Mạng con thứ nhất thực hiện việc phân lớp đốitượng dựa trên kết quả đầu ra của mạng cơ bản, mạng con thứ 2 thực hiện việc hồi

quy vị trí tọa độ các khung bao đối tượng Cả 2 mạng con kết hợp lại tạo ra một thiết

kế đơn giảng cho một kiến trúc mang | giai đoạn như RetinaNet

2.3.6 You only look once (YOLO)

Kế thừa những cải tiến từ các phương pháp đã được giới thiệu trước đó, YOLOđược xem là phương pháp phát hiện đối tượng tiên tiến đầu tiên về tốc độ xử lýnhưng vẫn cân bằng được độ chính xác cho đến thời gian hiện tại YOLO chính thức

Trang 30

2.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG

Hình 2.5 Kiến trúc mạng của RetinaNet RetinaNet sử dụng FPN làm mạng cơ bản

nằm sau kiến trúc ResNet để tạo ra đặc trưng phân tầng với ngữ nghĩa cao ở mức độ

da ti lệ Đồng thời cuối mạng RetinaNet đính kèm 2 mạng con, môt mạng cho việcphân lớp khung bao đối tượng (mạng ở trên) và một mạng cho việc hồi quy vị trítọa độ các khung bao dựa trên các khung bao đối tượng đã được gán nhãn (mạng ở

Conv Layer Conv Layer Conv: Layers Comeoyem Conv Layers Conv Layers Conn Layer Conn Layer

TaTxbhe2 3x3x192 1xIx128 Tx2561/4 IxIxối2 Yep 3x3x1024

‘Moxpool Layer Moxpool Layer 3x3x256 3x30512 3x3x1024 Ì ” 3xaxl024

2232 2232 113256 1xIx512 3x3x1024

353x512 3x3x1024 — 3x3x1024+2

Moxeool Layer Moxpool Layer

nde? 2x2x2

Hình 2.6 Kiến trúc mạng của phiên bản YOLOvI

có 4 phiên bản đã được công bố thông qua các công trình nghiên cứu với tên gọi

, YOLOv2 [8Ì,

YOLOv3 ID và YOLOv4 [10] 3 phiên bản đầu được tác giả J.Redmon cùng cộng

tắt lần lượt dựa trên thứ tự của phiên bản đó bao gôm YOLOv1

sự nghiên cứu và phát triển, riêng phiên bản YOLOv4 là do A.Bochkovskiy và cộng

sự dựa trên 3 phiên bản trước rồi cải tiến Sau đây học viên trình bày phần nội dungtóm tắt của từng phiên bản:

YOLOvI là phiên bản đầu tiên và được cộng đồng biết đến với tên gọi tắt làYOLO YOLO có kiến trúc mạng thống nhất và là phương pháp một giai đoạn, kiếntrúc mang của YOLO được trình bày như trong Hình|2.6| Tại thời điểm ra mắt YOLO

là phương pháp đề xuất cách tiếp cận hoàn toàn mới dựa trên ý tưởng là thay vì giải

21

Trang 31

CHƯƠNG 2 CƠ SỞ LÝ THUYET

quyết bài toán phát hiện đối tượng như các công trình trước đó như (Bi bằng cách

sử dụng cửa sổ trượt để trượt trên toàn bộ ảnh va sau đó cung cấp kết quả dau ra cho

bộ phân loại để thực hiện việc định vị đặc trưng các đối tượng ở vị trí cách đều nhau

trên toàn bộ hình ảnh hoặc sử dụng vùng đề xuất đối tượng để tạo các khung baođối tượng có thể chứa các đối tượng và sau đó cung cấp chúng vào mạng nơron tíchchập, YOLO xem bài toán phát hiện đối tượng như là bài toán hồi quy song songthực hiện việc dự đoán tọa độ vị trí các đối tượng và xác xuất mà các vị trí này chứađối tượng thuộc lớp đối tượng nào Ý tưởng chính của YOLO đó là chia ảnh đầu vàothành lưới như là một dạng chia để trị thay vì phải xét toàn bộ ảnh và đây là yếu tốchính giúp YOLO cải thiện tốc độ xử lý nhanh hơn so với các phương pháp trước

đó mà vẫn đạt được độ chính xác cao trong việc phát hiện đối tượng Do thực hiện

việc chia lưới và thực hiện 2 công việc song song cho nên mỗi ô lưới sẽ có 2 câu hỏi

cần trả lời là đối tượng có nằm trong ô lưới hay không và đó là loại đối tượng nào.

Tóm lại, YOLO bao gồm 3 bước thực hiện chính để giải quyết bài toán phát hiện đối

tượng Đầu tiên, YOLO chia lưới ảnh đầu vào với kích thước cố định, sau đó thựchiện các phép tích chập trên ảnh đầu vào với mạng thiết kế thống nhất, cuối cùng sửdụng 1 ngưỡng chung để đưa ra kết quả phát hiện và độ tin cậy của các kết quả đó.YOLO xử lý 45 FPS với GPU và phiên bản nhỏ hơn thì có thể là 150 FPS Với tốc

độ xử lý như thế YOLO có thể xử lý với các video trực tiếp Mặc dù thiết kế mạngcủa YOLO với việc nhận kích thước ảnh đầu vào với độ phân giải cố định từ thấpđến cao làm ảnh hưởng đến kết quả xử lý theo thời gian thực và độ chính xác nhưng

YOLO vẫn giữ được độ chính xác trung bình cao

Kiến trúc mang YOLO khi nhận ảnh với kích thước cố định là dữ liệu đầu vào sẽ

chia ảnh thành lưới 9 x 5, với điều kiện là S x bằng với chiều dài và chiều rộng củavectơ biểu diễn kết quả dự đoán cuối cùng Trong trường hợp tâm của đối tượng nằmtrong 1 ô lưới thi ô lưới đó chịu trách nghiệm phát hiện đối tượng đó Hơn thế như

đã nói ở trên mỗi ô lưới song song thực hiện 2 công việc là dự đoán khung bao đốitượng và chỉ số tin cậy thể hiện độ tin cậy mà mô hình dư đoán cho rằng khung bao.đối tượng đó có chứa đối tượng loại nào, cũng như là độ chính xác về vị trí khungbao đối tượng đó so với khung bao đối tượng được gán nhãn Điểm yếu của YOLO

là không phải mô hình tiên tiến về độ chính xác tuy nhiên YOLO có khả năng xử

Trang 32

2.3 CAC MÔ HÌNH HOC SÂU CHO BÀI TOÁN PHÁT HIỆN DOI TƯỢNG

YOLO YOLOv2 batch norm? v v v hi-res classifier? v

Hình 2.7 mAP of YOLOv2 với mỗi phan cải tiến được thêm vào mô hình (3)

lý dữ liệu theo thời gian thực va đưa ra số lượng dự đoán sai của ảnh nền thấp hơnnhiều so với Faster RCNN Phương pháp YOLO có độ tổng quát cao, do đó nhanhchóng dự đoán được đối tượng có trong ảnh tuy nhiên gặp khó khăn khi đưa ra vị trí

chính xác của đối tượng đặc biệt là đối tượng có kích thước nhỏ Đây là một trong

các lý do mà tác giả chính cải thiện YOLO để cho ra phiên bản thứ 2 là YOLOv2

YOLOv2 [8Ì có nhiều hoàn thiện đáng kể so với phiên bản đầu tiên Giống nhưYOLOv1, YOLOv2 vẫn nhận dữ liệu đầu vào là ảnh với kích thước cố định nhưng

có nhiều phương pháp huấn luyện mới được tích hợp như chuẩn hóa dữ liệu hàngloạt (batch normalization), huấn luyện đa tỉ lệ kích thước ảnh với độ phân giải caohơn, dự đoán kết quả phát hiện cuối cùng trên không gian có kích thước cao hơn,

sử dụng các khung bao đối tượng mặc định thay vì chỉ dựa trên các lớp kết nối đầy

đủ Để lựa chọn số lượng và kích thước khung bao đối tượng mặc định hợp lý thì

K-Means là thuật toán được chọn như là 1 thuật toán cơ sở Tuy nhiên, việc thay

đổi này ảnh hưởng đến sự đánh đổi giữa tốc độ và độc chính xác, chỉ tiết về độ hoàn

thiện độ chính xác dựa trên PASCAL VOC 2007 được thể hiện trong Hình 2.7]

Những phần cải tiền mới này cho phép YOLOv2 huấn luyện với các tập dữ liệu

đa lớp đối tượng như COCO và đạt được độ chính xác cao Bên cạnh đó YOLOv2cũng cho ra phiên bản YOLO9000 với hiệu suất có thể phát hiện 9000 lớp đối tượngkhác nhau YOLOv2 sử dụng kiến trúc mạng được tinh chỉnh từ phiên bản gốc đầutiên YOLOv2 chủ yếu tập trung vào cải thiện độ phủ của mô hình và khả năng định

vị đối tượng mà vẫn đạt được độ chính xác cao với việc phân lớp đối tượng so với

23

Trang 33

CHƯƠNG 2 CƠ SỞ LÝ THUYET

Type Filters Size Output Convolutional 32 3x3 256 x 256 Convolutional 64 3x3/2 128 x 128

4x| Convolutional 1024 3 x3

Residual 8x8Avgpool Global

Connected 1000

Softmax

Hình 2.8 Kiến trúc mang Darknet-53 (9)

các bộ phát hiện đối tượng hiện đại khác Bản chất kiến trúc mang của YOLO gây

ra nhiều lỗi về định vị đối tượng hơn nhưng ít có khả năng dự đoán các phát hiện sai

6 những nơi không có đối tượng nào xuất hiện Mặc dù YOLOv2 cải thiện được độchính xác nhưng vẫn gặp van dé trong việc phát hiện các đối tượng nhỏ bởi vì dữ liệuđầu vào được giảm độ phân giải dẫn đến kích thước thấp của các bản đồ đặc trưng

được sử dụng cho dữ đoán kết quả cuối cùng Đề giải quyết vấn dé này YOLOv3 [9]

ra đời với nhiều cải thiện đáng kể cho bài toán phát hiện đối tượng đặc biệt là đốitượng nhỏ Một cách tổng quát thì các mô hình mạng sau này có xu hướng về kiếntrúc mạng sâu hơn và đạt nhiều kết quả trên nhiều bài toán khác nhau với các đặc

trưng được học từ các lớp mạng khác nhau.

YOLOv3 9 là phương pháp thuộc xu hướng này, thay vì tiếp tục phát triển dựa

trên kiến truc mạng của 2 phiên bản trước là Darknet-19, YOLOv3 phát triển mộtkiến trúc mạng sâu hơn với 53 lớp tích chập được gọi là Darknet-53 Kiến trúc mạng

Darknet-53 được mô tả trong Hình|2.8| Bên cạnh đó, YOLOv3 được tích hợp nhiều

kỹ thuật tiên tiến hiện này như sử dụng các khối bổ sung (residual blocks), giảm liên

Ngày đăng: 08/11/2024, 17:37