Phát hiện đối tượng - Một số cơ sở lý thuyết- 123docz.net

Chương 1 TỔNG QUAN ĐỀ TÀI

2.3. Một số cơ sở lý thuyết

2.3.3. Phát hiện đối tượng

2.3.3.1. Tổng quan

Phát hiện đối tượng (Object Detection) là một thuật ngữ chung để mô tả một tập hợp các nhiệm vụ thị giác máy tính có liên quan liên quan đến việc xác định các đối tượng trong ảnh kỹ thuật số. Phát hiện đối tượng (Object Detection) kết hợp hai nhiệm vụ bao gồm phân loại hình ảnh (Classifier) và định vị vật thể (Object Localization). Trong đó, mỗi kĩ thuật sẽ có mục đích cũng như input và output khác nhau phù hợp cho từng mục đích sử dụng:

Hình 2.10 Các kỹ thuật Phát hiện đối tượng10

• Phân loại hình ảnh (Image Classification): Dự đoán nhãn của một đối tượng trong một hình ảnh.

o Input: Một hình ảnh với một đối tượng.

o Output: Nhãn lớp (ví dụ: một hoặc nhiều số nguyên được ánh xạ tới nhãn lớp).

• Định vị đối tượng (Object Localization): Xác định vị trí hiện diện của các đối tượng trong ảnh và cho biết vị trí của chúng bằng Bounding box.

o Input: Một hình ảnh có một hoặc nhiều đối tượng.

o Output: Một hoặc nhiều Bounding box được xác định bởi tọa độ tâm, chiều rộng và chiều cao

• Phát hiện đối tượng (Object Detection): Xác định vị trí hiện diện của các đối tượng trong Bounding box và nhãn của các đối tượng nằm trong một hình ảnh.

o Input: Một hình ảnh có một hoặc nhiều đối tượng.

o Output: Một hoặc nhiều Bounding-box và nhãn cho mỗi Bounding-box.

• Phân đoạn thực thể (Instance Segmentation): Xác định đối tượng (nhãn) và vị trí hiện diện của các đối tượng bằng cách làm nổi bật các pixel cụ thể của từng đối tượng thay vì các Bounding boxes.

2.3.3.2. Phân loại

Hình 2.11 Phân loại phương pháp phát hiện đối tượng11Thuật toán Phát hiện đối tượng bao gồm 2 nhóm chính: Thuật tốn Phát hiện đối tượng bao gồm 2 nhóm chính:

• Two-stage: bao gồm họ các mơ hình R-CNN (Region-Based

Convolutional Neural Networks) như Fast R-CNN, Faster R-CNN, Mask R-CNN… Phương pháp này được gọi là two-stage vì model sẽ thực hiện 2 phần gồm trích chọn (extract) các vùng trên ảnh có khả năng chứa đối tượng (RoI) dựa vào các anchor box, sau đó sẽ thực hiện tiếp phân loại đối tượng và xác định vị trí nhờ vào việc chia làm 2 nhánh tại phần cuối của mơ hình (Classifier và Bounding-box Regression). Các mô hình này được dùng để giải quyết các bài toán định vị và nhận diện vật thể tĩnh (hình ảnh) khi ưu tiên độ chính xác hơn là tốc độ xử lý cho ra kết quả.

• One-stage: hay cịn gọi là single-stage bao gồm các mơ hình họ YOLO,

SSD, Restina... Phương pháp này được gọi là one-stage vì phần trích

chọn các vùng đặc trưng khơng được sử dụng. Các mơ hình one-stage sẽ coi việc Phát hiện đối tượng như một bài toán hồi quy và dựa trên pre-define box hay còn gọi là anchor box để phát hiện đối tượng. Các mơ hình one-stage thường có 10 tốc độ nhanh hơn tuy nhiên độ chính xác thường kém hơn so với two-stage. Các mơ hình sử dụng thuật tốn này thường được sử dụng cho các bài toán nhận dạng đối tượng, đặc biệt là các đối tượng real time như phát hiện đối tượng thông qua video quay từ drone.

2.3.3.3. Ứng dụng

Phát hiện đối tượng đã được sử dụng rộng rãi để phát hiện khuôn mặt, phát hiện xe, đếm số người đi bộ, hệ thống bảo mật và xe không người lái. Sự phát triển của các phương pháp phát hiện đối tượng khơng chỉ đem lại lợi ích cho ngành Cơng nghệ thơng tin mà còn cho rất nhiều ngành nghề lĩnh vực khác như quân sự, y tế, hàng không,…

2.4. Nghiên cứu liên quan

2.4.1. Những bộ dữ liệu hiện tại

Hiện tại có rất nhiều bộ dữ liệu sương mờ với những đặc trưng khác nhau bao gồm bộ dữ liệu thực tế hoặc tổng hợp được chụp trong nhà lẫn ngoài trời.

Bộ dữ liệu FRIDA được giới thiệu vào năm 2010 gồm 90 hình ảnh tổng hợp được từ 18 cảnh đường phố trong khu vực đơ thị. Những hình ảnh này được sử dụng để kiểm tra các thuật toán nâng cao liên quan đến khả năng hiển thị và cải thiện độ tương phản. FRIDA2 được giới thiệu hai năm sau đó gồm 66 con đường các loại với 330 hình ảnh tổng hợp và 10 cảnh quay.

Hình 2.12 Hình ảnh minh họa trong bộ dữ liệu FRIDA12

Bộ dữ liệu Foggy Cityscapes và Foggy Driving có góc nhìn người lái xe trong các thành phố với lần lượt 20,550 và 101 ảnh sương mờ. Tuy nhiên, hai bộ dữ liệu này bị lặp lại các đối tượng.

Hình 2.13 Hình ảnh minh họa bộ dữ liệu Foggy Driving13

Bộ dữ liệu RESIDE là bộ dữ liệu lớn nhất chứa 5 tập con với 429,292 hình ảnh thu được trong nhà, ngoài trời với sương mờ thực lẫn tổng hợp. Mỗi tập con của bộ dữ liệu này được tạo ra cho các mục đích khác nhau.

Hình 2.14 Hình ảnh minh họa bộ dữ liệu RESIDE14

Bộ dữ liệu O-Haze được giới thiệu bởi Ancuti và cộng sự vào năm 2018 bao gồm 45 tập hình ảnh ngồi trời có sương mờ và ground truth được chụp lại trong 8 tuần. Bộ dữ liệu này bao gồm hình ảnh của cầu trượt, cây cối và băng ghế.

Hình 2.15 Hình ảnh minh họa bộ dữ liệu O-haze15

Chi tiết những bộ dữ liệu đã được trình bày phía trên được mơ tả tổng hợp ở Bảng 2.1.

Bộ dữ liệu Số lượng

hình ảnh Ngữ cảnh Loại sương mờ Năm

FRIDA 90 Ngoài trời Tổng hợp 2010

FRIDA2 330 Ngoài trời Tổng hợp 2012

Foggy Cityscapes &

Foggy Driving 20,651 Ngoài trời Tổng hợp 2016

RESIDE 429,292 Ngoài trời & Trong nhà

Tổng hợp & Thực

tế 2018

O–Haze 45 bộ Ngoài trời Thực tế 2018

UIT-DroneFog

(Ours) 15,370 Ngoài trời Tổng hợp 2021

Bảng 2.1 Thống kê những bộ dữ liệu đã được công bố.

2.4.2. Những hướng tiếp cận hiện tại

Tìm hiểu được ngữ nghĩa của những cảnh sương mờ ngoài trời cho phép các ứng dụng hoạt động tốt không chỉ trong điều kiện thời tiết tốt mà cả sương mờ. Ví dụ điển hình là phát hiện phương tiện và làn đường. Hiện tại có nhiều hướng tiếp cận

khác nhau để phát hiện đối tượng trong thời tiết sương mờ. Một số phương pháp được chọn phát hiện trực tiếp trên sương mờ, hoặc có thể sử dụng phương pháp khử sương mờ trước khi phát hiện đối tượng.

2.4.2.1. Khử sương mờ đơn ảnh

Khử sương mờ đơn ảnh đóng vai trị như một bước tiền xử lý ảnh khi ta thực hiện các tác vụ xử lý ảnh khác. Trong thực tế, sự xuất hiện của sương, khói, bụi,… gây ra rất nhiều khó khăn cho việc phân loại, phát hiện đối tượng,… dẫn kết quả không như mong đợi.

Các nghiên cứu trước đây đã đưa ra một công thức đơn giản để ước lượng ảnh hưởng sương mờ trên ảnh như sau:

𝐼(𝑧) = 𝐽(𝑧). 𝑡(𝑧) + 𝐴(1 − 𝑡(𝑧)) (1) Trong đó:

• 𝐼(𝑧): Ảnh sương mờ

• 𝐴 : Hệ số ánh sáng khí quyển • 𝑡(𝑧): Medium tranmission map • 𝐽(𝑧): Ảnh khơng có sương mờ

Dựa theo cơng thức này, việc khử sương mờ chỉ là việc tính tốn giá trị của hai biến A và t(z). Bởi vì từ cơng thức (1), ta có thể suy ra:

𝐽(𝑧) = (𝐼(𝑧) − 𝐴) 𝑡(𝑧) + 𝐴

Dark Prior Channe là phương pháp cho kết quả tốt nhất khi ứng dụng mơ hình này. Nhóm tác giả của phương pháp này dựa trên lý thuyết cho rằng các vùng ảnh của một bức ảnh khơng có sương mờ được chụp ngồi trời thường có ít nhất có một kênh màu có giá trị cường độ thấp. Tuy nhiên, các phương pháp này thường ước lượng sai giá trị của transmission map bởi vì các giá trị ưu tiên rất dễ bị ảnh hưởng trong thực tế. Vì vậy, trong các trường hợp áp dụng thực tế, chúng thường đạt kết quả không tốt.

Cùng với sự phát triển của Deep Learning, một hướng đi mới được mở ra cho tác vụ xử lý ảnh hưởng của sương mờ với sự ra đời của các phương pháp DehazeNet, multi-scale CNN (MSCNN),… Các phương pháp sử dụng Deep Learning cố gắng hồi quy trực tiếp transimission map. Và với lượng lớn dữ liệu được dùng để huấn luyện, các phương pháp này đã đạt được những thành kết quả đáng mong đợi và Feature Fusion Attention Network được trình bày sau đây là một trong số đó.

2.4.2.2. Feature Fusion Attention Network (FFA-Net)

Hình 2-11 Kiến trúc mạng FFA-Net

FFA-Net đưa ra phương pháp khử sương trực tiếp trong ảnh đầu vào. Các kết quả thí nghiệm đã chứng minh FFA-Net đã vượt qua các phương pháp SOTA trong khử sương ảnh trên bộ dữ liệu SOTS indoor test với 30.23 dB tới 36.39 dB trên độ đo PSNR vào thời điểm tác giả đề xuất. Kết quả vượt trội này nhờ vào 3 thành phần chính được trình bày trong các mục sau.

Hình 2.16 Ảnh thể hiện mức độ hiệu quả của FFA-Net so với các phương pháp khử mờ khác trên bộ dữ liệu RESIDE

• Feature Attention (FA)

Hình 2-13 Feature Attention module

Mô-đun Feature Attention (FA) kết hợp cơ chế Channel Attention và Pixel Attention. FA xử lý các đặc trưng và điểm ảnh khơng đồng đều vì tác giả cho rằng sự phân bố sương mờ trên các vùng điểm ảnh khác nhau là khác nhau. Điều này tạo ra tính linh hoạt trong việc xử lý các vùng ảnh có mật độ sương dày mỏng khác nhau.Khối kiến trúc cơ bản (Basic Block Structure).

Hình 2-14 Ảnh minh họa Khối kiến trúc cơ bản

Khối kiến trúc cơ bản bao gồm Local Residual Learning (LRL) và Feature Attention làm cho quá trình huấn luyện trở nên ổn định hơn đồng thời cũng tăng hiệu quả khử sương. Điều này có được bởi vì LRL làm cho cấu trúc mạng chú ý đến các thông tin quan trọng và bỏ qua các vùng ít thơng tin như vùng sương mỏng.

• Attention-based different levels Feature Fusion (FAA)

Kiến trúc Attention-based different levels Feature Fusion (FAA) cho phép trọng số được học thích ứng từ mơ-đun FA, mang lại trọng số có giá trị cao hơn cho các thông tin quan trọng. Kiến trúc này cũng giữ lại được thông tin của các lớp ban đầu và truyền nó vào các lớp sâu hơn nhớ áp dụng Global Residual Learning.

Kiến trúc này cho phép chúng ta có thể thêm các khối cũng như gia tăng các layer một cách dễ dàng. Nhóm tác giả khuyến cáo nếu đáp ứng đủ điều kiện về phần cứng, ta có thể tăng số lượng các khối trong mô hình để tăng độ sâu của mạng cũng như có thể đạt được kết quả cao hơn so với mô hình mặc định của tác giả.

2.4.2.3. Phát hiện trực tiếp trên ảnh sương mờ

Hiện tại, việc phân loại các ảnh chứa sương mờ và khơng có sương mờ cũng đã được giải quyết. Điều này tạo điều kiện cho hướng tiếp cận phát hiện đối tượng trực tiếp trên ảnh sương mờ không cần đến thao tác khử sương. Trong đồ án này, để đánh giá bộ dữ liệu UIT-DroneFog, nhóm đã sử dụng hai phương pháp State-Of-The- Art là Double Heads và Guided Anchoring trực tiếp trên hình ảnh chứa sương mờ.

Chương 3. BỘ DỮ LIỆU UIT-DRONEFOG

UIT-DroneFog là bộ dữ liệu không ảnh được chụp bởi máy bay không người lái. Bộ dữ liệu này được tạo ra bằng cách mô phỏng sương mờ từng ảnh trong bộ dữ liệu UIT-Drone21.

3.1. Bộ dữ liệu UIT-Drone21

UIT-Drone21 bao gồm 15,370 không ảnh được chụp bởi máy bay không người lái với khoảng 0.6 triệu bounding box của phương tiện giao thông và người đi bộ. Bộ dữ liệu này có tổng cộng 4 lớp đối tượng: pedestrian, motor, car và bus. Bộ dữ liệu này được chia thành 3 tập: Training set (8,580 ảnh), Validation set (1,061 ảnh) và Testing set (5,729 ảnh).

3.2. Mô phỏng sương mờ

Trong công việc này, thư viện imgaug được sử dụng để tạo sương mờ tổng hợp cho bộ dữ liệu của nhóm nghiên cứu. Nhóm đã mơ phỏng sương mờ trên bộ dữ liệu UIT-Drone21 bằng việc sử dụng lớp Fog của thư viện này với những thông số khác nhau đã được xác định trước. Lớp này mô phỏng một lớp sương mờ khá dày đặc trên ảnh với mật độ khơng đều.

Tuy nhiên, để có thể mơ phỏng phù hợp với kích thước hình ảnh của bộ dữ liệu đã chọn, nhóm quyết định chỉnh hai thông số 𝑎𝑙𝑝ℎ𝑎_𝑚𝑖𝑛 = 0.75, 𝑑𝑒𝑛𝑠𝑖𝑡𝑦_𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑖𝑒𝑟 = 0.7 và giữ nguyên các thông số mặc định của thư viện.

Trong đó, thơng số 𝑎𝑙𝑝ℎ𝑎_𝑚𝑖𝑛 (giá trị mặc định (0.7-0.9)) cho biết mức tối thiểu của giá trị alpha khi mô phỏng sương mờ lên hình ảnh. Việc tăng giá trị này giúp sương mờ phân bố đều hơn. Trong khi đó, thơng số density_multiplier (giá trị mặc định (0.4-0.9)) là hệ số nhân cho lớp alpha mask. Khi tăng giá trị thông số nào lên cao sẽ dẫn tới việc sương mờ trở nên dày đặc hơn nhưng nơi chúng xuất hiện.

3.3. Mô tả bộ dữ liệu

UIT-DroneFog được xem như là phiên bản sương mờ của UIT-Drone21, điều này có nghĩa bộ dữ liệu này kế thừa tất cả các thuộc tính (số lượng hình ảnh, lớp đối tượng và bounding box được đề cập trong phần 3.1). Ngoài ra, bộ dữ liệu UIT- DroneFog có những điểm nổi bật riêng như:

• Hình ảnh đa dạng và có chất lượng cao: Q trình mơ phỏng sương mờ sử dụng hình ảnh được chụp lại từ máy bay không người lái cao cấp với 3 độ phân giải khác nhau (3840x2160, 1920x1080, 1440x1080) dẫn đến hình ảnh sương mờ của nhóm đạt chất lượng tốt và không bị mờ, lệch chuẩn hay bị che khuất.

• Bối cảnh đa dạng: mỗi hình ảnh trong bộ dữ liệu của nhóm là duy nhất. Chúng khác nhau về phân bố sương mờ, góp chụp và cả độ cao. Hơn nữa, nhóm đã mơ phỏng sương mờ không chỉ ở một địa điểm nhất định mà ở nhiều nơi khác nhau ở các thành phố khác nhau tại Việt Nam.

• Thách thức từ các lớp dữ liệu: Bởi bộ dữ liệu này được thực hiện trên đường phố Việt Nam, phần lớn là đối tượng là xe máy. Sự mất cân bằng này là một thách thức để việc phát hiện hoạt động hiệu quả. Bên cạnh đó, việc xe máy có kích thước nhỏ và xuất hiện dày đặc trên đường dẫn đến khó có thể phát hiện nhanh các đối tượng này.

Hình ảnh minh họa về bộ dữ liệu của nhóm được trình bày trong Hình 3.4. Đồng thời, nhóm cũng thống kê số lượng từng lớp đối tượng và trực quan lên Hình 3.5.

Chương 4. PHƯƠNG PHÁP CƠ SỞ 4.1. Phát hiện đối tượng

Trong đồ án này, nhóm sử dụng hai phương pháp phát hiện đối tượng SOTA và đề xuất một phương pháp có tên CasDou để đánh giá bộ dữ liệu UIT-DroneFog. Chi tiết phương pháp được trình bày như sau.

4.1.1. Cascade RCNN

Cascade R-CNN là một phương pháp phát hiện đối tượng nhiều giai đoạn. Cascade R-CNN bao gồm nhiều detector được đào tạo với các ngưỡng IoU ngày càng tăng để có thể chọn lọc tuần tự phát hiện các kết quả dương tính giả. Hơn nữa, đầu ra được sử dụng cho những detector sau này như một sự phân phối tốt để đào tạo các detector chất lượng cao hơn trong các giai đoạn sau. Phương pháp này cũng tối ưu hóa việc hồi quy cho phân phối bounding box, được tạo bởi phân phối trước đó nhưng khơng phải là phân phối ban đầu. Cascade R-CNN đã đạt được thành công trong việc cải thiện từng bước các dự đốn và q trình huấn luyện các phân phối.

Hình 4.1 So sánh cấu trúc của Faster R-CNN và Cascade R-CNN

“I” là ảnh đầu vào, “conv” là backbone convolutions, “pool” là region-wise feature extraction, “H” là network head, “B” là bounding box, “C” là classification. “B0” là

4.1.1. Double Heads

Kiến trúc two-head được sử dụng phổ biến trong cơ sở phát hiện đối tượng R- CNN với nhiệm vụ classification và localization. Nó bao gồm convolution head (conv-head) và fully connected head (fc-head). Tuy nhiên, kiến trúc two-head sở hữu ưu điểm ngược nhau đối với từng nhiệm vụ. Cụ thể, conv-head phù hợp với nhiệm