Phát hiện đối tượng trong không ảnh chứa sương mờ dựa trên học sâu (khóa luận tốt nghiệp)

CÁC NGHIÊN CỨU LIÊN QUAN

Phát hiện đối tượng

Phát hiện đối tượng (Object Detection) là thuật ngữ mô tả các nhiệm vụ thị giác máy tính nhằm xác định đối tượng trong ảnh kỹ thuật số Quy trình này kết hợp hai nhiệm vụ chính: Phân loại hình ảnh (Classifier) và Định vị đối tượng (Object Localization) Các kỹ thuật phát hiện đối tượng có thể được phân loại theo nhiều cách khác nhau.

Hình 2.1: Các kỹ thuật trong Phát hiện đối tượng 1

1 “https://robocademy.com/2020/05/01/a-gentle-introduction-to-yolo-v4-for-object-detection-in-ubuntu-20-04/”

Phân loại hình ảnh (Object Classification) là kỹ thuật dự đoán nhãn cho các đối tượng như ô tô, chó, mèo trong một bức ảnh Kỹ thuật này nhằm trả lời câu hỏi “Cái gì ở trong hình?” với đầu vào là một hình ảnh chứa đối tượng và đầu ra là nhãn lớp, ví dụ như một hoặc nhiều số nguyên tương ứng với nhãn lớp đó.

Định vị đối tượng (Object Localization) là quá trình xác định vị trí của các đối tượng trong hình ảnh và đánh dấu chúng bằng Bounding box Kỹ thuật này giúp trả lời câu hỏi "Vật thể nằm ở vị trí nào trong ảnh?" với đầu vào là một hình ảnh chứa một hoặc nhiều đối tượng Kết quả đầu ra là một hoặc nhiều Bounding box được xác định thông qua tọa độ tâm, chiều rộng và chiều cao.

Phát hiện đối tượng (Object Detection) là quá trình xác định vị trí của các đối tượng trong ảnh thông qua việc sử dụng Bounding box và nhãn cho từng đối tượng Đầu vào của quá trình này là một hình ảnh có thể chứa một hoặc nhiều đối tượng, trong khi đầu ra là một hoặc nhiều Bounding box cùng với nhãn tương ứng cho từng đối tượng được xác định.

Phân đoạn thực thể (Instance Segmentation) là kỹ thuật cho phép trích xuất chính xác hình dạng của các đối tượng trong ảnh bằng cách làm nổi bật các pixel cụ thể, thay vì chỉ sử dụng Bounding box như trước đây Kỹ thuật này giúp các thuật toán phân đoạn nhận diện và phân loại các đối tượng một cách chi tiết hơn trong bức ảnh.

2.1.2 Phân loại thuật toán phát hiện đối tượng

Thuật toán Phát hiện đối tượng được chia thành 2 nhóm chính:

Hình 2.2: So sánh sự mô hình two-stage (a) và one-stage (b) [4]

• Two-stage: bao gồm các phương pháp thuộc họ R-CNN (Region-Based

Các mô hình mạng nơ-ron tích chập (CNN) như Fast R-CNN, Faster R-CNN và Mask R-CNN thuộc loại two-stage, bao gồm hai giai đoạn Giai đoạn đầu tiên là trích xuất các vùng ảnh có khả năng chứa đối tượng thông qua anchor box Giai đoạn thứ hai thực hiện phân loại đối tượng và xác định vị trí thông qua hai nhánh: hồi quy Bounding box và hồi quy phân loại Với độ chính xác cao trong dự đoán, các mô hình two-stage thường được áp dụng trong các bài toán định vị và nhận diện vật thể tĩnh, nơi yêu cầu về tốc độ xử lý không quá cao.

• One-stage (hay còn gọi là single-stage): Bao gồm các mô hình thuộc họ

Mô hình one-stage như YOLO, SSD và Retina không sử dụng phần trích chọn vùng đặc trưng như các mô hình two-stage Thay vào đó, chúng coi việc phát hiện đối tượng là một bài toán hồi quy, dựa vào các hộp định sẵn (anchor box) để nhận diện Mặc dù có tốc độ nhanh hơn, độ chính xác của các mô hình single-stage thường thấp hơn so với hai giai đoạn.

Trong các trường hợp nhận dạng đối tượng, đặc biệt là đối tượng theo thời gian thực, việc xử lý nhanh chóng là yếu tố quan trọng hơn cả độ chính xác.

Phát hiện đối tượng đã trở thành công nghệ quan trọng trong nhiều lĩnh vực, bao gồm nhận diện khuôn mặt, phát hiện xe, đếm số người đi bộ, hệ thống bảo mật và xe không người lái Sự tiến bộ trong các phương pháp phát hiện đối tượng không chỉ mang lại lợi ích cho ngành Công nghệ thông tin mà còn hỗ trợ hiệu quả cho các lĩnh vực khác như quân sự, y tế và hàng không.

Phương pháp rút trích đặc trưng ảnh dựa trên học sâu

Rút trích đặc trưng là bước quan trọng trong Phát hiện đối tượng, ảnh hưởng trực tiếp đến hiệu quả của các mô hình Bài viết này sẽ trình bày một số phương pháp rút trích đặc trưng học sâu.

Hình 2.3: Ý tưởng mô phỏng hoạt động của não bộ con người của mạng ANN 2

Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN) hay còn gọi là mạng nơ-ron (NNs) là một hệ thống mạng lưới thần kinh được kết nối chặt chẽ giữa các lớp ANN được phát triển dựa trên ý tưởng mô phỏng hoạt động của não bộ con người, đặc biệt là cách mà các nơ-ron thần kinh tương tác với nhau.

2 https://cs231n.github.io/neural-networks-1/

Deep Neural Networks (DNN) are a type of Artificial Neural Networks (ANNs) characterized by their complex and deeper architecture compared to shallow neural networks.

Mạng nơ-ron sâu có cấu trúc tương tự như mạng nơ-ron nhân tạo, bao gồm ba thành phần chính: lớp đầu vào, các lớp ẩn với số lượng không giới hạn và lớp đầu ra Hình 2.4 minh họa kiến trúc của một mạng học sâu gồm ba lớp.

Mạng nơ-ron sâu hoạt động bằng cách tính toán trọng số cho từng node trong các lớp, với trọng số của node hiện tại là tổng các trọng số từ các node ở lớp đầu vào trước đó Sau đó, trọng số này được chuyển qua hàm kích hoạt phi tuyến tính để xác định đầu ra Các node này đóng vai trò là đầu ra của lớp trước và đầu vào cho lớp tiếp theo Quá trình huấn luyện của mạng bao gồm việc tính toán và tối ưu hóa trọng số cho từng node để cải thiện hiệu suất.

Trong xử lý ảnh, mạng nơ-ron sâu (DNN) sử dụng nhiều lớp để rút trích đặc trưng từ thấp đến cao Các lớp đầu tiên phát hiện các góc cạnh của ảnh, sau đó truyền những đặc trưng này đến các lớp sâu hơn để phân biệt đối tượng một cách rõ ràng hơn DNN cho thấy khả năng mạnh mẽ trong việc giải quyết các bài toán phức tạp liên quan đến hình ảnh.

14 phát hiện đối tượng trong ảnh, nhưng kiến trúc này cũng gặp nhiều trở ngại trong thời đại Big Data

Mạng nơ-ron tích chập (ConvNet/CNN) là một thuật toán Deep Learning có khả năng xử lý hình ảnh đầu vào, tự động gán độ quan trọng cho các đặc trưng và phân biệt chúng So với các thuật toán phân loại khác, mạng nơ-ron tích chập yêu cầu ít công việc tiền xử lý hơn Thay vì phải thiết kế bộ lọc bằng tay, mạng nơ-ron tích chập có khả năng tự học để lựa chọn các bộ lọc tối ưu nhất trong quá trình huấn luyện.

Kiến trúc của nơ-ron tích chập được lấy cảm hứng từ mô hình kết nối của các nơ-ron trong bộ não con người, đặc biệt là hệ thống vỏ thị giác Các nơ-ron này chỉ phản ứng với kích thích trong một khu vực hạn chế của trường thị giác, được gọi là Trường tiếp nhận Nhiều trường tiếp nhận này chồng lên nhau để bao phủ toàn bộ khu vực thị giác.

Hình 2.5: Kiến trúc tổng quan của mô hình CNN 3

3 https://medium0.com/@RaghavPrabhu/understanding-of-convolutional-neural-network-cnn-deep-learning-99760835f148

Mạng nơ-ron tích (Convolutional Neural Networks - CNN) là một trong những phương pháp phổ biến nhất trong xử lý ảnh (Computer Vision), được sử dụng để giải quyết các vấn đề như nhận dạng hình ảnh, phân loại hình ảnh, phát hiện đối tượng và nhận diện khuôn mặt.

Mô hình CNN bao gồm các tầng chính như tầng tích chập (Convolution) để trích xuất đặc trưng, tầng tổng hợp (pooling) nhằm giảm kích thước dữ liệu, và tầng liên kết đầy đủ (fully connected) để thực hiện phân lớp đối tượng.

2.2.2.1 Tầng tích chập (Convolution layer)

Hình 2.6: Minh họa Convolution Layer 4

Tầng tích chập trong mạng nơ-ron tích chập (CNN) có nhiệm vụ trích xuất các đặc trưng từ dữ liệu đầu vào bằng cách sử dụng các bộ lọc để tìm kiếm thông tin quan trọng Quá trình này giúp giảm số chiều dữ liệu cho các lớp ẩn tiếp theo Các giá trị đầu ra từ vùng lọc được tính toán thông qua các hàm kích hoạt như ReLU và Sigmoid, trong đó hàm ReLU hiện đang được ưa chuộng hơn Lớp này đóng vai trò quan trọng nhất trong CNN vì nó thực hiện toàn bộ các phép toán cần thiết Các yếu tố quan trọng của tầng tích chập bao gồm stride, padding, filter map và feature map, với các bộ lọc được áp dụng lên các vùng của hình ảnh để tối ưu hóa quá trình trích xuất đặc trưng.

4 https://www.sciencedirect.com/topics/mathematics/convolutional-layer

16 filter map này được gọi là ma trận 3 chiều, mà bên trong nó là các con số và chúng là trọng số

2.2.2.2 Tầng tổng hợp (Pooling layer)

Tầng tổng hợp trong mạng nơ-ron có vai trò trích chọn đặc trưng và giảm số chiều cho dữ liệu đầu vào, giúp giảm số lượng tham số, rút ngắn thời gian huấn luyện và hạn chế hiện tượng overfitting Tương tự như tầng tích chập, tầng tổng hợp cũng sử dụng bộ lọc để trích xuất các đặc trưng cần thiết từ dữ liệu, nhưng các bộ lọc này không chứa tham số.

Hình 2.7: Minh họa Pooling Layer 5

Các phương pháp phổ biến trong tầng tổng hợp bao gồm MaxPooling và AveragePooling MaxPooling chỉ chọn giá trị cao nhất trong vùng của bộ lọc, trong khi AveragePooling tính toán giá trị trung bình trong vùng đó.

2.2.2.3 Tầng liên kết đầy đủ (Fully connected layer)

Kiến trúc của tầng liên kết đầy đủ tương tự như kiến trúc của mạng nơ-ron nhân tạo, trong đó đầu ra của tầng tích chập và tầng tổng hợp được biểu diễn dưới dạng các ma trận hai chiều hoặc ba chiều Các ma trận này sau đó được làm phẳng thành một vector trước khi được đưa vào tầng liên kết đầy đủ Lớp cuối cùng trong tầng liên kết đầy đủ chính là đầu ra cho bài toán.

5 https://bacninhtrade.com.vn/fully-connected-layer-la-gi/

Nếu tầng liên kết đầy đủ sở hữu dữ liệu hình ảnh, chúng sẽ chuyển đổi dữ liệu này thành các mục chưa được phân chia chất lượng Quá trình này tương tự như việc bỏ phiếu, sau đó sẽ đánh giá để chọn ra hình ảnh có chất lượng cao nhất.

Hình 2.8: Minh họa Fully-connected layer 67

Các phương pháp phát hiện đối tượng liên quan

Năm 2016, Shaoqing Ren và các cộng sự đã phát triển thuật toán Faster R-CNN dựa trên nền tảng Fast R-CNN, loại bỏ việc sử dụng Selective Search và thay vào đó, sử dụng mạng đào tạo để học và trích xuất các vùng đặc trưng Mục tiêu của phương pháp này là đạt được phát hiện đối tượng theo thời gian thực thông qua mạng đề xuất khu vực RPN.

Hình 2.9: Kiến trúc mô hình Faster R-CNN lấy từ bài báo gốc [6]

6 https://nttuan8.com/bai-6-convolutional-neural-network/

7 https://www.javatpoint.com/pytorch-convolutional-neural-network

Faster R-CNN cải tiến quy trình phát hiện đối tượng bằng cách sử dụng Region Proposal Network (RPN) để dự đoán các vùng đề xuất, thay vì phụ thuộc vào Selective Search như Fast R-CNN Hình ảnh đầu vào được xử lý qua một backbone CNN sâu để trích xuất các feature map, từ đó RPN sẽ xác định các khu vực tiềm năng cho việc phát hiện đối tượng.

Mạng đề xuất vùng (Region Proposal Network - RPN) là một mạng đơn giản bao gồm các lớp tích chập (conv) nhằm trích xuất các vùng quan tâm từ bản đồ đặc trưng (feature map) được tạo ra bởi mạng CNN sâu RPN nhận đầu vào là bản đồ đặc trưng và xác định các anchor box có khả năng trở thành vùng đề xuất Sau đó, mạng lọc và giữ lại những anchor box chứa đối tượng, được xác định qua bốn tham số: x_center, y_center, width, và height Đầu ra của RPN bao gồm hai phần: một bộ phân loại (Classifier) để phân loại đối tượng và hồi quy bounding box (Bounding box regression) để xác định khả năng chứa đối tượng Do đó, RPN cũng sử dụng hai hàm mất mát (Loss) cho việc phân loại và xác định bounding box.

Sau khi các khu vực đề xuất được dự đoán từ mạng con RPN, chúng sẽ được điều chỉnh hình dạng thông qua lớp ROI Pooling Lớp này giải quyết vấn đề kích thước của các vùng đề xuất bằng cách sử dụng cửa sổ trượt trên các feature map để tính toán và trả về vector đặc trưng (ROI Region Vector) với kích thước cố định Những vector đặc trưng này sau đó sẽ được đưa vào hai nhánh Classifier và Regression.

Nhánh Classifier gồm 𝐶 đơn vị tương ứng với 𝐶 lớp trong bài toán, bao gồm cả lớp nền Các vector đặc trưng sẽ được đưa qua lớp softmax để tính toán điểm số xác suất dự đoán phân loại lớp đối tượng.

• Đầu ra của nhánh Bounding box regression dùng để cải thiện độ chính xác cho các Bounding box thu được từ mạng con RPN

Cascade R-CNN là một phương pháp phát hiện đối tượng nhiều giai đoạn (multi-stage) được đề xuất bởi Zhaowei Cai và Nuno Vasconcelos [2] Kiến trúc

Bài viết này đề cập đến việc sử dụng 19 để giải quyết hai vấn đề chính liên quan đến suy giảm hiệu suất khi tăng giá trị ngưỡng IoU Thứ nhất, nó giải quyết vấn đề overfitting trong quá trình huấn luyện do giá trị IoU cao gây ra Thứ hai, nó khắc phục sự không khớp về thời gian suy luận giữa IoU mà bộ phát hiện được tối ưu và những giả thuyết đầu vào.

Figure 2.10 illustrates a comparison of the structures of Faster R-CNN and Cascade R-CNN, as referenced in the original paper [2] In this context, "I" represents the input image, "conv" refers to the backbone convolutions, "pool" denotes region-wise feature extraction, "H" stands for the network head, "B" indicates the bounding box, and "C" signifies classification.

Cascade R-CNN là một phương pháp phát hiện đối tượng bao gồm chuỗi máy dò được huấn luyện với ngưỡng IoU tăng dần Mỗi máy dò hoạt động tuần tự để phát hiện và loại bỏ các kết quả false positive Quá trình huấn luyện diễn ra theo từng giai đoạn, trong đó đầu ra của máy dò trước sẽ trở thành đầu vào cho máy dò tiếp theo Điều này giúp các máy dò ở các giai đoạn sau có được đầu vào với phân phối tốt hơn, từ đó nâng cao hiệu quả phát hiện.

Tác giả đã phát hiện ra rằng kiến trúc ba giai đoạn là lựa chọn tối ưu cho các ngưỡng giá trị IoU tăng dần (0.5, 0.6, 0.7) Mặc dù kiến trúc bốn giai đoạn có thể đạt điểm cao nhất ở giá trị 𝐴𝑃 90, nhưng hiệu suất phát hiện đối tượng của nó không cải thiện hoặc thậm chí còn giảm so với kiến trúc ba giai đoạn Do đó, kiến trúc ba giai đoạn, như được thể hiện trong Hình 2.10, là giải pháp hợp lý nhất.

Phương pháp Cascade R-CNN tối ưu hóa hồi quy cho phân phối Bounding box, được xây dựng dựa trên phân phối trước đó thay vì phân phối ban đầu Phương pháp này đã thành công trong việc cải thiện dần các dự đoán và quá trình huấn luyện các phân phối.

Guided Anchoring đề xuất một phương pháp mới sử dụng các mỏ neo mà không cần các kích thước và tỷ lệ co cố định như Faster R-CNN Công thức mà tác giả đưa ra giúp xác định vị trí và hình dạng của một vật thể trong ảnh một cách chính xác.

Trong bài viết này, tọa độ không gian trung tâm được ký hiệu là (𝑥, 𝑦), với 𝑤 là chiều ngang và ℎ là chiều cao Tác giả đã đề xuất một mô-đun sản sinh mỏ neo, được minh họa trong phần gạch đỏ của Hình 2.11 Mô-đun này bao gồm hai nhánh nhằm dự đoán vị trí và hình dạng Đầu vào của mạng là ảnh 𝐼, từ đó mạng sẽ trích xuất được feature map 𝐹 1 Từ feature map 𝐹 1, nhánh dự đoán vị trí sẽ tạo ra một dự đoán chính xác về vị trí.

Bài viết trình bày về 21 bản đồ xác suất cho biết vị trí có thể có của các đối tượng và nhánh dự đoán hình dạng, dự đoán hình dạng phụ thuộc vào vị trí Mạng sẽ tạo ra một tập hợp các điểm neo bằng cách lựa chọn các vị trí có xác suất dự đoán vượt qua ngưỡng nhất định và hình dạng có khả năng xảy ra cao nhất tại mỗi vị trí Do hình dạng mỏ neo có sự khác biệt, các đặc trưng ở các vị trí khác nhau sẽ nắm bắt nội dung trực quan trong các phạm vi khác nhau Để điều chỉnh đặc trưng theo hình dạng mỏ neo, một mô-đun điều chỉnh tính năng được sử dụng Quy trình tạo mỏ neo dựa trên một feature map đơn lẻ, nhưng các phương pháp hiện đại đã chỉ ra rằng việc sử dụng nhiều feature map theo kiến trúc FPN mang lại kết quả cao hơn, vì vậy tác giả đã đề xuất mạng sử dụng đa feature map như thể hiện trong Hình 2.11.

Thông qua thực nghiệm, Guided Anchoring cho thấy các mỏ neo tập trung nhiều hơn ở những vùng chứa đối tượng, từ đó tạo cơ sở tốt cho việc đề xuất đối tượng Điều này giải thích tại sao Guided Anchoring đạt được kết quả ấn tượng Mặc dù số lượng anchors ít hơn 90% so với RPN baseline, nhưng các tác giả đã ghi nhận mức recall cao hơn 9.1% trên tập dữ liệu MS COCO, vượt trội hơn so với các phương pháp khác từ 1.2% đến 2.7%.

Hình 2.11: Minh họa cấu trúc của Guided Anchoring lấy từ bài báo gốc [1]

Các phương pháp phát hiện đối tượng như R-CNN thường áp dụng kiến trúc two-head để thực hiện nhiệm vụ phân loại và định vị Trong các mô hình two-stage, convolution head (conv-head) hoặc fully connected head (fc-head) thường được sử dụng ở giai đoạn cuối để trả về kết quả phân loại và xác định Bounding box Tuy nhiên, Yue Wu và các cộng sự chỉ ra rằng các nghiên cứu trước đây chưa thực sự làm rõ cách thức hoạt động của hai đầu này trong việc thực hiện hai nhiệm vụ.

Hình 2.12: So sánh cấu trúc của kiến trúc sử dụng chung mạng và

Double-Head được lấy từ bài báo gốc [3]

Phương pháp khử sương mờ

2.4.1 Khử sương mờ đơn ảnh

Khử sương mờ trong ảnh là bước tiền xử lý quan trọng cho các tác vụ xử lý ảnh tiếp theo Sự hiện diện của sương, khói và bụi thường gây khó khăn trong việc phân loại và phát hiện đối tượng, dẫn đến kết quả không đạt yêu cầu.

Các nghiên cứu trước [10][11][12] đã đưa ra một công thức đơn giản để ước lượng ảnh hưởng sương mờ trên ảnh như sau:

• 𝑨: Hệ số ánh sáng khí quyển

• 𝐽(𝑡): Ảnh không có sương mờ

Theo công thức này, việc khử sương mờ chỉ cần tính toán giá trị của hai biến 𝑨 và 𝒕(𝒛) Từ công thức (1), chúng ta có thể suy ra kết quả cần thiết.

Phương pháp Dark Prior Channel [13] mang lại hiệu quả cao khi áp dụng mô hình này, dựa trên lý thuyết rằng các vùng ảnh ngoài trời không có sương mờ thường có ít nhất một kênh màu với giá trị cường độ thấp Tuy nhiên, nhiều phương pháp thường gặp khó khăn trong việc ước lượng chính xác bản đồ truyền dẫn, do các giá trị ưu tiên dễ bị ảnh hưởng trong thực tế, dẫn đến kết quả không đạt yêu cầu trong các ứng dụng thực tiễn.

Sự phát triển của Deep Learning đã mở ra một hướng đi mới trong việc xử lý ảnh hưởng của sương mù, nhờ vào sự ra đời của các phương pháp tiên tiến.

DehazeNet và multi-scale CNN (MSCNN) là những phương pháp sử dụng Deep Learning nhằm hồi quy trực tiếp bản đồ truyền dẫn 𝑡(𝑧) Nhờ vào việc sử dụng một lượng lớn dữ liệu để huấn luyện, các phương pháp này đã đạt được những kết quả ấn tượng Trong số đó, Feature Fusion Attention Network và DW-GAN là hai phương pháp nổi bật sẽ được trình bày trong bài viết này.

2.4.2 Feature Fusion Attention Network (FFA-Net)

Hình 2.13: Kiến trúc mạng FFA-Net từ bài báo gốc [16]

FFA-Net là một phương pháp hiệu quả để khử sương trực tiếp từ ảnh đầu vào Các thí nghiệm cho thấy FFA-Net đã vượt qua các phương pháp SOTA trong việc khử sương, đạt được chỉ số PSNR từ 30.23 dB đến 36.39 dB trên bộ dữ liệu Synthetic Objective Testing Set (SOTS) trong các bài kiểm tra trong nhà Kết quả ấn tượng này được tạo ra nhờ vào ba thành phần chính sẽ được trình bày trong các phần tiếp theo.

Mô-đun Feature Attention (FA) kết hợp cơ chế Channel Attention và Pixel Attention, cho phép xử lý các đặc trưng và điểm ảnh không đồng đều FA nhận định rằng sự phân bố sương mờ trên các vùng điểm ảnh là khác nhau, từ đó mang lại tính linh hoạt trong việc xử lý các vùng ảnh có mật độ sương dày mỏng khác nhau.

Cấu trúc khối cơ bản bao gồm Học Tồn Tại Địa Phương (LRL) và Chú Ý Tính Năng, giúp quá trình huấn luyện trở nên ổn định hơn và nâng cao hiệu quả khử sương LRL cho phép mạng tập trung vào các thông tin quan trọng, đồng thời loại bỏ những vùng ít thông tin như vùng sương mỏng.

Hình 2.15: Ảnh minh họa Khối kiến trúc cơ bản [16]

Kiến trúc Feature Fusion Attention (FAA) cho phép trọng số được học thích ứng từ mô-đun FA, nâng cao giá trị của các thông tin quan trọng.

27 trọng Kiến trúc này cũng giữ lại được thông tin của các lớp ban đầu và truyền nó vào các lớp sâu hơn nhớ áp dụng Global Residual Learning

Kiến trúc này cho phép dễ dàng thêm các khối và tăng cường các layer Nhóm tác giả khuyến nghị rằng nếu đáp ứng đủ yêu cầu về phần cứng, người dùng có thể gia tăng số lượng khối trong mô hình để nâng cao độ sâu của mạng, từ đó đạt được kết quả tốt hơn so với mô hình mặc định.

DW-GAN là một phương pháp khử sương được Fu và các cộng sự đề xuất vào năm 2021 trong cuộc thi NITRE challenge Phương pháp này nhằm giải quyết hai vấn đề chính mà nhiều phương pháp khử sương dựa trên CNN hiện tại gặp phải: khử sương với mật độ phân phối không đồng nhất, mặc dù các phương pháp này thường đạt hiệu quả cao trên các ảnh có phân phối sương đều.

Các phương pháp dựa trên CNN gặp phải hai vấn đề chính trong quá trình khử sương Đầu tiên, chúng thường mất mát các chi tiết kết cấu của hình ảnh do sự phân bố sương mù phức tạp Thứ hai, việc thu thập cặp dữ liệu cho quá trình huấn luyện rất khó khăn, dẫn đến việc huấn luyện mô hình trên một số lượng ảnh hạn chế, gây ra hiện tượng overfitting do thiếu dữ liệu đào tạo.

Fu và các cộng sự đã đề xuất một kiến trúc mạng hai nhánh sử dụng biến đổi wavelet rời rạc 2D nhằm cải thiện hiệu quả dehazing Nhánh đầu tiên, gọi là nhánh DWT, tích hợp kiến thức high-frequency vào mạng thông qua phép biến đổi wavelet, giúp giữ lại các thông tin quan trọng trong feature map Nhánh thứ hai, nhánh knowledge adaption, sử dụng Res2Net với trọng số ImageNet đã được đào tạo trước để ngăn chặn overfitting và nâng cao khả năng tổng hợp của mạng Cuối cùng, một lớp chập 7 × 7 đơn giản được áp dụng để kết hợp các đặc trưng từ hai nhánh, tạo ra hình ảnh đã được khử sương.

Bài viết giới thiệu hàm kết hợp mất mát cuối cùng, bao gồm các thành phần như hàm mất mát L1 (𝐿 1), hàm mất mát MS-SSIM (𝐿 𝑆𝑆𝐼𝑀) [22], và hàm mất mát perceptual (𝐿 perceptual) [23], cùng với mất mát adversarial.

𝐿 ad , discriminator trong [24] được sử dụng

Trong đó: α = 0.2, β = 0.001, 𝛾 = 0.005 là các trọng số siêu tham số cho mỗi hàm mất mát

Hình 2.16: Kiến trúc phương pháp khử sương DW-GAN từ bài báo gốc [17].

XÂY DỰNG BỘ DỮ LIỆU PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH CHỨA SƯƠNG MỜ

Khảo sát bộ dữ liệu

Bộ dữ liệu Số lượng hình ảnh Ngữ cảnh Loại sương mờ Năm

FRIDA [25] 90 Ngoài trời Nhân tạo 2010

FRIDA2 [26] 330 Ngoài trời Nhân tạo 2012

Foggy Driving [27] 20,651 Ngoài trời Nhân tạo 2016

Benchmark-M [29] 25,565 Ngoài trời Thực tế 2018

UIT-DroneFog 15,370 Ngoài trời Nhân tạo 2021

Bảng 3.1: Tóm tắt các bộ dữ liệu tài liệu dạng ảnh hiện có

Bộ dữ liệu đề xuất UIT-DroneFog được in đậm

Phát hiện đối tượng trong ảnh có sương mờ là một thách thức quan trọng trong nghiên cứu hiện nay Nhiều bộ dữ liệu sương mờ với các đặc trưng đa dạng đã được phát triển, bao gồm cả dữ liệu thực tế và tổng hợp, được thu thập từ môi trường trong nhà và ngoài trời Thông tin chi tiết về các bộ dữ liệu này được trình bày trong Bảng 3.1.

Bộ dữ liệu FRIDA, ra mắt vào năm 2010, bao gồm 90 hình ảnh được tổng hợp từ 18 cảnh đường phố trong khu vực đô thị, phục vụ cho nghiên cứu và phát triển trong lĩnh vực nhận diện hình ảnh.

FRIDA2, được giới thiệu hai năm sau, bao gồm 66 con đường khác nhau với 330 hình ảnh tổng hợp và 10 cảnh quay, nhằm kiểm tra các thuật toán nâng cao liên quan đến khả năng hiển thị và cải thiện độ tương phản.

Hình 3.1: Hình ảnh minh họa bộ dữ liệu FRIDA [25]

Bộ dữ liệu Foggy Cityscapes và Foggy Driving cung cấp hình ảnh sương mù từ góc nhìn của người lái xe trong các thành phố, với tổng cộng 20,550 và 101 bức ảnh tương ứng Tuy nhiên, hai bộ dữ liệu này có sự trùng lặp về các đối tượng.

31 Hình 3.2: Hình ảnh minh họa bộ dữ liệu Foggy Driving [27]

Hình 3.3: Hình ảnh minh họa bộ dữ liệu RESIDE [28]

Bộ dữ liệu REalistic Single-Image DEhazing (RESIDE) là bộ dữ liệu lớn nhất hiện nay, bao gồm 5 tập con với tổng cộng 429,292 hình ảnh chụp trong nhà và ngoài trời, chứa cả sương mù thực và tổng hợp Mỗi tập con trong bộ dữ liệu này được thiết kế cho các mục đích nghiên cứu và ứng dụng khác nhau.

Bộ dữ liệu UAVDT-Benchmark-M chứa 25,565 hình ảnh không, bao gồm 5,179 hình ảnh sương mù định dạng JPG với kích thước đa dạng Dữ liệu này được thu thập từ nhiều góc máy và vào các thời điểm khác nhau trong ngày.

Hình 3.4: Hình ảnh minh họa bộ dữ liệu UAVDT-Benchmark-M [29]

3.1.2 Lý do xây dựng bộ dữ liệu

Sau khi khảo sát các bộ dữ liệu ảnh sương mù trên toàn thế giới, chúng tôi nhận thấy một số thiếu sót đáng chú ý Đầu tiên, hầu hết các bộ dữ liệu được thu thập từ góc nhìn của xe ô tô hoặc từ một góc máy cố định trên mặt đất, dẫn đến việc hạn chế góc nhìn và chỉ thu thập được ít đối tượng trong khung hình Hơn nữa, góc chụp này không cho phép có cái nhìn toàn cảnh về khu vực có nhiều đối tượng, gây khó khăn trong việc phân tích và nhận diện.

Số lượng đối tượng trong ảnh của các bộ dữ liệu như UAVDT-Benchmark-M không lớn, chủ yếu được quay ở các con đường lớn với mật độ giao thông thưa thớt Điều này làm giảm hiệu quả phát hiện đối tượng khi áp dụng các mô hình này vào thực tế ở những khu vực có giao thông đông đúc như Việt Nam.

Một số bộ dữ liệu có sương mờ được phát triển chủ yếu cho nhiệm vụ khử sương, dẫn đến sự hạn chế và lặp lại trong các loại đối tượng và bối cảnh.

Dựa trên kết quả khảo sát từ các bộ dữ liệu toàn cầu và những thiếu sót khi so sánh với điều kiện giao thông tại Việt Nam, chúng tôi đã quyết định phát triển bộ dữ liệu UIT-DroneFog – bộ dữ liệu không ảnh chứa sương mờ, dựa trên UIT-Drone21 Lựa chọn UIT-Drone21 làm nền tảng là hợp lý vì bộ dữ liệu này phản ánh đặc trưng mật độ giao thông đông đúc tại Việt Nam, bao gồm nhiều bối cảnh từ các thành phố đông dân.

Bộ dữ liệu UIT-Drone21

3.2.1 Tổng quan về bộ dữ liệu UIT-Drone21

Bộ dữ liệu UIT-Drone21 bao gồm 15,370 không ảnh và tập tin nhãn định dạng txt, được thu thập từ máy bay không người lái, với khoảng 600,000 bounding box cho phương tiện giao thông và người đi bộ Dữ liệu được chia thành ba tập: Tập huấn luyện (8,580 ảnh), Tập xác thực (1,061 ảnh) và Tập kiểm tra (5,729 ảnh), với bốn lớp đối tượng: Người đi bộ, Xe máy, Xe ô tô và Xe buýt Trước khi đưa vào mô hình thực nghiệm, các tập dữ liệu sẽ được chuyển đổi từ định dạng gốc (.txt) sang định dạng COCO (.json).

8 https://uit-together.github.io/datasets/

Hình 3.5: Hình ảnh minh họa của bộ dữ liệu UIT-Drone21

3.2.2 Định dạng nhãn dữ liệu của bộ dữ liệu UIT-Drone21

Bộ dữ liệu UIT-Drone21 lưu trữ nhãn dữ liệu ở định dạng COCO (.json), bao gồm ba tập tin chính: train.json, val.json và test_all.json.

Mỗi tập tin nhãn bao gồm 3 khối chính:

• “categories”: khối chứa danh sách các lớp đối tượng xuất hiện trong bộ dữ liệu

{"id": 0,"name": "pedestrian","supercategory": "none"},

Mã định danh của lớp đối tượng

Tên nhãn của lớp đối tượng

Tên lớp đối tượng cha (nếu có)

Bảng 3.2: Mô tả ý nghĩa giá trị các thuộc tính trong khối “categories” (.json)

• “images”: khối chứa thông tin của ảnh

Mã định danh của ảnh

Tên tập tin ảnh

Bảng 3.3 mô tả ý nghĩa giá trị các thuộc tính trong khối "image" (.json), trong đó "annotations" là khối chứa thông tin nhãn cho từng đối tượng có trong ảnh của bộ dữ liệu.

Diện tích Bounding box

Tọa độ Bounding box bao gồm x, y, width, height

Mã định danh của nhãn

Mã định danh của ảnh

< segmentation> Thông tin về tọa độ đa giác bao quanh đối tượng

Giá trị thông tin ở trường segmentation là của 1 đối tượng riêng lẻ (iscrowd = 0) hoặc của cả 1 nhóm đối tượng (iscrowd = 1)

Bảng 3.4: Mô tả ý nghĩa giá trị các thuộc tính trong khối “annotations” (.json).

Quy trình tạo sương mờ cho ảnh

Để tạo hiệu ứng sương mờ cho ảnh, chúng tôi đã sử dụng lớp Fog từ thư viện imgaug 9 Lớp này có khả năng mô phỏng lớp sương mờ dày đặc với mật độ không đều, nhờ vào các tham số mặc định Mỗi hình ảnh trong bộ dữ liệu UIT-Drone21 sẽ được xử lý qua hàm tạo sương, từ đó tạo ra các hình ảnh chứa sương mờ tương ứng trong bộ dữ liệu UIT-DroneFog.

9 https://imgaug.readthedocs.io/en/latest/source/api_augmenters_weather.html#imgaug.augmenters.wea ther.Fog

Chúng tôi đã điều chỉnh các tham số 𝑎𝑙𝑝ℎ𝑎_𝑚𝑖𝑛 = 0.75 và 𝑑𝑒𝑛𝑠𝑖𝑡𝑦_𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑖𝑒𝑟 = 0.7 để tối ưu hóa lớp sương mờ cho ảnh có độ phân giải lớn, trong khi giữ nguyên các thông số khác theo giá trị mặc định của thư viện.

Hình 3.6: Minh họa kết quả mô phỏng sương mờ

Thông số 𝑎𝑙𝑝𝑕𝑎_𝑚𝑖𝑛, với giá trị mặc định trong khoảng (0.7 − 0.9), xác định mức tối thiểu của giá trị alpha khi mô phỏng sương mờ trên hình ảnh, và việc tăng giá trị này sẽ giúp sương mờ phân bố đều hơn Ngoài ra, thông số density_multiplier, có giá trị mặc định từ (0.4 − 0.9), đóng vai trò là hệ số nhân cho lớp alpha mask.

Tăng giá trị tham số này sẽ làm cho sương mờ trở nên dày đặc hơn tại những khu vực xuất hiện Kết quả mô phỏng sương mờ được minh họa trong Hình 3.6.

Phân tích bộ dữ liệu

Hình 3.7: Hình ảnh minh họa bộ dữ liệu UIT-DroneFog

UIT-DroneFog có thể được xem như là phiên bản sương mờ của bộ dữ liệu UIT-Drone21 với 15,370 không ảnh chứa sương khoảng 600,000 bounding box của

4 lớp đối tượng gồm: Pedestrian, Motor, Car, Bus Ngoài ra, bộ dữ liệu UIT- DroneFog có những điểm nổi bật riêng sau:

Quá trình mô phỏng sương mờ sử dụng hình ảnh chất lượng cao từ máy bay không người lái, với ba độ phân giải khác nhau (3840x2160, 1920x1080, 1440x1080), tạo ra những hình ảnh đa dạng và sắc nét.

39 sương mờ của bộ dữ liệu không bị mờ, biến dạng mà vẫn giữ được chất lượng ban đầu của bộ dữ liệu UIT-Drone21

Mỗi hình ảnh trong bộ dữ liệu của nhóm đều mang tính độc đáo, với sự khác biệt rõ rệt về phân bố sương mù, góc chụp và độ cao Đặc biệt, nhóm đã tiến hành mô phỏng sương mù không chỉ tại một địa điểm cố định mà còn ở nhiều thành phố khác nhau trên khắp Việt Nam.

Bộ dữ liệu thu thập từ đường phố Việt Nam chủ yếu chứa hình ảnh xe máy, trong khi xe buýt xuất hiện rất ít, tạo ra sự mất cân bằng trong việc phát hiện đối tượng Thách thức này ảnh hưởng đến hiệu quả của các mô hình phát hiện hoạt động Thêm vào đó, kích thước nhỏ và sự xuất hiện dày đặc của xe máy trên đường cũng làm cho việc nhận diện các đối tượng này trở nên khó khăn hơn.

THỰC NGHIỆM VÀ ĐÁNH GIÁ

Dữ liệu thực nghiệm

Bộ dữ liệu huấn luyện UIT-DroneFog bao gồm tổng cộng 15,370 không ảnh, được chia thành ba tập con: tập dữ liệu huấn luyện với 8,582 ảnh có nhãn, tập đánh giá gồm 1,061 ảnh, và tập kiểm tra chứa 5,729 ảnh.

Mô tả chi tiết ở Hình 4.1 bên dưới

Hình 4.1: Số lượng ảnh trong các tập dữ liệu của bộ dữ liệu UIT-DroneFog

Sau khi chia bộ dữ liệu thành các tập phục vụ cho quá trình thực nghiệm, chúng tôi đã tiến hành thống kê sự phân phối các lớp dữ liệu trong các tập này và kết quả thu được được trình bày trong Hình 4.2.

Training set Validation set Testing set

Hình 4.2: Biểu đồ thể hiện số lượng các đối tượng trong mỗi tập dữ liệu của bộ dữ liệu UIT-DroneFog

Biểu đồ cho thấy sự mất cân bằng trong phân phối các lớp đối tượng trong các tập dữ liệu thực nghiệm Cụ thể, lớp đối tượng Motor chiếm số lượng vượt trội so với các lớp khác trong cả ba tập dữ liệu, trong khi lớp đối tượng Pedestrian lại có số lượng tương đối ít Nguyên nhân có thể do bộ dữ liệu được thu thập tại các giao lộ lớn, nơi có mật độ xe máy cao và ít người đi bộ, phản ánh đặc trưng giao thông tại Việt Nam.

Đối tượng Bus cho kết quả số liệu thấp nhất trong ba tập do dữ liệu được thu thập từ các video ngắn, không đủ để chụp nhiều tuyến xe buýt Mặc dù số lượng ảnh trong tập huấn luyện gấp 8 lần tập kiểm thử, nhưng số liệu của đối tượng Bus và Car trong tập kiểm thử lại lần lượt cao hơn gấp 3 và 1.8 lần so với tập huấn luyện.

Training set Validation set Testing set

Mô tả thực nghiệm

4.2.1 Mô tả quy trình thực nghiệm

Bài toán “Phát hiện đối tượng trong không ảnh chứa sương mờ” được thực hiện theo quá trình sau:

Quá trình cài đặt và chạy thực nghiệm bài toán bắt đầu với việc sử dụng bộ dữ liệu UIT-Drone21, trong đó các tập tin nhãn đã được phân chia thành các tập dữ liệu tương ứng Tiếp theo, bộ dữ liệu này sẽ được cải thiện bằng cách thêm sương mờ thông qua hàm Fog Augmentation từ thư viện imgaug.

Sau khi thu thập, bộ dữ liệu sẽ được sử dụng để huấn luyện các mô hình như Guided Anchoring, Double-Head và Cascade R-CNN Mỗi mô hình sẽ được đánh giá sau mỗi epoch, và epoch có kết quả mAP cao nhất sẽ được lưu giữ trong suốt quá trình huấn luyện.

Sau khi hoàn tất quá trình huấn luyện, chúng ta sử dụng epoch với giá trị mAP cao nhất để kiểm thử trên tập dữ liệu kiểm thử Kết quả được đo bằng các chỉ số như AP và IoU Đầu ra của mô hình bao gồm hình ảnh có chứa Bounding box thể hiện vị trí của các lớp đối tượng và Label tương ứng cho từng đối tượng.

Toàn bộ quá trình thực nghiệm được thực hiện trên GPU GeForce RTX 2080Ti với bộ nhớ 11,018 MiB Chúng tôi đã huấn luyện mô hình bằng framework MMDetection V2.10.0 Mỗi phương pháp đều được nhóm nghiên cứu áp dụng và đánh giá kỹ lưỡng.

Cấu hình có điểm mAP cao nhất được cung cấp trên trang MMDetection Github có thể chạy trên một GPU GeForce RTX 2080 Ti duy nhất Đối với Guided Anchoring, nhóm đã sử dụng cấu hình mặc định GA-Faster R-CNN với backbone X-101-32x4d-FPN, được huấn luyện trong 12 epoch Tiếp theo, backbone R-50-RPN được áp dụng cho Double-Head và cũng được huấn luyện trong 12 epoch Bên cạnh đó, phương pháp Cascade R-CNN sử dụng backbone X-101 để cải thiện hiệu suất.

Phương pháp CasDou sử dụng backbone R-50-RPN để đảm bảo so sánh công bằng với cấu hình mặc định của Double-Head, đồng thời tối ưu hóa việc sử dụng tài nguyên máy.

Phương pháp đánh giá

Intersection over Union (IoU) là tiêu chuẩn tối ưu để đánh giá mức độ trùng lắp giữa bounding box của Ground truth và bounding box của mô hình dự đoán trong các hệ thống phát hiện đối tượng Để thực hiện đánh giá độ đo IoU, chúng ta cần sử dụng các giá trị cụ thể.

• Ground-truth Bounding boxes: vị trí thực tế của đối tượng

• Predicted Bounding boxes: vị trí dự đoán đối tượng của mô hình

Hình 4.4: Công thức minh họa để tính IoU 11

10 https://github.com/open-mmlab/mmdetection

• Area of Overlap là vùng overlap (giao) giữa ground-truth Bounding boxes và predicted Bounding boxes

Khu vực Union là vùng giao thoa giữa các bounding box thực tế và bounding box dự đoán Trong các phương pháp mà chúng tôi đã thử nghiệm, một kết quả IoU được coi là tốt khi đạt giá trị từ 0.5 trở lên.

Chúng ta có thể đánh giá mô hình dựa trên việc thay đổi một ngưỡng và quan sát giá trị của Precision và Recall

AP, hay đường cong Precision-Recall, được tính bằng tổng trọng số trung bình của các giá trị Precision tại từng ngưỡng, kết hợp với trọng số gia tăng của Recall tại ngưỡng thứ n so với ngưỡng trước đó (n - 1).

Trong đó: 𝑃 𝑛 và 𝑅 𝑛 lần lượt là giá trị Precision và Recall tại ngưỡng thứ 𝑛

Precision là chỉ số đánh giá độ tin cậy của dự đoán, với giá trị cao cho thấy độ chính xác của các điểm tìm được cũng cao Recall đo lường khả năng của mô hình trong việc phát hiện toàn bộ ground-truth, với giá trị càng cao thì tỷ lệ bỏ sót các điểm thực sự đúng càng thấp Các giá trị TP (True Positive), FP (False Positive) và FN (False Negative) cũng được định nghĩa rõ ràng trong ngữ cảnh này.

• TP (True Positive): số lượng điểm dữ liệu đúng được model dự đoán đúng

• FP (False Positive): số lượng điểm dữ liệu sai được model dự đoán đúng

11 https://www.pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection/

• FN (False Negative): số lượng điểm dữ liệu đúng được model dự đoán là sai

Precision và Recall đều nằm trong khoảng [0,1] và có ý nghĩa khác nhau tùy thuộc vào từng bài toán cụ thể Do đó, không thể chỉ dựa vào giá trị cao của Precision hoặc Recall để đánh giá hiệu suất của mô hình.

Mean Average Precision (𝑚𝐴𝑃) là trung bình điểm 𝐴𝑃 (𝐴𝑃 𝑠𝑐𝑜𝑟𝑒) của n class và được định nghĩa bằng công thức sau:

Độ đo 𝑚𝐴𝑃 được nhóm sử dụng để đánh giá kết quả thực nghiệm từ COCO API, được tính cho 10 IoU từ 50% đến 95% với bước 5%, thường được biểu diễn là 𝐴𝑃@50: 5: 95 Giá trị 𝑚𝐴𝑃 cao cho thấy mô hình có khả năng dự đoán chính xác tốt hơn Để đánh giá các giá trị IoU đơn lẻ, nhóm sử dụng hai giá trị phổ biến nhất.

IoU 50% và 75% lần lượt được viết dưới dạng 𝐴𝑃@50 (AP 𝟓𝟎 ) , 𝐴𝑃@75 (AP 𝟕𝟓 ) Chi tiết xem thêm tại MS-COCO (https://cocodataset.org/#detection-eval).

Kết quả thực nghiệm và đánh giá

Chúng tôi đã sử dụng API MS-COCO để tính toán độ đo 𝑚𝐴𝑃 cho ba phương pháp phát hiện đối tượng SOTA trên bộ dữ liệu UIT-DroneFog, với kết quả chi tiết được trình bày trong Bảng 4.1.

Kiến trúc Pedestrian Motor Car Bus mAP AP 𝟓𝟎 AP 𝟕𝟓

Bảng 4.1: Bảng kết quả thực nghiệm với thông số mặc định trên các phương pháp phát hiện đối tượng Kết quả tốt nhất được in đậm (%)

4.4.2 Trực quan hóa kết quả

• Trường hợp model dự đoán tốt (good case)

Hình 4.6: Ảnh kết quả dự đoán tốt khi chạy thực nghiệm với thông số mặc định

(a) Guided Anchoring, (b) Double-Head, (c) Cascade R-CNN

Nhận xét cho thấy hầu hết các lớp đối tượng được mô hình phát hiện chính xác, hiếm khi xảy ra tình trạng bỏ sót hoặc chồng lắp Bounding box Tuy nhiên, phương pháp Guided Anchoring cho thấy các Bounding box của lớp đối tượng kém hoàn hảo hơn so với hai phương pháp khác, và một số đối tượng có kích thước quá nhỏ không được phát hiện.

• Trường hợp model dự đoán xấu (bad case)

Hình 4.7: Ảnh kết quả dự đoán xấu khi chạy thực nghiệm với thông số mặc định

(a) Guided Anchoring, (b) Double-Head, (c) Cascade R-CNN

Trong nghiên cứu, lớp đối tượng Car và Bus gặp khó khăn trong việc phát hiện do mô hình Guided Anchoring và Double-Head, dẫn đến các Bounding box không chính xác trong mô hình Cascade R-CNN Hơn nữa, lớp đối tượng Pedestrian thường bị nhầm lẫn với đối tượng Motor và gặp vấn đề chồng lắp Bounding box.

Kết quả từ ba phương pháp chạy thực nghiệm trên bộ dữ liệu UIT-DroneFog cho thấy Guided Anchoring có điểm mAP thấp nhất là 31.90%, nhưng lại đạt kết quả tốt nhất trong việc phát hiện các lớp đối tượng Pedestrian (2.60%) và Motor (35.10%) Ngược lại, phương pháp Double-Head thể hiện ưu thế khi phát hiện lớp đối tượng Car và Bus, với điểm mAP cho Bus đạt 39.20%, cao hơn 5.40% so với Guided Anchoring Mặc dù Cascade R-CNN là phương pháp multi-stage, nhưng chỉ đạt hiệu quả cao với lớp đối tượng Pedestrian, trong khi các chỉ số mAP, AP 50 và AP 75 đều thấp hơn so với Double-Head Điều này nhấn mạnh sự cần thiết của việc sử dụng fully connected head cho tác vụ phân loại đối tượng và convolution head cho tác vụ xác định vị trí.

50 đối tượng có hiệu quả hơn thay vì sử dụng fully connected head cho cả hai tác vụ như trong kiến trúc multi-stage của Cascade R-CNN

Xét riêng về các lớp đối tượng:

Lớp đối tượng Pedestrian có điểm số 𝑚𝐴𝑃 dự đoán thấp nhất trong bộ dữ liệu, mặc dù số lượng đối tượng trong cả ba tập dữ liệu không quá ít Đặc biệt, lớp này dễ bị nhầm lẫn với lớp Motor.

Lớp đối tượng Motor có số lượng lớn nhưng tỷ lệ phát hiện thấp do dễ bị nhầm lẫn với đối tượng Pedestrian và thường bị phát hiện sai Nguyên nhân là trong những bối cảnh có mật độ Motor cao, các đối tượng này thường bị che khuất lẫn nhau Thêm vào đó, ở một số góc máy, kích thước của lớp Motor quá nhỏ và không có sự khác biệt rõ rệt giữa Motor và Pedestrian.

Xe ô tô là đối tượng có điểm số 𝑚AP cao nhất trong nghiên cứu Tuy nhiên, loại phương tiện này thường bị phát hiện thiếu hoặc bị nhầm lẫn với một số loại phương tiện khác không được đề cập trong bộ dữ liệu.

Lớp Bus trong bộ dữ liệu mặc dù có phân phối thấp nhất nhưng đạt kết quả phát hiện gần bằng lớp Motor Điều này chủ yếu do hình dạng và kích thước đặc trưng của các đối tượng Bus rất khác biệt, thường lớn hơn nhiều so với ba loại đối tượng còn lại Sự khác biệt này giúp các mô hình phát hiện đối tượng Bus dễ dàng hơn, mặc dù dữ liệu huấn luyện ít.

ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KẾT QUẢ

Đề xuất cải tiến kết quả phát hiện đối tượng trong không chứa sương mờ 51 1 Cross Entropy Loss

Kết quả từ Chương 4 cho thấy phương pháp Double-Head mang lại hiệu quả tốt nhất trong việc phát hiện đối tượng trong ảnh bị sương mờ Để nâng cao kết quả này, chúng tôi đã đề xuất phương pháp CasDou, kết hợp giữa Double-Head và Cascade R-CNN Sự kết hợp này được thực hiện do cả hai phương pháp đều dựa trên Faster R-CNN, cho phép chúng hoạt động hiệu quả cùng nhau Chúng tôi kỳ vọng rằng kiến trúc multi-stage của Cascade R-CNN sẽ cải thiện hiệu suất của Double-Head Trong các thí nghiệm mở rộng, nhóm chỉ sử dụng backbone 𝑅 − 50 − 𝑅𝑃𝑁 cho CasDou do hạn chế về tài nguyên máy.

Nhóm nghiên cứu nhận thấy rằng các mô hình đang gặp khó khăn với tính chất mất cân bằng của bộ dữ liệu Cụ thể, hai đối tượng chính là Người đi bộ và Xe máy chiếm tỷ lệ phân bố cao nhất trong bộ dữ liệu UIT-DroneFog, lần lượt khoảng 13,31% và 77,84%, dẫn đến việc dễ bị nhầm lẫn khi phát hiện trong hình ảnh.

Hàm mất mát là yếu tố quan trọng trong phát hiện đối tượng, ảnh hưởng trực tiếp đến độ chính xác của mô hình Trong quá trình huấn luyện, hàm mất mát được sử dụng để đánh giá các tham số weights của mô hình, với giá trị hàm mất mát càng thấp thì độ chính xác dự đoán càng cao Vì vậy, chúng tôi đã thay đổi hàm mất mát trong phương pháp Double-Head và CasDou từ Cross Entropy (CE) sang Focal Loss (FL) nhằm giảm thiểu sự nhầm lẫn giữa các lớp khi dự đoán đối tượng.

Hàm mất mát Cross Entropy (CE) là một trong những hàm mất mát phổ biến nhất hiện nay, còn được biết đến với tên gọi là mất mát logarit hoặc mất mát logistic Hàm này so sánh xác suất của lớp dự đoán với kết quả đầu ra mong muốn, giúp cải thiện độ chính xác trong các mô hình học máy.

Mục tiêu của lớp thực tế là đạt giá trị 0 hoặc 1, và việc tính điểm số hoặc mất mát được áp dụng như một hình phạt cho các trường hợp mà mô hình dự đoán sai Điều này được thực hiện dựa trên khoảng cách giữa dự đoán và giá trị kỳ vọng thực tế.

Hình phạt logarit trong hàm mất mát Cross Entropy tạo ra điểm số cao cho các chênh lệch gần bằng 1, trong khi điểm số thấp cho các chênh lệch nhỏ gần bằng 0 Do đó, hàm mất mát này có xu hướng phạt nặng đối với những dự đoán sai, thay vì thưởng cho các dự đoán đúng.

“điểm” cho các dự đoán đúng Hàm mất mát CE [31] được định nghĩa theo công thức sau:

ℒ 𝐶𝐸 (𝑝𝑡) = − 𝑙𝑜𝑔(𝑝𝑡) Trong đó: 𝑝𝑡 là xác suất xảy ra sự kiện của lớp 𝑡

Focal Loss là hàm mất mát được giới thiệu lần đầu trong RetinaNet, nổi bật với khả năng xử lý vấn đề mất cân bằng giữa hai lớp Positive và Negative Trong các bài toán có sự mất cân bằng nghiêm trọng, số lượng Bounding box của lớp Negative thường vượt trội so với lớp Positive, dẫn đến việc sử dụng hàm mất mát CE có thể làm giảm đáng kể độ chính xác trong việc dự đoán các trường hợp Positive Điều này xảy ra vì CE phạt các trường hợp Negative nặng hơn, trong khi lại cho điểm thấp hơn cho các trường hợp Positive.

Focal loss (FL) là một cải tiến của cross-entropy (CE), nhằm cân bằng các lớp bằng cách gán trọng số cao hơn cho các mẫu khó hoặc dễ bị phân loại sai Focal loss giúp cải thiện hiệu suất phân loại trong các bài toán không cân bằng lớp.

• 𝛼 : là hệ số cân bằng cho Focal Loss, mặc định là 0.25

• 𝛾 : là hệ số chuyển đổi, mặc định là 2.0

Đánh giá kết quả đề xuất

Pedest rian Motor Car Bus mAP AP 𝟓𝟎 AP 𝟕𝟓

Bảng 5.1: Bảng kết quả thực nghiệm mở rộng khi thay đổi hàm mất mát

Kết quả tốt nhất được in đậm (%)

5.2.2 Trực quan hóa kết quả

Hình 5.1 Ảnh kết quả dự đoán thử nghiệm Double-Head và CasDou với hàm mất mát Cross Entropy và Focal Loss

Khi áp dụng phương pháp CasDou với hàm CE mặc định, lớp đối tượng Motor đã cải thiện tới 34.50%, tuy nhiên, 𝑚𝐴𝑃 chỉ tăng 0.1% Sự cải thiện hạn chế này được giải thích do mô hình gặp khó khăn trong việc xử lý sự mất cân bằng giữa các lớp đối tượng trong bộ dữ liệu UIT-DroneFog.

Sau khi thay thế hàm CE bằng hàm FL, cả hai mô hình Double-Head và CasDou đều đạt hiệu quả cao hơn ở mỗi lớp và điểm mAP, với điểm mAP của CasDou tăng 34.70%, cao hơn 1.00% so với cấu hình mặc định, 1.50% so với Double-Head mặc định và 1.8% so với Cascade R-CNN Việc phát hiện sai các đối tượng kích thước nhỏ và thiếu đối tượng Car, Bus đã giảm đáng kể Chúng tôi đã cải thiện hiệu quả ở ba lớp: Pedestrian, Car và Bus Kết quả và hình ảnh trực quan chứng minh rằng hàm Focal Loss mang lại hiệu quả tốt hơn trong việc phát hiện đối tượng trong ảnh giao thông có sương mù.

Dựa trên nghiên cứu về các phương pháp khử sương, chúng tôi quyết định bổ sung bước tiền xử lý dữ liệu bằng cách khử sương mờ sử dụng mô hình pre-trained của hai phương pháp FFA-Net và DW-GAN với ảnh từ bộ dữ liệu UIT-DroneFog Sau đó, chúng tôi tiến hành huấn luyện phương pháp CasDou, phương pháp có kết quả cao nhất hiện tại Kết quả thực nghiệm mở rộng sẽ được trình bày chi tiết.

Phương pháp khử sương Pedestrian Motor Car Bus mAP AP 𝟓𝟎 AP 𝟕𝟓 Ảnh sương mờ 2.70 34.20 59.30 42.50 34.70 50.20 40.30 FFA-Net 2.10 33.40 58.40 46.20 35.00 49.60 41.90

DW-GAN 2.30 32.70 58.30 39.60 33.20 47.80 38.10 Bảng 5.2: Bảng kết quả thực nghiệm mở rộng với phương pháp CasDou khi thêm bước khử sương Kết quả tốt nhất được in đậm (%)

Hình 5.2: Ảnh kết quả dự đoán thử nghiệm mở rộng với phương pháp CasDou khi thêm bước khử sương

Kết quả thực nghiệm cho thấy FFA-Net cải thiện hiệu quả phát hiện đối tượng, đặc biệt là đối tượng Bus, với điểm 𝐴𝑃 tăng thêm 3.7%, đạt 35.00% - cao nhất trong thử nghiệm FFA-Net giúp CasDou giảm thiểu việc phát hiện nhầm các đối tượng không liên quan thành đối tượng Bus, đồng thời tạo ra các Bounding box chính xác hơn Ngược lại, phương pháp DW-GAN làm giảm giá trị tất cả các điểm 𝐴𝑃 Khi trực quan hóa kết quả, ảnh được khử sương bằng FFA-Net thể hiện màu sắc chân thực và chi tiết không bị biến đổi nhiều hơn so với ảnh khử sương bằng DW-GAN Sự khác biệt này có thể do mô hình pre-trained DW-GAN được huấn luyện trên bộ dữ liệu NH-HAZE và NH-HAZE2, trong khi FFA-Net sử dụng bộ dữ liệu ảnh sương nhân tạo RESIDE, phù hợp với bộ sương nhân tạo UIT-DroneFog.

Ứng dụng Phát hiện đối tượng trong không ảnh chứa sương mờ

5.3.1 Giới thiệu Ứng dụng Phát hiện đối tượng trong không ảnh chứa sương mờ (Aerial Object Detection) là ứng dụng cho phép người dùng sử dụng ảnh (được chụp hoặc tải từ thiết bị) để phát hiện đối tượng trong không ảnh gồm: Pedestrian, Motor, Car, Bus Ứng dụng có thể được sử dụng trên nền tảng web hoặc nền tảng di động (Android và IOS)

• Back-end: Python 3, Flask Ứng dụng có thể được sử dụng thông qua đường link URL sau: https://aerialobjectdetection.netlify.app/

Hình 5.3: Mô tả usecase tổng quát ứng dụng Aerial Object Detection

Hình 5.4: Userflow tổng quát ứng dụng Aerial Object Detection

5.3.2.3 Thiết kế kiến trúc Ứng dụng được xây dựng trên kiến trúc client-server Ở phía client, người dùng có thể sử dụng ứng dụng trên cả nền tảng di động và web Phía server, hệ thống sử dụng Flask cùng Python 3 để các yêu cầu từ API, sau đó xử lý tác vụ phát hiện đối tượng và các chức năng liên quan

Hình 5.5: Kiến trúc ứng dụng Aerial Object Detection

Chức năng 1: Dự đoán đối tượng

Màn hình Tên màn hình

(b) Màn hình chụp/chọn ảnh

(c) Màn hình ảnh cần dự đoán

(d) Màn hình chờ dự đoán

(e) Màn hình kết quả dự đoán

(f) Màn hình chi tiết kết quả dự đoán

Bảng 5.3: Danh sách màn hình chức năng Dự đoán đối tượng

59 Hình 5.6: Chức năng Dự đoán đối tượng trên di động

Hình 5.7: Chức năng Dự đoán đối tượng trên web

Chức năng 2: Xem lịch sử ảnh dự đoán

Màn hình Tên màn hình

(a) Màn hình danh sách lịch sử ảnh

(b) Màn hình thông tin chi tiết của 1 ảnh trong lịch sử ảnh Bảng 5.4: Danh sách màn hình chức năng Xem lịch sử ảnh dự đoán

61 Hình 5.8: Chức năng Xem lịch sử ảnh dự đoán trên di động

Hình 5.9: Chức năng Xem lịch sử ảnh dự đoán trên web

Chức năng 3: Xem thông tin ứng dụng

Hình 5.10: Chức năng Xem thông tin ứng dụng trên di động

Hình 5.11: Chức năng Xem thông tin ứng dụng trên web

5.3.3 Cài đặt và kiểm thử

Quá trình kiểm thử được thực hiện trên môi trường:

• Hệ điều hành: Android 10 trở lên, trình duyệt Chrome

• Bộ nhớ tối thiểu: >80MB (được đề xuất)

Tiêu đề	Phát Hiện Đối Tượng Trong Không Ảnh Chứa Sương Mờ Dựa Trên Học Sâu
Tác giả	Trần Tuấn Minh
Người hướng dẫn	TS. Nguyễn Tấn Trần Minh Khang
Trường học	Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành	Kỹ Sư Ngành Công Nghệ Phần Mềm
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	105
Dung lượng	6,08 MB