Nghiên cứu và đánh giá phương pháp phát hiện phương tiện giao thông trong không ảnh (khóa luận tốt nghiệp)

TỔNG QUAN ĐỀ TÀI

Động lực nghiên cứu

Sự phát triển công nghệ đã thúc đẩy nghiên cứu về các dự án thành phố thông minh, trong đó hệ thống quản lý giao thông thông minh đóng vai trò quan trọng Việc phát hiện phương tiện giao thông từ hình ảnh giúp giám sát và phân tích hành vi tham gia giao thông, từ đó cải thiện tình trạng ùn tắc và tính toán lưu lượng giao thông Để nâng cao độ chính xác, cần có lượng lớn dữ liệu hình ảnh, thường được thu thập qua hệ thống camera an ninh Tuy nhiên, việc lắp đặt camera gặp nhiều hạn chế về vị trí, tầm nhìn và điều kiện ngoại cảnh Do đó, việc sử dụng thiết bị bay không người lái để thu thập hình ảnh từ trên không đang trở thành xu hướng được ưa chuộng, giúp giảm chi phí và thời gian thực hiện.

Phát hiện phương tiện giao thông trong không gian có nhiều ứng dụng quan trọng trong cuộc sống, bao gồm giám sát giao thông để theo dõi và tính toán lưu lượng phương tiện, từ đó đề xuất các biện pháp cải thiện tình trạng ùn tắc và tai nạn Trong lĩnh vực quân sự, công nghệ này giúp phát hiện các phương tiện lạ xâm nhập vào khu vực nhạy cảm của quân đội và hỗ trợ trong việc theo dõi các phương tiện chiến đấu trên chiến trường.

Ba yếu tố giao thông quan trọng giúp doanh nghiệp xác định vị trí xây dựng địa điểm kinh doanh hiệu quả và lựa chọn vị trí đặt bảng quảng cáo phù hợp, từ đó tiếp cận đúng khách hàng mục tiêu.

Trong lĩnh vực nghiên cứu khoa học, việc phát hiện phương tiện giao thông trong không ảnh ngày càng trở nên phổ biến Nhiều bộ dữ liệu như VEDAI (2016), UAVDT (2018), và VisDrone (2018) đã được công bố, cùng với các cuộc thi như ODAI (2018) và VisDrone Challenge, nhằm khuyến khích các nhà nghiên cứu phát triển các phương pháp nâng cao hiệu quả cho bài toán này.

Trong bối cảnh công nghệ ngày càng phát triển, việc phát hiện phương tiện giao thông trong không ảnh trở thành một nhiệm vụ quan trọng không chỉ trong giám sát giao thông mà còn ảnh hưởng đến nhiều lĩnh vực khác Sự gia tăng các phương pháp học sâu tiên tiến đã thúc đẩy nghiên cứu về việc phát hiện phương tiện giao thông trong không ảnh, thu hút sự quan tâm của nhiều nhà nghiên cứu Do đó, tôi đã quyết định thực hiện đề tài “Nghiên cứu và đánh giá phương pháp phát hiện phương tiện giao thông trong không ảnh”.

Phát biểu bài toán

Hình 1.1 Đầu vào và đầu ra của bài toán [6]

Bài toán phát hiện phương tiện giao thông trong không ảnh sử dụng ảnh chụp từ camera UAV (.jpg, png) để nhận diện và cung cấp thông tin cơ bản về từng phương tiện.

4 phương tiện giao thông có trong ảnh đầu vào, bao gồm vị trí và nhãn của loại phương tiện quan tâm (Hình 1.1).

Các thách thức

Trước đây, UAV chủ yếu được sử dụng trong quân sự, nhưng gần đây đã được áp dụng rộng rãi trong lĩnh vực dân sự Do đó, việc phát hiện phương tiện giao thông từ không ảnh vẫn còn là một khái niệm mới mẻ.

Do đó, bài toán đang phải đối mặt với nhiều thách thức

Dữ liệu thu được từ camera trên UAV gặp nhiều thách thức tương tự như trong việc phát hiện phương tiện giao thông trong ảnh Các yếu tố như kích thước, hình dạng phương tiện, địa điểm, thời tiết và ánh sáng đều ảnh hưởng đến chất lượng hình ảnh Cụ thể, hình ảnh chụp từ góc cao hoặc trong điều kiện ánh sáng phức tạp như trời tối và sương mù sẽ làm cho việc phân biệt đối tượng trở nên khó khăn Thêm vào đó, tốc độ di chuyển của UAV cũng có thể dẫn đến hiện tượng mờ đối tượng trong ảnh khi thiết bị hoạt động nhanh.

Hình 1.2 Một số thách thức của bài toán [6]

Hiện nay, có nhiều nghiên cứu sử dụng các kiến trúc mạng học sâu khác nhau để phát hiện đối tượng, nhưng độ chính xác của từng mạng lại không đồng nhất Các mạng này thường được thử nghiệm trên các bộ dữ liệu phổ biến như MS COCO và Pascal VOC Đặc biệt, bài toán phát hiện phương tiện giao thông trong không ảnh vẫn còn mới mẻ, đòi hỏi cần có nhiều nghiên cứu và thực nghiệm để tìm ra phương pháp hiệu quả hơn.

Mục tiêu và phạm vi nghiên cứu

Trong phạm vi đề tài này, tôi sẽ tập trung nghiên cứu các vấn đề sau:

• Tìm hiểu tổng quan bài toán phát hiện đối tượng và tập trung vào đối tượng phương tiện giao thông trên miền dữ liệu không ảnh

Bài viết này sẽ cung cấp cái nhìn tổng quan về bộ dữ liệu không ảnh UAVDT, đặc biệt là bộ dữ liệu UAVDT-Benchmark-M, được thiết kế cho bài toán phát hiện đối tượng trong lĩnh vực phương tiện giao thông.

Trong bài viết này, chúng ta sẽ khám phá các phương pháp học sâu tiên tiến trong việc phát hiện đối tượng, cụ thể là ứng dụng vào bài toán phát hiện phương tiện giao thông trong không ảnh Các phương pháp nổi bật bao gồm Faster R-CNN, D2Det, DetectoRS, TOOD và VFNet, mỗi phương pháp đều có những ưu điểm riêng, góp phần nâng cao hiệu quả phát hiện và nhận diện phương tiện.

• Cài đặt thực nghiệm các phương pháp Faster R-CNN, D2Det, DetectoRS, TOOD, VFNet trên bộ dữ liệu UAVDT-benchmark-M

• Phân tích, đánh giá và so sánh các phương pháp dựa trên kết quả thu được từ các mô hình đã huấn luyện

• Lựa chọn mô hình tốt nhất trong các mô hình đã huấn luyện để xây dựng ứng dụng demo

• Tổng hợp nội dung đã thực hiện và viết báo cáo.

Đóng góp khóa luận

Các đóng góp của đề tài bao gồm:

• Đóng góp về lý thuyết:

Hệ thống lại kiến thức tổng quan về lĩnh vực Thị giác máy tính, đặc biệt là bài toán phát hiện đối tượng Nêu rõ các phương pháp rút trích đặc trưng dựa trên học sâu Đồng thời, tổng hợp các phương pháp phát hiện đối tượng tiêu biểu như R-CNN, D2Det, DetectoRS, TOOD và VFNet.

Chúng tôi đã thực hiện các thí nghiệm bằng cách huấn luyện các mô hình Faster R-CNN, D2Det, DetectoRS, TOOD và VFNet trên bộ dữ liệu UAVDT-benchmark-M Các mô hình này được đánh giá trên tập test và từng thuộc tính của dữ liệu UAVDT-Benchmark-M, từ đó cung cấp cái nhìn chi tiết về hiệu quả của các mô hình state-of-the-art trong việc phát hiện phương tiện giao thông từ không ảnh Kết quả thu được từ các mô hình này đã được sử dụng để phát triển một ứng dụng minh họa, cho phép phát hiện các loại phương tiện như ô tô, xe tải và xe buýt trong không ảnh.

Phan Thị Hồng Cúc, Nguyễn Thành Hiệp, Võ Duy Nguyên, và Nguyễn Tấn Trần Minh Khang đã có những đóng góp đáng kể trong nghiên cứu khoa học với bài báo "Phát hiện phương tiện giao thông trong không ảnh với nhiều tình huống khác nhau", được trình bày tại Hội thảo Quốc gia lần thứ XXIV về Điện tử, Truyền thông và Công nghệ Thông tin – REV-ECIT 2021 Bài báo đã được đăng và góp phần quan trọng vào lĩnh vực nghiên cứu công nghệ thông tin.

Cấu trúc báo cáo

Báo cáo được trình bày trong 5 chương, nội dung được tóm tắt như sau:

Chương 1 của đề tài cung cấp cái nhìn tổng quan về động lực nghiên cứu, nêu rõ bài toán cần giải quyết, các thách thức gặp phải, cùng với mục tiêu và phạm vi nghiên cứu Ngoài ra, chương này cũng trình bày các đóng góp chính của đề tài, giúp người đọc hiểu rõ hơn về tầm quan trọng và ý nghĩa của nghiên cứu này.

Chương 2 của bài viết sẽ tổng quan về thị giác máy tính và bài toán phát hiện đối tượng, đồng thời trình bày các kiến thức học sâu liên quan Nội dung sẽ bao gồm các phương pháp rút trích đặc trưng dựa trên học sâu và các phương pháp phát hiện đối tượng sử dụng công nghệ học sâu, nhằm cung cấp cái nhìn toàn diện về các xu hướng và kỹ thuật hiện đại trong lĩnh vực này.

• Chương 3: Bộ dữ liệu UAVDT Trình bày tổng quan về bộ dữ liệu

UAVDT và chi tiết hơn về UAVDT-Benchmark-M dành cho bài toán phát hiện phương tiện giao thông trong không ảnh

• Chương 4: Thực nghiệm và đánh giá Trình bày về quá trình thực nghiệm, phương pháp đánh giá và phân tích kết quả

• Chương 5: Kết luận và hướng phát triển Tổng kết kết quả đạt được trong đề tài cũng như hướng phát triển trong tương lai.

CÁC NGHIÊN CỨU LIÊN QUAN

Thị giác máy tính

Thị giác máy tính (Computer Vision) là một lĩnh vực công nghệ cho phép máy tính thu thập và phân tích thông tin từ hình ảnh và video, từ đó thực hiện các hành động hoặc đưa ra đề xuất dựa trên dữ liệu thu được Trong khi Trí tuệ nhân tạo (Artificial Intelligence) giúp máy tính có khả năng suy nghĩ, thì Thị giác máy tính mang đến khả năng nhìn, quan sát và hiểu thế giới xung quanh.

Thị giác máy tính tương tự như thị giác con người, nhưng với khả năng xử lý nhanh hơn Con người cần thời gian để phân biệt các vật thể, khoảng cách, chuyển động và phát hiện lỗi trong hình ảnh Trong khi đó, thị giác máy tính sử dụng dữ liệu và thuật toán để huấn luyện máy móc thực hiện những nhiệm vụ này trong thời gian ngắn hơn Hệ thống được đào tạo có thể kiểm tra sản phẩm hoặc theo dõi dây chuyền sản xuất, phân tích hàng nghìn sản phẩm mỗi phút và phát hiện các lỗi mà con người có thể bỏ lỡ, từ đó vượt trội hơn khả năng của con người trong nhiều trường hợp.

2.1.2 Một số bài toán nổi bật

Một số bài toán phổ biến trong lĩnh vực Computer Vision:

• Phân loại ảnh (Image classification): là một bài toán với mục đích dự đoán lớp của đối tượng trong ảnh

Định vị đối tượng (Object localization) là quá trình xác định vị trí của một hoặc nhiều đối tượng trong hình ảnh, đồng thời vẽ các bounding box xung quanh những đối tượng đó.

Phát hiện đối tượng (Object detection) là một bài toán quan trọng trong lĩnh vực thị giác máy tính, kết hợp giữa phân loại ảnh và định vị đối tượng Nhiệm vụ chính của nó là xác định vị trí của các đối tượng trong ảnh, vẽ bounding box cho một hoặc nhiều đối tượng, và phân loại chúng theo các lớp khác nhau.

Truy vết đối tượng (Video object tracking) là một bài toán quan trọng trong lĩnh vực xử lý video, nhằm xác định vị trí của một hoặc nhiều đối tượng trong từng khung hình (frame) của video.

Phát hiện đối tượng

Phát hiện đối tượng là thuật ngữ chỉ các nhiệm vụ thị giác máy tính nhằm xác định các đối tượng trong ảnh kỹ thuật số Quy trình này kết hợp hai nhiệm vụ chính: phân loại ảnh và định vị đối tượng, cho phép phát hiện một hoặc nhiều đối tượng trong cùng một bức ảnh Chúng ta có thể phân biệt ba bài toán này dựa trên đầu vào và đầu ra của chúng.

• Phân loại ảnh: dự đoán lớp của đối tượng trong ảnh o Đầu vào: Một ảnh với một đối tượng o Đầu ra: Nhãn lớp của đối tượng

Định vị đối tượng là quá trình xác định vị trí của các đối tượng trong ảnh thông qua việc sử dụng bounding box Đầu vào của quá trình này là một bức ảnh có chứa một hoặc nhiều đối tượng, trong khi đầu ra là một hoặc nhiều bounding box được xác định bởi tọa độ tâm, chiều rộng và chiều cao của các đối tượng.

Phát hiện đối tượng là quá trình xác định vị trí của các đối tượng trong ảnh thông qua việc sử dụng bounding box, đồng thời cung cấp nhãn cho từng đối tượng Đầu vào của quá trình này là một bức ảnh có thể chứa một hoặc nhiều đối tượng, trong khi đầu ra bao gồm một hoặc nhiều bounding box cùng với nhãn tương ứng của chúng.

Hình 2.1 Ví dụ phân biệt 3 bài toán của Computer Vision 1

Các phương pháp giải quyết bài toán Phát hiện đối tượng được chia thành 2 nhóm chính:

Phương pháp phát hiện đối tượng 1 giai đoạn (one-stage/single-stage object detection) không sử dụng phần trích xuất vùng có khả năng chứa đối tượng (RoI) như trong Faster-RCNN Thay vào đó, các mô hình này coi việc định vị đối tượng như một bài toán hồi quy với bốn thông số (x, y, w, h) và sử dụng anchor để phát hiện đối tượng Mặc dù nhanh chóng, độ chính xác của các mô hình 1 giai đoạn thường kém hơn so với phương pháp 2 giai đoạn, và chúng thường được áp dụng cho nhận dạng đối tượng Một số mô hình tiêu biểu bao gồm You Only Look Once (YOLO), Single Shot MultiBox Detector (SSD) và RetinaNet.

Phương pháp phát hiện đối tượng 2 giai đoạn (two-stage object detection) bao gồm hai bước chính: đầu tiên, mô hình sẽ trích xuất các vùng có khả năng chứa đối tượng thông qua các anchor box; sau đó, nó sẽ phân loại đối tượng và xác định vị trí bằng cách chia thành hai nhánh ở phần cuối của mô hình.

1 Nguồn: https://medium.com/zylapp/review-of-deep-learning-algorithms-for-object-detection-c1f3d437b852

Mô hình Object Classification và Bounding Box Regression, bao gồm các kiến trúc như Region-Based Convolutional Neural Networks (R-CNN), được sử dụng để giải quyết các bài toán định vị và nhận diện vật thể tĩnh trong hình ảnh Những mô hình này yêu cầu độ chính xác cao nhưng không đặt nặng vấn đề tốc độ.

Phương pháp rút trích đặc trưng dựa trên học sâu

Mạng nơ-ron nhân tạo (ANN) hay mạng nơ-ron sâu (DNN) là mô hình học máy được phát triển dựa trên cấu trúc và chức năng của hệ thần kinh, trong đó các nơ-ron được liên kết với nhau để xử lý và truyền tải thông tin.

Hình 2.2 Nơ-ron sinh học 2 Một mạng NN gồm 3 tầng:

• Tầng vào (input layer): Là tầng bên trái cùng của mạng, thể hiện cho các đầu vào của mạng

• Tầng ra (output layer): Là tầng bên phải cùng của mạng, thể hiện cho các đầu ra của mạng

2 Nguồn: https://cs231n.github.io/neural-networks-1/

Tầng ẩn trong mạng nơ-ron (NN) là lớp nằm giữa tầng đầu vào và tầng đầu ra, đóng vai trò quan trọng trong quá trình suy luận logic của mạng Mạng NN có thể được cấu trúc với một tầng ẩn hoặc hai tầng ẩn, mỗi cấu trúc đều mang lại những khả năng khác nhau trong việc xử lý và phân tích dữ liệu.

Hình 2.3 Kiến trúc Neural Network 2

Trong mạng nơ-ron, mỗi nút hoạt động như một nơ-ron sigmoid, nhưng hàm kích hoạt có thể khác nhau Thông thường, để thuận tiện trong tính toán, các hàm kích hoạt được sử dụng đồng nhất Số lượng nơ-ron ở mỗi tầng có thể thay đổi tùy thuộc vào bài toán cụ thể, nhưng thường thì các tầng ẩn sẽ có số lượng nơ-ron bằng nhau Hơn nữa, các nơ-ron giữa các tầng thường được kết nối đầy đủ, tạo thành một mạng kết nối hoàn chỉnh.

Hình 2.4 Nơ-ron trong Neural Network 2

Mạng nơ-ron tích chập (CNN) là một mô hình học sâu tiên tiến, được sử dụng để phân loại hình ảnh Mỗi ảnh đầu vào sẽ trải qua các lớp Convolution với bộ lọc, lớp Pooling, và các lớp kết nối đầy đủ (fully connected) Cuối cùng, hàm Softmax được áp dụng để phân loại đối tượng với xác suất từ 0 đến 1.

Lớp tích chập là lớp đầu tiên trong mạng nơ-ron tích chập, có nhiệm vụ trích xuất các đặc trưng từ ảnh đầu vào Lớp này duy trì mối quan hệ giữa các pixel bằng cách học các đặc trưng thông qua các ô vuông nhỏ trong dữ liệu Quá trình này thực hiện phép toán với hai đầu vào: ma trận ảnh và bộ lọc, và đầu ra là ma trận được gọi là Feature map.

Hình 2.6 Ví dụ đầu vào của Convolution layer 4

3 Nguồn: https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5- way-3bd2b1164a53?gisbc5b09bc63

Hình 2.7 Ví dụ minh họa quá trình hoạt động của Convolution layer 4

Lớp pooling được áp dụng ngay sau lớp convolution nhằm giảm kích thước của mỗi feature map trong khi vẫn bảo toàn thông tin quan trọng Có nhiều loại lớp pooling khác nhau để phục vụ cho các mục đích khác nhau trong quá trình xử lý dữ liệu.

• Max Pooling: Lấy giá trị lớn nhất từ mỗi mẫu con của feature map

• Average Pooling: Lấy giá trị trung bình từ mỗi mẫu con của feature map

• Sum Pooling: Lấy tổng của các giá trị trong mỗi mẫu con của feature map

4 Nguồn: https://nttuan8.com/bai-6-convolutional-neural-network/

Fully connected là phương pháp kết nối phổ biến trong mạng nơ-ron (NN), trong đó lớp phía sau kết nối hoàn toàn với lớp phía trước Trong mạng nơ-ron tích chập (CNN), lớp fully connected chuyển đổi ma trận đầu ra từ lớp pooling trước đó thành vector đặc trưng Cuối cùng, hàm kích hoạt như softmax hoặc sigmoid được sử dụng để phân loại đầu ra.

Khi xây dựng mạng CNN với nhiều lớp convolution sẽ xảy ra hiện tượng Vanishing Gradient dẫn tới kết quả học không tốt và ResNet (Residual Network)

[10] đã được phát triển để giải quyết vấn đề đó

ResNet đã giành vị trí thứ nhất trong cuộc thi ILSVRC 2015 với tỉ lệ lỗi chỉ 3.57% Không những thế, nó còn đứng đầu trong cuộc thi ILSVRC and COCO

In 2015, significant advancements were made in computer vision with ImageNet Detection, ImageNet Localization, COCO Detection, and COCO Segmentation Today, various ResNet architecture variants exist, differing in the number of layers, such as ResNet-18, ResNet-34, ResNet-50, ResNet-101, and ResNet-152 These variants are named ResNet, followed by a specific layer count.

Thuật toán lan truyền ngược (Backpropagation) là một kỹ thuật quan trọng trong huấn luyện mạng nơ-ron, hoạt động bằng cách tính toán gradient của hàm chi phí từ lớp đầu ra đến lớp đầu vào cho từng tham số (trọng số) của mạng Sau đó, Gradient Descent được áp dụng để cập nhật các tham số này Quá trình này được lặp lại cho đến khi các tham số hội tụ Một hyperparameter, gọi là số Epoch, xác định số lần mà tập huấn luyện được duyệt qua và các trọng số được cập nhật Nếu số lượng vòng lặp quá ít, mạng có thể không đạt được kết quả tốt, trong khi nếu quá nhiều vòng lặp, thời gian huấn luyện sẽ kéo dài.

Trong thực tế, giá trị của Gradient thường giảm dần khi đi xuống các lớp thấp hơn trong mạng nơ-ron Điều này dẫn đến việc các cập nhật từ Gradient Descent không có tác động đáng kể đến trọng số của các lớp đó, khiến chúng không thể hội tụ và làm giảm hiệu quả của mạng Hiện tượng này được gọi là Vanishing Gradients.

ResNet, tương tự như các mạng CNN truyền thống, bao gồm các lớp convolution, pooling và fully connected Để giải quyết vấn đề Vanishing Gradient, ResNet áp dụng kết nối "tắt" đồng nhất cho phép thông tin xuyên qua một hoặc nhiều lớp, tạo thành các Residual Block.

Hình 2.9 minh họa một mũi tên cong từ đầu vào X đến đầu ra của Residual block, cho thấy việc bổ sung đầu vào này vào đầu ra của layer (được biểu thị bằng dấu cộng trong hình) Điều này giúp ngăn chặn tình trạng đạo hàm bằng 0, vì đầu vào X vẫn được cộng thêm vào.

Hình 2.9 Mạng CNN truyền thống và mạng ResNet [10]

Phương pháp phát hiện đối tượng dựa trên học sâu

2.4.1 Phương pháp phát hiện đối tượng họ R-CNN

Bài toán phát hiện đối tượng kết hợp giữa phân loại ảnh và định vị đối tượng trong ảnh có một hoặc nhiều đối tượng Một thách thức lớn của mô hình CNN truyền thống là không xác định được số lượng đối tượng trong ảnh, điều này gây khó khăn cho việc thiết kế output layer hiệu quả Để giải quyết vấn đề này, nhóm phương pháp R-CNN (Region with CNN feature) được phát triển bởi Ross Girshick và các cộng sự, bao gồm ba mô hình chính: R-CNN, Fast R-CNN và Faster R-CNN.

Hình 2.10 Kiến trúc của R-CNN [11] Ý tưởng của R-CNN [11] gồm 2 giai đoạn:

Giai đoạn 1 của quy trình sử dụng thuật toán Selective Search nhằm tạo ra các vùng đề xuất khả thi chứa đối tượng trong ảnh Đầu vào của quá trình này là ảnh màu, và kết quả đầu ra là khoảng 2000 vùng đề xuất tiềm năng cho việc nhận diện đối tượng.

Trong giai đoạn 2, mỗi vùng đề xuất từ giai đoạn 1 sẽ được xác định đối tượng và vị trí cụ thể của nó Các vùng đề xuất này sẽ được điều chỉnh về kích thước đồng nhất để làm đầu vào cho mạng CNN Mạng CNN sẽ chuyển đổi các RoI thành các vector đặc trưng, sau đó các vector này sẽ được đưa vào thuật toán SVM để phân loại đối tượng và sử dụng regression bounding box để xác định bốn thông số điều chỉnh cho vùng đề xuất phù hợp với đối tượng.

Hình 2.11 Kiến trúc của Fast R-CNN [12]

Fast R-CNN, tương tự như R-CNN, vẫn sử dụng thuật toán Selective Search để lấy ra các vùng đề xuất, nhưng không tách 2000 vùng ra khỏi ảnh Thay vào đó, Fast R-CNN đưa toàn bộ bức ảnh vào backbone ConvNet để tạo ra feature map Các feature map này sau đó được xử lý qua RoI pooling layer, và đầu ra từ layer này sẽ được chuyển tiếp qua các lớp fully connected (FC) để tạo thành các vector đặc trưng Cuối cùng, các vector này được sử dụng để phân lớp đối tượng và điều chỉnh bounding box, xác định 4 thông số cần thiết để khớp vùng đề xuất với đối tượng.

Fast R-CNN khác với R-CNN ở chỗ nó tạo ra bản đồ đặc trưng (feature map) cho toàn bộ ảnh và sau đó lấy các vùng đề xuất từ bản đồ đó, trong khi R-CNN tách riêng từng vùng đề xuất trước khi áp dụng CNN Nhờ vào việc tối ưu hóa tính toán thông qua Vectorization, Fast R-CNN hoạt động nhanh hơn đáng kể.

Mặc dù Fast R-CNN đã cải thiện tốc độ so với R-CNN, nhưng việc sử dụng thuật toán Selective Search để lấy ra khoảng 2000 vùng đề xuất vẫn khiến mô hình không đạt tốc độ thời gian thực Để khắc phục vấn đề này, Faster R-CNN đã được phát triển bằng cách loại bỏ thuật toán Selective Search, giúp đạt được tốc độ gần thời gian thực.

Hình 2.12 Kiến trúc của Faster R-CNN [1]

Faster R-CNN bao gồm hai giai đoạn giống như R-CNN và Fast-RCNN Tuy nhiên, thay vì sử dụng phương pháp Selective Search, Faster R-CNN sử dụng Mạng Đề Xuất Vùng (RPN) để tạo ra các vùng đề xuất có khả năng chứa đối tượng.

Mạng Đề Xuất Vùng (RPN) là một công nghệ đơn giản dùng để phát hiện các vùng tiềm năng chứa đối tượng RPN tiếp nhận đầu vào là bản đồ đặc trưng được trích xuất từ CNN backbone Các cửa sổ trượt trên bản đồ đặc trưng sẽ được chuyển đổi thành vector đặc trưng Những vector này sau đó được xử lý qua lớp phân loại và lớp hồi quy để tạo ra các vùng đề xuất.

Do không áp dụng Selective Search, RPN ban đầu phải xác định các anchor box có thể là các proposal Qua RPN, chỉ những anchor box chắc chắn chứa đối tượng mới được giữ lại Như vậy, chúng ta có thể xác định đầu ra của lớp hồi quy và lớp phân loại đã đề cập ở trên.

• Classification layer dự đoán xác suất chứa đối tượng của proposal

• Regression layer dự đoán 4 thông số để điều chỉnh anchor box khớp với đối tượng

Sau khi thực hiện dự đoán, nhiều anchor bị chồng chéo, do đó cần áp dụng phương pháp non-maxima suppression để loại bỏ các anchor trùng lặp Cuối cùng, dựa vào xác suất dự đoán, RPN sẽ chọn ra N anchor, với N có thể là 2000, 1000 hoặc thậm chí ít hơn.

Các vùng đề xuất thu từ RPN sẽ được Faster R-CNN xử lý qua lớp RoI pooling, sau đó được chuyển đổi thành vector và truyền qua hai nhánh Classification và Regression giống như Fast R-CNN Cần lưu ý rằng hai nhánh Classification và Regression của Fast R-CNN có sự khác biệt so với RPN.

The classification branch includes a C unit for the C class in object detection tasks, which encompasses the background class Feature vectors are processed through a softmax layer to obtain classification scores, indicating the probability that each proposal belongs to a specific class.

• Đầu ra của nhánh bounding box regression dùng để cải thiện độ chính xác cho các proposal thu được từ RPN

Hình 2.14 Kiến trúc của D2Det [2]

D2Det [2] được công bố tại hội nghị CVPR 2020 bởi Jiale Cao cùng cộng sự trong bài báo “D2Det: Towards High Quality Object Detection and Instance

Segmentation” D2Det [2] là phương pháp phát hiện đối tượng 2 giai đoạn dựa trên

• Giai đoạn 1: tương tự Faster R-CNN, D2Det sử dụng RPN để thu được các vùng đề xuất có khả năng chứa đối tượng

In Stage 2, D2Det introduces dense local regression and discriminative RoI pooling as alternatives to the regression and classification branches of Faster R-CNN Dense local regression effectively addresses the object localization challenge, while discriminative RoI pooling focuses on enhancing classification accuracy.

Mục tiêu của nhánh hồi quy bounding-box trong các phương pháp phát hiện đối tượng hai giai đoạn là định vị đối tượng thông qua việc sử dụng bounding box bao quanh Tương tự, mục tiêu của hồi quy cục bộ dày đặc cũng nhằm định vị đối tượng bằng cách sử dụng các bounding box.

Dense local regression xem ma trận 𝑘 × 𝑘 từ quá trình RoI Pooling hoặc RoIAlign như 𝑘² đặc trưng cục bộ liền kề trong không gian Mỗi đặc trưng cục bộ được biểu diễn bằng 𝑝𝑖 với các thông số 𝑙𝑖 và 𝑟𝑖.

BỘ DỮ LIỆU UAVDT

THỰC NGHIỆM VÀ ĐÁNH GIÁ

Tiêu đề	Nghiên cứu và đánh giá phương pháp phát hiện phương tiện giao thông trong không ảnh
Tác giả	Phan Thị Hồng Cúc
Người hướng dẫn	TS. Nguyễn Tấn Trần Minh Khang
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Kỹ sư ngành Kỹ thuật phần mềm
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	99
Dung lượng	3,78 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Ren, S., He, K., Girshick, R., & Sun, J. (2016). Faster R-CNN: towards real- time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6), 1137-1149	Khác
[3] Qiao, S., Chen, L. C., & Yuille, A. (2021). Detectors: Detecting objects with recursive feature pyramid and switchable atrous convolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp.10213-10224)	Khác
[4] Feng, C., Zhong, Y., Gao, Y., Scott, M. R., & Huang, W. (2021, October). Tood: Task-aligned one-stage object detection. In 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (pp. 3490-3499). IEEE Computer Society	Khác
[5] Zhang, H., Wang, Y., Dayoub, F., & Sunderhauf, N. (2021). Varifocalnet: An iou-aware dense object detector. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 8514-8523)	Khác
[6] Du, D., Qi, Y., Yu, H., Yang, Y., Duan, K., Li, G., ... & Tian, Q. (2018). The unmanned aerial vehicle benchmark: Object detection and tracking. In Proceedings of the European conference on computer vision (ECCV) (pp. 370- 386)	Khác
[7] Razakarivony, S., & Jurie, F. (2016). Vehicle detection in aerial imagery: A small target detection benchmark. Journal of Visual Communication and Image	Khác
[8] Zhu, P., Wen, L., Du, D., Bian, X., Hu, Q., & Ling, H. (2020). Vision meets drones: Past, present and future. arXiv preprint arXiv:2001.06303	Khác
[10] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778)	Khác
[11] Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587)	Khác
[12] Girshick, R. (2015). Fast r-cnn. In Proceedings of the IEEE international conference on computer vision (pp. 1440-1448)	Khác
[14] Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., & Wei, Y. (2017). Deformable convolutional networks. In Proceedings of the IEEE international conference on computer vision (pp. 764-773)	Khác
[15] Cai, Z., & Vasconcelos, N. (2018). Cascade r-cnn: Delving into high quality object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6154-6162)	Khác