Kết quả thực nghiệm mô hình phân vùng

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video (Trang 102 - 104)

CHƯƠNG 3 THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO

3.1.3. Kết quả thực nghiệm mô hình phân vùng

Mạng PRM trong pha sản sinh mặt nạ vùng sử dụng kiến trúc mạng ResNet-50 [31] được huấn luyện trước trên tập dữ liệu ImageNet [20]. Khác với PRM, Mask R-CNN được trang bị với một mạng tháp đặc trưng dùng để trích chọn đặc trưng tại các độ phân giải khác nhau. Các trọng số huấn luyện trước, cùng với các tham số còn lại, sau đó được hoàn thiện trên tập huấn luyện PASCAL VOC 2012. Các tham số còn lại của PRM và Mask R-CNN được thảo luận chi tiết trong [96], và [30] tương ứng. Mạng SharpMask [66] được sử dụng để tạo ra các đề xuất vùng.

Bảng 3.1. So sánh kết quả của mô hình sử dụng với các phương pháp khác sử dụng nhiều phương pháp tạo mặt nạ huấn luyện khác nhau [48]

Phương pháp Phương pháp tạo mặt nạ mAP50

Mask R-CNN [30] Mức điểm ảnh 51.4

DeepMask [44] Mức điểm ảnh 41.7

PRM [96] Mức ảnh 26.8

DeepMask [44] Mức hộp bao 8.1

Mô hình sử dụng Mức ảnh 41.7

Một số kết quả trực quan với số lượng đối tượng được phân vùng trong một ảnh từ 1 đến 3 được thể hiện trong hình 3.3. Phương pháp luận án kế thừa cũng được so sánh với một số phương pháp phân vùng phổ biến khác dựa trên mạng huấn luyện đầy đủ khác với độ chính xác trung bình mAP đạt ở mức 0.5. So với Mask R-CNN phương pháp [48] có hiệu năng thực thi tốt hơn theo hai cách tạo mặt nạ dùng trong huấn luyện, một là sử dụng ở mức bounding box và

một là ở mức ảnh để tạo ra các nhãn trong ảnh huấn luyện (bảng 3.1). Tuy nhiên khi so sánh với Mask R-CNN huấn luyện trên tập nhãn hình thành theo mức điểm ảnh, phương pháp luận án sử dụng vẫn cần phải cải tiến mạnh mẽ hơn nữa mới theo kịp về hiệu năng thực thi, đặc biệt là cải tiến thành phần sinh mặt nạ và phương pháp sinh đề xuất vùng.

Hình 3.5. Hiệu năng phân lớp trên dữ liệu PASCAL VOC 2012 [48] Kích thước của đối tượng và số lượng đối tượng có trong một ảnh có ảnh hưởng mạnh đến hiệu năng thực thi của mô hình. Hình 3.5 minh họa hiệu năng thực thi của mô hình được luận án lựa chọn dùng để phân đoạn với kích thước các đối tượng khác nhau và với số lượng đối tượng khác nhau. Biểu đồ hình 3.5 cho thấy độ chính xác của mô hình Mask R-CNN huấn luyện trên mặt nạ sinh ra dựa trên mức điểm ảnh cao hơn một chút so với mô hình huấn luyện trên mặt nạ được sinh ra bằng phương pháp huấn luyện. Mặc dù biểu đồ hình 3.5(b) cho thấy chất lượng phân vùng tỷ lệ nghịch với số lượng đối tượng cần phân vùng trong ảnh, nhưng với bài toán mà đối tượng cần khoanh vùng chỉ là một thì độ chính xác đạt được cũng tương đối cao, trên 65 mAP.

Thực nghiệm phân vùng trên ảnh chứa một đối tượng được lựa trọn từ tập dữ liệu PASCAL VOC 2012 cho thấy tốc độ thực thi tuy không bằng YOLACT (độ chính xác thấp hơn) nhưng tương đương với Mask R-CNN và có thể chấp nhận được.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video (Trang 102 - 104)

Tải bản đầy đủ (PDF)

(138 trang)