Phân vùng thực thể bằng Mask R-CNN

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video (Trang 99)

CHƯƠNG 3 THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO

3.1.2.1. Phân vùng thực thể bằng Mask R-CNN

Sử dụng nhánh phát sinh mặt nạ vùng tập mặt nạ vùng đối tượng đã được sinh ra, gán nhãn trên tập ảnh huấn luyện và có thể được sử dụng độc lập trong pha huấn luyện của mạng phân đoạn ảnh bất kỳ. Tùy thuộc vào đặc trưng của từng ứng dụng mà mạng phân đoạn phù hợp được lựa chọn. Ví dụ nếu mục tiêu phân đoạn thực thể cần theo thời gian thực khơng cần độ chính xác cao thì YOLACT là một lựa chọn tốt, hay mạng phân vùng DeepLab [15] có thể được chọn nếu cần phân đoạn ngữ nghĩa. Do đặc trưng của bài tốn đang nghiên cứu cần độ chính xác cao trong phân lớp và tận dụng các bounding box đã được trích chọn, phân lớp cùng với các đặc trưng của nó trong pha nhận nên mạng phân vùng đối tượng Mask R-CNN được lựa chọn. Tốc độ phân vùng của mạng Mask R-CNN được gia tăng đáng kể khi sử dụng các bounding box sẵn có thay vì phải trích chọn đề xuất vùng thơng qua mạng RPN.

Hình 3.3. Mơ hình phân vùng thực thể Mask R-CNN

Mask R-CNN là một kỹ thuật phân vùng thực thể đối tượng xác định từng điểm ảnh thuộc đối tượng nào trong ảnh thay vì chỉ xác định các bounding

box. Mask R-CNN mở rộng Faster R-CNN bằng cách thêm nhánh dự đoán mặt nạ đối tượng trên mỗi đề xuất vùng. Mask R-CNN bao gồm hai giai đoạn: phát sinh đề xuất vùng, sau đó phân lớp các đề xuất vùng và phát sinh các bounding box và mặt nạ như trong hình 3.3. Nhánh phía trên dùng dự đốn bounding box và lớp đối tượng trên ảnh. Tuy nhiên nhánh này không được sử dụng do các bounding box cùng với nhãn của đối tượng đã được dự đoán trong pha phát hiện đối tượng trước đó mà sử dụng FCN trên các vùng trích chọn này. Nhánh dưới sử dụng một FCN làm nhiệm vụ đánh nhãn cho mỗi điểm ảnh trong vùng bounding box để xây dựng mặt nạ đối tượng.

Với một mạng nơron tích chập bình thường được sử dụng cho dị tìm và nhận dạng đối tượng thường gồm các tầng nhân chập, các tầng trung gian và tầng cuối. Để giảm kích thước ở tầng cuối thường là một vector có cùng kích thước với số lớp và cho biết điểm số dự đoán của mỗi lớp. FCN loại bỏ các tầng trung gian và thay thế tầng cuối cùng bằng một số bước tích chập cho ra số lượng đặc trưng cùng kích thước với số lớp. Sau q trình học thích hợp FCN cho ra điểm số dự đoán lớp cho tất cả các điểm ảnh của lớp cuối cùng. Mỗi lớp nhận được một “bản đồ nhiệt”. Phần phân đoạn của Mask R-CNN sẽ sử dụng kết quả “bản đồ nhiệt” như trên và sau đó tiến hành giải tích chập (deconvolution) và tăng kích thước (unpooling) để thu được mặt nạ trên ảnh gốc. Trong đó deconvolution thực chất chỉ là tích chập với ma trận chuuyển vị. Với max-pooling ta lấy giá trị max của khối vì vậy thơng tin sẽ bị mất mát đi trong quá trình pooling. Unpooling là quá trình ta xây dựng lại ma trận bằng cách ghi nhớ tọa độ của điểm cực đại và điền lại chính xác các điểm cịn lại khác trong khối là giá trị xấp xỉ từ các điểm đã có giá trị.

Deconvolution và unpooling làm xuất hiện một phân vùng dự đoán trên ảnh gốc cho tất cả các lớp đối tượng. Đây cũng chính là đầu ra cho khối phân vùng đối tượng.

Đối với ảnh I, với mặt vùng T, Mask R-CNN với các tham số  được

huấn luyện bằng cách tối ưu hóa hàm mục tiêu sau,

ℒ(𝐼, 𝑇,) = ℒ𝑐𝑙𝑠+ ℒ𝑏𝑜𝑥 + ℒ𝑚𝑎𝑠𝑘 (3.2)

Trong đó ℒ𝑐𝑙𝑠 là lỗi phân lớp khi dị tìm đối tượng, ℒ𝑏𝑜𝑥 là lỗi xác định vị trí khi dị tìm đối tượng và ℒ𝑚𝑎𝑠𝑘 là lỗi phân vùng. Tuy nhiên trong nghiên cứu này, tiến trình phân lớp đã được thực hiện trước đó, tức là các đối tượng ảnh huấn luyện và đầu vào đã được gán nhãn lớp. Vì vậy thành phần ℒ𝑐𝑙𝑠 là không cần thiết, lúc này hàm mục tiêu được viết lại thành:

ℒ(𝐼, 𝑇,) = ℒ𝑏𝑜𝑥 + ℒ𝑚𝑎𝑠𝑘 (3.3)

Hình 3.4. Một số kết quả phân vùng thực thể trực quan trên tập dữ liệu PASCAL VOC 2012 [48]

Mask R-CNN sau khi được huấn luyện được dùng để dự đoán mặt nạ vùng cho đối tượng trong ảnh mới. Để làm mượt, thu được vùng đối tượng chính xác hơn, mặt nạ vùng sinh ra từ mạng Mask R-CNN có thể được đưa qua bộ làm tinh. Trong bước làm tinh này đề xuất vùng đối tượng của cùng đối

tượng sử dụng trong khi huấn luyện được tận dụng và tái sử dụng. Theo đó, mỗi mặt nạ đối tượng dự đoán được thay thế bởi đề xuất vùng có chỉ số tương đồng Jaccard (được tính theo cơng thức 2.1) cao nhất. Hình 3.4 cho thấy kết quả mặt nạ vùng sinh ra tốt hơn sau khi qua bộ làm tinh.

3.1.3. Kết quả thực nghiệm mơ hình phân vùng

Mạng PRM trong pha sản sinh mặt nạ vùng sử dụng kiến trúc mạng ResNet-50 [31] được huấn luyện trước trên tập dữ liệu ImageNet [20]. Khác với PRM, Mask R-CNN được trang bị với một mạng tháp đặc trưng dùng để trích chọn đặc trưng tại các độ phân giải khác nhau. Các trọng số huấn luyện trước, cùng với các tham số cịn lại, sau đó được hồn thiện trên tập huấn luyện PASCAL VOC 2012. Các tham số còn lại của PRM và Mask R-CNN được thảo luận chi tiết trong [96], và [30] tương ứng. Mạng SharpMask [66] được sử dụng để tạo ra các đề xuất vùng.

Bảng 3.1. So sánh kết quả của mơ hình sử dụng với các phương pháp khác sử dụng nhiều phương pháp tạo mặt nạ huấn luyện khác nhau [48]

Phương pháp Phương pháp tạo mặt nạ mAP50

Mask R-CNN [30] Mức điểm ảnh 51.4

DeepMask [44] Mức điểm ảnh 41.7

PRM [96] Mức ảnh 26.8

DeepMask [44] Mức hộp bao 8.1

Mơ hình sử dụng Mức ảnh 41.7

Một số kết quả trực quan với số lượng đối tượng được phân vùng trong một ảnh từ 1 đến 3 được thể hiện trong hình 3.3. Phương pháp luận án kế thừa cũng được so sánh với một số phương pháp phân vùng phổ biến khác dựa trên mạng huấn luyện đầy đủ khác với độ chính xác trung bình mAP đạt ở mức 0.5. So với Mask R-CNN phương pháp [48] có hiệu năng thực thi tốt hơn theo hai cách tạo mặt nạ dùng trong huấn luyện, một là sử dụng ở mức bounding box và

một là ở mức ảnh để tạo ra các nhãn trong ảnh huấn luyện (bảng 3.1). Tuy nhiên khi so sánh với Mask R-CNN huấn luyện trên tập nhãn hình thành theo mức điểm ảnh, phương pháp luận án sử dụng vẫn cần phải cải tiến mạnh mẽ hơn nữa mới theo kịp về hiệu năng thực thi, đặc biệt là cải tiến thành phần sinh mặt nạ và phương pháp sinh đề xuất vùng.

Hình 3.5. Hiệu năng phân lớp trên dữ liệu PASCAL VOC 2012 [48]

Kích thước của đối tượng và số lượng đối tượng có trong một ảnh có ảnh hưởng mạnh đến hiệu năng thực thi của mơ hình. Hình 3.5 minh họa hiệu năng thực thi của mơ hình được luận án lựa chọn dùng để phân đoạn với kích thước các đối tượng khác nhau và với số lượng đối tượng khác nhau. Biểu đồ hình 3.5 cho thấy độ chính xác của mơ hình Mask R-CNN huấn luyện trên mặt nạ sinh ra dựa trên mức điểm ảnh cao hơn một chút so với mơ hình huấn luyện trên mặt nạ được sinh ra bằng phương pháp huấn luyện. Mặc dù biểu đồ hình 3.5(b) cho thấy chất lượng phân vùng tỷ lệ nghịch với số lượng đối tượng cần phân vùng trong ảnh, nhưng với bài toán mà đối tượng cần khoanh vùng chỉ là một thì độ chính xác đạt được cũng tương đối cao, trên 65 mAP.

Thực nghiệm phân vùng trên ảnh chứa một đối tượng được lựa trọn từ tập dữ liệu PASCAL VOC 2012 cho thấy tốc độ thực thi tuy không bằng YOLACT (độ chính xác thấp hơn) nhưng tương đương với Mask R-CNN và có thể chấp nhận được.

3.2. Mơ hình hồn thiện video

Sau khi xác định được vùng đối tượng và loại bỏ chúng khỏi video, tiến trình chèn đối tượng cần thay thế vào vùng này sẽ sản sinh ra các vùng trống là vùng đã bị xố mà khơng được lấp đầy. Do đối tượng nguồn và đích có kích thước khơng hồn tồn giống nhau nên các vùng trống có sự đa dạng về kích thước và hình dạng. Với kích thước nhỏ hình dạng ơ vng, một số kỹ thuật video inpainting đã được phát triển cho việc hoàn thiện các vùng trống tại một vị trí cố định cho các frame ảnh đã cho các kết quả khá khả quan. Tuy nhiên các kỹ thuật video inpainting với kích thước vùng bị phá hủy bất kỳ vẫn là một bài tốn khó, chưa tìm được lời giải tối ưu.

Hình 3.6. Kiến trúc mơ hình video inpainting 3DGated [14]

Nhìn chung các mơ hình video inpainting hiện đại được hình thành từ hai thành phần: thành phần sinh ảnh và thành phần phân biệt ảnh [14] [92]. Trong mơ hình đề xuất Ya-Liang Chang và các cộng sự [14] đã sử dụng mạng U-net gồm hai thành phần mã hoá và giải mã (encoder-decoder) trong thành phần sinh ảnh. Tuy nhiên khác với mạng CNN U-net thơng thường, tác giả đã sử dụng các phép tích chập đầu vào 3D (3D Gated Convolution) và phép tích chập đầu vào 3D mở rộng thay cho các phép tích chập thơng dụng. Bên cạnh đó bộ phân biệt mẫu theo thời gian (Temporal Patch Discrimination) được Ya- Liang Chang và các cộng sự [14] sử dụng để đối sánh, hiệu chỉnh ảnh sản sinh so với ảnh thực theo thời gian để tạo tính đồng bộ và nhất quán trong video. Mơ hình chi tiết được mơ tả trong hình 3.6.

Mơ hình của 3DGated [14] đã được thực nghiệm, chứng minh mức độ hiệu quả của nó nổi bật hơn các phương pháp video inpainting phổ biến khác cho các vùng mặt nạ hình dạng bất kỳ với độ dày khơng q lớn. Video tạo thành từ mơ hình này có tính chân thực cao. Tuy nhiên, nhược điểm của nó là sử dụng các phép tích chập 3D nên làm cho mơ hình trở nên lãng phí tài ngun, tốn kém chi phí tính tốn khi dữ liệu huấn luyện lớn. Bên cạnh đó, số lượng tham số lớn dẫn đến sự dư thừa không cần thiết, làm giảm tốc độ tái tạo ảnh của mơ hình.

Để khắc phục các nhược điểm nêu trên, luận án đưa ra một cải tiến sử dụng mạng tích chập từng phần trên khối mạng thặng dư (Residual Block Partial convolution – RBPconv) trong phần sinh ảnh trong mơ hình 3DGated [14]. Mơ hình video inpainting cải tiến V-RBPconv (hình 3.7) được áp dụng giải quyết vấn đề hồn thiện vùng bị phá hủy có kích thước và hình dạng bất kỳ với độ dày khơng q lớn. Mơ hình này phù hợp với đặc thù của lớp bài tốn đang nghiên cứu trên vùng trống có hình dạng đa dạng nhưng với độ dày không quá lớn. Với lý do trên, mơ hình cải tiến đặc biệt tập trung thử nghiệm trên bộ dữ liệu mà vùng mất mát thơng tin có kích thước bề dày nhỏ, dài và hình dạng bất kỳ. Mục tiêu mà mơ hình cải tiến đạt được khơng chỉ thực hiện tốt việc tái tạo vùng mất mát thơng tin cho từng frame ảnh mà cịn duy trì được tính nhất qn về thời gian cũng như tính kết cấu về khơng gian.

Hình 3.7. Kiến trúc mơ hình video inpainting V-RBPconv

Losses Input video Mặt nạ Output video Ground truth (a) (b)

Mơ hình cải tiến V-RBPconv được luận án sử dụng cho bài tốn hồn thiện vùng trống có kích thước và hình dạng bất kỳ trong video bằng cách học sự khác biệt giữa các vùng nguồn, vùng đích. Vùng đã được lấp đầy trong mỗi tầng tích chập thu được là các đặc trưng tốt để lấp đầy vùng bị phá hủy. Tương tự như mơ hình 3DGated [14], mơ hình cải tiến cũng được cấu thành từ hai bộ phận: Bộ sinh ảnh và bộ đối sánh theo thời gian. Bộ phận thứ nhất gọi là bộ sinh ảnh có nền tảng dựa trên mơ hình inpainting ảnh RBPconv để tạo ra các ảnh hồn thiện rời rạc. Bộ thứ hai là bộ đối sánh ảnh, hiệu chỉnh ảnh sản sinh theo thời gian (Temporal PatchGAN - TPGAN) [14] ảnh gốc trên dựa trên tính tồn vẹn về kết cầu thời gian của ảnh nhằm tìm ra ảnh chân thực có tính tự nhiên cao. Chi tiết về các thành phần trong mơ hình cải tiến được trình bày chi tiết trong các phần tiếp theo trước khi kết quả thực nghiệm được đưa ra chứng minh độ hiệu quả của mơ hình cải tiến.

3.2.1. Kiến trúc mơ hình V-RBPconv

Trong mơ hình V-RBPconv được minh họa trong hình 3.7, trước tiên bộ sinh ảnh sử dụng kiến trúc RBPconv tận dụng tối đa các thông tin từ các frame lân cận để lấp đầy, tái tạo các vùng trống trong video có hình dạng và kích thước bất kỳ nhằm sinh ra các frame ảnh có tính chân thực. Sau đó, bộ đối sánh Temporal PatchGAN tập trung vào việc phát hiện các đặc trưng có sự khác biệt về mặt không gian và thời gian giữa ảnh sinh ra từ bộ sinh ảnh và ảnh thực (ảnh grounth-truth). Nếu sự khác biệt chưa đủ nhỏ thì tiến hành hiệu chỉnh nhằm nâng cao chất lượng ảnh cũng như video đầu ra.

Luận án mở rộng mạng RBPconv một trạng thái sử dụng cho bài toán video inpainting (Hình 3.5.a). Trong q trình huấn luyện, mơ hình kết hợp các frame ảnh ground truth trong video gốc {𝑉𝑡|𝑡 = 1 … 𝑛} và các mặt nạ {𝑀𝑡|𝑡 = 1 … 𝑛} đánh dấu vùng bị phá hủy tạo thành một video mặt nạ đầu vào {𝐼𝑡|𝑡 = 1 … 𝑛}. Mơ hình hồn thiện các ảnh dựa trên vùng mặt nạ này và tạo ra các frame đầu ra {𝑂𝑡|𝑡 = 1 … 𝑛}.

Hình 3.8. Kiến trúc mơ hình RBPconv 3.2.2. Mơ hình kiến trúc mạng RBPconv

Mơ hình cải tiến cho bộ sinh ảnh để tạo ra video inpainting thô dựa trên kiến trúc mạng RBPconv với nền tảng là mơ hình kiến trúc U-net cải tiến có tích hợp với các thành phần của các mơ hình học sâu khác như: các khối Residual cải tiến, phép tích chập từng phần và các kết nối nhảy Residual. Mơ hình chi tiết được minh họa trong hình 3.8.

RBPconv bắt nguồn từ mơ hình kiến trúc mạng mã hố đặc trưng-giải mã đặc trưng (encoder-decoder). Tuy nhiên để tăng tốc độ huấn luyện, các khối residual cải tiến được sử dụng thay vì các tầng tích chập thơng thường cho các lớp ở giữa mạng này. Tại các mức đặc trưng thấp, cả tầng tích chập đơn giản và tầng tích chập phức tạp đều cho kết quả tương tự nhau [93]. Do đó tại tầng tích chập thứ nhất, các mặt nạ 3x3x64 được sử dụng để thu được bản đồ đặc trưng mức thấp 64 chiều. Sau đó các khối residual được thiết lập cho các tầng tích chập. Sự thay thế này làm gia tăng hiệu năng thực thi của mạng.

Mơ hình RBPconv sử dụng kiến trúc mạng U-net với tổng cộng 20 tầng trong đó 10 tầng trong phần encoder và 10 tầng trong phần decoder tương ứng (chi tiết các tầng được cho trong phụ lục C). Phần encoder được dùng để học các đặc trưng ảnh, đây cũng chính là một tiến trình mơ tả đặc tính của các ảnh. Phần Decoder là một tiến trình khơi phục và giải mã các đặc trưng đã học tạo ra ảnh thực. Trong nhiều trường hợp, các thông tin được cung cấp bởi các điểm

ảnh xung quanh một điểm ảnh được xem xét. Kiến trúc U-net nguyên bản gồm 2 phần giảm mẫu (down-sampling) và tăng mẫu (up-sampling). Down- sampling được sử dụng để lấy dần các thơng tin mơi trường và tiến trình up- sampling trộn các đặc trưng đã học và các thông tin môi trường trong down- sampling để khôi phục từng chi tiết của điểm ảnh bị mất.

Trong cải tiến này mỗi tầng tích chập con được theo sau bởi chuẩn hóa batch và hàm kích hoạt. Hàm kích hoạt ReLU được sử dụng cho các tầng encoder và LeakyReLU với alpha=0.2 được sử dụng trong các tầng decoder. Bên cạnh đó, tất cả các tầng tích chập được thay thế bằng tích chập từng phần. Zero padding với kích thước 1 được sử dụng để làm cho tất cả các bản đồ đặc trưng có cùng kích thước.

Khối Residual

Gần đây, các mạng nơron tích chập học sâu đã đạt được hiệu năng thực thi rất cao trong phân lớp và nhận dạng ảnh. Đặc biệt là mạng Resnet được cấu thành từ các khối residual và kết nối nhanh đã cho kết quả rất tốt trong cả độ

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video (Trang 99)

Tải bản đầy đủ (PDF)

(138 trang)