Phân vùng đối tượng trên video với visual saliency và optical flow

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	5
Dung lượng	684,12 KB

Nội dung

Trong đề tài này, nhóm tác giả đề xuất một phương pháp mới cho việc phân vùng đối tượng trên video bằng việc dùng phát hiện vật thể nổi bật làm phương pháp phân vùng chính, cộng với việc sử dụng lan truyền mask bằng optical flow và nhận biết vật biến mất hay xuất hiện lại nhờ vào phương pháp phát hiện đối tượng.

Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học PHÂN VÙNG ĐỐI TƯỢNG TRÊN VIDEO VỚI VISUAL SALIENCY VÀ OPTICAL FLOW Nguyễn Tồn Anh*, Trình Xn Sơn, Trần Minh Triết Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP Hồ Chí Minh *Tác giả liên hệ: ntanh@apcs.vn TÓM TẮT Phân vùng đối tượng video vấn đề có nhiều ứng dụng video matting tái tạo ba chiều Tuy nhiên, chưa có nhiều quan tâm cho vấn đề vấn đề nhận dạng đối tượng phân vùng ảnh Trong đề tài này, nhóm tác giả đề xuất phương pháp cho việc phân vùng đối tượng video việc dùng phát vật thể bật làm phương pháp phân vùng chính, cộng với việc sử dụng lan truyền mask optical flow nhận biết vật biến hay xuất lại nhờ vào phương pháp phát đối tượng Hướng tiếp cận tận dụng phương pháp đại dễ dàng thay phương pháp tốt Những đánh giá hiệu thực liệu DAVIS 2016 dành cho phân vùng đối tượng đơn dùng mask cho thấy hướng tiếp cận đề xuất so sánh với phương pháp đại vấn đề Từ khóa: Phân vùng đối tượng video, visual saliency, nhận diện vật thể bật, optical flow, nhận diện vật thể VIDEO OBJECT SEGMENTATION WITH VISUAL SALIENCY AND OPTICAL FLOW Nguyen Toan Anh*, Trinh Xuan Son, Tran Minh Triet University of Science – VNU Ho Chi Minh City *Corresponding Author: ntanh@apcs.vn ABSTRACT Video object segmentation is a problem that has a variety of applications such as automatic video matting and 3D reconstruction However, there is not much focus on the subject comparing to problems like object recognition and image seg-mentation In this thesis, the authors seek to propose a novel approach for doing video object segmentation using salient object de-tection as the main segmentation method, with mask propagation by optical flow and disap-pearance and reappearance detection using object detection The approach takes advantage of state-of-the-art methods and can be easily adapted to newer and better methods Evaluations performed on the DAVIS 2016 dataset for single-mask-object segmentation show that the proposed approach is comparable to state-of-the-art methods on the same problem Keywords: Video object Segmentation, visual saliency, salient object detection, optical flow, object detection TỔNG QUAN Phân vùng ngữ nghĩa trình phân chia ảnh đầu vào thành phân vùng thuộc lớp định trước, biến ảnh thành dạng dễ phân tích (Shapiro and Stockman, 2001) Phân vùng đối tượng, vấn đề phân vùng ngữ nghĩa, quan tâm việc phân chia hay nhiều vật thể bối cảnh thông tin thường bị bỏ qua Với phân vùng đối tượng video, cung cấp đối tượng quan tâm nhiệm vụ phân vùng đối tượng khỏi chuỗi ảnh (video), thay ảnh Tính saliency vật thể định nghĩa khả vật thể bật hẳn thứ lân cận (Achanta et al., 2009) Nói theo cách khác, hiểu khả lôi kéo ý từ người quan sát Với hệ thống máy tính, nhận biết visual saliency cho phép sử dụng phương pháp chọn lọc đối tượng nhanh chóng thay phải sử dụng 129 Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 phương pháp vét cạn để xử lý hình ảnh, ví dụ việc qt tồn phần ảnh để tìm thấy vùng đối tượng quan tâm (Itti and Koch, 2000) (Navalpakkam and Itti, 2005) Nhận diện vật thể bật, vấn đề việc nhận diện đối tượng nào, thay vùng gây ý, cịn đóng góp vào nhiều ứng dụng khác, số phân vùng ảnh/video (Wang, Shen and Porikli, 2015) Phân vùng ngữ nghĩa có nhiều ứng dụng, từ video matting tự động tới tái tạo ba chiều Thêm vào đó, với phá triển cơng nghệ thơng tin, nội dung đa phương tiện, đặc biệt video, trở thành nguồn liệu khổng lồ Do đó, ứng dụng phân vùng ngữ nghĩa vào video dần trở nên quan trọng Việc nghiên cứu phát triển thuật toán phương pháp hiệu cho phân vùng video cần thiết Tuy nhiên, với nguồn cầu tăng dần việc phân vùng đối tượng video, có thiếu hụt thuật toán phương pháp để giải chúng Theo Perazzi đồng sự, có khoảng cách mặt hiệu thuật toán phân vùng video phương pháp tương tự dùng để giải phân vùng hình ảnh nhận diện đối tượng Vì vậy, lý thúc đẩy nhóm tác giả tạo phương pháp để thực việc phân vùng đối tượng video Ý tưởng ban đầu dùng phương pháp phát đối tượng bật làm phương pháp phân vùng dựa quan sát cho thấy visual saliency thực với tốc độ độ xác cao Do đó, mục tiêu nhóm tác giả đề tài đề xuất hướng tiếp cận cho vấn đề phân vùng đối tượng video sử dụng phương pháp phát vật thể bật cho việc phân vùng Hướng tiếp cận sử dụng optical flow để truyền thông tin mask để giới hạn vùng tìm kiếm phương pháp phát đối tượng nhằm nhận biết việc vật thể biến xuất lại Hướng tiếp cận đề xuất tận dụng phương pháp đại đủ linh hoạt để thay vào phương pháp tốt VẬT LIỆU VÀ PHƯƠNG PHÁP Phát đối tượng bật giải việc Kỷ yếu khoa học đối tượng bật khung ảnh Phương pháp xét tổng thể ảnh không tâm vào phân vùng Hơn nữa, phương pháp phát đối tượng bật khơng cần đến thơng tin mask, làm tìm vật bật khung hình Do đó, áp dụng vào để phân vùng đối tượng video, đối tượng mà ta phân vùng khơng phải đối tượng quan tâm thực Vì vậy, đề xuất sử dụng mask để giới hạn vùng tìm kiếm trước phân vùng sử dụng visual saliency Tuy nhiên, với mask khung hình chuỗi cho, khơng có cách phương pháp phát đối tượng bật theo dấu đối tượng quan tâm di chuyển cảnh Do đó, ta cần có phương pháp theo dõi để cập nhật mask, đề xuất sử dụng optical flow cho nhiệm vụ Chỉ cịn có vấn đề với việc sử dụng visual saliency phương pháp phân vùng đối tượng video Bởi phụ thuộc vào việc phát đối tượng bật, kể ta xác định vùng quan tâm, việc liệu đối tượng thực có nằm hay khơng lại hồn tồn bị lờ Điều dẫn tới việc phương pháp phân vùng đối tượng hoàn toàn khác dấu đối tượng Để tránh điều này, đề xuất bổ sung thêm chế để phát việc biến xuất lại đối tượng Chúng tơi thực thí nghiệm liệu DAVIS 2016 Bộ liệu DAVIS tạo gần với mục đích tập trung vào việc phân vùng đối tượng vid-eo Bộ liệu chứa chuỗi video với độ phân giải cao bao quát nhiều hoạt động cho bốn lớp phân bổ đều: người, động vật, xe cộ, đối tượng khác (Perazzi et al., 2016) Bộ liệu DAVIS bao gồm hai tập Tập DAVIS 2016 trọng vào việc hỗ trợ việc tìm hiểu phân vùng đối tượng có dùng mask DAVIS 2017 tập trung vào phân vùng nhiều đối tượng có dùng mask Tập 2016 phù hợp cho mục đích việc thử nghiệm phương pháp đề xuất Đầu tiên, nội dung đủ đa dạng để bao hàm 130 Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 đủ trường hợp thực tập thí nghiệm Thứ hai, thang đo kèm với tập DAVIS có ý nghĩa định nghĩa rõ ràng để đánh giá phương pháp chúng tơi Thứ ba, tập DAVIS 2017 chưa có sẵn hồn tồn, nên khó để chúng tơi đánh giá phương pháp thang đo lượng Vì thế, DAVIS 2016 lựa chọn cho việc tìm hiểu chúng tơi Để thực việc theo dõi đối tượng lan truyền mask cho phương pháp, chúng tơi tiến hành thí nghiệm sử dụng EpicFlow để tạo optical flow cặp khung hình liên tiếp chuỗi sử dụng kết để cập nhật mask Sử dụng optical flow, chúng tơi lan truyền thơng tin mask Tuy nhiên, có ba vấn đề với phương pháp cập nhật mask này: • Vì có mask cho chuỗi ảnh có sẵn, khơng có đủ thơng tin để cập nhật mask hiệu Nói cách khác, nhiễu mát thiếu thơng tin ảnh hưởng tới q trình cập nhật • Thơng tin nhanh đối tượng cảnh bị biến dạng • Optical flow trở nên không hữu dụng vật bị che khuất hay biến Hầu hết vấn đề q trình cập nhật mask có thơng tin cũ từ mask để làm việc Do đó, sử dụng kết phân vùng khung hình Kỷ yếu khoa học thay thơng tin từ mask để cập nhật Kết thay đổi việc lan truyền mask tốt thơng tin thêm vào q trình cập nhật khung hình, giảm bớt nhiễu lẫn mát Tuy nhiên, việc sử dụng kết phân vùng để cập nhật dẫn đến vấn đề khác Nếu kết phân vùng cho khung hình tệ, mask cập nhật tệ theo, điều ảnh hưởng xấu tới việc phân vùng khung ảnh Để tránh tình nguy hiểm này, đề xuất áp dụng chặn kích thước bounding box tạo từ mask Lý kết phân vùng tệ khiến cho bounding box nhỏ đi, không to lên Đây chúng tơi sử dụng bounding box từ mask bị giới hạn vùng quan tâm cho việc phân vùng kết phân vùng lớn ngang ngửa bounding box Dựa vào hai heuristic sau, đề xuất cách để xác định chặn dưới: • Phép hợp mask kết phân vùng cho khung hình sử dụng với optical flow cho kết theo dõi tốt • Khi đối tượng quan tâm cảnh thay đổi kích thước nó, kích thước bé đối tượng khơng bé 20% kích thước xuất lần 60 40 20 0.0-0.1 0.1-0.2 0.2-0.3 0.3-0.4 0.4-0.5 0.5-0.6 0.6-0.7 0.7-0.8 0.8-0.9 0.9-1.0 -20 -40 -60 -80 -100 -120 True positive ratio >= 0.5 True positive ratio < 0.5 Hình Tỷ lệ True positive cho tỷ lệ diện tích đối tượng vùng bounding box khác 131 Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Heuristic thứ hai có từ thí nghiệm mà chúng tơi lấy ngẫu nhiên 1.000 mảnh ảnh từ tập DAVIS 2016 thực phân vùng Kết phân vùng sau đánh giá Hình dung trực quan kết quan sát Hình 1, diễn tả kết tốt có tỉ lệ đối tượng vùng rơi vào đoạn [0.2, 0.7] Với heuristic đó, chúng tơi chọn chặn kích thước bounding box chuỗi ảnh kích thước bounding box chuỗi Cấu trúc cuối Kỷ yếu khoa học đề xuất, thấy Hình gồm ba thành phần khác nhau:  Mô-đun phân vùng: chịu trách nhiệm phân vùng đối tượng khỏi cảnh  Mô-đun optical flow: chịu trách nhiệm lan truyền thông tin từ mask chuỗi, giúp tạo mask bounding box  Mô-đun phát đối tượng: Phát đối tượng cảnh, chịu trách nhiệm việc theo dõi đối tượng biến hay xuất lại Hình Cấu trúc cuối cho phương pháp phân vùng đối tượng bật video có sử dụng lan truyền mask nhận diện xuất lại Trên tập val DAVIS 2016, phương pháp KẾT QUẢ VÀ THẢO LUẬN Những kết thí nghiệm cho thấy chúng tơi, kể có khơng có chức Bảng Bảng 2, ta thấy phát vật thể biến hay xuất mơ hình cuối chúng tơi đạt lại, có kết tương đương với phương pháp kết tương đương OFL, kết VPN DHSNet lý tưởng có kết xếp thứ tư xét tập trainval tốt phương pháp vị trí thứ ba DAVIS 2016 thời điểm tháng 7/2017 Bảng So sánh kết với phương pháp khác tập DAVIS 2016 trainval Hạng thức tính tới tháng bảy năm 2017 Kết tô xanh (trường hợp lý tưởng) xanh dương (phương pháp tại) Model Model phương pháp trước sau xét tới đối tượng biến xuất lại Official Rank 𝐽 mean 𝐽 recall 𝐽 decay 𝐹 mean 𝐹 recall 𝐹 decay 𝑇 OSVOS N/A N/A N/A N/A N/A N/A N/A - MSK 0.803 0.935 0.089 0.758 0.882 0.095 0.189 Ideal 0.756 0.902 0.043 0.722 0.870 0.052 0.348 - VPN 0.750 0.901 0.093 0.724 0.842 0.136 0.300 Model2 0.719 0.842 0.085 0.680 0.800 0.091 0.382 - OFL 0.711 0.800 0.227 0.679 0.780 0.240 0.224 Model1 0.688 0.802 0.112 0.649 0.768 0.119 0.379 - BVS 0.764 0.260 0.656 0.774 0.236 0.317 0.665 132 Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017 Kỷ yếu khoa học Bảng So sánh kết với phương pháp khác tập DAVIS 2016 val Hạng thức tính tới tháng bảy năm 2017 Kết tô xanh (trường hợp lý tưởng) xanh dương (phương pháp tại) Model Model phương pháp trước sau xét tới đối tượng biến xuất lại Official Rank 𝐽 mean 𝐽 recall 𝐽 decay 𝐹 mean 𝐹 recall 𝐹 decay 𝑇 OSVOS MSK Ideal VPN Model2 OFL Model1 BVS 0.798 0.797 0.760 0.719 0.702 0.697 0.680 0.600 0.936 0.931 0.900 0.854 0.823 0.825 0.756 0.669 0.149 0.089 0.050 0.081 0.124 0.079 0.264 0.289 0.806 0.754 0.722 0.678 0.655 0.660 0.634 0.588 KẾT LUẬN VÀ ĐỀ NGHỊ Nhóm tác giả đề xuất phương pháp thực phân vùng đối tượng video sử dụng phương pháp phát đối tượng bật, với optical flow để giúp việc lan truyền mask phương pháp phát đối tượng để phát đối tượng biến xuất lại Chúng tơi tiến hành nhiều thí nghiệm để tìm hiểu tính khả thi phương pháp tìm để cải thiện kết Kết lý tưởng tạo từ việc kết hợp thơng tin từ ground-truth khích lệ chúng tơi tạo nên mơ hình tốt Dù có nhiều hạn chế, phương pháp đề xuất so sánh với phương pháp đại Kết luận, đề tài cung cấp nhìn sâu sắc vào việc áp dụng visual saliency phương pháp phân vùng ngữ nghĩa 0.926 0.871 0.860 0.788 0.690 0.765 0.704 0.679 0.150 0.090 0.050 0.099 0.144 0.084 0.272 0.213 0.378 0.218 0.343 0.376 0.324 0.379 0.222 0.347 Những kết từ thí nghiệm nhóm tác giả cho thấy hạn chế phương pháp Có hai vấn đề chủ yếu với phương pháp đề xuất:  Với chuỗi ảnh mà dễ bị che khuất, phương pháp trả kết quán  Sử dụng YOLO để phát đối tượng biến xuất lại có hạn chế đối tượng quan tâm cần phải gán nhãn quán suốt chuỗi ảnh Cần phải tiến hành nhiều thí nghiệm nhiều liệu khác để giúp xác định vấn đề này, cải thiện kết Hơn nữa, thí nghiệm thực liệu nhiều liệu cung cấp thêm nhìn TÀI LIỆU THAM KHẢO ACHANTA, R., HEMAMI, S., ESTRADA, F AND SUSSTRUNK, S (2009) “Frequencytuned Salient Region Detection”, Computer Vision and Pattern Recognition, 2009 CVPR 2009, Miami Beach ITTI, L AND KOCH, C (2000) “A saliency-based search mechanism for overt and covert shifts of visual attention”, Vision Research, vol 40, pp 1489–1506 NAVALPAKKAM, V AND ITTI, L (2005) “Modeling the influence of task on attention”, Vision Research, vol 45, pp 205–231 PERAZZI, F., PONT-TUSET, J., MCWILLIAMS, B., GOOL, L.V., GROSS, M AND SORKINE-HORNUNG, A (2016) “A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation”, Conference on Computer Vision and Pattern Recognition 2016, CVPR 2016, Honolulu SHAPIRO, L.G AND STOCKMAN, G.C (2001) Computer Vision, Pearson WANG, W., SHEN, J AND PORIKLI, F (2015) “Saliency-Aware Geodesic Video Object Segmentation”, Conference on Computer Vision and Pattern Recognition 2015, CVPR15, Honolulu 133 ... phương pháp phát đối tượng bật không cần đến thông tin mask, làm tìm vật bật khung hình Do đó, áp dụng vào để phân vùng đối tượng video, đối tượng mà ta phân vùng khơng phải đối tượng quan tâm... xuất sử dụng optical flow cho nhiệm vụ Chỉ cịn có vấn đề với việc sử dụng visual saliency phương pháp phân vùng đối tượng video Bởi phụ thuộc vào việc phát đối tượng bật, kể ta xác định vùng quan... LUẬN VÀ ĐỀ NGHỊ Nhóm tác giả đề xuất phương pháp thực phân vùng đối tượng video sử dụng phương pháp phát đối tượng bật, với optical flow để giúp việc lan truyền mask phương pháp phát đối tượng

Ngày đăng: 23/02/2022, 09:46