Trong nghiên cứu này, nhóm tác giả đề xuất sử dụng thông tin về khung xương để định hướng Mask R-CNN phân mảnh cá thể người trong mỗi frame của video nhằm cải thiện kết quả phân mảnh Nhóm tác giả đề xuất các giải pháp sửa lỗi khung xương trong video như nội suy, tinh chỉnh khung xương nhằm tối ưu hóa việc dùng khung xương để điều hướng mạng nơ-ron phân mảnh.
Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học ĐỊNH HƯỚNG PHÂN MẢNH ĐỐI TƯỢNG NGƯỜI TRONG VIDEO DỰA TRÊN THÔNG TIN TƯ THẾ NGƯỜI Ninh Văn Tú*, Lê Tử Khiêm Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP Hồ Chí Minh *Tác giả liên lạc: nvtu@apcs.vn TĨM TẮT Trong nghiên cứu này, nhóm tác giả đề xuất sử dụng thông tin khung xương để định hướng Mask R-CNN phân mảnh cá thể người frame video nhằm cải thiện kết phân mảnh Nhóm tác giả đề xuất giải pháp sửa lỗi khung xương video nội suy, tinh chỉnh khung xương nhằm tối ưu hóa việc dùng khung xương để điều hướng mạng nơ-ron phân mảnh Nhóm tác giả áp dụng trường ngẫu nhiên có điều kiện dày đặc với lọc trung vị để tinh chỉnh đường biên mask kết lọc nhiễu nhằm nâng cao chất lượng kết Giải pháp nhóm tác giả đánh giá so sánh với Mask R-CNN tập train-val liệu DAVIS Challenge 2017 bao gồm đối tượng người Các thí nghiệm cho thấy cấu hình tốt nhóm tác giả cải thiện kết định lượng, tức trung bình điểm J F, cao 0,232% so với phương pháp Mask R-CNN gốc đạt độ xác trung bình 74.858% Từ khóa: Phân mảnh đối tượng người, tinh chỉnh khung xương, tinh chỉnh đường biên mask POSE GUIDANCE FOR HUMAN INSTANCE SEGMENTATION IN VIDEOS Ninh Van Tu*, Le Tu Khiem University of Science – VNU Ho Chi Minh City *Corresponding Author: nvtu@apcs.vn ABSTRACT In this project, the Authors propose to use pose information to guide Mask R-CNN segmenting human instance in each frame of a video with the aim to enhance segmented results The Authors propose pose interpolation, pose keypoints refinement to optimize the use of pose information in human instance segmentation The Authors also apply Dense Conditional Random Field with median filter to refine mask boundary and eliminate noises to enhance final output Our remedy is evaluated and compared with Mask R-CNN on train-val set of DAVIS Challenge 2017 dataset which contains only human instances The experiments show that our best configuration improves the quantitative result, which is mean J and F score, by 0.232% compared to the original Mask R-CNN method and achieve 74.858% in this metric Keywords: Human instance segmentation, pose refinement, mask boundary refinement MỞ ĐẦU Thị giác máy tính (Computer Vision) phần khơng thể thiếu lĩnh vực Trí tuệ nhân tạo Cùng với phát triển máy tính với khả xử lý vượt trội bùng nổ liệu, thuật tóa n học sâu (Deep Learning) đời tạo nên nhiều đột phá Nhận 147 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 diện vật thể số tóa n đạt độ xác cao nhờ thuật tóa n học sâu Faster R-CNN, SSD, YOLO, … Chưa dừng lại đó, để máy tính có thấu hiểu thứ chúng “nhìn thấy”, tóa n phân mảnh ảnh theo ngữ nghĩa (Semantic Segmentation) dần quan tâm Bởi vì, không dừng lại khung giới hạn (Bounding Box) thuật tóa n nhận diện vật thể, phân mảnh ảnh địi hỏi máy tính phải phân biệt mức độ pixel ảnh, để định pixel ảnh thuộc lớp vật thể (Object Class) Tuy nhiên, phân mảnh ảnh dừng lại việc phân biệt lớp vật thể hình, cịn đối tượng lớp khơng Điều dẫn đến xuất tóa n thách thức hơn: Phân mảnh đối tượng (Instance Segmentation) Bài tóa n phân mảnh đối tượng người mà nhóm tác giả lựa chọn để giải nhánh tóa n phân mảnh đối tượng Động lực nhóm tác giả bắt nguồn từ việc nhận thấy tiềm phân mảnh ảnh việc tự động hóa q trình dựng ảnh/video từ ảnh/video có Ví dụ, việc ghép ảnh người phải thực thủ công với Photoshop, ghép người vào cảnh video phải dùng đến xanh trình quay, việc áp dụng phân mảnh ảnh khiến cơng việc trở nên dễ dàng Ngồi ra, động lực thứ hai đến từ việc nhóm tác giả nhận thấy thuật tóa n máy học thiếu khả tổng hợp kiến thức chung (Common Sense Knowledge), chúng hoạt động dựa việc bắt chước theo huấn luyện liệu để tạo kết quả, dẫn đến phụ thuộc lớn vào liệu Khác với vật dụng, cá thể thơng thường, người có cấu Kỷ yếu khoa học trúc cố định với đầy đủ phận (đầu, tay, chân…) Tuy có biến thiên vị trí tương đối phận, quy đổi chúng đơn vị nhất: Tư người (Human Pose) Trong nghiên cứu này, kết hợp thông tin tư người với phương pháp học sâu, nhằm đạt độ xác tốt so với thuật tóa n có tóa n phân mảnh đối tượng người video VẬT LIỆU VÀ PHƯƠNG PHÁP Phương pháp đề xuất kế thừa cải thiện kết đầu mạng nơ-ron Mask R-CNN công bố Kaiming He đồng tác giả (2017) Trong q trình cải thiện, chúng tơi dùng mã nguồn mở Openpose đề xuất Zhe Cao đồng tác giả (2017) để ước lượng khung xương người ảnh Mở rộng khung xương Chúng sử dụng thông tin khung xương người sinh từ mã nguồn mở Openpose để hướng Mask R-CNN tập trung vào đối tượng người cần phân mảnh Cụ thể, chúng tơi giãn nở khung xương cho phần diện tích nở rộng chứa đủ thông tin đối tượng người cần phân mảnh ảnh để tạo mask ảnh màu riêng lẻ cắt từ ảnh gốc Sau cùng, Mask R-CNN áp dụng lên mask để thực việc phân mảnh đối tượng người Tuy nhiên, Mask R-CNN bị nhầm lẫn mà dự đóa n tồn thể phần sáng mask phần phân mảnh đối tượng người biên phần tối sáng ảnh chuyển tiếp đột ngột khiến cho mạng nơ-ron hiểu nhầm phần sáng ảnh quan trọng Để giải vấn đề này, bổ sung bước tinh chỉnh mask ảnh lọc Gaussian để làm mượt 148 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 giá trị pixel biên mask trải dần khoảng [0, 255] thay 255 mask gốc nhằm tạo attention map khiến cho mạng nơ-ron tập trung hoàn toàn vào đối tượng người vùng mask Khơi phục khung xương tồn cục Phương pháp phụ thuộc nhiều vào chất lượng khung xương ước lượng Vì vậy, việc khôi phục bổ sung keypoint khung xương bước quan trọng đóng góp vào việc cải thiện kết phân mảnh Mục tiêu khôi phục khung xương toàn cục hướng đến việc nội suy khung xương cho frame ảnh mà Openpose ước lượng trường hợp đối tượng người bị che khuất nửa phần thân, bị mờ di chuyển nhanh, đối tượng thực tư lạ Chúng dựa keypoint khung xương trước sau frame mà khung xương xuất để tạo phương trình tuyến tính nhằm khơi phục khung xương cho frame ảnh ước lượng dùng Openpose Với giả định đối tượng di chuyển nhanh theo quỹ đạo phi tuyến tính khoảng thời gian giây, áp dụng phương pháp frame mà phạm vi frame trái phải tính từ frame ảnh mà khung xương đối tượng xuất (tức 0.5 giây chuẩn fps định dạng video thông dụng) Với điều kiện ấy, chúng tơi có đủ sở để khôi phục khung xương cho đối tượng người trường hợp Openpose xử lý Khôi phục khung xương cục Nhìn tồn cục, khung xương khôi phục, xảy trường hợp khung xương bị thiếu phận Kỷ yếu khoa học thể chẳng hạn thân trên, thân dưới, chân, hông, cánh tay Nguyên nhân việc phép tính nội suy tuyến tính phụ thuộc vào khung xương hai frame ngưỡng chặn (khung xương hai frame bị thiếu phận từ đầu) Để giải vấn đề này, chúng tơi đề xuất sử dụng phép tóa n convolution chiều xử lý tín hiệu số tái định nghĩa với công thức riêng biệt để phù hợp với tóa n chúng tơi Cụ thể hơn, trượt lọc Gaussian chiều thời gian video để ước lượng vị trí trung bình khung xương phận frame ảnh định dựa frame lân cận Phối hợp mask kết Mask R-CNN học kiến thức khái quát đối tượng thuộc nhiều lớp không hiểu rõ cấu trúc, đặc trưng kiến thức cụ thể đối tượng lớp Chính mà có nhiều trường hợp Mask R-CNN khơng thể phân mảnh người kết bị thiếu phận thể người bị nhiễu đối tượng lớp khác đầu vào ảnh gốc tổng thể Tuy việc sử dụng tư người để định hướng Mask R-CNN thành công việc phân mảnh chi tiết phận thể, việc lấy phần nội dung ảnh có chứa đối tượng người khiến cho Mask R-CNN khái niệm tổng quát vật thể phần ảnh dẫn đến việc Mask R-CNN không phân mảnh đối tượng thiếu thông tin Tinh chỉnh đường biên mask lọc nhiễu Sau quan sát kết cuối sinh từ bước nêu trên, nhận thấy đường biên mask kết không ôm sát đối tượng người phân mảnh Ngồi ra, có trường hợp mask kết 149 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 phân mảnh loang vùng không thuộc đối tượng người Những trường hợp nguyên nhân làm cho hai tiêu chí đánh giá điểm J F bị giảm so với ban đầu Để nâng cao chất lượng đầu ra, tiến hành tinh chỉnh đường biên mask kết thuật tóa n Dense Conditional Random Field (Dense CRF) đề xuất Philipp Krähenbühl Vladlen Koltun (2012) Thuật tóa n giúp tinh chỉnh đường biên mask kết áp sát dần vào đường viền đối tượng người dựa quan hệ đồ thị pixel ảnh theo mask nhị phân định hướng cho trước Ngoài ra, thuật tóa n cịn giúp chúng tơi loại phân mảnh không liên quan đến đối tượng người KẾT QUẢ VÀ THẢO LUẬN Xây dựng tập liệu thí nghiệm Nhóm tác giả sử dụng tập liệu DAVIS Challenge 2017 (Densely Annotated VIdeo Segmentation), xuất DAVIS challenge – thi quốc tế chủ đề phân mảnh vật thể video Để phù hợp với mục tiêu đề tài, nhóm tác giả tiền xử lí liệu cách loại bỏ video không chứa đối tượng người hiệu chỉnh tập liệu đánh giá (ground-truth), xóa mask khơng phải người Tập liệu mà xây dựng gọi tập liệu DAVIS-Human, bao gồm 57 video, có tất 91 đối tượng người cần phân mảnh Thí nghiệm đánh giá Như mô tả mục Phương pháp, mở rộng khung xương có ý nghĩa quan trọng việc kết hợp thơng tin tư người với mạng nơ-ron phân mảnh Trong cấu trúc khung xương bao gồm khớp cạnh nối, để mở rộng khung xương, cần phải mở rộng Kỷ yếu khoa học khớp cạnh nối cách hợp lí Mục tiêu thí nghiệm chọn tỷ số mở rộng hợp lí cho khớp cạnh nối kích thích lọc Gaussian phù hợp cho giải pháp Bên cạnh đó, với màng lọc Gaussian, chuyển giao background foreground trở nên dịu hơn, tăng độ xác kết phân mảnh Thí nghiệm kích thước màng lọc, biểu đồ thể hình cho thấy biến thiên J-mean F-mean đạt cực đạt điểm có giá trị kích thước 99 Do đó, chúng tơi cấu hình cho màng lọc Gaussian rộng 99 việc mở rộng khung xương Thí nghiệm tinh chỉnh khung xương Với phương pháp nội suy khung xương trình bày mục Vật Liệu Phương pháp, chúng tơi khơi phục thiếu hụt khung xương số số frame ảnh, tinh chỉnh khung xương bước quan trọng nằm khôi phục phận bị thiếu khung xương Để tinh chỉnh khung xương cần cửa sổ trượt (sliding window) tập hợp frame nhằm tích chập với frame cần khơi phục khung xương Đánh giá tổng quát Trung bình tập liệu Bằng cách thí nghiệm phương pháp đề xuất với tất cấu hình lấy trung bình điểm F-mean J-mean tất 91 đối tượng người tập liệu, bảng cho thấy cấu hình cuối – phương pháp kết hợp tư người với mạng nơ-ron phân mảnh với phương pháp tinh chỉnh khung xương tinh chỉnh đường viền mask, đạt độ cao với tỷ lệ 74.858% Trong đó, cấu hình có điểm Fmean cao với 78.110% cho thấy độ xác đường viền độ hoàn thiện mask nâng cao Kết kỳ thi DAVIS Challenge 2018 150 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Phương pháp nhóm tác giả sử dụng nhóm nghiên cứu thuộc Trường Đại học Khoa học Tự nhiên kỳ thi quốc tế DAVIS Challenge 2018 nâng độ xác kết 2.5% so với lần tham dự vào năm 2017 KẾT LUẬN VÀ ĐỀ NGHỊ Bài tóa n phân mảnh đối tượng áp dụng cho việc tự động hóa cơng việc thủ công cắt ghép ảnh tạo dựng video, ứng dụng vào hệ thống phức tạp xe tự lái để tăng cường an toàn Trong nghiên cứu, tác giả để xuất phương pháp phân mảnh đối tượng người video cách kết Kỷ yếu khoa học hợp thông tin dáng người với mạng nơron phân mảnh Bên cạnh đó, đề xuất phương pháp tinh chỉnh khung xương tinh chỉnh đường biên mask nhằm tăng cường độ xác kết Hướng tiếp cận thể tính tiềm qua kết thí nghiệm tiến hành, với độ xác trung bình tập liệu đánh giá đạt 74.858% Trong tương lai, nhóm tác giả mong muốn tiếp tục nghiên cứu phương pháp đề xuất cách kết hợp thêm phương pháp tăng cường phân mảnh đối tượng, thử nghiệm tập liệu khác để hiểu rõ tiềm hướng tiện cận TÀI LIỆU THAM KHẢO KAIMING HE, GEORGIA GKIOXARI, PIOTR DOLLAR, AND ROSS B GIRSHICK (2017) Mask R-CNN IEEE International Conference on Computer Vision (ICCV) PHILIPP KRÄHENBÜHL AND VLADLEN KOLTUN (2011) Efficient inference in fully connected crfs with gaussian edge potentials Advances in Neural Information Processing Systems 24 pp 109 – 117 USA: Curran Associates, Inc SHAOQING REN, KAIMING HE, ROSS B GIRSHICK, AND JIAN SUN (2015) Faster R-CNN: Towards real-time object detection with region proposal networks Advances in Neural Information Processing Systems 28 pp 91-99 USA: Curran Associates, Inc ZHE CAO, TOMAS SIMON, SHIH-EN WEI, AND YASER SHEIKH (2017) Realtime multi-person 2d pose estimation using part affinity fields The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 151 ... không phân mảnh đối tư? ??ng thiếu thông tin Tinh chỉnh đường biên mask lọc nhiễu Sau quan sát kết cuối sinh từ bước nêu trên, nhận thấy đường biên mask kết không ôm sát đối tư? ??ng người phân mảnh. .. đối tư? ??ng (Instance Segmentation) Bài tóa n phân mảnh đối tư? ??ng người mà nhóm tác giả lựa chọn để giải nhánh tóa n phân mảnh đối tư? ??ng Động lực nhóm tác giả bắt nguồn từ việc nhận thấy tiềm phân. .. xuất phương pháp phân mảnh đối tư? ??ng người video cách kết Kỷ yếu khoa học hợp thông tin dáng người với mạng nơron phân mảnh Bên cạnh đó, đề xuất phương pháp tinh chỉnh khung xương tinh chỉnh đường