Bài viết phân tích đánh giá thực nghiệm trên bộ dữ liệu lớn Airport, DukeMTMC4ReID được công bố gần đây bằng các phương pháp rút trích đặc trưng ELF, gBiCov, LOMO, WHOS. Kết quả cho thấy đặc trưng gBiCov có nAUC 54,42% (Airport), 40,61% (DukeMTMC4ReID) cao hơn các đặc trưng khác.
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH TẠP CHÍ KHOA HỌC HO CHI MINH CITY UNIVERSITY OF EDUCATION JOURNAL OF SCIENCE KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ ISSN: 1859-3100 Tập 15, Số (2018): 97-106 NATURAL SCIENCES AND TECHNOLOGY Vol 15, No (2018): 97-106 Email: tapchikhoahoc@hcmue.edu.vn; Website: http://tckh.hcmue.edu.vn ĐÁNH GIÁ MỘT SỐ PHƯƠNG PHÁP BIỂU DIỄN ĐẶC TRƯNG CHO BÀI TOÁN TÁI NHẬN DẠNG NHÂN VẬT Võ Duy Nguyên*, Nguyễn Thị Bảo Ngọc, Nguyễn Tấn Trần Minh Khang Phịng Thí nghiệm Truyền thơng Đa phương tiện - Trường Đại học Công nghệ Thông tin – ĐHQG TPHCM Ngày nhận bài: 14-5-2018; ngày nhận sửa: 29-5-2018; ngày duyệt đăng: 19-6-2018 TÓM TẮT Tái nhận dạng nhân vật tốn tìm kiếm đối tượng di chuyển qua camera khác Trong báo này, đánh giá thực nghiệm liệu lớn Airport, DukeMTMC4ReID công bố gần phương pháp rút trích đặc trưng ELF, gBiCov, LOMO, WHOS Kết cho thấy đặc trưng gBiCov có nAUC 54,42% (Airport), 40,61% (DukeMTMC4ReID) cao đặc trưng khác Từ khóa: tái nhận dạng nhân vật, hệ thống giám sát ABSTRACT Empirical evaluation of feature representation methods for Person reidentification Person re-identification is a practical task matching people moving across cameras In this paper, we evaluated performance of various person re-identification approaches on recently published datasets Airport and DukeMTMC4ReId by feature extractors as ELF, gBiCov, LOMO, WHOS The results show gBiCov achieved nAUC 54.42% (Airport), 40.61% (DukeMTMC4ReID) greater than the others Keywords: person re-identification, surveillance system Giới thiệu Việc giám sát an ninh nơi công cộng trọng Các camera giám sát lắp đặt nhiều nơi nhà ga, sân bay, trường học… Để vận hành hệ thống giám sát cần tốn nhiều chi phí nhân lực việc giám sát thủ công không đảm bảo hiệu giám sát Trong năm gần đây, hệ thống giám sát thông minh xây dựng để nâng cao hiệu quả, giảm chi phí đáp ứng nhu cầu phát triển khu đô thị, thành phố thơng minh Bài tốn Tái nhận dạng nhân vật (person re-id) toán ứng dụng việc giám sát an ninh Tái nhận dạng nhân vật tốn có ảnh đầu vào ảnh người thu camera, đầu danh sách người thu camera khác, danh sách xếp giảm dần theo mức độ tương đồng với ảnh đầu vào Hình minh họa toán tái nhận dạng nhân vật, tìm người xuất hai camera khác Trong ví dụ, gái xuất camera A góc quay ngang tìm thấy camera B góc quay từ phía sau * Email: nguyenvd@uit.edu.vn 97 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 15, Số (2018): 97-106 Bài tốn có nhiều thách thức lớn ảnh nhân vật có nhiều biến thể điều kiện khác ánh sáng, góc quay camera, chồng lấp nhân vật hay vật thể khác, thay đổi (background) nhà, trời hay thời điểm ban ngày ban đêm, chí số trường hợp thay đổi trang phục nhân vật Bài toán nhận quan tâm cộng đồng nghiên cứu thị giác máy tính thập kỉ qua [1, 2, 3] Hai hướng nghiên cứu biểu diễn đặc trưng (feature representation) học độ đo khoảng cách (metric learning) đặc trưng Bộ biểu diễn đặc trưng tốt “ổn định bền” trước yếu tố làm đa dạng biến thể nhân vật giúp cho phương pháp học độ đo khoảng cách hình ảnh biến thể nhân vật đạt kết tốt Cùng với phát triển khoa học giới, nghiên cứu nước có tiến triển, số nghiên cứu sơ khởi nhằm nâng cao hiệu suất cho tốn cơng bố [4, 5] Tuy nhiên, Việt Nam chưa có đánh giá trên liệu lớn công bố năm gần Trong nghiên cứu này, trình bày tổng quan phương pháp biểu diễu đặc trưng học độ đo khoảng cách để đánh giá liệu độ đo tiêu chuẩn Thông qua khảo sát này, chúng tơi cung cấp nhìn tổng quan tốn tái nhận dạng nhân vật Hình Minh họa tốn tái nhận dạng nhân vật [6] Phần cịn lại báo tổ chức sau: Phần trình bày mơ hình tái nhận dạng nhân vật, số phương pháp rút trích đặc trưng học độ đo Phần trình bày liệu Airport, DukeMTMC4ReID, độ tiêu chuẩn Rank i, nAUC kết thực nghiệm Cuối cùng, phần trình bày kết luận 98 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Võ Duy Nguyên tgk Các nghiên cứu liên quan 2.1 Mơ hình phổ biến tốn tái nhận dạng nhân vật Trong phần này, trình bày tổng quan phương pháp rút trích đặc trưng toán tái nhận dạng nhân vật Tái nhận dạng nhân vật nghiên cứu chủ yếu dựa ảnh đơn (single image) Bài toán xem xét bao gồm liệu ‘gallery’ có N ảnh tương ứng cho N người khác (G1, G2,…, GN ) liệu ‘‘Probe’’ có N ảnh, tương ứng với N người khác (P1, P2,…, PN), đó, ảnh G1 P1 người, tương tự cho ảnh cịn lại Bài tốn đặt cho ảnh truy vấn q thuộc ‘Probe’ tìm người giống ảnh q liệu ‘gallery’ Các hướng giải toán chủ yếu xoay quanh hai vấn đề: biểu diễn nhân vật hai so khớp nhân vật Ảnh tìm kiếm Rút trích đặc trưng So khớp Xếp hạng Danh sách Gallery Hình Mơ hình phổ biến tốn tái nhận dạng nhân vật Đặc trưng biểu diễn cho nhân vật trích xuất từ ảnh thơng qua phương pháp rút trích đặc trưng Một số phương pháp rút trích đặc trưng cơng bố nghiên cứu trước đây: ELF, LDFV, gBiCov, IDE-CaffeNet, IDE-VGGNet, DenseColorSIFT, HistLBP, LOMO, GOG Sau bước rút trích đặc trưng, tiến hành so khớp (đặc trưng) nhân vật So khớp đặc trưng để tính độ tương đồng nhân vật Một phương pháp truyền thống tính khoảng cách Euclid ( ) Để tìm người q tập liệu ‘gallery’, tính khoảng cách (đặc trưng của) người q với tất người ‘gallery’, dựa vào kết khoảng cách, thu danh sách xếp giảm dần theo độ tương đồng Những người đứng đầu danh sách gần giống với người q Thay sử dụng độ đo Euclid, hướng tiếp cận khác học có giám sát, phương pháp học độ đo khoảng cách (metric learning) Nhằm mục đích xác định vectơ đặc trưng người có khoảng cách gần so với vectơ đặc trưng người khác 2.2 Một số phương pháp rút trích đặc trưng Đặc trưng thủ cơng thiết kế chuyên gia để biểu diễn nhân vật dựa đặc điểm đối tượng Như Ensemble of Localized Features (ELF) [7] đề xuất D Gray and H Tao vào năm 2008 ELF đặc trưng kết hợp, sử dụng thông tin histogram màu kênh màu RGB, YcbCr HS thông tin kết cấu bề mặt 99 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 15, Số (2018): 97-106 (texture) ảnh Vectơ đặc trưng ELF dùng 29 đặc trưng gồm kênh màu 21 thông tin cấu trúc, đặc trưng vecto 16 chiều Gabor filters, Biologically Inspired Features and Covariance descriptors (gBiCov) phương pháp trích xuất đặc trưng dựa Gabor filters, Biologically Inspired Features (BIF) kết hợp với phương pháp Covariance descriptors B.Ma cộng công bố đặc trưng gBiCov vào năm 2014 Đặc trưng gBiCov thu cách tính tốn mã hóa khác biệt đặc trưng sinh học BIF tỉ lệ khác Khoảng cách nhân vật tính toán hiệu độ đo Euclidean Local Maximal Occurrence (LOMO) đề xuất S.Liao cộng hội nghị CVPR 2015 LOMO sử dụng thuật toán đa tỉ lệ Retinex xử lí đặc trưng LBP biểu đồ màu HSV LOMO phân tích xuất theo chiều ngang đặc trưng cục bộ, tối đa hóa xuất tạo diễn tả rõ ràng trước thay đổi đối tượng qua góc nhìn khác Weighted Histogram of Overlapping Stripes (WHOS) đặc trưng tập trung vào người (foreground) ảnh, dựa việc loại bỏ (background) phương pháp Epanechnikov Kernel WHOS lấy nhiều đặc trưng người ảnh, sau lấy histogram ảnh nối với đặc trưng HOG ảnh loại bỏ 2.3 Một số độ đo khoảng cách (Metric learning) Một số phương pháp metric learning như: KISSME, MFA, FDA, NSFT MFA (Marginal Fisher Analysis) loại bỏ sai lầm liệu dạng Gaussian MFA phương pháp tham số đặc trưng cục kết hợp với k hàng xóm, nên có khả tính tốn phi tuyến tính FDA (Fisher's discriminant analysis) tổng quát hóa LDA, phương pháp sử dụng thống kê, nhận dạng m u máy học để tìm kết hợp tuyến tính tính đặc trưng tách hai nhiều lớp đối tượng kiện NSFT (Null Foley-Sammon Transform) giải vấn đề Small Sample Size (SSS) việc áp dụng không gian phân biệt (discriminative null space), hình giống phải nằm chung điểm khơng gian đó, hình khơng giống phải nằm điểm khác, phép chiếu Trong phần này, chúng tơi tìm hiểu phương pháp kissme cài đặt phương pháp KISSME [8] phương pháp phân biệt ảnh khác dựa hàm phân phối Gaussian giúp học nhanh liệu, bên cạnh sử dụng ma trận hiệp phương sai (cov matrix) giúp tăng hiệu suất (performance) Để đánh giá phương pháp rút trích đặc trưng ELF, WHOS cho toán tái nhận dạng nhân vật, chúng tơi chọn KISSME làm phương pháp tính độ đo khoảng cách Bộ liệu 3.1 Bộ liệu Trong phần này, giới thiệu số liệu sử dụng để đánh giá thực nghiệm, bao gồm: Airport, DukeMTMC4ReID 100 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Võ Duy Nguyên tgk Bảng Các đặc tính liệu: Airport, DukeMTMC4ReID STT Tên liệu Năm công bố Số camera Số người Số ảnh Môi trường lắp đặt DukeMTMC4ReID 2017 1852 46261 Trường học Airport 2018 1382 39902 Sân bay Airport Bộ liệu Airport [9] công bố năm 2018 thu thập từ sáu camera giám sát lắp đặt trời sân bay từ sáng đến tối Ảnh người nhận diện tự động với nhiều ảnh chứa phần thân người (xem Hình 3) Tổng cộng, có 39.902 ảnh 9651 người thu thập Trong có 1382 người xuất trong hai camera khác Airport liệu hứa hẹn với đặc điểm giống môi trường mở thực hệ thống giám sát thực Hình Minh họa liệu Airport DukeMTMC4ReID [10] liệu xây dựng dựa liệu DukeMTMC Ảnh liệu DukeMTMC4ReID thu thập từ hệ thống bao gồm tám camera giám sát lắp đặt khuôn viên Trường Đại học Duke DukeMTMC4ReID cung cấp 46.261 ảnh 1852 người Trong đó, 1413 người (22.515 ảnh) xuất camera; 439 người lại (2195 ảnh) xuất tám camera Ảnh liệu có kích thước giao động từ 72x34 pixel đến 515x188 pixel (xem Hình 4) 101 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 15, Số (2018): 97-106 Hình Minh họa liệu DukeMTMC4ReID 3.2 Độ đo Bài toán tái nhận dạng nhân vật sử dụng độ đo chuẩn Rank i, ngồi cịn normalized Area under the CMC curve (nAUC) Các độ đo xây dựng dựa hạng (true rank) Tùy theo phương pháp biểu diễn đặc trưng học độ đo khoảng cách có thứ tự xếp hạng khác nhau, phương pháp cho kết tốt người cần tìm ảnh query đầu danh sách Thứ hạng ảnh danh sách xếp hạng hạng (true rank) Rank i khả dự đoán i kết Gallery Rank i tính số lượng hạng nhỏ hay i chia cho tổng số ảnh query Rank i lớn thể khả dự đốn vị trí thứ i cao Rank n 1, n số ảnh query Đường cong Cumulative matching characteristic (CMC) vẽ tất giá trị Rank i Trục hoành dãy số nguyên cho biết thứ hạng i, trục tung dãy số thực cho biết giá trị tương đương với thứ hạng i Để so sánh kết đường cong CMC dùng diện tích bên đường cong CMC gọi normalized Area under the CMC curve (nAUC), giá trị lớn nAUC 3.3 Thực nghiệm Trong phần này, chúng tơi trình bày kết thực nghiệm với bốn đặc trưng WHOS, LOMO, gBiCov ELF Mỗi đặc trưng có ưu nhược điểm khác Để so sánh bốn đặc trưng, sử dụng metric learning KISSME đánh giá hai liệu lớn, công bố gần Airport, DukeMTMC4ReID Tổ chức liệu để huấn luyện đánh giá cho DukeMTMC4ReID dựa vào tập tin đính kèm tác giả liệu công bố Dữ liệu Airport gồm camera, chọn camera làm ‘probe’ chọn ng u nhiên cặp nhân vật từ 20 clip để làm liệu huấn luyện, phần lại dùng cho đánh giá Chúng tiến hành thực nghiệm máy tính có cấu hình CPU intel(r) xeon(r) cpu 102 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Võ Duy Nguyên tgk e5-2680, RAM 12GB, hệ điều hành Windows Server 2008 R2 Standard Bảng Mô tả thông tin loại đặc trưng liệu Airport STT Đặc trưng Số chiều đặc trưng Thời gian rút trích đặc trưng Thời gian so khớp WHOS 3,410 21 phút 17 phút LOMO 4,044 tiếng 34 phút 21 phút gBiCov 216 ngày 16 tiếng 15 giây ELF 2,592 tiếng 48 phút phút Bảng Mô tả thông tin loại đặc trưng liệu DukeMTMC4ReID STT Đặc trưng Số chiều đặc trưng Thời gian rút trích đặc trưng Thời gian so khớp WHOS 3,410 25 phút tiếng 31 phút LOMO 4,044 tiếng 50 phút tiếng 56 phút gBiCov 216 ngày 14 tiếng phút ELF 2,592 tiếng 30 phút tiếng 30 phút Tổng quan số chiều thời gian chạy thực nghiệm loại đặc trưng liệu Airport DukeMTMC4ReID tổng hợp bảng Qua kết thực nghiệm Bảng Bảng 3, hai liệu Airport DukeMTMC4ReID, số chiều đặc trưng gBiCoV nhỏ đặc trưng thời gian rút trích đặc trưng gBiCoV nhiều làm cho tổng thời gian rút trích so khớp nhiều Giá trị Rank i tính theo %, nAUC giá trị khoảng Giá trị nAUC liệu có số lượng ảnh lớn Airport DukeMTMC4ReID tiến gần giá trị Trong thực nghiệm này, quan tâm đến 50 danh sách trả tính nAUC cho danh sách Đặc trưng WHOS cho kết Rank cao liệu Airport, nhiên Rank 5,10 đặc trưng gBiCoV lại cho kết cao WHOS cho giá trị nAUC cao so với đặc trưng khảo sát Trong liệu DukeMTMC4ReID đặc trưng gBiCoV cho kết Rank 1, 5, 10 cao bốn đặc trưng (xem Bảng 4, 5) Kết từ Hình 5, cho thấy đặc trưng gBiCoV cho kết tốt phương pháp biểu diễn đặc trưng hai liệu Trên Airport, ELF LOMO hai đường cong tương đương có giá trị nAUC gần nhau: ELF (44,53%) LOMO (44,10%) Tuy nhiên, dựa vào giá trị Rank đặc trưng ELF (6,43) cho kết cao LOMO (5,03) 103 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 15, Số (2018): 97-106 Bảng Kết độ đo liệu Airport Đặc trưng Rank Rank Rank 10 nAUC WHOS 9,04 23,57 33,58 51,00 LOMO 5,03 17,83 24,73 44,10 gBiCov 8,69 26,65 35,11 54,42 ELF 6,43 18,4 27,56 44,53 Bảng Kết độ đo liệu DukeMTMC4ReID Đặc trưng Rank Rank Rank 10 nAUC WHOS 9,17 15,47 20,13 26,86 LOMO 4,18 7,82 10,59 15,74 gBiCov 11,8 23,21 30,69 40,61 ELF 6,21 13,36 17,57 24,40 Hình Đường cong CMC cho liệu Airport 104 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Võ Duy Nguyên tgk Hình Đường cong CMC cho liệu DukeMTMC4ReID Kết luận thảo luận Trong nghiên cứu này, chúng tơi tìm hiểu báo cáo thực nghiệm phương pháp biểu diễn nhân vật so khớp nhân vật toán Tái nhận dạng nhân vật hai liệu DukeMTMC4ReID Airport Các đặc tả nhân vật dựa đặc trưng thủ cơng có ưu nhược điểm khác hướng tới đối tượng cụ thể, chịu ảnh hướng lớn đặc trưng nhân vật môi trường thu nhận ảnh Trong nghiên cứu tiếp theo, tận dụng ưu điểm đặc trưng để tạo đặc tả tốt Tuyên bố quyền lợi: Các tác giả xác nhận hồn tồn khơng có xung đột quyền lợi Lời cảm ơn: Nghiên cứu thực Phịng Thí nghiệm Truyền thơng Đa phương tiện (MMLab) - Trường Đại học Công nghệ Thông tin - ĐHQG HCM (VNUHCMUIT) TÀI LIỆU THAM KHẢO [1] Y Li, Z Wu, S Karanam, and R Radke, "Real-world reidentification in an airport camera network," in ICDSC, 2014 [2] D Gray and H Tao., "Viewpoint Invariant Pedestrian Recognition with an Ensemble of Localized Features," in European conference on computer vision (ECCV), 2008 [3] M Gou, X Zhang, A Rates-Borras, S Asghari-Esfeden, M Sznaier, and O Camps, "Person re-identification in appearance impaired scenarios," in BMVC, 2016 [4] N.-B Nguyen, V.-H Nguyen, T N Duc, D.-D Le, and D A Duong, "AttRel: an approach 105 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 15, Số (2018): 97-106 to person re-identification by exploiting attribute relationships," in in International Conference on Multimedia Modeling, pp 50–60., 2015 [5] N.-B Nguyen, V.-H Nguyen, T D Ngo, and K M T T Nguyen, "Person re-identification with mutual re-ranking," in Vietnam J Comput Sci., vol 4, no 4, pp.233–244,, 2017 [6] Tetsu Matsukawa, Einoshin Suzuki, "Person Re-Identification Using CNN Features Learned from Combination of Attributes," in in Proceedings of International Conference and Pattern Recognition (ICPR2016), 2016 [7] D Gray and H Tao, "Viewpoint invariant pedestrian recognition with an ensemble of localized features," in ECCV, 2008 [8] M Koestinger, M Hirzer, P Wohlhart, P M Roth, and H Bischof, "Large scale metric learning from equivalence constraints," in CVPR, 2012 [9] Srikrishna Karanam, Mengran Gou, Ziyan Wu, Angels Rates-Borras, Octavia Camps, Richard J Radke, "A Systematic Evaluation and Benchmark for Person Re-Identification: Features, Metrics, and Datasets," in IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018 [10] Mengran Gou, Srikrishna Karanam, Wenqian Liu, Octavia Camps, Richard J Radke, "DukeMTMC4ReID: A Large-Scale Multi-Camera Person Re-Identification Dataset," in CVPR, 2017 106 ... Mơ hình phổ biến tốn tái nhận dạng nhân vật Trong phần này, chúng tơi trình bày tổng quan phương pháp rút trích đặc trưng toán tái nhận dạng nhân vật Tái nhận dạng nhân vật nghiên cứu chủ yếu... trích đặc trưng So khớp Xếp hạng Danh sách Gallery Hình Mơ hình phổ biến tốn tái nhận dạng nhân vật Đặc trưng biểu diễn cho nhân vật trích xuất từ ảnh thơng qua phương pháp rút trích đặc trưng Một. .. phương pháp biểu diễu đặc trưng học độ đo khoảng cách để đánh giá liệu độ đo tiêu chuẩn Thông qua khảo sát này, cung cấp nhìn tổng quan tốn tái nhận dạng nhân vật Hình Minh họa tốn tái nhận dạng nhân