Khảo sát thực nghiệm đặc trưng học sâu trên bộ dữ liệu lớn cho bài toán tái nhận dạng nhân vật

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	686,63 KB

Nội dung

Bài viết trình bày việc tiến hành đánh giá hiệu quả của các mạng học sâu trên một bộ dữ liệu lớn MSMT17 vừa được công bố trong năm 2018 nhằm có một cái nhìn tổng quan hơn về hiệu quả và khả năng áp dụng của đặc trưng học sâu trong bài toán tái nhận dạng nhân vật.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00031 KHẢO SÁT THỰC NGHIỆM ĐẶC TRƯNG HỌC SÂU TRÊN BỘ DỮ LIỆU LỚN CHO BÀI TOÁN TÁI NHẬN DẠNG NHÂN VẬT Võ Duy Nguyên1, Huỳnh Nhật Lƣu2, Nguyễn Thị Bảo Ngọc1, Nguyễn Tấn Trần Minh Khang1 PTN Truyền thông Đa phương tiện, Đại học Công nghệ Thông tin ĐHQG TP HCM Trường Đại học Mở TP HCM {nguyenvd,ngocntb,khangnttm}@uit.edu.vn 1451010101luu@ou.edu.vn TÓM TẮT: Cho ảnh người quan sát vị trí, tốn tái nhận dạng nhân vật giúp nhận dạng liên kết ảnh đối tượng xuất địa điểm khác hệ thống camera giám sát Đây tốn có khả ứng dụng cao, đặc biệt hệ thống camera giám sát Nhiều phương pháp rút trích đặc trưng khác đề xuất nhằm giúp biểu diễn tốt ảnh đối tượng vượt qua thách thức thay đổi tư đối tượng, khác khung hay điều kiện chiếu sáng Trong năm gần đây, đặc trưng học sâu sử dụng mang lại kết cao nhiều toán lĩnh vực thị giác máy tính Trong nghiên cứu này, tiến hành đánh giá hiệu mạng học sâu liệu lớn MSMT17 vừa cơng bố năm 2018 nhằm có nhìn tổng quan hiệu khả áp dụng đặc trưng học sâu tốn tái nhận dạng nhân vật Từ khóa: Tái nhận dạng nhân vật, đặc trưng học sâu, liệu lớn I GIỚI THIỆU Cùng với phát triển hệ thống camera giám sát, hệ thống giám sát an ninh đề xuất nhằm giám sát nhiều nơi công cộng siêu thị, sân bay hay bệnh viện Những hệ thống bao gồm nhiều camera đặt nhiều vị trí khác Hình ảnh camera thu thập quản lý trung tâm kiểm sốt Cơng việc trung tâm kiểm sốt bao gồm nhiều tác vụ khác phát người, tìm kiếm theo vết đối tượng (người) Trong công việc đó, tìm kiếm đối tượng di chuyển qua nhiều vùng quan sát camera khác đóng vai trò quan trọng hệ thống giám sát an ninh Nhiệm vụ biết đến với tên gọi tái nhận dạng nhân vật (Person Re-Identification) Hình Mục tiêu tái nhận dạng nhân vật tìm ảnh mục tiêu di chuyển qua vùng quan sát nhiều camera khác Việc tái nhận dạng nhân vật hệ thống gồm nhiều camera khác gặp nhiều thách thức Đặc biệt, số lượng người di chuyển qua camera tăng lên, khả tái nhận dạng thấp đối tượng bị che khuất nhiều người có ngoại hình, trang phục giống Ngồi ra, khác biệt hình ảnh đối tượng xuất camera tác nhân khác khung cảnh, điều kiện ánh sáng, góc nhìn vấn đề lớn cần giải để tái nhận dạng nhân vật cách xác Võ Duy Nguyên, Huỳnh Nhật Lưu, Nguyễn Thị Bảo Ngọc, Nguyễn Tấn Trần Minh Khang 233 Trong năm gần đây, đặc trưng học sâu áp dụng mang lại hiệu cao nhiều toán lĩnh vực thị giác máy tính Nhiều đặc trưng học sâu đề xuất để áp dụng cho toán tái nhận dạng nhân vật cho kết vượt trội so với phương pháp khác [1]-[4] Tuy nhiên, liệu tái nhận dạng nhân vật trước thường có kích thước nhỏ (ví dụ liệu VIPeR[5] tổng cộng có 1264 hình, liệu GRID[6] có 1275 hình), khó có khả đánh giá xác hiệu đặc trưng học sâu toán tái nhận dạng nhân vật Trong báo này, đánh giá hiệu đặc trưng học sâu khác liệu lớn Cụ thể, chúng tơi đánh giá đặc trưng rút trích từ mạng học sâu gồm AlexNet[7], VGG16[8]trên liệu lớn công bố MSMT17 (4,101 người 126,441 ảnh) Ngồi ra, chúng tơi đề xuất thay đổi kích thước ảnh đầu vào để rút trích đặc trưng phù hợp với toán tái nhận dạng nhân vật Từ kết thực nghiệm, đưa số nhận xét kết thu Phần lại báo tổ chức sau, phần II khảo sát toán Tái nhận dạng nhân vật phương pháp rút trích đặc trưng sử dụng Phần III trình bày đặc trưng học sâu Phần IV, thảo luận kết đạt từ phương pháp khác cải thiện kết Cuối cùng, phần V kết luận báo đưa hướng nghiên cứu II CÁC NGHIÊN CỨU LIÊN QUAN Trong phần này, chúng tơi trình bày mơ hình tái nhận dạng nhân vật sử dụng phổ biến hai hướng tiếp cận cho tốn dùng đặc trưng thủ công đặc trưng học sâu 2.1 Tái nhận dạng nhân vật Mơ hình phổ biến sử dụng toán Tái nhận dạng nhân vật gồm hai bước rút trích đặc trưng so khớp (xem Hình 2) Các phương pháp rút trích đặc trưng chia làm hai loại: đặc trưng thủ công đặc trưng học sâu Các ảnh sau rút trích đặc trưng tiến hành so khớp để tính độ tương tự cặp ảnh Dựa độ tương tự tính, ảnh gallery xếp theo thứ tự tăng dần độ tương tự với ảnh tìm kiếm Hình Mơ hình phổ biến tái nhận dạng nhân vật 2.2 Khảo sát số phƣơng pháp rút trích đặc trƣng Nhiều đặc trưng thủ cơng đề xuất tốn tái nhận dạng nhân vật Đặc trưng Ensemble of Localized Features (ELF)[5] sử dụng thông tin histogram màu kênh màu RGB, YcbCr HS thông tin kết cấu bề mặt (texture) ảnh ELF sử dụng kênh màu 21 thông tin cấu trúc, đặc trưng vecto 16 chiều Số chiều vecto đặc trưng 464 chiều, Thông thường ảnh chia làm phần, đặc trưng toàn ảnh biểu diễn vecto đặc trưng có số chiều 2784 Local Descriptors encoded by Fisher Vectors (LDFV)[9]được đề xuất B.Ma cộng năm 2012 LDFV xác định đặc trưng đặc trưng đối tượng, xác định chi tiết thành phần đối tượng LDFV biểu diễn thơng tin vị trí, cường độ, độ dốc điểm ảnh thông qua vectơ Fisher HistLBP[10] công bố F Xiong cộng năm 2014 HistLBP đặc trưng biểu diễn biểu đồ màu sắc không gian màu RGB, YCbCr HS với biểu đồ cấu tạo không gian nhị phân địa phương (local binary patterns LBP[11]) B Ma cộng đề xuất đặc trưng gBiCov dựa vào việc tính tốn mã hóa khác biệt đặc trưng sinh học BIF tỉ lệ khác nhau[12] Dựa thay đổi theo chiều ngang đặc trưng cục tối đa hóa xuất đặc trưng, đặc trưng LOMO[13] S Liao cộng giúp rút trích thơng tin diễn thay đổi đối tượng qua góc nhìn khác cách rõ ràng Weighted Histogram of Overlapping Stripes (WHOS)[14] đặc trưng tập trung vào người (foreground) ảnh, dựa việc loại bỏ (background) phương pháp Epanechnikov Kernel WHOS lấy nhiều đặc trưng người ảnh, sau lấy histogram ảnh nối với đặc trưng HOG ảnh loại bỏ 234 KHẢO SÁT THỰC NGHIỆM ĐẶC TRƯNG HỌC SÂU TRÊN BỘ DỮ LIỆU LỚN CHO BÀI TOÁN… Gaussian of Gaussian (GOG)[15] Matsukawa cộng công bố Trong GOG, ảnh chia thành vùng theo chiều ngang (strip), vùng chia nhiều mẫu nhỏ, lấy gaussian cho mẫu nhỏ, vectơ hóa gaussian tìm phân phối gaussian cho vùng chứa mẩu nhỏ, vectơ hóa phân phối gaussian thu vectơ đặc trưng biểu diễn cho vùng Nối vectơ vùng thu vectơ đặc trưng toàn ảnh GOG dựa cấu tạo bề mặt đối tượng (màu sắc, hoa văn,…) bố cục, vị trí tương đối thành phần III CÁC ĐẶC TRƢNG HỌC SÂU Trong phần này, giới thiệu đặc trưng học sâu sử dụng thực nghiệm Cụ thể, sử dụng mạng học sâu AlexNet VGG16 để tiến hành rút trích đặc trưng 3.1 AlexNet AlexNetlà kiến trúc mạng đề xuất Alex Krizhevsky cộng sự[7] AlexNet học liệu ImageNet1đã tạo bước chuyển lớn đánh dấu thành công phương pháp học sâu Kiến trúc AlexNet gồm có lớp với lớp lớp convolution (conv) lớp sau fully connected layer (fc) Cụ thể, kiến trúc AlexNet biểu diễn hình 3, theo thứ tự từ trái sang: ảnh đầu vào, conv1, conv2, conv3, conv4, conv5, fc6, fc7, fc8 Để rút trích đặc trưng, ảnh đầu vào đưa kích thước 227x227 Đầu lớp cuối vector 1000 chiều tương ứng với 1000 khái niệm ngữ nghĩa cần cần phân lớp Chúng sử dụng đầu lớp fully connected fc7 để làm đặc trưng ảnh toán tái nhận dạng nhân vật Hình Kiến trúc mạng AlexNet[7] 3.2 VGG16 VGG16 mạng học sâu công bố Simonyan Zisserman[8] VGG16 có kiến trúc gồm 16 lớp với lớp cuối fully connected layer VGG16 sử dụng lớp conv có kích thước nhỏ 3x3 (xem hình 4) Những lớp conv cuối có cơng dụng lọc Để rút trích đặc trưng, ảnh đầu vào nén kích thước 224x224 Tương tự AlexNet, sử dụng đặc trưng từ lớp fc7 để làm đặc trưng cho ảnh toán tái nhận dạng nhân vật Hình Kiến trúc mạng VGG16[8] 3.3 Đề xuất chỉnh sửa để phù hợp với tốn tái nhận dạng nhân vật Như trình bày trên, ảnh đầu vào mạng AlexNet VGG16 nén tỉ lệ 227x227 224x224 Tuy nhiên, toán tái nhận dạng nhân vật, ảnh đầu vào người với kích thước ảnh thường có chiều dài gần gấp đơi với chiều rộng Do đó, việc áp dụng mạng học sâu AlexNet VGG16 trực tiếp vào liệu toán tái nhận dạng nhân vật ảnh hưởng lớn đến chất lượng ảnh hiệu suất tái nhận dạng nhân vật Do đó, www.image-net.org/ Võ Duy Nguyên, Huỳnh Nhật Lưu, Nguyễn Thị Bảo Ngọc, Nguyễn Tấn Trần Minh Khang 235 báo này, đề xuất chia ảnh làm hai phần theo chiều ngang tiến hành rút trích đặc trưng phần Vector đặc trưng biểu diễn ảnh xác định cách nối hai vector đặc trưng lại với (xem Hình 5) Hình Rút trích đặc trưng phần ảnh IV THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Bộ liệu Hình Sự khác biệt ảnh người khác biệt ánh sáng, khung cảnh, tư che khuất đối tượng liệu MSMT17 Trong báo này, tiến hành thực nghiệm liệu công bố gần MSMT17[16] MSMT17 (Multi-Scene Multi-Time person ReID dataset) liệu lớn công bố cho toán tái nhận dạng nhân vật MSMT17 thu thập liệu từ 15 camera khác lắp đặt khuôn viên trường học Trong số 15 camera đó, có 12 camera đặt trời camera lắp đặt nhà Dữ liệu thu thập bốn ngày có điều kiện thời tiết khác 12 khoản thời gian khác ngày Để phát người, tác giả sử dụng phương pháp Faster RCNN[17] Tổng cộng có 126,441 ảnh người 4,101 người gán nhãn Để tiến hành thực nghiệm, sử dụng cách phân chia liệu cung cấp tác giả liệu MSMT17 Cụ thể, MSMT17 chia làm hai tập huấn luyện kiểm tra theo tỉ lệ 1:3 Để đánh giá kết tái nhận dạng nhân vật, sử dụng tập kiểm tra (testing set) gồm 11,659 ảnh tìm kiếm (query image) 82,161 ảnh gallery 4.2 Phƣơng pháp đánh giá Cho ảnh nhân vật cần tái nhận dạng, hệ thống tái nhận dạng nhân vật thông thường trả danh sách xếp hạng ảnh nhân vật xuất trước vị trí camera khác Các ảnh xếp hạng 236 KHẢO SÁT THỰC NGHIỆM ĐẶC TRƯNG HỌC SÂU TRÊN BỘ DỮ LIỆU LỚN CHO BÀI TOÁN… theo thứ tự giảm dần độ tương đồng với ảnh nhân vật cần tái nhận dạng Mục tiêu tái nhận dạng nhân vật vị trí nhân vật cần tìm (true rank) gần thấp tốt, nghĩa người sử dụng tìm thấy đối tượng theo dõi sớm tốt Có nhiều phương pháp để đánh giá hiệu suất hệ thống tái nhận dạng nhân vật Trong báo này, sử dụng độ đo phổ biến sử dụng nhiều cơng trình nghiên cứu khoa học giới bao gồm: Rank i, đường cong CMC (Cumulative Match Characteristic curves) nAUC (normalized area under the CMC curve) Trong đó, rank i tỉ lệ thứ hạng (true rank) nằm i vị trí danh sách xếp hạng (ranked list) tổng số ảnh probe cần tái nhận dạng Với độ đo rank i, i nhỏ, rank i cao tốt Đường cong CMC biểu diễn thống kê tất giá trị Rank i nAUC phần diện tích (đã chuẩn hóa) nằm đường cong CMC Giữa hai phương pháp, phương pháp có giá trị nAUC cao xem tốt nAUC tốt tệ 4.3 Phƣơng pháp thực nghiệm Trong báo này, để tiến hành đánh giá hiệu đặc trưng học sâu khác nhau, chúng tơi tiến hành rút trích đặc trưng học sâu AlexNet VGG16 lớp fc7 Ở mơ hình đầu tiên, số chiều đặc trưng thu 4096 cho ảnh Ở mơ hình cải tiến, ảnh phân đôi trước lấy đặc trưng, ảnh có 8194 chiều đặc trưng Để tính độ tương đồng hai ảnh, chúng tơi dựa vào khoảng cách Euclid ( ) 4.4 Kết thực nghiệm Trong phần này, tiến hành đánh giá kết thí nghiệm liệu MSMT17 Kết tái nhận dạng nhân vật theo độ đo Rank i (với i = 1, 10, 50) cơng bố bảng Trong chúng tơi tiến hành so sánh kết mạng AlexNet VGG16 nguyên mạng AlexNet VGG16 cắt ảnh làm hai phần (ký hiệu AlexNet_2 VGG16_2) Dựa kết thực nghiệm cho thấy mạng AlexNet cho kết tốt đặc trưng rút trích từ mạng VGG16 độ đo rank 1, rank 10, rank 50 Cụ thể, AlexNet cho kết cao mạng VGG16 2.63%, 5.34% 9.2% độ đo rank 1, rank 10 rank 50 So sánh kết việc cắt không cắt ảnh đầu vào làm hai trước rút trích đặc trưng cho thấy việc phân đôi ảnh cho kết tốt giữ nguyên ảnh ban đầu Các kết AlexNetv2 cao kết sử dụng mạng AlexNet Điều tương tự xảy với kết mạng VGG16 Các kết độ đo CMC biểu diễn Hình Từ hình vẽ ta thấy kết từ AlexNetv2 cho kết cao vượt trội so với phương pháp khác Bảng Kết thực nghiệm Phƣơng pháp AlexNet VGG16 AlexNetv2 VGG16v2 R1 3.74 1.11 4.6 1.98 R10 10.22 4.88 11.80 6.32 R50 20.50 11.30 21.58 13.70 Hình Kết đường cong CMC với 50 ảnh Võ Duy Nguyên, Huỳnh Nhật Lưu, Nguyễn Thị Bảo Ngọc, Nguyễn Tấn Trần Minh Khang 237 Trong toán phân lớp, phát đối tượng, mạng VGG16 cho kết cao AlexNet, nhiên toán này, kết Alexnet lại tốt Điều cho thấy, sử dụng đặc trưng từ mơ hình huấn luyện sẵn (pre-trained model) liệu ImageNet2 áp dụng cho toán tái nhận dạng nhân vật có thay đổi V KẾT LUẬN Trong báo này, khảo sát đặc trưng học sâu từ mạng học sâu huấn luyện trước bước rút trích đặc trưng tốn Tái nhận dạng nhân vật Từ kết thực nghiệm, đưa kỹ thuật chia đôi để nâng cao kết cho tốn dựa đặc tính ảnh đầu có chiều cao xấp xỉ gấp đơi chiều rộng Trong nghiên cứu tiếp theo, áp dụng việc chia đôi ảnh để huấn luyện đánh giá cho toán Tái nhận dạng nhân vật VI LỜI CÁM ƠN Nghiên cứu tài trợ Trường Đại học Công nghệ Thông tin- ĐHQG-HCM khuôn khổ Đề tài mã số D2-2018-01 VII TÀI LIỆU THAM KHẢO [1] E Ahmed, M Jones, and T K Marks “An improved deep learning architecture for person re-identification” 2015 IEEE Conf Comput Vis Pattern Recognit., pp 3908-3916, 2015 [2] W Li, R Zhao, T Xiao, and X Wang “DeepReid: Deep Filter Pairing Neural Network for Person Reidentification” Cvpr, pp 1-8, 2014 [3] H Shi et al “Embedding deep metric for person Re-identification: A study against large variations” Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), vol 9905 LNCS, pp 732748, 2016 [4] T Matsukawa and E Suzuki “Person re-identification using CNN features learned from combination of attributes” Proc - Int Conf Pattern Recognit., pp 2428-2433, 2017 [5] D Gray and H Tao “Viewpoint invariant pedestrian recognition with an ensemble of localized features” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2008, vol 5302 LNCS, no PART 1, pp 262-275 [6] C C Loy, C Liu, and S Gong “Person re-identification by manifold ranking” in 2013 IEEE International Conference on Image Processing, ICIP 2013 - Proceedings, 2013, pp 3567-3571 [7] A KrizhKrizhevsky, A., Sutskever, I., & Hinton, G E (2012) ImageNet Classification with Deep Convolutional Neural Networks Advances In Neural Information Processing Systems, 1-9.evsky, I Sutskever, and G E Hinton “ImageNet Classification with Deep Convolutional Neural Networks” Adv Neural Inf Process Syst., pp 1-9, 2012 [8] K Simonyan and A Zisserman “Very Deep Convolutional Networks for Large-Scale Image Recognition” ImageNet Chall., pp 1-10, 2014 [9] B Ma, Y Su, and F Jurie “Local descriptors encoded by Fisher Vectors for person re-identification” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2012, vol 7583 LNCS, no PART 1, pp 413-422 [10] F Xiong, M Gou, O Camps, and M Sznaier “Person re-identification using kernel-based metric learning methods” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2014, vol 8695 LNCS, no PART 7, pp 1-16 [11] T Ojala, M Pietikäinen, and D Harwood “A comparative study of texture measures with classification based on featured distributions” Pattern Recognit., vol 29, no 1, pp 51-59, 1996 [12] B Ma, Y Su, B Ma, and Y Su “Covariance Descriptor based on Bio-inspired Features for Person Reidentification and Face Verification To cite this version: Covariance Descriptor based on Bio-inspired Features for Person re-Identification and Face Verification” 2014 [13] S Liao, Y Hu, X Zhu, and S Z Li “Person re-identification by Local Maximal Occurrence representation and metric learning” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2015, vol 07-12-June, pp 2197-2206 [14] G Lisanti, I Masi, A D Bagdanov, and A Del Bimbo “Person re-identification by iterative re-weighted sparse ranking” IEEE Trans Pattern Anal Mach Intell., vol 37, no 8, pp 1629-1642, 2015 [15] T Matsukawa, T Okabe, E Suzuki, and Y Sato “Hierarchical Gaussian Descriptor for Person Re-identification” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp 1363-1372 http://www.image-net.org/ 238 KHẢO SÁT THỰC NGHIỆM ĐẶC TRƯNG HỌC SÂU TRÊN BỘ DỮ LIỆU LỚN CHO BÀI TOÁN… [16] Wei, L., Zhang, S., Gao, W., & Tian, Q (2018) Person Transfer GAN to Bridge Domain Gap for Person ReIdentification Computer Vision and Pattern Recognition, IEEE International Conference on, 2018 [17] S Ren, K He, R Girshick, and J Sun “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” IEEE Trans Pattern Anal Mach Intell., vol 39, no 6, pp 1137-1149, 2017 A SURVEY ON DEEP FEATURES FOR PERSON RE-IDENTIFICATION Nguyen D Vo, Huynh Nhat Luu, Nguyen Thi Bao Ngoc, Khang Nguyen ABSTRACT: Given an image of a person observed in a camera, person re-identification is the task of recognizing and associating that person appearing in the other camera views This task plays an important role in many applications, especially in the surveillance system Many features extraction methods have been proposed in order to overcome challenges such as the variation of poses, background or illumination Recently, deep featuresare proved to be superior in many computer vision problems In this paper, we evaluate the performance of deep learning models in the MSMT17 datasetwhich is a newly published large-scale dataset, to have an overview of deep features and its applicability in person re-identification Keywords: Person Re-Identification, Deep features, large-scale dataset ... hình tái nhận dạng nhân vật sử dụng phổ biến hai hướng tiếp cận cho tốn dùng đặc trưng thủ công đặc trưng học sâu 2.1 Tái nhận dạng nhân vật Mơ hình phổ biến sử dụng toán Tái nhận dạng nhân vật. .. THỰC NGHIỆM ĐẶC TRƯNG HỌC SÂU TRÊN BỘ DỮ LIỆU LỚN CHO BÀI TOÁN… theo thứ tự giảm dần độ tương đồng với ảnh nhân vật cần tái nhận dạng Mục tiêu tái nhận dạng nhân vật vị trí nhân vật cần tìm (true... dụng cho toán tái nhận dạng nhân vật có thay đổi V KẾT LUẬN Trong báo này, khảo sát đặc trưng học sâu từ mạng học sâu huấn luyện trước bước rút trích đặc trưng tốn Tái nhận dạng nhân vật Từ kết thực

Ngày đăng: 30/09/2021, 15:45