So sánh với các mô hình gần đây trên tập dữ liệu P- 123docz.net

6 Kết Luận

5.3 So sánh với các mô hình gần đây trên tập dữ liệu PA100K

Bảng 5.4 thể hiện sự so sánh kết quả của Top DropBlock trên tập dữ liệu PETA. Chúng ta có thể thấy trên tập dữ liệu này, phương pháp CoCNN [21] là phương pháp chiếm ưu thế, hầu hết các thông số đánh giá đều chiếm tỉ lệ cao nhất, ngoài trừ Recall. Trong khi đó, mô hình đề xuất vẫn chưa hoạt động tốt đối với hai thông số Accu và Prec, nhưng có giá trị Recall cao nhất, với giá trị là 89.3%, cao hơn phương pháp ALM [5] đến 1.21%.

Dataset PETA

Method mA Accu Prec Recall F1

DeepMar [18] 82.89 75.07 83.68 83.14 83.41 VeSPA [19] 83.45 77.73 86.18 84.81 85.49 LG-Net [20] - - - - - ALM [5] 86.30 79.52 85.65 88.09 86.85 CoCNN [21] 86.97 79.95 87.58 87.73 87.65 DTM+AWK [22] 85.79 78.63 85.65 87.17 86.11 Our-Top DropBlock 86.46 76.42 81.17 89.30 85.04 Bảng 5.4: So sánh với các mô hình gần đây trên tập dữ liệu PETA

Kết Luận

6.1 Kết quả đạt được

Qua nghiên cứu này, chúng tôi có thể khẳng định rằng với khả năng rút trích đặc trưng của mạng pre-train resnet-50, kết hợp với khả năng tăng cường học các vùng ít thông tin hơn mang lại nhiều kết quả khả quan. Hơn nữa với nghiên cứu này cho thấy tiềm năng của các mô hình nhận dạng ảnh dựa trên nội dung được ứng dụng vào việc phân loại thuộc tính. Cụ thể các kết quả đạt được như sau:

• Xây dựng thành công mô hình Top DropBlock cho việc phân loại các thuộc tính, từ đó tạo tiền đề cho việc truy vết và tìm kiếm các đối tượng bằng thuộc tính. Mô hình được xây dựng là một mô hình nhỏ gọn, end-to-end, dễ dàng huấn luyện và kiểm tra, không cần thêm bất kì việc chú thích dữ liệu. Từ đó có thể dễ dàng áp dụng vào thực tiễn.

• Kết quả rất hứa hẹn khi khảo sát chất lượng của mô hình trên hai tập dữ liệu phổ biến, đó là PA100K và PETA.

• Ứng dụng thành công ý tưởng của việc xây dựng mô hình dựa trên nội dung ảnh, thay vì cách tiếp cận dựa trên thuộc tính

• Đã trực quan hoá thành công bản đồ nhiệt, giúp dễ dàng trong việc gỡ lỗi của quá trình huấn luyện.

Tất cả các source code, bao gồm quá trình chuẩn bị dữ liệu, tiền xử lý dữ liệu, quá trình huấn luyện, kiểm thử và trực quan hoá dữ liệu đều được chúng tôi công bố tại pedestrian-attribute-recognition, các bạn đọc có thể tham khảo và đóng góp để mô hình được hoàn thiện hơn.

6.2 Hướng nghiên cứu tiếp theo

Việc phân loại thuộc tính trên người là một bài toán đầy thú vị và nhận được nhiều sự quan tâm của các nhà khoa học cũng như các tổ chức. Bên cạnh những kết quả đặt được trong nguyên cứu này, mô hình cần được cải thiện và có những hướng đi tiếp theo trong tương lai.

• Chúng ta có thể loại bỏ các vùng có nhiều thông tin bằng một tỉ lệ xác suất thay vì loại bỏ hoàn toàn hàng ngang của các đặc trưng như trong nghiên cứu.

• Kết hợp các mối quan hệ của thuộc tính vào mạng nơ-ron, ví dụ nếu biết trước một người nào đó là phụ nữ thì xác suất họ có thuộc tính tóc dài cao hơn nếu họ là nam.

• Cần được thử nghiệm với tập dữ liệu có thật của CCTV, để khảo sát khả năng phân loại thuộc tính của mô hình.

Tài liệu tham khảo

[1] R. Quispe and H. Pedrini, “Top dropblock for activation enhancement in person re-identification,” In International Conference on Pattern Recognition, pp. 597–604, 2020.

[2] X. Liu, H. Zhao, M. Tian, L. Sheng, J. Shao, S. Yi, J. Yan, and X. Wang, “Hydraplus-net: Attentive deep features for pedestrian analysis,” In Proceed- ings of the IEEE International Conference on Computer Vision, pp. 350–359, 10 2017.

[3] Y. Deng, P. Luo, C. C. Loy, and X. Tang, “Pedestrian attribute recognition at far distance,” In Proceedings of the 22nd ACM International Conference on Multimedia, pp. 789–792, 11 2014.

[4] D. Li, X. Chen, and K. Huang, “Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios,” In Center for Research on Intelligent Perception and Computing, pp. 111–115, 2015.

[5] C. Tang, L. Sheng, Z. Zhang, and X. Hu, “Improving pedestrian attribute recognition with weakly supervised multi-scale attribute-specific localization,” inProceedings of the IEEE International Conference on Computer Vision, 2019, pp. 4997–5006.

[6] Z.-M. Chen, X.-S. Wei, P. Wang, and Y. Guo, “Multi-label image recognition with graph convolutional networks,” In The IEEE Conference on Computer Vision and Pattern Recognition, pp. 5172–5181, 06 2019.

[7] X. Zhao, L. Sang, G. Ding, Y. Guo, and X. Jin, “Grouping attribute recognition for pedestrian with joint recurrent learning,” In Proceedings of the Twenty

Seventh International Joint Conference on ArtificialIntelligence, p. 3177–3183, 2018.

[8] J. Zhu, S. Liao, D. Yi, Z. Lei, and S. Li, “Multi-label cnn based pedestrian attribute learning for soft biometrics,” In Proceedings of the International Con- ference on Biometrics, p. 535–540, 2015.

[9] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and F.-F. Li, “Imagenet: A large-scale hierarchical image database,” In 2009 IEEE conference on computer vision and pattern recognition, p. 248–255, 2009.

[10] S. R. K. He, X. Zhang and J. Sun, “Deep residual learning for image recognition,” In IEEE Conference on Computer Vision and Pattern Recognition, p. 770–778, 2016.

[11] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” In IEEE Conference on Computer Vision and Pattern Recognition, pp. 770–778, 06 2016.

[12] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” The IEEE Conference on Computer Vision and Pattern Recognition, pp. 1–9, 06 2015. [13] A. Z. Max Jaderberg, Karen Simonyan and K. Kavukcuoglu, “Spatial transformer networks,” In Advances in Neural Information Processing Systems, p. 2017–2025, 2015.

[14] J. Pennington, R. Socher, and C. Manning, “Glove: Global vectors for word representation,” In EMNLP, vol. EMNLP, p. 1532–1543, 01 2014.

[15] H. Zhao, M. Tian, S. Sun, J. Shao, J. Yan, S. Yi, X. Wang, and X. Tang, “Spindle net: Person re-identification with human body region guided fea- ture decomposition and fusion,” pp. 907–915, 07 2017.

[16] S. Zagoruyko and N. Komodakis, “Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer,” In International Conference on Learning Representations, Paris, France, p. 1–13, Jun 2017.

[17] Y. Deng, P. Luo, C. C. Loy, and X. Tang, “Rethinking of pedestrian attribute recognition: Realistic datasets with efficient method,” In arXiv preprint arXiv:2005.11909, 05 2020.

[18] X. C. Dangwei Li and K. Huang, “Multi attribute learning for pedestrian attribute recognition in surveillance scenarios,” inIn Proceedings of the IAPR Asian Conference on Pattern Recognition, 2015, p. 111–115.

[19] M. Sarfraz, A. Schumann, Y. Wang, and R. Stiefelhagen, “Deep view sensi- tive pedestrian attribute inference in an end-to-end model,” inIn Proceedings of the British Machine Vision Conference, 09 2017.

[20] P. Liu, X. Liu, J. Yan, and J. Shao, “Localization guided learning for pedestrian attribute recognition,” in In Proceedings of the British Machine Vision Conference, 2018.

[21] K. Han, Y. Wang, H. Shu, C. Liu, C. Xu, and C. Xu, “Attribute aware pool- ing for pedestrian attribute recognition,” in In Computer Vision and Pattern Recognition, 07 2019.

[22] J. Zhang, P. Ren, and J. Li, “Deep template matching for pedestrian attribute recognition with the auxiliary supervision of attributewise key- points,” vol. abs/2011.06798, 11 2020.

Bảng đối chiếu thuật ngữ Anh - Việt

Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt

Closed Circuit Television Chuỗi camera giám sát CCTV

Convolution Tích chập

Convolutional neural network Mạng nơ-ron tích chập CNN

Input Layer Tầng đầu vào

Output Layer Tầng kết quả

Hidden Layer Tầng ẩn

Multi Layer Perceptron Mạng nơ-ron đa tầng MLP

Overfit Quá khớp

Underfit Chưa khớp

Heat Map Bản đồ nhiệt

Class Activation Map CAM

True Positive Mẫu dương đúng TP

True Negative Mẫu âm đúng TN

False Positive Mẫu dương sai FP

False Negative Mẫu âm sai FN

Long Short Term Memory LSTM

Recurrent Neural Network RNN

Graph Convolution Network GCN

Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt

Spatial Transformer Network STN

Attribute Localization Module ALM

Computer Vision Thị giác máy tính

Deep Learning Học sâu

Image Classification Phân loại hình ảnh Facial Recognition Nhận diện khuôn mặt

Latent Features Thuộc tính tiềm ẩn

Fully connected Kết nối đầy đủ

Shared Weights Cơ chế chia sẻ trọng số

Họ và tên: Nguyễn Trọng Tính Ngày sinh: 15/08/1996

Nơi sinh: Đồng Tháp

Địa chỉ: 84/20, Trần Văn Quang, Phường 10, Quận Tân Bình, Hồ Chí Minh

Quá Trình Đào Tạo

Thời gian Trường đào tạo Chuyên ngành Trình độ đào tạo 2014-2018 Đại Học Bách KhoaTp. Hồ Chí Minh Kỹ thuật điện tử Kỹ sư

2019-2021 Đại Học Bách KhoaTp. Hồ Chí Minh Khoa học dữ liệu Thạc sĩ

Quá Trình Công Tác

Thời gian Đơn vị công tác Vị trí

4/2018 - 12/2018 Global Cyber Soft Kỹ sư phần mềm 1/2019 - 8/2020 DEK Technologies Vietnam Kỹ sư phần mềm 9/2020 - Nay Knorex Vietnam Kỹ sư phần mềm

So sánh với các mô hình gần đây trên tập dữ liệu PA100K

Kiến trúc khối residual block []

Kiến trúc mạng Multi-label CNN [8]