Ước lượng số người trong đám đông sử dụng mạng nơron tích chập

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	900,31 KB

Nội dung

Bài viết trình bày việc sử dụng mạng nơron tích chập để sinh bản đồ mật độ và ước lượng số người dựa trên bản đồ mật độ này. Việc làm này vừa tránh được bài toán phát hiện đối tượng vừa thể hiện được mức độ phân bố của người trong đám đông. Thực nghiệm cho thấy, phương pháp của chúng tôi tốt hơn các phương pháp truyền thống khi kiểm thử trên các tập dữ liệu UCF_CC_50, ShanghaiTech.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00228 ƯỚC LƯỢNG SỐ NGƯỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP Đỗ Phúc Thịnh, Qch Thị Bích Nhƣờng, Trần Văn Ninh Trƣờng Đại học Công nghệ Đồng Nai dophucthinh@dntu.edu.vn, quachthibichnhuong@dntu.edu.vn, tranvanninh@dntu.edu.vn TÓM TẮT: Ước lượng số người đám đông nhiệm vụ quan trọng hệ thống camera giám sát Nó góp phần hỗ trợ cho lĩnh vực kinh doanh, giao thông, an ninh gần lệnh cấm tụ tập đại dịch Covid-19 diễn Trong báo này, chúng tơi sử dụng mạng nơron tích chập để sinh đồ mật độ ước lượng số người dựa đồ mật độ Việc làm vừa tránh toán phát đối tượng vừa thể mức độ phân bố người đám đông Thực nghiệm cho thấy, phương pháp tốt phương pháp truyền thống kiểm thử tập liệu UCF_CC_50, ShanghaiTech Từ khóa: Đếm số người, mạng học sâu, mạng tích chập, crowd counting, convolutional neural network I GIỚI THIỆU Hiện diễn cách mạng công nghệ lần thứ tƣ Trong cách mạng này, ngƣời muốn tự động hóa thứ Một số hệ thống camera giám sát Song song với đó, với gia tăng dân số q trình thị hóa việc giám sát cá nhân chuyển dần sang giám sát đám đơng Đặc biệt, với tình hình dịch bệnh Covid-19 vừa diễn ra, ngƣời ta muốn hạn chế việc tụ tập đơng ngƣời Chính thế, việc tự động giám sát phân bố đám đông cần thiết Khi số ngƣời đám đông vƣợt ngƣỡng, hệ thống giám sát thơng báo để kịp thời xử lý Trong nửa thập kỷ gần đây, với đời mạng học sâu, đặc biệt mạng nơron tích chập (Convolutional Neural Network - CNN) chiếm ƣu áp đảo tốn thị giác máy tính, việc đếm số ngƣời đám đông không ngoại lệ Cách tiếp cận đơn giản để giải vấn đề đếm số lƣợng ngƣời phát đƣợc Một số mô hình phát đối tƣợng nhƣ YOLO [12], [13], [14], SSD [8] cho kết tốt môi trƣờng thƣa ngƣời Tuy nhiên, gặp ảnh có đơng ngƣời nhƣ đám đơng (Hình 1), mơ hình hồn tồn khơng thể phát cách chi tiết đƣợc Để vƣợt qua đƣợc vấn đề này, nhiều phƣơng pháp khác đƣợc đề xuất [22], [15], [4], [16], [18] Hầu hết phƣơng pháp dựa vào đồ mật độ (chúng tơi nói đồ mật độ phần sau), nhiên mơ hình để sinh đồ mật độ cịn “nơng” Chính thế, chúng tơi đề xuất sử dụng mơ hình học sâu để sinh đồ mật độ ƣớc lƣợng số ngƣời dựa đồ mật độ Hình Ảnh đám đơng đồ mật độ nó, 1061 tổng số ngƣời Các phần lại báo đƣợc tổ chức nhƣ sau Trong phần kế tiếp, chúng tơi trình bày q trình phát triển việc ƣớc lƣợng số ngƣời đám đơng Chúng tơi mơ tả mơ hình đề xuất nhƣ thuật toán sử dụng phần III Phần IV phần thực nghiệm đánh giá phần V kết luận hƣớng phát triển mơ hình II CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN Thông thƣờng, việc ƣớc lƣợng hay đếm số ngƣời đám đông đƣợc chia thành hƣớng tiếp cận chính: Dựa vào việc phát đối tƣợng; dựa vào mơ hình hồi quy dựa vào đồ mật độ: A Các phương pháp dựa vào việc phát đối tượng Đây phƣơng pháp sơ khai nhất, sử dụng việc phát đối tƣợng để đếm số ngƣời có ảnh Một số cơng trình nhƣ [19], [3] sử dụng cửa sổ trƣợt để phát đối tƣợng Nhìn chung, nhƣợc điểm phƣơng pháp mật độ ngƣời ảnh đơng, khả đếm thấp ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐƠNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP 678 B Các phương pháp dựa vào mơ hình hồi quy Với ảnh có mật độ ngƣời đơng, phƣơng pháp phát đối tƣợng khơng cịn phù hợp Khái niệm “đếm” đƣợc chuyển dần sang “ƣớc lƣợng” chuyển hƣớng cách tiếp cận khác dựa vào mơ hình hồi quy Các phƣơng pháp dựa vào mơ hình hồi quy thƣờng đƣợc chia thành hai cơng đoạn: Rút trích đặc trƣng xây dựng mơ hình hồi quy để ƣớc tính số đếm Các kỹ thuật hồi quy nhƣ linear [11], ridge [2], Gaussian [9] đƣợc sử dụng để ánh xạ đặc trƣng với số đếm Tác giả Wang cộng [20] tiếp cận theo hƣớng sử dụng mạng Alexnet [6] để rút trích đặc trƣng từ ảnh đám đơng, đầu mạng nút số đếm Để huấn luyện đƣợc mơ hình này, tác giả thêm vào mẫu âm (ảnh khơng có ngƣời) Các phƣơng pháp thuộc dạng giải đƣợc tốn khó tránh việc phát đối tƣợng Tuy nhiên, phƣơng pháp có thơng tin số ngƣời có ảnh mà khơng thể đƣợc mức độ phân bố ngƣời ảnh Chính vậy, nhà nghiên cứu đề xuất hƣớng mới, dựa đồ mật độ C Các phương pháp dựa vào đồ mật độ Để thể đƣợc mức độ phân bố ngƣời ảnh, tác giả Lempitsky cộng [7] đề xuất phƣơng pháp sử dụng đồ mật độ để ƣớc lƣợng số ngƣời Bản đồ mật độ (Hình 1) ảnh hai chiều thể đƣợc mật độ ngƣời phân bố số ngƣời có ảnh tổng giá trị Tác giả Boominathan [1] sử dụng mơ hình gồm hai “cột” CNN có độ sâu khác Đầu hai mơ hình CNN đƣợc kết hợp tầng tích chập 1x1 tạo nên đồ mật độ Một số tác giả khác nhƣ Onoro-Rubio cộng [10], Zhang [22] cải tiến mơ hình cách sử dụng ba mơ hình CNN song song để sinh đồ mật độ Tác giả Sam [15] cải tiến mô hình đa cột cách thêm phân loại, giúp tìm ảnh đầu vào phù hợp với mạng CNN Tác giả Đỗ cộng [4] làm giảm độ sai số mơ hình cách loại bỏ khu vực khơng có ngƣời trƣớc đem vào mơ hình Điểm chung phƣơng pháp sử dụng mạng tích chập đơn giản để sinh đồ mật độ Chính vậy, chất lƣợng đồ mật độ không cao III PHƢƠNG PHÁP ĐỀ XUẤT Chúng tơi đề xuất mơ hình sử dụng mạng học sâu để xây dựng đồ mật độ Cụ thể chúng tơi tận dụng sức mạnh mơ hình VGG-16 [17] để làm sở (baseline) cho mơ hình A Mơ hình sinh đồ mật độ Bản đồ mật độ 1x1x1 3x3x64 3x3x128 3x3x256 3x3x512 3x3x512 3x3x512 3x3x512 3x3x512 3x3x512 Max Pooling 3x3x256 3x3x256 3x3x256 Max Pooling 3x3x128 3x3x128 Max Pooling 3x3x64 3x3x64 Ảnh đầu vào Nhƣ đề cập trƣớc đó, phƣơng pháp cũ sử dụng mạng CNN có kiến trúc đơn giản để sinh đồ mật độ Điều khiến chất lƣợng đồ mật độ thấp Với thành cơng mơ hình VGG-16 tốn phân loại đối tƣợng khả rút trích đặc trƣng mơ hình khơng thể phủ nhận Chính thể, sử dụng lại kiến trúc tầng đầu mạng VGG-16, loại bỏ tầng kết nối đầy đủ chúng khơng phù hợp với tốn đặt Chúng thay tầng kết nối đầy đủ tầng tích chập, đầu tầng đƣợc kết hợp lại nhờ tầng tích chập 1x1 Mơ hình sinh đồ mật độ đƣợc mơ tả nhƣ Hình Chúng tơi vẽ mơ hình nằm ngang để đỡ chiếm khoảng trống Trong đó, 3x3x64 dùng để tầng tích chập gồm 64 lọc kích thƣớc 3x3 Max Pooling tầng pooling sử dụng thuật tốn max-pool với kích thƣớc lọc 2x2 Để dễ hình dung, tầng ReLU (Rectified Linear Units) khơng đƣợc vẽ hình Hình Mơ hình sinh đồ mật độ B Bản đồ mật độ xác thực (ground truth) Để huấn luyện mơ hình theo phƣơng pháp dựa vào đồ mật độ, tập liệu đám đông phải đƣợc đánh dấu điểm đầu ngƣời (Hình 3) Tƣơng tự với phƣơng pháp dựa vào đồ mật độ, với ảnh đám đông, tạo đồ mật độ xác thực cách đặt nhân Gaussian điểm ∑ ( ̅̅̅ ) (1) (2) đó, đồ mật độ xác thực, nhân Gaussian với độ lệch chuẩn đƣợc tính cách nhân trung bình khoảng cách từ điểm xét đến n điểm lân cận ̅ tham số Trong q trình thực nghiệm, chúng tơi chọn n = = 0,1 cho kết tốt Thuật toán sinh đồ mật độ xác thực đƣợc mô tả Hình Đỗ Phúc Thịnh, Qch Thị Bích Nhƣờng, Trần Văn Ninh 679 Hình Ảnh đƣợc đánh dấu đồ mật độ xác thực Thuật toán Sinh đồ mật độ xác thực Đầu vào: Ảnh đám đông đƣợc đánh dấu đầu ngƣời Đầu ra: Bản đồ mật độ xác thực Bắt đầu: B[] zeros // Khởi tạo đồ mật độ rỗng foreach head in image // Với đầu ngƣời đƣợc đánh dấu Nếu điểm đánh dấu nằm ảnh Tính ̅ với n = 0.1 ̅ gauss Dùng lọc Gaussian với độ lệch chuẩn B[] += gauss Return B[] Kết thúc: Hình Thuật tốn sinh đồ xác thực C Huấn luyện mơ hình Để tăng cƣờng số lƣợng liệu cho trình huấn luyện, cắt ngẫu nhiên ảnh đầu vào thành ảnh có kích thƣớc 1/4 kích thƣớc ban đầu Chúng áp dụng cách để tăng liệu nhƣ xoay ảnh, lấy đối xứng ảnh, tăng giảm độ sáng Mơ hình đƣợc huấn luyện dựa vào loss function sau: ( ) ∑‖ ( ) ‖ (2) với N số lƣợng ảnh, đồ mật độ xác thực ảnh thứ , ( ) đồ mật độ sinh từ mơ hình với trọng số ảnh thứ Chúng mơ tả thuật tốn huấn luyện mơ hình nhƣ Hình Thuật tốn Huấn luyện mơ hình Đầu vào: Ảnh đám đông input đồ mật độ xác thực gt Đầu ra: Mơ hình đƣợc huấn luyện Bắt đầu: for epoch in range(epochs) model() // Khởi tạo mơ hình gt_map gt et_map model(input) // Dùng SGD từ thƣ viện pytorch loss MSELoss(gt_map, et_map) optimizer.zero_grad() loss.backward() optimizer.step() end for Kết thúc: Hình Thuật tốn huấn luyện mơ hình IV THỰC NGHIỆM Chúng tơi đánh giá mơ hình dựa hai tập liệu ShanghaiTech UCF_CC_50 Chúng thực nghiệm laptop i7 7820HK@2.90GHz, 32GB RAM, GTX 1080 8GB, Windows 10 Pro 64bit huấn luyện mơ hình thuật ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐƠNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP 680 toán Stochastic Gradient Descent - SGD với hệ số học 1e-7, số lần lặp 300 Ngôn ngữ sử dụng để lập trình Python với thƣ viện Pytorch A Độ đo đánh giá Với toán đếm, ƣớc lƣợng số ngƣời đám đông để so sánh kết với phƣơng pháp trƣớc đây, chúng tơi sử dụng sai số tuyệt đối trung bình (Mean Absolute Error - MAE) sai số bình phƣơng trung bình (Mean Squared Error - RMSE): ∑| | (3) √ ∑( ) (4) với N số lƣợng ảnh, số đếm xác thực ảnh thứ , số đếm ƣớc lƣợng đƣợc từ mơ hình ảnh thứ Nhƣ vậy, số đo MAE MSE bé độ xác mơ hình cao B Tập liệu ShanghaiTech Đây tập liệu đám đông lớn năm gần với 1.198 ảnh 330.165 điểm đầu ngƣời đƣợc đánh dấu [21] Dựa theo phân bố mật độ, tập liệu đƣợc chia làm hai phần: Phần A (ShanghaiTech Part A) phần B (ShanghaiTech Part B) Phần A gồm ảnh lấy ngẫu nhiên mạng phần B ảnh đƣợc lấy từ camera đƣờng Thƣợng Hải - Trung Quốc Mật độ ngƣời phần A nhiều so với phần B Tập liệu chia sẵn thành tập huấn luyện tập kiểm thử, cụ thể, phần A gồm 300 ảnh huấn luyện 182 ảnh kiểm thử Phần B gồm 400 ảnh huấn luyện 316 ảnh kiểm thử Bảng Kết đánh giá mơ hình tập liệu ShanghaiTech Phƣơng pháp Zhang [21] MCNN [22] Switch-CNN [15] Do [4] CP-CNN [18] Phƣơng pháp đề xuất Phần A MAE MSE 181,8 277,7 110,2 173,2 90,4 135,0 81,9 122,1 73,6 106,4 70,5 120,7 Phần B MAE MSE 32,0 49,8 26,4 41,3 21,6 33,4 20,9 33,1 20,1 30,1 12,5 20,4 Hình Một số kết tập liệu ShanghaiTech phần A Hình Một số kết tập liệu ShanghaiTech phần B Kết mơ hình kiểm thử tập liệu ShanghaiTech đƣợc mô tả Bảng Với tập liệu có mật độ ngƣời thấp nhƣ Phần B mơ hình cho kết tốt Mơ hình hoạt động tốt vùng khơng có ngƣời nhƣ cây, nhà, mây,… Đỗ Phúc Thịnh, Quách Thị Bích Nhƣờng, Trần Văn Ninh 681 C Tập liệu UCF_CC_50 UCF_CC_50 tập liệu đầy thách thức toán đếm, ƣớc lƣợng số ngƣời đám đông Tập liệu chứa 50 ảnh nhƣng mật độ ngƣời ảnh thay đổi nhiều, từ 94 lên tới 4.543 chứa nhiều cảnh nhƣ buổi hịa nhạc, biểu tình, sân vận động [5] Để đánh giá tập liệu này, sử dụng kiểm chứng chéo với k = (5-fold cross-validation) Kết mơ hình đƣợc mơ tả nhƣ Bảng Với ảnh có mật độ ngƣời dày đặc, mơ hình chúng tơi tốt so với số phƣơng pháp truyền thống Tuy nhiên, sai số ƣớc lƣợng ảnh lớn Bảng Kết đánh giá mơ hình tập liệu UCF_CC_50 Phƣơng pháp Lempitsky [7] Idrees [5] Zhang [21] MCNN [22] Hydra2s [10] Switch-CNN [15] Do [4] IG-CNN [16] Phƣơng pháp đề xuất UCF_CC_50 MAE MSE 493,4 487,1 419,5 487,1 467,0 498,5 377,6 509,1 333,73 425,26 318,1 439,2 383,7 250,5 291,4 349,4 290,3 390,4 Hình Một số kết tập liệu UCF_CC_50 V KẾT LUẬN Trong báo này, chúng tơi trình bày q trình phát triển tốn đếm, ƣớc lƣợng số ngƣời đám đơng Chúng tơi đề xuất mơ hình sử đụng mạng nơron tích chập để sinh đồ mật độ ƣớc lƣợng số ngƣời dựa đồ mật độ Mặt khác, tận dụng sức mạnh rút trích đặc trƣng mơ hình VGG16 cho mơ hình Thực nghiệm cho thấy điều làm tăng hiệu mơ hình so sánh với phƣơng pháp truyền thống Trong tƣơng lai, nghiên cứu mơ hình ƣớc lƣợng số ngƣời khơng gian dựa vào góc nhìn đa chiều camera giám sát áp dụng cho nhiều đối tƣợng khác nhƣ động vật, tế bào, xe cộ,… TÀI LIỆU THAM KHẢO [1] L Boominathan, S S Kruthiventi, R V Babu “Crowdnet: A deep convolutional network for dense crowd counting” In Proceedings of the 2016 ACM on Multimedia Conference, ACM, pp 640-644, 2016 [2] K Chen, C C Loy, S Gong, and T Xiang “Feature mining for localised crowd counting” In BMVC, 2012 [3] Navneet Dalal and Bill Triggs “Histograms of oriented gradients for human detection” InComputer Vision and Pattern Recognition, 2005 CVPR 2005 IEEE Computer Society Conference on, Volume 1, pp 886-893 IEEE, 2005 [4] Phuc Thinh Do and Ngoc Quoc Ly “A New Framework For Crowded Scene Counting Based On Weighted Sum Of Regressors and Human Classifier” In SoICT ’18: Ninth International Symposium on Information and Communication Technology, 2018 [5] Haroon Idrees, Imran Saleemi, Cody Seibert, and MubarakShah “Multi-source multi-scale counting in extremely densecrowd images” In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, pp 2547-2554, 2013 [6] A Krizhevsky, I Sutskever, G Hinton “Imagenet classification with deep convolutional neural networks” In Advances in neural information processing systems, pp 1097-1105, 2012 [7] V Lempitsky and A Zisserman “Learning to count objects in images” In Advances in neural information processing systems, pp 1324-1332, 2010 [8] W Liu, D Anguelov, D Erhan, C Szegedy, and S E Reed “SSD: single shot multibox detector” CoRR, abs/1512.02325, 2015 682 ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP [9] A N Marana, L F Costa, R A Lotufo, and S A Velastin “On the efficacy of texture analysis for crowd monitoring”, in: Computer Graphics, Image Processing, and Vision, 1998 Proceedings SIBGRAPI’98 International Symposium on, IEEE pp 354-361, 1998 [10] D Onoro-Rubio and R.J Lpez-Sastre “Towards perspective-free object counting with deep learning” In Proceedings of the ECCV Springer, pp 615-629, 2016 [11] Paragios, N., Ramesh, V., 2001 “A mrf-based approach for real-time subway monitoring”, in: Computer Vision and Pattern Recognition, 2001 [12] J Redmon, S Divvala, R Girshick, and A Farhadi “You only look once: Unified, real-time object detection” arXiv preprint arXiv:1506.02640, 2015 [13] J Redmon and A Farhadi “Yolo9000: Better, faster, stronger In Computer Vision and Pattern Recognition (CVPR)”, 2017 IEEE Conference on, pp 6517-6525 IEEE, 2017 [14] J Redmon and A Farhadi “YOLOv3: An incremental improvement” arXiv:1804.02767, 2018 [15] D B Sam, S Surya, R V Babu “Switching convolutional neural network for crowd counting” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017 [16] D B Sam, N N Sajjan, R V Babu, and M Srinivasan “Divide and grow: Capturing hugediversity in crowd images with incrementally growing cnn” In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 3618-3626, 2018 [17] Karen Simonyan and Andrew Zisserman “Very deep convolutional networks for large-scale image recognition” arXivpreprint arXiv: 1409.1556, 2014 [18] Vishwanath A Sindagi and Vishal M Patel “Generatinghigh-quality crowd density maps using contextual pyramidcnns” In The IEEE International Conference on Computer Vision (ICCV), pp 1861-1870, 2017 [19] Paul Viola and Michael J Jones “Robust real-time face detection” International journal of computer vision, 57(2): pp 137-154, 2004 [20] C Wang, H Zhang, L Yang, S Liu, X Cao “Deep people counting in extremely dense crowds” In Proceedings of the 23rd ACM international conference on Multimedia, ACM pp 1299-1302, 2015 [21] C Zhang, H Li, X Wang, X Yang “Cross-scene crowd counting via deep volutional neural networks” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 833-841, 2015 [22] Y Zhang, D Zhou, S Chen, S Gao, Y Ma “Single image crowd counting via multi-column convolutional neural network” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 589597, 2016 CROWD COUNTING USING CONVOLUTIONAL NEURAL NETWORKS Do Phuc Thinh, Quach Thi Bich Nhuong, Tran Van Ninh ABSTRACT: Crowd counting is one of the most important tasks in surveillance camera systems It has supported areas such as business, transportation, security and, most recently, the ban on gathering during the Covid-19 pandemic In this paper, we use convolutional neural networks to generate the density map and estimate the number of people based on this density map This work both avoids the object detection problem and shows the distribution of people in the crowd Experiments show that our method is better than traditional methods when testing on UCF_CC_50, ShanghaiTech datasets ... mơ hình thuật ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐƠNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP 680 toán Stochastic Gradient Descent - SGD với hệ số học 1e-7, số lần lặp 300 Ngôn ngữ sử dụng để lập trình Python...ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP 678 B Các phương pháp dựa vào mơ hình hồi quy Với ảnh có mật độ ngƣời đông, phƣơng pháp phát đối tƣợng khơng... single shot multibox detector” CoRR, abs/1512.02325, 2015 682 ƢỚC LƢỢNG SỐ NGƢỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP [9] A N Marana, L F Costa, R A Lotufo, and S A Velastin “On the efficacy

Ngày đăng: 29/09/2021, 19:35