Luận văn thạc sĩ Khoa học máy tính: Ước lượng mật độ đám đông trong video giám sát

Xuất phát từ những nhu cầu cấp thiết trong thực tế và xu hướng nghiên cứuchung của thế giới, học viên đã tìm hiểu và nghiên cứu các phương pháp ước lượngmật độ đám đông dựa trên mô hình

Thực nghiệm và đánh giá trên bộ dữ liệu người đi bộ UCSD

Học viên sẽ thực nghiệm bộ dữ liệu tương tự như trong tài liệu [4] Dữ liệu sẽ được chia thành bốn tập nhỏ, trong đó tập Maximal sẽ bao gồm các khung hình từ 600 trở lên để sử dụng trong quá trình huấn luyện.

Với bước nhảy 5 khung hình, tổng số khung hình là 1400, dẫn đến việc có 161 khung hình được chọn làm dữ liệu huấn luyện Những khung hình không nằm trong khoảng này sẽ được sử dụng để ước lượng Dữ liệu huấn luyện sẽ bao gồm các khung hình từ 1205 trở đi.

Đối với tập dữ liệu 1600, với bước nhảy 5 khung hình, ta có 80 ảnh huấn luyện và các ảnh không phải huấn luyện sẽ được dùng để ước lượng Tương tự, tập dữ liệu Upscale sử dụng các khung hình từ 805 đến 1100 với bước nhảy 5, tạo ra 60 ảnh huấn luyện, trong khi những ảnh còn lại sẽ phục vụ cho việc ước lượng Cuối cùng, tập dữ liệu Minimal lấy các khung hình từ 640 đến 1360 với bước nhảy 80, cho ra 10 ảnh huấn luyện, và các ảnh không huấn luyện sẽ được dùng để ước lượng.

Trước khi huấn luyện mô hình, để tăng độ chính xác do dữ liệu huấn luyện hạn chế, hệ thống sẽ tạo ngẫu nhiên các patch ảnh kích thước 72x72 pixels từ ảnh gốc, nhằm giảm sự phụ thuộc vào bối cảnh ảnh gốc Đồng thời, ảnh đánh nhãn cho các đối tượng tương ứng cũng sẽ được trích xuất Trong mô hình Hydra CNN, các patch ảnh này sẽ được trích xuất thành các tỉ lệ khác nhau, mỗi tỉ lệ đều có những đặc điểm riêng.

Trong quá trình thí nghiệm và đánh giá, bản đồ mật độ đối tượng ground truth được tính toán bằng cách sử dụng bộ lọc Gaussian với ma trận hiệp phương sai Y 8 1x Đối với mỗi điểm ảnh đã được gán nhãn, ảnh cần dự đoán sẽ được cắt thành các patch kích thước 72x72 pixels với stride 10 pixels Mật độ sẽ được ước lượng cho tất cả các patch này, và cuối cùng, các bản đồ mật độ thu được sẽ được tổng hợp thành một bản đồ mật độ duy nhất có kích thước bằng kích thước của ảnh gốc, như đã mô tả trong phần 3.2.

Kết quả cài đặt lại cho bộ dữ liệu người đi bộ UCSD sử dụng các phương pháp tiên tiến cho thấy độ đo MAE Các phương pháp này bao gồm maximal, downscale, upscale và minimal, mang lại hiệu quả cao trong việc cải thiện độ chính xác của dữ liệu.

Lempitsky et al [6] 1.70 1.28 1.59 2.02 Fiaschi et al [5] 1.70 2.16 1.61 2.20 Pham et al [20] 1.43 1.30 1.59 1.62 Arteta et al [3] 1.24 1.31 1.69 1.49 Zang et al [7] 1.70 1.26 1.59 1.52 CCNN 0) 1.88 1.23 1.63 Hydra CNN 2s 3.80 3.47 2.19 2.39

Kết quả từ bang 4.2 cho thấy hai phương pháp đạt hiệu quả tương đối tốt, trong đó phương pháp CCNN mang lại kết quả tốt nhất khi thử nghiệm trên bộ dữ liệu nhỏ "upscale" Tuy nhiên, đối với phương pháp Hydra CNN, do bộ dữ liệu người đi bộ UCSD có sự thay đổi không đáng kể giữa các khung hình và góc nhìn nhỏ, nên việc áp dụng phương pháp này không mang lại lợi ích rõ rệt.

THUC NGHIỆM VA ĐÁNH GIÁ

Thực nghiệm và đánh giá trên bộ dữ liệu UCF_ŒCC_50

Học viên sẽ chia dữ liệu ngẫu nhiên thành năm bộ dữ liệu có kích cỡ tương đương theo phương pháp k-fold, sử dụng MAE và MSD để đánh giá kết quả Trước khi huấn luyện, tất cả ảnh được thay đổi tỉ lệ với kích cỡ lớn nhất là 800 điểm ảnh mỗi chiều, sau đó hệ thống tạo ngẫu nhiên các patch ảnh 150x150 pixels nhằm giảm bớt sự phụ thuộc vào bối cảnh ảnh gốc Đồng thời, hệ thống cũng thực hiện lật ảnh ngẫu nhiên theo chiều ngang để tăng độ chính xác (data augmentation) Bản đồ mật độ ground truth cho các đối tượng được tính toán bằng bộ lọc Gaussian với ma trận hiệp phương sai Y = 15 - 15,2 cho từng điểm ảnh được gán nhãn Trong bước dự đoán, hệ thống cắt ảnh cần dự đoán thành các patch 150x150 pixels với stride 10 pixels, sau đó ước lượng mật độ cho tất cả patch này Cuối cùng, tổng hợp các bản đồ mật độ ước lượng thành một bản đồ mật độ duy nhất có kích thước bằng ảnh gốc.

Bang 4.3 So sánh kết quả cài đặt lại với các phương pháp tiên tiền nhất cho bộ dữ liệu

UCE_CC 50 với độ đo MAE và MSD Phương pháp MAE MSD

Rodriguez et al [19] | 655.70 697.80Lempitsky et al [6] 493.40 487.10Zang et al [7] 467.00 498.50Idrees et al [9] 419.50 | 541.60Zang et al [21] 377.60 509.10CCNN 533.49 694.78Hydra CNN 2s 467.00 | 640.50Hydra CNN 3s 488.56 | 646.28

THUC NGHIỆM VA ĐÁNH GIÁ

Dựa trên kết quả từ bảng 4.3, các phương pháp CCNN và Hydra CNN cho thấy hiệu suất tương đối tốt so với các phương pháp trước đó Tuy nhiên, luận văn chưa đạt được kết quả tốt nhất cho phương pháp Hydra CNN 2 đầu, được công nhận là hiệu quả nhất Nguyên nhân có thể là do quá trình huấn luyện tạo ra nhiều patch nhỏ từ ảnh gốc, dẫn đến việc mô hình cần được huấn luyện nhiều lần hơn để đạt được kết quả tối ưu như đã công bố.

Mô hình CCNN gặp khó khăn trong việc ước lượng chính xác các ảnh có mật độ đông đúc, dẫn đến sai lệch lớn do sự chồng lấp giữa các đối tượng Để khắc phục vấn đề này, mô hình Hydra CNN đã được đề xuất và kết quả thực nghiệm cho thấy Hydra CNN cải thiện hiệu suất ước lượng tốt hơn khoảng 15% so với CCNN Điều này chứng minh rõ ràng ưu điểm vượt trội của Hydra CNN so với mô hình CCNN.

Thực nghiệm và đánh giá trên bộ dữ liệu TRANCO&S

Trong bộ dữ liệu này, học viên sẽ thực hiện đánh giá bằng cách chia dữ liệu huấn luyện và dự đoán Hệ thống ngẫu nhiên tạo các patch ảnh kích thước 115x115 pixels từ ảnh gốc để giảm thiểu sự phụ thuộc vào bối cảnh Đồng thời, hệ thống cũng áp dụng kỹ thuật tăng cường dữ liệu bằng cách lật ảnh ngẫu nhiên, nhằm nâng cao độ chính xác Các patch ảnh sẽ được đánh nhãn cho các đối tượng tương ứng Trong mô hình Hydra CNN, các patch này được cắt thành các tỉ lệ khác nhau, với kích thước 72x72 pixels để đưa vào mạng Bản đồ mật độ đối tượng ground truth được tính toán bằng bộ lọc Gaussian Ở bước dự đoán, hệ thống cắt ảnh cần dự đoán bằng cách trượt và lấy các patch ảnh 115x115 pixels với stride 10 pixels, sau đó ước lượng mật độ cho tất cả các patch này và tổng hợp các bản đồ mật độ đã thu được.

THUC NGHIỆM VA ĐÁNH GIÁ trên thành một bản đồ mật độ duy nhất với kích thước bằng kích thước của ảnh gốc.

Các thức thực hiện thì như đã mô tả tại 3.2

Bảng 4.4 So sánh kết quả cài đặt lại với các phương pháp tiên tiến sử dụng bộ dữ liệu

TRANCOS với độ do GAME Phuong phap GAME 0 | GAME 1 | GAME2 | GAME 3

Kết quả từ bảng 4.4 cho thấy rằng tất cả các phương pháp CCNN và Hydra CNN đều đạt hiệu quả tốt, với Hydra CNN có ba đầu mang lại kết quả tốt nhất Tuy nhiên, khi sử dụng Hydra CNN với bốn đầu, kết quả không cải thiện do kích thước patch ảnh lớn hơn không giúp thu được đặc trưng giá trị Hơn nữa, việc tăng số đầu sẽ làm tăng chi phí tính toán đáng kể, ví dụ như Hydra CNN với bốn đầu tốn chi phí gấp bốn lần so với CCNN, gấp hai lần so với Hydra CNN hai đầu, và gấp khoảng 1,3 lần so với Hydra CNN ba đầu.

Tom lại, phương pháp CCNN và Hydra CNN đều là những phương pháp state- of-the-art khi áp dụng cho bộ dữ liệu này.

Thực nghiệm và đánh giá phương pháp cải tiến

Bảng 4.5 trình bày sự so sánh kết quả cài đặt lại giữa các phương pháp CCNN và CCNN cải tiến cho bộ dữ liệu UCF_CC_50, với các chỉ số đo lường độ chính xác là MAE và MSD Các phương pháp này cho thấy sự khác biệt rõ rệt trong hiệu suất, với MAE và MSD là những chỉ số quan trọng để đánh giá độ chính xác của mô hình.

CCNN bài báo [36] | 488.67 | 646.68 CCNN cai dat lai 533.49 | 694.78

Xây dung ứng dụng demo

Kiến trúc ứng dụng Chương 5 KET LUẬN VA HƯỚNG PHAT TRIÊN 51 5.1 Kết luận

Học viên sẽ phát triển ứng dụng dựa trên kiến trúc đám mây, lựa chọn này mang lại lợi ích về tốc độ triển khai nhanh chóng và chi phí hợp lý.

Hình 4.4 Kiến trúc của hệ thống đám mây

Môi trường lập trình và triển khai: ¢ Platform: Google Cloud Platform e OS: Ubuntu 16.04 e CPU: 24vCPU

THUC NGHIỆM VA ĐÁNH GIÁ e Server: Apache Tomcat 8.5 ¢ Framework: J2EE, Caffe Framework ¢ Programing Language: Java, Python, HTML, Javascript

Trong luận văn này, chúng tôi xây dựng một ứng dụng web nhằm ước lượng mật độ đám đông cho một ảnh đầu vào bất kỳ, sử dụng mô hình máy chủ - máy khách (server - client) Ứng dụng này sẽ cung cấp công cụ hữu ích cho việc phân tích và đánh giá tình hình đám đông trong các sự kiện khác nhau.

{Ghon | Không có tếp nào được chọn Ước lượng mắt độ

Học viên sẽ xây dựng một trang web cho phép người dùng tải ảnh lên server nhằm thực hiện ước lượng mật độ đối tượng trong ảnh.

THUC NGHIỆM VA ĐÁNH GIÁ Ước lượng mật độ đám đông

Chontểp hang 802005 pg Ước lượng mài độ tưuý dán yen a UGE_€ 50 ou 2 Ảnh mức xâm và Reh thước nh để thy tì hanh h

Hình 4.6 Chọn ảnh cần ước lượng mật độ

Khi trình duyệt gửi request, server sẽ kiểm tra xem ảnh đã được upload thành công hay chưa Nếu thành công, server sẽ bắt đầu ước lượng ảnh và kiểm tra hệ thống theo thời gian thực với khoảng thời gian nghỉ 0,2 giây để xác định xem quá trình ước lượng đã hoàn tất hay chưa Sau khi ước lượng hoàn tất, server sẽ gửi phản hồi về trình duyệt của người dùng.

THUC NGHIEM VÀ ĐÁNH GIÁ

‘objet Count Predet = 122016, Tine 882 see fon oe on xt gd nye 28199, Te “98072 sec

Hình 4.7 Một số kết quả ước lượng mật độ của chương trình demo

Phía client sẽ lắng nghe phản hồi từ server; nếu nhận được phản hồi thành công, hệ thống sẽ hiển thị ảnh ước lượng cùng với các thông số dự đoán Tuy nhiên, do sử dụng CPU thay vì GPU (vì chi phí GPU trên Google Cloud Platform rất cao), tốc độ ước lượng trở nên chậm Để cải thiện tốc độ, các hình ảnh được sử dụng ở mức xám và có kích thước nhỏ.

KÉT LUẬN VÀ HƯỚNG PHÁT TRIÊN

Chương 5 KET LUẬN VÀ HƯỚNG PHÁT TRIEN

Học viên đã nghiên cứu và triển khai thành công các phương pháp được trình bày trong bài báo khoa học [36], đạt được độ chính xác gần tương đương với kết quả công bố của tác giả.

Bên cạnh đó, học viên cũng đã chứng minh việc sử dụng phương pháp Hydra

CNN đem lại kết quả tốt hơn cho việc ước lượng ảnh với bối cảnh bị ảnh hưởng nhiều bởi góc nhìn.

Học viên đã đề xuất một mô hình cải tiến cho phương pháp CCNN, và kết quả cho thấy mô hình mới này hoạt động hiệu quả hơn so với mô hình cũ.

Cuối cùng, học viên cũng xây dựng được ứng dụng demo trên nền web theo mô hình server - client đê ước lượng ảnh theo phương pháp học sâu.

Tir phương pháp cải tiền, học viên sẽ tiếp tục nghiên cứu và tinh chỉnh lại mô hình ước lượng dé có được kết quả là tiên tiến nhất.

Đề xuất cải tiến van đề cho mô hình CNN hiện tại tập trung vào việc xử lý bối cảnh ảnh với tỷ lệ kích cỡ khác nhau giữa các đối tượng Bài viết sẽ đánh giá chi tiết ưu nhược điểm của mô hình CNN truyền thống và mô hình FCN, từ đó đưa ra kết luận rõ ràng về lợi ích và hạn chế của từng mô hình.

Ngoài ra, việc tiếp tục thực nghiệm trên các bộ dữ liệu chuẩn khác sẽ giúp đánh giá sâu hơn về độ chính xác của các phương pháp nghiên cứu của học viên.

1] Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection In: CVPR (2005)

2] Felzenszwalb, P.F., Girshick, R.B., McAllester, D., Ramanan, D.: Object detection with discriminatively trained part-based models IEEE Trans Pattern Anal. Mach Intell (2010)

3] Arteta, C., Lempitsky, V., Noble, J.A., Zisserman, A.: Interactive object counting. In: ECCV (2014)

4] Chan, A.B., Liang, Z.S.J., Vasconcelos, N.: Privacy preserving crowd monitoring: Counting people without people models or tracking In: CVPR (2008)

5] Fiaschi, L., Kthe, U., Nair, R., Hamprecht, F.A.: Learning to count with regression forest and structured labels In: ICPR (2012)

6] Lempitsky, V., Zisserman, A.: Learning to count objects in images In: NIPS. (2010)

7] Zhang, C., Li, H., Wang, X., Yang, X.: Cross-scene crowd counting via deep convolutional neural networks In: CVPR (June 2015)

8] Loy, C., Chen, K., Gong, S., Xiang, T.: Crowd counting and profiling: Methodology and evaluation In: Modeling, Simulation and Visual Analysis of Crowds (2013)

9] Idrees, H., Saleemi, I., Seibert, C., Shah, M.: Multi-source multi-scale counting in extremely dense crowd images In: CVPR (2013)

10] Guerrero-Go’mez-Olmedo, R., Torre-Jim’enez, B., Lo’pez-Sastre, R.,MaldonadoBasco’n, S., On“oro Rubio, D.: Extremely overlapping vehicle counting.In: Iberian Conference on Pattern Recognition and Image Analysis (IbPRIA) (2015)

Chen, S., Fern, A., Todorovic, S.: Person count localization in videos from noisy foreground and detections In: CVPR (2015)

Leibe, B., Seemann, E., Schiele, B.: Pedestrian detection in crowded scenes In: CVPR (2005)

Li, M., Zhang, Z., Huang, K., Tan, T.: Estimating the number of people in crowded scenes by mid based foreground segmentation and head-shoulder detection. In: ICPR (2008)

Patzold, M., Evangelio, R.H., Sikora, T.: Counting people in crowded ironments by fusion of shape and motion information In: AVSS (2010)

Viola, P., Jones, M.J.: Robust real-time face detection International Journal of Computer Vision (2004)

Wang, M., Wang, X.: Automatic adaptation of a generic pedestrian detector to a specific traffic scene In: CVPR (2011)

Rabaud, V., Belongie, S.: Counting crowded moving objects In: CVPR (2006)

Tu, P.H., Sebastian, T., Doretto, G., Krahnstoever, N., Rittscher, J., Yu, T.: ified crowd segmentation In: ECCV (2008)

Rodriguez, M., Laptev, L, Sivic, J., Audibert, J.Y.: Density-aware person detection and tracking in crowds In: ICCV (2011)

Pham, V.Q., Kozakaya, T., Yamaguchi, O., Okada, R.: COUNT forest: CO- voting uncertain number of targets using random forest for crowd density estimation. In: ICCV (2015)

Zhang, Y., Zhou, D., Chen, S., Gao, S., Ma, Y.: Single-image crowd counting multi-column convolutional neural network In: CVPR (June 2016)

22] Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding arXiv preprint arXiv: 1408.5093 (2014)

23] Yi, S and Wang X.: Profiling Stationary Crowd Groups In:CVPR (2014)

24] Shao , J., Loy, C C., and Wang, X.: Scene-Independent Group Profiling in Crowd In: CVPR (2014)

25] Zhou, B., Tang, X., Zhang, H., and Wang, X.: Measuring Crowd Collectiveness. In: IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) (2014)

26] Lan T., Wang Y., Yang W., Robinovitch S N., and Mori G.: Disriminative latent models for recognizing contextual group activities In: IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMD), (2012)

27] R Li, R Chellappa, and S K Zhou.: Recognizing interative group activities using temporal interraction matrices and their riemannian statistics In: International Journal of Computer Vision (IJCV) (2013)

28] C C Loy, T Xiang, and S Gong.: Detecting and Discriminating Behavioural Anomalies Pattern Recognition, vol 44, no 1 (2011)

29] A Fagette, N Courty, D Racoceanou, J Y Dufour.: Unsupervised dense crowd detection by multiscale texture analysis Pattern Recognition Letters, 2014)

30] Rodriguez M., Sivic J., Laptev I., Audibert J.-Y.: Data-driven crowd analysis in videos In: ICCV (2011)

31] Solmaz B., Moore B.E., Shah M.: Identifying behaviors in crowd scenes using stability analysis for dymical systems In: IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) (2012)

32] Yi S., Li H., Wang X.: Understanding Pedestrian Behaviors From StationaryCrowd Groups” In: CVPR (2015)

Tiêu đề	Ước Lượng Mật Độ Đám Đông Trong Video Giám Sát
Tác giả	Trịnh Nam Việt
Người hướng dẫn	TS. Ngô Đức Thành
Trường học	Đại học Quốc gia TP HCM
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2017
Thành phố	TP.HCM

Định dạng
Số trang	58
Dung lượng	28,03 MB

Tài liệu tham khảo	Loại	Chi tiết
1] Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. In:CVPR. (2005)	Khác
2] Felzenszwalb, P.F., Girshick, R.B., McAllester, D., Ramanan, D.: Object detection with discriminatively trained part-based models. IEEE Trans. Pattern Anal.Mach. Intell. (2010)	Khác
3] Arteta, C., Lempitsky, V., Noble, J.A., Zisserman, A.: Interactive object counting.In: ECCV. (2014)	Khác
4] Chan, A.B., Liang, Z.S.J., Vasconcelos, N.: Privacy preserving crowd monitoring:Counting people without people models or tracking. In: CVPR. (2008)	Khác
5] Fiaschi, L., Kthe, U., Nair, R., Hamprecht, F.A.: Learning to count with regression forest and structured labels. In: ICPR. (2012)	Khác
6] Lempitsky, V., Zisserman, A.: Learning to count objects in images. In: NIPS.(2010)	Khác
7] Zhang, C., Li, H., Wang, X., Yang, X.: Cross-scene crowd counting via deep convolutional neural networks. In: CVPR. (June 2015)	Khác
8] Loy, C., Chen, K., Gong, S., Xiang, T.: Crowd counting and profiling:Methodology and evaluation. In: Modeling, Simulation and Visual Analysis of Crowds. (2013)	Khác
9] Idrees, H., Saleemi, I., Seibert, C., Shah, M.: Multi-source multi-scale counting in extremely dense crowd images. In: CVPR. (2013)	Khác
10] Guerrero-Go’mez-Olmedo, R., Torre-Jim’enez, B., Lo’pez-Sastre, R., MaldonadoBasco’n, S., On“oro Rubio, D.: Extremely overlapping vehicle counting.In: Iberian Conference on Pattern Recognition and Image Analysis (IbPRIA). (2015)	Khác
22] Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding. arXiv preprint arXiv: 1408.5093 (2014)	Khác
23] Yi, S. and Wang X.: Profiling Stationary Crowd Groups. In:CVPR. (2014)	Khác
24] Shao , J., Loy, C. C., and Wang, X.: Scene-Independent Group Profiling in Crowd. In: CVPR. (2014)	Khác
25] Zhou, B., Tang, X., Zhang, H., and Wang, X.: Measuring Crowd Collectiveness.In: IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI). (2014)	Khác
26] Lan T., Wang Y., Yang W., Robinovitch S. N., and Mori G.: Disriminative latent models for recognizing contextual group activities. In: IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMD), (2012)	Khác
27] R. Li, R. Chellappa, and S. K. Zhou.: Recognizing interative group activities using temporal interraction matrices and their riemannian statistics. In: International Journal of Computer Vision (IJCV). (2013)	Khác
28] C. C. Loy, T. Xiang, and S. Gong.: Detecting and Discriminating Behavioural Anomalies. Pattern Recognition, vol. 44, no. 1. (2011)	Khác
29] A. Fagette, N. Courty, D. Racoceanou, J. Y. Dufour.: Unsupervised dense crowd detection by multiscale texture analysis. Pattern Recognition Letters, 2014)	Khác
30] Rodriguez M., Sivic J., Laptev I., Audibert J.-Y.: Data-driven crowd analysis in videos. In: ICCV (2011)	Khác
31] Solmaz B., Moore B.E., Shah M.: Identifying behaviors in crowd scenes using stability analysis for dymical systems. In: IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI). (2012)	Khác