Kết quả thực nghiệm

4.3.1. Độ đo đánh giá

Xuất phát từ công thức tính Precision và Recall:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃

𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁

𝑀𝑖𝑐𝑟𝑜 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ∑ 𝑇𝑃 (𝑇𝑃 + 𝐹𝑃 )

𝑀𝑖𝑐𝑟𝑜 𝑅𝑒𝑐𝑎𝑙𝑙 = ∑ 𝑇𝑃

(𝑇𝑃 + 𝐹𝑁 ) Công thức tính Micro F1 Score:

𝑀𝑖𝑐𝑟𝑜 − 𝐹 = 2 𝑀𝑖𝑐𝑟𝑜 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑀𝑖𝑐𝑟𝑜 𝑅𝑒𝑐𝑎𝑙𝑙

𝑀𝑖𝑐𝑟𝑜 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑀𝑖𝑐𝑟𝑜 𝑅𝑒𝑐𝑎𝑙𝑙

Bài toán nhận biết hành vi bất thường trong đám đông là một bài toán phân lớp, số lượng dữ liệu ở các lớp không đều, hay nói cách khác là tập dữ liệu sử dụng là không cân bằng. Do vậy, nghiên cứu sử dụng độ đo Micro F1 Score (là trung bình điều hòa của hai giá trị Precision và Recall trên từng lớp) để đánh giá các kết quả thực nghiệm.

4.3.2. Kết quả thực nghiệm với tập đặc trưng

Lần lượt thử nghiệm với các phương án dữ liệu đầu vào khác nhau để so sánh:

- PA1: RGB: chỉ đưa vào các khung hình RGB.

- PA2: RGB + Optical Flow: đưa vào các khung hình RGB và dòng quang.

- PA3: RGB + Heatmap: đưa vào các khung hình RGB và bản đồ nhiệt. - PA4: RGB + Optical Flow + Heatmap: đưa vào các khung hình RGB,

dòng quang và bản đồ nhiệt như đề xuất.

Luận văn thử nghiệm 2 trường hợp với mỗi bộ dữ liệu như trên, trường hợp 1 chỉ sử dụng kết quả đã pretrain để kiểm thử trên tập thực tế. Trường hợp 2, từ tập thực tế, trích ra 10% để huấn luyện thêm và kiểm thử trên phần còn lại, kết quả như sau:

Bảng 4.4: PA1 chỉ sử dụng ảnh màu

RGB

No Pretrain Pretrain

0% - 33.8

10% 30.0 34.2

Bảng 4.5: PA2 ảnh màu và bản đồ nhiệt

RGB + Heatmap No Pretrain Pretrain 0% - 35.6 10% 32.0 40.8 Bảng 4.6: PA3 sử dụng RGB và dòng quang RGB + Optical Flow No Pretrain Pretrain 0% - 36.0 10% 33.3 41.2

Bảng 4.7: PA4 ảnh màu, dòng quang học và bản đồ nhiệt

RGB + Optical Flow + Heatmap No Pretrain Pretrain

0% - 36.7

10% 41.6 49.5

Nhận xét:

Từ bảng 4.4, 4.5, 4.6, 4.7 thấy rằng, trong cả trường hợp có đào tạo trước (pretrain) và không có đào tạo trước (no pretrain) thì phương án chỉ sử dụng dữ liệu ảnh màu (PA1) cho kết quả kém nhất. Ngược lại, phương án 4 (PA4) sử dụng cả ba đặc trưng là ảnh màu, bản đồ nhiệt và dòng quang cho kết quả tốt hơn cả. Từ đó chứng minh được sự khả quan của phương pháp đã đề xuất. 4.3.3. Kết quả thực nghiệm theo số lượng dữ liệu huấn luyện

Luận văn tiếp tục tiến hành thực nghiệm đưa thêm dữ liệu từ tập dữ liệu thật vào để huấn luyện với PA4, sau đây là kết quả:

Bảng 4.8: Kết quả thực nghiệm phương án đề xuất

RGB + Optical Flow + Heatmap No Pretrain Pretrain

0% - 36.7

10% 41.6 49.5

20% 51.6 54.2

Hình 4.4: Biểu đồ độ chính xác qua mỗi epoch.

Hình 4.5: Biểu đồ giá trị mất mát qua mỗi epoch.

Bảng 4.9: Ma trận nhầm lẫn cho trường hợp chỉ sử dụng kết quả huấn luyện trước, không đào tạo thêm trên tập thực tế

Bình

thường Hoảng loạn Xung đột

Bình thường 10 36 34

Hoảng loạn 4 15 19

Xung đột 2 37 33

Nhận xét:

- Do hành vi bình thường ở tập dữ liệu tổng hợp dùng để pretrain, các dòng chuyển động đơn giản hơn so với các dòng chuyển động ở tập thực tế nên trên tập thực tế, kết quả đoán nhận hành vi bình thường bị nhầm nhiều sang hành vi “hoảng loạn” và “xung đột”.

- Hành vi “xung đột” chủ yếu bị nhầm sang “hoảng loạn” là do trên tập tổng hợp, các cảnh xung đột chủ yếu là xô đẩy của 2 người chứ không

phải của 1 nhóm người như trên tập thực tế.

Bảng 4.10: Ma trận nhầm lẫn khi Không sử dụng kết quả huấn luyện trước và đào tạo 10% tập thực tế.

Bình

thường Hoảng loạn Xung đột

Bình thường 31 49 0

Hoảng loạn 3 35 0

Xung đột 7 52 13

Bảng 4.11: Ma trận nhầm lẫn khi có sử dụng kết quả huấn luyện trước và đào tạo 10% tập thực tế.

Bình

thường Hoảng loạn Xung đột

Bình thường 34 25 21

Hoảng loạn 10 25 3

Xung đột 13 24 35

Nhận xét:

- Với các hành vi “bình thường”, khi chỉ sử dụng kết quả pretrain (trường hợp 0%) thì với những cảnh thực tế có chuyển động phức tạp, dòng người đan xen thường bị nhận nhầm thành hành vi “hoảng loạn”.

Mẫu 0-001 Mẫu 0-007 Mẫu 0-001

Hình 4.6: Một số mẫu “Bình thường” đoán nhận thành “Hoảng loạn”.

- Với các hành vi “xung đột”, khi chỉ dùng kết quả pretrain trên tập tổng hợp để đoán nhận thì bị nhận nhầm nhiều thành “hoảng loạn”, vấn đề

này do các mẫu về xung đột trên tập tổng hợp còn ít kịch bản, chưa phản ánh đủ các tình huống phát sinh thực tế.

Mẫu 2-004 Mẫu 2-058 Mẫu 2-066

Hình 4.7: Một số mẫu “Xung đột” đoán nhận thành “Hoảng loạn”.

- Khi đào tạo thêm với 10% dữ liệu tập thật và sử dụng kết quả này để đoán nhận thì các sai sót trên giảm đi.

4.3.4. Ảnh hưởng của các kỹ thuật tăng cường dữ liệu

Hình 4.8: Biểu đồ độ chính xác theo epoch với các kỹ thuật tăng cường dữ liệu

Nhận xét:

- Với các kỹ thuật tăng cường dữ liệu khác nhau sẽ cho kết quả khác nhau.

- Nếu chỉ dùng 1 kỹ thuật tăng cường dữ liệu thì sẽ bị quá khớp cho một hành vi nào đó, ví dụ cắt ảnh sẽ làm mất phần xung đột,…

- Kỹ thuật xoay ảnh đang cho kết quả khả quan nhất.

- Cần thử nghiệm nhiều hơn để đưa ra được tập kỹ thật phù hợp, xem xét sử dụng kết hợp nhiều kỹ thuật tăng cường dữ liệu khác nhau.

Chương 5: KẾT LUẬN 5.1. Các vấn đề đã giải quyết trong luận văn

Phân tích hành vi là một trong những nhiệm vụ thách thức nhất trong lĩnh vực Thị giác máy tính. Trong mảng phân tích hoạt động của con người, phân tích các hành vi cá nhân nhận được nhiều sự chú ý hơn, phần còn lại, phân tích hành vi đám đông dựa trên các cảnh đông người ít hơn đáng kể. Phân tích hành vi đám đông có thể có tác động lớn đến một loạt của các miền ứng dụng mới, chẳng hạn như an toàn công cộng nói chung, các sự kiện quy mô lớn, lập kế hoạch ứng phó với thiên tai và hoạt động giao thông vận tải. Giám sát một đám đông cho các ứng dụng giám sát và an toàn là thiết yếu trong các lĩnh vực đó. Tự động phát hiện các sự cố hoặc các hành vi hỗn loạn trong đám đông và cụ thể hóa các khu vực bất thường là rất có giá trị đối với các cơ quan chức năng. Dữ liệu về hành vi bất thường trong đám đông trong thực tế rất khó khăn để có thể thu thập được, chúng thường được bảo mật và sử dụng nội bộ trong các cơ quan, tổ chức.

Trong nghiên cứu này, chúng tôi đã đề xuất một phương pháp để phân tích và nhận biết hành vi trong đám đông sử dụng bản đồ mật độ nhiệt và dòng chuyển động quang học. Kỹ thuật về thích ứng miền cũng được sử dụng trong nghiên cứu để giải quyết vấn đề ít dữ liệu, giảm thời gian huấn luyên cũng như tăng độ chính xác khi gặp các dữ liệu mới.

5.2. Hướng nghiên cứu trong tương lai

Mô hình đề xuất trong luận văn tuy chứng minh được hướng tiếp cận là khả thi nhưng độ chính xác của mô hình còn thấp. Công việc tiếp theo cần áp dụng các phương pháp điều tiết, tăng độ chính xác của mô hình bằng cách sử dụng các hàm lỗi phụ và thu thập thêm dữ liệu đào tạo, mở rộng tập các hành vi bất thường cần đoán nhận.

Với mục tiêu áp dụng vào thực tế, chúng tôi sẽ tối ưu hóa mô hình, tăng thời gian thực thi, giảm dung lượng mô hình để có thể triển khai thực tế trên các thiết bị đầu cuối trong tương lai.

TÀI LIỆU THAM KHẢO

[1] A. Dosovitskiy, P. Fischer, E. Ilg, P. Hausser, C. Hazirbas, V. Golkov, P. van der Smagt, D. Cremers, and T. Brox, “Flownet: Learning optical flow with convolutional networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 2758–2766.

[2] A. Ranjan and M. J. Black, “Optical flow estimation using a spatial pyramid network,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2, 2017.

[3] C. Lu, J. Shi, and J. Jia, “Abnormal event detection at 150 fps in Matlab,” in Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013, pp. 2720–2727.

[4] E. Ilg, N. Mayer, T. Saikia, M. Keuper, A. Dosovitskiy, and T. Brox, “Flownet 2.0: Evolution of optical flow estimation with deep networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2, 2017.

[5] Farnebäck, Gunnar. (2003). "Two-Frame Motion Estimation Based on Polynomial Expansion", in Image analysis. 2749. 363-370. 10.1007/3-540- 45103-X_50.

[6] H. Rabiee, J. Haddadnia, H. Mousavi, M. Kalantarzadeh, M. Nabi, and V. Murino, “Novel dataset for fine-grained abnormal behavior understanding in crowd,” in Advanced Video and Signal Based Surveillance (AVSS), 2016 13th IEEE International Conference on. IEEE, 2016.

[7] H. Idrees, I. Saleemi, C. Seibert, and M. Shah, “Multi-source multiscale counting in extremely dense crowd images,” in Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE,2013, pp. 2547–2554.

[8] J. R. Medel and A. Savakis, “Anomaly detection in video using predictive convolutional long short-term memory networks,” arXiv preprint

arXiv:1612.00390, 2016.

[9] Jianbo Shi and Tomasi, "Good features to track," 1994 Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 1994, pp. 593- 600, doi: 10.1109/CVPR.1994.323794.

[10] L. Lazaridis, A. Dimou and P. Daras, "Abnormal Behavior Detection in Crowded Scenes Using Density Heatmaps and Optical Flow," 2018 26th European Signal Processing Conference (EUSIPCO), 2018, pp. 2060-2064, doi: 10.23919/EUSIPCO.2018.8553620.

[11] L. Zeng, X. Xu, B. Cai, S. Qiu, and T. Zhang, “Multi-scale convolutional nơ-ron networks for crowd counting,” arXiv preprint arXiv:1702.02359, 2017.

[12] Yuhong Li, Xiaofan Zhang, Deming Chen. (2018). " CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes". Proceedings - 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018. IEEE Computer Society, 2018. pp. 1091-1100.

[13] M. Hasan, J. Choi, J. Neumann, A. K. Roy-Chowdhury, and L. S. Davis, “Learning temporal regularity in video sequences,” in Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference on. IEEE, 2016, pp. 733–742.

[14] S. Zhou, W. Shen, D. Zeng, and Z. Zhang, “Unusual event detection in crowded scenes by trajectory analysis,” in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015, pp. 1300–1304.

[15] S. Zhou, W. Shen, D. Zeng, M. Fang, Y. Wei, and Z. Zhang, “Spatial– temporal convolutional neural networks for anomaly detection and localization in crowded scenes,” Signal Processing: Image Communication, vol. 47, pp. 358–368, 2016.

detection of violent crowd behavior,” in Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on. IEEE, 2012, pp. 1–6.

[17] T. Xiao, C. Zhang, H. Zha, and F. Wei, “Anomaly detection via local coordinate factorization and spatio-temporal pyramid,” in Asian Conference on Computer Vision. Springer, 2014, pp. 66–82.

[18] V. Reddy, C. Sanderson, and B. C. Lovell, “Improved anomaly detection in crowded scenes via cell-based analysis of foreground speed, size and texture,” in Computer Vision and Pattern Recognition Workshops (CVPRW), 2011 IEEE Computer Society Conference on. IEEE, 2011. [19] Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma, “Single-image crowd

counting via multi-column convolutional neural network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 589–597.

[20] Yang, Xiaodong et al. “Multilayer and Multimodal Fusion of Deep Nơ-ron Networks for Video Classification.” Proceedings of the 24th ACM international conference on Multimedia (2016): n. pag.

[21] Sambit Mahapatra, Towards Data Science,

https://towardsdatascience.com/why-deep-learning-is-needed-over- traditional-machine-learning-1b6a99177063, truy cập ngày 29/12/2021. [22] Sawakinome, Sawakinome,

https://vi.sawakinome.com/articles/people/difference-between-normal-and- abnormal-behavior-2.html, truy cập ngày 29/12/2021.

[23] Christopher Olah, Colah's blog, https://colah.github.io/posts/2015-08- Understanding-LSTMs, truy cập ngày 29/12/2021.

Kỹ thuật tăng cường dữ liệu

Các nghiên cứu liên quan