Áp dụng kỹ thuật tăng cường dữ liệu

Sau đây, chúng tôi sẽ trình bày các kỹ thuật tăng cường dữ liệu được sử dụng trong nghiên cứu để làm phong phú thêm lượng dữ liệu, giảm hiện tượng quá khớp.

Ảnh gốc Phép xoay Phép lật dọc Thay đổi tương

Thêm nhiễu Cắt và làm đầy Màu ngẫu nhiên Cắt ngẫu nhiên

Hình 3.8: Dữ liệu thay đổi qua các phép tăng cường dữ liệu

Ảnh gốc: ảnh chưa qua chỉnh sửa.

Phép Lật: lật theo chiều dọc, ngang miễn sao ý nghĩa của ảnh, nhãn của ảnh được giữ nguyên hoặc suy ra được. Ví dụ nhận dạng quả bóng tròn, phép lật vẫn giữ nguyên quả bóng tròn, còn với nhận dạng chữ viết tay, lật số 8 vẫn là 8, nhưng 6 sẽ thành 9 (theo chiều ngang) và không ra số gì theo chiều dọc. Còn nhận dạng ảnh y tế thì việc bị lật trên xuống dưới là không bao giờ sảy ra ở ảnh thực tế.

Phép Xoay: Xoay ảnh theo trục dọc hoặc trục ngang.

Cắt ngẫu nhiên: cắt ngẫu nhiên một phần của bức ảnh. Lưu ý là khi cắt phải giữ thành phần chính của bức ảnh mà ta quan tâm. Như ở nhận diện vật thể, nếu ảnh được cắt không có vật thể, vậy giá trị nhãn là không chính xác.

Chuyển đổi màu: Chuyển đổi màu của bức ảnh bằng cách thêm giá trị vào 3 kênh màu RGB. Việc này liên quan tới ảnh chụp đôi khi bị nhiễu => màu bị ảnh hưởng.

Thêm nhiễu: Thêm nhiễu vào bức ảnh. Nhiễu thì có nhiều loại như nhiễu ngẫu nhiên, nhiễu có mẫu, nhiễu cộng, nhiễu nhân, nhiễu do nén ảnh, nhiễu mờ do chụp không lấy nét, nhiễu mờ do chuyển động...

Màu ngẫu nhiên: Thay đổi màu trong bức ảnh.

Thay đổi độ tương phản: thay độ tương phản của bức hình, độ bão hòa. Ngoài ra, còn có rất nhiều phép tăng cường dữ liệu khác, tuy nhiên, chúng tôi chỉ chọn các cách trên vì phù hợp với bài toán đang nghiên cứu.

Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. Tập dữ liệu sử dụng

Tập dữ liệu pretrain: Sử dụng một phần tập dữ liệu MED được giới thiệu tại [6]. Tập dữ liệu này là tập các video được quay từ camera giám sát, theo các chủ đề, kịch bản được dàn dựng. Do tập dữ liệu này có một số phần không liên quan đến các hành vi sẽ nghiên cứu trong luận văn nên chúng tôi chỉ sử dụng 17 video liên quan. Mỗi video có độ dài từ 40-90 giây, được chia các video lớn thành các video sample, mỗi sample dài 3 giây. Tập huấn luyện là tập các sample thuộc 13 video gốc và tập kiểm chứng là các sample từ 4 video gốc còn lại, đảm bảo các sample trên tập huấn luyện và tập kiểm chứng không cùng video gốc.

Bảng 4.1: Thống kê dữ liệu tập pretrain

Tập huấn luyện 166 sample Tập kiểm chứng 72 sample

Tập dữ liệu này được mô phỏng theo các hành vi của đám đông, bao gồm các hành vi được sử dụng trong luận văn cụ thể:

Bảng 4.2: Thống kê số lượng mẫu theo nhãn của tập pretrain

Tập huấn luyện Số lượng mẫu Bình thường 101

Hoảng loạn 17

Xung đột 48

Tập kiểm thử Số lượng mẫu

Bình thường 56

Hoảng loạn 6

Đám đông bình thường Đám đông hoảng loạn Đám đông xung đột Hình 4.1: Hình ảnh trong tập MED

Tập dữ liệu thực tế: Là tập dữ liệu bao gồm các video được tập hợp từ các tập dữ liệu khác và các trang video. Các dữ liệu sau khi lấy về được bóc tách nội dung phù hợp với luận văn.

- Tập dữ liệu [7] - Tập dữ liệu [6]

- Thu thập từ youtube.com - Thu thập từ gettyimage.com

Dữ liệu này được gán nhãn, chia thành các mẫu dữ liệu, mỗi mẫu dài từ 3s trở lên, được chuyển đổi về kích thước 224*224 ở bitrate 30fps.

Bảng 4.3: Thống kê số lượng mẫu theo nhãn của tập thực tế

Nhãn Số lượng mẫu

Bình thường 158

Hoảng loạn 62

Xung đột 89

Đám đông bình thường Đám đông hoảng loạn Đám đông xung đột Hình 4.2: Một số hình ảnh trong tập dữ liệu thực tế

Trích xuất mẫu:

Các video đầu vào được chuyển đổi về kích thước 224*224 và 30fps trước khi xử lý. Thư viện opencv sẽ giúp tách các frame từ video và lưu trữ vào thư mục có tên theo mã định danh của video. Các frame được đặt tên theo định dạng: <mã video>-<số thứ tự>.jpg.

Hình 4.3: Tổ chức dữ liệu đào tạo .

Bảng 4.4: Thống kê các bối cảnh trong tập dữ liệu thực tế

Đường phố Sân vận động Ga tàu Trường học Khác Bình thường 55 15 25 15 48

Hoảng loạn 26 0 5 8 23

Xung đột 33 30 1 5 20

4.2. Thông số mạng huấn luyện

Các thông số mạng được sử dụng trong quá trình huấn luyện được thể hiện trong bảng 4.5.

Bảng 4.5: Thống kê các bối cảnh trong tập dữ liệu thực tế

Epochs 10 Số lần lặp qua tập huấn

luyện

Batch Size 16 Số sample được đưa vào

trong 1 lần huấn luyện

Frames 6 Số khung hình của sample

đưa vào huấn luyện.

Sample length 3s Độ dài tính bằng giây của video đưa vào huấn luyện. Learning rate 0.001 Hệ số học của mô hình, sau

mỗi 2 epoch, hệ số học sẽ giảm

8 lần để tối ưu mô hình được tốt hơn.

Optimizer Adam

optimizer

Hàm tối ưu

Loss function Categorical Cross Entropy

Hàm mất mát

4.3. Kết quả thực nghiệm 4.3.1. Độ đo đánh giá 4.3.1. Độ đo đánh giá

Xuất phát từ công thức tính Precision và Recall:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃

𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁

𝑀𝑖𝑐𝑟𝑜 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = ∑ 𝑇𝑃 (𝑇𝑃 + 𝐹𝑃 )

𝑀𝑖𝑐𝑟𝑜 𝑅𝑒𝑐𝑎𝑙𝑙 = ∑ 𝑇𝑃

(𝑇𝑃 + 𝐹𝑁 ) Công thức tính Micro F1 Score:

𝑀𝑖𝑐𝑟𝑜 − 𝐹 = 2 𝑀𝑖𝑐𝑟𝑜 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑀𝑖𝑐𝑟𝑜 𝑅𝑒𝑐𝑎𝑙𝑙

𝑀𝑖𝑐𝑟𝑜 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑀𝑖𝑐𝑟𝑜 𝑅𝑒𝑐𝑎𝑙𝑙

Bài toán nhận biết hành vi bất thường trong đám đông là một bài toán phân lớp, số lượng dữ liệu ở các lớp không đều, hay nói cách khác là tập dữ liệu sử dụng là không cân bằng. Do vậy, nghiên cứu sử dụng độ đo Micro F1 Score (là trung bình điều hòa của hai giá trị Precision và Recall trên từng lớp) để đánh giá các kết quả thực nghiệm.

4.3.2. Kết quả thực nghiệm với tập đặc trưng

Lần lượt thử nghiệm với các phương án dữ liệu đầu vào khác nhau để so sánh:

- PA1: RGB: chỉ đưa vào các khung hình RGB.

- PA2: RGB + Optical Flow: đưa vào các khung hình RGB và dòng quang.

- PA3: RGB + Heatmap: đưa vào các khung hình RGB và bản đồ nhiệt. - PA4: RGB + Optical Flow + Heatmap: đưa vào các khung hình RGB,

dòng quang và bản đồ nhiệt như đề xuất.

Luận văn thử nghiệm 2 trường hợp với mỗi bộ dữ liệu như trên, trường hợp 1 chỉ sử dụng kết quả đã pretrain để kiểm thử trên tập thực tế. Trường hợp 2, từ tập thực tế, trích ra 10% để huấn luyện thêm và kiểm thử trên phần còn lại, kết quả như sau:

Bảng 4.4: PA1 chỉ sử dụng ảnh màu

RGB

No Pretrain Pretrain

0% - 33.8

10% 30.0 34.2

Bảng 4.5: PA2 ảnh màu và bản đồ nhiệt

RGB + Heatmap No Pretrain Pretrain 0% - 35.6 10% 32.0 40.8 Bảng 4.6: PA3 sử dụng RGB và dòng quang RGB + Optical Flow No Pretrain Pretrain 0% - 36.0 10% 33.3 41.2

Bảng 4.7: PA4 ảnh màu, dòng quang học và bản đồ nhiệt

RGB + Optical Flow + Heatmap No Pretrain Pretrain

0% - 36.7

10% 41.6 49.5

Nhận xét:

Từ bảng 4.4, 4.5, 4.6, 4.7 thấy rằng, trong cả trường hợp có đào tạo trước (pretrain) và không có đào tạo trước (no pretrain) thì phương án chỉ sử dụng dữ liệu ảnh màu (PA1) cho kết quả kém nhất. Ngược lại, phương án 4 (PA4) sử dụng cả ba đặc trưng là ảnh màu, bản đồ nhiệt và dòng quang cho kết quả tốt hơn cả. Từ đó chứng minh được sự khả quan của phương pháp đã đề xuất. 4.3.3. Kết quả thực nghiệm theo số lượng dữ liệu huấn luyện

Luận văn tiếp tục tiến hành thực nghiệm đưa thêm dữ liệu từ tập dữ liệu thật vào để huấn luyện với PA4, sau đây là kết quả:

Bảng 4.8: Kết quả thực nghiệm phương án đề xuất

RGB + Optical Flow + Heatmap No Pretrain Pretrain

0% - 36.7

10% 41.6 49.5

20% 51.6 54.2

Hình 4.4: Biểu đồ độ chính xác qua mỗi epoch.

Hình 4.5: Biểu đồ giá trị mất mát qua mỗi epoch.

Bảng 4.9: Ma trận nhầm lẫn cho trường hợp chỉ sử dụng kết quả huấn luyện trước, không đào tạo thêm trên tập thực tế

Bình

thường Hoảng loạn Xung đột

Bình thường 10 36 34

Hoảng loạn 4 15 19

Xung đột 2 37 33

Nhận xét:

- Do hành vi bình thường ở tập dữ liệu tổng hợp dùng để pretrain, các dòng chuyển động đơn giản hơn so với các dòng chuyển động ở tập thực tế nên trên tập thực tế, kết quả đoán nhận hành vi bình thường bị nhầm nhiều sang hành vi “hoảng loạn” và “xung đột”.

- Hành vi “xung đột” chủ yếu bị nhầm sang “hoảng loạn” là do trên tập tổng hợp, các cảnh xung đột chủ yếu là xô đẩy của 2 người chứ không

phải của 1 nhóm người như trên tập thực tế.

Bảng 4.10: Ma trận nhầm lẫn khi Không sử dụng kết quả huấn luyện trước và đào tạo 10% tập thực tế.

Bình

thường Hoảng loạn Xung đột

Bình thường 31 49 0

Hoảng loạn 3 35 0

Xung đột 7 52 13

Bảng 4.11: Ma trận nhầm lẫn khi có sử dụng kết quả huấn luyện trước và đào tạo 10% tập thực tế.

Bình

thường Hoảng loạn Xung đột

Bình thường 34 25 21

Hoảng loạn 10 25 3

Xung đột 13 24 35

Nhận xét:

- Với các hành vi “bình thường”, khi chỉ sử dụng kết quả pretrain (trường hợp 0%) thì với những cảnh thực tế có chuyển động phức tạp, dòng người đan xen thường bị nhận nhầm thành hành vi “hoảng loạn”.

Mẫu 0-001 Mẫu 0-007 Mẫu 0-001

Hình 4.6: Một số mẫu “Bình thường” đoán nhận thành “Hoảng loạn”.

- Với các hành vi “xung đột”, khi chỉ dùng kết quả pretrain trên tập tổng hợp để đoán nhận thì bị nhận nhầm nhiều thành “hoảng loạn”, vấn đề

này do các mẫu về xung đột trên tập tổng hợp còn ít kịch bản, chưa phản ánh đủ các tình huống phát sinh thực tế.

Mẫu 2-004 Mẫu 2-058 Mẫu 2-066

Hình 4.7: Một số mẫu “Xung đột” đoán nhận thành “Hoảng loạn”.

- Khi đào tạo thêm với 10% dữ liệu tập thật và sử dụng kết quả này để đoán nhận thì các sai sót trên giảm đi.

4.3.4. Ảnh hưởng của các kỹ thuật tăng cường dữ liệu

Hình 4.8: Biểu đồ độ chính xác theo epoch với các kỹ thuật tăng cường dữ liệu

Nhận xét:

- Với các kỹ thuật tăng cường dữ liệu khác nhau sẽ cho kết quả khác nhau.

- Nếu chỉ dùng 1 kỹ thuật tăng cường dữ liệu thì sẽ bị quá khớp cho một hành vi nào đó, ví dụ cắt ảnh sẽ làm mất phần xung đột,…

- Kỹ thuật xoay ảnh đang cho kết quả khả quan nhất.

- Cần thử nghiệm nhiều hơn để đưa ra được tập kỹ thật phù hợp, xem xét sử dụng kết hợp nhiều kỹ thuật tăng cường dữ liệu khác nhau.

Chương 5: KẾT LUẬN 5.1. Các vấn đề đã giải quyết trong luận văn

Phân tích hành vi là một trong những nhiệm vụ thách thức nhất trong lĩnh vực Thị giác máy tính. Trong mảng phân tích hoạt động của con người, phân tích các hành vi cá nhân nhận được nhiều sự chú ý hơn, phần còn lại, phân tích hành vi đám đông dựa trên các cảnh đông người ít hơn đáng kể. Phân tích hành vi đám đông có thể có tác động lớn đến một loạt của các miền ứng dụng mới, chẳng hạn như an toàn công cộng nói chung, các sự kiện quy mô lớn, lập kế hoạch ứng phó với thiên tai và hoạt động giao thông vận tải. Giám sát một đám đông cho các ứng dụng giám sát và an toàn là thiết yếu trong các lĩnh vực đó. Tự động phát hiện các sự cố hoặc các hành vi hỗn loạn trong đám đông và cụ thể hóa các khu vực bất thường là rất có giá trị đối với các cơ quan chức năng. Dữ liệu về hành vi bất thường trong đám đông trong thực tế rất khó khăn để có thể thu thập được, chúng thường được bảo mật và sử dụng nội bộ trong các cơ quan, tổ chức.

Trong nghiên cứu này, chúng tôi đã đề xuất một phương pháp để phân tích và nhận biết hành vi trong đám đông sử dụng bản đồ mật độ nhiệt và dòng chuyển động quang học. Kỹ thuật về thích ứng miền cũng được sử dụng trong nghiên cứu để giải quyết vấn đề ít dữ liệu, giảm thời gian huấn luyên cũng như tăng độ chính xác khi gặp các dữ liệu mới.

5.2. Hướng nghiên cứu trong tương lai

Mô hình đề xuất trong luận văn tuy chứng minh được hướng tiếp cận là khả thi nhưng độ chính xác của mô hình còn thấp. Công việc tiếp theo cần áp dụng các phương pháp điều tiết, tăng độ chính xác của mô hình bằng cách sử dụng các hàm lỗi phụ và thu thập thêm dữ liệu đào tạo, mở rộng tập các hành vi bất thường cần đoán nhận.

Với mục tiêu áp dụng vào thực tế, chúng tôi sẽ tối ưu hóa mô hình, tăng thời gian thực thi, giảm dung lượng mô hình để có thể triển khai thực tế trên các thiết bị đầu cuối trong tương lai.

TÀI LIỆU THAM KHẢO

[1] A. Dosovitskiy, P. Fischer, E. Ilg, P. Hausser, C. Hazirbas, V. Golkov, P. van der Smagt, D. Cremers, and T. Brox, “Flownet: Learning optical flow with convolutional networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 2758–2766.

[2] A. Ranjan and M. J. Black, “Optical flow estimation using a spatial pyramid network,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2, 2017.

[3] C. Lu, J. Shi, and J. Jia, “Abnormal event detection at 150 fps in Matlab,” in Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013, pp. 2720–2727.

[4] E. Ilg, N. Mayer, T. Saikia, M. Keuper, A. Dosovitskiy, and T. Brox, “Flownet 2.0: Evolution of optical flow estimation with deep networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2, 2017.

[5] Farnebäck, Gunnar. (2003). "Two-Frame Motion Estimation Based on Polynomial Expansion", in Image analysis. 2749. 363-370. 10.1007/3-540- 45103-X_50.

[6] H. Rabiee, J. Haddadnia, H. Mousavi, M. Kalantarzadeh, M. Nabi, and V. Murino, “Novel dataset for fine-grained abnormal behavior understanding in crowd,” in Advanced Video and Signal Based Surveillance (AVSS), 2016 13th IEEE International Conference on. IEEE, 2016.

[7] H. Idrees, I. Saleemi, C. Seibert, and M. Shah, “Multi-source multiscale counting in extremely dense crowd images,” in Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE,2013, pp. 2547–2554.

[8] J. R. Medel and A. Savakis, “Anomaly detection in video using predictive convolutional long short-term memory networks,” arXiv preprint

arXiv:1612.00390, 2016.

[9] Jianbo Shi and Tomasi, "Good features to track," 1994 Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 1994, pp. 593- 600, doi: 10.1109/CVPR.1994.323794.

[10] L. Lazaridis, A. Dimou and P. Daras, "Abnormal Behavior Detection in Crowded Scenes Using Density Heatmaps and Optical Flow," 2018 26th European Signal Processing Conference (EUSIPCO), 2018, pp. 2060-2064, doi: 10.23919/EUSIPCO.2018.8553620.

[11] L. Zeng, X. Xu, B. Cai, S. Qiu, and T. Zhang, “Multi-scale convolutional nơ-ron networks for crowd counting,” arXiv preprint arXiv:1702.02359, 2017.

[12] Yuhong Li, Xiaofan Zhang, Deming Chen. (2018). " CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes". Proceedings - 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018. IEEE Computer Society, 2018. pp. 1091-1100.

[13] M. Hasan, J. Choi, J. Neumann, A. K. Roy-Chowdhury, and L. S. Davis, “Learning temporal regularity in video sequences,” in Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference on. IEEE, 2016, pp. 733–742.

[14] S. Zhou, W. Shen, D. Zeng, and Z. Zhang, “Unusual event detection in crowded scenes by trajectory analysis,” in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015, pp. 1300–1304.

[15] S. Zhou, W. Shen, D. Zeng, M. Fang, Y. Wei, and Z. Zhang, “Spatial– temporal convolutional neural networks for anomaly detection and localization in crowded scenes,” Signal Processing: Image Communication, vol. 47, pp. 358–368, 2016.

detection of violent crowd behavior,” in Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on. IEEE, 2012, pp. 1–6.

[17] T. Xiao, C. Zhang, H. Zha, and F. Wei, “Anomaly detection via local coordinate factorization and spatio-temporal pyramid,” in Asian Conference on Computer Vision. Springer, 2014, pp. 66–82.

Áp dụng kỹ thuật tăng cường dữ liệu

Kỹ thuật tăng cường dữ liệu

Các nghiên cứu liên quan