Các nghiên cứu liên quan

Một phần của tài liệu Nghiên cứu phương pháp phát hiện hành vi bất thường trong đám đông sử dụng bản đồ mật độ nhiệt (Trang 34)

Trên thế giới, cũng có các nghiên cứu của các nhóm tác giả về chủ đề phân tích hành vi bất thường trong đám đông. Sau đây, chúng ta sẽ xem xét một số nghiên cứu như vậy.

Nghiên cứu [3] đi theo một cách tiếp cận phổ biến cho phát hiện sự kiện bất thường. Do thiếu dữ liệu về hành vi bất thường, trước tiên các tác giả đã tìm hiểu các mô hình bình thường, và sau đó phát hiện sự bất thường khi các sự kiện đi chệch hướng từ các mẫu bình thường đã được phân tích. Cách tiếp cận này cũng rất tự nhiên và hợp lý, tuy nhiên, các hành vi bình thường phụ thuộc vào hoàn cảnh cụ thể, văn hóa cũng như nhận thức tại từng khu vực, do vậy, khi chuyển đổi khu vực áp dụng, có thể không dùng lại được các kết quả đã đào tạo trước đây. Thêm nữa, các hành vi được coi là bình thường cũng có những thể hiện đột xuất, ví dụ: một nhóm người đi ngược chiều hoặc cắt qua dòng người đang đi, khi đó kết quả dự đoán sẽ bị sai lệch. Sự kiện bình thường được theo dõi trong một thời gian dài, do vậy mô hình sẽ không sử dụng được trong các sự kiện ngắn hạn như lễ hội hoặc các sự kiện theo chủ đề.

Nghiên cứu [14] phát hiện hành vi bất thường dựa vào việc phân tích quỹ đạo chuyển động của từng đối tượng, phát hiện sự sai khác so với lớp bình

thường để xác định sự bất thường. Tuy nhiên, theo dõi từng đối tượng trong đám đông để trích xuất ra được quỹ đạo chuyển động của họ là không thực tế trong một cảnh đông đúc, do vậy cách tiếp cận này không có ý nghĩa thực tiễn khi phân tích hành vi bất thường trong đám đông.

Cũng có các nghiên cứu khác sử dụng học sâu để phân loại hành vi bất thường trong đám đông. Trong nghiên cứu [13], các tác giả lại sử dụng một kỹ thuật gọi là “end-to-end convolutional autoencoder” để phát hiện các hành vi bất thường trong video giảm sát với kết quả khá tốt, còn trong nghiên cứu [15], các tác giả sử dụng mạng tích chập 3D để phân loại các điểm bất thường. Tuy nhiên, cả 2 nghiên cứu [13] và [15], các kỹ thuật mới chỉ thực hiện trên các đặc trưng về không gian mà bỏ qua các đặc trưng về thời gian, do đó sẽ chỉ mang tính thời điểm.

Trong khuôn khổ luận văn này, chúng tôi sẽ đề xuất một phương pháp mới, sử dụng cả đặc trưng không gian và đặc trưng thời gian để đưa ra được kết quả khả quan, có khả năng đáp ứng nhanh với sự thay đổi của dữ liệu thực tế.

Chương 3: PHƯƠNG PHÁP ĐỀ XUẤT 3.1. Tổng quan

Phân tích cảnh đám đông phải đối mặt với nhiều thách thức hơn so với hoạt động cá nhân của con người do nhiều nguyên nhân. Với mật độ của những người được tìm thấy trong những cảnh như vậy thường gây khó khăn cho các thuật toán để xác định chính xác các thực thể riêng lẻ. Việc xác định các bộ phận cơ thể và chúng còn khó hơn các mô hình chuyển động tương ứng để phân loại hoạt động cá nhân của mỗi người tham gia. Hành vi của đám đông thường thể hiện các hành vi nổi cộm và các hoạt động tự tổ chức, đặc biệt là trong các sự kiện bất thường. Hơn nữa, nội dung có sẵn mà chúng ta có thể tiếp cận được thường có chất lượng thấp và thiếu các ví dụ thực tế về các sự kiện được phát hiện vì chúng chỉ có sẵn cho chính quyền vì lý do pháp lý và quyền riêng tư. Tại chương này, chúng tôi đề xuất một phương pháp luận mới để phát hiện sự kiện bất thường trong cảnh đông đúc và có khả năng đáp ứng nhanh hơn khi áp dụng với dữ liệu thực tế mà không yêu cầu nhiều dữ liệu đào tạo.

3.2. Phương pháp đề xuất

Phát hiện sự kiện bất thường trong cảnh đông đúc dựa trên sự phân tích các hành vi, hoạt động được kết hợp từ những người hiện diện trong đám đông đó. Có rất nhiều các phương pháp phát hiện và theo dõi hành vi của cá nhân, nhưng trong bối cảnh đông đúc thì sự theo dõi và phân tích hành vi của từng cá thể trong đó là không khả thi.

Do không thể áp dụng các phương pháp phát hiện và theo dõi cổ điển trong các cảnh đông đúc này nên cần phải có một cách tiếp cận tổng thể hơn. Chúng ta thấy rõ ràng ở đây, nội dung chuyển động đóng vai trò quan trọng, cung cấp thông tin chính cả ở cấp độ điểm ảnh hoặc cấp độ đặc trưng. Thêm vào đó, nội dung chuyển động này phải được phân tích trong bối cảnh không gian và thời gian rộng hơn để tổng quát được bối cảnh của đám đông.

Luồng quang học cung cấp độ lớn và hướng của chuyển động giữa các khung hình. Ví dụ quan sát sơ bộ bối cảnh có hành vi đám đông xung đột, chúng ta thấy sẽ có sự đan xen giữa các chuyển động ngược hướng và phạm vi chuyển động là nhỏ trong khoảng thời gian nhất định, còn bối cảnh đám đông hoảng loạn thì dòng chuyển động sẽ tỏa ra tứ phía hoặc cùng 1 phía và độ lớn chuyển động lớn. Trên cơ sở đó, việc chọn luồng quang học của bối cảnh như vậy là phù hợp để phân tích. Tuy nhiên, phân tích như vậy có thể dễ bị sai sót do nội dung chuyển động là tương tự từ các phần của cảnh không có người, hoặc bị nhầm lẫn khi dòng người di chuyển theo nhiều hướng khác nhau trong cùng 1 không gian…

Hình 3.2: Luồng chuyển động của đám đông

Trong các nghiên cứu trước đây, người ta sử dụng bản đồ mật độ nhiệt để đếm số người trong đám đông. Tuy nhiên, theo phân tích thấy rằng bản đồ mật độ nhiệt của đám đông có thể sử dụng như một tính năng định hướng để đảm bảo rằng chỉ các vùng có liên quan mới được đưa vào phân tích chuyển động, tránh sự gặp phải sự giống nhau của luồng chuyển động ở những cảnh không có người. Hơn nữa, trong một khoảng thời gian, những thay đổi về mật độ đám đông, chẳng hạn như sự di tản đột ngột của đám đông tại một địa điểm cũng có thể là kết quả của 1 đám đông hoảng loạn hay sự đông lên bất thường cũng là

bằng chứng cho thấy có giao tranh của đám đông. Những chỉ thị như vậy là bằng chứng rõ ràng cho sự tồn tại của một sự kiện bất thường. Do đó, hoàn toàn hợp lý khi đưa bản đồ mật độ nhiệt vào làm 1 tiêu chí phân tích để phát hiện hành vi bất thường của đám đông.

Hình 3.3: Cảnh đám đông hoảng loạn và bản đồ nhiệt tương ứng

Hình 3.4: Cảnh đám đông xung đột và bản đồ nhiệt tương ứng

Việc thiếu dữ liệu để đào tạo mạng cũng là một vấn đề lớn mà trong quá trình nghiên cứu đã gặp phải. Các nội dung trên internet có thể tìm thấy được

thường không sát với bàn toán đặt ra, hoặc nếu có thì chất lượng rất thấp do quay bằng các thiết bị cá nhân và ở khoảng cách quá xa. Các chủ đề bất thường được đề cập trong nghiên cứu là đám đông xung đột, hoảng loạn thường chỉ có thể tìm thấy ở các kho lưu trữ của chính quyền, qua các camera giám sát hoạt động tại những nơi công cộng, mà nguồn này thì chúng ta không được phép tiếp cận. Vì vậy, bài toán đặt ra là làm sao có thể phát hiện hành vi bất thường trong đám đông mà chỉ sử dụng rất ít dữ liệu đào tạo. Ở đây, chúng tôi sử dụng tập dữ liệu ảo, được tổng hợp theo các hành vi đám đông cụ thể để đào tạo. Sau đó áp dụng kỹ thuật thích ứng miền (domain adaptation) (domain adaptation), cụ thể hơn, sử dụng phương pháp tinh chỉnh mô hình (fine-tunning). Mục đích để khi áp dụng cho dữ liệu thực tế, có thể không cần đào tạo lại hoặc chỉ cần rất ít dữ liệu để đào tạo lại là mô hình có thể cho ra kết quả tốt.

Hình 3.5: Phương pháp huấn luyện đề xuất

3.3. Mô hình mạng đề xuất

Để thực hiện phương pháp đề xuất, chúng ta thiết kế 1 mạng học sâu như sau: Sau khi trích xuất được dòng quang và bản đồ mật độ nhiệt của tập dữ liệu đưa vào, ta đào tạo qua mạng với cấu trúc sau đây:

Hình 3.6: Mô hình mạng đề xuất.

Hình 3.7: Dữ liệu đầu vào của mạng huấn luyện.

Mô tả:

- Đầu vào của mạng: là các dữ liệu ảnh màu RGB, dòng chuyển động quang học, bản đồ mật độ nhiệt, được trích xuất và biểu diễn dưới dạng các tensor với các chiều dữ liệu tương ứng (hình 3.7).

- Bước 1: Spatial Encode - có nhiệm vụ trích xuất và học các đặc trưng theo không gian của dữ liệu đầu vào. Đó là hướng chuyển động, chiều chuyển động, mật độ đám đông, bối cảnh….Tại thành phần này, luận văn sử dụng mạng Resnet18 đã được tiền huấn luyện trên tập dữ liệu ImageNet.

- Bước 2: Temporal Encode - có nhiệm vụ trích xuất và học các thay đổi theo thời gian của các đặc trưng đã trích xuất được từ Bước 1. Để thực hiện công việc này, luận văn sử dụng mạng LSTM với 2 lớp ẩn.

- Bước 3: Kết nối đầy đủ: làm phẳng dữ liệu đầu ra của mạng và kết nối chúng thành mảng 1 chiều.

- Bước 4: Phân lớp: tính toán xác xuất phân lớp đầu ra, sử dụng hàm Softmax. - Đầu ra: mảng 3 phần tử, mỗi phần tử là xác xuất phân lớp của dữ liệu đầu vào

với lớp tương ứng.

Dữ liệu đầu vào được tạo thành từ việc xếp các đặc trưng đã trích xuất trước lại với nhau, đưa qua phần đầu của mạng để trích xuất đặc trưng theo không gian. Tiếp đó, dữ liệu thu được đưa qua phần thứ 2 để trích xuất đặc trưng theo thời gian. Kết quả cuối cùng được đưa qua mạng kết nối đầy đủ sau đó tính toán kết quả phân lớp. Trong quá trình huấn luyện, để tăng độ chính xác, giảm thiểu tình trạng quá khớp (overfitting), nghiên cứu có sử dụng thêm các kỹ thuật tăng cường dữ liệu. Các phương pháp được sử dụng bao gồm xoay, thêm nhiễu, lật ảnh, điều chỉnh độ sáng, cắt ngẫu nhiên… khi sử dụng các phương pháp này, phải đảm bảo các khung hình thuộc cùng 1 mẫu huấn luyện phải được áp dụng các thay đổi như nhau để không làm sai lệch dòng chuyển động.

3.4. Áp dụng kỹ thuật tăng cường dữ liệu

Sau đây, chúng tôi sẽ trình bày các kỹ thuật tăng cường dữ liệu được sử dụng trong nghiên cứu để làm phong phú thêm lượng dữ liệu, giảm hiện tượng quá khớp.

Ảnh gốc Phép xoay Phép lật dọc Thay đổi tương

Thêm nhiễu Cắt và làm đầy Màu ngẫu nhiên Cắt ngẫu nhiên

Hình 3.8: Dữ liệu thay đổi qua các phép tăng cường dữ liệu

Ảnh gốc: ảnh chưa qua chỉnh sửa.

Phép Lật: lật theo chiều dọc, ngang miễn sao ý nghĩa của ảnh, nhãn của ảnh được giữ nguyên hoặc suy ra được. Ví dụ nhận dạng quả bóng tròn, phép lật vẫn giữ nguyên quả bóng tròn, còn với nhận dạng chữ viết tay, lật số 8 vẫn là 8, nhưng 6 sẽ thành 9 (theo chiều ngang) và không ra số gì theo chiều dọc. Còn nhận dạng ảnh y tế thì việc bị lật trên xuống dưới là không bao giờ sảy ra ở ảnh thực tế.

Phép Xoay: Xoay ảnh theo trục dọc hoặc trục ngang.

Cắt ngẫu nhiên: cắt ngẫu nhiên một phần của bức ảnh. Lưu ý là khi cắt phải giữ thành phần chính của bức ảnh mà ta quan tâm. Như ở nhận diện vật thể, nếu ảnh được cắt không có vật thể, vậy giá trị nhãn là không chính xác.

Chuyển đổi màu: Chuyển đổi màu của bức ảnh bằng cách thêm giá trị vào 3 kênh màu RGB. Việc này liên quan tới ảnh chụp đôi khi bị nhiễu => màu bị ảnh hưởng.

Thêm nhiễu: Thêm nhiễu vào bức ảnh. Nhiễu thì có nhiều loại như nhiễu ngẫu nhiên, nhiễu có mẫu, nhiễu cộng, nhiễu nhân, nhiễu do nén ảnh, nhiễu mờ do chụp không lấy nét, nhiễu mờ do chuyển động...

Màu ngẫu nhiên: Thay đổi màu trong bức ảnh.

Thay đổi độ tương phản: thay độ tương phản của bức hình, độ bão hòa. Ngoài ra, còn có rất nhiều phép tăng cường dữ liệu khác, tuy nhiên, chúng tôi chỉ chọn các cách trên vì phù hợp với bài toán đang nghiên cứu.

Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. Tập dữ liệu sử dụng

Tập dữ liệu pretrain: Sử dụng một phần tập dữ liệu MED được giới thiệu tại [6]. Tập dữ liệu này là tập các video được quay từ camera giám sát, theo các chủ đề, kịch bản được dàn dựng. Do tập dữ liệu này có một số phần không liên quan đến các hành vi sẽ nghiên cứu trong luận văn nên chúng tôi chỉ sử dụng 17 video liên quan. Mỗi video có độ dài từ 40-90 giây, được chia các video lớn thành các video sample, mỗi sample dài 3 giây. Tập huấn luyện là tập các sample thuộc 13 video gốc và tập kiểm chứng là các sample từ 4 video gốc còn lại, đảm bảo các sample trên tập huấn luyện và tập kiểm chứng không cùng video gốc.

Bảng 4.1: Thống kê dữ liệu tập pretrain

Tập huấn luyện 166 sample Tập kiểm chứng 72 sample

Tập dữ liệu này được mô phỏng theo các hành vi của đám đông, bao gồm các hành vi được sử dụng trong luận văn cụ thể:

Bảng 4.2: Thống kê số lượng mẫu theo nhãn của tập pretrain

Tập huấn luyện Số lượng mẫu Bình thường 101

Hoảng loạn 17

Xung đột 48

Tập kiểm thử Số lượng mẫu

Bình thường 56

Hoảng loạn 6

Đám đông bình thường Đám đông hoảng loạn Đám đông xung đột Hình 4.1: Hình ảnh trong tập MED

Tập dữ liệu thực tế: Là tập dữ liệu bao gồm các video được tập hợp từ các tập dữ liệu khác và các trang video. Các dữ liệu sau khi lấy về được bóc tách nội dung phù hợp với luận văn.

- Tập dữ liệu [7] - Tập dữ liệu [6]

- Thu thập từ youtube.com - Thu thập từ gettyimage.com

Dữ liệu này được gán nhãn, chia thành các mẫu dữ liệu, mỗi mẫu dài từ 3s trở lên, được chuyển đổi về kích thước 224*224 ở bitrate 30fps.

Bảng 4.3: Thống kê số lượng mẫu theo nhãn của tập thực tế

Nhãn Số lượng mẫu

Bình thường 158

Hoảng loạn 62

Xung đột 89

Đám đông bình thường Đám đông hoảng loạn Đám đông xung đột Hình 4.2: Một số hình ảnh trong tập dữ liệu thực tế

Trích xuất mẫu:

Các video đầu vào được chuyển đổi về kích thước 224*224 và 30fps trước khi xử lý. Thư viện opencv sẽ giúp tách các frame từ video và lưu trữ vào thư mục có tên theo mã định danh của video. Các frame được đặt tên theo định dạng: <mã video>-<số thứ tự>.jpg.

Hình 4.3: Tổ chức dữ liệu đào tạo .

Bảng 4.4: Thống kê các bối cảnh trong tập dữ liệu thực tế

Đường phố Sân vận động Ga tàu Trường học Khác Bình thường 55 15 25 15 48

Hoảng loạn 26 0 5 8 23

Xung đột 33 30 1 5 20

4.2. Thông số mạng huấn luyện

Các thông số mạng được sử dụng trong quá trình huấn luyện được thể hiện trong bảng 4.5.

Bảng 4.5: Thống kê các bối cảnh trong tập dữ liệu thực tế

Epochs 10 Số lần lặp qua tập huấn

luyện

Batch Size 16 Số sample được đưa vào

trong 1 lần huấn luyện

Frames 6 Số khung hình của sample

đưa vào huấn luyện.

Sample length 3s Độ dài tính bằng giây của video đưa vào huấn luyện. Learning rate 0.001 Hệ số học của mô hình, sau

mỗi 2 epoch, hệ số học sẽ giảm

8 lần để tối ưu mô hình được tốt hơn.

Optimizer Adam

optimizer

Hàm tối ưu

Loss function Categorical Cross Entropy

Hàm mất mát

4.3. Kết quả thực nghiệm 4.3.1. Độ đo đánh giá 4.3.1. Độ đo đánh giá

Xuất phát từ công thức tính Precision và Recall:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃

𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁

Một phần của tài liệu Nghiên cứu phương pháp phát hiện hành vi bất thường trong đám đông sử dụng bản đồ mật độ nhiệt (Trang 34)

Tải bản đầy đủ (PDF)

(56 trang)