SVM trên 4 tập dữ liệu (%)
Phương pháp/tập dữ liệu UTD MobiFall PTITAct CMDFALL
SVM 85,17 78,84 87,12 45,26
RF 88,95 80,41 84,92 51,21
CNN-LSTM 96,13 95,06 93,38 85,05
3.4.4. So sánh phương pháp đề xuất với các phương pháp khác
Trong bảng 3.7 tổng hợp kết quả F1-score trên cả 4 tập dữ liệu. Cĩ thể thấy rằng, SVM và RF là bộ phân loại đã từng cho kết quả khá tốt với các đặc trưng được trích chọn thủ cơng [77]. Tuy nhiên, so với các mơ hình học sâu thì kết quả với SVM và RF thấp hơn đáng kể. Mơ hình học sâu CNN với khả năng học các đặc trưng tự động hiệu quả qua các phép nhân chập giữa các bộ lọc, đã lựa chọn được các đặc trưng với đặc tính khơng-thời gian rất tốt, kết quả cao hơn đáng kể so với SVM và RF. Mơ hình LSTM cho kết quả tương đối tốt xấp xỉ với mơ hình CNN. Mặc dù học và biểu diễn các đặc trưng khơng-thời gian chưa phải là điểm mạnh của LSTM, nhưng với khả năng nhớ các thơng tin theo chuỗi thời gian trong khoảng thời gian dài cũng giúp LSTM cĩ khả năng dự đốn khá tốt, cạnh trạnh được với CNN. Cuối cùng là mơ hình đề xuất CNN- LSTM đã cho kết quả F1-score cao nhất 96,13% trên tập dữ liệu UTD, 95,06% trên tập dữ liệu MobiFall, 9,383% trên tập dữ liệu PTITAct và 85,05% trên tập dữ liệu CMDFALL. Kết quả tăng lên so với 4 phương pháp cịn lại, điều này cho thấy mơ hình CNN-LSTM hiệu quả hơn nhờ sự kết hợp của việc học và biểu diễn các đặc trưng của dữ liệu theo đặc tính khơng-thời gian.
Bảng 3.7. Kết quả (F1-score) trên 4 tập dữ liệu (%)
Phương pháp/tập dữ liệu UTD MobiFall PTITAct CMDFALL
SVM 85,17 78,84 87,12 45,26
RF 88,95 80,41 84,92 51,21
CNN 94,34 88,51 91,04 82,20
LSTM 91,64 85,35 89,09 80,01
CNN-LSTM 96,13 95,06 93,38 85,05
3.5. Kết hợp cảm biến đeo và đặc trưng khung xương nhận dạng hoạt động và phát hiện VĐBT của người
Trong phần này, NCS trình bày một mơ hình học sâu kết hợp dữ liệu từ các cảm biến khơng đồng nhất để nhận dạng các hoạt động và phát hiện vận động bất thường phức tạp ở người. Một kiến trúc mạng học sâu nhân chập theo thời gian (deep temporal convolutional networks/TCN) được đề xuất để học, kết hợp và biểu diễn các đặc trưng từ dữ liệu khung xương, dữ liệu gia tốc và các thuộc tính thời gian. Bản đồ đặc trưng đã học biểu diễn bằng các lớp phức hợp trong TCN sẽ được đưa vào hai lớp được kết nối đầy đủ để dự đốn. Kết quả ban đầu của nghiên cứu này đã được trình bày trong cơng bố: “Combining Skeleton and Accelerometer Data for Human
Fine-Grained Activity Recognition and Abnormal Behaviour Detection with Deep Temporal Convolutional Networks”, được đăng trên tạp chí “Multimedia Tools and Applications”, tạp chí SCIE (Q1) và trong danh mục các tạp chí ISI uy tín của quỹ
NAFOSTED.
3.5.1. Mơ hình đề xuất
Mơ hình kết hợp bao gồm 3 thành phần: Tiền xử lý tín hiệu, TCN và Kết hợp (Fusion). Kiến trúc của hệ thống được minh họa trong hình 3.9. Đầu tiên, các luồng dữ liệu sẽ được phân đoạn thành các cửa sổ trượt 3 giây với 2,8 giây được chồng lên nhau giữa hai cửa sổ liên tiếp. Tiếp đến, hệ thống lấy các cửa sổ được phân đoạn của
dữ liệu gia tốc và khung xương và chuyển chúng qua thành phần tiền xử lý để giảm tín hiệu nhiễu, tính tốn các đặc trưng gĩc và lựa chọn các khớp xương. Dữ liệu đã xử lý sau đĩ được chuyển qua thành phần TCN để tính tốn các véc-tơ đặc trưng được học từ dữ liệu khung xương và gia tốc. Các véc-tơ đặc trưng sau đĩ được đưa vào thành phần Fusion bao gồm các lớp được kết nối đầy đủ, cuối cùng đi qua lớp softmax tạo ra xác suất lớp (phân loại). Kết quả cuối cùng của một chuỗi hoạt động được quyết định bằng cách bỏ phiếu trên tập các cửa sổ tương ứng.
Hình 3.9. Kiến trúc của mơ hình đề xuất để nhận dạng các hoạt động và phát hiện vận động bất thường phức tạp ở người
3.5.1.1. Tiền xử lý dữ liệu
Lọc nhiễu: Tín hiệu gia tốc thường cĩ nhiễu do nhiều yếu tố như mơi trường xung quanh cĩ nhiều vật thể làm bằng kim loại hoặc cảm biến tự sinh ra nhiễu. Vì vậy, các tín hiệu cần được lọc để giảm nhiễu. NCS áp dụng bộ lọc thơng thấp/cao và bộ lọc Kalman [95] (như minh họa trong hình 3.10). Để tránh độ trễ, mỗi chuỗi dữ liệu được chuyển qua bộ lọc hai lần, một lần theo hướng thuận và một lần theo hướng ngược lại.
Hình 3.10. Bộ lọc thơng thấp/cao và bộ lọc Kalman
Lựa chọn khớp xương trên dữ liệu khung xương: Dữ liệu khung xương được thu thập bởi camera Kinect bao gồm tổng cộng 20 khớp xương. Tuy nhiên, một tập hợp con các khớp phù hợp cĩ thể đại diện cho hầu hết các thơng tin của tư thế cơ thể. Lý do chính là do vị trí của các khớp khác phụ thuộc vào vị trí của các khớp đại diện. Ví dụ, vị trí của khớp số 2 phụ thuộc vào vị trí của khớp số 1 và số 4. Do đĩ, NCS chỉ sử dụng 10 khớp xương được lựa chọn thủ cơng để đại diện cho khung xương, 10 khớp xương đại diện này bao gồm khớp đầu, hai khuỷu tay, hai cổ tay, hai đầu gối, hai mắt cá chân và khớp giữa hơng. Hình 3.11 và Bảng 3.8 minh họa một khung xương hồn chỉnh với các khớp xương được đánh số trong đĩ các khớp xương được chọn được đánh dấu bằng màu vàng.
Hình 3.11. Khung xương với các khớp xương được đánh số