Dữ liệu thu thập được gán nhãn bằng cách sử dụng cơng cụ gán nhãn ELAN [36] vì cơng cụ này cĩ thể cung cấp các định nghĩa nhãn đa cấp. Các vận động được nhĩm thành hai nhĩm: Ngã và Khơng phải ngã (xem bảng 2.2).
Bảng 2.2. Các vận động ngã và khơng phải ngã
Mức độ cao Ngã (Fall) Khơng phải ngã (Non-fall) (High-level)
Ngã về phía trước (260) Ngồi (260)
Ngã về phía sau (260) Ngồi sau đĩ nằm (260) Ngã về bên trái (260) Nằm từ từ (260) Mức độ thấp Ngã về bên phải (260) Nhảy (520) (Low-level) Ngã khi lên cầu thang (260) Đá (520)
Ngã khi xuống cầu thang Đi lên cầu thang (520) Ngã trong khi đi bộ (260) Đi xuống cầu thang (520)
2.6.2.2. Phân đoạn và thiết lập các tham số cho mơ hình học máy
a. Phân đoạn
Khi thu nhận dữ liệu, dữ liệu cảm biến được sinh ra liên tục theo thời gian (như các dịng dữ liệu) nên cần phải được phân đoạn thành các cửa sổ trượt để trích chọn đặc trưng. Từ nghiên cứu [117], NCS chọn độ dài cửa sổ 2 giây là phù hợp trong việc phát hiện ngã và nhận dạng hoạt động ở người, độ dài 2 giây cĩ thể giúp bao quát được tồn bộ hoạt động và cũng cĩ thể tránh được sự chậm chễ khơng cần thiết từ việc xử lý liên tục theo thời gian thực. Sau khi phân đoạn, các đặc trưng được tính tốn từ các cửa sổ trượt để phát hiện ngã. NCS đã phát triển một chương trình phát hiện sự kiện cĩ tên “Event detector” cĩ chức năng phát hiện trong số các cửa sổ trượt thì cửa sổ nào cĩ xác suất cao chứa sự kiện ngã, chương trình sẽ dựa trên ngưỡng đơn giản để phát hiện các sự kiện ngã tiềm năng từ các cửa sổ trượt (ngưỡng dựa trên đặc trưng năng lượng được tính tốn và được ước tính thơng qua thử nghiệm trên một tập con của tập dữ liệu tự thu thập của NCS và đồng sự). Chỉ các cửa số trượt cĩ chứa sự kiện ngã mới được đưa sang bước tiếp theo để trích xuất đặc trưng.
b. Thiết lập các tham số cho mơ hình học máy
Với các thử nghiệm nhỏ và qua nghiên cứu [76], NCS sử dụng SVM trong LibSVM [16] với hàm RBF, tham số C và gamma của SVM đã được chọn bởi một thủ tục tìm kiếm lưới (đây là thủ tục tìm kiếm để xác định tham số tối ưu cho SVM) trên một tập con của tập dữ liệu do NCS và đồng sự tiến hành thu thập.
Các tham số của RF được NCS thiết lập như sau: Tiêu chí tách được thiết lập để đạt được thơng tin; chiều sâu tối đa là 7 với độ tin cậy là 0,16; N = 50 là số cây quyết định trong RF, các giá trị này được chọn theo phương pháp kinh nghiệm thơng qua các thử nghiệm nhỏ và quy trình xác thực chéo 4 lần trên một tập con của tập dữ liệu đã thu thập. Trong các thử nghiệm để lựa chọn tham số như thể hiện trong hình 2.7, với N từ 2 đến 50, hiệu suất phát hiện của RF tăng lên nhanh chĩng, tuy nhiên với N từ 51 đến 1000, hiệu suất phát hiện của RF khơng tăng lên đáng kể, tuy nhiên thời gian thực hiện lại tăng lên khá nhiều. Để cân bằng giữa hiệu suất và thời gian
thực hiện, đáp ứng được yêu cầu của một hệ thống phát hiện ngã theo thời gian thực, NCS quyết định chọn N=50 là tối ưu.