- Dữ liệu thu được từ gia tốc kế qua lọc nhiễu và đổi trục sẽ tính được 6 thơng số đặc trưng theo cơng thức (3.13) - (3.19) bao gồm :
Năng lượng gia tốc ngang(hE)
Năng lượng gia tốc dọc (vE)
Độ đo di động ngang (hM)
Độ đo di động dọc (vM)
Độ đo phức hợp ngang (hC)
Độ đo phức hợp dọc (vC)
Sau khi thu được dữ liệu gia tốc kế với từng hành vi cụ thể, vì bộ dữ liệu gia tốc thu từ 4 hành động dung lượng lớn nên ta xây dựng một chương trình java chạy trên máy tính “HAR_ Features” tính tốn 6 thơng số đặc trưng từ các file lưu dữ liệu gia tốc thu được ở trên theo cơng thức từ (3.5) đến (3.19). Chương trình sẽ trả về cho ta file định dạng .csv gồm 6 đặc trưng và nhãn hành vi tương ứng (hình 4.4).Quá trình thu thập xây dựng dữ liệu được thể hiện như hình 4.5
Hình 4.5: Mơ tả quá trình tính tốn 6 thơng số đặc trưng
4.3 Huấn luyện mơ hình
Trong nghiên cứu này sẽ thực hiện thực nghiệm sử dụng các mơ hình học máy sau: k-NN, Random Forest và Nạve Bayes. Quá trình huấn luyện các mơ hình được thực hiện như sau:
Bước 1: Chọn dữ liệu
Bước 2: Chọn mơ hình
Bước 3: Chỉnh các tham số của mơ hình
Bước 4: Chạy huấn luyện
Bước 5: Quay lại bước 3 nếu kết quả chưa tốt
Bước 6: Lấy ra được mơ hình
Kết quả cho ra mơ hình huấn luyện với các tham số tối ưu. Việc tìm ra được các tham số tối ưu là rất quan trọng. Nĩ ảnh hưởng lớn đến độ chính xác của mơ hình để đưa ra kết quả chính xác cao hay khơng. Quá trình huấn luyện mơ hình được thực hiện
Tín hiệu gia tốc(cửa sổ 1 giây) [trục x, trục y, trục z]
Phép tính độ nghiêng bất biến
Tín hiệu gia tốc(cửa sổ 1 giây) [ngang, dọc]
Vectơ đặc trưng (cửa sổ 1 giây): - Năng lượng gia tốc ngang - Năng lượng gia tốc dọc - Độ do di động ngang - Độ đ di động dọc - Độ đo phức hợp ngang - Độ đo phức hợp dọc Chuyển hệ trục tọa độ [trục x, trục y, trục z]
*Huấn luyện với mơ hình k-NN
Các tham số chính k-NN khi huấn luyện bằng Weka
Hình 4.6: Các tham số huấn luyện mơ hình k-NN
- KNN: số láng giềng sử dụng. Đây là tham số quan trọng nhất được hiệu chỉnh trong quá trình huấn luyện.
- crossValidate: cross-validation sẽ được sử dụng để tìm ra giá trị k tốt nhất - distanceWeighting: lấy ra khoảng cách trọng số phương pháp sử dụng - nearestNeighbourSearchAlgorithm: Lựa chọn thuật tốn
- windowSize: đưa ra số lượng lớn nhất các instances sử dụng training. Để là 0 thì khơng hạn chế số lượng.
Bảng kết quả các lần quá trình huấn luyện: Ở đây chỉ thay đổi các tham số cĩ tác động đến kết quả quá trình huấn luyện. Trong quá trình huấn luyện nếu tham số nào nhận thấy khơng tác động đến kết quả thì sẽ bỏ qua (thay bằng ký tự “-”).
Bảng 4.1: Kết quả huấn luyện của mơ hình k-NN
TT KNN Cross Validate Distance Weighting Mean Squared
Nearest Neighbour Search Algorithm Window Size Correctly
1 1 False No False Linear 0 69.04%
2 1 True No False Linear 0 69.04%
3 1 - 1/distance False Linear 0 69.04%
4 1 - - True Linear 0 69.04%
5 1 - - - BallTree 0 69.04%
6 2 False No False Linear 0 71.00%
7 2 True No False Linear 0 70.27%
8 2 False 1/distance False Linear 0 69.04%
9 3 False No False Linear 0 72.23%
10 4 False No False Linear 0 73.21%
11 5 False No False Linear 0 73.21%
12 8 False No False Linear 0 74.21%
Qua quá trình huấn luyện ta thấy với mơ hình K-NN thì với 10 “láng giềng” sẽ cho kết quả tốt nhất là 74.93%.
*Huấn luyện với mơ hình Nạve Bayes
Các tham số Nạve Bayes khi huấn luyện bằng Weka
Hình 4.7: Các tham số huấn luyện mơ hình Nạve Bayes
Trong mơ hình này ta tập trung vào 2 tham số:
- useKernelEstimator: Sử dụng hàm ước lượng thay cho phân phối bình thường - useSupervisedDiscretization: Sử dụng rời rạc hĩa cĩ giám sát để chuyển đổi các thuộc tính số về dạng chuẩn hĩa.
Kết quả quá trình huấn luyện
Bảng 4.2: Kết quả huấn luyện của mơ hình Nạve Bayes
TT useKernelEstimator useSupervisedDiscretization Correctly
1 False False 61.67 %
2 True False 66.09%
3 False True 72.73%
*Huấn luyện mơ hình Random forest
Các tham số huấn luyện
Hình 4.8: Các tham số huấn luyện mơ hình Random forest
-maxDepth :chiều sâu cực đại của các cây. 0 khơng hạn chế chiều sâu - numFeatures : Số các thuộc tính sử dụng trong lựa chọn ngẫu nhiên -numTrees : Tổng số cây được sinh ra
-seed: số con ngẫu nhiên được sử dụng
Bảng kết quả quá trình huấn luyện với các tham số
Bảng 4.3: Kết quả huấn luyện của mơ hình Random forest
TT maxDepth numFeatures numTrees seed Correctly
1 0 0 10 1 77.40% 2 1 0 10 1 67.56% 3 0 1 10 1 72.97% 4 0 0 11 1 75.92% 5 0 0 10 2 77.14% 6 0 0 10 0 76.41%