Xây dựng bộ dữ liệu huấn luyện

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu mô hình học máy giải quyết bài toán dự đoán dự báo ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến (Trang 48 - 53)

- Dữ liệu thu được từ gia tốc kế qua lọc nhiễu và đổi trục sẽ tính được 6 thơng số đặc trưng theo cơng thức (3.13) - (3.19) bao gồm :

 Năng lượng gia tốc ngang(hE)

 Năng lượng gia tốc dọc (vE)

 Độ đo di động ngang (hM)

 Độ đo di động dọc (vM)

 Độ đo phức hợp ngang (hC)

 Độ đo phức hợp dọc (vC)

Sau khi thu được dữ liệu gia tốc kế với từng hành vi cụ thể, vì bộ dữ liệu gia tốc thu từ 4 hành động dung lượng lớn nên ta xây dựng một chương trình java chạy trên máy tính “HAR_ Features” tính tốn 6 thơng số đặc trưng từ các file lưu dữ liệu gia tốc thu được ở trên theo cơng thức từ (3.5) đến (3.19). Chương trình sẽ trả về cho ta file định dạng .csv gồm 6 đặc trưng và nhãn hành vi tương ứng (hình 4.4).Quá trình thu thập xây dựng dữ liệu được thể hiện như hình 4.5

Hình 4.5: Mơ tả quá trình tính tốn 6 thơng số đặc trưng

4.3 Huấn luyện mơ hình

Trong nghiên cứu này sẽ thực hiện thực nghiệm sử dụng các mơ hình học máy sau: k-NN, Random Forest và Nạve Bayes. Quá trình huấn luyện các mơ hình được thực hiện như sau:

 Bước 1: Chọn dữ liệu

 Bước 2: Chọn mơ hình

 Bước 3: Chỉnh các tham số của mơ hình

 Bước 4: Chạy huấn luyện

 Bước 5: Quay lại bước 3 nếu kết quả chưa tốt

 Bước 6: Lấy ra được mơ hình

Kết quả cho ra mơ hình huấn luyện với các tham số tối ưu. Việc tìm ra được các tham số tối ưu là rất quan trọng. Nĩ ảnh hưởng lớn đến độ chính xác của mơ hình để đưa ra kết quả chính xác cao hay khơng. Quá trình huấn luyện mơ hình được thực hiện

Tín hiệu gia tốc(cửa sổ 1 giây) [trục x, trục y, trục z]

Phép tính độ nghiêng bất biến

Tín hiệu gia tốc(cửa sổ 1 giây) [ngang, dọc]

Vectơ đặc trưng (cửa sổ 1 giây): - Năng lượng gia tốc ngang - Năng lượng gia tốc dọc - Độ do di động ngang - Độ đ di động dọc - Độ đo phức hợp ngang - Độ đo phức hợp dọc Chuyển hệ trục tọa độ [trục x, trục y, trục z]

*Huấn luyện với mơ hình k-NN

Các tham số chính k-NN khi huấn luyện bằng Weka

Hình 4.6: Các tham số huấn luyện mơ hình k-NN

- KNN: số láng giềng sử dụng. Đây là tham số quan trọng nhất được hiệu chỉnh trong quá trình huấn luyện.

- crossValidate: cross-validation sẽ được sử dụng để tìm ra giá trị k tốt nhất - distanceWeighting: lấy ra khoảng cách trọng số phương pháp sử dụng - nearestNeighbourSearchAlgorithm: Lựa chọn thuật tốn

- windowSize: đưa ra số lượng lớn nhất các instances sử dụng training. Để là 0 thì khơng hạn chế số lượng.

Bảng kết quả các lần quá trình huấn luyện: Ở đây chỉ thay đổi các tham số cĩ tác động đến kết quả quá trình huấn luyện. Trong quá trình huấn luyện nếu tham số nào nhận thấy khơng tác động đến kết quả thì sẽ bỏ qua (thay bằng ký tự “-”).

Bảng 4.1: Kết quả huấn luyện của mơ hình k-NN

TT KNN Cross Validate Distance Weighting Mean Squared

Nearest Neighbour Search Algorithm Window Size Correctly

1 1 False No False Linear 0 69.04%

2 1 True No False Linear 0 69.04%

3 1 - 1/distance False Linear 0 69.04%

4 1 - - True Linear 0 69.04%

5 1 - - - BallTree 0 69.04%

6 2 False No False Linear 0 71.00%

7 2 True No False Linear 0 70.27%

8 2 False 1/distance False Linear 0 69.04%

9 3 False No False Linear 0 72.23%

10 4 False No False Linear 0 73.21%

11 5 False No False Linear 0 73.21%

12 8 False No False Linear 0 74.21%

Qua quá trình huấn luyện ta thấy với mơ hình K-NN thì với 10 “láng giềng” sẽ cho kết quả tốt nhất là 74.93%.

*Huấn luyện với mơ hình Nạve Bayes

Các tham số Nạve Bayes khi huấn luyện bằng Weka

Hình 4.7: Các tham số huấn luyện mơ hình Nạve Bayes

Trong mơ hình này ta tập trung vào 2 tham số:

- useKernelEstimator: Sử dụng hàm ước lượng thay cho phân phối bình thường - useSupervisedDiscretization: Sử dụng rời rạc hĩa cĩ giám sát để chuyển đổi các thuộc tính số về dạng chuẩn hĩa.

Kết quả quá trình huấn luyện

Bảng 4.2: Kết quả huấn luyện của mơ hình Nạve Bayes

TT useKernelEstimator useSupervisedDiscretization Correctly

1 False False 61.67 %

2 True False 66.09%

3 False True 72.73%

*Huấn luyện mơ hình Random forest

Các tham số huấn luyện

Hình 4.8: Các tham số huấn luyện mơ hình Random forest

-maxDepth :chiều sâu cực đại của các cây. 0 khơng hạn chế chiều sâu - numFeatures : Số các thuộc tính sử dụng trong lựa chọn ngẫu nhiên -numTrees : Tổng số cây được sinh ra

-seed: số con ngẫu nhiên được sử dụng

Bảng kết quả quá trình huấn luyện với các tham số

Bảng 4.3: Kết quả huấn luyện của mơ hình Random forest

TT maxDepth numFeatures numTrees seed Correctly

1 0 0 10 1 77.40% 2 1 0 10 1 67.56% 3 0 1 10 1 72.97% 4 0 0 11 1 75.92% 5 0 0 10 2 77.14% 6 0 0 10 0 76.41%

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu mô hình học máy giải quyết bài toán dự đoán dự báo ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến (Trang 48 - 53)

Tải bản đầy đủ (PDF)

(58 trang)