Với mơ hình thực nghiệm 1, Tơi sẽ tiến hành cho thuật tốn Nạve Bayes kết hợp với bài tốn dự báo khả năng hỏng của đĩa cứng máy tính trên mơi trƣờng Pandas.
Mơ hình thực nghiệm 1 đƣợc triển khai nhƣ sau:
- Bƣớc 1: Import thƣ viện, mơi trƣờng Pandas và thuật tốn Nạve Bayes. Tiến hành cho máy học dữ liệu training và dữ liệu test.
Hình 3.5 Inport thƣ viện, mơi trƣờng và thuật tốn Nạve Bayes.
63
Hình 3.6: Đọc và kiểm tra data training và data testing.
- Bƣớc 3: Đếm tổng số dữ liệu đầu vào và đếm số lƣợng dự đốn lỗi ổ cứng bị thiếu dữ liệu.
Hình 3.7: Đếm tổng số data và số lƣợng data dự đốn lỗi ổ cứng bị thiếu.
- Bƣớc 4: Sắp xếp các giá trị Smart > 0 để đƣa ra nhận định các ổ cứng này cĩ mức độ bị hỏng cao
Hình 3.8: Sắp xếp các giá trị SMART > 0.
- Bƣớc 5: Sắp xếp theo tổng các giá trị SMART trừ giá trị SMART 12 để dự đốn ổ đĩa cĩ mức độ ƣu tiên trung bình.
64
Hình 3.9: Sắp xếp theo tổng các giá trị SMART trừ SMART 12.
- Bƣớc 6: Sắp xếp theo chu kỳ điện SMART 12 để dự đốn ổ đĩa cĩ mức độ ƣu tiên thấp.
Hình 3.10: Sắp theo chu kỳ điện SMART 12.
Sau khi triển khai mơ hình thực nghiệm 1 thu đƣợc kết quả nhƣ sau: - Thứ nhất: kết quả thu đƣợc từ việc đếm tổng số dữ liệu đầu vào và đếm số lƣợng dự đốn lỗi ổ cứng bị thiếu dữ liệu.
0.0 1357 NaN 798 1.0 14 2.0 9 4.0 4 12.0 4 3.0 3 6.0 3 7.0 3 36.0 2 18.0 2 8.0 2 9.0 1 24.0 1 31.0 1 30.0 1 21.0 1
65
39.0 1
Name: smart_187_raw, dtype: int64 0.0 1349 NaN 825 2.0 13 1.0 8 6.0 7 3.0 4 12.0 4 4.0 3 7.0 1 24.0 1 33.0 1 78.0 1 8.0 1 5.0 1 9.0 1 11.0 1 18.0 1 17.0 1 27.0 1
Name: smart_187_raw, dtype: int64
Num mislabeled pts out of total 2224 points: 128
Num missed failed hard drive predictions: 115; 5.17086330935% out of total Percent accuracy: 94.24460431654677%
* Nhƣ vậy, qua kết quả thu đƣợc trong tổng số 2224 điểm thì cĩ 128 điểm bị dán nhãn sai và 115 điểm bị trống dữ liệu chiếm tỷ lệ 5.17086330935%. Từ đĩ cho ra kết quả chính xác đến 94.24460431654677%.
66
Hình 3.11: Kết quả thu đƣợc từ đếm tổng số dữ liệu đầu vào và đếm số lƣợng dự đốn lỗi ổ cứng bị thiếu dữ liệu.
- Thứ 2: Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART.
High priority predicted drives (Ổ đĩa cĩ dự đốn lỗi cao): (1083, [8.0, 20.0, 2.0, 5.0, 24.0, 24.0])
(1614, [24.0, 15.0, 9.0, 0.0, 24.0, 24.0]) (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (2192, [0.0, 8.0, 6.0, 1.0, 8.0, 8.0])
67
// Kết quả của việc sắp xếp theo số lƣợng các giá trị SMART > 0
Medium priority predicted drives (Ổ đĩa cĩ dự đốn lỗi trung bình): (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0])
(575, [3960.0, 9.0, 0.0, 0.0, 32.0, 32.0]) (775, [0.0, 4.0, 0.0, 1.0, 960.0, 960.0]) (359, [1688.0, 7.0, 24.0, 0.0, 40.0, 40.0]) (1333, [1416.0, 8.0, 0.0, 0.0, 32.0, 32.0])
// Kết quả của việc sắp xếp theo tổng các giá trị SMART trừ SMART 12 (tại chỉ số 1 của tập dữ liệu testing).
Low priority predicted drives (Ổ đĩa cĩ dự đốn lỗi thấp): (8, [0.0, 1.0, -1.0, -1.0, 200.0, 0.0])
(998, [41.0, 1.0, 0.0, 0.0, 8.0, 8.0])
(2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (1782, [0.0, 2.0, 1.0, 0.0, 16.0, 16.0])
(1873, [8.0, 2.0, 6.0, 0.0, 0.0, 0.0])
// Kết quả của việc sắp xếp theo tính chu kỳ điện (SMART 12) 12 (tại chỉ số 1 của tập dữ liệu testing).
Num mislabeled pts out of total 2224 points: 106 Percent accuracy: 95.23381294964028%
68
* Nhƣ vậy, thơng qua việc sắp xếp theo các giá trị SMART cho ra kết quả: Trong tổng số 2224 điểm thì cĩ 106 điểm bị dán nhãn sai, cho ra kết quả chính xác lên đến 95.23381294964028%
Hình 3.12: Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART.
Kết luận: Qua tiến hành thực nghiệm mơ hình 1, ta nhận thấy việc áp dụng thuật tốn Nạve Bayes trong bài tốn dự báo khả năng hỏng của đĩa cứng trên mơi trƣờng pandas cho ra kết quả khá khả quan. Độ chính xác của của 2 cách phân loại lỗi lần lƣợt là 94.24460431654677% và
95.23381294964028% trong khoảng thời gian 0:00:19.879193.