Thực nghiệm 2

Với mơ hình thực nghiệm 2 đƣợc phát triển từ mơ hình thực nghiệm 1 sử dụng code và dữ liệu của mơ hình thực nghiệm 1 và tiến hành triển khai

mơi trƣờng Spark bằng GoogleColab, sau khi triển khai mơi trƣờng Spark cho thuật tốn Nạve Bayes kết hợp với bài tốn dự báo khả năng hỏng của đĩa cứng máy tính trên mơi trƣờng Spark.

- Bƣớc 1: Triển khai mơi trƣờng Spark bằng GoogleColab

Hình 3.13: Triển khai mơi trƣờng Spark bằng googlecolab

- Bƣớc 2: Import các thƣ viện, mơi trƣờng Spark và thuật tốn Nạve Bayes

Hình 3.14: Import thƣ viện và mơi trƣờng spark

- Bƣớc 3: Tiến hành quá trình học máy cho dữ liệu huấn luyện (data training) và dữ liệu kiểm tra (data testing).

Hình 3.15: Cho máy học training data và testing data

- Bƣớc 4: Triển khai code Áp dụng thuật tốn Nạve Bayes cho bài tốn dự báo ổ cứng hỏng để đƣa ra kết quả

Hình 3.16: Triển khai áp dụng thuật tốn Nạve Bayes

Sau khi triển khai mơ hình thực nghiệm 2 thu đƣợc kết quả nhƣ sau: - Thứ nhất: Kết quả thu đƣợc từ việc đếm tổng số dữ liệu đầu vào và đếm số lƣợng dự đốn lỗi ổ cứng bị thiếu dữ liệu.

0.0 1357 NaN 798 1.0 14

71 2.0 9 4.0 4 12.0 4 3.0 3 6.0 3 7.0 3 36.0 2 18.0 2 8.0 2 9.0 1 24.0 1 31.0 1 30.0 1 21.0 1 39.0 1

Name: smart_187_raw, dtype: int64 0.0 1349 NaN 825 2.0 13 1.0 8 6.0 7 3.0 4 12.0 4 4.0 3 7.0 1 24.0 1 33.0 1 78.0 1 8.0 1

72 5.0 1 9.0 1 11.0 1 18.0 1 17.0 1 27.0 1

Name: smart_187_raw, dtype: int64

Num mislabeled pts out of total 2224 points: 128

Num missed failed hard drive predictions: 115; 5.17086330935% out of total Percent accuracy: 94.24460431654677%

* Nhƣ vậy, qua kết quả thu đƣợc trong tổng số 2224 điểm thì cĩ 128 điểm bị dán nhãn sai và 115 điểm bị trống dữ liệu chiếm tỷ lệ 5.17086330935%. Từ đĩ cho ra kết quả chính xác đến 94.24460431654677%.

Hình 3.17: Kết quả thu đƣợc từ đếm tổng số dữ liệu đầu vào và đếm số lƣợng dự đốn lỗi ổ cứng bị thiếu dữ liệu trên Spark.

- Thứ 2: Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART.

High priority predicted drives (Ổ đĩa cĩ dự đốn lỗi cao): (1083, [8.0, 20.0, 2.0, 5.0, 24.0, 24.0])

(2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (2192, [0.0, 8.0, 6.0, 1.0, 8.0, 8.0])

(1249, [16.0, 3.0, 2.0, 0.0, 8.0, 8.0])

// Kết quả của việc sắp xếp theo số lƣợng các giá trị SMART > 0

Medium priority predicted drives (Ổ đĩa cĩ dự đốn lỗi trung bình): (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0])

(575, [3960.0, 9.0, 0.0, 0.0, 32.0, 32.0]) (775, [0.0, 4.0, 0.0, 1.0, 960.0, 960.0]) (359, [1688.0, 7.0, 24.0, 0.0, 40.0, 40.0]) (1333, [1416.0, 8.0, 0.0, 0.0, 32.0, 32.0])

// Kết quả của việc sắp xếp theo tổng các giá trị SMART trừ SMART 12 (tại chỉ số 1 của tập dữ liệu testing).

Low priority predicted drives (Ổ đĩa cĩ dự đốn lỗi thấp): (8, [0.0, 1.0, -1.0, -1.0, 200.0, 0.0])

(998, [41.0, 1.0, 0.0, 0.0, 8.0, 8.0])

(2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (1782, [0.0, 2.0, 1.0, 0.0, 16.0, 16.0])

(1873, [8.0, 2.0, 6.0, 0.0, 0.0, 0.0])

// Kết quả của việc sắp xếp theo tính chu kỳ điện (SMART 12) 12 (tại chỉ số 1 của tập dữ liệu testing).

Num mislabeled pts out of total 2224 points: 106 Percent accuracy: 95.23381294964028%

Hình 3.18: Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART trên mơi trƣờng Spark.

Kết luận: Qua tiến hành thực nghiệm mơ hình 2, ta nhận thấy việc áp dụng thuật tốn Nạve Bayes trong bài tốn dự báo khả năng hỏng của đĩa cứng trên mơi trƣờng pandas cho ra kết quả khá khả quan. Độ chính xác của của 2 cách phân loại lỗi lần lƣợt là 94.24460431654677% và

95.23381294964028% trong khoảng thời gian 0:00:00.028065.

Thành phần của Apache Spark

Một số kiểu mơ hình NạveBayes