Ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN VÕ CHÍ CƯỜNG ỨNG DỤNG MƠ HÌNH HỌC MÁY NAIVE BAYES •• TRÊN MƠI TRƯỜNG SPARK CHO BÀI TỐN DỰ BÁO KHẢ NĂNG HỎNG CỦA ĐĨA CỨNG MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 8480101 Người hướng dẫn: TS Hồ Văn Lâm LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Ứng dụng mơ hình học máy Naive Bayes mơi trường Spark cho tốn dự báo khả hỏng đĩa cứng máy tính” kết tự thân tơi tìm hiểu, nghiên cứu Các số liệu, dẫn chứng tài liệu tham khảo trích dẫn thích đầy đủ Tơi xin chịu trách nhiệm luận văn LỜI CẢM ƠN Qua trình học tập thời gian nghiên cứu làm luận văn, trước tiên xin gửi lời cảm ơn chân thành đến Thầy Cô giáo tham gia tổ chức, đạo trực tiếp giảng dạy suốt khóa học vừa qua Đặc biệt, xin gửi lời cảm ơn sâu sắc đến Thầy giáo hướng dẫn TS Hồ Văn Lâm, người tận tình bảo, góp ý, giúp đỡ tạo điều kiện để tơi hồn thành luận văn Cũng qua đây, tơi xin gửi lời cảm ơn đến anh chị học viên lớp cao học Khoa học máy tính khóa trước giúp đỡ tơi nhiều q trình học tập nghiên cứu Cuối cùng, xin gửi lời cảm ơn đến gia đình bạn bè ln giúp đỡ, ủng hộ tơi suốt q trình học tập, nghiên cứu hoàn thành luận văn Trong thời gian qua cố gắng tập trung nghiên cứu tìm hiểu để hồn thành thật tốt luận văn chắn cịn nhiều thiếu sót mong nhận bảo Thầy Cô giáo để luận văn hoàn thiện MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ••7 r rri /V• Thuật ngữ /V J Tên viết Cơ sở liệu CSDL Ý nghĩa Cơ sở liệu CNTT Công nghệ thông tin Cơng nghệ thơng tin AI Artificial Intelligence Trí tuệ nhân tạo Tập hợp item phân RDD Resilient Distributed DataSet tán node Đồ thị khơng chu trình có DAG Directed Acyclic Graph hướng Hệ thống lưu trữ tập tin HDFS Hadoop Distributed File System Hadoop DANH MỤC CÁC BẢNG • DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU 1.1Lý chọn đề tài Trong giới kỹ thuật số, sở hạ tầng vật lý thiết bị xương sống nhiều quan, doanh nghiệp Dự báo thiết bị hỏng từ lâu mục tiêu cho người chịu trách nhiệm quản lý hiệu suất tài sản, tiến công nghệ cảm biến, công nghệ truyền thông, quản lý thông tin phân tích hướng tích cực cho việc dự báo độ hư hỏng thiết bị Không phải tất liệu có giá trị nói đến việc dự đốn thiết bị hỏng, điều quan trọng phải xác định liệu cần thiết để quản lý thiết bị hỏng Dữ liệu sử dụng cơng cụ phân tích tiên tiến để dự đốn hư hỏng là, dịng thời gian sản xuất, điều kiện thiết bị liệu kiện sử dụng để kiểm soát theo dõi quy trình vật lý Đầu tư vào khoa học liệu kỹ phân tích tiên tiến với tập trung vào quản lý thiết bị, dự đoán giúp hỗ trợ nỗ lực cải tiến liên tục cho tổ chức công nghệ thông tin, tình trạng đầu tư doanh nghiệp, sau giúp đảm bảo dự án thành công quan trọng xây dựng khả đáp ứng yêu cầu cần thiết quan, doanh nghiệp Với tiến công cụ phân tích để dự báo thiết bị hỏng, tránh khỏi tổ chức với thiết bị quan trọng nhiệm vụ đầu tư phân tích nâng cao để giúp đảm bảo hoạt động an toàn đáng tin cậy Một công cụ mà luận văn hướng đến nghiên cứu thuật tốn Naive Bayes mơi trường Spark Đề tài nghiên cứu “Ứng dụng mơ hình học máy Naive Bayes mơi trường Spark cho tốn dự báo khả hỏng đĩa cứng máy tính” nhằm cài đặt ứng dụng mơ hình học máy Naive Bayes để dự báo việc đĩa cứng máy tính bị hỏng nhằm tránh khỏi việc bị động 10 việc quản lý đĩa cứng máy tính bị hư hỏng ngồi dự đốn nhà quản lý Đó mục tiêu then chốt để hướng đến nghiên cứu đề tài 1.2Tổng quan tình hình nghiên cứu đề tài Naive Bayes thuật toán dựa định luật Bayes lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê Thuật toán Naive Bayes ứng dụng nhiều lĩnh vực học máy dùng để đưa dự đốn xác dựa tập liệu thu thập, dễ hiểu có độ xác cao [8] Định luật Bayes phát biểu sau: _ P(B|A) X P (A) P(A|B) = ( P(BP ( Trong đó: - P(A|B) xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy - P(B|A) xác suất xảy B biết A xảy - P(A) xác suất xảy riêng A mà không quan tâm đến B - P(B) xác suất xảy riêng B mà không quan tâm đến A Một số mơ hình áp dụng thuật tốn Naive Bayes [5] - Multinomial model (Mơ hình đa thức) - Binary independence model (Mơ hình độc lập nhị phân) - Poisson Naive Bayes Model - Connection between Poisson and Multinomial Model - Multinomial word model - Negative binomial Naive Bayes Model Để xây dựng mơ hình cho toán dự báo việc hư hỏng đĩa cứng máy tính Spark dự án phần mềm mã nguồn mở phát triển Apache, nhằm thu giá trị có ích từ khối lượng, tốc độ tính đa dạng 0.0 1349 NaN 825 2.0 13 1.0 6.0 3.0 12.0 4.0 7.0 24.0 33.0 78.0 8.0 5.0 9.0 11.0 18.0 17.0 27.0 Name: smart_187_raw, dtype: int64 Num mislabeled pts out of total 2224 points: 128 Num missed failed hard drive predictions: 115; 5.17086330935% out of total Percent accuracy: 94.24460431654677% * Như vậy, qua kết thu tổng số 2224 điểm có 128 điểm bị dán nhãn sai 115 điểm bị trống liệu chiếm tỷ lệ 5.17086330935% Từ cho kết xác đến 94.24460431654677% 0.0 NaN 1.0 2.0 4.0 12.0 3.0 6.0 7.0 36.0 1357 798 14 4 3 18.0 9.0 24.0 31.0 30.0 21.0 39.0 Name: smart_187_raWj dtype: Ĩnt64 1349 0.0 NaN 2.0 825 13 1.0 6.0 12.0 4 4.0 7.0 24.0 33.0 78.0 1 1 8.0 5.0 9.0 11.0 18.0 17.0 27.0 Name: smart 187 rawJ dtype: int64 Num mislabeled pts out of total 2224 points: 128 Num missed failed hard drive predictions: 115; 5.17086330935% out of total Percent accuracy: 94.24468431654677% Hình 3.11: Kết thu từ đếm tổng số liệu đầu vào đếm số lượng dự đoán lỗi ổ cứng bị thiếu liệu - Thứ 2: Kết thu từ việc xếp giá trị SMART High priority predicted drives (Ổ đĩa có dự đốn lỗi cao): (1083, [8.0, 20.0, 2.0, 5.0, 24.0, 24.0]) (1614, [24.0, 15.0, 9.0, 0.0, 24.0, 24.0]) (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (2192, [0.0, 8.0, 6.0, 1.0, 8.0, 8.0]) (1249, [16.0, 3.0, 2.0, 0.0, 8.0, 8.0]) // Kết việc xếp theo số lượng giá trị SMART > Medium priority predicted drives (Ổ đĩa có dự đốn lỗi trung bình): (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (575, [3960.0, 9.0, 0.0, 0.0, 32.0, 32.0]) (775, [0.0, 4.0, 0.0, 1.0, 960.0, 960.0]) (359, [1688.0, 7.0, 24.0, 0.0, 40.0, 40.0]) (1333, [1416.0, 8.0, 0.0, 0.0, 32.0, 32.0]) // Kết việc xếp theo tổng giá trị SMART trừ SMART 12 (tại số tập liệu testing) Low priority predicted drives (Ổ đĩa có dự đốn lỗi thấp): (8, [0.0, 1.0, -1.0, -1.0, 200.0, 0.0]) (998, [41.0, 1.0, 0.0, 0.0, 8.0, 8.0]) (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (1782, [0.0, 2.0, 1.0, 0.0, 16.0, 16.0]) (1873, [8.0, 2.0, 6.0, 0.0, 0.0, 0.0]) // Kết việc xếp theo tính chu kỳ điện (SMART 12) 12 (tại số tập liệu testing) Num mislabeled pts out of total 2224 points: 106 Percent accuracy: 95.23381294964028% * Như vậy, thông qua việc xếp theo giá trị SMART cho kết quả: Trong tổng số 2224 điểm có 106 điểm bị dán nhãn sai, cho kết xác lên đến 95.23381294964028% Hình 3.12: Kết thu từ việc xếp giá trị SMART Kết luận: Qua tiến hành thực nghiệm mơ hình 1, ta nhận thấy việc áp dụng thuật toán Naive Bayes toán dự báo khả hỏng đĩa cứng môi trường pandas cho kết khả quan Độ xác của cách phân loại lỗi 94.24460431654677% 95.23381294964028% khoảng thời gian 0:00:19.879193 3.2.2 Thực nghiệm Với mơ hình thực nghiệm phát triển từ mơ hình thực nghiệm sử dụng code liệu mơ hình thực nghiệm tiến hành triển khaimôi trường Spark GoogleColab, sau triển khai mơi trường Spark cho thuật tốn Naive Bayes kết hợp với toán dự báo khả hỏng đĩa cứng máy tính mơi trường Spark - Bước 1: Triển khai mơi trường Spark GoogleColab Hình 3.13: Triển khai môi trường Spark googlecolab - Bước 2: Import thư viện, mơi trường Spark thuật tốn Naive Bayes Hình 3.14: Import thư viện mơi trường spark - Bước 3: Tiến hành trình học máy cho liệu huấn luyện (data training) liệu kiểm tra (data testing) Hình 3.15: Cho máy học training data testing data - Bước 4: Triển khai code Áp dụng thuật toán Naive Bayes cho toán dự báo ổ cứng hỏng để đưa kết Hình 3.16: Triển khai áp dụng thuật toán Naive Bayes Sau triển khai mơ hình thực nghiệm thu kết sau: - Thứ nhất: Kết thu từ việc đếm tổng số liệu đầu vào đếm số lượng dự đoán lỗi ổ cứng bị thiếu liệu 0.0 Na N 1.0 135 77 98 14 2.0 4.0 12 3.0 6.0 7.0 36 18 8.0 2 9.0 24 31 30 21 39 Name: smart_187_raw 0.0 1349 Na 825 N 2.0 13 1.0 6.0 3.0 12 4.0 7.0 24 33 78 8.0 1 1 5.0 dtype: int64 9.0 11.0 18.0 17.0 27.0 Name: smart_187_raw, dtype: int64 Num mislabeled pts out of total 2224 points: 128 Num missed failed hard drive predictions: 115; 5.17086330935% out of total Percent accuracy: 94.24460431654677% * Như vậy, qua kết thu tổng số 2224 điểm có 128 điểm bị dán nhãn sai 115 điểm bị trống liệu chiếm tỷ lệ 5.17086330935% Từ cho kết xác đến 94.24460431654677% Hình 3.17: Kết thu từ đếm tổng số liệu đầu vào đếm số lượng dự đoán lỗi ổ cứng bị thiếu liệu Spark - Thứ 2: Kết thu từ việc xếp giá trị SMART High priority predicted drives (Ổ đĩa có dự đốn lỗi cao): (1083, [8.0, 20.0, 2.0, 5.0, 24.0, 24.0]) (1614, [24.0, 15.0, 9.0, 0.0, 24.0, 24.0]) (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (2192, [0.0, 8.0, 6.0, 1.0, 8.0, 8.0]) (1249, [16.0, 3.0, 2.0, 0.0, 8.0, 8.0]) // Kết việc xếp theo số lượng giá trị SMART > Medium priority predicted drives (Ổ đĩa có dự đốn lỗi trung bình): (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (575, [3960.0, 9.0, 0.0, 0.0, 32.0, 32.0]) (775, [0.0, 4.0, 0.0, 1.0, 960.0, 960.0]) (359, [1688.0, 7.0, 24.0, 0.0, 40.0, 40.0]) (1333, [1416.0, 8.0, 0.0, 0.0, 32.0, 32.0]) // Kết việc xếp theo tổng giá trị SMART trừ SMART 12 (tại số tập liệu testing) Low priority predicted drives (Ổ đĩa có dự đoán lỗi thấp): (8, [0.0, 1.0, -1.0, -1.0, 200.0, 0.0]) (998, [41.0, 1.0, 0.0, 0.0, 8.0, 8.0]) (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (1782, [0.0, 2.0, 1.0, 0.0, 16.0, 16.0]) (1873, [8.0, 2.0, 6.0, 0.0, 0.0, 0.0]) // Kết việc xếp theo tính chu kỳ điện (SMART 12) 12 (tại số tập liệu testing) Num mislabeled pts out of total 2224 points: 106 Percent accuracy: 95.23381294964028%

Ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Thông tin tài liệu

Từ khóa liên quan

Mục lục

LỜI CAM ĐOAN

LỜI CẢM ƠN

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

• • 7

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

MỞ ĐẦU

CHƯƠNG 1: KIẾN THỨC TỔNG QUAN

1.1.1. Học máy là gì?

1.1.3. Phương thức hoạt động của học máy

1.1.4. Ứng dụng của học máy

Xử lý hình ảnh

Trò chơi điện tử và robot

Phân tích văn bản

1.2.1 Tổng quan về mô hình MapReduce

reduce (k2, list (v2)) -> list (v3)

1.2.3 Một số bài toán ứng dụng mô hình MapReduce [6]

1.3.1 Tổng quan

Những tính năng nổi bật

1.3.2 Thành phần của Apache Spark

1.3.3 Quản lý bộ nhớ của Apache Spark

Tài liệu cùng người dùng

Tài liệu liên quan