Ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

88 14 0
Ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN VÕ CHÍ CƢỜNG ỨNG DỤNG MƠ HÌNH HỌC MÁY NAIVE BAYES TRÊN MƠI TRƢỜNG SPARK CHO BÀI TỐN DỰ BÁO KHẢ NĂNG HỎNG CỦA ĐĨA CỨNG MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 8480101 Ngƣời hƣớng dẫn: TS Hồ Văn Lâm LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Ứng dụng mơ hình học máy Nạve Bayes mơi trƣờng Spark cho tốn dự báo khả hỏng đĩa cứng máy tính” kết tự thân tơi tìm hiểu, nghiên cứu Các số liệu, dẫn chứng tài liệu tham khảo đƣợc trích dẫn thích đầy đủ Tơi xin chịu trách nhiệm luận văn LỜI CẢM ƠN Qua trình học tập thời gian nghiên cứu làm luận văn, trƣớc tiên xin gửi lời cảm ơn chân thành đến Thầy Cô giáo tham gia tổ chức, đạo trực tiếp giảng dạy suốt khóa học vừa qua Đặc biệt, xin gửi lời cảm ơn sâu sắc đến Thầy giáo hƣớng dẫn TS Hồ Văn Lâm, ngƣời tận tình bảo, góp ý, giúp đỡ tạo điều kiện để tơi hồn thành luận văn Cũng qua đây, tơi xin gửi lời cảm ơn đến anh chị học viên lớp cao học Khoa học máy tính khóa trƣớc giúp đỡ tơi nhiều q trình học tập nghiên cứu Cuối cùng, xin gửi lời cảm ơn đến gia đình bạn bè ln giúp đỡ, ủng hộ tơi suốt q trình học tập, nghiên cứu hoàn thành luận văn Trong thời gian qua cố gắng tập trung nghiên cứu tìm hiểu để hồn thành thật tốt luận văn nhƣng chắn cịn nhiều thiếu sót mong đƣợc nhận bảo Thầy Cô giáo để luận văn đƣợc hoàn thiện MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Tổng quan tình hình nghiên cứu đề tài 1.3 Mục tiêu nhiệm vụ nghiên cứu 1.4 Nhiệm vụ nghiên cứu 1.5 Đối tƣợng phạm vi nghiên cứu CHƢƠNG 1: KIẾN THỨC TỔNG QUAN 1.1 Giới thiệu học máy 1.1.1 Học máy gì? 1.1.2 Các thành phần học máy 1.1.3 Phương thức hoạt động học máy 10 1.1.4 Ứng dụng học máy 10 1.2 Mơ hình lập trình MapReduce 12 1.2.1 Tổng quan mơ hình MapReduce 12 1.2.2 Nguyên tắc hoạt động mơ hình MapReduce 15 1.2.3 Một số tốn ứng dụng mơ hình MapReduce [6] 18 1.3 Giới thiệu Spark 18 1.3.1 Tổng quan 18 1.3.2 Thành phần Apache Spark 20 1.3.3 Quản lý nhớ Apache Spark 21 1.3.4 Ứng dụng 23 v 1.4 Kết luận chƣơng 24 CHƢƠNG 2: THUẬT TỐN NẠVE BAYES VÀ BÀI TỐN DỰ BÁO KHẢ NĂNG HỎNG CỦA ĐĨA CỨNG MÁY TÍNH 25 2.1 Thuật tốn Nạve Bayes 25 2.1.1 Khái niệm 25 2.1.2 Mơ hình phân lớp Nạve Bayes 27 2.1.3 Một số kiểu mơ hình Nạve Bayes 28 2.1.4 Ứng dụng thuật toán 29 2.2 Bài toán dự báo đĩa cứng hỏng 30 2.2.1 Tổng quan 30 2.2.2 Giới thiệu S.M.A.R.T 31 2.2.3 Giám sát ổ đĩa cứng 33 2.2.4 Nạve Bayes cho tốn dự báo khả hỏng đĩa cứng 34 2.3 Naïve Bayes theo mơ hình lập trình MapReduce cho tốn dự báo 39 2.4 Thuật tốn Nạve Bayes thực môi trƣờng Spark 41 2.5 Học máy môi trƣờng Spark 55 2.6 Kết luận chƣơng 57 CHƢƠNG 3: THỰC NGHIỆM 58 3.1 Cấu trúc liệu thử nghiệm 58 3.2 Triển khai thực nghiệm 62 3.2.1 Thực nghiệm 62 3.2.2 Thực nghiệm 68 3.3 Đánh giá thuật toán 74 KẾT LUẬN 76 Kết đạt đƣợc luận văn 76 Kiến nghị hƣớng nghiên cứu 76 DANH MỤC TÀI LIỆU THAM KHẢO 78 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Tên viết Thuật ngữ tắt CSDL Cơ sở liệu Ý nghĩa Cơ sở liệu CNTT Công nghệ thông tin Công nghệ thông tin AI Artificial Intelligence Trí tuệ nhân tạo RDD Resilient Distributed DataSet DAG Directed Acyclic Graph HDFS Hadoop Distributed File System Tập hợp item đƣợc phân tán node Đồ thị khơng chu trình có hƣớng Hệ thống lƣu trữ tập tin Hadoop DANH MỤC CÁC BẢNG Bảng 3.1 Mô tả thông số SMART từ thu thập liệu 58 Bảng 3.2 Ví dụ tỉ lệ phần trăm hai đĩa cứng thông qua số liệu thống kê SMART 59 Bảng 3.3: So sánh kết thu đƣợc qua mô hình thực nghiệm mơ hình thực nghiệm 75 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ hình làm việc công việc MapReduce 14 Hình 1.2 Quy trình xử lý MapReduce [6] 16 Hình 1.3 Tỉ lệ sử dụng ngơn ngữ lập trình năm 2014 2015 19 Hình 1.4 Các thành phần Apache Spark [11] 20 Hình 2.1 Giai đoạn Training [3] 26 Hình 2.2 Giai đoạn phân loại [3] 26 Hình 2.3 Mơ tả tập liệu theo định dạng file CSV 35 Hình 2.4 Đọc liệu 36 Hình 2.5 Tính độ lệch chuẩn cho giá trị SMART 36 Hình 2.6 Xử lý liệu 37 Hình 2.7 Tính xác suất biến theo phân phối Gausian 38 Hình 2.8 Dự đốn dựa vào xác suất 38 Hình 2.9 Giai đoạn phân loại [5] 42 Hình 3.1 Dữ liệu mẫu 59 Hình 3.2: Input thƣ viện cho máy học liệu training liệu test môi trƣờng Pandas 60 Hình 3.3: Input thƣ viện cho máy học liệu training liệu test môi trƣờng Spark 61 Hình 3.4: Tập liệu kiểm tra 61 Hình 3.5 Inport thƣ viện, mơi trƣờng thuật tốn Nạve Bayes 62 Hình 3.6: Đọc kiểm tra data training data testing 63 Hình 3.7: Đếm tổng số data số lƣợng data dự đốn lỗi ổ cứng bị thiếu 63 Hình 3.8: Sắp xếp giá trị SMART > 63 Hình 3.9: Sắp xếp theo tổng giá trị SMART trừ SMART 12 64 Hình 3.10: Sắp theo chu kỳ điện SMART 12 64 ix Hình 3.11: Kết thu đƣợc từ đếm tổng số liệu đầu vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu 66 Hình 3.12: Kết thu đƣợc từ việc xếp giá trị SMART 68 Hình 3.13: Triển khai mơi trƣờng Spark googlecolab 69 Hình 3.14: Import thƣ viện môi trƣờng spark 69 Hình 3.15: Cho máy học training data testing data 70 Hình 3.16: Triển khai áp dụng thuật tốn Nạve Bayes 70 Hình 3.17: Kết thu đƣợc từ đếm tổng số liệu đầu vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu Spark 72 Hình 3.18: Kết thu đƣợc từ việc xếp giá trị SMART môi trƣờng Spark 74 MỞ ĐẦU 1.1 Lý chọn đề tài Trong giới kỹ thuật số, sở hạ tầng vật lý thiết bị xƣơng sống nhiều quan, doanh nghiệp Dự báo thiết bị hỏng từ lâu mục tiêu cho ngƣời chịu trách nhiệm quản lý hiệu suất tài sản, tiến công nghệ cảm biến, công nghệ truyền thơng, quản lý thơng tin phân tích hƣớng tích cực cho việc dự báo độ hƣ hỏng thiết bị Khơng phải tất liệu có giá trị nhƣ nói đến việc dự đốn thiết bị hỏng, điều quan trọng phải xác định liệu cần thiết để quản lý thiết bị hỏng Dữ liệu đƣợc sử dụng công cụ phân tích tiên tiến để dự đốn hƣ hỏng là, dòng thời gian sản xuất, điều kiện thiết bị liệu kiện đƣợc sử dụng để kiểm sốt theo dõi quy trình vật lý Đầu tƣ vào khoa học liệu kỹ phân tích tiên tiến với tập trung vào quản lý thiết bị, dự đoán giúp hỗ trợ nỗ lực cải tiến liên tục cho tổ chức cơng nghệ thơng tin, tình trạng đầu tƣ doanh nghiệp, sau giúp đảm bảo dự án thành công quan trọng xây dựng khả đáp ứng yêu cầu cần thiết quan, doanh nghiệp Với tiến cơng cụ phân tích để dự báo thiết bị hỏng, khơng thể tránh khỏi tổ chức với thiết bị quan trọng nhiệm vụ đầu tƣ phân tích nâng cao để giúp đảm bảo hoạt động an toàn đáng tin cậy Một công cụ mà luận văn hƣớng đến nghiên cứu thuật tốn Nạve Bayes môi trƣờng Spark Đề tài nghiên cứu “Ứng dụng mơ hình học máy Nạve Bayes mơi trƣờng Spark cho toán dự báo khả hỏng đĩa cứng máy tính” nhằm cài đặt ứng dụng mơ hình học máy Nạve Bayes để dự báo việc đĩa cứng máy tính bị hỏng nhằm tránh khỏi việc bị động 65 39.0 Name: smart_187_raw, dtype: int64 0.0 1349 NaN 825 2.0 13 1.0 6.0 3.0 12.0 4.0 7.0 24.0 33.0 78.0 8.0 5.0 9.0 11.0 18.0 17.0 27.0 Name: smart_187_raw, dtype: int64 Num mislabeled pts out of total 2224 points: 128 Num missed failed hard drive predictions: 115; 5.17086330935% out of total Percent accuracy: 94.24460431654677% * Nhƣ vậy, qua kết thu đƣợc tổng số 2224 điểm có 128 điểm bị dán nhãn sai 115 điểm bị trống liệu chiếm tỷ lệ 5.17086330935% Từ cho kết xác đến 94.24460431654677% 66 Hình 3.11: Kết thu đƣợc từ đếm tổng số liệu đầu vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu - Thứ 2: Kết thu đƣợc từ việc xếp giá trị SMART High priority predicted drives (Ổ đĩa có dự đoán lỗi cao): (1083, [8.0, 20.0, 2.0, 5.0, 24.0, 24.0]) (1614, [24.0, 15.0, 9.0, 0.0, 24.0, 24.0]) (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (2192, [0.0, 8.0, 6.0, 1.0, 8.0, 8.0]) (1249, [16.0, 3.0, 2.0, 0.0, 8.0, 8.0]) 67 // Kết việc xếp theo số lƣợng giá trị SMART > Medium priority predicted drives (Ổ đĩa có dự đốn lỗi trung bình): (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (575, [3960.0, 9.0, 0.0, 0.0, 32.0, 32.0]) (775, [0.0, 4.0, 0.0, 1.0, 960.0, 960.0]) (359, [1688.0, 7.0, 24.0, 0.0, 40.0, 40.0]) (1333, [1416.0, 8.0, 0.0, 0.0, 32.0, 32.0]) // Kết việc xếp theo tổng giá trị SMART trừ SMART 12 (tại số tập liệu testing) Low priority predicted drives (Ổ đĩa có dự đốn lỗi thấp): (8, [0.0, 1.0, -1.0, -1.0, 200.0, 0.0]) (998, [41.0, 1.0, 0.0, 0.0, 8.0, 8.0]) (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (1782, [0.0, 2.0, 1.0, 0.0, 16.0, 16.0]) (1873, [8.0, 2.0, 6.0, 0.0, 0.0, 0.0]) // Kết việc xếp theo tính chu kỳ điện (SMART 12) 12 (tại số tập liệu testing) Num mislabeled pts out of total 2224 points: 106 Percent accuracy: 95.23381294964028% 68 * Nhƣ vậy, thông qua việc xếp theo giá trị SMART cho kết quả: Trong tổng số 2224 điểm có 106 điểm bị dán nhãn sai, cho kết xác lên đến 95.23381294964028% Hình 3.12: Kết thu đƣợc từ việc xếp giá trị SMART Kết luận: Qua tiến hành thực nghiệm mơ hình 1, ta nhận thấy việc áp dụng thuật tốn Nạve Bayes tốn dự báo khả hỏng đĩa cứng môi trƣờng pandas cho kết khả quan Độ xác của cách phân loại lỗi lần lƣợt 94.24460431654677% 95.23381294964028% khoảng thời gian 0:00:19.879193 3.2.2 Thực nghiệm Với mơ hình thực nghiệm đƣợc phát triển từ mơ hình thực nghiệm sử dụng code liệu mơ hình thực nghiệm tiến hành triển khai 69 môi trƣờng Spark GoogleColab, sau triển khai mơi trƣờng Spark cho thuật tốn Nạve Bayes kết hợp với toán dự báo khả hỏng đĩa cứng máy tính mơi trƣờng Spark - Bƣớc 1: Triển khai môi trƣờng Spark GoogleColab Hình 3.13: Triển khai mơi trƣờng Spark googlecolab - Bƣớc 2: Import thƣ viện, môi trƣờng Spark thuật tốn Nạve Bayes Hình 3.14: Import thƣ viện mơi trƣờng spark - Bƣớc 3: Tiến hành q trình học máy cho liệu huấn luyện (data training) liệu kiểm tra (data testing) 70 Hình 3.15: Cho máy học training data testing data - Bƣớc 4: Triển khai code Áp dụng thuật tốn Nạve Bayes cho toán dự báo ổ cứng hỏng để đƣa kết Hình 3.16: Triển khai áp dụng thuật tốn Nạve Bayes Sau triển khai mơ hình thực nghiệm thu đƣợc kết nhƣ sau: - Thứ nhất: Kết thu đƣợc từ việc đếm tổng số liệu đầu vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu 0.0 1357 NaN 798 1.0 14 71 2.0 4.0 12.0 3.0 6.0 7.0 36.0 18.0 8.0 9.0 24.0 31.0 30.0 21.0 39.0 Name: smart_187_raw, dtype: int64 0.0 1349 NaN 825 2.0 13 1.0 6.0 3.0 12.0 4.0 7.0 24.0 33.0 78.0 8.0 72 5.0 9.0 11.0 18.0 17.0 27.0 Name: smart_187_raw, dtype: int64 Num mislabeled pts out of total 2224 points: 128 Num missed failed hard drive predictions: 115; 5.17086330935% out of total Percent accuracy: 94.24460431654677% * Nhƣ vậy, qua kết thu đƣợc tổng số 2224 điểm có 128 điểm bị dán nhãn sai 115 điểm bị trống liệu chiếm tỷ lệ 5.17086330935% Từ cho kết xác đến 94.24460431654677% Hình 3.17: Kết thu đƣợc từ đếm tổng số liệu đầu vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu Spark - Thứ 2: Kết thu đƣợc từ việc xếp giá trị SMART High priority predicted drives (Ổ đĩa có dự đốn lỗi cao): (1083, [8.0, 20.0, 2.0, 5.0, 24.0, 24.0]) (1614, [24.0, 15.0, 9.0, 0.0, 24.0, 24.0]) 73 (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (2192, [0.0, 8.0, 6.0, 1.0, 8.0, 8.0]) (1249, [16.0, 3.0, 2.0, 0.0, 8.0, 8.0]) // Kết việc xếp theo số lƣợng giá trị SMART > Medium priority predicted drives (Ổ đĩa có dự đốn lỗi trung bình): (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (575, [3960.0, 9.0, 0.0, 0.0, 32.0, 32.0]) (775, [0.0, 4.0, 0.0, 1.0, 960.0, 960.0]) (359, [1688.0, 7.0, 24.0, 0.0, 40.0, 40.0]) (1333, [1416.0, 8.0, 0.0, 0.0, 32.0, 32.0]) // Kết việc xếp theo tổng giá trị SMART trừ SMART 12 (tại số tập liệu testing) Low priority predicted drives (Ổ đĩa có dự đốn lỗi thấp): (8, [0.0, 1.0, -1.0, -1.0, 200.0, 0.0]) (998, [41.0, 1.0, 0.0, 0.0, 8.0, 8.0]) (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (1782, [0.0, 2.0, 1.0, 0.0, 16.0, 16.0]) (1873, [8.0, 2.0, 6.0, 0.0, 0.0, 0.0]) // Kết việc xếp theo tính chu kỳ điện (SMART 12) 12 (tại số tập liệu testing) Num mislabeled pts out of total 2224 points: 106 Percent accuracy: 95.23381294964028% 74 Hình 3.18: Kết thu đƣợc từ việc xếp giá trị SMART môi trƣờng Spark Kết luận: Qua tiến hành thực nghiệm mơ hình 2, ta nhận thấy việc áp dụng thuật tốn Nạve Bayes tốn dự báo khả hỏng đĩa cứng môi trƣờng pandas cho kết khả quan Độ xác của cách phân loại lỗi lần lƣợt 94.24460431654677% 95.23381294964028% khoảng thời gian 0:00:00.028065 3.3 Đánh giá thuật toán Trong giới ngày phát triển cơng nghệ liệu vấn đề đƣợc quan tâm, việc bảo đảm dự liệu, phân tích liệu đƣa dự đoán dựa sở liệu từ lâu hƣớng nghiên cứu tích cực ngƣời làm cơng nghệ Các thuật tốn dự báo dựa liệu thƣờng xuyên tìm hƣớng mới, thuật tốn Nạve Bayes áp dụng cho việc dự báo dần lựa chọn đáng đƣợc tin cậy, nhiên với liệu khổng lồ hàng ngày, hàng đƣợc khởi tạo thuật tốn Nạve Bayes tính tốn mơi trƣờng ngôn ngữ thông thƣờng không đƣợc tối ƣu hiệu suất thời gian, việc kết hợp thuật tốn Nạve Bayes chạy môi trƣờng Spark giải đƣợc vấn đề Spark cho 75 phép xây dựng mơ hình dự đốn nhanh chóng với việc tính tốn đƣợc thực nhóm máy tính, có tính tốn lúc tồn tập liệu mà khơng cần phải trích xuất mẫu tính tốn thử nghiệm Tốc độ xử lý Spark có đƣợc việc tính tốn đƣợc thực lúc nhiều máy khác Ngồi ra, Nạve Bayes thuật tốn phân loại tuyến tính dựa tính tốn xác suất có điều kiện điều làm cho việc tính tốn trở nên đơn giản đảm bảo độ xác nhiều Thơng qua việc thực nghiệm mơ hình, thấy đƣợc khác biệt Kết Mơ hình thực nghiệm Đếm tổng số liệu đầu 94.24460431654677% vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu (%) Kết thu đƣợc từ việc 95.23381294964028% xếp giá trị SMART (%) Thời gian tính tốn 0:00:19.879193 Mơ hình thực nghiệm 94.24460431654677% 95.23381294964028% 0:00:00.028065 Bảng 3.3: So sánh kết thu đƣợc qua mơ hình thực nghiệm mơ hình thực nghiệm 76 KẾT LUẬN Kết đạt đƣợc luận văn Trong nội dung nghiên cứu đề tài “Ứng dụng mơ hình học máy Nạve Bayes mơi trƣờng Spark cho tốn dự báo khả hỏng đĩa cứng máy tính”, thân tìm hiểu thuật tốn dự báo, mơi trƣờng Spark áp dụng chúng lại với Những kết mà luận văn làm đƣợc: - Khái quát đƣợc toán dự báo khả hỏng đĩa cứng máy tính mơi trƣờng Spark - Cách thức lập trình với mơi trƣờng Spark - Trình bày thuật tốn Nạve Bayes, tốn dự báo khả hỏng đĩa cứng máy tính - Giải đƣợc vấn đề mặt hiệu suất thời gian việc triển khai thuật tốn Nạve Bayes đơn với việc triển khai thuật tốn mơi trƣờng Spark - Ứng dụng thuật tốn Nạve Bayes tiến hành thực nghiệm môi trƣờng Spark với liệu thực đƣợc thu thập Kiến nghị hƣớng nghiên cứu Dữ liệu từ thiết bị công nghệ ngày phát triển, việc dự báo khả hỏng thiết vấn đề đƣợc quan tâm để có phƣơng án thay hay lƣu liệu quan trọng tránh mát liệu, tiết kiệm chi phí đầu tƣ mua sắm, nhƣ đảm bảo mặt liệu thông tin, …v.v Hầu hết cấu trúc liệu thiệt bị đƣợc biểu diễn dƣới dạng điều kiện có xác suất Vì vậy, việc nghiên cứu thuật toán dự báo khả hỏng thiết bị đƣợc nghiên cứu, nhằm tối ƣu hóa thuật tốn đƣa dự báo xác 77 Hƣớng nghiên cứu luận văn tiếp tục triển khai thuật tốn Nạve Bayes mơi trƣờng Spark với liệu thiệt bị khác nhƣ (router, switch, Tivi, …v.v) Bên cạnh nghiên cứu tìm hiểu thêm thuật tốn khác mơi trƣờng Spark để so sánh, đánh giá, khẳng định tính hiệu chúng việc dự báo khả hỏng thiết bị từ liệu thiết bị lớn 78 DANH MỤC TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Thùy Dƣơng, (2015) Nghiên cứu Lý thuyết Naive Bayes Ứng dụng phân loại Văn tiếng việt, Luận văn thạc sĩ, Đại học Công Nghệ Thông Tin Truyền Thông [2] Trần Thị Oanh, (2006) Thuật toán SELF-TRAINING Và CO-TRAINING Ứng dụng phân lớp văn bản, Khóa luận tốt nghiệp, Đại học quốc gia Hà Nội [3] Cagatay Catal, Ugur Sevim, Banu Diri, (2011), Practical development of an Eclipse-based software fault prediction tool using Naive Bayes algorithm, Expert Systems with Applications 38 (2011), pp 2347–2353 [4] Dan Jurafsky, James H Martin, (2011), Text Classification and Naive Bayes, Stanford university All rights Reserved [5] Jason Brownlee, (2016), Master Machine Learning Algorithms: Discover How they Work and Implement them from scratch [6] Jeffrey Dean and Sanjay Ghemawat, (2004), Mapreduce: Simplified Data Processing on Large Clusters, OSDI 2004 [7] John King and Roger Magoulas, (2016), 2015 Data Science Salary Survey Tools, Trends, What Pays (and What Doesn’t) for Data Professionals [8] Joseph F Murray, Gordon F Hughes and Kenneth Kreutz-Delgado, (2005), Machine Learning Methods for Predicting Failures in Hard Drives: A Multiple-Instance Application, Journal of Machine Learning Research (2005), pp 783–816 [9] Greg Hamerly and Charles Elkan, Bayesian approaches to failure prediction for disk drives, InEighteenth International Conference on Machine Learning, pages 1–9, 2001 79 [10] Gordon F Hughes, Joseph F Murray, Kenneth Kreutz-Delgado, and Charles Elkan Improved disk-drive failure warnings IEEE Transactions on Reliability, 51(3):350–357, September 2002 [11] Mahmoud Parsian, (2015), Data Algorithms, pp 327-362 - Tài liệu điện tử: [12] TIEP HUU VU, 104 Electrical Engineering East Pennsylvania State University University Park, PA 16802, USA, “Học máy (https://machinelearningcoban.com/) [13] BACKBLAZE Company, 500 Ben Franklin Ct San Mateo, CA 94401, USA, “Hard Drive SMART Stats (https://www.backblaze.com/blog/hard-drive-smart-stats/) ... MapReduce để học máy với liệu lớn môi trƣờng Spark ứng dụng vào việc dự báo khả hỏng đĩa cứng máy tính chƣơng 25 CHƢƠNG 2: THUẬT TỐN NẠVE BAYES VÀ BÀI TOÁN DỰ BÁO KHẢ NĂNG HỎNG CỦA ĐĨA CỨNG MÁY TÍNH... Spark Đề tài nghiên cứu ? ?Ứng dụng mơ hình học máy Nạve Bayes mơi trƣờng Spark cho tốn dự báo khả hỏng đĩa cứng máy tính? ?? nhằm cài đặt ứng dụng mơ hình học máy Nạve Bayes để dự báo việc đĩa cứng. .. ổ cứng [13] 2.2.4 Nạve Bayes cho tốn dự báo khả hỏng đĩa cứng Dữ liệu đầu vào liệu đƣợc mô tả chi tiết cờ S.M.A.R.T Tập liệu bao gồm liệu 2224 ổ đĩa cứng bao gồm ổ cứng máy tính hỏng ổ cứng máy

Ngày đăng: 11/08/2021, 16:08

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan