1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

88 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN VÕ CHÍ CƢỜNG lu an n va gh tn to ỨNG DỤNG MƠ HÌNH HỌC MÁY NAIVE BAYES p ie TRÊN MƠI TRƢỜNG SPARK CHO BÀI TỐN DỰ d oa nl w BÁO KHẢ NĂNG HỎNG CỦA ĐĨA CỨNG MÁY TÍNH ll u nf va an lu oi m Chuyên ngành: Khoa học máy tính z at nh Mã số: 8480101 z l gm @ m co Ngƣời hƣớng dẫn: TS Hồ Văn Lâm an Lu n va ac th si LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Ứng dụng mơ hình học máy Nạve Bayes mơi trƣờng Spark cho tốn dự báo khả hỏng đĩa cứng máy tính” kết tự thân tơi tìm hiểu, nghiên cứu Các số liệu, dẫn chứng tài liệu tham khảo đƣợc trích dẫn thích đầy đủ Tơi xin chịu trách nhiệm luận văn lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si LỜI CẢM ƠN Qua trình học tập thời gian nghiên cứu làm luận văn, trƣớc tiên xin gửi lời cảm ơn chân thành đến Thầy Cô giáo tham gia tổ chức, đạo trực tiếp giảng dạy suốt khóa học vừa qua Đặc biệt, xin gửi lời cảm ơn sâu sắc đến Thầy giáo hƣớng dẫn TS Hồ Văn Lâm, ngƣời tận tình bảo, góp ý, giúp đỡ tạo điều kiện để tơi hồn thành luận văn Cũng qua đây, xin gửi lời cảm ơn đến anh chị học viên lớp lu cao học Khoa học máy tính khóa trƣớc giúp đỡ tơi nhiều q trình an n va học tập nghiên cứu Cuối cùng, xin gửi lời cảm ơn đến gia đình bạn hồn thành luận văn Trong thời gian qua cố gắng tập trung nghiên cứu tìm hiểu để p ie gh tn to bè giúp đỡ, ủng hộ suốt trình học tập, nghiên cứu hồn thành thật tốt luận văn nhƣng chắn cịn nhiều thiếu sót d thiện oa nl w mong đƣợc nhận bảo Thầy Cơ giáo để luận văn đƣợc hồn ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU lu 1.1 Lý chọn đề tài an 1.2 Tổng quan tình hình nghiên cứu đề tài va n 1.3 Mục tiêu nhiệm vụ nghiên cứu 1.5 Đối tƣợng phạm vi nghiên cứu ie gh tn to 1.4 Nhiệm vụ nghiên cứu p CHƢƠNG 1: KIẾN THỨC TỔNG QUAN nl w 1.1 Giới thiệu học máy d oa 1.1.1 Học máy gì? an lu 1.1.2 Các thành phần học máy va 1.1.3 Phương thức hoạt động học máy 10 ll u nf 1.1.4 Ứng dụng học máy 10 oi m 1.2 Mơ hình lập trình MapReduce 12 z at nh 1.2.1 Tổng quan mơ hình MapReduce 12 1.2.2 Nguyên tắc hoạt động mơ hình MapReduce 15 z 1.2.3 Một số tốn ứng dụng mơ hình MapReduce [6] 18 @ gm 1.3 Giới thiệu Spark 18 m co l 1.3.1 Tổng quan 18 1.3.2 Thành phần Apache Spark 20 an Lu 1.3.3 Quản lý nhớ Apache Spark 21 1.3.4 Ứng dụng 23 n va ac th si v 1.4 Kết luận chƣơng 24 CHƢƠNG 2: THUẬT TỐN NẠVE BAYES VÀ BÀI TOÁN DỰ BÁO KHẢ NĂNG HỎNG CỦA ĐĨA CỨNG MÁY TÍNH 25 2.1 Thuật tốn Nạve Bayes 25 2.1.1 Khái niệm 25 2.1.2 Mơ hình phân lớp Naïve Bayes 27 2.1.3 Một số kiểu mơ hình Nạve Bayes 28 2.1.4 Ứng dụng thuật toán 29 lu 2.2 Bài toán dự báo đĩa cứng hỏng 30 an 2.2.1 Tổng quan 30 va n 2.2.2 Giới thiệu S.M.A.R.T 31 2.2.4 Nạve Bayes cho tốn dự báo khả hỏng đĩa cứng 34 ie gh tn to 2.2.3 Giám sát ổ đĩa cứng 33 p 2.3 Nạve Bayes theo mơ hình lập trình MapReduce cho toán dự báo 39 nl w 2.4 Thuật tốn Nạve Bayes thực mơi trƣờng Spark 41 d oa 2.5 Học máy môi trƣờng Spark 55 an lu 2.6 Kết luận chƣơng 57 va CHƢƠNG 3: THỰC NGHIỆM 58 ll u nf 3.1 Cấu trúc liệu thử nghiệm 58 oi m 3.2 Triển khai thực nghiệm 62 z at nh 3.2.1 Thực nghiệm 62 3.2.2 Thực nghiệm 68 z 3.3 Đánh giá thuật toán 74 @ gm KẾT LUẬN 76 l Kết đạt đƣợc luận văn 76 m co Kiến nghị hƣớng nghiên cứu 76 an Lu DANH MỤC TÀI LIỆU THAM KHẢO 78 n va ac th si DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Tên viết Thuật ngữ tắt CSDL Cơ sở liệu Ý nghĩa Cơ sở liệu CNTT Công nghệ thông tin Cơng nghệ thơng tin AI Artificial Intelligence Trí tuệ nhân tạo Tập hợp item đƣợc phân RDD Resilient Distributed DataSet DAG Directed Acyclic Graph HDFS Hadoop Distributed File System tán node lu an Đồ thị không chu trình có n va hƣớng Hadoop p ie gh tn to Hệ thống lƣu trữ tập tin d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si DANH MỤC CÁC BẢNG Bảng 3.1 Mô tả thông số SMART từ thu thập liệu 58 Bảng 3.2 Ví dụ tỉ lệ phần trăm hai đĩa cứng thông qua số liệu thống kê SMART 59 Bảng 3.3: So sánh kết thu đƣợc qua mơ hình thực nghiệm mơ hình thực nghiệm 75 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ hình làm việc cơng việc MapReduce 14 Hình 1.2 Quy trình xử lý MapReduce [6] 16 Hình 1.3 Tỉ lệ sử dụng ngơn ngữ lập trình năm 2014 2015 19 Hình 1.4 Các thành phần Apache Spark [11] 20 Hình 2.1 Giai đoạn Training [3] 26 Hình 2.2 Giai đoạn phân loại [3] 26 lu Hình 2.3 Mơ tả tập liệu theo định dạng file CSV 35 an n va Hình 2.4 Đọc liệu 36 Hình 2.6 Xử lý liệu 37 gh tn to Hình 2.5 Tính độ lệch chuẩn cho giá trị SMART 36 p ie Hình 2.7 Tính xác suất biến theo phân phối Gausian 38 Hình 2.8 Dự đốn dựa vào xác suất 38 oa nl w Hình 2.9 Giai đoạn phân loại [5] 42 d Hình 3.1 Dữ liệu mẫu 59 an lu Hình 3.2: Input thƣ viện cho máy học liệu training liệu test u nf va môi trƣờng Pandas 60 ll Hình 3.3: Input thƣ viện cho máy học liệu training liệu test m oi môi trƣờng Spark 61 z at nh Hình 3.4: Tập liệu kiểm tra 61 Hình 3.5 Inport thƣ viện, mơi trƣờng thuật tốn Nạve Bayes 62 z gm @ Hình 3.6: Đọc kiểm tra data training data testing 63 Hình 3.7: Đếm tổng số data số lƣợng data dự đoán lỗi ổ cứng bị thiếu 63 l m co Hình 3.8: Sắp xếp giá trị SMART > 63 Hình 3.9: Sắp xếp theo tổng giá trị SMART trừ SMART 12 64 an Lu Hình 3.10: Sắp theo chu kỳ điện SMART 12 64 n va ac th si ix Hình 3.11: Kết thu đƣợc từ đếm tổng số liệu đầu vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu 66 Hình 3.12: Kết thu đƣợc từ việc xếp giá trị SMART 68 Hình 3.13: Triển khai mơi trƣờng Spark googlecolab 69 Hình 3.14: Import thƣ viện môi trƣờng spark 69 Hình 3.15: Cho máy học training data testing data 70 Hình 3.16: Triển khai áp dụng thuật tốn Nạve Bayes 70 Hình 3.17: Kết thu đƣợc từ đếm tổng số liệu đầu vào đếm số lu lƣợng dự đoán lỗi ổ cứng bị thiếu liệu Spark 72 an Hình 3.18: Kết thu đƣợc từ việc xếp giá trị SMART môi va n trƣờng Spark 74 p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si MỞ ĐẦU 1.1 Lý chọn đề tài Trong giới kỹ thuật số, sở hạ tầng vật lý thiết bị xƣơng sống nhiều quan, doanh nghiệp Dự báo thiết bị hỏng từ lâu mục tiêu cho ngƣời chịu trách nhiệm quản lý hiệu suất tài sản, tiến công nghệ cảm biến, công nghệ truyền thơng, quản lý thơng tin phân tích hƣớng tích cực cho việc dự báo độ hƣ hỏng thiết bị lu an Khơng phải tất liệu có giá trị nhƣ nói đến việc n va dự đốn thiết bị hỏng, điều quan trọng phải xác định liệu cần thiết tn to để quản lý thiết bị hỏng Dữ liệu đƣợc sử dụng cơng cụ phân tích tiên gh tiến để dự đốn hƣ hỏng là, dịng thời gian sản xuất, điều kiện thiết bị p ie liệu kiện đƣợc sử dụng để kiểm soát theo dõi quy trình vật lý w Đầu tƣ vào khoa học liệu kỹ phân tích tiên tiến với tập oa nl trung vào quản lý thiết bị, dự đoán giúp hỗ trợ nỗ lực cải tiến liên tục d cho tổ chức cơng nghệ thơng tin, tình trạng đầu tƣ lu va an doanh nghiệp, sau giúp đảm bảo dự án thành công quan u nf trọng xây dựng khả đáp ứng yêu cầu cần thiết quan, ll doanh nghiệp Với tiến cơng cụ phân tích để dự báo thiết m oi bị hỏng, khơng thể tránh khỏi tổ chức với thiết bị quan trọng z at nh nhiệm vụ đầu tƣ phân tích nâng cao để giúp đảm bảo hoạt động an toàn z đáng tin cậy Một công cụ mà luận văn hƣớng đến nghiên cứu @ gm thuật tốn Nạve Bayes mơi trƣờng Spark l Đề tài nghiên cứu “Ứng dụng mô hình học máy Nạve Bayes m co mơi trƣờng Spark cho toán dự báo khả hỏng đĩa cứng máy an Lu tính” nhằm cài đặt ứng dụng mơ hình học máy Nạve Bayes để dự báo việc đĩa cứng máy tính bị hỏng nhằm tránh khỏi việc bị động n va ac th si 65 39.0 Name: smart_187_raw, dtype: int64 0.0 1349 lu an n va 825 2.0 13 1.0 6.0 3.0 12.0 4.0 7.0 24.0 33.0 78.0 p ie gh tn to NaN 5.0 1 27.0 m ll 17.0 u nf va 18.0 an lu 11.0 d oa 9.0 nl w 8.0 oi Name: smart_187_raw, dtype: int64 z at nh Num mislabeled pts out of total 2224 points: 128 Num missed failed hard drive predictions: 115; 5.17086330935% out of total z gm @ Percent accuracy: 94.24460431654677% * Nhƣ vậy, qua kết thu đƣợc tổng số 2224 điểm có 128 l m co điểm bị dán nhãn sai 115 điểm bị trống liệu chiếm tỷ lệ 5.17086330935% Từ cho kết xác đến 94.24460431654677% an Lu n va ac th si 66 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m Hình 3.11: Kết thu đƣợc từ đếm tổng số liệu đầu vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu z at nh - Thứ 2: Kết thu đƣợc từ việc xếp giá trị SMART z High priority predicted drives (Ổ đĩa có dự đốn lỗi cao): (2192, [0.0, 8.0, 6.0, 1.0, 8.0, 8.0]) an Lu (1249, [16.0, 3.0, 2.0, 0.0, 8.0, 8.0]) m co (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) l gm (1614, [24.0, 15.0, 9.0, 0.0, 24.0, 24.0]) @ (1083, [8.0, 20.0, 2.0, 5.0, 24.0, 24.0]) n va ac th si 67 // Kết việc xếp theo số lƣợng giá trị SMART > Medium priority predicted drives (Ổ đĩa có dự đốn lỗi trung bình): (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (575, [3960.0, 9.0, 0.0, 0.0, 32.0, 32.0]) (775, [0.0, 4.0, 0.0, 1.0, 960.0, 960.0]) (359, [1688.0, 7.0, 24.0, 0.0, 40.0, 40.0]) (1333, [1416.0, 8.0, 0.0, 0.0, 32.0, 32.0]) // Kết việc xếp theo tổng giá trị SMART trừ SMART 12 (tại số tập liệu testing) lu an Low priority predicted drives (Ổ đĩa có dự đốn lỗi thấp): n va (8, [0.0, 1.0, -1.0, -1.0, 200.0, 0.0]) tn to (998, [41.0, 1.0, 0.0, 0.0, 8.0, 8.0]) (1782, [0.0, 2.0, 1.0, 0.0, 16.0, 16.0]) p ie gh (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (1873, [8.0, 2.0, 6.0, 0.0, 0.0, 0.0]) oa nl w // Kết việc xếp theo tính chu kỳ điện (SMART 12) 12 (tại d số tập liệu testing) lu an Num mislabeled pts out of total 2224 points: 106 ll u nf va Percent accuracy: 95.23381294964028% oi m z at nh z m co l gm @ an Lu n va ac th si 68 * Nhƣ vậy, thông qua việc xếp theo giá trị SMART cho kết quả: Trong tổng số 2224 điểm có 106 điểm bị dán nhãn sai, cho kết xác lên đến 95.23381294964028% lu an n va p ie gh tn to d oa nl w va an lu ll u nf Hình 3.12: Kết thu đƣợc từ việc xếp giá trị SMART oi m Kết luận: Qua tiến hành thực nghiệm mơ hình 1, ta nhận thấy việc áp z at nh dụng thuật tốn Nạve Bayes tốn dự báo khả hỏng đĩa cứng môi trƣờng pandas cho kết khả quan Độ xác z cách phân loại lỗi lần lƣợt 94.24460431654677% @ 3.2.2 Thực nghiệm m co l gm 95.23381294964028% khoảng thời gian 0:00:19.879193 Với mơ hình thực nghiệm đƣợc phát triển từ mơ hình thực nghiệm an Lu sử dụng code liệu mơ hình thực nghiệm tiến hành triển khai n va ac th si 69 môi trƣờng Spark GoogleColab, sau triển khai môi trƣờng Spark cho thuật tốn Nạve Bayes kết hợp với tốn dự báo khả hỏng đĩa cứng máy tính môi trƣờng Spark - Bƣớc 1: Triển khai môi trƣờng Spark GoogleColab lu an n va p ie gh tn to Hình 3.13: Triển khai mơi trƣờng Spark googlecolab nl w d oa - Bƣớc 2: Import thƣ viện, mơi trƣờng Spark thuật tốn Nạve Bayes ll u nf va an lu oi m z at nh z @ gm Hình 3.14: Import thƣ viện môi trƣờng spark liệu kiểm tra (data testing) m co l - Bƣớc 3: Tiến hành trình học máy cho liệu huấn luyện (data training) an Lu n va ac th si 70 lu Hình 3.15: Cho máy học training data testing data an n va - Bƣớc 4: Triển khai code Áp dụng thuật tốn Nạve Bayes cho tốn dự p ie gh tn to báo ổ cứng hỏng để đƣa kết d oa nl w ll u nf va an lu oi m z at nh Hình 3.16: Triển khai áp dụng thuật tốn Nạve Bayes z Sau triển khai mơ hình thực nghiệm thu đƣợc kết nhƣ sau: @ đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu 1357 798 1.0 14 an Lu NaN m co 0.0 l gm - Thứ nhất: Kết thu đƣợc từ việc đếm tổng số liệu đầu vào n va ac th si 71 lu an n va 4.0 12.0 3.0 6.0 7.0 36.0 18.0 8.0 9.0 24.0 31.0 30.0 21.0 p ie gh tn to 2.0 39.0 1349 d oa 0.0 nl w Name: smart_187_raw, dtype: int64 12.0 4.0 7.0 24.0 33.0 78.0 8.0 z 3.0 z at nh oi 6.0 m ll 1.0 u nf 13 va 2.0 an 825 lu NaN m co l gm @ an Lu n va ac th si 72 5.0 9.0 11.0 18.0 17.0 27.0 Name: smart_187_raw, dtype: int64 Num mislabeled pts out of total 2224 points: 128 Num missed failed hard drive predictions: 115; 5.17086330935% out of total lu an Percent accuracy: 94.24460431654677% n va * Nhƣ vậy, qua kết thu đƣợc tổng số 2224 điểm có 128 tn to điểm bị dán nhãn sai 115 điểm bị trống liệu chiếm tỷ lệ p ie gh 5.17086330935% Từ cho kết xác đến 94.24460431654677% d oa nl w ll u nf va an lu oi m z at nh z Hình 3.17: Kết thu đƣợc từ đếm tổng số liệu đầu vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu Spark gm @ l - Thứ 2: Kết thu đƣợc từ việc xếp giá trị SMART (1614, [24.0, 15.0, 9.0, 0.0, 24.0, 24.0]) an Lu (1083, [8.0, 20.0, 2.0, 5.0, 24.0, 24.0]) m co High priority predicted drives (Ổ đĩa có dự đốn lỗi cao): n va ac th si 73 (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (2192, [0.0, 8.0, 6.0, 1.0, 8.0, 8.0]) (1249, [16.0, 3.0, 2.0, 0.0, 8.0, 8.0]) // Kết việc xếp theo số lƣợng giá trị SMART > Medium priority predicted drives (Ổ đĩa có dự đốn lỗi trung bình): (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (575, [3960.0, 9.0, 0.0, 0.0, 32.0, 32.0]) (775, [0.0, 4.0, 0.0, 1.0, 960.0, 960.0]) (359, [1688.0, 7.0, 24.0, 0.0, 40.0, 40.0]) lu an (1333, [1416.0, 8.0, 0.0, 0.0, 32.0, 32.0]) n va // Kết việc xếp theo tổng giá trị SMART trừ SMART tn to 12 (tại số tập liệu testing) (8, [0.0, 1.0, -1.0, -1.0, 200.0, 0.0]) p ie gh Low priority predicted drives (Ổ đĩa có dự đốn lỗi thấp): w (998, [41.0, 1.0, 0.0, 0.0, 8.0, 8.0]) oa nl (2169, [472.0, 2.0, 17.0, 0.0, 9736.0, 9736.0]) (1782, [0.0, 2.0, 1.0, 0.0, 16.0, 16.0]) d an lu (1873, [8.0, 2.0, 6.0, 0.0, 0.0, 0.0]) u nf va // Kết việc xếp theo tính chu kỳ điện (SMART 12) 12 (tại số tập liệu testing) ll oi m Num mislabeled pts out of total 2224 points: 106 z at nh Percent accuracy: 95.23381294964028% z m co l gm @ an Lu n va ac th si 74 lu an va Hình 3.18: Kết thu đƣợc từ việc xếp giá trị SMART môi n trƣờng Spark to gh tn Kết luận: Qua tiến hành thực nghiệm mơ hình 2, ta nhận thấy việc áp p ie dụng thuật toán Nạve Bayes tốn dự báo khả hỏng đĩa cứng môi trƣờng pandas cho kết khả quan Độ xác oa nl w cách phân loại lỗi lần lƣợt 94.24460431654677% d 95.23381294964028% khoảng thời gian 0:00:00.028065 lu va an 3.3 Đánh giá thuật toán u nf Trong giới ngày phát triển cơng nghệ liệu ll vấn đề đƣợc quan tâm, việc bảo đảm dự liệu, phân tích liệu m oi đƣa dự đốn dựa sở liệu từ lâu hƣớng z at nh nghiên cứu tích cực ngƣời làm cơng nghệ Các thuật tốn dự z báo dựa liệu thƣờng xuyên tìm hƣớng mới, thuật tốn @ gm Naïve Bayes áp dụng cho việc dự báo dần lựa chọn đáng đƣợc tin l cậy, nhiên với liệu khổng lồ hàng ngày, hàng đƣợc khởi tạo m co thuật tốn Nạve Bayes tính tốn mơi trƣờng ngơn ngữ thông thƣờng an Lu không đƣợc tối ƣu hiệu suất thời gian, việc kết hợp thuật toán Nạve Bayes chạy mơi trƣờng Spark giải đƣợc vấn đề Spark cho n va ac th si 75 phép xây dựng mơ hình dự đốn nhanh chóng với việc tính tốn đƣợc thực nhóm máy tính, có tính tốn lúc tồn tập liệu mà khơng cần phải trích xuất mẫu tính tốn thử nghiệm Tốc độ xử lý Spark có đƣợc việc tính toán đƣợc thực lúc nhiều máy khác Ngồi ra, Nạve Bayes thuật tốn phân loại tuyến tính dựa tính tốn xác suất có điều kiện điều làm cho việc tính tốn trở nên đơn giản đảm bảo độ xác nhiều Thơng qua việc thực nghiệm mơ hình, thấy đƣợc khác biệt lu Kết an n va Mơ hình thực nghiệm 94.24460431654677% 95.23381294964028% p ie gh tn to Mơ hình thực nghiệm Đếm tổng số liệu đầu 94.24460431654677% vào đếm số lƣợng dự đoán lỗi ổ cứng bị thiếu liệu (%) Kết thu đƣợc từ việc 95.23381294964028% xếp giá trị SMART (%) Thời gian tính tốn 0:00:19.879193 nl w 0:00:00.028065 d oa Bảng 3.3: So sánh kết thu đƣợc qua mơ hình thực nghiệm mơ hình thực nghiệm ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 76 KẾT LUẬN Kết đạt đƣợc luận văn Trong nội dung nghiên cứu đề tài “Ứng dụng mô hình học máy Nạve Bayes mơi trƣờng Spark cho toán dự báo khả hỏng đĩa cứng máy tính”, thân tìm hiểu thuật tốn dự báo, môi trƣờng Spark áp dụng chúng lại với Những kết mà luận văn làm đƣợc: - Khái quát đƣợc toán dự báo khả hỏng đĩa cứng máy tính lu an mơi trƣờng Spark n va - Cách thức lập trình với mơi trƣờng Spark tn to - Trình bày thuật tốn Nạve Bayes, tốn dự báo khả - Giải đƣợc vấn đề mặt hiệu suất thời gian việc triển khai p ie gh hỏng đĩa cứng máy tính w thuật tốn Nạve Bayes đơn với việc triển khai thuật toán môi oa nl trƣờng Spark d - Ứng dụng thuật tốn Nạve Bayes tiến hành thực nghiệm mơi lu u nf va an trƣờng Spark với liệu thực đƣợc thu thập Kiến nghị hƣớng nghiên cứu ll oi m Dữ liệu từ thiết bị công nghệ ngày phát triển, việc dự báo khả z at nh hỏng thiết vấn đề đƣợc quan tâm để có phƣơng án thay hay lƣu liệu quan trọng tránh mát liệu, tiết z kiệm chi phí đầu tƣ mua sắm, nhƣ đảm bảo mặt liệu thông tin, @ l gm …v.v Hầu hết cấu trúc liệu thiệt bị đƣợc biểu diễn dƣới dạng m co điều kiện có xác suất Vì vậy, việc nghiên cứu thuật toán dự báo khả hỏng thiết bị đƣợc nghiên cứu, nhằm tối ƣu hóa an Lu thuật tốn đƣa dự báo xác n va ac th si 77 Hƣớng nghiên cứu luận văn tiếp tục triển khai thuật tốn Nạve Bayes môi trƣờng Spark với liệu thiệt bị khác nhƣ (router, switch, Tivi, …v.v) Bên cạnh nghiên cứu tìm hiểu thêm thuật tốn khác mơi trƣờng Spark để so sánh, đánh giá, khẳng định tính hiệu chúng việc dự báo khả hỏng thiết bị từ liệu thiết bị lớn lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 78 DANH MỤC TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Thùy Dƣơng, (2015) Nghiên cứu Lý thuyết Naive Bayes Ứng dụng phân loại Văn tiếng việt, Luận văn thạc sĩ, Đại học Công Nghệ Thông Tin Truyền Thông [2] Trần Thị Oanh, (2006) Thuật toán SELF-TRAINING Và CO-TRAINING Ứng dụng phân lớp văn bản, Khóa luận tốt nghiệp, Đại học quốc gia Hà Nội [3] Cagatay Catal, Ugur Sevim, Banu Diri, (2011), Practical development of lu an Eclipse-based software fault prediction tool using Naive Bayes an n va algorithm, Expert Systems with Applications 38 (2011), pp 2347–2353 Bayes, Stanford university All rights Reserved gh tn to [4] Dan Jurafsky, James H Martin, (2011), Text Classification and Naive p ie [5] Jason Brownlee, (2016), Master Machine Learning Algorithms: Discover w How they Work and Implement them from scratch oa nl [6] Jeffrey Dean and Sanjay Ghemawat, (2004), Mapreduce: Simplified Data d Processing on Large Clusters, OSDI 2004 lu an [7] John King and Roger Magoulas, (2016), 2015 Data Science Salary Survey u nf va Tools, Trends, What Pays (and What Doesn’t) for Data Professionals ll [8] Joseph F Murray, Gordon F Hughes and Kenneth Kreutz-Delgado, m oi (2005), Machine Learning Methods for Predicting Failures in Hard z at nh Drives: A Multiple-Instance Application, Journal of Machine Learning Research (2005), pp 783–816 z gm @ [9] Greg Hamerly and Charles Elkan, Bayesian approaches to failure prediction for disk drives, InEighteenth International Conference on m co l Machine Learning, pages 1–9, 2001 an Lu n va ac th si 79 [10] Gordon F Hughes, Joseph F Murray, Kenneth Kreutz-Delgado, and Charles Elkan Improved disk-drive failure warnings IEEE Transactions on Reliability, 51(3):350–357, September 2002 [11] Mahmoud Parsian, (2015), Data Algorithms, pp 327-362 - Tài liệu điện tử: [12] TIEP HUU VU, 104 Electrical Engineering East Pennsylvania State University University Park, PA 16802, USA, “Học máy (https://machinelearningcoban.com/) lu [13] BACKBLAZE Company, 500 Ben Franklin Ct San Mateo, CA 94401, an USA, “Hard Drive SMART Stats va n (https://www.backblaze.com/blog/hard-drive-smart-stats/) p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si

Ngày đăng: 20/07/2023, 09:53

Xem thêm: