Đánh giá thuật tốn

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính (Trang 83)

Trong thế giới ngày càng phát triển cơng nghệ thì dữ liệu là một trong những vấn đề đang rất đƣợc quan tâm, việc bảo đảm dự liệu, phân tích dữ liệu đƣa ra các dự đốn dựa trên cơ sở dữ liệu từ lâu đã là và đang là hƣớng nghiên cứu tích cực của những ngƣời làm cơng nghệ. Các thuật tốn về dự báo dựa trên dữ liệu thƣờng xuyên tìm ra hƣớng đi mới, trong đĩ thuật tốn Nạve Bayes áp dụng cho việc dự báo đang dần là một lựa chọn đáng đƣợc tin cậy, tuy nhiên với dữ liệu khổng lồ hàng ngày, hàng giờ đƣợc khởi tạo thì cơ bản thuật tốn Nạve Bayes tính tốn trên mơi trƣờng ngơn ngữ thơng thƣờng sẽ khơng đƣợc tối ƣu về hiệu suất thời gian, việc kết hợp thuật tốn Nạve Bayes chạy trên mơi trƣờng Spark đã giải quyết đƣợc vấn đề này. Spark cho

75

phép xây dựng các mơ hình dự đốn nhanh chĩng với việc tính tốn đƣợc thực hiện trên một nhĩm các máy tính, cĩ cĩ thể tính tốn cùng lúc trên tồn bộ tập dữ liệu mà khơng cần phải trích xuất mẫu tính tốn thử nghiệm. Tốc độ xử lý của Spark cĩ đƣợc do việc tính tốn đƣợc thực hiện cùng lúc trên nhiều máy khác nhau. Ngồi ra, Nạve Bayes là một thuật tốn phân loại tuyến tính dựa trên tính tốn xác suất cơ bản và cĩ điều kiện chính điều này đã làm cho việc tính tốn trở nên đơn giản hơn và vẫn đảm bảo độ chính xác nhiều hơn. Thơng qua việc thực nghiệm 2 mơ hình, cĩ thể thấy đƣợc sự khác biệt đĩ.

Kết quả Mơ hình thực nghiệm 1 Mơ hình thực nghiệm 2 Đếm tổng số dữ liệu đầu vào và đếm số lƣợng dự đốn lỗi ổ cứng bị thiếu dữ liệu (%) 94.24460431654677% 94.24460431654677%

Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART (%)

95.23381294964028% 95.23381294964028% Thời gian tính tốn 0:00:19.879193 0:00:00.028065

Bảng 3.3: So sánh kết quả thu đƣợc qua mơ hình thực nghiệm 1 và mơ hình thực nghiệm 2.

76

KẾT LUẬN 1. Kết quả đạt đƣợc của luận văn

Trong nội dung nghiên cứu đề tài “Ứng dụng mơ hình học máy Nạve

Bayes trên mơi trƣờng Spark cho bài tốn dự báo khả năng hỏng của đĩa cứng máy tính”, bản thân đã tìm hiểu các thuật tốn dự báo, mơi trƣờng

Spark và áp dụng chúng lại với nhau. Những kết quả mà luận văn đã làm đƣợc:

- Khái quát đƣợc bài tốn dự báo khả năng hỏng của đĩa cứng máy tính trên mơi trƣờng Spark.

- Cách thức lập trình với mơi trƣờng Spark.

- Trình bày thuật tốn Nạve Bayes, trong bài tốn dự báo khả năng hỏng của đĩa cứng máy tính.

- Giải quyết đƣợc vấn đề về mặt hiệu suất thời gian giữa việc triển khai thuật tốn Nạve Bayes đơn thuần với việc triển khai thuật tốn trên mơi trƣờng Spark.

- Ứng dụng thuật tốn Nạve Bayes và tiến hành thực nghiệm trên mơi trƣờng Spark với dữ liệu thực đƣợc thu thập.

2. Kiến nghị và hƣớng nghiên cứu tiếp theo

Dữ liệu từ các thiết bị cơng nghệ ngày một phát triển, việc dự báo khả năng hỏng của các thiết đã là một trong các vấn đề đƣợc quan tâm để cĩ phƣơng án thay thế hay sao lƣu dữ liệu quan trọng tránh mất mát dữ liệu, tiết kiệm chi phí đầu tƣ mua sắm, cũng nhƣ đảm bảo về mặt dữ liệu thơng tin, …v.v. Hầu hết các cấu trúc dữ liệu của thiệt bị đều đƣợc biểu diễn dƣới dạng điều kiện cĩ xác suất. Vì vậy, việc nghiên cứu các thuật tốn về dự báo khả năng hỏng của các thiết bị đã và đang đƣợc nghiên cứu, nhằm tối ƣu hĩa các thuật tốn đƣa ra các dự báo chính xác nhất.

77

Hƣớng nghiên cứu tiếp theo của luận văn vẫn sẽ tiếp tục triển khai thuật tốn Nạve Bayes trên mơi trƣờng Spark với dữ liệu của các thiệt bị khác nhƣ (router, switch, Tivi, …v.v). Bên cạnh đĩ nghiên cứu tìm hiểu thêm các thuật tốn khác trên mơi trƣờng Spark để cĩ thể so sánh, đánh giá, và khẳng định tính hiệu quả của chúng trong việc dự báo khả năng hỏng của các thiết bị từ dữ liệu thiết bị lớn.

78

DANH MỤC TÀI LIỆU THAM KHẢO

[1] Nguyễn Thị Thùy Dƣơng, (2015). Nghiên cứu Lý thuyết Naive Bayes và Ứng dụng trong phân loại Văn bản tiếng việt, Luận văn thạc sĩ, Đại học

Cơng Nghệ Thơng Tin và Truyền Thơng.

[2] Trần Thị Oanh, (2006). Thuật tốn SELF-TRAINING Và CO-TRAINING Ứng dụng trong phân lớp văn bản, Khĩa luận tốt nghiệp, Đại học quốc gia

Hà Nội.

[3] Cagatay Catal, Ugur Sevim, Banu Diri, (2011), Practical development of an Eclipse-based software fault prediction tool using Naive Bayes algorithm, Expert Systems with Applications 38 (2011), pp. 2347–2353.

[4] Dan Jurafsky, James H. Martin, (2011), Text Classification and Naive Bayes, Stanford university All rights Reserved.

[5] Jason Brownlee, (2016), Master Machine Learning Algorithms: Discover

How they Work and Implement them from scratch.

[6] Jeffrey Dean and Sanjay Ghemawat, (2004), Mapreduce: Simplified Data Processing on Large Clusters, OSDI 2004.

[7] John King and Roger Magoulas, (2016), 2015 Data Science Salary Survey

Tools, Trends, What Pays (and What Doesn’t) for Data Professionals.

[8] Joseph F. Murray, Gordon F. Hughes and Kenneth Kreutz-Delgado, (2005), Machine Learning Methods for Predicting Failures in Hard Drives: A Multiple-Instance Application, Journal of Machine Learning

Research 6 (2005), pp. 783–816.

[9] Greg Hamerly and Charles Elkan, Bayesian approaches to failure prediction for disk drives, InEighteenth International Conference on

79

[10] Gordon F. Hughes, Joseph F. Murray, Kenneth Kreutz-Delgado, and Charles Elkan. Improved disk-drive failure warnings. IEEE Transactions

on Reliability, 51(3):350–357, September 2002.

[11] Mahmoud Parsian, (2015), Data Algorithms, pp. 327-362 - Tài liệu điện tử:

[12] TIEP HUU VU, 104 Electrical Engineering East Pennsylvania State University University Park, PA 16802, USA, “Học máy cơ bản (https://machinelearningcoban.com/)

[13] BACKBLAZE Company, 500 Ben Franklin Ct San Mateo, CA 94401, USA, “Hard Drive SMART Stats

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính (Trang 83)