(Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

82 9 0
(Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN VÕ CHÍ CƢỜNG ỨNG DỤNG MƠ HÌNH HỌC MÁY NAIVE BAYES TRÊN MƠI TRƢỜNG SPARK CHO BÀI TỐN DỰ BÁO KHẢ NĂNG HỎNG CỦA ĐĨA CỨNG MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 8480101 Ngƣời hƣớng dẫn: TS Hồ Văn Lâm LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Ứng dụng mơ hình học máy Nạve Bayes mơi trƣờng Spark cho tốn dự báo khả hỏng đĩa cứng máy tính” kết tự thân tơi tìm hiểu, nghiên cứu Các số liệu, dẫn chứng tài liệu tham khảo đƣợc trích dẫn thích đầy đủ Tơi xin chịu trách nhiệm luận văn LỜI CẢM ƠN Qua trình học tập thời gian nghiên cứu làm luận văn, trƣớc tiên xin gửi lời cảm ơn chân thành đến Thầy Cô giáo tham gia tổ chức, đạo trực tiếp giảng dạy suốt khóa học vừa qua Đặc biệt, xin gửi lời cảm ơn sâu sắc đến Thầy giáo hƣớng dẫn TS Hồ Văn Lâm, ngƣời tận tình bảo, góp ý, giúp đỡ tạo điều kiện để tơi hồn thành luận văn Cũng qua đây, tơi xin gửi lời cảm ơn đến anh chị học viên lớp cao học Khoa học máy tính khóa trƣớc giúp đỡ tơi nhiều q trình học tập nghiên cứu Cuối cùng, xin gửi lời cảm ơn đến gia đình bạn bè ln giúp đỡ, ủng hộ tơi suốt q trình học tập, nghiên cứu hoàn thành luận văn Trong thời gian qua cố gắng tập trung nghiên cứu tìm hiểu để hồn thành thật tốt luận văn nhƣng chắn cịn nhiều thiếu sót mong đƣợc nhận bảo Thầy Cô giáo để luận văn đƣợc hoàn thiện MỞ ĐẦU 1.1 Lý chọn đề tài Trong giới kỹ thuật số, sở hạ tầng vật lý thiết bị xƣơng sống nhiều quan, doanh nghiệp Dự báo thiết bị hỏng từ lâu mục tiêu cho ngƣời chịu trách nhiệm quản lý hiệu suất tài sản, tiến công nghệ cảm biến, công nghệ truyền thông, quản lý thông tin phân tích hƣớng tích cực cho việc dự báo độ hƣ hỏng thiết bị Không phải tất liệu có giá trị nhƣ nói đến việc dự đốn thiết bị hỏng, điều quan trọng phải xác định liệu cần thiết để quản lý thiết bị hỏng Dữ liệu đƣợc sử dụng cơng cụ phân tích tiên tiến để dự đốn hƣ hỏng là, dịng thời gian sản xuất, điều kiện thiết bị liệu kiện đƣợc sử dụng để kiểm soát theo dõi quy trình vật lý Đầu tƣ vào khoa học liệu kỹ phân tích tiên tiến với tập trung vào quản lý thiết bị, dự đoán giúp hỗ trợ nỗ lực cải tiến liên tục cho tổ chức công nghệ thông tin, tình trạng đầu tƣ doanh nghiệp, sau giúp đảm bảo dự án thành công quan trọng xây dựng khả đáp ứng yêu cầu cần thiết quan, doanh nghiệp Với tiến công cụ phân tích để dự báo thiết bị hỏng, tránh khỏi tổ chức với thiết bị quan trọng nhiệm vụ đầu tƣ phân tích nâng cao để giúp đảm bảo hoạt động an toàn đáng tin cậy Một công cụ mà luận văn hƣớng đến nghiên cứu thuật tốn Nạve Bayes mơi trƣờng Spark Đề tài nghiên cứu “Ứng dụng mơ hình học máy Nạve Bayes mơi trƣờng Spark cho tốn dự báo khả hỏng đĩa cứng máy tính” nhằm cài đặt ứng dụng mơ hình học máy Nạve Bayes để dự báo việc đĩa cứng máy tính bị hỏng nhằm tránh khỏi việc bị động việc quản lý đĩa cứng máy tính bị hƣ hỏng ngồi dự đốn nhà quản lý Đó mục tiêu then chốt để hƣớng đến nghiên cứu đề tài 1.2 Tổng quan tình hình nghiên cứu đề tài Nạve Bayes thuật toán dựa định luật Bayes lý thuyết xác suất để đƣa phán đoán nhƣ phân loại liệu dựa liệu đƣợc quan sát thống kê Thuật toán Naïve Bayes đƣợc ứng dụng nhiều lĩnh vực học máy dùng để đƣa dự đốn xác dựa tập liệu đƣợc thu thập, dễ hiểu có độ xác cao [8] Định luật Bayes đƣợc phát biểu nhƣ sau: P(A|B)= P(B|A) P (A) P(B) Trong đó: - P(A|B) xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy - P(B|A) xác suất xảy B biết A xảy - P(A) xác suất xảy riêng A mà không quan tâm đến B - P(B) xác suất xảy riêng B mà khơng quan tâm đến A Một số mơ hình áp dụng thuật tốn Nạve Bayes [5] - Multinomial model (Mơ hình đa thức) - Binary independence model (Mơ hình độc lập nhị phân) - Poisson Naïve Bayes Model - Connection between Poisson and Multinomial Model - Multinomial word model - Negative binomial Naïve Bayes Model Để xây dựng mơ hình cho tốn dự báo việc hƣ hỏng đĩa cứng máy tính Spark dự án phần mềm mã nguồn mở đƣợc phát triển Apache, nhằm thu giá trị có ích từ khối lƣợng, tốc độ tính đa dạng liệu (cấu trúc/phi cấu trúc) Ban đầu Spark đƣợc phát triển phịng thí nghiệm AMP Lab thuộc trƣờng Đại học California, Berkeley từ năm 2009 với mục đích nhằm nâng cao tốc độ xử lý hệ thống Hadoop Sau trở thành cơng cụ mã nguồn mở miễn phí từ năm 2010 đƣợc chuyển giao cho Apache Software Foundation vào năm 2013 Spark dần trở thành dự án trọng tâm Apache Software Foundation Phiên đƣợc công bố vào tháng 5/2014 phiên 2.0 đƣợc công bố tháng 7/2016 Phiên (tính đến tháng 09/2020) phiên 3.0.1 Tốc độ xử lý Spark có đƣợc việc tính tốn đƣợc thực lúc nhiều máy khác Đồng thời việc tính tốn đƣợc thực nhớ (in-memories) hay thực hoàn toàn RAM Spark cho phép xử lý liệu theo thời gian thực, vừa nhận liệu từ nguồn khác đồng thời thực việc xử lý liệu vừa nhận đƣợc (Spark Streaming) Ứng dụng thuật tốn Nạve Bayes cho toán dự báo đĩa cứng hỏng mơi trƣờng Spark để tăng tốc độ xử lý cho kết có độ xác cao từ lƣợng lớn liệu đƣợc thu thập ổ đĩa máy tính đƣa dự báo ổ đĩa hỏng Đó hƣớng nghiên cứu nhƣ mục tiêu mà đề tài muốn hƣớng đến 1.3 Mục tiêu nhiệm vụ nghiên cứu Tìm hiểu ứng dụng thuật tốn Nạve Bayes việc dự báo khả nẳng hỏng đĩa cứng máy tính, triển khai tảng Spark Thực nghiệm so sánh tốc độ so với thuật tốn khơng chạy tảng Spark 1.4 Nhiệm vụ nghiên cứu - Tìm hiểu thuật tốn Nạve Bayes - Tìm hiểu toán dự báo đĩa cứng hỏng - Tìm hiểu lập trình mơi trƣờng Spark - Cài đặt thuật tốn Nạve Bayes mơi trƣờng Spark cho toán dự báo đĩa cứng hỏng - Thực nghiệm đánh giá 1.5 Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu: - Thuật tốn Nạve Bayes - Bài toán dự báo đĩa cứng hỏng - Mơi trƣờng Spark - Phƣơng pháp lập trình thuật tốn Nạve Bayes mơi trƣờng Spark Phạm vi nghiên cứu: - Thuật tốn Nạve Bayes theo mơ hình lập trình MapReduce cài đặt thuật tốn mơi trƣờng Spark cho toán dự báo đĩa cứng hỏng CHƢƠNG 1: KIẾN THỨC TỔNG QUAN 1.1 Giới thiệu học máy 1.1.1 Học máy gì? Học máy (Machine Learning) lĩnh vực trí tuệ nhân tạo liên quan đến việc nghiên cứu xây dựng kĩ thuật cho phép hệ thống "học" tự động từ liệu để giải vấn đề cụ thể Ví dụ nhƣ máy "học" cách phân loại thƣ điện tử xem có phải thƣ rác (spam) hay không tự động xếp thƣ vào thƣ mục tƣơng ứng Học máy gần với suy luận thống kê (statistical inference) có khác thuật ngữ.[8] Học máy có mối liên hệ mật thiết với thống kê Học máy sử dụng mô hình thống kê để "ghi nhớ" lại phân bố liệu Tuy nhiên, không đơn ghi nhớ, học máy phải có khả tổng quát hóa đƣợc nhìn thấy đƣa dự đốn cho trƣờng hợp chƣa đƣợc nhìn thấy Lấy ví dụ xếp thƣ điện tử tự động nhƣ trên, hệ thống tự động sau trải qua q trình học từ liệu ("training") suy diễn số nguyên tắc riêng (chẳng hạn nhƣ xem xét nội dung: thƣ đƣợc viết tiếng Anh mà chứa số từ nhƣ "porn", "sell", "good product" ngƣời gửi đến từ Somalia ngƣời nhận Hà Nội không thân quen nhau) để định xem có phải thƣ rác hay khơng Tuy nhiên, nhƣ liệu huấn luyện (training data) có ngơn ngữ khác thực tế (tiếng Việt thay tiếng Anh) chí khơng phải dạng văn (dạng ảnh khiến cho việc bóc tách nội dung khó khơng thể) máy dự báo khơng xác Một số hệ thống học máy nỗ lực loại bỏ nhu cầu trực giác ngƣời việc phân tích liệu, hệ thống khác hƣớng đến việc tăng cộng tác ngƣời máy Không thể loại bỏ hồn tồn tác động ngƣời nhà thiết kế hệ thống phải định cách biểu diễn liệu chế đƣợc dùng để tìm kiếm đặc tính liệu Học máy đƣợc xem nỗ lực để tự động hóa số hoạt động phƣơng pháp khoa học Một số chƣơng trình tự động cập nhật thời gian thực (ví dụ nhƣ ngƣời sử dụng có thƣ bị xếp sai danh mục) Dƣới góc nhìn trí tuệ nhân tạo, động lực học máy nhu cầu thu thập tri thức (knowledge acquisition) Trong nhiều trƣờng hợp ta cần kiến thức chuyên gia, nhƣng kiến thức chun gia lĩnh vực cịn (theo dõi trạng thái đèn tín hiệu thiết bị điện, phân tích biến động thị trƣờng chứng khoán, dự báo khả hỏng đĩa cứng máy tính trung tâm DC, …) tìm đƣợc kiến thức chuyên gia bị chậm số nhiệm vụ cần đƣa định nhanh chóng dựa xử lý liệu khổng lồ (trong mua bán chứng khoán phải định khoảnh khắc vài giây chẳng hạn) thiếu ổn định buộc phải cần đến máy tính Ngồi ra, đại đa số liệu đƣợc sinh ngày phù hợp cho máy đọc (computer readable) tiềm tàng nguồn kiến thức quan trọng Học máy nghiên cứu cách thức để mơ hình hóa tốn cho phép máy tính tự động hiểu, xử lý học từ liệu để thực thi nhiệm vụ đƣợc giao nhƣ cách đánh giá giúp tăng tính hiệu Hiện nay, học máy lĩnh vực cho thấy tiến tiến trình trí tuệ nhân tạo (AI) có khả làm cho máy móc trở nên thơng minh Học máy đƣợc áp dụng rộng rãi bao gồm máy truy tìm liệu, chuẩn đốn y khoa, phát thẻ tín dụng giả, phân tích thị trƣờng chứng khốn, phân loại chuỗi ADN, nhận dạng tiếng nói chữ viết, dịch tự động, chơi trò chơi cử động rô-bốt (robot locomotion) Những năm gần đây, mà khả tính tốn máy tính đƣợc nâng lên tầm cao lƣợng liệu khổng lồ đƣợc thu thập hãng công nghệ lớn, học máy tiến thêm bƣớc dài lĩnh vực đƣợc đời gọi học sâu (Deep Learning) Nó giúp máy tính thực thi việc tƣởng chừng nhƣ vào 10 năm trƣớc: phân loại ngàn vật thể khác ảnh, tự tạo thích cho ảnh, bắt chƣớc giọng nói chữ viết ngƣời, giao tiếp với ngƣời, hay chí sáng tác văn hay âm nhạc.[8] 1.1.2 Các thành phần học máy Học có giám sát (Supervised learning) Q trình học có giám sát thực tế chuyển liệu đầu vào thành đầu theo mong muốn Trong thuật toán học máy đầu vào đƣợc gọi Input đầu kết tƣơng ứng đƣợc gán “nhãn” trƣớc tập liệu huấn luyện Điểm cần quan tâm mẫu liệu tập liệu huấn luyện cần phải biết trƣớc “nhãn” Học có giám sát kĩ thuật ngành học máy để xây dựng hàm (function) từ liệu huấn luyện Dữ liệu huấn luyện bao gồm cặp gồm đối tƣợng đầu vào (thƣờng dạng vec-tơ), đầu mong muốn Đầu hàm giá trị liên tục (gọi hồi qui), dự đốn nhãn phân loại cho đối tƣợng đầu vào (gọi phân loại) Nhiệm vụ học có giám sát dự đoán giá trị hàm cho đối tƣợng đầu vào hợp lệ, sau xem xét số ví dụ huấn luyện (nghĩa là, cặp đầu vào đầu tƣơng ứng) Để đạt đƣợc điều này, chƣơng trình học phải tổng quát hóa từ liệu sẵn có để dự đốn đƣợc tình chƣa gặp phải theo cách "hợp lý" Học có giám sát tạo hai loại mơ hình Phổ biến nhất, học có giám sát tạo mơ hình tồn cục (global model) để ánh xạ đối tƣợng đầu ... Spark Đề tài nghiên cứu ? ?Ứng dụng mơ hình học máy Nạve Bayes mơi trƣờng Spark cho tốn dự báo khả hỏng đĩa cứng máy tính? ?? nhằm cài đặt ứng dụng mơ hình học máy Nạve Bayes để dự báo việc đĩa cứng. .. đoan đề tài ? ?Ứng dụng mơ hình học máy Nạve Bayes mơi trƣờng Spark cho toán dự báo khả hỏng đĩa cứng máy tính? ?? kết tự thân tơi tìm hiểu, nghiên cứu Các số liệu, dẫn chứng tài liệu tham khảo đƣợc... (Spark Streaming) Ứng dụng thuật tốn Nạve Bayes cho tốn dự báo đĩa cứng hỏng mơi trƣờng Spark để tăng tốc độ xử lý cho kết có độ xác cao từ lƣợng lớn liệu đƣợc thu thập ổ đĩa máy tính đƣa dự báo

Ngày đăng: 22/11/2021, 20:06

Hình ảnh liên quan

Hình 1.1 Mơ hình làm việc của một cơng việc MapReduce - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 1.1.

Mơ hình làm việc của một cơng việc MapReduce Xem tại trang 17 của tài liệu.
Hình 1.2. Quy trình xử lý của MapReduce [6] - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 1.2..

Quy trình xử lý của MapReduce [6] Xem tại trang 19 của tài liệu.
Hình 1.3 Tỉ lệ sử dụng ngơn ngữ lập trình trong 2 năm 2014 và 2015 - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 1.3.

Tỉ lệ sử dụng ngơn ngữ lập trình trong 2 năm 2014 và 2015 Xem tại trang 22 của tài liệu.
Hình 1.4 Các thành phần của Apache Spark [11] - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 1.4.

Các thành phần của Apache Spark [11] Xem tại trang 23 của tài liệu.
Hình 2.1 Giai đoạn Training [3] - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 2.1.

Giai đoạn Training [3] Xem tại trang 29 của tài liệu.
Hình 2.3 Mơ tả tập dữ liệu theo định dạng file CSV - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 2.3.

Mơ tả tập dữ liệu theo định dạng file CSV Xem tại trang 38 của tài liệu.
Hình 2.4. Đọc dữ liệu. Tính độ lệch chuẩn  - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 2.4..

Đọc dữ liệu. Tính độ lệch chuẩn Xem tại trang 39 của tài liệu.
Hình 2.7. Tính xác suất của từng biến theo phân phối Gausian Dự đốn dựa vào xác suất  - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 2.7..

Tính xác suất của từng biến theo phân phối Gausian Dự đốn dựa vào xác suất Xem tại trang 41 của tài liệu.
Hình 2.9 Giai đoạn phân loại [5]. - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 2.9.

Giai đoạn phân loại [5] Xem tại trang 45 của tài liệu.
Bảng 3.1 Mơ tả các thơng số SMART từ thu thập dữ liệu - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Bảng 3.1.

Mơ tả các thơng số SMART từ thu thập dữ liệu Xem tại trang 61 của tài liệu.
Bảng 3.2 Ví dụ tỉ lệ phần trăm của hai đĩa cứng thơng qua số liệu thống kê SMART - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Bảng 3.2.

Ví dụ tỉ lệ phần trăm của hai đĩa cứng thơng qua số liệu thống kê SMART Xem tại trang 62 của tài liệu.
Hình 3.3: Input thƣ viện và cho máy học dữ liệu training và dữ liệu test trên mơi trƣờng Spark - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 3.3.

Input thƣ viện và cho máy học dữ liệu training và dữ liệu test trên mơi trƣờng Spark Xem tại trang 64 của tài liệu.
Hình 3.6: Đọc và kiểm tra data training và data testing. - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 3.6.

Đọc và kiểm tra data training và data testing Xem tại trang 66 của tài liệu.
Hình 3.11: Kết quả thu đƣợc từ đếm tổng số dữ liệu đầu vào và đếm số lƣợng dự đốn lỗi ổ cứng bị thiếu dữ liệu - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 3.11.

Kết quả thu đƣợc từ đếm tổng số dữ liệu đầu vào và đếm số lƣợng dự đốn lỗi ổ cứng bị thiếu dữ liệu Xem tại trang 69 của tài liệu.
Hình 3.12: Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART. - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 3.12.

Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART Xem tại trang 71 của tài liệu.
Hình 3.13: Triển khai mơi trƣờng Spark bằng googlecolab - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 3.13.

Triển khai mơi trƣờng Spark bằng googlecolab Xem tại trang 72 của tài liệu.
Hình 3.14: Import thƣ viện và mơi trƣờng spark - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 3.14.

Import thƣ viện và mơi trƣờng spark Xem tại trang 72 của tài liệu.
Hình 3.15: Cho máy học training data và testing data - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 3.15.

Cho máy học training data và testing data Xem tại trang 73 của tài liệu.
Hình 3.16: Triển khai áp dụng thuật tốn NạveBayes - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 3.16.

Triển khai áp dụng thuật tốn NạveBayes Xem tại trang 73 của tài liệu.
- Thứ 2: Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART. - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

h.

ứ 2: Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART Xem tại trang 75 của tài liệu.
Hình 3.18: Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART trên mơi trƣờng Spark. - (Luận văn thạc sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính

Hình 3.18.

Kết quả thu đƣợc từ việc sắp xếp các giá trị SMART trên mơi trƣờng Spark Xem tại trang 77 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan