NạveBayes theo mơ hình lập trình MapReduce cho bài tốn dự báo

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính (Trang 48 - 50)

Phần này sẽ trình bày thuật tốn Nạve Bayes theo mơ hình lập trình MapReduce để phân loại dữ liệu mẫu tƣợng trƣng cĩ kích thƣớc lớn. Để áp dụng trên mơ hình MapReduce, giả định cĩ bộ dữ liệu chuẩn (cho phép sử dụng định lý Bayes về tính xác suất và xác suất cĩ điều kiện). Mục tiêu của giải pháp rút gọn theo mơ hình MapReduce là phân loại dữ liệu thành một tập hợp các lớp k đƣợc xác định rõ (đƣợc xác định bởi dữ liệu training) và đƣợc xác định bởi {C1, C2, ..., Ck}.

Để làm việc với dữ liệu số, chúng ta cần phải tính tốn giá trị trung bình và phƣơng sai của dữ liệu đào tạo. Sau đĩ, sẽ sử dụng các giá trị này (trung bình và phƣơng sai) trong trình phân loại để phân loại dữ liệu số mới. Trong ví dụ số này, cĩ hai lớp: {C1, C2} = {hỏng, khơng hỏng}.

Giả sử cĩ bốn ổ đĩa hỏng và bốn ổ đĩa khơng hỏng trong dữ liệu training của tơi, tơi cĩ các lớp cĩ thể trang bị: P (hỏng) = P (khơng hỏng) = 0,5.

Đối với dữ liệu số (các thuộc tính liên tục nhƣ giá trị Smart5, Smart12 và Smart187), nên sử dụng phân phối chuẩn Gaussian nhƣ đƣợc nêu ở đây.

40

Đặt x là một thuộc tính liên tục (ví dụ, giá trị số). Đầu tiên, tiến hành phân đoạn dữ liệu của lớp, và sau đĩ tính tốn giá trị trung bình ( ) và phƣơng sai ( 2

) của x trong mỗi lớp. Phân phối chuẩn Gaussian cho xác suất cĩ điều kiện cĩ thể đƣợc biểu thị nhƣ sau: P(x=v|c) 1 c√2 e v c 2 2 c2 Trong đĩ:

- c là giá trị trung bình của từng biến dầu vào x trong lớp c.

- c2 là phƣơng sai của từng biến đầu vào x trong lớp c ( c là độ lệch chuẩn của các từng biến đầu vào x trong lớp c).

Trong thống kê Bayes, xác suất sau là xác suất của các tham số T đƣa ra bằng chứng X và đƣợc viết là:

P (T | X)

Mục tiêu là phân loại dữ liệu này là hỏng / khơng hỏng (nghĩa là muốn xác định xác suất nào lớn hơn, hỏng hay khơng hỏng). Theo định lý của Bayes, chúng ta cĩ thể diễn đạt điều này nhƣ sau:

posterior(error) = evidenceError / evidence posterior(noerrors)= evidenceNoerror / evidence

Các evidenceError, evidenceNoerrors, và bằng chứng biến (cịn đƣợc gọi là hằng số bình thƣờng) cĩ thể đƣợc tính nhƣ sau vì tổng của posterior bằng 1: EvidenceError = P(error) * P(smart5|error) * P(smart12|error) * P(smart184|error)* P(smart187|error)* P(smart197|error)* evidenceNoerror = P(noerror) * P(smart5|Noerror) *

41 P(smart12|Noerror) *

P(smart184|Noerror) * P(smart187|Noerror) * P(smart197|Noerror)

evidence = evidenceError + evidenceNoerror

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng mô hình học máy naivebayes trong môi trường spark cho bài toán dự báo khả năng hỏng của đĩa cứng máy tính (Trang 48 - 50)

Tải bản đầy đủ (PDF)

(88 trang)