Phân lớp Bayesian ngây thơ

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 36 - 38)

Classifier Bayesian ngây thơ hay classifier Bayessian đơn giản làm việc như sau: 1. Mỗi mẫu dữ liệu được đại diện bởi một vector đặc trưng n-chiều, 𝑋 = (𝑥1,𝑥2,, … , 𝑥𝑛}, mơ tả n phép đo cĩ được trên mẫu từ n thuộc tính tương ứng 𝐴1,𝐴2,, … , 𝐴𝑛.

2. Giả sử rằng cĩ m lớp 𝐶1,𝐶2,, … , 𝐶𝑚. Cho trước một mẫu dữ liệu chưa biết nhãn lớp X, classifier sẽ dự đốn X thuộc về lớp cĩ xác suất hậu nghiệm cao nhất, với điều kiện trên X. Classifier Bayesian ngây thơ ấn định một mẫu khơng biết X vào một lớp 𝐶𝑖 khi và chỉ khi:

𝑃(𝐶𝑖|X) > 𝑃(𝐶𝑗|X) 𝑣ớ𝑖 1 ≤ j ≤ m, j ≠ 𝑖

Do vậy cần tìm P(Ci|X) lớn nhất. Theo định lý Bayes (Phương trình 2.4):

𝑃(𝐶𝑖|X) =𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖)

𝑃(𝑋) (2.5)

3. P(X) khơng đổi với mọi lớp, P(𝐶𝑖)= 𝑠𝑖/s (𝑠𝑖 là số lượng các mẫu huấn luyện của lớp 𝐶𝑖 và s là tổng số các mẫu huấn luyện), 𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖) cần được cực đại.

4. Cho trước các tập dữ liệu với nhiều thuộc tính, việc tính P(X|𝐶𝑖) sẽ rất tốn kém. Để giảm tính tốn khi đánh giá P(X|𝐶𝑖), giả định ngây thơ của độc lập cĩ điều kiện lớp được thiết lập. Điều này làm cho giá trị của các thuộc tính là độc lập cĩ điều kiện với nhau, cho trước nhãn lớp của mẫu, tức là khơng cĩ mối quan hệ độc lập giữa các thuộc tính. Vì thế,

𝑃(𝑋|𝐶𝑖) = ∏ 𝑃(𝑥𝑘|𝐶𝑖) (2.6) 𝑛

𝑘=1

P(𝑥1|𝐶𝑖), P(𝑥2|𝐶𝑖),..., P(𝑥𝑛|𝐶𝑖) được đánh giá từ các mẫu huấn luyện với:

(a) Nếu 𝐴𝑘 là xác thực thì P(𝑥𝑘|𝐶𝑖)= 𝑠𝑖𝑘/𝑠𝑖 với 𝑠𝑖𝑘 là số lượng các mẫu huấn luyện của lớp 𝐶𝑖 cĩ giá trị 𝑥𝑘 tại 𝐴𝑘 và 𝑠𝑖 là số lượng các mẫu huấn luyện thuộc về Ci.

(b) Nếu 𝐴𝑘 là giá trị liên tục thì thuộc tính được giả định cĩ phân phối Gaussian. Bởi vậy,

𝑃(𝑥𝑘|𝐶𝑖) = g(𝑥𝑘, 𝜇𝐶𝑖, 𝜎𝐶𝑖) = 1 √2𝜋𝜎𝐶𝑖 𝑒 −(x−𝜇𝐶𝑖)2 2σ𝐶𝑖2 (2.7)

với g(𝑥𝑘, 𝜇𝐶𝑖, 𝜎𝐶𝑖) là hàm mật độ (thơng thường) Gaussian của thuộc tính 𝐴𝑘,với

𝜇𝐶𝑖, 𝜎𝐶𝑖 đại diện cho các giá trị trung bình và độ lệch chuẩn của thuộc tính 𝐴𝑘 đối với các mẫu huấn luyện của lớp 𝐶𝑖.

5. Để phân lớp một mẫu chưa biết X, với P(X|𝐶𝑖)P(𝐶𝑖) được đánh giá cho lớp 𝐶𝑖. Mẫu X được ấn định vào lớp 𝐶𝑖 khi và chỉ khi:

𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖) > 𝑃(𝑋|𝐶𝑗)𝑃(𝐶𝑗) với 1 ≤ j ≤ m, j ≠ 𝑖

Hay nĩi cách khác, nĩ được ấn định tới lớp 𝐶𝑖 mà tại đĩ P(X|𝐶𝑖)P(𝐶𝑖) cực đại. Ví dụ 2.4: Dự đốn một nhãn lớp sử dụng phân lớp Bayesian ngây thơ: Ta cần dự đốn nhãn lớp của một mẫu chưa biết sử dụng phân lớp Bayesian ngây thơ, với cùng dữ liệu huấn luyện đã cĩ trong ví dụ 2.2 cho cây quyết định quy nạp. Dữ liệu huấn luyện trong bảng 2.1. Các mẫu dữ liệu được mơ tả bởi các thuộc tính tuổi, thu nhập, sinh viên độ tín nhiệm. Thuộc tính nhãn lớp muamáy tính cĩ hai giá trị riêng biệt (tên là {khơng}). Cho 𝐶1tương đương với lớp mua máy tính = cĩ và 𝐶2 tương đương với lớp mua máy tính = khơng. Mẫu chưa biết ta sẽ phân loại chúng là:

X = (tuổi = "<30", thu nhập=trung bình, sinh viên= cĩ, độ tín nhiệm=khá tốt)

Ta cần cực đại hố P(X|𝐶1)P(𝐶1) với i=1,2. P(𝐶1) là xác suất tiên nghiệm của mỗi lớp cĩ thể được tính tốn dựa trên các mẫu huấn luyện:

P(mua máy tính = cĩ) = 9/14 = 0.643

P(mua máy tính = khơng) = 5/14 = 0.357

Để tính P(X|Ci) với i=1,2, ta tính các xác suất cĩ điều kiện sau:

P(tuổi = "<30" | mua máy tính = cĩ) = 2/9 = 0.222

P(tuổi = "<30" | mua máy tính = khơng) = 3/5 = 0.600

P(thu nhập = trung bình | mua máy tính = cĩ) = 4/9 = 0.444

P(thu nhập = trung bình | mua máy tính = khơng) = 2/5 = 0.400

P(sinh viên = cĩ | mua máy tính = cĩ) = 6/9 = 0.667

P(độ tín nhiệm = khá tốt | mua máy tính = cĩ) = 6/9 = 0.667

P(độ tín nhiệm = khá tốt | mua máy tính = khơng) = 2/5 = 0.400 Sử dụng các xác suất ở trên ta cĩ:

P(X|mua máy tính = cĩ) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044

P(X|mua máy tính = khơng) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019

P(Xjmua máy tính = cĩ)P(mua máy tính = cĩ) = 0.044x 0.643 = 0.028

P(Xjmua máy tính = khơng)P(mua máy tính = khơng) = 0.019 x 0.357 = 0.007 Bởi vậy, classifier Bayesian ngây thơ dự đốn "mua máy tính = cĩ" cho mẫu X.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa (Trang 36 - 38)

Tải bản đầy đủ (PDF)

(82 trang)