MỤC LỤC I Kiến thức sở 1 Biến cố ngẫu nhiên Định nghĩa xác xuất biến cố ngẫu nhiên Các tính chất xác suất Các công thức xác suất II Phân lớp Naive Bayes Định nghĩa Thực toán phân lớp Naive Bayes Ví dụ minh họa Kết luận Phân lớp Naive Bayes I Kiến thức sở Biến cố ngẫu nhiên 1.1 Phép thử ngẫu nhiên biến cố ngẫu nhiên Phép thử ngẫu nhiên thực nhóm điều kiện xác định Biến cố sơ cấp 1 , , , n , mô tả kết phép thử ngẫu nhiên Ví dụ : Tung lúc hai xúc xắc phép thử, việc lật mặt biến cố Bắn phát súng vào bia việc bắn súng phép thử viên đạn trúng bia (hay trật bia) biến cố Từ lô sản phẩm gồm phẩm phế phẩm Lấy ngẫu nhiên sản phẩm, việc lấy sản phẩm phép thử Còn lấy phẩm (hay phế phẩm) biến cố Tập hợp tất biến cố sơ cấp ={ 1 , , , n , } không gian biến cố sơ cấp tương ứng với phép thử Tập A biến cố ngẫu nhiên 1.2 Các quan hệ phép toán Ký A B nghĩa biến cố A xảy biến cố B xảy Biến cố A B biến cố xảy biến cố A B xảy A B biến cố xảy xảy đồng thời A B Hai biến cố A B gọi xung khắc, A B = A biến cố xảy A không xảy A \ B biến cố xảy A xảy B không xảy Ví dụ : Khi tung xúc xắc, gọi A biến cố “Xuất mặt có số chấm 5”, B biến cố “Xuất mặt có số chấm 3” Ta thấy biến cố A xảy biến cố B xảy Trang Phân lớp Naive Bayes Chọn ngẫu nhiên từ lớp KHMT A B lớp học sinh Gọi A biến cố “Bạn chọn từ lớp A nam”, B biến cố “Bạn chọn từ lớp B nam” Và C biến cố “Chọn học sinh nam” Rõ ràng biến cố C xảy hai biến cố A B xảy (C = A B) Tung xúc xắc, gọi A biến cố “Xuất mặt có số chấm 4” B biến cố “Xuất mặt có số chấm 4” C biến cố “Xuất mặt có số chấm 4” Khi ta thấy biến cố C xảy biến cố A B xảy ( C = A B) Tung xúc xắc, gọi A biến cố “Xuất mặt có số chấm 4” B biến cố “Xuất mặt có số chấm 2” Ta thấy hai biến cố A B xảy nên gọi biến cố xung khắc Tung xúc xắc, gọi A biến cố “Xuất mặt có số chấm chẵn” A biến cố “Xuất mặt có số chấm lẻ” Rõ ràng A A hai biến cố đối Định nghĩa xác xuất biến cố ngẫu nhiên Giả sử không gian biến cố sơ cấp gồm n biến cố sơ cấp đồng khả biến cố ngẫu nhiên A có m biến cố sơ cấp thuận lợi cho ( A = m) Khi xác suất biến cố A, kí hiệu P(A) xác định : P( A) m n Ví dụ : Từ hộp chứa 13 bi đỏ bi trắng Lấy ngẫu nhiên bi Xác suất lấy bi đỏ P( D) m 13 0.65 n 20 Xác suất lấy bi trắng P(T ) m 0.35 n 20 Ví dụ : Một có 52 quân bài, lấy Tính xác suất để quân rút có quân “Cơ” Gọi A biến cố “Lấy quân quân lại cơ” Biến cố sơ cấp thuận lợi cho A xảy : m C131 C392 Trang Phân lớp Naive Bayes Biến cố sơ cấp đồng khả : n C523 Vậy P( A) m 13 19 39 0.4359 n 25 17 52 Các tính chất xác suất P( A) 1; A P() Nếu {Ai , i=1,2, } dãy biến cố cho Ai Aj = , i j i 1 i 1 P( Ai ) P( Ai ) P( A ) = – P(A) P( ) = Nếu A B P(B \ A) = P(B) – P(A) Nếu A B P(A) P(B) Các công thức xác suất 4.1 Công thức cộng Giả sử A B hai biến cố Khi : P(A B) = P(A) + P(B) – P(A B) Giả sử A B hai biến cố xung khắc, tức A B = Khi : P(A B) = P(A) + P(B) 4.2 Xác suất có điều kiện Giả sử B biến cố ngẫu nhiên có P(B) > Xác suất biến cố A với điều kiện biến cố B xảy P( A | B) P( A B) P( B) Tính chất : P(A|B) P( | B) P(B|B) = Trang Phân lớp Naive Bayes Nếu {Ai} dãy biến cố xung khắc đôi một, tức : (Aj Ai = , i j), i 1 i 1 P( Ai | B) P( Ai | B) P( ) = 4.3 Công thức nhân P( A B) P( B) P( A | B) P( A) P( B | A) 4.4 Tính độc lập biến cố Hai biến cố ngẫu nhiên A B gọi độc lập : P(A B) = P(A) P(B) Tính chất : Giả sử P(B) > 0, biến cố A B độc lập P(A|B) = P(A) Nếu A B độc lập, A B , A B, A B độc lập Nếu biến cố A B1 độc lập; A B2 độc lập; B1 B2 = A (B1 B2) độc lập 4.5 Công thức xác suất đầy đủ n Giả sử B1,B2, ,Bn nhóm đầy đủ biến cố ( Bi Bi Bj = ; i j ; i 1 i,j=1,2, ,n) với P(Bi) > 0; i=1,2, ,n biến cố A xảy đồng thời với Bi Khi đó, ta có : n P( A) P( Bi ) P( A | Bi ) i 1 Các xác suất P(Bi); i=1,2, ,n gọi xác suất tiên nghiệm 4.6 Công thức xác suất Bayes Định lý Bayes cho phép tính xác suất xảy biến cố ngẫu nhiên B biết biến cố liên quan A xảy Xác suất kí hiệu P(B|A), hiểu “Xác suất xảy biến cố B có biến cố A” Đại lượng gọi xác suất có điều kiện hay xác suất hậu nghiệm rút từ giá trị cho A phụ thuộc vào giá trị Trang Phân lớp Naive Bayes Theo định lý Bayes, xác suất xảy B biết A phụ thuộc vào yếu tố: Xác suất xảy B riêng nó, không quan tâm đến A Kí hiệu P(B) đọc “Xác suất B” Đây gọi xác suất tiên nghiệm Xác suất xả A riêng nó, không quan tâm đến B Kí hiệu P(A) đọc “Xác suất A” Xác suất xảy A biết B xảy Kí hiệu P(A|B) đọc ”Xác suất B có A” Khi biết đại lượng này, xác suất B biết A tính công thức : P( B) P( A | B) P( A) P( B | A) Tổng quát : Giả sử B1,B2, ,Bn nhóm đầy đủ biến cố với P(Bi) > 0; i=1,2, ,n biến cố A xảy đồng thời với Bi Khi ta có : P( Bi | A) P( Bi ) P( A | Bi ) n P( Bi ) P( A | Bi ) i 1 Các xác suất P(Bi|A); i=1,2 ,n gọi xác suất hậu nghiệm Trong thực tế xác suất {P(B1),P(B2), ,P(Bn)} biết gọi xác suất tiên nghiệm Sau quan sát biến cố A xảy ra, xác suất Bi tính thông tin II Phân lớp Naive Bayes Định nghĩa Phân lớp Naive Bayes phương pháp phân lớp đơn giản dựa ứng dụng định lí Bayes với giả định độc lập bền vững Một thuật ngữ mô tả chi tiết cho mô hình xác suất “Mô hình đặc trưng không phụ thuộc” Phân lớp Naive Bayes giả định có mặt (hay mặt) đặc trưng lớp không liên quan đến diện (hay thiếu) đặc trưng Trang Phân lớp Naive Bayes Tùy thuộc vào tính xác chất mô hình xác suất, phân lớp Naive Bayes đào tạo hiệu học máy Trong nhiều ứng dụng thực tế, tham số ước lượng cho mô hình Naive Bayes sử dụng phương pháp maximum likelihood (ước lượng hợp lý cực đại) Một lợi phân lớp Naive Bayes đòi hỏi số lượng nhỏ liệu huấn luyện để ước lượng tham số cần cho việc phân loại Bởi biến giả định độc lập, khác biệt biến cho lớp học cần phải xác định mà toàn ma trận thống kê Thực toán phân lớp Naive Bayes Input : Cho bảng định hay nói bảng liệu huấn luyện (U,C,D) với D={d1,d2, ,dk} thuộc tính định; C={c1,c2, ,cm} thuộc tính độc lập đối tượng; U={u1,u2, ,un} tập đối tượng Đối tượng X(tt1,tt2, ,ttn), với tt1,tt2, ,ttm thuộc tính độc lập đối tượng X Output : Xác định phân lớp phù hợp đối tượng X Các bước thực hiện: Bước : Phân hoạch U / D chia đối tượng U thành k lớp U1,U2, ,Uk Tính P(Ui|X); với i k : xác suất lớp Ui X Để tính xác suất ta dựa vào công thức Mô hình Naive Bayes P(U i | X ) P( X | U i ) P(U i ) P( X ) Chọn P(Ui|X) có giá trị cực đại Bởi định lý Bayes sử dụng để chọn giả thuyết có xác suất cao từ tập mẫu huấn luyện Trang Phân lớp Naive Bayes P(X) không thay đổi tất lớp, muốn P(U i|X) cực đại P( X | U i ) P(U i ) cực đại Giá trị P(U i ) Ui U Giả sử C={c1,c2, ,cm} Khi : m P( X | U i ) P( x j | U i ) j 1 Với P( x j | U i ) sij si , sij đối tượng lớp Ui có giá trị thuộc tính cj xj si=|Ui| Bước : Dự đoán đối tượng X thuộc lớp Ui Chú ý số trường hợp : Nếu chọn giá trị max bước P(U j | X ) P(U i | X ); i j; i, j k mà P(Ui|X) = P(Uj|X) trường hợp đồng khả để chọn, nên ta đưa dự đoán sử dụng Naive Bayes Ví dụ minh họa Bảng liệu khách hàng U 10 11 12 13 14 Tuổi Youth Youth Middle-aged Senior Senior Senior Middle-aged Youth Youth Senior Youth Middle-aged Middle-aged Senior Thu nhập Sinh viên Đánh giá tín dụng Mua máy tính High No Fair No High No Exellent No High No Fair Yes Medium No Fair Yes Low Yes Fair Yes Low Yes Exellent No Low Yes Exellent Yes Medium No Fair No Low Yes Fair Yes Medium Yes Fair Yes Medium Yes Exellent Yes Medium No Exellent Yes High Yes Fair Yes Medium No Exellent No Trang Phân lớp Naive Bayes Xét khách hàng có thuộc tính sau có dự đoán người có mua máy tính hay không? X1(Senior,Medium,Yes,Fair) X2(Youth,Medium,Yes,Fair) Phân hoạch U / D chia đối tượng U thành lớp : U1={u U | u(muamaytinh)=yes} |U1| = s1=9 U2={u U | u(muamaytinh)=no} |U2| = s2=5 Tính P(Ui|X) : s1 j j 1 s1 s2 j j 1 s2 P(U1 | X ) P(U | X ) s11 s12 s13 s14 6 s1 s1 s1 s1 9 9 76 s21 s22 s23 s24 2 s2 s2 s2 s2 5 5 78 Ta có P(U1|X1) > P(U2|X1) nên ta dự đoán X1 U1 Điều có nghĩa khách hàng X1 mua máy tính s1 j j 1 s1 s2 j j 1 s2 P(U1 | X ) P(U | X ) s11 s12 s13 s14 6 s1 s1 s1 s1 9 9 91 s21 s22 s23 s24 2 s2 s2 s2 s2 5 5 52 Ta có P(U1|X2) > P(U2|X2) nên ta dự đoán X2 U1 Điều có nghĩa khách hàng X2 mua máy tính Kết luận Phương pháp Bayes nói việc tính xác suất kiện dựa vào kết thống kê kiện khứ Sau việc tính toán kiện gán xác suất với khả xảy với kiện Và cuối dựa vào ngưỡng để phân loại cho kiện Tuy nhiên biến mô hình Bayes phải độc lập với nhau, biến không độc lập với phương pháp Bayes cho kết Trang Phân lớp Naive Bayes thiếu xác Độ xác thuật toán phân lớp phụ thuộc nhiều vào tập liệu học ban đầu Trang