Giải thuật Naive Bayes (NB)

4. Các giải thuật về máy học [16-17, 21-23]

4.6. Giải thuật Naive Bayes (NB)

Xét bài tốn phân loại với C lớp 1, 2, ..., C. Giả sử cĩ một điểm dữ liệu x Rd. Tính xác suất để điểm dữ liệu này rơi vào lớp c:

p(y = c|x) hoặc p(c|x) (1).

Tức là tính xác suất để đầu ra là lớp c biết rằng đầu vào là vector x.

Biểu thức này, nếu tính được, giúp xác định được xác suất để điểm dữ liệu rơi vào mỗi lớp. Từ đĩ cĩ thể giúp xác định lớp của điểm dữ liệu đĩ bằng cách chọn ra lớp cĩ xác suất cao nhất:

c = arg maxc {1,...,C}p(c|x) (2).

Biểu thức (2) thường tính bằng quy tắc Bayes:

c = arg maxcp(c|x) = arg maxcp(x|c)p(c)/p(x) = arg maxcp(x|c)p(c) (3).

do mẫu số p(x) khơng phụ thuộc vào c. Tiếp tục xét biểu thức (3), p(c) cĩ thể được hiểu là xác suất để một điểm rơi vào class c. Giá trị này cĩ thể được tính bằng phương pháp MLE (maximum likelihood estimation), tức tỷ lệ số điểm dữ liệu trong tập huấn luyện rơi vào lớp này chia cho tổng số lượng dữ liệu trong tập huấn luyện, hoặc cũng cĩ thể được đánh giá bằng phương pháp MAP (maximum a posteriori).

Thành phần cịn lại p(x|c), tức phân phối của các điểm dữ liệu trong lớp c, thường rất khĩ tính tốn vì x là một biến ngẫu nhiên nhiều chiều, cần rất nhiều dữ liệu huấn luyện để cĩ thể xây dựng được phân phối đĩ. Việc tính tốn được đơn giản bằng cách giả sử rằng các thành phầncủa biến ngẫu nhiên x là độc lập với nhau, nếu biết c:

p(x|c) = p(x1,...,xd|c) =)กdi=1p(xi|c) (4).

Giả thiết các chiều của dữ liệu độc lập với nhau, nếu biết c, là quá chặt và ít khi tìm được dữ liệu mà các thành phần hồn tồn độc lập với nhau. Tuy nhiên, giả thiết này lại mang lại những kết quả tốt bất ngờ với tốc độ huấn luyện và kiểm tra nhanh phù hợp với bài tốn cĩ dữ liệu đầu vào lớn, vì vậy phương pháp xác định lớp của dữ liệu dựa trên giả thuyết này được gọi là Naive Bayes.

Ở bước huấn luyện, các phân phối p(xi|c), i=1,...d sẽ được xác định dựa vào tập dữ liệu huấn luyện. Việc xác định các giá trị này cĩ thể dựa vào phương pháp MLE hoặc MAP. Ở bước kiểm tra, lớp của một điểm dữ liệu mới x sẽ được xác định bởi:

c = arg maxc €{1,..,c}p(c)กdi=1p(xi|c) (5).

Khi áp dụng vào bài tốn thực tế với d lớn và các xác suất nhỏ, biểu thức ở vế phải của (5) sẽ là một số rất nhỏ, khi tính tốn cĩ thể gặp sai số. Để giải quyết việc này, biểu thức (5) thường được viết lại dưới dạng tương đương bằng cách lấy log của vế phải. Biểu thức p(c), c=1,...,c cĩ thể được xác định như là tần suất xuất hiện của lớp trong tập dữ liệu huấn luyện. Việc tính tốn p(xi|c) phụ thuộc vào loại dữ liệu. Cĩ ba loại được sử dụng phổ biến là: Gaussian Naive Bayes, Multinomial Naive Bayes, và Bernoulli Nạve[6].

Tổng quan về trí tuệ nhân tạo [6-9, 21]

Các phương thức về máy học