Một số kiểu mơ hình NạveBayes

Mơ hình này đƣợc sử dụng chủ yếu trong loại dữ liệu mà các thành phần là các biến liên tục.

Với mỗi chiều dữ liệu i và một class y, xi tuân theo một phân phối chuẩn cĩ kỳ vọng c i và phƣơng sai ci2: P(xi|c)=P(xi| c i, ci2 )= 1 √2 ci2 exp(-(xi- ci)2 2 ci2 ) (4) Trong đĩ, bộ tham số ={ c

i, c2i } đƣợc xác định bằng khả năng tối đa:

( c i, c2i )= arg max ci, ci2 ∏ p(xi(n)| c i, c2i) N n=1 (5)

Đây là cách tính của thƣ viện sklearn. Ta cĩ thể đánh giá các tham số bằng MAP nếu biết trƣớc priors của kỳ vọng c

i và phƣơng sai ci2.

Multinomial Nạve Bayes

Mơ hình này chủ yếu đƣợc sử dụng trong phân loại văn bản mà vectors đặc trƣng đƣợc tính bằng tập hợp các từ. Lúc này mỗi văn bản đƣợc biểu diễn bởi một vector cĩ độ dài d chính là số từ trong từ điển. Giá trị của thành phần thứ i trong mỗi vector chính là số lần từ thứ i xuất hiện trong văn bản đĩ.

Khi đĩ, P(xi|c) tỉ lệ với tần suất từ thứ i (hay đặc tính thứ i cho trƣờng hợp tổng quát) xuất hiện trong các văn bản của class c. Giá trị này cĩ thể đƣợc tính bằng cách:

ci=p(xi|c)=Nci

Nc (6)

Trong đĩ:

- Nci là tổng số lần từ thứ i xuất hiện trong các văn bản của class c, nĩ đƣợc tính là tổng của tất cả các thành phần thứ i của các vectors đặc trƣng ứng với class c.

- Nc là tổng số từ (kể cả lặp) xuất hiện trong class c. Nĩi cách khác, nĩ bằng tổng độ dài của tồn bộ các văn bản thuộc vào class c. Cĩ thể suy ra rằng Nc=∑di=1Nci, từ đĩ ∑d ci

i=1 =1.

Cách tính này cĩ một hạn chế là nếu cĩ một từ mới chƣa bao giờ xuất hiện trong class c thì biểu thức (6) sẽ bằng 0, điều này dẫn đến vế phải của (3) bằng 0 bất kể các giá trị cịn lại cĩ thể lớn thế nào. Việc này dẫn đến kết quả khơng chính xác.

Để giải quyết việc này, một kỹ thuật đƣợc gọi là làm mịn Laplace (Laplace smoothing) đƣợc áp dụng:

̂ci= Nci+

Nc+d (7)

Với là một số dƣơng, thƣờng bằng 1, để tránh trƣờng hợp tử số bằng 0. Mẫu số đƣợc cộng với d để đảm bảo tổng xác suất ∑d ci

i=1 =1.

Nhƣ vậy, mỗi class y sẽ đƣợc mơ tả bởi tồn bộ các số dƣơng cĩ tổng bằng 1.

Bernoulli Nạve Bayes

Mơ hình này đƣợc áp dụng cho các loại dữ liệu mà mỗi thành phần là một giá trị nhị phân bằng 0 hoặc 1. Ví dụ: cũng với loại văn bản nhƣng thay vì đếm tổng số lần xuất hiện của 1 từ trong văn bản, ta chỉ cần quan tâm từ đĩ cĩ xuất hiện hay khơng.

Khi đĩ, p(xi|c) đƣợc tính bằng:

p(xi|c)=p(i|c)xi(1-p(i|c)1-xi)

Với p(i|c) cĩ thể đƣợc hiểu là xác suất từ thứ i xuất hiện trong các văn bản của class c.

Thành phần của Apache Spark

Giám sá tổ đĩa cứng