Nội dung thuật tốn

Multinomial Bayes tính tốn xác suất trong 1 văn bản cho trước.

Tập hợp các lớp được đĩng gĩp bởi C. N là số lượng từ. Khi đĩ mơ hình Multinomial Bayes sẽ gán văn bản 𝑡𝑖 với lớp cĩ xác suất lớn nhất Pr (𝑐|𝑡𝑖). Sử dụng định lý Bayes như sau [16]:

Pr(𝑐|𝑡𝑖) = Pr (𝑐)Pr (𝑡𝑖|𝑐)

Pr (𝑡𝑖) , 𝑐 ∈ 𝐶

(2.4)

Xác xuất tiên nghiệm của lớp Pr(𝑐) được ước lượng bằng cách chia số lượng văn bản thuộc lớp c cho tổng số lượng văn bản. Pr (𝑡𝑖|𝑐) là xác suất cĩ được văn bản giống 𝑡𝑖 trong lớp c và được tính tốn theo cơng thức:

Pr(𝑐|𝑡𝑖) = (∑ 𝑓𝑛𝑖 𝑛 ) ! ∏Pr (𝑤𝑛|𝑐)𝑓𝑛𝑖 𝑓𝑛𝑖! 𝑛 (2.5)

Trong đĩ 𝑓𝑛𝑖 là tổng số từ n trong văn bản 𝑡𝑖 và Pr (𝑤𝑛|𝑐) là xác suất của từ n trong lớp c cho trước. Xác suất Pr (𝑤𝑛|𝑐)sẽ được ước lượng từ tập dữ liệu huấn luyện theo cơng thức:

Pr̂(𝑤𝑛|𝑐) = 1 + 𝐹𝑛𝑐 𝑁 + ∑𝑁 𝐹𝑥𝑐

𝑥=1

Trong đĩ 𝐹𝑥𝑐 là tổng tất cả các từ x trong tất cả các tập huấn luyện của lớp c. Và ước lượng Laplace được dùng để nĩi đến số lượng của mỗi từ để tránh vấn đề tần suất bằng 0 [15]. Hệ số chuẩn hĩa Pr(𝑐|𝑡𝑖) trong cơng thức (2.4) được tính bằng cơng thức:

Pr(𝑡𝑖) = ∑ Pr (𝑘)Pr (𝑡𝑖|𝑘) |𝐶|

𝑘=1

(2.7)

Chú ý rằng (∑ 𝑓𝑛 𝑛𝑖) và ∏ 𝑓𝑛 𝑛𝑖 trong cơng thức (2.5) cĩ thể bị triệt tiêu mà gây ra bất kỳ thay đổi nào trong kết quả bởi vì nĩ khơng phụ thuộc vào lớp c và cơng thức (2.5) cĩ thể viết rút gọn thành:

Pr(𝑡𝑖|𝑐) = 𝛼 ∏ Pr (𝑤𝑛|𝑐)𝑓𝑛𝑖 𝑛

(2.8)

Cách tính này cĩ một hạn chế là nếu cĩ một từ mới chưa bao giờ xuất hiện trong class c thì biểu thức sẽ bằng 0.

Để giải quyết việc này, một kỹ thuật được gọi là Laplace smoothing được áp dụng:

𝑡̂ = 𝑖 𝑁𝑐𝑖+ 𝛼 𝑁𝑐+ 𝑑𝛼

(2.9)

- Với 𝛼 là một số dương, thường cĩ giá trị bằng 1 để tránh trường hợp tử số bằng 0.

- Mẫu số được cộng với 𝑑𝛼 để đảm bảo tổng xác suất ∑𝑑 𝑡̂ =𝑐𝑖 𝑖=1 1.

- Như vậy, mỗi class 𝑐 sẽ được mơ tả bởi bộ các số dương cĩ tổng bằng 1:

Tiền xử lý văn bản

Kỹ thuật Bag of word