Nạve Bayes
5.2.5.1. Giới thiệu
Phân loại văn bản là một lĩnh vực cĩ phạm vi thuộc tính (attribute) rất nhiều bởi vì thuộc tính của những văn bản cần phân loại là từ (word), mà số lượng từ khác nhau thì vơ cùng lớn. Và thuật tốn Nạve Bayes đã thành cơng trong việc ứng dụng vào lĩnh vực phân loại với khả năng làm giảm độ phức tạp trên. Mặc dù đây là thuật tốn khá phổ biến, nhưng trong cộng đồng phân loại văn bản vẫn cĩ một vài điều lẫn lộn về phương pháp phân loại Nạve Bayes bởi vì cĩ hai mơ hình phát sinh khác nhau vẫn thường được sử dụng. Cả hai mơ hình đều sử dụng “nạve Bayes assumption” và cả hai đều được giới phân loại gọi là “nạve Bayes”.
5.2.5.2. Mơ hình đa biến trạng Bernoulli (Multi-variate Bernoulli Model)
Một mơ hình biểu diễn một văn bản là một vector cĩ thuộc tính nhị phân cho biết rằng từ nào cĩ hay khơng xuất hiện trong văn bản. Số lần xuất hiện của một từ
trong văn bản là khơng cần thiết. Ởđây chúng ta cĩ thể hiểu rằng văn bản là sự kiện (event) và sự cĩ mặt hay vắng mặt của các từ trở thành thuộc tính của sợ kiện. Đấy chính là mơ hình sự kiện đa biến trạng Bernoulli (multi-variate Bernoulli event model), một mơ hình khá truyền thống, đã được nhiều người sử dụng trong phân loại văn bản. Theo McCallum & Nigam (1998), một số cơng trình tiêu biểu về
hướng tiếp cận này là Robertson & Sparck-Jones (1976), Lewis(1992), Kalt & Croft (1996), Larkey & Croft (1996), Koller & Sahami (1997), Sahami (1996).
5.2.5.3. Mơ hình đa thức (Multinomial Model)
Mơ hình thứ hai cho rằng một văn bản đại diện tập hợp tần số xuất hiện của từ
trong văn bản. Do đĩ, thứ tự xuất hiện của từ được bỏ qua nhưng tần số xuất hiện
được giữ lại. Ở đây, chúng ta cĩ thể hiểu rằng những tần số xuất hiện của các từ là những sự kiện (events) và văn bản trở thành tập hợp các sự kiện của từ (word events). Chúng ta gọi đây là sự kiện mơ hinh đa thức (Multinomial event model).
Đây là hướng tiếp cận thơng thường trong mơ hình ngơn ngữ học thống kê. Hướng tiếp cận này cũng được rất nhiều người sử dụng mà theo McCallum & Nigam (1998) các cơng trình tiêu biểu như Lewis & Gale (1994), Kalt & Croft (1996), Joachims (1997), Mitchell (1997), McCallum et al (1998)…
5.2.5.4. Nhận xét
Đối với phương pháp multi-variate model, việc khơng nắm bắt thơng tin tần số
xuất hiện của từ cĩ thểđưa đến khuyết điểm khơng phân biệt được văn bản ưu tiên cho chủ đề nào hơn nếu cả 2 văn bản đều xuất hiện cùng một từ nào đĩ nhưng tần số lại khác nhau rất nhiều. Ví dụ, nếu từ “thể thao” sẽ xuất hiện nhiều trong các tin tức về thể thao, và sẽ ít xuất hiện trong các tin tức cĩ nội dung khác, nhưng do phương pháp multi-variate khơng sử dụng thơng tin tần số nên khơng phân biệt
được văn bản ưu tiên cho thể thao hơn. Trong khi đĩ, hướng tiếp cận multinomial model rõ ràng đã sử dụng thơng tin về xác suất phân phối từ trong văn bản.
Đối với phương pháp mulnomial, do sử dụng tần số xuất hiện của từ nên sẽ phụ
thuộc vào chiều dài văn bản, vì tài liệu càng dài, sự xuất hiện của các từ càng nhiều. Theo kết quả đạt được của thí nghiệm so sánh giữa hai phương pháp Nạve Bayes trên, McCallum & Nigam (1998) đã đưa ra kết quả là hướng tiếp cận đa biến trạng thực hiện tốt với kích thước từ vựng nhỏ (<500 từ), cịn phương pháp mơ hình
đa thức thường cho kết quả tốt hơn đối với kích thước từ vựng lớn (>500 từ).
5.3. Bài tốn phân loại tin tức điện tử tiếng Việt