Mô hình đa biến trạng Bernoulli (Multi-variate Bernoulli Model)

Một phần của tài liệu Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử - 2 ppsx (Trang 38 - 39)

P XX Y= XY (2.2)

5.2.5.2. Mô hình đa biến trạng Bernoulli (Multi-variate Bernoulli Model)

Một mô hình biểu diễn một văn bản là một vector có thuộc tính nhị phân cho biết rằng từ nào có hay không xuất hiện trong văn bản. Số lần xuất hiện của một từ trong văn bản là không cần thiết. Ở đây chúng ta có thể hiểu rằng văn bản là sự kiện (event) và sự có mặt hay vắng mặt của các từ trở thành thuộc tính của sợ kiện. Đấy chính là mô hình sự kiện đa biến trạng Bernoulli (multi-variate Bernoulli event model), một mô hình khá truyền thống, đã được nhiều người sử dụng trong phân loại văn bản. Theo McCallum & Nigam (1998), một số công trình tiêu biểu về hướng tiếp cận này là Robertson & Sparck-Jones (1976), Lewis(1992), Kalt & Croft (1996), Larkey & Croft (1996), Koller & Sahami (1997), Sahami (1996).

5.2.5.3. Mô hình đa thc (Multinomial Model)

Mô hình thứ hai cho rằng một văn bản đại diện tập hợp tần số xuất hiện của từ trong văn bản. Do đó, thứ tự xuất hiện của từ được bỏ qua nhưng tần số xuất hiện được giữ lại. Ở đây, chúng ta có thể hiểu rằng những tần số xuất hiện của các từ là những sự kiện (events) và văn bản trở thành tập hợp các sự kiện của từ (word events). Chúng ta gọi đây là sự kiện mô hinh đa thức (Multinomial event model). Đây là hướng tiếp cận thông thường trong mô hình ngôn ngữ học thống kê. Hướng tiếp cận này cũng được rất nhiều người sử dụng mà theo McCallum & Nigam (1998) các công trình tiêu biểu như Lewis & Gale (1994), Kalt & Croft (1996), Joachims (1997), Mitchell (1997), McCallum et al (1998)…

5.2.5.4. Nhn xét

Đối với phương pháp multi-variate model, việc không nắm bắt thông tin tần số xuất hiện của từ có thể đưa đến khuyết điểm không phân biệt được văn bản ưu tiên cho chủ đề nào hơn nếu cả 2 văn bản đều xuất hiện cùng một từ nào đó nhưng tần số lại khác nhau rất nhiều. Ví dụ, nếu từ “thể thao” sẽ xuất hiện nhiều trong các tin tức về thể thao, và sẽ ít xuất hiện trong các tin tức có nội dung khác, nhưng do phương pháp multi-variate không sử dụng thông tin tần số nên không phân biệt được văn bản ưu tiên cho thể thao hơn. Trong khi đó, hướng tiếp cận multinomial model rõ ràng đã sử dụng thông tin về xác suất phân phối từ trong văn bản.

Đối với phương pháp mulnomial, do sử dụng tần số xuất hiện của từ nên sẽ phụ thuộc vào chiều dài văn bản, vì tài liệu càng dài, sự xuất hiện của các từ càng nhiều.

Theo kết quả đạt được của thí nghiệm so sánh giữa hai phương pháp Naïve Bayes trên, McCallum & Nigam (1998) đã đưa ra kết quả là hướng tiếp cận đa biến trạng thực hiện tốt với kích thước từ vựng nhỏ (<500 từ), còn phương pháp mô hình đa thức thường cho kết quả tốt hơn đối với kích thước từ vựng lớn (>500 từ).

Một phần của tài liệu Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử - 2 ppsx (Trang 38 - 39)

Tải bản đầy đủ (PDF)

(44 trang)