Lý do chọn phương pháp Nạve Bayes

Như đã được giới thiệu trong chương 2, Nạve Bayes là một phương pháp rất phổ biến sử dụng xác suất cĩ điều kiện giữa từ và chủđềđể xác định chủđề của văn bản. Các xác suất này dựa trên việc thống kê sự xuất hiện của từ và chủđề trong tập huấn luyện. Tập huấn luyện lớn cĩ thể mang lại kết quả khả quan cho Nạve Bayes. Internet với hơn 10 tỷ trang web là một tập huấn luyện rất phong phú về mọi chủđề

trong cuộc sống. Hơn nữa, với số lượng chủđề tin tức điện tử khơng nhiều (khoảng 20 chủ đề) thì việc sử dụng Internet như cơ sở dữ liệu huấn luyện rất phù hợp. Trong báo chí, với mỗi chủ đề luơn cĩ các từ chuyên mơn với tần số xuất hiện rất cao, việc tận dụng tần số phụ thuộc của các từ này vào chủđề cĩ thểđem lại kết quả

khả quan cho phân loại.

Với dữ liệu được tạo ra nhờ cơng cụ tách từ GA và trích xuất thơng tin từ

Google, theo đánh giá của chúng em, thì phương pháp Nạve Bayes là khá phù hợp vì các dữ liệu đầu vào cho hướng phân loại này hồn tồn phù hợp với dữ liệu hiện cĩ. Điều này sẽ giúp chúng em tiết kiệm được rất nhiều thời gian và cơng sức tạo thêm nhiều tập dữ liệu nếu chọn phương pháp phân loại khác.

Mặt khác, phương pháp Nạve Bayes là phương pháp khá cổđiển được sử dụng

đầu tiên bởi Maron vào năm 1961 [Maron, 1961], và sau đĩ rất phổ biến trong các lãnh vực tìm kiếm, lọc mail, các bộ lọc mail… nên chúng ta cĩ thể tin tưởng về xác suất chính xác và các ưu khuyết điểm của phương pháp này để áp dụng phù hợp.

Một lý do nữa mà chúng em chọn Nạve Bayes bởi phương pháp đơn giản, tốc

độ nhanh, cài đặt tương đối khơng quá phức tạp phù hợp với thời gian cho phép của luận văn. Chúng em khơng sử dụng kNN, do tập dữ liệu thử nghiệm hiện cĩ là tập

các tin tức vắn tắt lấy ngẫu nhiên từ trang VnExpress.net cịn khá nhỏ (dưới 1000). Trong khi đĩ để cĩ thể sử dụng phương pháp kNN hiệu quả số lượng chủđề và dữ

liệu thử nghiệm phải lớn hơn nhiều. SVM tuy là một phương pháp được cho là cĩ hiệu suất cao, nhưng thời gian huấn luyện lại rất lâu. Nnet lại cài đặt quá phức tạp.

Với những lý do trên, chúng em đề xuất chọn phương pháp Nạve Bayes để phân loại văn bản.

Linear Least Square Fit (LLSF)

So sánh giữa tiếng Việt và tiếng Anh