Phân tích các ưu khuyết điểm trong bài tốn phân loại văn bản

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 73)

bn tiếng Vit

Phân loại văn bản là một bài tốn khĩ địi hỏi cĩ sự hiểu biết về xử lý ngơn ngữ. Trong khi đĩ chúng ta đều biết ngơn ngữ ngồi sự phong phú về từ vựng cú pháp, cịn cĩ sự biến đổi liên tục. Chính vì thếđây là một thách thức rất lớn đối với những người muốn nghiên cứu về xử lý ngơn ngữ tự nhiên.

Tuy nhiên phải thấy rằng, thực tế trên thế giới, rất nhiều mơ hình máy học đã

được đưa ra thử nghiệm kiểm chứng cho bài tốn phân loại văn bản và đạt được kết quả rất khả quan. Đặc biệt trong sốđĩ, bài tốn phân loại văn bản áp dụng trên tiếng Trung Quốc, ngơn ngữ gần giống với tiếng Việt đã ghi nhận những thành cơng đáng kể. Đây là thuận lợi rất lớn giúp chúng ta cĩ cơ sở lý thuyết để nghiên cứu, cài đặt thử nghiệm và kế thừa và phát triển từ những thành quảđạt được.

Tuy vậy, mỗi ngơn ngữ lại cĩ những nét riêng mang tính bản sắc của ngơn ngữ. Chính những nét riêng này làm cho lĩnh vực xử lý ngơn ngữ tự nhiên trở nên thú vị. Đối với bài tốn phân loại văn bản tiếng Việt, cái khĩ khăn lớn nhất mà chúng ta cần giải quyết là bài tốn tách từ, bài tốn cơ bản nhất của tất cả các bài tốn liên quan đến xử lý ngơn ngữ tự nhiên áp dụng cho tiếng Việt. Thực tế hiện nay chưa cĩ một cơng trình nào cơng bố một cơng cụ cĩ khả năng tách từ cho kết quả mỹ mãn. Chính vì thế, kết quả đạt được của bài tốn phân loại văn bản tiếng Việt mới chỉ đạt ở mức chấp nhận được.

Với mong muốn tham gia giải quyết những khĩ khăn cơ bản nêu trên, chúng tơi đã tiến hành nghiên cứu và xây dựng đề tài này nhằm đưa ra một số hướng giải quyết khác. Hướng tiếp cận mới cho bài tốn tách từ tiếng Việt. Áp dụng mơ hình máy học sử dụng véc tơ hỗ trợ (Support vector machine – SVM) cho bài tốn phân loại văn bản tiếng Việt. Và hơn hết chúng tơi cũng đề ra một hướng giải quyết cho bài tốn phân loại văn bản khơng theo mơ hình truyền thống, cĩ nghĩa là khơng sử dụng bài tốn tách từ trực tiếp, sử dụng mơ hình ngơn ngữ thống kê N-Gram.

Đây là hướng giải quyết khá độc đáo cho bài tốn phân loại văn bản tiếng Việt khi chúng ta chưa cĩ một cơng cụ tách từ tiếng Việt hồn hảo.

Chương 3: CƠ S LÝ THUYT

Ni dung

Chương này sẽ trình bày một số cơ sở lý thuyết nền tảng về văn bản, phân loại văn bản, lý thuyết về từ tiếng Việt ứng dụng cho bài tốn tách từ trong phân loại văn bản. Ngồi ra, trong chương cũng trình bày các cơ sở lý thuyết tốn học về rút trích đặc trưng, chọn lựa đặc trưng, và cuối cùng là các mơ hình phân loại văn bản phổ biến trên thế giới và các mơ hình thích hợp vào bài tốn tìm kiếm văn bản tiếng Việt theo chủđề.

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 73)