7. Nội dung luận văn
3.3.1. Phát biểu bài tốn
Bài tốn phân loại văn bản, cĩ thể xem là bài tốn phân lớp (Text Classification). Phân loại văn bản là mục đích gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đĩ so với các văn bản đã được gán nhãn trong tập huấn luyện. Nhiều kỹ thuật máy học cĩ giám sát và khai phá dữ liệu đã được áp dụng vào bài tốn phân loại văn bản, chẳng hạn: phương pháp quyết định dựa vào Bayes ngây thơ (Naive Bayes), k– láng giềng gần nhất (K-Nearest Neighbors), Support vector machines (SVM),… Phân loại văn bản là một bài tốn xử lí văn bản, với mục đích ánh xạ một văn bản vào một chủ đề đã biết trong một tập hữu hạn các chủ đề dựa trên ngữ nghĩa của văn bản. Ví dụ một văn bản cĩ thể thuộc một (hoặc một vài) chủ đề nào đĩ (như xây dựng, tài chính, CNTT,…). Việc phân loại văn bản vào một chủ đề nào đĩ
giúp cho việc sắp xếp, lưu trữ và tìm kiếm tài liệu dễ dàng hơn về sau.
Đã cĩ nhiều cơng trình nghiên cứu đạt những kết quả khả quan, nhất là đối với phân loại văn bản tiếng Anh. Tuy vậy, các nghiên cứu và ứng dụng đối với văn bản tiếng Việt cịn nhiều hạn chế do khĩ khăn về tách từ và câu, nhất là đối với thể loại văn bản hành chính.
Bài tốn phân lớp dữ liệu là bài tốn cĩ mục tiêu nhằm giải quyết vấn đề là làm sao cĩ thể phân loại các đối tượng dữ liệu vào một hay nhiều lớp cho trước.
Quá trình phân lớp được thực hiện thơng qua một mơ hình phân lớp, mơ hình này được xây dựng dựa trên một tập các đối tượng dữ liệu đã được gán nhãn, tập dữ liệu này cịn được gọi là tập dữ liệu học hay tập dữ liệu huấn luyện. Quá trình phân lớp cịn được gọi là quá trình gán nhãn cho các đối tượng dữ liệu.
Qua đĩ ta thấy nhiệm vụ của bài tốn phân lớp dữ liệu là ta đi xây dựng một mơ hình phân lớp, sao cho khi cĩ một dữ liệu mới được đưa vào, thì mơ hình sẽ cho ta biết dữ liệu đĩ thuộc lớp nào.
Từ những nghiên cứu nêu trên ta rút ra bài tốn như sau:
Input: Một tập các văn bản hành chính (text.doc hoặc text.docx). - Tiền xử lý
- Biểu diễn theo vector
- Xây dựng mơ hình phân lớp
Output: Phân loại từng văn bản vào các lớp tương ứng.