7. Bố cục của đề tài:
1.1.4 Phân lớp văn bản
Phân lớp văn bản là một trong những bài tốn cơ bản trong khai phá dữ liệu văn bản.
- Bài tốn phân lớp văn bản: là việc gán tên các chủ đề (tên lớp/nhãn lớp) đã được xác định trước, vào các văn bản dựa trên nội dung của chúng.
- Phân lớp là cơng việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thơng tin, chiết lọc thơng tin, lọc văn bản hoặc tự động dẫn đường cho các văn bản tới những chủ đề xác định trước.
- Để phân lớp văn bản tự động thường sử dụng các kỹ thuật học máy cĩ giám sát, dữ liệu văn bản đã được phân lớp bằng tay, được chia thành hai phần: Tập huấn luyện
SVTH: MAI VĂN NHẬT TIẾN 19
hay tập mẫu và tập kiểm thử (kiểm tra), tập mẫu chiếm 2/3 dữ liệu, tập kiểm thử 1/3 dữ liệu cịn lại.
Đầu tiên hệ thống được huấn luyện (học) thơng qua tập mẫu, Sau đĩ đánh giá hiệu quả của hệ thống thơng qua các dữ liệu kiểm thử.
- Các hệ thống phân lớp cĩ thể ứng dụng trong việc phân loại tài liệu của các thư viện điện tử, phân loại văn bản báo chí trên các trang tin điện tử,… những hệ thống tốt, cho ra kết quả rất khả quan, giúp ích nhiều cho con người.
Đại lượng đánh giá hiệu suất phân lớp:
Việc đánh giá độ phân lớp dựa trên việc áp dụng mơ hình đối với các dữ liệu thuộc tập dữ liệu kiểm tra Dtest, sử dụng mơ hình cho từng trường hợp dữ liệu ở Dtest mà kết quả đầu ra là lớp c dự báo cho từng dữ liệu.
Hai độ đo được dùng phổ biến để đánh giá chất lượng của thuật tốn phân lớp là độ hồi tưởng và độ chính xác.