6. Cấu trúc của luận vă n
2.2.5.2. Các biện pháp nâng cao hiệu quả cho máy phân lớp
Sau khi xem xét chúng tơi thấy cĩ hai biện pháp để nâng cao hiệu quả cho bộ
phân loại tài liệu:
(1) Mở rộng bộ từđiển stopword, làm cho bộ phân loại loại bỏ được nhiều hơn những từ khơng mang ý nghĩa phân loại.
(2) Kết hợp tiền xử lý tài liệu tiếng Việt và tài liệu tiếng Anh. Thơng thường, trong một số chủ đề (ví dụ như cơng nghệ thơng tin), các tài liệu thường cĩ lẫn cả từ
tiếng Việt và tiếng Anh. Nếu ta kết hợp được việc phân loại cả 2 ngơn ngữ thì sẽ làm cho
độ chính xác của máy phân loại tăng lên. Cĩ 2 điểm khác nhau khi xử lý tiếng Việt và tiếng Anh. Đĩ là bước tách từ tiếng Việt (VnTokenizer) và chuyển các từ tiếng Anh về
từ gốc (stemming). Do đặc điểm của các từ tiếng Anh rất khác so với tiếng Việt (ví dụ
như các tiếp đầu ngữ un, im… hay đuơi est, ly, ing,…) do đĩ ta cĩ thểđưa bộ stemmer tiếng Anh vào trong bộ xử lý tiếng Việt mà hồn tồn khơng làm thay đổi các từ tiếng Việt (Hình 2.24).
Hình 2.24: Mơ hình tiền xử lý mẫu huấn luyện.
Nhưđã biết, các phương pháp phân loại văn bản thường sử dụng mơ hình khơng gian vector để biểu diễn văn bản. Hiệu quả của bộ phân loại văn bản phụ thuộc khơng nhỏ vào việc tách từ. Vì cĩ thể đối với một số ngơn ngữ như tiếng Anh chẳng hạn thì thao tác tách từ trong văn bản đơn giản chỉ là dựa vào các khoảng trắng. Tuy nhiên, trong các ngơn ngữ đa âm tiết như tiếng Việt và một số ngơn ngữ khác thì sử dụng khoảng trắng khi tách từ là khơng chính xác. Do đĩ, phương pháp tách từ trong văn bản
Mẫu huấn luyện Chuẩn hĩa Loại bỏ stopword Stemming VnTokenizer
đĩng vai trị quan trọng trong quá trình biểu diễn văn bản bằng vector. Trong phạm vi của luận văn, chúng tơi tập trung tìm hiểu về cách sử dụng automat kết hợp với phương pháp xác suất thống kê để tách từ tiếng Việt.
2.3. Sử dụng automata kết hợp xác suất thống kê để tách từ tiếng Việt 2.3.1. Các hướng tiếp cận để tách từ