Chiến lược dùng các kỹ thuật học theo qui nạp để xây dựng tự động các hàm phân lớp dùng dán nhãn cho dữ liệu luyện. Các nhà nghiên cứu đã áp dụng ngày càng tăng các kỹ thuật học này để phân lớp dữ liệu như: sự hồi qui đa biến, các
hàm phân lớp theo thuật toán người láng giểng gần nhất (nearest-neighbor classifier), mô hình Bayes theo xác xuất, cây quyết định kỹ thuật boosting, mạng neuron và kỹ thuật SVM; kết quả do kỹ thuật SVM mang lại có rất nhiều hứa
hẹn về mức độ chính xác và tốc độ luyện. 3.2. Các ứng dụng của phân loại văn bản
-_ Sắp xếp, tìm kiếm và duyệt dữ liệu đưa vào các cấu trúc cho trước
-_ Định hướng hoặc xử lý dữ liệu theo yêu cầu của người dùng -- Lọc thôngtin_
3.3. Quy trình phân loại văn bản
Một cách tổng quát quy trình phân loại văn bản thực hiện các bước sau:
a. Từ file text dùng các kỹ thuật stemming (tìm các từ cùng gốc từ) và kỹ thuật stopping word (các từ phổ biến và không thêm ý nghĩa trong file text như giới từ, liên tử, các đại từ và các mạo từ) để làm giảm bớt sự khác biệt các từ.
b. Đếm số từ xuất hiện trong mỗi file.
c. Dùng kỹ thuật lựa chọn đặc trưng (feature selection) để xây dựng tập dữ liệu (data set) cho việc phân loại dữ liệu.
d. Xây dựng các tiêu chuẩn đánh giá sự thực thi. e. Chọn kỹ thuật phân loại văn bản.
48
3.3.1. Quá trình tiền xử lý dữ liệu [71.[91,[251,[171 a. Mô tả các đặc trưng a. Mô tả các đặc trưng
Bước thứ nhất của phân loại văn bản là biến đổi dữ liệu tiêu biểu (các chuỗi ký
tự) thành một mô tả phù hợp với thuật toán học theo mẫu và phân lớp dữ liệu:
mỗi đặc trưng là một từ w¡ và x là vectơ đặc trưng chứa nhiều từ khác nhau dựa
vào một tự điển được xây dựng bằng việc phân tích các dữ liệu. Mỗi vectơ được đặc trưng cho một mẫu dữ liệu, w chỉ vectơ trọng số nhận được từ mối liên kết của các vectơ x. Có nhiều lựa chọn và sự tăng cường khác nhau để xây dựng các vectơ x như sau:
-TF (Term Frequency): thành phần thứ ¡ của vectơ đặc trưng là số lần từ w; xuất hiện trong dữ liệu (mỗi từ là một đặc trưng nếu nó xuất hiện ít nhất
trong 3 tư liệu hoặc nhiều hơn để tránh tạo ra số vectơ đặc trưng lớn không cân thiết). Thường thì các vectơ đặc trưng được chuẩn hóa với chiều dài đơn
VỊ.
- TF-IDE: sử dụng tân số thuật ngữ TF nhân với tần số dữ liệu nghịch đảo
(Inverse Document Frequency). Tần số dữ liệu (DFQ)) là số lần các từ w; xuất hiện trong toàn bộ các dữ liệu. Tần số dữ liệu nghịch đảo (IDF) được
định nghĩa là:
IDE (wj) = nên)