Giả sử ta qui định nhƣ sau:
Tỷ lệ dƣơng đúng TP (True Positive): là số văn bản đƣợc gán nhãn là 1 và việc gán nhãn này là đúng.
Tỷ lệ dƣơng sai FP (False Positive): là số văn bản đƣợc gán nhãn là 1 nhƣng việc gán nhãn này là sai.
Tỷ lệ âm sai FN (False Negative) : là số văn bản đƣợc gán nhãn là –1 nhƣng việc gán nhãn này là sai.
Tỷ lệ âm đúng TN (True Negative): là số văn bản đƣợc gán nhãn là –1 và việc gán nhãn này là đúng.
Bảng 1.3: Định nghĩa các tỷ lệ để đánh giá hiệu quả phân lớp Phân lớp
Quyết định của chuyên gia
YES NO
Quyết định của hệ thống YES TP FP
NO FN TN
Hiệu quả (hay độ chính xác) của hệ thống phân lớp, đƣợc đánh giá bởi các công thức sau: FP TP TP ecision Pr (1.6) nếu nếu ngƣợc lại
FN TP TP call Re (1.7) precision recall precision recall score F 2* * (1.8)
Chƣơng này đã trình bày và phân tích các bƣớc tiền xử lý văn bản bao gồm: phƣơng pháp tách từ, phƣơng pháp lựa chọn đặc trƣng và biểu diễn văn bản. Kết quả của các bƣớc này là mỗi văn bản diđã đƣợc biểu diễn bằng một vector xi=(wi1, wi2, ..., win), wij là trọng số của từ tjtrong văn bản di. Quá trình phân lớp văn bản không thực hiện trực tiếp với các văn bản dimà thực hiện trên các vector xi.
Đồng thời chƣơng này cũng trình bày sơ lƣợc phƣơng pháp đánh giá hiệu quả phân lớp. Tiếp theo, chúng ta sẽ nghiên cứu một số phƣơng pháp phân lớp văn bản phổ biến.
CHƢƠNG 2: CÁC PHƢƠNG PHÁP PHÂN LỚP VĂN BẢN PHỔ BIẾN
Trong chƣơng này chúng ta sẽ nghiên cứu các thuật toán phân lớp phổ biến hiện nay. Nhiều thực nghiệm cho thấy các phƣơng pháp nhƣ: K-trung bình (K- means), cây quyết định (Decision tree), K-láng giềng gần nhất (K-nearest neighbors), phƣơng pháp sử dụng các vector hỗ trợ SVM (Support Vector Machines) là những phƣơng pháp có hiệu quả phân lớp tƣơng đối tốt và thƣờng đƣợc sử dụng.