Nhiều thư tiếng Việt, kể cả thư rác, được viết không có dấu. Như vậy cùng một từ “thư” trong thư có dấu có thể tương ứng với hai đặc trưng là “thư” và “thu”. Tương tự phần 3.3 có hai cách để giải quyết. Cách thứ nhất là tiến hành huấn luyện và phân loại bình thường, không quan tâm tới dấu. Cách thứ hai là phân biệt riêng thư có dấu với không dấu sau đó huấn luyện và phân loại riêng. Có thể kể thêm cách thứ ba là biến đổi tất cả từ có dấu thành không dấu sau đó tiến hành phân loại chung. Tuy nhiên, cách này không hợp lý và do vậy không được sử dụng trong quá trình thử nghiệm.
Trong trường hợp sử dụng cách thứ hai, kỹ thuật tương tự như khi phân biệt thư tiếng Anh và thư tiếng Việt ở trên sẽ được sử dụng. Một điều thú vị là, trong trường hợp này nhiều từ tiếng Việt không dấu sẽ băm vào cả bảng tiếng Anh cũng như bảng tiếng Việt.
3.7. Thử nghiệm và kết quả 3.7.1. Dữ liệu thử nghiệm
Một khó khăn khi thử nghiệm lọc thư tiếng Việt là hiện nay chưa có những bộ dữ liệu mẫu chuẩn. Do vậy chúng tôi tự tiến hành xây dựng bộ dữ liệu thưđể dùng trong thử nghiệm của mình. Thư rác được thu thập từ hai nguồn: nguồn thứ nhất là những thư rác mà các tác giả nhận được qua địa chỉ thư của mình tại Việt nam. Nguồn thứ hai là những thư rác do quản trị phát hiện tại mail server của công ty FPT (mail.fpt.com.vn). Thư bình thường là những thư mà các tác giả nhận được bao gồm cả thư tiếng Việt và tiếng Anh.
Đối với các thư bình thường nhận được, trong trường hợp thư nhận từ cùng một nguồn qua nhiều phiên gửi và reply thì đối với những thư gửi sau sẽ được xoá phần đã gửi từ trước, chỉ giữ lại nội dung thư nhận được cuối cùng. Đối với những thư bao gồm cả văn bản và hình ảnh, chỉ có phần văn bản được sử dụng, phần hình ảnh bị bỏ qua không xem xét. Các thông số chính về bộ dữ liệu thử nghiệm được thống kê trong bảng 3.1. Bảng 3.1. Bộ dữ liệu thử nghiệm Tổng số thư Thư rác Thư bình thường 1929 Anh Việt Anh Việt Có dấu Không dấu Có dấu Không dấu 624 248 269 260 232 296
3.7.2. Phương pháp thử nghiệm
Ba phương pháp phân loại được thử nghiệm bao gồm hai phiên bản phân loại Bayes đơn giản – phiên bản sử dụng mô hình Bécnuli đa trị (Bayes đa trị) và phiên bản sử dụng mô hình đa thức (Bayes đa thức) – và SVM. Để thử nghiệm các phương pháp này, chúng tôi sử dụng bộ công cụ WEKA có tại địa chỉ http://www.cs.waikato.ac.nz/ml/weka/. Đối với SVM, hàm nhân sử dụng là hàm tuyến tính tức là việc phân loại được tiến hành trong không gian gốc của dữ liệu. Tham sốC trong công thức (13) được đặt bằng 1.
Độ chính xác phân loại được xác định bằng phương pháp kiểm tra chéo 10 nhóm (10-fold cross validation). Toàn bộ dữ liệu được chia ngẫu nhiên thành 10 nhóm kích thước như nhau. Bộ phân loại được huấn luyện trên chín nhóm sau đó được kiểm tra trên một nhóm còn lại. Lặp lại 10 lần với 10 nhóm dùng để kiểm tra, sau đó lấy trung bình cộng kết quả.
Hiệu quả lọc thư được đánh giá theo ba tiêu chí. Hai tiêu chí đầu là độ nhậy
(recall) và độ chính xác (precision) được định nghĩa như sau:
độ nhậy = số thư rác phát hiện chính xác Tổng số thư rác trong tập kiểm tra độ chính xác = số thư rác phát hiện chính xác Tổng số thưđược phân loại là thư rác
Tiêu chí thứ ba là độ chính xác phân loại chung tức là phần trăm thư được phân loại đúng không phụ thuộc vào đó là thư rác hay thư bình thường.
3.7.3. So sánh phương pháp phân loại
Trước tiên, thử nghiệm được tiến hành để so sánh ba phương pháp: Bayes đa trị, Bayes đa thức và SVM. Ba phương pháp này được sử dụng để phân loại thư với các thông số sau: ngưỡng phân loại T = 1; phân loại riêng thư tiếng Việt có dấu; phân loại thư Việt trộn lẫn thư tiếng Anh không có giai đoạn xác định ngôn ngữ và dấu; sử dụng toàn bộđặc trưng trừ 100 đặc trưng xuất hiện thường xuyên nhất; sử dụng 1000 đặc trưng có MI cao nhất. Ba phương pháp chỉ được so sánh theo tiêu chí duy nhất là độ chính xác phân loại chung nhưở phần 4.2. Kết quả thử nghiệm được thống kê trong bảng 3.2.
Kết quả thử nghiệm cho thấy phương pháp Bayes đa trị cho kết quả kém hơn nhiều so với hai phương pháp còn lại. Phương pháp SVM cho kết quả phân loại tương đương với Bayes đa thức (kết quả trong bảng 2 không cho phép kết luận về ưu thế tuyệt đối của một trong hai phương pháp). Tuy nhiên, SVM đòi hỏi khối lượng và thời gian tính toán lớn hơn nhiều. Trong các thử nghiệm, tổng thời gian
huấn luyện và phân loại bằng SVM lớn hơn Bayes đơn giản từ 15 tới 100 lần và do vậy không thích hợp với bộ phân loại phải xử lý số lượng thư lớn trên server. Trong các thử nghiệm tiếp theo, chúng tôi sẽ chỉ trình bày kết quả sử dụng Bayes đa thức.
Bảng 3.2. Độ chính xác phân loại với các phương pháp phân loại khác nhau Các tham số Bayes đa trị Bayes đa thức SVM Anh+Việt; k = 1; n= 1000 88.52% 96.37% 96.65% Anh+Việt; k = 1; toàn bộđặc trưng 87.08% 93.29% 96.42% Anh+Việt; k = 2; n = 1000 86.12% 96.37% 96.20%
Việt; k = 1; n = 1000 91.17% 97.64% 94.11%
Việt; k = 1; toàn bộđặc trưng 89.41% 99.14% 99.19%
3.7.4. Lựa chọn độ dài và số lượng đặc trưng
Để xác định ảnh hưởng của độ dài đặc trưng đến hiệu quả phân loại thư tiếng Việt, phương pháp Bayes đa thức được thử nghiệm trên thư tiếng Việt bao gồm cả thư có dấu và không dấu. Các thông số còn lại như sau: sử dụng toàn bộđặc trưng trừ 100; sử dụng 1000 đặc trưng; độ dài đặc trưng là 1; 1 và 2; 1 và 2 và 3 (k=1; k=1,2; k=1,2,3 cho k-grams). Độ chính xác phân loại chung khi sử dụng độ dài đặc trưng khác nhau được thể hiện trên bảng 3.3. Kết quả cho thấy k = 1,2 và k = 1,2,3 cho độ chính xác tương đương nhau và cao nhất khi sử dụng để phân loại thư tiếng Việt, trong khi đó k = 1 cho kết quả phân loại tốt nhất khi trộn lẫn thư tiếng Việt và tiếng Anh. Điều này có thể giải thích là do k = 1 phù hợp hơn với thư tiếng Anh trong khi số lượng thư tiếng Anh trong tập huấn luyện lớn hơn số lượng thư tiếng Việt.
Bảng 3.3. Kết quả phân loại với độ dài đặc trưng - từ khác nhau
k=1 k=1,2 k=1,2,3 độ chính xác độ nhậy độ chính xác độ nhậy độ chính xác độ nhậy Anh+Việt; n = 1000 0.974 0.964 0.972 0.967 0.961 0.98 Anh+Việt; toàn bộđặc trưng 0.962 0.914 0.979 0.902 0.962 0.897 Việt; n = 1000 0.965 0.966 0.973 0.993 0.973 0.993 Việt; toàn bộđặc trưng 0.948 0.958 0.972 0.966 0.972 0.966
Để xác định ảnh hưởng của số lượng đặc trưng tới kết quả phân loại, chúng tôi tiến hành thử nghiệm với 500, 1000, 3000 đặc trưng có MI cao nhất và toàn bộ trừ 100 đặc trưng. Thử nghiệm được tiến hành trên toàn bộ tập dữ liệu (bao gồm cả tiếng Việt và tiếng Anh) không phân biệt trước ngôn ngữ và trên tập thư tiếng Việt tách riêng. Độ dài đặc trưng sử dụng là k = 1 khi trộn lẫn tiếng Việt, tiếng Anh, và k=1,2 khi phân loại riêng tiếng Việt. Độ chính xác phân loại được thống kê trên Hình 1. 90 91 92 93 94 95 96 97 98 99 100 500 1000 2000 3000 Toàn bộ số đặc trưng độ ch ính xác ( %) Anh+Việt; k=1 Việt; k=2
Hình 1. Độ chính xác phân loại chung với số lượng đặc trưng khác nhau