Phân loại đồng thời thư tiếng Việt và thư tiếng Anh

Một phần của tài liệu Nghiên cứu xây dựng hệ thống lọc thư rác có khả năng lọc thư rác tiếng Anh và tiếng Việt (Trang 35)

Đối với một người sử dụng tài khoản thư điện tử tại Việt nam (đuôi .vn), ngoài thư điện tử tiếng Việt bao gồm thư rác và thư bình thường còn có thư tiếng Anh cũng bao gồm cả thư rác và thư bình thường (chưa kể tới thư bằng ngoại ngữ khác). Như vậy giải pháp lọc thư cần cho phép xử lý cả thư tiếng Anh và tiếng Việt. Có thể có hai cách giải quyết vấn đề này.

Cách thứ nhất là phân chia thư nhận được thành tiếng Anh và tiếng Việt,

sau đó tiến hành phân loại thư tiếng Anh riêng và thư tiếng Việt riêng. Tất nhiên, có thể có trường hợp trong một thư có cả tiếng Việt và tiếng Anh nhưng tỷ lệ này không nhiều.

Cách thứ hai là xây dựng một bộ phân loại chung cho cả tiếng Anh và tiếng Việt. Cách thứ hai đơn giản hơn nhưng có thể gặp vấn đề khi lựa chọn tham sốkđể tách các k-gram.

Nếu sử dụng cách thứ nhất thì xuất hiện một vấn đề cần giải quyết là phân biệt thư tiếng Anh và thư tiếng Việt. Mặc dù có những giải pháp phức tạp hơn được đề xuất cho vấn đề này, ởđây chúng tôi sử dụng một giải pháp rất đơn giản. Khi lựa chọn đặc trưng, các đặc trưng được đánh dấu riêng tiếng Việt hoặc tiếng Anh và lưu vào bảng băm. Khi một thư xuất hiện, 20 đặc trưng đầu tiên của thư sẽ được băm vào bảng tiếng Việt và tiếng anh. Nếu số lượng băm trúng trong bảng tiếng Việt lớn hơn bảng tiếng Anh thì thư được coi là thư việt và ngược lại. Thử nghiệm trên bộ dữ liệu của chúng tôi cho tỷ lệ phân loại tiếng Anh tiếng Việt đúng là 100% đối với những thưđược viết trên một ngôn ngữ duy nhất. Tuy nhiên, đối với những thư sử dụng cả tiếng Việt và tiếng Anh việc kết luận thư thuộc một trong hai ngôn ngữ duy nhất có thể ảnh hưởng tới quá trình phân loại tiếp theo. Trong các thử nghiệm trình bày ở dưới, chúng tôi sẽđề cập tới ảnh hưởng của vấn đề này.

Sau khi phân biệt được thư tiếng Anh, thư tiếng anh sẽ được lọc riêng. Hiệu quả phân loại chung sau đó được lấy bằng trung bình cộng của phân loại cho thư tiếng Việt và thư tiếng Anh.

Một phần của tài liệu Nghiên cứu xây dựng hệ thống lọc thư rác có khả năng lọc thư rác tiếng Anh và tiếng Việt (Trang 35)

Tải bản đầy đủ (PDF)

(55 trang)