4. Phạm vi ứng dụng
3.3.3.5. Xây dựng bộ từ điển tiếng Việt
Với tập huấn luyện các thư rác và thư bình thường ban đầu, vận dụng các quy trình tách câu, phân tích từ đơn, từ ghép 2 tiếng đã trình bày ở trên để tạo thành bộ từ điển từ đơn,từ ghép và tần số xuất hiện của chúng trong tập huấn luyện.
Đối với bộ từ điển từ đơn thì tính chính xác tuyệt đối do chỉ xét về mặt hình thức (sự hiện diện của từ đơn trong nội dung thư), khơng bàn về mặt ý nghĩa thì từ đơn tiếng Việt giống như từ đơn trong tiếng Anh.
Ngược lại, đối với từ ghép, nếu từ ghép nào khơng cĩ giá trị sử dụng thì quyết định loại bỏ từ ghép đĩ ra khỏi danh sách. Những từ ghép này khơng cịn được xử
lý khi một tập huấn luyện thư mới được đưa vào. Những từ ghép cĩ giá trị sử dụng sẽ tăng tần số xuất hiện cũng từ đĩ dẫn đến độ tin cậy của từ càng cao.
3.3.3.6. Quy trình cập nhật từ vựng tiếng Việt
Trong mơ hình lọc thư rác đã trình bày ở trên (Hình 3.1), sau khi đã phân lớp thư thuộc thư rác hay thư bình thường, quy trình học từ tự động được tiến hành. Đối với những từ đơn hay từ ghép mới chưa cĩ trong bộ tự điển sẽ được cập nhật vào. Ngược lại, đối với những từ đã cĩ, hệ thống sẽ cập nhật tần số xuất hiện của từ đĩ, đồng thời thay đổi tỷ lệ spam, ham của các từ đĩ.
Với quá trình tự học này, với số lượng thư tiếng Việt càng lớn thì số lượng từ trong bộ tự điển càng cao, đồng thời sẽ tăng độ chính xác cho việc tính xác suất thư rác hay thư bình thường, hỗ trợ rất nhiều khi áp dụng cơng thức Nạve Bayes.
3.4. Quy trình lọc thư rác tiếng Việt
3.4.1. Áp dụng thuật tốn Nạve Bayes trong quá trình lọc thư
Với mỗi văn bản D (Document), sẽ tính xác suất tài liệu D cĩ thể thuộc vào lớp tài liệu C nào đĩ bằng việc sử dụng luật Bayes [1]
( | ) = ( )∗ ( | )
( ) (10)
Trong đĩ D là tài liệu cần phân loại, Ci là một trong 3 lớp cần tính: thư rác, thư
bình thường và thư trung tín. Theo giả định của Nạve Bayes xác suất của mỗi từ trong tài liệu D là độc lập với ngữ cảnh xuất hiện các từ đồng thời cũng độc lập với vị trí của các từ trong tài liệu. Xác suất P(D|Ci) được tính tốn từ tần suất xuất hiện
của các từ đơn wj (word) trong tài liệu D
( | ) = ( | ) (11)
Như vậy biểu thức (10) cĩ thể viết lại như sau
( | ) = ( )
Giái trị lớn nhất của xác suất P(Ci|D) được đưa ra bởi người làm cơng tác phân
loại. Giá trị này được gọi là ngưỡng hay ranh giới giữa các lớp văn bản mà chúng cĩ thể chứa tài liệu D