2. Các Nghiên cứu về Chống Kiểm Duyệt
2.7.1.2. Công cụ lọc nội dung
Công cụ sử dụng để lọc nội dung gồm cả phần cứng lẫn phần mềm. Do đặc thù của mỗi ngôn ngữ, việc lọc nội dung văn bản trong các thứ tiếng khác nhau cần được tách biệt, như phương pháp dựa trên biểu diễn bag-of-words và học
máy:
- Phương pháp bag-of-words (túi từ): biểu diễn văn bản dưới dạng bag-of-
words kết hợp với loại bỏ từ và lấy các từ gốc. Việc đánh chỉ mục các thuật ngữ được chọn thông qua ngưỡng tối thiểu đối với tần suất văn bản (document
frequency), sử dụng các độ đo tương tự như vector cosine, entropy chéo..., đánh
giá mức độ tương tự của một tài liệu mới với tài liệu đã bị chặn và đưa ra quyết định có chặn hay khơng.
- Phương pháp dựa trên học máy: phải tạo ra một corpora cho từng loại văn
bản cần chặn đối với mỗi ngơn ngữ đích, có thể kết hợp lựa chọn một tập các từ chính xác (bằng tay và phương pháp thống kê) để cung cấp nền tảng cho nhiệm vụ lọc. Trích rút ra các mẫu ngữ cảnh từ các tài liệu học và kết hợp với một phương pháp học máy như ANN, SVMs, CRFs..., để xác định đặc trưng của mỗi lớp tài liệu. Thông tin ngữ cảnh cần quan tâm khơng chỉ là các từ khóa, từ gốc mà có thể kết hợp cả các thơng tin ngữ pháp (POS hay nhãn thực thể như tên người, tên địa danh, tên tổ chức...). Với mỗi tài liệu mới không nằm trong danh sách lọc, hệ thống cũng trích rút thông tin ngữ cảnh theo cách tương tự và sử dụng mơ hình lọc để quyết định việc bổ sung tài liệu mới này vào các lớp cần chặn.