Xuất cho một phương pháp lọc Web:

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 48 - 49)

Với phương pháp blacklist và whitelist sẽ khĩ khăn cho việc phát sinh và duy trì, cịn với việc lọc web dựa trên sự so sánh keyword của Nạve cĩ thể dễ dàng lừa bịp bằng cách cố ý đánh vần sai những keyword và cơng nghệ để vượt qua vấn đề này dẫn đến kết quả năng suất tính tốn cao và gia tăng số lượng mẫu tích cực sai. Cuối dùng là các hệ thống phân loại (rating systems) khơng cung cấp thơng tin đáng tin cậy.

Đề xuất phương pháp lọc web dựa trên phân loại văn bản (text classification). Sử dụng mẫu những trang web cấm để lấy đặc điểm lớp của những trang web bị chặn. Một trang web “gần giống” hay “giống” với thành viên của lớp đĩ sẽ bị chặn và những trang cịn lại “khơng giống” sẽ cho qua.

Việc áp dụng thuật tốn phân loại văn bản một số điểm phải được tính đến. Trước tiên, sự phân loại cho việc lọc web một lớp được phân loại, trong đĩ kết quả của sự phân lớp là một trong hai: cho phép hay ngăn chặn một trang. Sự phân lớp sẽ nhận ra nếu một trang thuộc về một lớp cấm, ví dụ như trang đĩ cĩ phải là trang khiêu dâm hay khơng? Phần lớn những hệ thống phân loại văn bản truyền thống được xây dựng trên hai lớp: tích cực (positive) và tiêu cực (negative): lớp tích cực gồm những văn bản cĩ cùng đặc điểm nổi trội, trong khi đĩ những văn bản khơng cùng đặc điểm được liệt vào lớp tiêu cực. Trong việc phân loại các trang web, rất khĩ cung cấp một mẫu điển hình của lớp tiêu cực vì cĩ rất nhiều tài liệu trong lớp này.

Với phương pháp đề xuất mới này, chỉ dùng một tập những tài liệu huấn luyện tích cực vì thế loại bỏ đi vấn đề thiết lập và duy trì một tập tài liệu “tiêu cực” hồn thiện và cân đối. Hơn nữa, trong những phương pháp phân loại văn bản truyền thống, các văn bản cần phân loại được xem xét sự độc lập, vì thế sự phân loại của một tài liệu khơng hỗ trợ thơng tin hữu ích về sự phân lớp của những tài liệu khác. Trong việc lọc web, trang web cĩ thể được tìm đến thơng qua siêu liên kết

(hyperlink) trong văn bản cũng hỗ trợ thơng tin hữu ích cho sự phân loại văn bản. Trường hợp nội dung trang web khơng thể đưa ra một sự phân loại rõ ràng của văn bản, sử dụng các siêu liên kết để tìm các trang được xem như tương tự với sự nghiên cứu, cĩ thể rất hữu ích.

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 48 - 49)