Thuật tốn:

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 49 - 50)

Mỗi tập tin tài liệu được thể hiện như một vec-tơ tần suất từ, độ dài của vectơ sẽ là N và vì chỉ cĩ những tần suất N những từ phổ biến nhất được giữ lại. Sự tương đồng giữa hai tài liệu được đo bằng thuật ngữ “cosine” của “gĩc” giữa hai vectơ, hai tài liệu cĩ độ tương đồng lớn thì cĩ số đo gĩc giữa vectơ nhỏ vì thế giá trị cosine của nĩ lớn, ngược lại với hai tài liệu độ tương đồng nhỏ thì gĩc giữa hai vec-tơ tài liệu lớn, do đĩ cosine của nĩ nhỏ. Đo cosine của hai vec-tơ bằng cơng thức:

∑ ∑∑ = 2 2 ) , cos( i i i i Y X Y X Y X

Trong đĩ X và Y là hai vector của hai tài liệu.

Tập huấn luyện Ts gồm các trang web mẫu mang nội dung bị cấm. Để phân loại một trang mà độ tương đồng của nĩ đối với tập huấn luyện Ts được lượng giá nếu nĩ vượt trên ngưỡng, thì nĩ sẽ được xem xét và đưa vào lớp cấm. Để xác định ngưỡng, người ta xây dựng một tập dữ liệu Ts’ mà nĩ bao gồm những mẫu với nội dung bị cấm và những mẫu trang web cĩ nội dung cho phép. Sau đĩ để đưa ra một phạm vi của các ứng viên ngưỡng, chúng ta dùng mỗi ứng viên để phân loại thành viên của Ts’ và chọn ra một ứng viên τ mà phần lớn các thành viên của Ts’ phân loại đúng. Để tính tốn độ tương đồng (similarity coefficient) của một trang P vào một lớp được định nghĩa bởi Ts, sự tương tự của trang P với mỗi tài liệu huấn luyện trong Ts được tìm ra và sau đĩ tính trung bình cộng của n% các giá trị tương tự cao nhất được dùng như hệ số tương tự của trang P đối với Ts. Ở đây n là một con số phụ thuộc vào số lượng nhĩm con trong Ts. Ví dụ: loại từ “sex” cĩ thể chứa đựng hai nhĩm con “erotic stories” – chuyện khiêu dâm, và “ponorgraphic galleries” – hình khiêu gợi. Vì một tài liệu thuộc về một nhĩm con cĩ thể khơng cần thiết phải

tương tự với một nhĩm con khác. Để các tài liệu thuộc về một thành phần của nhĩm con, các giá trị trung bình phải trên 50% sẽ cho kết quả trong một hệ số tương tự cao hơn loại từ “sex” với tất cả trung bình cộng của tất cả những giá trị tương tự.

Nếu hệ số tương tự của trang P đối với tập Ts bé hơn ngưỡng, thì các mối liên kết (hyper-link) bên trong trang P được xem xét đến và tính ra hệ số tương tự của các trang mà liên kết (link) đĩ chỉ đến. Nếu trong phần lớn các trường hợp các mối liên kết này chỉ đến một trang tương tự với loại cấm thì trang P cũng được phân loại vào trong lớp cấm.

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 49 - 50)