Tĩm lược các bước của thuật tốn:

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 50 - 52)

Bước 1: Đưa vào tập Ts gồm những tài liệu huấn luyện trong đĩ mỗi tài liệu thuộc về một lớp cấm. Tập này được chọn trong giai đoạn khởi tạo và được cập nhật thường xuyên.

Với một tài liệu T ∈ Ts một vector hỗ trợ vT của quan hệ các tần suất từ sẽ được xây dựng dựa vào những bước sau:

a. Loại bỏ những từ phổ biến như “the”, “and”, “for”,… (bởi vì những từ loại này xuất hiện trong tất cả các tài liệu và sẽ khơng ảnh hưởng đến quá trình phân loại tài liệu).

b. Bỏ qua những từ cĩ tần suất thấp (những từ này khơng gĩp phần gì trong việc nhận diện loại tài liệu)

c. Bỏ đi những từ loại ngắn hơn hai ký tự (những từ loại này như “a”, “as”, “to”, “of”, “in”, … cùng với các ký hiệu như “@”, “?”, “#”, “&”, …)

Ngồi ra, trong bước 1 này cịn cĩ một vấn đề cần thực hiện đĩ là rút gọn các từ (Stemming), nhằm làm giảm bớt số chiều của vector.

Sau cùng, tạo ra vector tần suất của văn bản gồm từ và tần suất từ. Vector này đại diện cho văn bản (trang web) đưa vào cho hệ thống xét duyệt.

Bước 2. Tìm ra ngưỡng τ dùng cho việc quyết định một tài liệu thuộc về lớp cấm. Sử dụng những ngưỡng cao hơn sẽ dẫn đến tình trạng những trang mà chính nĩ thuộc về lớp bị cấm sẽ bỏ sĩt, và sử dụng ngưỡng thấp hơn sẽ đưa đến kết quả những trang nĩ khơng thuộc về lớp bị cấm sẽ bị khĩa sai (trang này đúng ra là cho phép đi qua nhưng lại cấm!). Sau khi tìm ra được tất cả vector của văn bản huấn luyện, ta dùng đến một tập mẫu thử Ts’ khác, tập này bao gồm các mẫu thử bên trong và bên ngồi lớp bị cấm và tính ra hệ số tương tự của mỗi phần tử trong Ts’ đối với Ts (xem bước kế tiếp để biết cách tính hệ số tương tự ở bước 3). Sử dụng một dãy các giá trị ngưỡng ứng viên trong đoạn 0 đến 1 và dùng mỗi giá trị ngưỡng ứng viên đĩ để phân loại các thành viên của Ts’. Đặt uτi đại diện cho phần trăm của những văn bản trong Ts’ mà những văn bản này được phân loại chính xác bằng ngưỡng τi. Ta chọn ngưỡng τ = τj sao cho cĩ uτ cao nhất làm ngưỡng cho hệ thống.

Bước 3. Xét một trang P, hệ thống sẽ tìm ra hệ số tương tự σP như sau:

a. Tìm sự tương tự của P so với mỗi thành viên trong tập huấn luyện. Nghĩa là tìm cos(vP, vX) với ∀X ∈ T.

b. Xây dựng tập S, là tập chứa n% những giá trị tương tự cao nhất.

c. Lớp hệ số lớp của P, σP là giá trị trung bình của n% các giá trị tương tự cao nhất. Tính theo cơng thức: % % T n v n T v s S v s S v P = × = × ∑ ∑ ∈ ∈ σ

Hệ thống sẽ so sánh σP với ngưỡng đã lựa chọn τ:  Nếu σP ≥τ thì trang P sẽ bị khố.

 Ngược lại, hệ thống sẽ xem xét r liên kết l1, l2, …, lr một cách ngẫu nhiên cĩ trong trang. Với mỗi li hệ thống sẽ tính hệ số tương tự của trang Pli là liên kết li trỏ tới. Nếu phần lớn hệ số lớp trên ngưỡng τ thì trang bị khĩa, ngược lại cho phép.

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 50 - 52)