Thử nghiệm theo ứng dụng: (Kiểm tra hoạt động của thuật tốn)

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 67 - 69)

4.2.1.1. Giao diện kiểm thử hiệu quả bộ lọc:

Hình 4.3. Màn hình ứng dụng thử nghiệm trên giao diện

4.2.1.2. Tổ chức dữ liệu và vận hành: – Tập tích cực (tập huấn luyện):

Gồm các trang cấm, dùng để so sánh. Tập này được cập nhật thường xuyên. Dữ liệu cĩ thể lưu ở dạng trang Web trong một thư mục hay cĩ thể tổ chức thành các tập tin chứa vector đặc trưng (từ, tần suất từ) giúp cho việc so sánh nhanh hơn và khơng cần khởi động tập tích cực mỗi khi khởi động chương trình. Các trang này chỉ giữ các từ thuộc lĩnh vực thử nghiệm (từ đặc trưng của lĩnh vực lọc web).

Tập mẫu thử (sample): gồm các các trang web bên trong và bên ngồi lớp cấm. Các trang web nằm trong lớp cấm được người quản trị sưu tầm và phân loại chính xác theo chủ đề mà chương trình làm việc. Tổ chức bên trong của tập mẫu thử này giống như tổ chức tập huấn luyện, các tập tin được tổ chức thành các vector.

Điểm khác biệt duy nhất trong tập thử này là cĩ thêm thuộc tính phân biệt (dùng để cho biết vector bên trong hay bên ngồi lớp cấm).

– URL hay IP cấm: (Black list, IP)

Chứa các URL hay IP cấm khơng cho truy xuất. Yếu tố này được dùng để tăng tốc cho hệ thống. Việc đầu tiên chương trình thực hiện là so các URL hay IP được gởi lên cĩ tồn tại trong URL hay IP cấm khơng, nếu cĩ thì cấm ngay khơng cần xét đến thuật tốn. Nếu khơng chuyển sang xét thuật tốn. Nếu khi xét bằng thuật tốn kết quả cho là tích cực (tức là trang bị cấm) thì vector trang cấm đĩ được bổ sung vào tập tích cực và URL hay IP đĩ được đưa vào URL hay IP cấm (tự cập nhật Blacklist và IP).

* Một cơ sở dữ liệu được dùng kèm theo (file Access, text) ghi nhận các từ và tần suất từ của các tập tin trong tập tích cực. Với một trang cấm mới: các từ và tần suất từ chưa cĩ trong trong CSDL sẽ được bổ sung vào.

– Kết quả chạy chương trình:

Cho hiển thị các thơng tin trong quá trình kiểm tra.

– Mơ tả hoạt động:

Đây là chương trình chạy dưới dạng ứng dụng, các bước thực hiện như sau: – Khởi động chương trình: đọc thư mục chứa các tập huấn luyện liệt kê và danh sách “tập huấn luyện” Lh.

– Khi người dùng chọn một tập huấn luyện trong danh sách Lh thì thơng tin đang cĩ trong Lh sẽ xuất hiện trong mục “Thơng tin hệ thống”. Trong đĩ một thơng tin quan trọng và phải tính tốn để cĩ được là ngưỡng hệ thống τ.

– Kiểm thử với một thư mục chứa các trang web bằng cách chọn thư mục nguồn hay gõ đường dẫn vào khung nhập chữ bên dưới (tùy vào thể loại cấm hay khơng cấm). Trong các thư mục chứa nguồn phải bảo đảm cĩ đủ số lượng trang để hệ thống phát sinh ngẫu nhiên theo số tài liệu phát sinh định trước. Chọn số lượng tài liệu phát sinh bằng cách gõ vào khung chữ bên cạnh.

– “Chạy chương trình” là nút lệnh thực hiện chương trình. Kết quả trả về (cho một loại tài liệu thử, ví dụ: trang web cấm):

 Số lượng tài liệu chặn được, số lượng tài liệu cho qua (bỏ sĩt)  Danh sách hệ số tương đồng của n tài liệu đem thử

– Chạy thuật tốn:

B1. Bộ phát sinh ngẫu nhiên cho ra số thứ tự i của tập tin Pi được chọn, đọc nội dung, tính tần suất từ  hình thành vector VPi văn bản cho Pi.

B2. Tính cos(VPi,Xj) trong đĩ Xj là một trang trong tập tích cực so với ngưỡng. Tính hệ số trang SigmaPi

B3. So sánh SigmaPi với τ để đưa ra quyết định. Trong quy trình kiểm thử ta thực hiện hai cơng việc sau:

Nếu SigmaPi >= τ thì:

tăng biến đếm TrenNguong lên 1 đơn vị ngược lại

tăng biến đếm DuoiNguong lên 1 đơn vị

Đưa giá trị SigmaPi vào danh sách lưu trữ (dùng cho việc vẽ lưu đồ)

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 67 - 69)