Một số cải tiến trong chương trình:

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 84 - 85)

– Cải tiến về cách lưu trữ dữ liệu học: gồm của tập huấn luyện, tập mẫu thử và thơng tin hiện tại của hệ thống. Cải tiến này nhằm làm giảm thời gian đọc và biến đổi nội dung một trang web về dạng vector (càng nhiều trang web huấn luyện thì thời gian giải quyết càng lâu).

– Theo thuật tốn nguyên thủy thì cĩ phân tích ngẫu nhiên các link cĩ trong trang web đang xét. Việc này dẫn đến vấn đề phải giải quyết là độ sâu của một phép đệ quy, vì các trang web ngày nay cĩ rất nhiều liên kết nên sẽ tốn nhiều thời gian để đi đến một kết luận. Do đĩ, trong quá trình xây dựng chương trình người viết đã bỏ qua giai đoạn này. Khi một trang web hiển thị trên màn hình, người dùng click vào một link thì địa chỉ URL của nĩ sẽ gởi đến proxy, cơng việc xét tiếp theo là của proxy thực hiện kiểm duyệt như một trang web thơng thường.

– Cải tiến trong xét chọn ứng viên làm ngưỡng: cĩ hai vấn đề cải tiến

 Trong thuật tốn nguyên thủy đề nghị chọn dãy ngưỡng từ 0 đến 1, nếu như độ phân giải 10–4 thì sẽ cĩ 10,000 ứng viên đem xét, cĩ những ứng

viên khơng cĩ cơ hội để chọn làm ngưỡng vì nĩ nằm ngồi giới hạn trên và giới hạn dưới của dãy các hệ số trang σp. Để rút ngắn dãy số lượng ứng viên làm như sau: Trong quá trình tính hệ số trang của các phần tử trong mẫu thử (T’s) so với tập huấn luyện (Ts) ta chọn giá trị nhỏ nhất (MinSig) và lớn nhất (MaxSig) của dãy hệ số trang. Sau đĩ, trong quá trình tìm ngưỡng ta chọn các ứng viên từ MinSig đến MaxSig. Trường hợp xấu nhất khi MinSig = 0 và MaxSig = 1 trở về trường hợp được đề xuất trong thuật tốn nguyên thủy.

 Quá trình xét một giá trị ứng viên chọn làm ngưỡng bằng cách xác định ứng viên đĩ phân loại đúng bao nhiêu tài liệu (bên trong và bên ngồi lớp cấm), chọn ra giá trị ứng viên nào phân loại đúng nhiều nhất làm ngưỡng hệ thống. Một cải tiến nhằm làm tăng tốc độ làm việc là trong lúc tính hệ số tương đồng sắp xếp các giá trị σp giảm dần. Xây dựng hàm tìm kiếm tương đối để tìm vị trí của một giá trị ngưỡng trong dãy hệ số tương đồng từ vị trí mới tìm đĩ xác định được số lượng tài liệu cĩ hệ số tương đồng nằm trên và nằm dưới giá trị ứng viên. So sánh số tài liệu vừa xác định đĩ với số lượng tài liệu thật hiện cĩ và tìm ra giá trị nào gần đúng nhất để suy ra ứng viên đĩ là ngưỡng.

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 84 - 85)