Cấu trúc dữ liệu đề xuất cho lập trình:

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 60 - 62)

4.1.2.1. Xây dựng cấu trúc dữ liệu:

Ngơn ngữ được chọn để xây dựng ứng dụng cho thử nghiệm này là JAVA, đây là ngơn ngữ lập trình mới, đang phát triển mạnh mẽ. Phần cấu trúc dữ liệu cho lập trình và chương trình cĩ thể chạy là một hệ quản trị cơ sở dữ liệu. Thay vì lưu trữ tập huấn luyện trong mỗi tập tin thì cấu trúc đĩ được sửa lại như sau:

– Table: mơ tả các đặc điểm của vector tài liệu, mơ tả các tập tin liên quan đến vector đĩ, ghi nhận liên kết (URL hay IP) của vector đĩ trỏ đến, ghi nhận số lần máy bên trong gởi yêu cầu lên proxy khơng được phục vụ.

– Query: dùng cho việc thống kê trên cơ sở các vector (từ, tần suất từ) để phục vụ cho việc tính ngưỡng giới hạn, quản trị.

Ngồi ra, cơ sở dữ liệu này cịn dùng cho việc thiết kế cơng cụ quản trị hệ thống thơng qua giao diện web.

Hình 4.1. Quan hệ giữa các bảng trong cơ sở dữ liệu tập huấn luyện và tập thử (sample)

Vì muốn đơn giản và nhanh chĩng trong việc lập trình cũng như thử nghiệm, tác giả chọn hình thức tổ chức này, nhằm tận dụng những điểm mạnh của hệ quản trị cơ sở dữ liệu, cũng như quản lý tập trung mà khơng làm mất đi ý nghĩa lưu trữ tập huấn luyện và cải thiện tốc độ tính tốn như trình bày ở mục trước.

Như vậy quá trình xét một trang P chỉ làm một số việc như sau:

– Vector hĩa trang P (loại bỏ từ stoplist, tính Stemming, tính tần suất từ) trang P trở về dạng <từ> <tần suất từ> đây là dạng vector tài liệu dùng cho việc so sánh hai trang.

– Tiến hành so sánh P với từng vector Xi nằm trong tập huấn luyện (trong cơ sở dữ liệu) thơng qua cơng thức tính độ tương tự hai văn bản cosine. Đây là quá trình sẽ chiếm nhiều thời gian xử lý do số lượng phần tử cĩ trong tập huấn luyện lớn (và ngày càng lớn, do cĩ sự bổ sung tự động).

– Đưa ra quyết định: kết quả cuối cùng sau khi qua xử lý chính đưa đến một quyết định: nếu cho đi qua thì trả trang web theo URL mà người dùng yêu cầu để

truy cập đến thơng tin. Nếu khơng đủ điều kiện đi qua, thì báo lỗi và lấy hết cấu trúc của trang P đĩ ghi vào cơ sở dữ liệu của tập huấn luyện và đánh dấu theo chỉ mục hiện cĩ trong table đĩ.

Một phần của tài liệu nghiên cứu và đề xuất một bộ lọc web bằng phân loại văn bản cho một proxy server nhỏ (Trang 60 - 62)