Hình 2.1 trình bày mô hình trao đổi thông tin giữa trình duyệt và máy chủ web. Ngƣời dùng sẽ sử dụng trình duyệt trên máy của mình thông qua môi trƣờng mạng để thực hiện kết nối tới máy chủ web, gửi yêu cầu (request) về một trang web cần truy cập. Yêu cầu này có thể là các đƣờng dẫn URL hoặc các từ khóa có liên quan đến trang web cần tìm kiếm (nhƣ việc đánh từ khóa trong công cụ tìm kiếm Google). Trình duyệt sẽ có nhiệm vụ sử dụng phƣơng thức “GET” để gửi yêu cầu của ngƣời dùng tới máy chủ tƣơng ứng thông qua cổng 80.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Khi đó, máy chủ sẽ phân tích yêu cầu nhận đƣợc từ trình duyệt, xử lý rồi gửi trả lại nội dung kết quả xử lý theo yêu cầu đã gửi lên. Nội dung gửi về có thể là các trang viết bằng ngôn ngữ HTML, ASP, ngôn ngữ Java Script.v.v. hoặc cũng có thể là các file ảnh, video, file dạng text, file nén, file.exe.v.v. Nếu thông tin gửi về có dạng một file siêu văn bản, trình duyệt sẽ đọc các thẻ HTML, định dạng trang web và hiển thị ra màn hình.
Với phƣơng thức và mô hình trao đổi thông tin của giao dịch web kể trên, việc kiểm soát thông tin nói chung và việc lọc nội dung nói riêng tập trung vào hai vấn đề sau:
Lọc request của Client gửi lên: Khi Client gửi yêu cầu lên, có thể thực hiện việc lọc theo địa chỉ IP của máy cần truy cập, lọc theo địa chỉ URL cần truy cập, lọc theo tên miền, hoặc theo từ khóa dùng để tìm kiếm trang web (trong trƣờng hợp Client dùng từ khóa có liên quan đến trang web cần truy cập để tìm kiếm).
Lọc nội dung trả về từ server: Khi server gửi trả về nội dung trang web mà Client yêu cầu, có thể tiến hành các phƣơng pháp lọc ảnh, lọc kiểu file, lọc text và lọc theo từ khóa. Lọc ảnh dùng để tìm ra các tệp ảnh có phải là ảnh khiêu dâm hay các ảnh có nội dung không lành mạnh... Lọc text, lọc kiểu file đƣợc áp dụng cho các file văn bản (word, pdf...), file nén (.zip; .zar...). Còn lọc theo từ khóa đƣợc dùng để lọc phần nội dung các trang trả về là trang siêu văn bản để xem chúng có chứa các từ khóa bị cấm hay không.