2. Các Nghiên cứu về Chống Kiểm Duyệt
2.7. Các kỹ thuật quản lý và kiểm sốt thơng tin
2.7.1. Kỹ thuật lọc nội dung
Hệ thống lọc nội dung trên Internet đã được nhiều quốc gia sử dụng trong định hướng an toàn Internet, là một bộ phận của hệ thống an ninh quốc gia nói chung. Lọc nội dung Internet là kỹ thuật kiểm sốt thơng tin trên mạng Internet bằng việc phân tích nội dung thơng tin như nội dung trang web, nội dung thư điện tử... sau đó cho phép hoặc khơng cho phép người sử dụng được nhận kết quả trả về từ Internet hoặc gửi thông tin lên mạng Internet. Hiện nay, các kỹ thuật lọc theo nội dung bao gồm:
- Lọc cụ thể (inclusion filtering): người dùng chỉ được phép truy cập vào các địa chỉ web nằm trong danh sách được hiểu là "danh sách trắng". Những
thơng tin nằm ngồi danh sách này đều khơng được phép truy cập. Điểm hạn chế của phương pháp lọc này là số lượng các trang web được phép truy cập sẽ quá lớn.
- Lọc loại trừ (exclusion filtering): người dùng sẽ bị luồng thông tin nằm trong một danh sách gọi là danh sách đen (cần được cập nhật thường xuyên) không được phép truy cập.
- Lọc theo nội dung: hạn chế và ngăn chặn website chứa nội dung cấm theo
những tiêu chuẩn đề ra. Lọc theo nội dung được tiến hành nhờ các kỹ thuật "hiểu" nội dung của thông tin trên web để ngăn chặn các thơng tin có nội dung xấu. Đây là bài tốn phân lớp trang web địi hỏi các giải pháp về xử lý ngôn ngữ tự nhiên (tiếng Việt, tiếng Anh) và hình ảnh, trích chọn đặc trưng trong nội dung để biểu diễn văn bản và hình ảnh và áp dụng các thuật toán phân lớp dữ liệu.
Các hệ thống lọc được chia làm ba mức lọc thông tin như sau:
- Mức cục bộ sử dụng bộ lọc client- based filter: thông qua các phần mềm
cài đặt trên máy tính cá nhân trong phạm vi nhỏ như gia đình, cơng ty.
- Mức tổ chức sử dụng bộ lọc server-base filter: là giải pháp lọc nội dung
cho mạng cỡ vừa như mạng intranet trong cơ quan, trường học hay công ty.
- Mức quốc gia: để lọc nội dung ở mạng xương sống (backbone) của quốc gia.
Việc lọc thông tin được thực hiện như sau: