Lọc cổng truy cập
Đối soát trực tiếp các thông tin trích rút được từ thành phần phân tích nội dung với kho dữ liệu lọc cổng. Cung cấp kết quả kiểm tra cho module Bộ quyết định để thực hiện lọc đối với gói tin truy cập.
Để nâng cao năng lực hoạt động cho tường lửa lọc nội dung, việc kiểm soát tốt danh sách cổng sử dụng cho các ứng dụng của window hay của một số hãng phần mềm lớn đã đăng ký sẽ hạn chế rất nhiều việc kiểm soát những gói tin không cần thiết.
Thông thường truy cập web có cổng nguồn là 80, do đó thực hiện lọc nội dung với các thành phần sẽ được thực thi khi gói tin đến có cổng nguồn là 80.
Lọc kiểu dữ liệu
Thành phần phân tích nội dung gói tin phân tích tiêu đề gói tin HTTP, trích rút thông tin kiểu dữ liệu (content-type) cung cấp thông tin của gói tin đến để thành phần lọc nội dung kiểu dữ liệu thực hiện kiểm soát.
trước khi tới được trình duyệt người sử dụng.
Kiểm soát thông tin về cổng và kiểu dữ liệu tuy được lấy từ trực tiếp tại mỗi gói tin riêng biệt (header lớp TCP, HTTP), tuy nhiên đặc thù của thông tin cung cấp khả năng lọc nội dung truy cập người sử dụng nên hai kiểu lọc này được coi là tính năng của thành phần lọc nội dung.
Các chức năng lọc còn lại: lọc từ khóa, lọc từ khóa có trọng số, lọc cụm từ, lọc biểu thức.
Các chức năng còn lại của module lọc nội dung có điểm khác biệt với module lọc cụ thể, lọc loại trừ: nội dung không được trích rút từ những gói tin tại vị trí nhất định mà được tổng hợp từ các gói tin thuộc cùng phiên giao dịch.
Kho dữ liệu lọc từ khóa, từ khóa có trọng số và cụm từ: là kho dữ liệu bao gồm các từ khóa (cụm từ) cần lọc kèm theo trọng số (số lần xuất hiện trong nội dung truy cập), lọc từ khóa là trường hợp riêng của lọc từ khóa có trọng số với trọng số bằng một.
Kho dữ liệu lọc biểu thức: là kho dữ liệu bao gồm các từ khóa (cụm từ) có tính điểm trong biểu thức đặt ra với ngưỡng cho trước.
Các kho dữ liệu lọc nội dung được xây dựng dựa trên kết quả phân tích thử nghiệm lượng lớn trang web trên Internet, kết quả của những bài toán lớn như: khai phá dữ liệu web, trích chọn thông tin, phân lớp, phân cụm,…
Kho dữ liệu lọc như sau:
STT Từ khóa Trọng số Điểm
1 xxx 2 30
2 sex 3 20
3 adult 1
4 education -1 -30
Quy trình lọc nội dung được thực hiện như sau:
(gói tin trong quy trình được cung cấp bởi thành phần phân tích gói tin, đã thực hiện loại bỏ phần tiêu đề IP, TCP)
− Bước 1:
o Gói tin đầu của phiên giao dịch: lấy dữ liệu trong cặp thẻ meta và cặp thẻ body, chuyển sang bước 2.
chuyển sang bước 4.
− Bước 2: kiểm tra dữ liệu trong thẻ meta (nếu có), như ví dụ tại hình 29 thực hiện trích rút thông tin tại trường “content” với trường name là “keywords”. Chuyển thông tin sang bước 3 với cờ báo tất cả từ khóa (cụm từ) có trọng số là một.
− Bước 3: đối soát từ khóa (cụm từ) trong thẻ meta với kho dữ liệu lọc, chuyển kết quả sang bước 8 khi có một từ khóa được tìm thấy.
− Bước 4: loại bỏ các cặp thẻ html trong phần dữ liệu của thẻ body. Bắt đầu từ byte đầu tiên, từng byte một cho đến byte cuối cùng cần kiểm tra. Lần lượt lấy ra số byte trong khoảng minLength(keyword) và maxLength(keyword) – độ dài nhỏ nhất và lớn nhất của từ khóa hay cụm từ lọc có trong kho dữ liệu. Với mỗi từ khóa (cụm từ) tìm được chuyển sang bước 5, nếu tới byte cuối cùng cần kiểm tra không tìm thấy từ khóa nào nữa thì sẽ kết thúc.
− Bước 5 (lọc từ khóa, lọc từ khóa có trọng số và lọc cụm từ): kết hợp kết quả bước 4 và số liệu đã kiểm tra của các gói tin trước trong cùng phiên giao dịch; nếu trong tổng số các gói tin nhận được của phiên giao dịch đến thời điểm kiểm tra có số từ “xxx” >=2 hoặc “sex” >= 3 thì chuyển sang bước 8.
− Bước 6 (lọc biểu thức): đối soát với ngưỡng 100; với số từ “xxx” xuất hiện là α và “sex” là β nếu α*30 + β*20 >= 100 thì chuyển sang bước 8.
− Bước 7: cập nhật thông tin Kho dữ liệu thread, quay trở lại bước 4.
− Bước 8: thành phần Lọc nội dung cung cấp thông tin cần lọc cho thành phần Bộ quyết định:
o Cập nhật thông tin kho dữ liệu thread.
o Quyết định thực hiện lọc đối với truy cập.
o Kết thúc phiên truy cập.
Trong một số trường hợp, để giảm thiểu dung lượng trên đường truyền các nội dung truy cập text được nén dưới dạng gzip nên để thực hiện quy trình trên cần xử lý giải nén trước.