Phân tích các thành phần

Một phần của tài liệu lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm (Trang 26 - 29)

ra sẽ bổ sung IP,URL vào Kho dữ liệu lọc qua (10).

− Bộ quyết định:

o Bộ quyết định có thực hiện chuyển tiếp các gói tin vào nhánh (3) hoặc nhánh (6) theo tính chất gói tin đưa vào.

o Trên cơ sở kết quả các thành phần Lọc cụ thể, lọc loại trừLọc nội dung

trả ra, Bộ quyết định sẽ quyết định truy cập đang thực hiện được tiếp tục hay chặn lại. Ngoài ra để đảm bảo hệ thống tường lửa đáp ứng thời gian thực, nếu quá ngưỡng cho phép mà chưa có kết quả trả ra từ các thành phần khác thì Bộ quyết định sẽ tự đưa ra quyết định dựa trên kết quả hiện có và gửi thông báo cho các thành phần liên quan qua (3), (9).

1.6.3. Phân tích các thành phầnBộ quyết định Bộ quyết định

Bộ quyết định là thành phần trung tâm của tường lửa lọc nội dung. Hoạt động của các thành phần khác trong tường lửa đều được kiểm soát bởi thành phần này. Chức năng chính của Bộ quyết định là đưa ra các quyết định liên quan tới hoạt động của tường lửa, bao gồm:

o Quyết định gói tin sẽ được chuyển tiếp cho các thành phần khác (theo nhánh (3) hoặc nhánh (6)).

o Quyết định công việc tường lửa phải thực hiện tiếp trên cơ sở kết quả trả về từ nhánh (3) và nhánh (9): trong đó kết quả trả về từ nhánh (9) là kết quả trực tiếp của các bộ phận trong thành phần Lọc nội dung (bộ phận xử lý về kiểu dữ liệu, xử lý về từ và cụm từ, …)

o Quyết định công việc của tường lửa phải thực hiện khi các thành phần gửi kết quả chậm hơn thời gian quy định.

o Quyết định các phần dữ liệu đã qua kiểm duyệt được chuyển tới người sử dụng khi dữ liệu chưa tập hợp đầy đủ.

Lọc cụ thể, lọc loại trừ

Thành phần lọc cụ thể, lọc loại trừ là thành phần cơ bản của hệ thống tường lửa lọc nội dung. Thành phần này thực hiện việc lọc trang web theo chức năng cơ bản: lọc theo địa chỉ IP và địa chỉ URL. Việc duy trì thành phần cơ bản của hệ thống tường lửa trong hệ thống tường lửa lọc nội dung đảm bảo cho việc kiểm soát các trang web đã biết được thực hiện với thời gian là nhanh nhất.

Các địa chỉ IP, URL được lưu trữ trong Kho dữ liệu lọc và được phân thành hai loại: danh sách đen và danh sách trắng. Mỗi truy cập của người dùng ra Internet sẽ được kiểm soát một lần bởi thành phần Lọc cụ thể, lọc loại trừ thông qua gói tin đầu tiên đi qua. Các kết quả đạt được:

o IP, URL của gói tin nằm trong danh sách đen: truy cập của người dùng bị chặn lại.

o IP, URL của gói tin nằm trong danh sách trắng: truy cập của người dùng là hợp pháp, mọi gói tin tiếp theo trong tiến trình truy cập sẽ được chuyển tiếp qua mà không cần phải kiểm soát.

o IP, URL của gói tin không nằm trong 2 danh sách: gói tin sẽ được chuyển sang thành phần Lọc nội dung để tiếp tục kiểm soát các gói tin tiếp theo của tiến trình truy cập.

Trong trường hợp kết quả đạt được là trường hợp 3: do thông tin IP, URL của các gói tin tiếp theo hoàn toàn giống với gói tin đầu nên việc không cần sử dụng thành phần Lọc cụ thể, lọc loại trừ để kiểm soát sẽ giảm thiểu thời gian bị trì hoãn

khi duyệt web của người dùng do hệ thống lọc nội dung gây ra.

Kho dữ liệu lọc được bổ sung, cập nhật thường xuyên từ kết quả của thành phần Lọc nội dung.

Proxy cache:

Proxy cache là cách gọi tắt của “Web proxy cache”, chức năng chính của nó là thực hiện lưu trữ các trang web được truyền qua nó, và khi có một yêu cầu mới về trang web đó thì sẽ được đáp ứng nhanh hơn. Proxy cache đã làm giảm đáng kể về băng thông và thời gian đáp ứng yêu cầu của người dùng khi duyệt web. Đây được coi là vấn đề cố hữu trong giải quyết vấn đề lưu lượng Internet. Bởi vì trang web lúc này đã được lưu lại trên máy chủ (proxy) cục bộ nên khi có một yêu cầu mới tới trang web nó sẽ được đáp ứng ngay từ máy chủ cục bộ. Hiệu năng của máy chủ (proxy) càng được thể hiện rõ nét khi có nhiều trang web được duyệt trên cùng một địa chỉ website. Proxy cache có cơ chế lưu trữ các hình ảnh và file con của các trang web đã được duyệt qua, khi người sử dụng chuyển qua duyệt một trang web mới nhưng trên cùng site đó, nếu trong trang web mới có sử dụng lại các hình ảnh đã có của trang web cũ thì proxy cache sẽ tự động cung cấp tới người sử dụng mà không qua việc lấy lại từ site.

Trong hệ thống tường lửa lọc nội dung proxy cache được sử dụng với các mục đích sau:

o Tổng hợp các gói tin thành một trang web có nội dung hoàn chỉnh cung cấp đầu vào cho thành phần lọc nội dung.

o Tăng tốc độ trong việc phân tích các trang web khác trên cùng một site: do không phải lấy lại những file đã có.

o Giảm thiểu thời gian bị trì hoãn khi duyệt web của người dùng do hệ thống lọc nội dung gây ra.

Lọc nội dung:

Thành phần Lọc nội dung là thành phần chính của tường lửa lọc nội dung. Một tường lửa thông thường sẽ thực hiện lọc các trang web thông qua thông tin đã biết của trang web đó (IP, URL). Tuy nhiên, số lượng trang web thì rất lớn và không ngừng phát triển nên nhiều trang web đi qua được tường lửa thông thường mà không được kiểm soát về nội dung. Thành phần Lọc nội dung là thành phần bổ sung cho tường lửa thông thường, thực hiện nhiệm vụ kiểm soát những trang web

hiện đang chưa có thông tin lưu trữ trong Kho dữ liệu lọc.

Đối với tường lửa lọc nội dung thì mọi trang web đều được kiểm duyệt, tuy nhiên những trang web được kiểm duyệt bởi thành phần Lọc nội dung sẽ chỉ mang tính tương đối bởi các thuật toán lọc nội dung hiện nay đều chưa đạt độ chính xác tuyệt đối.

Thành phần lọc nội dung bao gồm nhiều thành phần con, mỗi thành phần thực hiện một chức năng riêng biệt: xử lý dữ liệu dạng text, dạng hình ảnh, dạng nén,… (adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm (Trang 26 - 29)