Mô hình và nguyên lý hoạt động của hệ thống lọc nội dung web

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 50 - 88)

2.2.1 Mô hình hệ thống lọc

2.2.1.1 Mô hình hệ thống khi chƣa có cơ chế lọc nội dung

Khi một Client sử dụng trình duyệt web để gửi yêu cầu truy cập Internet tới Server, thì một kết nối từ Client tới Proxy đƣợc thiết lập. Một Proxy thƣờng bao gồm hai mô đun là Proxy Server và Proxy Client. Khi không đặt ở chế độ lọc thì các mô đun này hoạt động nhƣ sau:

+ Proxy Server tiếp nhận yêu cầu từ Client để chuyển sang cho Proxy Client, đồng thời đợi đáp ứng từ Proxy Client chuyển về để gửi trả Client.

+ Proxy Client tiếp nhận yêu cầu từ Proxy Server rồi gửi cho Server, đợi đáp ứng từ Server để gửi trả lại cho Proxy Server.

2.2.1.2 Mô hình hệ thống khi ở chế độ lọc

Kiến trúc của hệ thống lọc thƣờng gồm các mô đun chính sau:

Mô đun Proxy: Khi hệ thống đƣợc đặt ở chế độ lọc nội dung, thì hoạt động của các thành phần Proxy có sự thay đổi. Các thành phần này sẽ đóng vai trò nhƣ ngƣời trung gian tiếp nhận các yêu cầu từ Client cũng nhƣ tiếp nhận đáp ứng từ Server để chuyển đến mô đun lọc xử lý.

Mô đun lọc nội dung: là phần quan trọng nhất của hệ thống này, nó bao gồm các mô đun riêng lẻ có nhiệm vụ tƣơng tác với Proxy để lọc nội dung. Từ

Client Server

Proxy

Server Client Proxy

Firewall/Redirect

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

kết quả lọc các thông tin đi đến Proxy, mô đun này sẽ quyết định cho phép hay từ chối gửi chuyển tiếp yêu cầu từ các máy trạm tới Web Server hoặc chuyển tiếp đáp ứng từ Web Server trả lời các máy trạm.

Mô đun Quản trị: Cho phép quản trị hệ thống và thiết lập chính sách cho công cụ lọc bao gồm: thiết lập các cụm từ cần lọc, danh sách lọc, kết xuất nhật ký.v.v.

Mô đun Firewall: để định hƣớng lại gói tin trao đổi giữa ngƣời dùng và mạng Internet nhằm tạo ra sự giao dịch trong suốt từ Client tới Web Server mà vẫn có thể lọc đƣợc nội dung. Client Server Proxy Server Proxy Client

Mô đun lọc theo

URL,IP, tên miền Mô đun lọc nội dung

theo từ khoá

Nhật ký

Bộ quản lý chính sách lọc

Mô đun quản trị bộ lọc Firewall/Redirect

Không vi phạm Không

vi phạm

Vi phạm Vi phạm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

2.2.2. Nguyên lý hoạt động của hệ thống lọc

Khi tiếp nhận yêu cầu từ Client theo giao thức HTTP, fỉewall sẽ gửi các yêu cầu này tới cổng tiếp nhận của Proxy. Proxy Server sẽ thay mặt Web Server để giao dịch với Client và tiếp nhận yêu cầu rồi chuyển yêu cầu đó tới mô đun lọc nội dung. Tại đây, mô đun lọc sẽ thực hiện chức năng “lọc thô”, tức là chỉ lọc theo các tiêu chí: tên miền, địa chỉ IP, URL truy cập…dựa trên danh sách đen và danh sách trắng.

Nếu một trong các thông tin yêu cầu vi phạm hoặc tồn tại trong CSDL cấm truy cập thì bộ lọc sẽ thực hiện việc ghi lại nhật ký và gửi thông báo từ chối truy cập tới Client.

Nếu các thông tin yêu cầu không vi phạm chính sách cấm, bộ lọc sẽ chuyển yêu cầu đó tới Proxy Client để chuyển tiếp tới Web Server đƣợc yêu cầu. Từ đây, yêu cầu sẽ đƣợc xử lý và một đáp ứng phù hợp sẽ đƣợc Web Server gửi trả về cho Proxy Client. Các đáp ứng có thể gửi về bằng một gói hoặc bằng nhiều gói tin nếu dữ liệu trả lời lớn hơn độ dài cho phép của gói tin đáp ứng.

Khi tiếp nhận các gói tin đáp ứng này, Proxy Client sẽ chuyển về cho bộ lọc nội dung để tiếp tục thực hiện chức năng lọc. Tùy thông tin đáp ứng là trang siêu văn bản hay là một file mà việc lọc nội dung sẽ đƣợc thực hiện với từng gói tin hay là sau khi đã nhận đủ các gói tin. Trong trƣờng hợp, thông tin nhận đƣợc nằm trong một file dạng văn bản nén hoặc không nén, việc lọc chỉ đƣợc thực hiện sau khi đã nhận đủ các gói tin cần thiết và sử dụng phƣơng thức lọc text. Trong trƣờng hợp, thông tin nhận đƣợc nằm trong một file dạng siêu văn bản, việc lọc thực hiện với các thông tin nhận đƣợc trong một vài gói tin sao cho dữ liệu nhận đƣợc tạo đủ một cặp thẻ BODY, DIV, ROW, COLUM và sử dụng kỹ thuật lọc theo từ khóa. Bộ lọc sẽ đối sánh tất cả các từ khóa bị cấm với nội dung nhận đƣợc để kiểm tra xem có sự vi phạm hay không. Nếu không vi phạm, nội dung này sẽ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

đƣợc chuyển lại cho Proxy Server để chuyển về cho Client. Nếu có sự vi phạm, thì bộ lọc sẽ ghi lại nhật ký đồng thời gửi thông báo từ chối truy cập tới Client.

2.1.3. Proxy

Thông tin yêu cầu giao tiếp từ nhiều ngƣời sử dụng đến mạng Internet và thông tin từ mạng Internet vào trong các mạng đƣợc lọc nội dung thông tin đều phải đi qua Proxy. Proxy ứng với các kênh truyền tải dữ liệu khác nhau sẽ có các Proxy tƣơng ứng: Http đi qua Http Proxy, FTP đi qua FTP Proxy, Mail đi qua Mail Transfer Agent (MTA).

Khi ngƣời sử dụng thực hiện một phiên giao tiếp từ các trình duyệt của máy Client ra ngoài Internet hoặc mạng bên ngoài nào đó, các yêu cầu đó phải đi qua Proxy tƣơng ứng. Hệ thống lọc nội dung thông tin can thiệp đến dòng thông tin trao đổi (http, ftp, mail) bằng cách tƣơng tác với các Proxy tƣơng ứng. Tƣơng tác này đƣợc thực hiện qua các giao thức chuẩn hỗ trợ bởi các Proxy hoặc thông qua các Module lọc riêng rẽ trong hệ thống các Module lọc sẽ lần lƣợt thực hiện các nhiệm vụ riêng của mình, dựa trên các kết quả lọc, phân tích các Module lọc này, Module ra quyết định (Decsior) sẽ cho phép hay từ chối các yêu cầu giao tiếp giữa các máy trạm với mạng bên ngoài (Internet) hoặc từ mạng bên ngoài tới các máy trạm bên trong của các hệ thống mạng cần kiểm soát các nội dung thông tin.

Proxy là một loại tƣờng lửa (firewall) đƣợc thiết kế để tăng cƣờng chức năng kiểm soát các loại dịch vụ, giao thức đƣợc cho phép truy cập vào hệ thống mạng. Cơ chế hoạt động của nó dựa trên cách thức gọi là Proxy Service. Proxy Service là các bộ chƣơng trình đặc biệt vài đặt trên Gateway cho tƣng ứng dụng. Nếu ngƣời quản trị mạng không cài đặt chƣơng trình Proxy cho một ứng dụng nào đó, dịch vụ tƣơng ứng sẽ không đƣợc cung cấp và do đó không thể trao đổi thông tin qua tƣờng lửa. Ngoài ra, các mã lệnh Proxy có thể đƣợc cấu hình chỉ hỗ trợ một số đặc điểm trong ứng dụng mà ngƣời quản trị mạng cho là chấp nhận đƣợc trong khi từ chối những đặc điểm khác.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Một Firewall cổng ứng dụng thƣờng đƣợc coi nhƣ là một pháo đài (bastion host), bởi vì nó đƣợc thiết kế đặc biệt để chống lại sự tấn cong từ bên ngoài. Những biện pháp đảm bảo an ninh của một Bastion host là:

- Bastion host luôn chạy các Version an toàn của các hệ điều hành. Các Version an toàn này đƣợc thiết kế chuyên cho mục đích chống lại sự tấn công vào hệ điều hành, cũng nhƣ đảm bảo sự tích hợp Firewall.

- Chỉ những dịch vụ mà ngƣời quản trị mạng cho là cần thiết mơi đƣợc cài đặt trên Bastion host, đơn giản vì nếu một dịch vụ không đƣợc cài đặt, nó không thể bị tấn công. Thông thƣờng, chỉ một số giới hạn các dịch vụ Telnet, DNS, FTP, SMTP và xác thực ngƣời dùng là đƣợc cài đặt trên Bastion host.

- Bastion host có thể yêu cầu nhiều mức độ xác thực khác nhau, ví dụ nhƣ mật khẩu ngƣời dùng hay thẻ thông minh (smart card).

Mỗi Proxy đƣợc cấu hình để cho phép truy nhập tới chỉ một số các máy chủ nhất định. Điều này có nghĩa rằng bộ lệnh và những thông số thiết lập cho mỗi Proxy chỉ đúng với một số máy chủ trên toàn hệ thống.

Mỗi Proxy ghi nhật ký ghi toàn bộ chi tiết về mỗi giao dịch thông qua nó, mỗi sự kết nối, khoảng thời gian kết nối. Nhật ký này rất có ích trong việc tìm dấu vết hay ngăn chặn kẻ phá hoại.

Mỗi Proxy đều độc lập với các Proxy khác trên Bastion host. Điều này cho phép dễ dàng quá trình cài đặt một Proxy mới, hay tháo gỡ một Proxy đang có vấn đề.

Ví dụ nhƣ Telnet Proxy: Một máy Client mạng ngoài muốn sử dụng dịch vụ Telnet để kết nối vào hệ thống mạng qua một Bastion host có Telnet proxy. Quá trình xảy ra nhƣ sau:

+ Máy Client mạng ngoài thực hiện Telnet đến Bastion host. Basion host kiểm tra mật khẩu, nếu hợp lệ thì máy Client mạng ngoài đƣợc phép vào giao diện của Telnet proxy. Telnet proxy cho phép một tập nhỏ những lệnh của

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Telnet, và quyết định những máy chủ nội bộ nào, máy Client mạng ngoài nào đƣợc phép truy nhập.

+ Máy Client mạng ngoài chỉ ra máy chủ đích, Telnet proxy tạo một kết nối riêng nó tới máy chủ bên trong và chuyển các lệnh tới máy chủ dƣới sự ủy quyền của máy Client mạng ngoài. Máy Client mạng ngoài thì coi rằng Telnet proxy là máy chủ thật ở bên trong, trong khi máy chủ ở bên trong coi rằng Telnet proxy là Client thật.

2.3. Các kỹ thuật lọc nội dung thông tin qua giao dịch web 2.3.1. Lọc Ảnh 2.3.1. Lọc Ảnh

Hình ảnh là một trong những phƣơng tiện truyền bá thông tin trực quan nhất, và nó đƣợc sử dụng ngày càng nhiều cho việc phát tán thông tin phản động, đồi trụy. Các hệ thống lọc hiện nay mới chỉ dừng ở việc lọc các định dạng ảnh nhƣ GIF, JPEG, PNG... Do các ảnh này đƣợc nhúng trong mã HTML nên bộ lọc ảnh thƣờng có bộ phận tải trƣớc các ảnh trong mã HTML về trƣớc khi trình duyệt gọi hiển thị các ảnh này.

Hai mục tiêu chính của bộ lọc ảnh là: a. Dò tìm các bức hình đồi trụy.

b. Dò tìm các đặc trƣng ảnh có hại (nhƣ Hình đầu lâu xƣơng chéo, cờ của các tổ chức phản động, dấu hiệu của các giáo phái tín ngƣỡng...).

2.3.1.1. Bộ lọc ảnh đồi trụy

Bộ lọc này có cấu trúc bên trong gồm 2 bộ phận: a. Bộ phận dò tìm da (skin detection)

b. Bộ phận phân tích mẫu (format analyse)

Với mỗi bức ảnh đƣợc đƣa vào, bộ phận dò tìm da sẽ cho ra một bản đồ da đen trắng với cấp xám biểu thị mật độ da. Hai mô hình hiệu quả cho bộ lọc này là Maximum Entropy Modeling và Markov Random Field.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Mục tiêu của bộ phận này là so sánh toàn bộ đặc trƣng của một bức ảnh đƣợc lọc với một tập cố định các đặc trƣng mẫu. Điều này rất có ích trong việc lọc ra các hình ảnh có hại

2.3.2. Lọc Văn Bản Dùng Công Nghệ Xử lý Ngôn Ngữ Tự Nhiên (Natural Language Processing Text Filtering) - NLP (Natural Language Processing Text Filtering) - NLP

Phƣơng pháp NLP bao gồm những thành phần sau:

 Tự động trích trọn từ tập sao lục các thuật ngữ quan trọng (từ đơn, cụm từ, từ nhiều nghĩa, kiểu văn bản, v.v.).

 Xây dựng một tập từ điển các từ đồng nghĩa, trái nghĩa (thesauri/semantic).

 Kỹ thuật phân tích ngôn ngữ “không sâu”, đảm bảo phân tích thuận tiện nhiều từ đa nghĩa và các kiểu text, bao gồm:

 Đơn vị ngôn ngữ (Tokenisation).

 Phân tích hình thái học (morphological) và tập danh mục tìm kiếm (lemmatization).

 Nhận dạng tên thực thể.

 Phân đoạn một cụm từ thành các loại từ cụ thể (ví dụ: cụm danh từ.v.v…).

 Xác định những sắp xếp về mặt ngữ nghĩa khác của từ.

 Giải tích hàm (functional analysis) nhƣ là chú giải về mặt ngữ pháp (ví dụ: chủ ngữ, bổ ngữ.v.v.).

Kết quả của việc phân tích ngôn ngữ học “không sâu” sẽ cung cấp một căn cứ đƣợc dùng trong tiến trình quyết định lọc nội dung, nó sẽ là cơ sở chung cho các phƣơng pháp học. Trong phƣơng pháp học mô hình hóa, một quá trình quy nạp chung tự động xây dựng một “ngƣời phân loại” (classifier) bằng cách “học” các đặc trƣng của danh mục quan tâm từ một tập các hạng mục đã phân loại trƣớc đó. Trong hầu hết các phƣơng pháp đƣợc ứng dụng và thực hiện trƣớc đó cho nhiệm vụ phân loại và lọc text, tài liệu đƣợc coi nhƣ là

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

một “túi” từ không có cấu trúc. Để mở rộng căn cứ xác thực cho phƣơng pháp quyết định bao gồm các kết quả đã phân tích, việc xử lý ngôn ngữ “không sâu” nên dựa trên việc cung cấp một căn cứ tin cậy và chắc chắn của ký tự và nội dung tài liệu.

Một vấn đề quan trọng cuối cùng đó là cấu hình bộ lọc nội dung không nên để cố định và ở dạng tĩnh, hay nói cách khác là nó nên đƣợc làm cho thích ứng với sự thay đổi tự nhiên của các ngôn ngữ sử dụng và phải đấu tranh với những thủ đoạn ngày càng phát triển của những ngƣời lập web (muốn tăng khả năng vƣợt qua phần mềm lọc). Sự thích ứng này còn thể hiện ở chỗ những phƣơng pháp đó có thể đƣợc ứng dụng lại trên các lĩnh vực khác.

2.3.3. Lọc chọn nội dung PICS

2.3.3.1. Khái niệm

PICS (Platform for Internet Content Selection) là một cơ sở hạ tầng trên nền tiêu chuẩn mở để liên kết siêu dữ kiện (thông tin về thông tin) đối với nội dung Internet, cho phép hoặc ngăn cản truy xuất tới các địa chỉ URL, dựa theo các nhãn PICS mô tả chúng.

PICS đƣợc thiết kế để tạo điều kiện thuận lợi cho việc điều khiển lấy ngƣời nhận làm trung tâm trên Internet hơn là lấy ngƣời gửi làm trung tâm. Hơn thế, nó là một cơ chế để xây dựng và đánh giá các phần mềm lọc. Vì vậy kể từ khi ra đời nó đã đảm nhận vai trò của một phần mềm chủ chốt.

Bộ lọc dựa theo PICS kiểm tra nội dung của các trang siêu liên kết HTML trong một trang web đƣợc yêu cầu nào đó, để tìm ra các nhóm PICS và đuôi định dạng trong phần header của trang HTML. Đối với mỗi nhóm nhãn (xác định bởi địa chỉ URL), bộ lọc sẽ dịch nội dung nhãn sang kết quả hệ thống, bằng việc sử dụng file ánh xạ XML, nó kết hợp nội dung nhãn PICS với một miền kết quả. Kết quả thu đƣợc sau tiến trình này sẽ đƣợc chuyển sang modun kiểm soát (monitor) để chúng tiếp tục đƣợc đƣa vào modun quyết định. Cấu hình mỗi modun cho một loại PICS

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

cần một file đơn ánh XML. Trong hệ thống lọc, PICS là một cách lọc nội dung web có hiệu quả nhƣng vấn đề là không phải tất cả các trang web đều đƣợc gán nhãn.

Thƣờng có sự hiểu sai về PICS, nhƣ PICS có trách nhiệm về đánh giá nội dung. Tuy nhiên, PICS không đánh giá nội dung. PICS đơn giản cung cấp những phƣơng tiện kỹ thuật cho siêu dữ kiện (chẳng hạn: các nhãn, xếp hạng, lập danh mục những bản ghi, hay những chữ ký số hóa) sẽ đƣợc trao đổi với các bộ lọc hoặc các phần mềm khám phá tài nguyên.

Dạng lọc PICS gắn với thao tác phân loại dữ liệu một cách tự động. Đây là cách xác định nội dung trang web theo một tiêu chí nhất định, chẳng hạn nhƣ nó có chứa thông tin xấu, đồi trụy, bạo lực, phản động... hay không. Phƣơng pháp phân loại sẽ dựa trên nhiều mức khác nhau, với độ phức tạp tăng dần từ từ khóa, cấu trúc, đến ngữ nghĩa của dữ liệu. Vì thế công việc này đòi hỏi phải khảo sát công nghệ mới nhất hiện nay để tìm ra giải pháp thích hợp nhất, đảm bảo cả hai

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 50 - 88)

Tải bản đầy đủ (PDF)

(88 trang)