Mơ hình kiến trúc cơng cụ lọc nội dung Webfilter

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 66)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

3.2.3. Nguyên lý hoạt động hệ thống

Khi nhận đƣợc yêu cầu từ một client từ máy trạm sử dụng trình duyệt web để gửi các yêu cầu truy cập đến một Website bất kỳ trên Internet trên cổng 80, firewall sẽ chuyển yêu cầu cần truy cập web theo cổng 80 đến cổng 8080 và gửi tới proxy. Proxy sẽ tiếp nhận yêu cầu và chuyển tới module lọc nội dung. Tại đây, các module thành phần của hệ thống lọc sẽ xem xét lần lƣợt các thông tin các yêu cầu truy cập của client bao gồm: username, IP, url yêu cầu truy cập,…

Sau đó, bộ lọc sẽ đối sánh, nếu một trong các thông tin trên vi phạm hoặc tồn tại trong cơ sở dữ liệu thì bộ ra quyết định của module lọc sẽ ra quyết định từ chối yêu cầu truy cập vừa gửi tới và trả về một thơng báo cho client.

Nếu u cầu đó khơng vi phạm, thì module lọc sẽ gửi yêu cầu truy cập đó lại proxy squid để chuyển địa chỉ cần truy cập trên Internet. Khi một kết nối đến Internet thành công nội dung website đó đƣợc lƣu tại cache của proxy, module tƣơng tác giữa proxy và webfilter cho phép module lọc của hệ thống làm việc để kiểm tra tất cả nội dung của website theo từ khóa, theo url đi kèm và theo một số tiêu chí khác đƣợc thiết lập của ngƣời quản trị. Nếu nội dung của các website đó khơng vi phạm các quy tắc trong CSDL thì website đó đƣợc phép chuyển về client. Trong trƣờng hợp ngƣợc lại, thơng tin đó sẽ bị từ chối gửi đến client.

3.3. Cơng cụ lọc nội dung Webfilter 3.3.1. Tính năng hoạt động

Để có thể minh hoạ rõ nét q trình hoạt động của bộ lọc Web đầy đủ, chúng ta sẽ xem xét scenario thể hiện quá trình hoạt động, tƣơng tác giữa các mô đun trong bộ lọc Web nhƣ sau:

1, Trình duyệt web yêu cầu kết nối tới trang web server.

2, Dữ liệu đầu vào xuất phát từ hệ thống proxy sẽ đƣợc kiểm sốt thơng qua bộ kiểm soát. Dữ liệu này sẽ đƣợc gửi xử lý ở mơ đun chuẩn hố dữ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

liệu với nhiệm vụ chuyển tất cả các tài liệu Web/Mail về hai dạng cơ bản: plaintext và hình ảnh. Song song quá trình này, riêng với hệ thống lọc Web, bộ kiểm soát sẽ gửi URL của tài liệu tƣơng ứng đến bộ lọc URL/PICS.

3, Mơ đun kiếm sốt làm nhiệm vụ điều phối q trình phân tích nội dung tài liệu. Trong trƣờng hợp tài liệu này là văn bản plaintext, nó sẽ đƣợc chuyển đến mơ đun xác định ngơn ngữ, nếu là hình ảnh nó sẽ chuyển trực tiếp đến mơ đun lọc hình ảnh.

4, Sau khi xác định đƣợc ngôn ngữ của tài liệu, kết quả này sẽ đƣợc mô đun xác định ngôn ngữ chuyển lại cho bộ kiểm sốt. Mơ đun này sẽ từ đó chuyển tài liệu đó đến bộ lọc tƣơng ứng với ngôn ngữ vừa xác định đƣợc (Việt/Anh).

5, Kết quả của các mô đun lọc văn bản plaintext tiếng Việt, tiếng Anh, lọc hình ảnh và URL+PICS sẽ đƣợc mơ đun kiểm sốt thu nhận và chuyển đến bộ ra quyết định.

6, Bộ ra quyết định sẽ dựa vào những chính sách lọc đã đƣợc quy định, tiến hành ra quyết định cấm, không cấm hay xét duyệt lại nội dung tài liệu. Từ đó mơ đun kiểm sốt có thể tƣơng tác với hệ thống firewall/proxy để thực hiện những quyết định đƣa ra.

Trong q trình cài đặt bộ lọc Web, bộ kiểm sốt, bộ ra quyết định và mơ đun lọc URL/PICS đã đƣợc tích hợp vào trong hạ tầng nhằm tăng hiệu quả xử lý. Việc tƣơng tác giữa mô đun kiểm sốt và các mơ đun cịn lại (xác định ngơn ngữ, chuẩn hố dữ liệu, lọc tiếng Anh, tiếng Việt) đƣợc thực hiện thông qua kỹ thuật truyền thông giữa socket các tiến trình IPC (Interprocess Communication) Socket.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

3.3.2. Cấu hình các modul hỗ trợ

Việc tích hợp tồn bộ các mơ đun chính của bộ lọc đƣợc tiến hành đúng theo đặc tả đã đƣợc phát triển trong quá trình xây dựng các mơ đun thành phần. Các dữ liệu đầu vào và đầu ra của các mô đun trong bộ lọc Web đƣợc đặc tả chi tiết nhƣ sau:

3.3.2.1. Bộ chuẩn hóa dữ liệu

Mơ đun này có nhiệm vụ chuyển những định dạng khác nhau của tài liệu ngƣời dùng yêu cầu thành hai dạng cơ bản: hình ảnh và những chuỗi ký tự (plaintext). Gateway Web Proxy + Firewall Internet User’s Web Browser Bộ lọc Bộ kiểm sốt Bộ ra quyết định

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

o Input: các tệp tài liệu định dạng HTML, word, excel, PDF, JPEG, PNG, GIF

o Output: Các đoạn văn bản ở dạng plain text, các tệp hình ảnh.

3.3.2.2. Bộ xác định ngơn ngữ:

o Input: Tài liệu dạng plaintext

o Output: Mã ngôn ngữ của từng đoạn văn bản trong tài liệu đầu vào. Mã này bắt buộc phải có khả năng xác định 2 ngơn ngữ chính là tiếng Anh và tiếng Việt.

3.3.2.3. Bộ lọc văn bản tiếng Việt:

Bộ xác định ngôn ngữ Văn bản plaintext Các đoạn văn bản (paragraph) đã đƣợc chia cùng mã ngôn ngữ tƣơng ứng HTML, Word, Excel, PDF -Plaintext - Hình ảnh Bộ chuẩn hóa dữ liệu

Hình 3.3. Mơ hình bộ chuẩn hóa dữ liệu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Văn bản Tiếng Anh

- Độ xấu của văn bản đầu vào

- Thể loại của văn bản đầu vào

Văn bản Tiếng Việt

- Độ xấu của văn bản đầu vào

- Thể loại của văn bản đầu vào

Bộ lọc này có nhiệm vụ phân tích, phân loại, đánh giá mức độ xấu của một tài liệu (đoạn – paragraph) đƣợc xây dựng từ ngôn ngữ tiếng Việt.

o Input: Tài liệu văn bản tiếng Việt. o Output:

 Độ xấu của văn bản đầu vào, đánh giá trên thang điểm 0- 100 tƣơng ứng từ tốt đến xấu.

 Thể loại của văn bản đầu vào.

3.3.2.4. Bộ lọc văn bản tiếng Anh:

Bộ lọc này có nhiệm vụ phân tích, phân loại, đánh giá mức độ xấu của một tài liệu (đoạn – paragraph) đƣợc xây dựng từ ngôn ngữ tiếng Anh.

o Input: Tài liệu văn bản tiếng Anh.

Bộ lọc tiếng Việt Bộ lọc tiếng Anh

Hình 3.5. Mơ hình bộ lọc văn bản tiếng Việt

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình ảnh - Độ xấu của ảnh đầu vào - Thể loại của ảnh đầu vào o Output:

 Độ xấu của văn bản đầu vào, đánh giá trên thang điểm 0- 100 tƣơng ứng từ tốt đến xấu.

 Thể loại của văn bản đầu vào.

3.3.2.5. Bộ lọc ảnh có nội dung xấu:

Bộ lọc này có nhiệm vụ phân tích, phân loại, đánh giá mức độ xấu của một ảnh có định dạng bitmap, BMP, JPEG, GIF, hay PNG.

o Input: Ảnh có dạng BMP, JPEG, GIF, PNG o Output:

 Độ xấu của ảnh ban đầu, đánh giá trên thanh điểm từ 0 đến 100 tƣơng ứng từ tốt tới xấu.

 Thể loại ảnh ban đầu.

3.3.2.6. Bộ lọc URL và PICS:

Bộ lọc này có nhiệm vụ phân tích cú pháp và cả ngữ nghĩa một địa chỉ URL, từ đó đánh giá mức độ xấu của URL đó. Trong trƣờng hợp URL đó đã đƣợc đánh giá, phân loại theo chuẩn PICS, bộ lọc sẽ ghi nhận những đánh giá phân loại đó, tiến hành phân tích và ra cập nhật lại độ xấu của địa chỉ URL yêu cầu.

Bộ lọc Ảnh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

URL yêu cầu

- Độ xấu của URL đầu vào

- Thể loại của URL đầu vào

o Input: địa chỉ URL của tài liệu yêu cầu. o Output:

 Độ xấu của URL đầu vào, đánh giá trên thang điểm 0-100 tƣơng ứng từ tốt đến xấu.

 Thể loại của URL yêu cầu

3.3.2.7. Bộ ra quyết định:

Bộ ra quyết định giữ vai trị phân tích các kết quả đến từ các bộ phận khác trong tổng thể hệ thống để từ đó tổng hợp và ra quyết định xử lý với tài liệu mà ngƣời dùng yêu cầu. Quyết định xử lý đối với một yêu cầu sẽ chủ yếu dựa trên độ xấu Đx của yêu cầu đó và bao gồm các trƣờng hợp sau:

- Cấm không cho ngƣời sử dụng truy cập đến địa chỉ yêu cầu và thơng báo lý do cấm cho ngƣời đó. Đây là trƣờng hợp độ xấu (Đx)của tài liệu yêu cầu lớn hơn ngƣỡng xấu (Nx) cho phép của một tài liệu Đx > Nx ,

- Cho phép ngƣời sử dụng truy cập đến địa chỉ yêu cầu. Đây là trƣờng hợp tài liệu yêu cầu có độ xấu nhỏ hơn ngƣỡng cần kiểm soát (Nk) : Đx < Nk. Bộ lọc URL chuẩn PICS

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Quyết định xử lý - Độ xấu

- Thể loại yêu cầu

- Cho phép truy cập đến tài liệu yêu cầu, tuy nhiên vết của tài liệu này sẽ đƣợc lƣu lại trong phần lƣu vết của hệ thống. Trong trƣờng hợp này, độ xấu của tài liệu sẽ nằm trong hai ngƣỡng cấm và kiểm soát : Nk <= Đx <= Nx. Ngƣời phụ trách đảm bảo an tồn/an ninh thơng tin sẽ có nhiệm vụ phân tích đánh giá lại những tài liệu này và cập nhật lại vào trong hai danh sách trắng và đen.

- Cho phép truy cập đến tài liệu yêu cầu trong trƣờng hợp độ lớn của tài liệu yêu cầu vƣợt quá ngƣỡng Nl cho phép của hệ thống. Trong

trƣờng hợp này, tài liệu này cũng sẽ đƣợc lƣu lại trong vết của hệ thống và sẽ đƣợc tiến hành phân tích, đánh giá theo hình thức ngoại tuyến để cập nhật lại hai danh sách trắng và đen.

Nhƣ vậy, bộ ra quyết định sẽ có đầu vào và đầu ra cụ thể nhƣ sau:

o Input: Các kết quả( độ xấu + thể loại tài liệu yêu cầu) đến từ các bộ phận khác.

o Output: Quyết định xử lý.

3.3.2.8. Bộ kiểm soát

Bộ kiểm sốt có nhiệm vụ điều phối các luồng dữ liệu bên trong hệ thống lọc nội dung.

Bộ ra quyết định

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Từ các dữ liệu đầu ra của mỗi bộ phận trong hệ thống, bộ kiểm sốt có nhiệm vụ truyển những kết quả đó đến bộ phận có trách nhiệm xử lý. Các luồng dữ liệu mà bộ kiểm soát phải đảm nhiệm bao gồm:

- Chuyển kết quả của bộ chuẩn hoá dữ liệu đến các bộ lọc ảnh và bộ xác định ngôn ngữ tƣơng ứng với những kết quả text hay ảnh ở bộ chuẩn hoá.

- Chuyển kết quả của bộ xác định ngôn ngữ đến bộ lọc tiếng Việt hoặc/và bộ lọc tiếng Anh tƣơng ứng với kết quả xác định là tiếng Việt hay tiếng Anh của tài liệu yêu cầu

- Chuyển địa chỉ URL yêu cầu từ hệ thống proxy đến bộ lọc URL và PICS

- Chuyển các kết quả từ các bộ lọc URL&PICS, lọc ảnh, lọc tiếng Việt, lọc tiếng Anh đến bộ ra quyết định

- Chuyển kết quả quyết định xử lý đến hệ thống firewall và proxy.

3.3. Cài đặt và thử nghiệm 3.3.1. Cài đặt hệ thống

Phần mềm hoạt động trên một máy tính chạy các hệ điều hành sau:

Bộ kiểm soát Output của tất cả các bộ phận khác Input của các bộ phận khác Hình 3.10. Mơ hình bộ kiểm sốt

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Windows XP, Windows 7 với trình duyệt Internet Explorer

3.3.2. Demo hệ thống

Giao diện trang chủ của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện thiết lập công cụ của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện thiết lập mật khẩu của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện khi bật chức năng kiểm soát truy cập Website

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện khi tắt chức năng kiểm sốt truy cập Website

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện truy cập Website bị cấm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện báo cáo giám sát truy cập Website

Hình 3.17. Giao diện báo cáo giám sát truy cập Website

3.3.3. Các công nghệ sử dụng

- Ngơn ngữ lập trình sử dụng: C# - Hệ quản trị CSDL: SQL Server.

3.4.4. Tính linh hoạt của hệ thống

Hệ thống giám sát truy cập Website rất nhỏ gọn, các module đƣợc viết một cách khoa học theo mơ hình 3 lớp đảm bảo tính tối ƣu và linh hoạt cho hệ thống.

Việc thiết kế và lƣu trữ cơ sở dữ liệu trên môi trƣờng Web sẽ làm cho ứng dụng đƣợc giảm nhẹ về kích thƣớc và tự động đƣợc cập nhật khi hệ thống cần kiểm tra và đối chiếu dữ liệu.

Ngƣời dùng có thể sử dụng bộ cài đặt để cài đặt hệ thống hoặc chỉ cần copy file chạy FilterWeb.exe vào máy là có thể sử dụng đƣợc.

Giao diện đƣợc xây dựng thuần việt nên rất dễ sử dụng và thiết lập thơng số cho hệ thống.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

3.4. Hƣớng phát triển

Hƣớng phát triển trong tƣơng lai là hồn thiện mơ hình lọc web, củng cố và tối ƣu hóa hệ thống mà luận văn này đã xây dựng đƣợc để có thể triển khai và ứng dụng có hiệu quả trong thực tế.

Đồng thời có thể mở rộng xây dựng đƣợc một hệ thống lọc chuyên dụng cho từng lĩnh vực cụ thể, có thể lọc bất kỳ các trang web có nội dung độc hại nào cho ngƣời Việt dựa trên nguyên lý thiết kế hệ thống lọc nhƣ đã trình bày ở trên.

- Đối với Từ điển từ khóa: ta có thể phát triển để có cấu trúc phân cấp để phân loại các trang WEB độc hại theo các yêu cầu đa dạng của nhiều ngƣời dùng với các quyền hạn và phạm vi khác nhau.

- Đối với Kêt quả lọc: Nâng cao khả năng hiển thị dạng WEB cây phân cấp theo các lĩnh vực phân loại trang WEB độc hại để hỗ trợ tìm hiểu, quản lý, phân tích, đánh giá các trang WEB độc hại đƣợc trực quan và gợi mở hơn.

- Phần mềm mới chỉ tìm kiếm, phân loại trên nền font Unicode, sau này có thể mở rộng trên các font tiếng Việt khác.

- Phần mềm mới kiểm soát đƣợc luồng truy cập mạng từ máy Client, sau này có thể mở rộng trên mạng Lan

KẾT LUẬN

Sau một thời gian nghiên cứu, tìm hiểu, vận dụng các kiến thức đã học vào trong yêu cầu thực tế của Luận văn, luận văn đã đáp ứng đƣợc các yêu cầu đặt ra sau:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

+ Đi sâu nghiên cứu các vấn đề nhằm bảo đảm an tồn thơng tin và bảo đảm an ninh nội dung thông tin nhƣ: xác định các nguồn nguy cơ và giải pháp đảm bảo an tồn; trong đó tập trung nghiên cứu về giải pháp lọc nội dung trên

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 66)

Tải bản đầy đủ (PDF)

(88 trang)