Đây là một phần mềm miễn phí đƣợc tác giả Vũ Lƣơng Bằng - TP. Hồ Chí Minh đƣa ra, sản phẩm đƣợc cài đặt trực tiếp trên máy trạm, ngƣời dùng sẽ chủ động quản trị chƣơng trình này.
Phần mềm có các chức năng sau:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
+ Hạn chế các trang web cài phần mềm gián điệp, phần mềm quay số quốc tế vào máy tính.
+ Ghi nhật ký các chƣơng trình đã chạy trên máy, các trang web đã đƣợc truy cập và các trang web xấu mà chƣơng trình đã ngăn chặn.
+ Ghi nhật ký đến địa chỉ mail do ngƣời dùng thiết lập.
+ Chụp ảnh màn hình (chụp định kỳ màn hình, thời gian do ngƣời dùng quy định)
+ Khóa màn hình định kỳ để bảo vệ sức khỏe cho ngƣời sử dụng (thời gian do ngƣời dùng tự thiết lập).
+ Tự động cập nhật danh sách các từ khóa, các trang web cấm. + Xuất báo cáo ra file HTML
Ƣu điểm:
- Sản phẩm áp dụng đƣợc nhu cầu sử dụng của cá nhân muốn bảo vệ, quản lý máy tính của mình khỏi các thông tin độc hại từ các trang web đen.
- Sản phẩm có giao diện tiếng Việt nên dễ dàng cho ngƣời dùng.
Nhƣợc điểm:
- Chƣơng trình cài đặt trên máy trạm, do vậy sẽ gây cản trở rất lớn về tốc độ hoạt động của máy, khả năng lọc là không khách quan, không bắt buộc đƣợc ngƣời sử dụng các sản phẩm này trên máy tính cá nhân.
- Chỉ hoạt động hiệu quả nhất khi dùng trình duyệt Internet Explorer và Netscape.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
CHƢƠNG III:
XÂY DỰNG CÔNG CỤ LỌC NỘI DUNG WEB 3.1. Mô hình kiến trúc bộ lọc nội dung webfilter
+ Thu nhận các nội dung web nghi là có nội dung độc hại. + Ngăn chặn đƣợc việc truy cập các trang web độc hại Bộ lọc nội dung Webfilter có mô hình nguyên lý gồm 4 modules:
- Module Proxy: Sử dụng gói phần mềm Proxy Squid đã đƣợc tích hợp với hệ điều hành.
- Module lọc nội dung: Đây là phần quan trọng nhất của hệ thống này, nó bao gồm các module riêng lẻ có nhiệm vụ tƣơng tác với proxy và lọc nội dung. Từ kết quả của các module lọc, module này sẽ quyết định cho phép hay từ chối luồng thông tin từ các máy trạm ở mạng bên trong ra ngoài Internet hoặc từ Internet vào các máy ở bên trong.
- Module quản trị: cho phép quản trị hệ thống và thiết lập chính sách lọc cho các công cụ lọc bao gồm: thiết lập các từ khóa, danh sách lọc,…
Module lọc nội dung thông tin Internet
Image filter PICS filter Other filter Module quyết định Việt filter Eng filter Laguages filter
Module kiểm soát
P ro x y Sq u id Firewall Ngƣời dùng
Internet Module quản trị
filter
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
3.2.3. Nguyên lý hoạt động hệ thống
Khi nhận đƣợc yêu cầu từ một client từ máy trạm sử dụng trình duyệt web để gửi các yêu cầu truy cập đến một Website bất kỳ trên Internet trên cổng 80, firewall sẽ chuyển yêu cầu cần truy cập web theo cổng 80 đến cổng 8080 và gửi tới proxy. Proxy sẽ tiếp nhận yêu cầu và chuyển tới module lọc nội dung. Tại đây, các module thành phần của hệ thống lọc sẽ xem xét lần lƣợt các thông tin các yêu cầu truy cập của client bao gồm: username, IP, url yêu cầu truy cập,…
Sau đó, bộ lọc sẽ đối sánh, nếu một trong các thông tin trên vi phạm hoặc tồn tại trong cơ sở dữ liệu thì bộ ra quyết định của module lọc sẽ ra quyết định từ chối yêu cầu truy cập vừa gửi tới và trả về một thông báo cho client.
Nếu yêu cầu đó không vi phạm, thì module lọc sẽ gửi yêu cầu truy cập đó lại proxy squid để chuyển địa chỉ cần truy cập trên Internet. Khi một kết nối đến Internet thành công nội dung website đó đƣợc lƣu tại cache của proxy, module tƣơng tác giữa proxy và webfilter cho phép module lọc của hệ thống làm việc để kiểm tra tất cả nội dung của website theo từ khóa, theo url đi kèm và theo một số tiêu chí khác đƣợc thiết lập của ngƣời quản trị. Nếu nội dung của các website đó không vi phạm các quy tắc trong CSDL thì website đó đƣợc phép chuyển về client. Trong trƣờng hợp ngƣợc lại, thông tin đó sẽ bị từ chối gửi đến client.
3.3. Công cụ lọc nội dung Webfilter 3.3.1. Tính năng hoạt động
Để có thể minh hoạ rõ nét quá trình hoạt động của bộ lọc Web đầy đủ, chúng ta sẽ xem xét scenario thể hiện quá trình hoạt động, tƣơng tác giữa các mô đun trong bộ lọc Web nhƣ sau:
1, Trình duyệt web yêu cầu kết nối tới trang web server.
2, Dữ liệu đầu vào xuất phát từ hệ thống proxy sẽ đƣợc kiểm soát thông qua bộ kiểm soát. Dữ liệu này sẽ đƣợc gửi xử lý ở mô đun chuẩn hoá dữ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
liệu với nhiệm vụ chuyển tất cả các tài liệu Web/Mail về hai dạng cơ bản: plaintext và hình ảnh. Song song quá trình này, riêng với hệ thống lọc Web, bộ kiểm soát sẽ gửi URL của tài liệu tƣơng ứng đến bộ lọc URL/PICS.
3, Mô đun kiếm soát làm nhiệm vụ điều phối quá trình phân tích nội dung tài liệu. Trong trƣờng hợp tài liệu này là văn bản plaintext, nó sẽ đƣợc chuyển đến mô đun xác định ngôn ngữ, nếu là hình ảnh nó sẽ chuyển trực tiếp đến mô đun lọc hình ảnh.
4, Sau khi xác định đƣợc ngôn ngữ của tài liệu, kết quả này sẽ đƣợc mô đun xác định ngôn ngữ chuyển lại cho bộ kiểm soát. Mô đun này sẽ từ đó chuyển tài liệu đó đến bộ lọc tƣơng ứng với ngôn ngữ vừa xác định đƣợc (Việt/Anh).
5, Kết quả của các mô đun lọc văn bản plaintext tiếng Việt, tiếng Anh, lọc hình ảnh và URL+PICS sẽ đƣợc mô đun kiểm soát thu nhận và chuyển đến bộ ra quyết định.
6, Bộ ra quyết định sẽ dựa vào những chính sách lọc đã đƣợc quy định, tiến hành ra quyết định cấm, không cấm hay xét duyệt lại nội dung tài liệu. Từ đó mô đun kiểm soát có thể tƣơng tác với hệ thống firewall/proxy để thực hiện những quyết định đƣa ra.
Trong quá trình cài đặt bộ lọc Web, bộ kiểm soát, bộ ra quyết định và mô đun lọc URL/PICS đã đƣợc tích hợp vào trong hạ tầng nhằm tăng hiệu quả xử lý. Việc tƣơng tác giữa mô đun kiểm soát và các mô đun còn lại (xác định ngôn ngữ, chuẩn hoá dữ liệu, lọc tiếng Anh, tiếng Việt) đƣợc thực hiện thông qua kỹ thuật truyền thông giữa socket các tiến trình IPC (Interprocess Communication) Socket.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
3.3.2. Cấu hình các modul hỗ trợ
Việc tích hợp toàn bộ các mô đun chính của bộ lọc đƣợc tiến hành đúng theo đặc tả đã đƣợc phát triển trong quá trình xây dựng các mô đun thành phần. Các dữ liệu đầu vào và đầu ra của các mô đun trong bộ lọc Web đƣợc đặc tả chi tiết nhƣ sau:
3.3.2.1. Bộ chuẩn hóa dữ liệu
Mô đun này có nhiệm vụ chuyển những định dạng khác nhau của tài liệu ngƣời dùng yêu cầu thành hai dạng cơ bản: hình ảnh và những chuỗi ký tự (plaintext). Gateway Web Proxy + Firewall Internet User’s Web Browser Bộ lọc Bộ kiểm soát Bộ ra quyết định
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
o Input: các tệp tài liệu định dạng HTML, word, excel, PDF, JPEG, PNG, GIF
o Output: Các đoạn văn bản ở dạng plain text, các tệp hình ảnh.
3.3.2.2. Bộ xác định ngôn ngữ:
o Input: Tài liệu dạng plaintext
o Output: Mã ngôn ngữ của từng đoạn văn bản trong tài liệu đầu vào. Mã này bắt buộc phải có khả năng xác định 2 ngôn ngữ chính là tiếng Anh và tiếng Việt.
3.3.2.3. Bộ lọc văn bản tiếng Việt:
Bộ xác định ngôn ngữ Văn bản plaintext Các đoạn văn bản (paragraph) đã đƣợc chia cùng mã ngôn ngữ tƣơng ứng HTML, Word, Excel, PDF -Plaintext - Hình ảnh Bộ chuẩn hóa dữ liệu
Hình 3.3. Mô hình bộ chuẩn hóa dữ liệu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Văn bản Tiếng Anh
- Độ xấu của văn bản đầu vào
- Thể loại của văn bản đầu vào
Văn bản Tiếng Việt
- Độ xấu của văn bản đầu vào
- Thể loại của văn bản đầu vào
Bộ lọc này có nhiệm vụ phân tích, phân loại, đánh giá mức độ xấu của một tài liệu (đoạn – paragraph) đƣợc xây dựng từ ngôn ngữ tiếng Việt.
o Input: Tài liệu văn bản tiếng Việt. o Output:
Độ xấu của văn bản đầu vào, đánh giá trên thang điểm 0- 100 tƣơng ứng từ tốt đến xấu.
Thể loại của văn bản đầu vào.
3.3.2.4. Bộ lọc văn bản tiếng Anh:
Bộ lọc này có nhiệm vụ phân tích, phân loại, đánh giá mức độ xấu của một tài liệu (đoạn – paragraph) đƣợc xây dựng từ ngôn ngữ tiếng Anh.
o Input: Tài liệu văn bản tiếng Anh.
Bộ lọc tiếng Việt Bộ lọc tiếng Anh
Hình 3.5. Mô hình bộ lọc văn bản tiếng Việt
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình ảnh - Độ xấu của ảnh đầu vào - Thể loại của ảnh đầu vào o Output:
Độ xấu của văn bản đầu vào, đánh giá trên thang điểm 0- 100 tƣơng ứng từ tốt đến xấu.
Thể loại của văn bản đầu vào.
3.3.2.5. Bộ lọc ảnh có nội dung xấu:
Bộ lọc này có nhiệm vụ phân tích, phân loại, đánh giá mức độ xấu của một ảnh có định dạng bitmap, BMP, JPEG, GIF, hay PNG.
o Input: Ảnh có dạng BMP, JPEG, GIF, PNG o Output:
Độ xấu của ảnh ban đầu, đánh giá trên thanh điểm từ 0 đến 100 tƣơng ứng từ tốt tới xấu.
Thể loại ảnh ban đầu.
3.3.2.6. Bộ lọc URL và PICS:
Bộ lọc này có nhiệm vụ phân tích cú pháp và cả ngữ nghĩa một địa chỉ URL, từ đó đánh giá mức độ xấu của URL đó. Trong trƣờng hợp URL đó đã đƣợc đánh giá, phân loại theo chuẩn PICS, bộ lọc sẽ ghi nhận những đánh giá phân loại đó, tiến hành phân tích và ra cập nhật lại độ xấu của địa chỉ URL yêu cầu.
Bộ lọc Ảnh
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
URL yêu cầu
- Độ xấu của URL đầu vào
- Thể loại của URL đầu vào
o Input: địa chỉ URL của tài liệu yêu cầu. o Output:
Độ xấu của URL đầu vào, đánh giá trên thang điểm 0-100 tƣơng ứng từ tốt đến xấu.
Thể loại của URL yêu cầu
3.3.2.7. Bộ ra quyết định:
Bộ ra quyết định giữ vai trò phân tích các kết quả đến từ các bộ phận khác trong tổng thể hệ thống để từ đó tổng hợp và ra quyết định xử lý với tài liệu mà ngƣời dùng yêu cầu. Quyết định xử lý đối với một yêu cầu sẽ chủ yếu dựa trên độ xấu Đx của yêu cầu đó và bao gồm các trƣờng hợp sau:
- Cấm không cho ngƣời sử dụng truy cập đến địa chỉ yêu cầu và thông báo lý do cấm cho ngƣời đó. Đây là trƣờng hợp độ xấu (Đx)của tài liệu yêu cầu lớn hơn ngƣỡng xấu (Nx) cho phép của một tài liệu Đx > Nx ,
- Cho phép ngƣời sử dụng truy cập đến địa chỉ yêu cầu. Đây là trƣờng hợp tài liệu yêu cầu có độ xấu nhỏ hơn ngƣỡng cần kiểm soát (Nk) : Đx < Nk. Bộ lọc URL và chuẩn PICS
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Quyết định xử lý - Độ xấu
- Thể loại yêu cầu
- Cho phép truy cập đến tài liệu yêu cầu, tuy nhiên vết của tài liệu này sẽ đƣợc lƣu lại trong phần lƣu vết của hệ thống. Trong trƣờng hợp này, độ xấu của tài liệu sẽ nằm trong hai ngƣỡng cấm và kiểm soát : Nk <= Đx <= Nx. Ngƣời phụ trách đảm bảo an toàn/an ninh thông tin sẽ có nhiệm vụ phân tích đánh giá lại những tài liệu này và cập nhật lại vào trong hai danh sách trắng và đen.
- Cho phép truy cập đến tài liệu yêu cầu trong trƣờng hợp độ lớn của tài liệu yêu cầu vƣợt quá ngƣỡng Nl cho phép của hệ thống. Trong trƣờng hợp này, tài liệu này cũng sẽ đƣợc lƣu lại trong vết của hệ thống và sẽ đƣợc tiến hành phân tích, đánh giá theo hình thức ngoại tuyến để cập nhật lại hai danh sách trắng và đen.
Nhƣ vậy, bộ ra quyết định sẽ có đầu vào và đầu ra cụ thể nhƣ sau:
o Input: Các kết quả( độ xấu + thể loại tài liệu yêu cầu) đến từ các bộ phận khác.
o Output: Quyết định xử lý.
3.3.2.8. Bộ kiểm soát
Bộ kiểm soát có nhiệm vụ điều phối các luồng dữ liệu bên trong hệ thống lọc nội dung.
Bộ ra quyết định
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Từ các dữ liệu đầu ra của mỗi bộ phận trong hệ thống, bộ kiểm soát có nhiệm vụ truyển những kết quả đó đến bộ phận có trách nhiệm xử lý. Các luồng dữ liệu mà bộ kiểm soát phải đảm nhiệm bao gồm:
- Chuyển kết quả của bộ chuẩn hoá dữ liệu đến các bộ lọc ảnh và bộ xác định ngôn ngữ tƣơng ứng với những kết quả text hay ảnh ở bộ chuẩn hoá.
- Chuyển kết quả của bộ xác định ngôn ngữ đến bộ lọc tiếng Việt hoặc/và bộ lọc tiếng Anh tƣơng ứng với kết quả xác định là tiếng Việt hay tiếng Anh của tài liệu yêu cầu
- Chuyển địa chỉ URL yêu cầu từ hệ thống proxy đến bộ lọc URL và PICS
- Chuyển các kết quả từ các bộ lọc URL&PICS, lọc ảnh, lọc tiếng Việt, lọc tiếng Anh đến bộ ra quyết định
- Chuyển kết quả quyết định xử lý đến hệ thống firewall và proxy.
3.3. Cài đặt và thử nghiệm 3.3.1. Cài đặt hệ thống
Phần mềm hoạt động trên một máy tính chạy các hệ điều hành sau:
Bộ kiểm soát Output của tất cả các bộ phận khác Input của các bộ phận khác
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Windows XP, Windows 7 với trình duyệt Internet Explorer
3.3.2. Demo hệ thống
Giao diện trang chủ của hệ thống
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Giao diện thiết lập công cụ của hệ thống
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Giao diện thiết lập mật khẩu của hệ thống
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Giao diện khi bật chức năng kiểm soát truy cập Website
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Giao diện khi tắt chức năng kiểm soát truy cập Website
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Giao diện truy cập Website bị cấm