Mơ hình bộ ra quyết định

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 74)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Từ các dữ liệu đầu ra của mỗi bộ phận trong hệ thống, bộ kiểm sốt có nhiệm vụ truyển những kết quả đó đến bộ phận có trách nhiệm xử lý. Các luồng dữ liệu mà bộ kiểm soát phải đảm nhiệm bao gồm:

- Chuyển kết quả của bộ chuẩn hoá dữ liệu đến các bộ lọc ảnh và bộ xác định ngôn ngữ tƣơng ứng với những kết quả text hay ảnh ở bộ chuẩn hoá.

- Chuyển kết quả của bộ xác định ngôn ngữ đến bộ lọc tiếng Việt hoặc/và bộ lọc tiếng Anh tƣơng ứng với kết quả xác định là tiếng Việt hay tiếng Anh của tài liệu yêu cầu

- Chuyển địa chỉ URL yêu cầu từ hệ thống proxy đến bộ lọc URL và PICS

- Chuyển các kết quả từ các bộ lọc URL&PICS, lọc ảnh, lọc tiếng Việt, lọc tiếng Anh đến bộ ra quyết định

- Chuyển kết quả quyết định xử lý đến hệ thống firewall và proxy.

3.3. Cài đặt và thử nghiệm 3.3.1. Cài đặt hệ thống

Phần mềm hoạt động trên một máy tính chạy các hệ điều hành sau:

Bộ kiểm soát Output của tất cả các bộ phận khác Input của các bộ phận khác Hình 3.10. Mơ hình bộ kiểm sốt

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Windows XP, Windows 7 với trình duyệt Internet Explorer

3.3.2. Demo hệ thống

Giao diện trang chủ của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện thiết lập cơng cụ của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện thiết lập mật khẩu của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện khi bật chức năng kiểm sốt truy cập Website

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện khi tắt chức năng kiểm soát truy cập Website

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện truy cập Website bị cấm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện báo cáo giám sát truy cập Website

Hình 3.17. Giao diện báo cáo giám sát truy cập Website

3.3.3. Các cơng nghệ sử dụng

- Ngơn ngữ lập trình sử dụng: C# - Hệ quản trị CSDL: SQL Server.

3.4.4. Tính linh hoạt của hệ thống

Hệ thống giám sát truy cập Website rất nhỏ gọn, các module đƣợc viết một cách khoa học theo mơ hình 3 lớp đảm bảo tính tối ƣu và linh hoạt cho hệ thống.

Việc thiết kế và lƣu trữ cơ sở dữ liệu trên môi trƣờng Web sẽ làm cho ứng dụng đƣợc giảm nhẹ về kích thƣớc và tự động đƣợc cập nhật khi hệ thống cần kiểm tra và đối chiếu dữ liệu.

Ngƣời dùng có thể sử dụng bộ cài đặt để cài đặt hệ thống hoặc chỉ cần copy file chạy FilterWeb.exe vào máy là có thể sử dụng đƣợc.

Giao diện đƣợc xây dựng thuần việt nên rất dễ sử dụng và thiết lập thông số cho hệ thống.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

3.4. Hƣớng phát triển

Hƣớng phát triển trong tƣơng lai là hồn thiện mơ hình lọc web, củng cố và tối ƣu hóa hệ thống mà luận văn này đã xây dựng đƣợc để có thể triển khai và ứng dụng có hiệu quả trong thực tế.

Đồng thời có thể mở rộng xây dựng đƣợc một hệ thống lọc chuyên dụng cho từng lĩnh vực cụ thể, có thể lọc bất kỳ các trang web có nội dung độc hại nào cho ngƣời Việt dựa trên nguyên lý thiết kế hệ thống lọc nhƣ đã trình bày ở trên.

- Đối với Từ điển từ khóa: ta có thể phát triển để có cấu trúc phân cấp để phân loại các trang WEB độc hại theo các yêu cầu đa dạng của nhiều ngƣời dùng với các quyền hạn và phạm vi khác nhau.

- Đối với Kêt quả lọc: Nâng cao khả năng hiển thị dạng WEB cây phân cấp theo các lĩnh vực phân loại trang WEB độc hại để hỗ trợ tìm hiểu, quản lý, phân tích, đánh giá các trang WEB độc hại đƣợc trực quan và gợi mở hơn.

- Phần mềm mới chỉ tìm kiếm, phân loại trên nền font Unicode, sau này có thể mở rộng trên các font tiếng Việt khác.

- Phần mềm mới kiểm soát đƣợc luồng truy cập mạng từ máy Client, sau này có thể mở rộng trên mạng Lan

KẾT LUẬN

Sau một thời gian nghiên cứu, tìm hiểu, vận dụng các kiến thức đã học vào trong yêu cầu thực tế của Luận văn, luận văn đã đáp ứng đƣợc các yêu cầu đặt ra sau:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

+ Đi sâu nghiên cứu các vấn đề nhằm bảo đảm an tồn thơng tin và bảo đảm an ninh nội dung thông tin nhƣ: xác định các nguồn nguy cơ và giải pháp đảm bảo an tồn; trong đó tập trung nghiên cứu về giải pháp lọc nội dung trên Internet.

+ Nghiên cứu tìm hiểu các phƣơng thức lọc nội dung tiên tiến hiện nay nhƣ lọc ảnh, lọc văn bản bằng xử lý ngôn ngữ tự nhiên, lọc PICS, đặc biệt là lọc URL với xử lý liên kết tĩnh và liên kết động.

+ Tìm hiểu phƣơng thức trao đổi thơng tin trên dịch vụ web và các kỹ thuật lọc nội dung cho giao dịch web nhƣ: kỹ thuật lọc theo danh sách các địa chỉ cấm, lọc theo từ khóa, lọc ảnh.

Do thời gian nghiên cứu chƣa nhiều, khả năng cũng nhƣ kinh nghiệm của bản thân cịn ít, luận văn chƣa đƣợc hồn thiện và khơng tránh khỏi những sai sót. Nếu có điều kiện đƣợc tiếp tục nghiên cứu, em sẽ đi sâu để xây dựng phần mềm hoàn thiện hơn, đƣa vào sử dụng trong thực tế phục vụ cho công tác bảo vệ An ninh mạng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

TÀI LIỆU THAM KHẢO Tiếng Việt:

[1]. Đỗ Phúc, Tập Bài giảng chuyên đề Khai phá dữ liệu và Nhà kho dữ liệu, Đại học Quốc gia TP. Hồ Chí Minh, 2004

[2]. GS. TSKH Hồng Kiếm, Tập bài giảng chun đề Cơng nghệ tri thức và ứng

dụng, Đại học Quốc gia TP. Hồ Chí Minh, 2004

[3]. Đỗ Phúc, Đỗ Hồng Cƣờng, Nguyễn Trí Tuấn, Huỳnh Thụy Bảo Trân, Nguyễn Văn Khiết, Phát triển một hệ thống SE hỗ trợ tìm kiếm thông tin thuộc lĩnh vực

CNTT trên Internet qua từ khóa bằng tiếng Việt, Đại học Khoa học tự nhiên TP Hồ

Chí Minh

[4]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đánh giá tình hình quản lý Nhà nước về lọc nội dung trên thế giới, 2006

[5]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đề xuất chính sách pháp lý tại Việt nam cho vấn đề lọc nội dung thông tin trên mạng Internet, 2006

[6]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đánh giá các thuật tốn lọc văn bản theo nội dung, 2006

[7]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc dựa URL, links và chuẩn PICS, 2006

[8]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC “Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc ảnh)”,

báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.

[9]. Một số thông tin trên Website http://tailieu.vn

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

[10]. Cam Tu Nguyen, Trung Kien Nguyen, Xuan Hieu Phan, Le Minh Nguyen and Quang Thuy Ha, Vietnamese Word Segmentation with CRFs and SVMs: An Investigation. In The 20th Pacific Asia Conference on Language, Information and

Computation (PACLIC20), November 1-3, 2006, Wuhan, China, 215-222.

[11]. Terry Kuny, Filtering Internet Contents: PICS, Labels and Filters, March 23, 1998

[12]. Jeff Heaton, Programming Spiders Bots and Aggretaors in Java, NXB Sybex, 2002

[13]. Greenfield P, Rickwood P and Tran HC, Effectiveness of Internet Filtering Software Products, CSIRO, September 2001

[14]. Jackson TO, Riva M and Puglisi F, Benchmarking of filtering software and services – An analysis framework: Definition of the Evaluation Criteria, Issue 1 Draft 2, Joint Research Centre of the European Commission, ISPRA, Italy , 2001

[15]. Cancedda, N., Gaussier, E., Goutte, C. & Renders, J.M. Word sequence kernels. Journal of Machine Learning Research, 3, pp. 1059-1082, 2003

[16]. Spider Hackers, NXB Oreilly, 2004 [17]. Googles Hacks, NXB Oreilly, 2003

[18] Angelova, R. and S. Siersdorfer, A neighborhood- base approach for clustering of linked documents collections, In CIKM, 2006

[19]. Paul Resnick, PICs: Internet Acess Control Withouth Censorship, Communications of the ACM, 1996

[20]. URL, PICS and JavaScript Report -

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

PHỤ LỤC

Một số mã nguồn quan trọng 1. Mã nguồn lọc URL và PICS

foreach (InternetExplorer ie in new ShellWindows())

{

foreach (string s in arrURL) {

//Ki?m tra và thông báo

if (ie.LocationURL.Contains(s) || ie.LocationName.Contains(s)) {

timer1.Stop();

//Thêm nh?t ký truy nh?p

FW.them_NhatKy(ie.LocationURL, FW.GetMACAddress(), 2); //Ðộ xấu gán lớn hơn ngưỡng

//Thông báo

frmThongBao frm = new frmThongBao(); frm.ShowDialog(); try { //Ðóng cửa sổ trình duy?t IE ie.Quit(); } catch { } timer1.Start(); } } }

2. Mã nguồn lọc Nội dung

foreach (InternetExplorer ie in new ShellWindows())

{

foreach (string s in arrKEY) { string html = String.Empty; try { html = FW.HTML2TEXT(FW.GetHTMLFromURL(ie.LocationURL.ToString())); } catch { html = ""; }

//Ki?m tra và thông báo if (html.Contains(s))

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

{

timer1.Stop();

//Thêm nh?t ký truy nh?p

FW.them_NhatKy(ie.LocationURL, FW.GetMACAddress(), 2); //Ð? x?u gán l?n hon ngu?ng

//Thông báo

frmThongBao frm = new frmThongBao(); frm.ShowDialog(); try { //Ðóng c?a s? trình duy?t IE ie.Quit(); } catch { } timer1.Start(); } } }

3. Mã nguồn lọc lấy hình ảnh từ nội dung trang Web

WebBrowser browser = sender as WebBrowser;

HtmlElementCollection imgCollection = browser.Document.GetElementsByTagName("img"); WebClient webClient = new WebClient(); foreach (HtmlElement img in imgCollection) {

string url = img.FirstChild.GetAttribute("src"); webClient.DownloadFile(url,

url.Substring(url.LastIndexOf('/'))); }

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 74)

Tải bản đầy đủ (PDF)

(88 trang)