Mơ hình bộ lọc văn bản tiếng Anh

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 71)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình ảnh - Độ xấu của ảnh đầu vào - Thể loại của ảnh đầu vào o Output:

 Độ xấu của văn bản đầu vào, đánh giá trên thang điểm 0- 100 tƣơng ứng từ tốt đến xấu.

 Thể loại của văn bản đầu vào.

3.3.2.5. Bộ lọc ảnh có nội dung xấu:

Bộ lọc này có nhiệm vụ phân tích, phân loại, đánh giá mức độ xấu của một ảnh có định dạng bitmap, BMP, JPEG, GIF, hay PNG.

o Input: Ảnh có dạng BMP, JPEG, GIF, PNG o Output:

 Độ xấu của ảnh ban đầu, đánh giá trên thanh điểm từ 0 đến 100 tƣơng ứng từ tốt tới xấu.

 Thể loại ảnh ban đầu.

3.3.2.6. Bộ lọc URL và PICS:

Bộ lọc này có nhiệm vụ phân tích cú pháp và cả ngữ nghĩa một địa chỉ URL, từ đó đánh giá mức độ xấu của URL đó. Trong trƣờng hợp URL đó đã đƣợc đánh giá, phân loại theo chuẩn PICS, bộ lọc sẽ ghi nhận những đánh giá phân loại đó, tiến hành phân tích và ra cập nhật lại độ xấu của địa chỉ URL yêu cầu.

Bộ lọc Ảnh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

URL yêu cầu

- Độ xấu của URL đầu vào

- Thể loại của URL đầu vào

o Input: địa chỉ URL của tài liệu yêu cầu. o Output:

 Độ xấu của URL đầu vào, đánh giá trên thang điểm 0-100 tƣơng ứng từ tốt đến xấu.

 Thể loại của URL yêu cầu

3.3.2.7. Bộ ra quyết định:

Bộ ra quyết định giữ vai trị phân tích các kết quả đến từ các bộ phận khác trong tổng thể hệ thống để từ đó tổng hợp và ra quyết định xử lý với tài liệu mà ngƣời dùng yêu cầu. Quyết định xử lý đối với một yêu cầu sẽ chủ yếu dựa trên độ xấu Đx của yêu cầu đó và bao gồm các trƣờng hợp sau:

- Cấm không cho ngƣời sử dụng truy cập đến địa chỉ yêu cầu và thơng báo lý do cấm cho ngƣời đó. Đây là trƣờng hợp độ xấu (Đx)của tài liệu yêu cầu lớn hơn ngƣỡng xấu (Nx) cho phép của một tài liệu Đx > Nx ,

- Cho phép ngƣời sử dụng truy cập đến địa chỉ yêu cầu. Đây là trƣờng hợp tài liệu yêu cầu có độ xấu nhỏ hơn ngƣỡng cần kiểm soát (Nk) : Đx < Nk. Bộ lọc URL chuẩn PICS

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Quyết định xử lý - Độ xấu

- Thể loại yêu cầu

- Cho phép truy cập đến tài liệu yêu cầu, tuy nhiên vết của tài liệu này sẽ đƣợc lƣu lại trong phần lƣu vết của hệ thống. Trong trƣờng hợp này, độ xấu của tài liệu sẽ nằm trong hai ngƣỡng cấm và kiểm soát : Nk <= Đx <= Nx. Ngƣời phụ trách đảm bảo an tồn/an ninh thơng tin sẽ có nhiệm vụ phân tích đánh giá lại những tài liệu này và cập nhật lại vào trong hai danh sách trắng và đen.

- Cho phép truy cập đến tài liệu yêu cầu trong trƣờng hợp độ lớn của tài liệu yêu cầu vƣợt quá ngƣỡng Nl cho phép của hệ thống. Trong

trƣờng hợp này, tài liệu này cũng sẽ đƣợc lƣu lại trong vết của hệ thống và sẽ đƣợc tiến hành phân tích, đánh giá theo hình thức ngoại tuyến để cập nhật lại hai danh sách trắng và đen.

Nhƣ vậy, bộ ra quyết định sẽ có đầu vào và đầu ra cụ thể nhƣ sau:

o Input: Các kết quả( độ xấu + thể loại tài liệu yêu cầu) đến từ các bộ phận khác.

o Output: Quyết định xử lý.

3.3.2.8. Bộ kiểm soát

Bộ kiểm sốt có nhiệm vụ điều phối các luồng dữ liệu bên trong hệ thống lọc nội dung.

Bộ ra quyết định

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Từ các dữ liệu đầu ra của mỗi bộ phận trong hệ thống, bộ kiểm sốt có nhiệm vụ truyển những kết quả đó đến bộ phận có trách nhiệm xử lý. Các luồng dữ liệu mà bộ kiểm soát phải đảm nhiệm bao gồm:

- Chuyển kết quả của bộ chuẩn hoá dữ liệu đến các bộ lọc ảnh và bộ xác định ngôn ngữ tƣơng ứng với những kết quả text hay ảnh ở bộ chuẩn hoá.

- Chuyển kết quả của bộ xác định ngôn ngữ đến bộ lọc tiếng Việt hoặc/và bộ lọc tiếng Anh tƣơng ứng với kết quả xác định là tiếng Việt hay tiếng Anh của tài liệu yêu cầu

- Chuyển địa chỉ URL yêu cầu từ hệ thống proxy đến bộ lọc URL và PICS

- Chuyển các kết quả từ các bộ lọc URL&PICS, lọc ảnh, lọc tiếng Việt, lọc tiếng Anh đến bộ ra quyết định

- Chuyển kết quả quyết định xử lý đến hệ thống firewall và proxy.

3.3. Cài đặt và thử nghiệm 3.3.1. Cài đặt hệ thống

Phần mềm hoạt động trên một máy tính chạy các hệ điều hành sau:

Bộ kiểm soát Output của tất cả các bộ phận khác Input của các bộ phận khác Hình 3.10. Mơ hình bộ kiểm sốt

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Windows XP, Windows 7 với trình duyệt Internet Explorer

3.3.2. Demo hệ thống

Giao diện trang chủ của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện thiết lập công cụ của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện thiết lập mật khẩu của hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện khi bật chức năng kiểm soát truy cập Website

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện khi tắt chức năng kiểm sốt truy cập Website

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện truy cập Website bị cấm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Giao diện báo cáo giám sát truy cập Website

Hình 3.17. Giao diện báo cáo giám sát truy cập Website

3.3.3. Các công nghệ sử dụng

- Ngôn ngữ lập trình sử dụng: C# - Hệ quản trị CSDL: SQL Server.

3.4.4. Tính linh hoạt của hệ thống

Hệ thống giám sát truy cập Website rất nhỏ gọn, các module đƣợc viết một cách khoa học theo mơ hình 3 lớp đảm bảo tính tối ƣu và linh hoạt cho hệ thống.

Việc thiết kế và lƣu trữ cơ sở dữ liệu trên môi trƣờng Web sẽ làm cho ứng dụng đƣợc giảm nhẹ về kích thƣớc và tự động đƣợc cập nhật khi hệ thống cần kiểm tra và đối chiếu dữ liệu.

Ngƣời dùng có thể sử dụng bộ cài đặt để cài đặt hệ thống hoặc chỉ cần copy file chạy FilterWeb.exe vào máy là có thể sử dụng đƣợc.

Giao diện đƣợc xây dựng thuần việt nên rất dễ sử dụng và thiết lập thơng số cho hệ thống.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

3.4. Hƣớng phát triển

Hƣớng phát triển trong tƣơng lai là hồn thiện mơ hình lọc web, củng cố và tối ƣu hóa hệ thống mà luận văn này đã xây dựng đƣợc để có thể triển khai và ứng dụng có hiệu quả trong thực tế.

Đồng thời có thể mở rộng xây dựng đƣợc một hệ thống lọc chuyên dụng cho từng lĩnh vực cụ thể, có thể lọc bất kỳ các trang web có nội dung độc hại nào cho ngƣời Việt dựa trên nguyên lý thiết kế hệ thống lọc nhƣ đã trình bày ở trên.

- Đối với Từ điển từ khóa: ta có thể phát triển để có cấu trúc phân cấp để phân loại các trang WEB độc hại theo các yêu cầu đa dạng của nhiều ngƣời dùng với các quyền hạn và phạm vi khác nhau.

- Đối với Kêt quả lọc: Nâng cao khả năng hiển thị dạng WEB cây phân cấp theo các lĩnh vực phân loại trang WEB độc hại để hỗ trợ tìm hiểu, quản lý, phân tích, đánh giá các trang WEB độc hại đƣợc trực quan và gợi mở hơn.

- Phần mềm mới chỉ tìm kiếm, phân loại trên nền font Unicode, sau này có thể mở rộng trên các font tiếng Việt khác.

- Phần mềm mới kiểm soát đƣợc luồng truy cập mạng từ máy Client, sau này có thể mở rộng trên mạng Lan

KẾT LUẬN

Sau một thời gian nghiên cứu, tìm hiểu, vận dụng các kiến thức đã học vào trong yêu cầu thực tế của Luận văn, luận văn đã đáp ứng đƣợc các yêu cầu đặt ra sau:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

+ Đi sâu nghiên cứu các vấn đề nhằm bảo đảm an tồn thơng tin và bảo đảm an ninh nội dung thông tin nhƣ: xác định các nguồn nguy cơ và giải pháp đảm bảo an tồn; trong đó tập trung nghiên cứu về giải pháp lọc nội dung trên Internet.

+ Nghiên cứu tìm hiểu các phƣơng thức lọc nội dung tiên tiến hiện nay nhƣ lọc ảnh, lọc văn bản bằng xử lý ngôn ngữ tự nhiên, lọc PICS, đặc biệt là lọc URL với xử lý liên kết tĩnh và liên kết động.

+ Tìm hiểu phƣơng thức trao đổi thông tin trên dịch vụ web và các kỹ thuật lọc nội dung cho giao dịch web nhƣ: kỹ thuật lọc theo danh sách các địa chỉ cấm, lọc theo từ khóa, lọc ảnh.

Do thời gian nghiên cứu chƣa nhiều, khả năng cũng nhƣ kinh nghiệm của bản thân cịn ít, luận văn chƣa đƣợc hồn thiện và khơng tránh khỏi những sai sót. Nếu có điều kiện đƣợc tiếp tục nghiên cứu, em sẽ đi sâu để xây dựng phần mềm hoàn thiện hơn, đƣa vào sử dụng trong thực tế phục vụ cho công tác bảo vệ An ninh mạng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

TÀI LIỆU THAM KHẢO Tiếng Việt:

[1]. Đỗ Phúc, Tập Bài giảng chuyên đề Khai phá dữ liệu và Nhà kho dữ liệu, Đại học Quốc gia TP. Hồ Chí Minh, 2004

[2]. GS. TSKH Hoàng Kiếm, Tập bài giảng chuyên đề Công nghệ tri thức và ứng

dụng, Đại học Quốc gia TP. Hồ Chí Minh, 2004

[3]. Đỗ Phúc, Đỗ Hồng Cƣờng, Nguyễn Trí Tuấn, Huỳnh Thụy Bảo Trân, Nguyễn Văn Khiết, Phát triển một hệ thống SE hỗ trợ tìm kiếm thông tin thuộc lĩnh vực

CNTT trên Internet qua từ khóa bằng tiếng Việt, Đại học Khoa học tự nhiên TP Hồ

Chí Minh

[4]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đánh giá tình hình quản lý Nhà nước về lọc nội dung trên thế giới, 2006

[5]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đề xuất chính sách pháp lý tại Việt nam cho vấn đề lọc nội dung thông tin trên mạng Internet, 2006

[6]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đánh giá các thuật tốn lọc văn bản theo nội dung, 2006

[7]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc dựa URL, links và chuẩn PICS, 2006

[8]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ

- ĐTCT-KC “Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc ảnh)”,

báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.

[9]. Một số thơng tin trên Website http://tailieu.vn

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

[10]. Cam Tu Nguyen, Trung Kien Nguyen, Xuan Hieu Phan, Le Minh Nguyen and Quang Thuy Ha, Vietnamese Word Segmentation with CRFs and SVMs: An Investigation. In The 20th Pacific Asia Conference on Language, Information and

Computation (PACLIC20), November 1-3, 2006, Wuhan, China, 215-222.

[11]. Terry Kuny, Filtering Internet Contents: PICS, Labels and Filters, March 23, 1998

[12]. Jeff Heaton, Programming Spiders Bots and Aggretaors in Java, NXB Sybex, 2002

[13]. Greenfield P, Rickwood P and Tran HC, Effectiveness of Internet Filtering Software Products, CSIRO, September 2001

[14]. Jackson TO, Riva M and Puglisi F, Benchmarking of filtering software and services – An analysis framework: Definition of the Evaluation Criteria, Issue 1 Draft 2, Joint Research Centre of the European Commission, ISPRA, Italy , 2001

[15]. Cancedda, N., Gaussier, E., Goutte, C. & Renders, J.M. Word sequence kernels. Journal of Machine Learning Research, 3, pp. 1059-1082, 2003

[16]. Spider Hackers, NXB Oreilly, 2004 [17]. Googles Hacks, NXB Oreilly, 2003

[18] Angelova, R. and S. Siersdorfer, A neighborhood- base approach for clustering of linked documents collections, In CIKM, 2006

[19]. Paul Resnick, PICs: Internet Acess Control Withouth Censorship, Communications of the ACM, 1996

[20]. URL, PICS and JavaScript Report -

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

PHỤ LỤC

Một số mã nguồn quan trọng 1. Mã nguồn lọc URL và PICS

foreach (InternetExplorer ie in new ShellWindows())

{

foreach (string s in arrURL) {

//Ki?m tra và thông báo

if (ie.LocationURL.Contains(s) || ie.LocationName.Contains(s)) {

timer1.Stop();

//Thêm nh?t ký truy nh?p

FW.them_NhatKy(ie.LocationURL, FW.GetMACAddress(), 2); //Ðộ xấu gán lớn hơn ngưỡng

//Thông báo

frmThongBao frm = new frmThongBao(); frm.ShowDialog(); try { //Ðóng cửa sổ trình duy?t IE ie.Quit(); } catch { } timer1.Start(); } } }

2. Mã nguồn lọc Nội dung

foreach (InternetExplorer ie in new ShellWindows())

{

foreach (string s in arrKEY) { string html = String.Empty; try { html = FW.HTML2TEXT(FW.GetHTMLFromURL(ie.LocationURL.ToString())); } catch { html = ""; }

//Ki?m tra và thông báo if (html.Contains(s))

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

{

timer1.Stop();

//Thêm nh?t ký truy nh?p

FW.them_NhatKy(ie.LocationURL, FW.GetMACAddress(), 2); //Ð? x?u gán l?n hon ngu?ng

//Thông báo

frmThongBao frm = new frmThongBao(); frm.ShowDialog(); try { //Ðóng c?a s? trình duy?t IE ie.Quit(); } catch { } timer1.Start(); } } }

3. Mã nguồn lọc lấy hình ảnh từ nội dung trang Web

WebBrowser browser = sender as WebBrowser;

HtmlElementCollection imgCollection = browser.Document.GetElementsByTagName("img"); WebClient webClient = new WebClient(); foreach (HtmlElement img in imgCollection) {

string url = img.FirstChild.GetAttribute("src"); webClient.DownloadFile(url,

url.Substring(url.LastIndexOf('/'))); }

Một phần của tài liệu Xây dựng công cụ lọc nội dung dịch vụ Web (Trang 71)

Tải bản đầy đủ (PDF)

(88 trang)