Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Giao diện báo cáo giám sát truy cập Website
Hình 3.17. Giao diện báo cáo giám sát truy cập Website
3.3.3. Các công nghệ sử dụng
- Ngơn ngữ lập trình sử dụng: C# - Hệ quản trị CSDL: SQL Server.
3.4.4. Tính linh hoạt của hệ thống
Hệ thống giám sát truy cập Website rất nhỏ gọn, các module đƣợc viết một cách khoa học theo mơ hình 3 lớp đảm bảo tính tối ƣu và linh hoạt cho hệ thống.
Việc thiết kế và lƣu trữ cơ sở dữ liệu trên môi trƣờng Web sẽ làm cho ứng dụng đƣợc giảm nhẹ về kích thƣớc và tự động đƣợc cập nhật khi hệ thống cần kiểm tra và đối chiếu dữ liệu.
Ngƣời dùng có thể sử dụng bộ cài đặt để cài đặt hệ thống hoặc chỉ cần copy file chạy FilterWeb.exe vào máy là có thể sử dụng đƣợc.
Giao diện đƣợc xây dựng thuần việt nên rất dễ sử dụng và thiết lập thông số cho hệ thống.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
3.4. Hƣớng phát triển
Hƣớng phát triển trong tƣơng lai là hồn thiện mơ hình lọc web, củng cố và tối ƣu hóa hệ thống mà luận văn này đã xây dựng đƣợc để có thể triển khai và ứng dụng có hiệu quả trong thực tế.
Đồng thời có thể mở rộng xây dựng đƣợc một hệ thống lọc chuyên dụng cho từng lĩnh vực cụ thể, có thể lọc bất kỳ các trang web có nội dung độc hại nào cho ngƣời Việt dựa trên nguyên lý thiết kế hệ thống lọc nhƣ đã trình bày ở trên.
- Đối với Từ điển từ khóa: ta có thể phát triển để có cấu trúc phân cấp để phân loại các trang WEB độc hại theo các yêu cầu đa dạng của nhiều ngƣời dùng với các quyền hạn và phạm vi khác nhau.
- Đối với Kêt quả lọc: Nâng cao khả năng hiển thị dạng WEB cây phân cấp theo các lĩnh vực phân loại trang WEB độc hại để hỗ trợ tìm hiểu, quản lý, phân tích, đánh giá các trang WEB độc hại đƣợc trực quan và gợi mở hơn.
- Phần mềm mới chỉ tìm kiếm, phân loại trên nền font Unicode, sau này có thể mở rộng trên các font tiếng Việt khác.
- Phần mềm mới kiểm soát đƣợc luồng truy cập mạng từ máy Client, sau này có thể mở rộng trên mạng Lan
KẾT LUẬN
Sau một thời gian nghiên cứu, tìm hiểu, vận dụng các kiến thức đã học vào trong yêu cầu thực tế của Luận văn, luận văn đã đáp ứng đƣợc các yêu cầu đặt ra sau:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
+ Đi sâu nghiên cứu các vấn đề nhằm bảo đảm an tồn thơng tin và bảo đảm an ninh nội dung thông tin nhƣ: xác định các nguồn nguy cơ và giải pháp đảm bảo an tồn; trong đó tập trung nghiên cứu về giải pháp lọc nội dung trên Internet.
+ Nghiên cứu tìm hiểu các phƣơng thức lọc nội dung tiên tiến hiện nay nhƣ lọc ảnh, lọc văn bản bằng xử lý ngôn ngữ tự nhiên, lọc PICS, đặc biệt là lọc URL với xử lý liên kết tĩnh và liên kết động.
+ Tìm hiểu phƣơng thức trao đổi thông tin trên dịch vụ web và các kỹ thuật lọc nội dung cho giao dịch web nhƣ: kỹ thuật lọc theo danh sách các địa chỉ cấm, lọc theo từ khóa, lọc ảnh.
Do thời gian nghiên cứu chƣa nhiều, khả năng cũng nhƣ kinh nghiệm của bản thân cịn ít, luận văn chƣa đƣợc hồn thiện và khơng tránh khỏi những sai sót. Nếu có điều kiện đƣợc tiếp tục nghiên cứu, em sẽ đi sâu để xây dựng phần mềm hoàn thiện hơn, đƣa vào sử dụng trong thực tế phục vụ cho cơng tác bảo vệ An ninh mạng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
TÀI LIỆU THAM KHẢO Tiếng Việt:
[1]. Đỗ Phúc, Tập Bài giảng chuyên đề Khai phá dữ liệu và Nhà kho dữ liệu, Đại học Quốc gia TP. Hồ Chí Minh, 2004
[2]. GS. TSKH Hồng Kiếm, Tập bài giảng chuyên đề Công nghệ tri thức và ứng
dụng, Đại học Quốc gia TP. Hồ Chí Minh, 2004
[3]. Đỗ Phúc, Đỗ Hồng Cƣờng, Nguyễn Trí Tuấn, Huỳnh Thụy Bảo Trân, Nguyễn Văn Khiết, Phát triển một hệ thống SE hỗ trợ tìm kiếm thơng tin thuộc lĩnh vực
CNTT trên Internet qua từ khóa bằng tiếng Việt, Đại học Khoa học tự nhiên TP Hồ
Chí Minh
[4]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ
- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đánh giá tình hình quản lý Nhà nước về lọc nội dung trên thế giới, 2006
[5]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ
- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đề xuất chính sách pháp lý tại Việt nam cho vấn đề lọc nội dung thông tin trên mạng Internet, 2006
[6]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ
- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đánh giá các thuật tốn lọc văn bản theo nội dung, 2006
[7]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ
- ĐTCT-KC, Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc dựa URL, links và chuẩn PICS, 2006
[8]. Báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ
- ĐTCT-KC “Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc ảnh)”,
báo cáo chuyên đề trong khuôn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.
[9]. Một số thông tin trên Website http://tailieu.vn
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
[10]. Cam Tu Nguyen, Trung Kien Nguyen, Xuan Hieu Phan, Le Minh Nguyen and Quang Thuy Ha, Vietnamese Word Segmentation with CRFs and SVMs: An Investigation. In The 20th Pacific Asia Conference on Language, Information and
Computation (PACLIC20), November 1-3, 2006, Wuhan, China, 215-222.
[11]. Terry Kuny, Filtering Internet Contents: PICS, Labels and Filters, March 23, 1998
[12]. Jeff Heaton, Programming Spiders Bots and Aggretaors in Java, NXB Sybex, 2002
[13]. Greenfield P, Rickwood P and Tran HC, Effectiveness of Internet Filtering Software Products, CSIRO, September 2001
[14]. Jackson TO, Riva M and Puglisi F, Benchmarking of filtering software and services – An analysis framework: Definition of the Evaluation Criteria, Issue 1 Draft 2, Joint Research Centre of the European Commission, ISPRA, Italy , 2001
[15]. Cancedda, N., Gaussier, E., Goutte, C. & Renders, J.M. Word sequence kernels. Journal of Machine Learning Research, 3, pp. 1059-1082, 2003
[16]. Spider Hackers, NXB Oreilly, 2004 [17]. Googles Hacks, NXB Oreilly, 2003
[18] Angelova, R. and S. Siersdorfer, A neighborhood- base approach for clustering of linked documents collections, In CIKM, 2006
[19]. Paul Resnick, PICs: Internet Acess Control Withouth Censorship, Communications of the ACM, 1996
[20]. URL, PICS and JavaScript Report -
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
PHỤ LỤC
Một số mã nguồn quan trọng 1. Mã nguồn lọc URL và PICS
foreach (InternetExplorer ie in new ShellWindows())
{
foreach (string s in arrURL) {
//Ki?m tra và thông báo
if (ie.LocationURL.Contains(s) || ie.LocationName.Contains(s)) {
timer1.Stop();
//Thêm nh?t ký truy nh?p
FW.them_NhatKy(ie.LocationURL, FW.GetMACAddress(), 2); //Ðộ xấu gán lớn hơn ngưỡng
//Thông báo
frmThongBao frm = new frmThongBao(); frm.ShowDialog(); try { //Ðóng cửa sổ trình duy?t IE ie.Quit(); } catch { } timer1.Start(); } } }
2. Mã nguồn lọc Nội dung
foreach (InternetExplorer ie in new ShellWindows())
{
foreach (string s in arrKEY) { string html = String.Empty; try { html = FW.HTML2TEXT(FW.GetHTMLFromURL(ie.LocationURL.ToString())); } catch { html = ""; }
//Ki?m tra và thông báo if (html.Contains(s))
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
{
timer1.Stop();
//Thêm nh?t ký truy nh?p
FW.them_NhatKy(ie.LocationURL, FW.GetMACAddress(), 2); //Ð? x?u gán l?n hon ngu?ng
//Thông báo
frmThongBao frm = new frmThongBao(); frm.ShowDialog(); try { //Ðóng c?a s? trình duy?t IE ie.Quit(); } catch { } timer1.Start(); } } }
3. Mã nguồn lọc lấy hình ảnh từ nội dung trang Web
WebBrowser browser = sender as WebBrowser;
HtmlElementCollection imgCollection = browser.Document.GetElementsByTagName("img"); WebClient webClient = new WebClient(); foreach (HtmlElement img in imgCollection) {
string url = img.FirstChild.GetAttribute("src"); webClient.DownloadFile(url,
url.Substring(url.LastIndexOf('/'))); }