Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 88 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
88
Dung lượng
1,04 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT & TT HỒNG NGỌC PHAN XÂY DỰNG CƠNG CỤ LỌC NỘI DUNG DỊCH VỤ WEB CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC TS NGUYÊN NGỌC CƢƠNG Thái Nguyên, 2010 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Tai ngay!!! Ban co the xoa dong chu nay!!! http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan, kết luận văn hồn tồn kết tự thân tơi tìm hiểu, nghiên cứu Các tài liệu tham khảo đƣợc trích dẫn thích đầy đủ Tác giả Hồng Ngọc Phan Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn chân thành sâu sắc đến thầy giáo hướng dẫn, Tiến sĩ Nguyễn Ngọc Cương, người tận tình dẫn dắt tạo điều kiện tốt để tơi hồn thành luận văn Tôi xin chân thành cảm ơn thầy cô giáo trường Đại học Công Nghê Thông Tin & Truyền Thông Thái Nguyên, Viện Công nghệ Thông tin giúp đỡ tạo điều kiện thuận lợi trình học tập nghiên cứu Xin chân thành cám ơn anh chị lớp cao học Khoa học máy tính khố 2012 thầy cô giáo, bạn đồng nghiệp bên cạnh, động viên, khuyến khích tơi suốt thời gian học tập thực đề tài Xin chân thành cám ơn! Học viên Hồng Ngọc Phan Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Trang phụ bìa Trang Lời cam đoan Lời cảm ơn Mục lục Danh mục ký hiệu, chữ viết tắt Danh mục hình vẽ, biểu đồ, mơ hình LỜI MỞ ĐẦU CHƢƠNG 1:TỔNG QUAN VỀ AN TỒN THƠNG TIN VÀ AN NINH NỘI DUNG THÔNG TIN 12 1.1 Đánh giá tình hình quản lý Nhà nƣớc lọc nội dung Internet quốc gia Việt Nam 1.1.1 Hoạt động quản lý nhà nƣớc vể lọc nội dung Internet 1.1.2 Quản lý lọc nội dung Internet số nƣớc Thế giới 1.1.3 Quản lý lọc nội dung Internet Việt Nam 1.2 Khái niệm an ninh an tồn thơng tin, giải pháp đảm bảo an tồn thông tin12 1.2.1 Khái niệm thông tin 16 1.2.2 Khái niệm an tồn thơng tin 17 1.3 Khái niệm an ninh nội dung 36 1.3.1 Khái niệm 36 1.3.2 Một số hình thức lợi dụng vấn đề an ninh nội dung phục vụ mục đích xấu 37 1.3.3 Một số phƣơng pháp đảm bảo an ninh nội dung thông tin 40 CHƢƠNG 2: TÌM HIỂU VỀ CÁC PHƢƠNG THỨC TRAO ĐỔI THÔNG TIN QUA GIAO DỊCH WEB VÀ CÁC KỸ THUẬT LỌC NỘI DUNG THÔNG TIN ĐỐI VỚI DỊCH VỤ WEB 44 2.1 Phƣơng thức trao đổi thông tin qua dịch vụ Web 44 2.1.1 Mơ hình trao đổi thơng tin dựa web 45 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.1.2 Giao thức ngôn ngữ sử dụng 46 2.2 Mô hình nguyên lý hoạt động hệ thống lọc nội dung web 50 2.2.1 Mơ hình hệ thống lọc 50 2.2.2 Nguyên lý hoạt động hệ thống lọc 52 2.3 Các kỹ thuật lọc nội dung thông tin qua giao dịch web: 55 2.3.1 Lọc Ảnh 55 2.3.2 Lọc Văn Bản Dùng Công Nghệ Xử lý Ngôn Ngữ Tự Nhiên 56 2.3.3 Lọc chọn nội dung PICS 57 2.3.4 Kỹ thuật lọc chặn nội dung dựa danh sách địa cấm (Lọc URL) 59 2.4 Tình hình phát triển phần mềm lọc nội dung nƣớc 61 2.4.1 VwebFilter (Viết tắt VWF) 62 2.4.2 SafeInternet 63 2.4.3 Depraved Web Killer (DWK) 64 CHƢƠNG 3: XÂY DỰNG CÔNG CỤ LỌC NỘI DUNG WEB 66 3.1 Tổng quan phần mềm lọc mã nguồn mở Error! Bookmark not defined 3.2 Tìm hiểu Spider (Ngƣời Máy Mạng) Error! Bookmark not defined 3.2.1 Giới thiệu Error! Bookmark not defined 3.2.2 Spider gì? Error! Bookmark not defined 3.2.3 Nguyên lý hoạt động Error! Bookmark not defined 3.2.4 Cấu trúc Spider Error! Bookmark not defined 3.3 Tìm hiểu hệ thống tìm kiếm Google Google APIError! Bookmark not defined 3.3.1 Google gì? Error! Bookmark not defined 3.3.2 Truy vấn tự động sở liệu Google với Google APIError! Bookmark not defined 3.4 Xây dựng phần mềm tích hợp máy tìm kiếm Google Spider để lọc nội dung web đen Error! Bookmark not defined 3.4.1 Tổng quan mơ hình hệ thống Error! Bookmark not defined 3.4.2 Nguyên lý hoạt động hệ thống Error! Bookmark not defined Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.4.3 Cấu trúc hệ thống: .Error! Bookmark not defined 3.4.4 Cách cài đặt hệ thống Error! Bookmark not defined 3.4.5 Demo hệ thống Error! Bookmark not defined 3.4.6 Các công nghệ sử dụng 82 3.4.7 Tính linh hoạt hệ thống 82 3.5 Hƣớng phát triển 82 KẾT LUẬN 83 PHỤ LỤC Error! Bookmark not defined Mã nguồn module Googling Error! Bookmark not defined Mã nguồn module Spidering Error! Bookmark not defined Danh mục tài liệu tham khảo Error! Bookmark not defined Tài liệu tham khảo dung báo cáo Error! Bookmark not defined Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ADSL : Asymmetric Digital Subscriber Line CMAE : Content Management in Adversarial Environments COSIM : Cosine Simarility DNS : Domain Name Service DWK : Depraved Web Killer FTP : File Transfer Protocol HTTP : Hypertext Transfer Protocol IP : Internet Protocol (nghi thức mạng) IR : Information Retrieve ISP : Internet Service Provider SIM : Simarility TCP : Transmission Control Protocol URL : Uniform Resource Locator PICS : Platform for Internet Content Selection SMTP : ICMP : Internet control message protocol AUP : Acceptable-Use Policy VPN : Virtual Private Network VLAN : Virtual Local Area Network DTD : Document Type Definitions ISS : Internet Information Server ASP : Active Server Pages MTA : Mail Transfe Agent Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Ngày nay, số ngƣời dùng Intenet dịch vụ chạy Internet ngày nhiều Internet đƣợc xem nhƣ phƣơng tiện để tiếp nhận truyền tải thông tin Đặc biệt Web Mail, số ngƣời truy cập sử dụng dịch vụ nhiều Tuy nhiên, có ngƣời sử dụng phƣơng tiện Internet để truyền bá thông tin không lành mạnh có đối tƣợng tham gia vào việc truy cập thơng tin Chính lý đó, công việc hỗ trợ quản lý đảm bảo an ninh - an tồn thơng tin mạng Internet trở thành mối quan tâm gia đình, tổ chức, quốc gia Về phƣơng diện gia đình, mối quan tâm bậc phụ huynh ngăn ngừa việc thâm nhập trang Web độc hại em Về phƣơng diện quốc gia, với đặc thù trị kinh tế nƣớc ta, số nƣớc xã hội chủ nghĩa, vừa đấu tranh thống đƣa đất nƣớc hồn tồn khỏi ách hộ đế quốc thời gian ngắn; lực phản động nƣớc nƣớc tận dụng triệt để thuận lợi mạng Internet để phục vụ cho mục đích tuyên truyền, phát tán tài liệu phản động thực hành vi phản động khác chống phá nhà nƣớc Cộng hòa Xã hội Chủ nghĩa Việt Nam Do mạng Internet khơng có giới hạn địa lý, lại có phƣơng tiện thuận lợi nhƣ thƣ điện tử, diễn đàn, trang web,… nên lực thù địch dễ dàng phát tán thông tin đến số đông ngƣời dùng mạng thời gian ngắn mà hầu nhƣ khơng phí tổn Đây vấn đề nhức nhối khơng Việt Nam, mà quốc gia khác giới Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Cùng với việc tăng cƣờng lực sở hạ tầng thiết bị, hệ thống phần mềm, nhân lực nhằm phát triển Internet, Đảng Nhà nƣớc ta ban hành hệ thống pháp lý việc khai thác Internet Nghị định số 55/2001/NĐ-CP ngày 23-8-2001 Chính phủ Quản lý, cung cấp sử dụng dịch vụ Internet đề cập vấn đề (Điều 2; Điều 6; Điều 11; Điều 18; Điều 28; Điều 33; Điều 35; Điều 41 Điều 45) Một số nội dung chi tiết đƣợc thể Quy định biện pháp trang thiết bị kiểm tra, kiểm soát đảm bảo an ninh quốc gia hoạt động Internet Việt Nam Bộ Nội vụ đƣợc ban hành kèm theo Quyết định số 848/1997/QÐBNV(A11) ngày 23.10.1997 (Mục Khoản Điều 5, Khoản Điều 6) Quy định Đảm bảo an toàn, an ninh hoạt động quản lý, cung cấp, sử dụng Internet Việt Nam đƣợc ban hành kèm theo Quyết định số 71/2004/QĐBCA (A11) ngày 29 tháng năm 2004 Bộ trƣởng Bộ Cơng an quy định tồn diện chi tiết nội dung đảm bảo an toàn an ninh Internet Nhà nƣớc ta, Thông tƣ 02 (02/2005/TTLT-BCVT-VHTT-CA-KHĐT), có quy định “Quyền nghĩa vụ đại lý Internet”: Nhận thức đƣợc tầm quan trọng nhƣ yêu cầu cấp thiết vấn đề này, đƣợc đồng ý giáo viên hƣớng dẫn Trƣờng Đại học CNTT & TT Thái Nguyên, em chọn đề tài : « Xây dựng cơng cụ lọc nội dung thông tin dịch vụ Web » Nội dung Đề tài gồm chƣơng : Chƣơng : Tổng quan bảo đảm an ninh an tồn thơng tin Chƣơng nghiên cứu, Đánh giá tình hình quản lý Nhà nƣớc lọc nội dung Internet quốc gia Việt Nam, phân tích khái niệm an tồn thơng tin an ninh nội dung thơng tin, giải pháp đảm bảo an ninh an tồn thơng tin Chƣơng : Tìm hiểu phƣơng thức trao đổi thông tin qua giao dịch web kỹ thuật lọc nội dung thông tin dịch vụ web Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng nghiên cứu phƣơng thức trao đổi thông tin qua giao dịch web, mơ hình hệ thống lọc nội dung thơng tin giao dịch web số kỹ thuật lọc nội dung web Chƣơng : Xây dựng công cụ lọc nội dung Web độc hại Nghiên cứu, ứng dụng xây dựng công cụ lọc nội dung web Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - Cho phép truy cập đến tài liệu yêu cầu, nhiên vết tài liệu đƣợc lƣu lại phần lƣu vết hệ thống Trong trƣờng hợp này, độ xấu tài liệu nằm hai ngƣỡng cấm kiểm soát : Nk