Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 88 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
88
Dung lượng
1,11 MB
Nội dung
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT & TT HOÀNG NGỌC PHAN XÂY DỰNG CÔNG CỤ LỌC NỘI DUNG DỊCH VỤ WEB CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60. 48. 01 LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC TS. NGUYÊN NGỌC CƢƠNG Thái Nguyên, 2010 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan, kết quả của luận văn hoàn toàn là kết quả của tự bản thân tôi tìm hiểu, nghiên cứu. Các tài liệu tham khảo đƣợc trích dẫn và chú thích đầy đủ. Tác giả Hoàng Ngọc Phan Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Tôi xin được bày tỏ lòng biết ơn chân thành và sâu sắc nhất đến thầy giáo hướng dẫn, Tiến sĩ Nguyễn Ngọc Cương, người đã tận tình dẫn dắt và tạo mọi điều kiện tốt nhất để tôi có thể hoàn thành luận văn này. Tôi cũng xin chân thành cảm ơn các thầy cô giáo trường Đại học Công Nghê Thông Tin & Truyền Thông Thái Nguyên, Viện Công nghệ Thông tin đã giúp đỡ và tạo mọi điều kiện thuận lợi trong quá trình học tập và nghiên cứu. Xin chân thành cám ơn các anh chị lớp cao học Khoa học máy tính khoá 2012 và các thầy cô giáo, các bạn đồng nghiệp đã luôn bên cạnh, động viên, khuyến khích tôi trong suốt thời gian học tập và thực hiện đề tài. Xin chân thành cám ơn! Học viên Hoàng Ngọc Phan Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Trang phụ bìa Trang Lời cam đoan Lời cảm ơn Mục lục Danh mục các ký hiệu, các chữ viết tắt Danh mục các hình vẽ, biểu đồ, mô hình LỜI MỞ ĐẦU 1 CHƢƠNG 1:TỔNG QUAN VỀ AN TOÀN THÔNG TIN VÀ AN NINH NỘI DUNG THÔNG TIN 12 1.1. Đánh giá tình hình quản lý Nhà nƣớc về lọc nội dung trên Internet của các quốc gia và Việt Nam 1.1.1. Hoạt động quản lý nhà nƣớc vể lọc nội dung trên Internet 1.1.2. Quản lý về lọc nội dung trên Internet ở một số nƣớc trên Thế giới 1.1.3. Quản lý về lọc nội dung trên Internet tại Việt Nam 1.2. Khái niệm về an ninh an toàn thông tin, các giải pháp đảm bảo an toàn thông tin12 1.2.1. Khái niệm về thông tin 16 1.2.2. Khái niệm an toàn thông tin 17 1.3. Khái niệm về an ninh nội dung 36 1.3.1. Khái niệm 36 1.3.2. Một số hình thức lợi dụng vấn đề an ninh nội dung phục vụ mục đích xấu. 37 1.3.3. Một số phƣơng pháp đảm bảo an ninh nội dung thông tin 40 CHƢƠNG 2: TÌM HIỂU VỀ CÁC PHƢƠNG THỨC TRAO ĐỔI THÔNG TIN QUA GIAO DỊCH WEB VÀ CÁC KỸ THUẬT LỌC NỘI DUNG THÔNG TIN ĐỐI VỚI DỊCH VỤ WEB. 44 2.1 Phƣơng thức trao đổi thông tin qua dịch vụ Web 44 2.1.1 Mô hình trao đổi thông tin dựa trên web 45 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.1.2 Giao thức và ngôn ngữ sử dụng 46 2.2. Mô hình và nguyên lý hoạt động của hệ thống lọc nội dung web 50 2.2.1 Mô hình hệ thống lọc 50 2.2.2 Nguyên lý hoạt động của hệ thống lọc 52 2.3. Các kỹ thuật lọc nội dung thông tin qua giao dịch web: 55 2.3.1. Lọc Ảnh 55 2.3.2. Lọc Văn Bản Dùng Công Nghệ Xử lý Ngôn Ngữ Tự Nhiên 56 2.3.3 Lọc chọn nội dung PICS 57 2.3.4. Kỹ thuật lọc và chặn nội dung dựa trên danh sách địa chỉ cấm (Lọc URL) 59 2.4. Tình hình phát triển các phần mềm lọc nội dung trong và ngoài nƣớc. 61 2.4.1. VwebFilter (Viết tắt là VWF) 62 2.4.2. SafeInternet 63 2.4.3. Depraved Web Killer (DWK) 64 CHƢƠNG 3: XÂY DỰNG CÔNG CỤ LỌC NỘI DUNG WEB 66 3.1. Tổng quan về các phần mềm lọc mã nguồn mở Error! Bookmark not defined. 3.2. Tìm hiểu về Spider (Ngƣời Máy Mạng) Error! Bookmark not defined. 3.2.1. Giới thiệu Error! Bookmark not defined. 3.2.2. Spider là gì? Error! Bookmark not defined. 3.2.3. Nguyên lý hoạt động Error! Bookmark not defined. 3.2.4. Cấu trúc của một Spider Error! Bookmark not defined. 3.3. Tìm hiểu về hệ thống tìm kiếm Google và Google APIError! Bookmark not defined. 3.3.1. Google là gì? Error! Bookmark not defined. 3.3.2. Truy vấn tự động cơ sở dữ liệu của Google với Google APIError! Bookmark not defined. 3.4. Xây dựng phần mềm tích hợp máy tìm kiếm Google và Spider để lọc nội dung web đen. Error! Bookmark not defined. 3.4.1. Tổng quan về mô hình hệ thống Error! Bookmark not defined. 3.4.2. Nguyên lý hoạt động của hệ thống Error! Bookmark not defined. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.4.3. Cấu trúc hệ thống: Error! Bookmark not defined. 3.4.4. Cách cài đặt hệ thống Error! Bookmark not defined. 3.4.5. Demo hệ thống Error! Bookmark not defined. 3.4.6. Các công nghệ sử dụng 82 3.4.7. Tính linh hoạt của hệ thống 82 3.5 Hƣớng phát triển 82 KẾT LUẬN 83 PHỤ LỤC Error! Bookmark not defined. 1. Mã nguồn module Googling Error! Bookmark not defined. 2. Mã nguồn module Spidering Error! Bookmark not defined. Danh mục tài liệu tham khảo Error! Bookmark not defined. Tài liệu tham khảo chính dung trong báo cáo Error! Bookmark not defined. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ADSL : Asymmetric Digital Subscriber Line CMAE : Content Management in Adversarial Environments COSIM : Cosine Simarility DNS : Domain Name Service DWK : Depraved Web Killer FTP : File Transfer Protocol HTTP : Hypertext Transfer Protocol IP : Internet Protocol (nghi thức mạng) IR : Information Retrieve ISP : Internet Service Provider SIM : Simarility TCP : Transmission Control Protocol URL : Uniform Resource Locator PICS : Platform for Internet Content Selection SMTP : ICMP : Internet control message protocol AUP : Acceptable-Use Policy VPN : Virtual Private Network VLAN : Virtual Local Area Network DTD : Document Type Definitions ISS : Internet Information Server ASP : Active Server Pages MTA : Mail Transfe Agent Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Ngày nay, số ngƣời dùng Intenet và các dịch vụ chạy trên Internet ngày càng nhiều và Internet đƣợc xem nhƣ là một phƣơng tiện để tiếp nhận và truyền tải thông tin. Đặc biệt là Web và Mail, số ngƣời truy cập và sử dụng dịch vụ này nhiều nhất. Tuy nhiên, cũng có những ngƣời sử dụng phƣơng tiện Internet để truyền bá những thông tin không lành mạnh và cũng có những đối tƣợng tham gia vào việc truy cập những thông tin này. Chính vì lý do đó, công việc hỗ trợ quản lý và đảm bảo an ninh - an toàn thông tin trên mạng Internet đã trở thành mối quan tâm của mỗi gia đình, mỗi tổ chức, mỗi quốc gia. Về phƣơng diện gia đình, mối quan tâm của các bậc phụ huynh là ngăn ngừa việc thâm nhập các trang Web độc hại đối với con em mình. Về phƣơng diện quốc gia, với đặc thù về chính trị và kinh tế ở nƣớc ta, là một trong số ít nƣớc xã hội chủ nghĩa, vừa mới đấu tranh thống nhất và đƣa đất nƣớc hoàn toàn thoát khỏi ách đô hộ của đế quốc trong một thời gian ngắn; các thế lực phản động cả ở trong nƣớc và ngoài nƣớc tận dụng triệt để những thuận lợi của mạng Internet để phục vụ cho mục đích tuyên truyền, phát tán tài liệu phản động và thực hiện các hành vi phản động khác chống phá nhà nƣớc Cộng hòa Xã hội Chủ nghĩa Việt Nam. Do mạng Internet không có giới hạn về địa lý, lại có các phƣơng tiện thuận lợi nhƣ thƣ điện tử, diễn đàn, các trang web,… nên các thế lực thù địch rất dễ dàng phát tán thông tin đến số đông ngƣời dùng mạng chỉ trong một thời gian ngắn mà hầu nhƣ không mất phí tổn gì. Đây là một vấn đề nhức nhối không chỉ ở Việt Nam, mà ở bất kỳ quốc gia nào khác trên thế giới. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Cùng với việc tăng cƣờng năng lực cơ sở hạ tầng thiết bị, hệ thống phần mềm, nhân lực nhằm phát triển Internet, Đảng và Nhà nƣớc ta cũng đã ban hành các hệ thống pháp lý đối với việc khai thác Internet. Nghị định số 55/2001/NĐ-CP ngày 23-8-2001 của Chính phủ về Quản lý, cung cấp và sử dụng dịch vụ Internet đã đề cập về vấn đề này (Điều 2; Điều 6; Điều 11; Điều 18; Điều 28; Điều 33; Điều 35; Điều 41 và Điều 45). Một số nội dung chi tiết hơn đƣợc thể hiện trong Quy định về biện pháp và trang thiết bị kiểm tra, kiểm soát đảm bảo an ninh quốc gia trong hoạt động Internet ở Việt Nam của Bộ Nội vụ đƣợc ban hành kèm theo Quyết định số 848/1997/QÐ- BNV(A11) ngày 23.10.1997 (Mục 2 Khoản 3 Điều 5, Khoản 3 Điều 6). Quy định về Đảm bảo an toàn, an ninh trong hoạt động quản lý, cung cấp, sử dụng Internet tại Việt Nam đƣợc ban hành kèm theo Quyết định số 71/2004/QĐ- BCA (A11) ngày 29 tháng 1 năm 2004 của Bộ trƣởng Bộ Công an quy định toàn diện và chi tiết về các nội dung đảm bảo an toàn an ninh trên Internet của Nhà nƣớc ta, Thông tƣ 02 (02/2005/TTLT-BCVT-VHTT-CA-KHĐT), có quy định “Quyền và nghĩa vụ của đại lý Internet”: Nhận thức đƣợc tầm quan trọng cũng nhƣ yêu cầu cấp thiết của vấn đề này, đƣợc sự đồng ý của giáo viên hƣớng dẫn và của Trƣờng Đại học CNTT & TT Thái Nguyên, em đã chọn đề tài : « Xây dựng công cụ lọc nội dung thông tin dịch vụ Web » Nội dung Đề tài gồm 3 chƣơng : Chƣơng 1 : Tổng quan về bảo đảm an ninh an toàn thông tin Chƣơng này nghiên cứu, Đánh giá tình hình quản lý Nhà nƣớc về lọc nội dung trên Internet của các quốc gia và Việt Nam, phân tích các khái niệm về an toàn thông tin và an ninh nội dung thông tin, các giải pháp đảm bảo an ninh an toàn thông tin. Chƣơng 2 : Tìm hiểu về các phƣơng thức trao đổi thông tin qua giao dịch web và các kỹ thuật lọc nội dung thông tin đối với dịch vụ web Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng này nghiên cứu về các phƣơng thức trao đổi thông tin qua giao dịch web, mô hình hệ thống lọc nội dung thông tin đối với giao dịch web và một số kỹ thuật lọc nội dung web Chƣơng 3 : Xây dựng công cụ lọc nội dung Web độc hại Nghiên cứu, ứng dụng xây dựng công cụ lọc nội dung web [...]... mặt nội dung cho các cá nhân, tổ chức và doanh nghiệp là lọc nội dung thông tin Lọc nội dung thông tin có thể là lọc theo từ khóa hoặc lọc mẫu ảnh đặc thù và lọc nội dung thông tin đƣợc mã hóa trong các phƣơng thức truyền thông (tệp ảnh, tệp văn bản, thƣ điện tử gửi kèm hay qua trao đổi trực tuyến) Phƣơng pháp này chú trọng vào việc lọc nội dung của các luồng thông tin đi vào và đi ra Đối với việc lọc. .. với việc lọc nội dung thông tin đi vào nhƣ: Ngƣời dùng sử dụng trình duyệt và lấy nội dung thông tin của một trang web trên mạng, nếu nội dung đó là hợp lệ (không có nội dung xấu) thì bộ lọc nội dung sẽ cho phép trang đó hiển thị trên trình duyệt của ngƣời dùng, nếu ngƣợc lại nội dung trang đó là xấu cần ngăn chặn thì sẽ hiển thị thông báo cho ngƣời dùng là trang đó bị cấm Đối với việc lọc luồng thông... hình trao đổi thông tin trên web Hình 2.2 Mô hình hệ thống thông thƣờng Hình 2.3 Mô hình hệ thống lọc nội dung Hình 2.4 Mô hình phần mềm chọn lọc ngăn cản truy cập tới một số tài liệu không phù hợp còn các tài liệu khác thì đƣợc phép Hình 3.1 Mô hình kiến trúc công cụ lọc nội dung Webfilter Hình 3.2 Mô hình tính năng hoạt động của bộ lọc nội dung Hình 3.3 Mô hình bộ chuẩn... là sử dụng, làm sai lệch hoặc phá hủy nội dung các thông tin Vì vậy, một trong những biện pháp bảo đảm an toàn thông tin là bảo vệ an toàn cho nội dung của thông tin 1.1 Đánh giá tình hình quản lý Nhà nƣớc về lọc nội dung trên Internet của các quốc gia và Việt Nam 1.1.1 Hoạt động quản lý Nhà nƣớc về lọc nội dung trên Internet Hoạt động quản lý Nhà nƣớc về lọc nội dung trên Internet là một thành phần... toàn đối với nội dung thông tin, không cho những ngƣời không đƣợc phép truy cập để biết nội dung thông tin Chúng ta cần phải tìm hiểu, nắm đƣợc các thủ đoạn tấn công nội dung thông tin cũng nhƣ các thủ đoạn trao đổi, chuyển thông tin không đƣợc phép Từ đó ứng dụng các giải pháp, công nghệ thích hợp để vô hiệu hóa phƣơng thức, thủ đoạn tấn công đó để đảm bảo đƣợc tính toàn vẹn của nội dung thông tin... dùng, gỡ bỏ các dịch vụ, phá vỡ các kênh truyền tin bằng cách làm “ngập lụt” (Flooding Attack) đƣờng truyền hay cả mạng Sự tấn công này có thể đƣợc thực hiện từ bất kì một vị trí nào trên mạng 6 Dạng tấn công từ chối dịch vụ (DoS) Tấn công bằng từ chối dịch vụ DoS (Denial of Service) có thể mô tả nhƣ một hành động ngăn cản những ngƣời dùng hợp pháp khả năng truy cập và sử dụng một dịch vụ nào đó Nó bao... thuật chuyên biệt về lọc nội dung trên Internet mà đa phần ngƣời ta thiết lập một khung pháp lý nhằm giới hạn một số kiểu nội dung trực tuyến và ngăn cấm một số hoạt động trực tuyến Các cơ quan Nhà nƣớc đƣợc giao trách nhiệm quản lý hoạt động lọc nội dung trên Internet tiến hành các công tác cần thiết để hoàn thành tốt trách nhiệm đƣợc giao Các cơ quan này thƣờng là đầu mối tổ chức xây dựng các văn bản... hệ thống lọc Internet của nƣớc này đƣợc coi là phức tạp nhất thế giới, đƣợc phân bố thành nhiều cấp tinh vi và hiệu quả Hệ thống này kiểm duyệt nội dung đƣợc truyền tải qua Internet đối với hầu hết các phƣơng thức khác nhau, bao gồm trang Web, Web blog, các diễn đàn thảo luận trực tuyến, thƣ điện tử, với rất nhiều những kỹ thuật và quy tắc luật lọc nội dung khác nhau 1.1.3 Quản lý về lọc nội dung trên... đầu xuất hiện Internet Đồng thời với các đạo luật an ninh mạng trong các giao dịch diện tử, vấn đề lọc nội dung Internet, đặc biệt đối với việc truy nhập Internet của trẻ em, đƣợc quan tâm từ rất sớm Đã có rất nhiều công trình nghiên cứu, sản phẩm lọc nội dung đã đƣợc công bố và đƣợc sử dụng từ rất sớm nhƣ Cyberpatrol, i-Gear, Web Inspector, Tại Trung Quốc: Số hóa bởi Trung tâm Học liệu – Đại học Thái... các nội dung các văn bản pháp lý đã đƣợc xây dựng trên phạm vi toàn xã hội Đối với hoạt động quản lý Nhà nƣớc về lọc nội dung trên Internet, khi quyết định lọc Internet, tiếp cận chung của các quốc gia là thiết lập một “phòng tuyến” gồm các luật và tiêu chuẩn kỹ thuật để hình thành một khung pháp lý đƣợc áp đặt đối với mọi công dân và mọi tổ chức trong quốc gia đó đối với hoạt động truy nhập và công . dịch web, mô hình hệ thống lọc nội dung thông tin đối với giao dịch web và một số kỹ thuật lọc nội dung web Chƣơng 3 : Xây dựng công cụ lọc nội dung Web độc hại Nghiên cứu, ứng dụng xây dựng. phần mềm lọc nội dung trong và ngoài nƣớc. 61 2.4.1. VwebFilter (Viết tắt là VWF) 62 2.4.2. SafeInternet 63 2.4.3. Depraved Web Killer (DWK) 64 CHƢƠNG 3: XÂY DỰNG CÔNG CỤ LỌC NỘI DUNG WEB 66. thống lọc nội dung web 50 2.2.1 Mô hình hệ thống lọc 50 2.2.2 Nguyên lý hoạt động của hệ thống lọc 52 2.3. Các kỹ thuật lọc nội dung thông tin qua giao dịch web: 55 2.3.1. Lọc Ảnh 55 2.3.2. Lọc