Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 83 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
83
Dung lượng
3,22 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂYDỰNGBỘLỌCPHÁTHIỆNCÁCWEBSITECÓNỘIDUNGKHÔNGLÀNHMẠNHLUẬNVĂNTHẠCSĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂYDỰNGBỘLỌCPHÁTHIỆNCÁCWEBSITECÓNỘIDUNGKHÔNGLÀNHMẠNH Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 05 LUẬNVĂNTHẠCSĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS. VŨ ĐỨC LUNG Đồng Nai, 2011 LỜI CAM ĐOAN Tôi xin cam đoan luậnvănthạc sỹ công nghệ thông tin “Xây dựngbộlọcpháthiệncácwebsitecónộidungkhônglành mạnh” là kết quả của quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc. Các số liệu trong luậnvăn là trung thực, có nguồn gốc rõ ràng, được trích dẫn và có tính kế thừa, phát triển từ các số liệu, tạp chí, các công trình nghiên cứu đã được công bố, trên các website. Các phương pháp nêu trong luậnvăn được rút từ những cơ sở lý luận và quá trình nghiên cứu tìm hiểu. Đồng Nai, ngày 15 tháng 10 năm 2011 Tác giả Cao Nguyễn Thủy Tiên LỜI CẢM ƠN Trước hết tôi xin gởi lời cảm ơn chân thành đến ban giám hiệu và tập thể thầy cô trường Đại học Lạc Hồng đã quan tâm tổ chức và giảng dạy khóa cao học công nghệ thông tin và tạo môi trường thuận lợi cho chúng tôi được học tập và nghiên cứu chuyên sâu về CNTT. Xin cảm ơn bạn bè và đồng nghiệp đã động viên, giúp đỡ cũng như tạo điều kiện thuận lợi cho tôi trong quá trình thực hiệnluận văn. Đặc biệt tôi xin gởi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn khoa học – TS Vũ Đức Lung - đã tận tình chỉ bảo, hướng dẫn cho tôi trong quá trình nghiên cứu và thực hiệnluận văn. Cuối cùng, tôi biết ơn gia đình đã tạo mọi điều kiện thuận lợi cho tôi yên tâm trong suốt thời gian nghiên cứu và hoàn thành luậnvăn cao học này. Biên Hòa, ngày 15 tháng 10 năm 2011 Cao Nguyễn Thủy Tiên MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM ƠN . ii MỤC LỤC iii DANH MỤC HÌNH VẼ . iv DANH MỤC BẢNG BIỂU .v MỞ ĐẦU 1 1. Tóm lược đề tài 1 2. Mục tiêu đề tài .1 3. Nộidung thực hiện 1 4. Phạm vi ứng dụng 2 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN .3 1.1. Bộlọc web 3 1.1.1. Khái niệm 3 1.1.2. Đặc điểm web cónộidungkhônglànhmạnh .4 1.1.3. Nguyên nhân cần xâydựngbộlọc web 7 1.2. Các phương pháp lọc web cónộidungkhônglànhmạnh .7 1.2.1. Bộlọc web dựa vào địa chỉ mạng .7 1.2.2. Bộlọc web dựa vào URL (Universal Resource Locator) .9 1.2.3. Bộlọc web dựa vào DNS 12 1.2.4. Bộlọc web dựa vào từ khóa (key word) .13 1.3. Những phần mềm lọc web hiện nay .14 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 16 2.1. Tổng quan khai phá dữ liệu 16 2.1.1. Khai phá Text 16 2.1.1.1. Khái niệm .16 2.1.1.2 Một số loại khai phá Text .16 2.1.1.3. Quy trình khai phá Text .17 2.1.2. Khai phá web .18 2.1.2.1. Khái niệm .18 2.1.2.2. Phân loại khai phá web 18 2.1.2.3. Phương pháp biểu diễn trang web 19 2.1.3 Xử lý văn bản tự động 21 2.1.3.1. Rút trích đặc trưng văn bản 21 2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng 22 2.2. Lọcnộidung trang web bằng thuật toán Naïve Bayes .25 2.2.1. Giới thiệu .25 2.2.2. Học Bayes (Bayes Learning) .25 2.2.3. Công thức Bayes .28 2.2.4. Các bước tiến hành lọcnộidung bằng mạng Bayes .30 2.3. Phương pháp tách từ trong tiếng Việt .31 2.3.1. Tình hình nghiên cứu 31 2.3.2. Một số phương pháp tách từ 32 2.3.2.1. Tách câu dựa trên Maximum Entropy .32 2.3.2.2. Phương pháp khớp tối đa (Maximum Matching) 34 2.3.2.3. Phương pháp WFST (Weighted Finite – State Transducer) 35 2.3.2.4. Bài toán tách từ và công cụ vnTokenizer 37 2.3.2.5. Phương pháp tách từ dựa trên sự xác suất tồn tại của từ không phụ thuộc vào ngữ nghĩa .38 2.3.3. So sánh các phương pháp tách từ tiếng Việt .40 2.4. Phân tích nộidungwebsite .42 2.4.1. Phân loại nộidungwebsite 42 2.4.2. Đặc trưng của ngôn ngữ tiếng Việt .43 2.4.3. Phương pháp xử lý nộidungwebsite 44 2.4.4. Phân tích câu .45 CHƯƠNG 3: ỨNG DỤNG 47 3.1. Xâydựngbộlọcnộidung web tiếng Việt khônglànhmạnh .47 3.1.1. Ý tưởng đề xuất .47 3.1.2. Hướng tiếp cận 47 3.1.3. Tiến trình thu thập nộidung 48 3.1.4. Quy trình thực hiện 49 3.1.4.1. Tiến trình 1 .50 3.1.4.2. Tiến trình 2 .53 3.1.4.3. Tiến trình 3 .55 3.2. Kiến trúc hệ thống chương trình .56 3.2.1 Trình duyệt web với các chức năng cơ bản thông thường .56 3.2.2. Các chức năng cơ bản của hệ thống 56 3.3. Chức năng của chương trình .57 3.3.1.Giao diện chính của chương trình 57 3.3.2. Sơ đồ chức năng của chương trình 58 3.3.2.1. Chức năng đăng nhập hệ thống 58 3.3.2.2. Chức năng chương trình .59 3.4. Chức năng học từ tiếng Việt .60 3.5. Chức năng xử lý 61 3.5.1. Lấy nộidungwebsite cần phân tích 61 3.5.2. Quản lý bộ từ điển tiếng Việt 61 3.5.3. Phân tích câu đối với nộidungwebsite tiếng Việt 62 3.5.4. Phân tích nộidungwebsite tiếng Việt .63 3.6. Chức năng huấn luyện từ cho việc lọcnộidung 63 3.6.1. Huấn luyện từ tiếng Anh .64 3.6.2. Huấn luyện từ tiếng Việt .64 3.7. Phân loại nộidungwebsite .65 3.7.1. Nộidung tiếng Anh .65 3.7.2. Nộidung tiếng Việt .65 3.8. Quản lý các thông số hệ thống 66 3.9. Quản lý các danh sách 67 3.9.1. Black List 67 3.9.2. White List 68 3.10. Kết quả thực nghiệm và đánh giá kết quả đạt được .68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .70 TÀI LIỆU THAM KHẢO DANH MỤC HÌNH VẼ Hình 1.1 – Màn hình trình duyệt cấm truy cập .3 Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam 6 Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới .6 Hình 2.1 – Sơ đồ lĩnh vực khai phá web 18 Hình 2.2 – Quy trình tách từ 37 Hình 3.1 – Tiến trình thu thập nộidung 49 Hình 3.2 – Mô hình tổng quát lọcnộidungkhônglànhmạnh .50 Hình 3.3 – Mô hình tách câu trong tiếng Việt .51 Hình 3.4 – Mô hình tách từ đơn tiếng Việt .52 Hình 3.5 – Mô hình tách từ ghép tiếng Việt 53 Hình 3.6 – Mô hình tính xác suất cho từ ghép 54 Hình 3.7 – Mô hình cập nhật bộ từ điển 55 Hình 3.8 – Giao diện chính của chương trình .57 Hình 3.9 – Giao diện thông báo không cho truy cập nộidungwebsite 58 Hình 3.10 – Chức năng đăng nhập hệ thống chương trình quản lý 58 Hình 3.11 – Chức năng học từ đơn và từ ghép tiếng Việt .61 Hình 3.12 – Lấy nộidungwebsite cần phân tích 61 Hình 3.13 – Bộ từ điển tiếng Việt .62 Hình 3.14 – Phân tích câu trong tiếng Việt .62 Hình 3.15 – Phân tích nộidungwebsite tiếng Việt .63 Hình 3.16 – Huấn luyện từ tiếng Anh .64 Hình 3.17 – Huấn luyện từ tiếng Việt .64 Hình 3.18 – Phân lớp nộidungwebsite tiếng Anh 65 Hình 3.19 – Phân lớp nộidungwebsite tiếng Việt 66 Hình 3.20 – Quản lý thông số hệ thống .67 Hình 3.21 – Danh sách Black List .67 Hình 3.22 – Danh sách White List 68 . BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN THẠC. bày một số phương pháp lọc website có nội dung không lành mạnh. 1.2. Các phương pháp lọc web có nội dung không lành mạnh 1.2.1. Bộ lọc web dựa vào địa chỉ