Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

83 416 1
Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN THẠC CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE NỘI DUNG KHÔNG LÀNH MẠNH Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 05 LUẬN VĂN THẠC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS. VŨ ĐỨC LUNG Đồng Nai, 2011 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sỹ công nghệ thông tin “Xây dựng bộ lọc phát hiện các website nội dung không lành mạnh” là kết quả của quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc. Các số liệu trong luận văn là trung thực, nguồn gốc rõ ràng, được trích dẫn và tính kế thừa, phát triển từ các số liệu, tạp chí, các công trình nghiên cứu đã được công bố, trên các website. Các phương pháp nêu trong luận văn được rút từ những sở lý luận và quá trình nghiên cứu tìm hiểu. Đồng Nai, ngày 15 tháng 10 năm 2011 Tác giả Cao Nguyễn Thủy Tiên LỜI CẢM ƠN Trước hết tôi xin gởi lời cảm ơn chân thành đến ban giám hiệu và tập thể thầy trường Đại học Lạc Hồng đã quan tâm tổ chức và giảng dạy khóa cao học công nghệ thông tin và tạo môi trường thuận lợi cho chúng tôi được học tập và nghiên cứu chuyên sâu về CNTT. Xin cảm ơn bạn bè và đồng nghiệp đã động viên, giúp đỡ cũng như tạo điều kiện thuận lợi cho tôi trong quá trình thực hiện luận văn. Đặc biệt tôi xin gởi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn khoa học – TS Vũ Đức Lung - đã tận tình chỉ bảo, hướng dẫn cho tôi trong quá trình nghiên cứu và thực hiện luận văn. Cuối cùng, tôi biết ơn gia đình đã tạo mọi điều kiện thuận lợi cho tôi yên tâm trong suốt thời gian nghiên cứu và hoàn thành luận văn cao học này. Biên Hòa, ngày 15 tháng 10 năm 2011 Cao Nguyễn Thủy Tiên MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM ƠN . ii MỤC LỤC iii DANH MỤC HÌNH VẼ . iv DANH MỤC BẢNG BIỂU .v MỞ ĐẦU 1 1. Tóm lược đề tài 1 2. Mục tiêu đề tài .1 3. Nội dung thực hiện 1 4. Phạm vi ứng dụng 2 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN .3 1.1. Bộ lọc web 3 1.1.1. Khái niệm 3 1.1.2. Đặc điểm web nội dung không lành mạnh .4 1.1.3. Nguyên nhân cần xây dựng bộ lọc web 7 1.2. Các phương pháp lọc web nội dung không lành mạnh .7 1.2.1. Bộ lọc web dựa vào địa chỉ mạng .7 1.2.2. Bộ lọc web dựa vào URL (Universal Resource Locator) .9 1.2.3. Bộ lọc web dựa vào DNS 12 1.2.4. Bộ lọc web dựa vào từ khóa (key word) .13 1.3. Những phần mềm lọc web hiện nay .14 CHƯƠNG 2: SỞ LÝ THUYẾT 16 2.1. Tổng quan khai phá dữ liệu 16 2.1.1. Khai phá Text 16 2.1.1.1. Khái niệm .16 2.1.1.2 Một số loại khai phá Text .16 2.1.1.3. Quy trình khai phá Text .17 2.1.2. Khai phá web .18 2.1.2.1. Khái niệm .18 2.1.2.2. Phân loại khai phá web 18 2.1.2.3. Phương pháp biểu diễn trang web 19 2.1.3 Xử lý văn bản tự động 21 2.1.3.1. Rút trích đặc trưng văn bản 21 2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng 22 2.2. Lọc nội dung trang web bằng thuật toán Naïve Bayes .25 2.2.1. Giới thiệu .25 2.2.2. Học Bayes (Bayes Learning) .25 2.2.3. Công thức Bayes .28 2.2.4. Các bước tiến hành lọc nội dung bằng mạng Bayes .30 2.3. Phương pháp tách từ trong tiếng Việt .31 2.3.1. Tình hình nghiên cứu 31 2.3.2. Một số phương pháp tách từ 32 2.3.2.1. Tách câu dựa trên Maximum Entropy .32 2.3.2.2. Phương pháp khớp tối đa (Maximum Matching) 34 2.3.2.3. Phương pháp WFST (Weighted Finite – State Transducer) 35 2.3.2.4. Bài toán tách từ và công cụ vnTokenizer 37 2.3.2.5. Phương pháp tách từ dựa trên sự xác suất tồn tại của từ không phụ thuộc vào ngữ nghĩa .38 2.3.3. So sánh các phương pháp tách từ tiếng Việt .40 2.4. Phân tích nội dung website .42 2.4.1. Phân loại nội dung website 42 2.4.2. Đặc trưng của ngôn ngữ tiếng Việt .43 2.4.3. Phương pháp xử lý nội dung website 44 2.4.4. Phân tích câu .45 CHƯƠNG 3: ỨNG DỤNG 47 3.1. Xây dựng bộ lọc nội dung web tiếng Việt không lành mạnh .47 3.1.1. Ý tưởng đề xuất .47 3.1.2. Hướng tiếp cận 47 3.1.3. Tiến trình thu thập nội dung 48 3.1.4. Quy trình thực hiện 49 3.1.4.1. Tiến trình 1 .50 3.1.4.2. Tiến trình 2 .53 3.1.4.3. Tiến trình 3 .55 3.2. Kiến trúc hệ thống chương trình .56 3.2.1 Trình duyệt web với các chức năng bản thông thường .56 3.2.2. Các chức năng bản của hệ thống 56 3.3. Chức năng của chương trình .57 3.3.1.Giao diện chính của chương trình 57 3.3.2. Sơ đồ chức năng của chương trình 58 3.3.2.1. Chức năng đăng nhập hệ thống 58 3.3.2.2. Chức năng chương trình .59 3.4. Chức năng học từ tiếng Việt .60 3.5. Chức năng xử lý 61 3.5.1. Lấy nội dung website cần phân tích 61 3.5.2. Quản lý bộ từ điển tiếng Việt 61 3.5.3. Phân tích câu đối với nội dung website tiếng Việt 62 3.5.4. Phân tích nội dung website tiếng Việt .63 3.6. Chức năng huấn luyện từ cho việc lọc nội dung 63 3.6.1. Huấn luyện từ tiếng Anh .64 3.6.2. Huấn luyện từ tiếng Việt .64 3.7. Phân loại nội dung website .65 3.7.1. Nội dung tiếng Anh .65 3.7.2. Nội dung tiếng Việt .65 3.8. Quản lý các thông số hệ thống 66 3.9. Quản lý các danh sách 67 3.9.1. Black List 67 3.9.2. White List 68 3.10. Kết quả thực nghiệm và đánh giá kết quả đạt được .68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .70 TÀI LIỆU THAM KHẢO DANH MỤC HÌNH VẼ Hình 1.1 – Màn hình trình duyệt cấm truy cập .3 Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam 6 Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới .6 Hình 2.1 – Sơ đồ lĩnh vực khai phá web 18 Hình 2.2 – Quy trình tách từ 37 Hình 3.1 – Tiến trình thu thập nội dung 49 Hình 3.2 – Mô hình tổng quát lọc nội dung không lành mạnh .50 Hình 3.3 – Mô hình tách câu trong tiếng Việt .51 Hình 3.4 – Mô hình tách từ đơn tiếng Việt .52 Hình 3.5 – Mô hình tách từ ghép tiếng Việt 53 Hình 3.6 – Mô hình tính xác suất cho từ ghép 54 Hình 3.7 – Mô hình cập nhật bộ từ điển 55 Hình 3.8 – Giao diện chính của chương trình .57 Hình 3.9 – Giao diện thông báo không cho truy cập nội dung website 58 Hình 3.10 – Chức năng đăng nhập hệ thống chương trình quản lý 58 Hình 3.11 – Chức năng học từ đơn và từ ghép tiếng Việt .61 Hình 3.12 – Lấy nội dung website cần phân tích 61 Hình 3.13 – Bộ từ điển tiếng Việt .62 Hình 3.14 – Phân tích câu trong tiếng Việt .62 Hình 3.15 – Phân tích nội dung website tiếng Việt .63 Hình 3.16 – Huấn luyện từ tiếng Anh .64 Hình 3.17 – Huấn luyện từ tiếng Việt .64 Hình 3.18 – Phân lớp nội dung website tiếng Anh 65 Hình 3.19 – Phân lớp nội dung website tiếng Việt 66 Hình 3.20 – Quản lý thông số hệ thống .67 Hình 3.21 – Danh sách Black List .67 Hình 3.22 – Danh sách White List 68 . BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN THẠC. bày một số phương pháp lọc website có nội dung không lành mạnh. 1.2. Các phương pháp lọc web có nội dung không lành mạnh 1.2.1. Bộ lọc web dựa vào địa chỉ

Ngày đăng: 18/12/2013, 14:37

Hình ảnh liên quan

Hình 1.1 – Màn hình trình duyệt cấm truy cập - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 1.1.

– Màn hình trình duyệt cấm truy cập Xem tại trang 14 của tài liệu.
Hình 1.3 – Báo cáo tìm kiếm từ khĩa “sex” trên thế giới [12] - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 1.3.

– Báo cáo tìm kiếm từ khĩa “sex” trên thế giới [12] Xem tại trang 17 của tài liệu.
Hình 1.2 – Báo cáo tìm kiếm từ khĩa “sex” tại Việt Nam [12] - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 1.2.

– Báo cáo tìm kiếm từ khĩa “sex” tại Việt Nam [12] Xem tại trang 17 của tài liệu.
Bảng 1.1 – Kết quả đánh giá của NetProject. - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Bảng 1.1.

– Kết quả đánh giá của NetProject Xem tại trang 20 của tài liệu.
Hiện tại, phần nội dung điển hình nhất trong trang web là văn bản, vì vậy, khai phá văn  bản  web là một  thành phần cơ bản  của  khai phá  web - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

i.

ện tại, phần nội dung điển hình nhất trong trang web là văn bản, vì vậy, khai phá văn bản web là một thành phần cơ bản của khai phá web Xem tại trang 29 của tài liệu.
Hình 2.2 – Quy trình tách từ - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 2.2.

– Quy trình tách từ Xem tại trang 48 của tài liệu.
Từ bảng so sánh trên, cĩ thể thấy được những đặc trưng cơ bản của tiếng Việt cũng như là khĩ khăn gặp phải khi tách từtrong tiếng Việt. - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

b.

ảng so sánh trên, cĩ thể thấy được những đặc trưng cơ bản của tiếng Việt cũng như là khĩ khăn gặp phải khi tách từtrong tiếng Việt Xem tại trang 54 của tài liệu.
Hình 3.1 – Tiến trình thu thập nội dung - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.1.

– Tiến trình thu thập nội dung Xem tại trang 60 của tài liệu.
Hình 3.2 – Mơ hình tổng quát lọc nội dung khơng lành mạnh - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.2.

– Mơ hình tổng quát lọc nội dung khơng lành mạnh Xem tại trang 61 của tài liệu.
Hình 3.4 – Mơ hình tách từ đơn tiếng Việt - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.4.

– Mơ hình tách từ đơn tiếng Việt Xem tại trang 63 của tài liệu.
Hình 3.5 – Mơ hình tách từ ghép tiếng Việt - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.5.

– Mơ hình tách từ ghép tiếng Việt Xem tại trang 64 của tài liệu.
Hình 3.6 – Mơ hình tính xác suất cho từ ghép - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.6.

– Mơ hình tính xác suất cho từ ghép Xem tại trang 65 của tài liệu.
3.1.4.3. Tiến trình 3 - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

3.1.4.3..

Tiến trình 3 Xem tại trang 66 của tài liệu.
Hình 3.8 – Giao diện chính của chương trình - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.8.

– Giao diện chính của chương trình Xem tại trang 68 của tài liệu.
Hình 3.9 – Giao diện thơng báo khơng cho truy cập nội dung website - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.9.

– Giao diện thơng báo khơng cho truy cập nội dung website Xem tại trang 69 của tài liệu.
Hình 3.10 – Chức năng đăng nhập hệ thống chương trình quản lý - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.10.

– Chức năng đăng nhập hệ thống chương trình quản lý Xem tại trang 69 của tài liệu.
Bảng 3.1 – Bảng mơ tả chức năng của chương trình - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Bảng 3.1.

– Bảng mơ tả chức năng của chương trình Xem tại trang 70 của tài liệu.
Hình 3.11 – Chức năng học từ đơn và từ ghép tiếng Việt - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.11.

– Chức năng học từ đơn và từ ghép tiếng Việt Xem tại trang 72 của tài liệu.
Hình 3.12 – Lấy nội dung website cần phân tích - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.12.

– Lấy nội dung website cần phân tích Xem tại trang 72 của tài liệu.
Hình 3.14 – Phân tích câu trong tiếng Việt - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.14.

– Phân tích câu trong tiếng Việt Xem tại trang 73 của tài liệu.
Hình 3.13 – Bộ từ điển tiếng Việt - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.13.

– Bộ từ điển tiếng Việt Xem tại trang 73 của tài liệu.
Hình 3.15 – Phân tích nội dung website tiếng Việt - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.15.

– Phân tích nội dung website tiếng Việt Xem tại trang 74 của tài liệu.
Hình 3.17 – Huấn luyện từ tiếng Việt - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.17.

– Huấn luyện từ tiếng Việt Xem tại trang 75 của tài liệu.
Hình 3.16 – Huấn luyện từ tiếng Anh - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.16.

– Huấn luyện từ tiếng Anh Xem tại trang 75 của tài liệu.
Hình 3.18 – Phân lớp nội dung website tiếng Anh - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.18.

– Phân lớp nội dung website tiếng Anh Xem tại trang 76 của tài liệu.
Hình 3.19 – Phân lớp nội dung website tiếng Việt - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.19.

– Phân lớp nội dung website tiếng Việt Xem tại trang 77 của tài liệu.
Hình 3.21 – Danh sách BlackList - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.21.

– Danh sách BlackList Xem tại trang 78 của tài liệu.
Hình 3.20 – Quản lý thơng số hệ thống - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.20.

– Quản lý thơng số hệ thống Xem tại trang 78 của tài liệu.
Hình 3.22 – Danh sách WhiteList - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Hình 3.22.

– Danh sách WhiteList Xem tại trang 79 của tài liệu.
Bảng 3.3 – Kết quả phân loại web - Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh luận văn thạc sĩ

Bảng 3.3.

– Kết quả phân loại web Xem tại trang 80 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan