Luận văn Thạc sĩ Công nghệ Thông tin Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT Luận văn Thạc sĩ Công nghệ Thông tin Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT Luận văn Thạc sĩ Công nghệ Thông tin Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT Luận văn Thạc sĩ Công nghệ Thông tin Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG NGUYỄN THANH PHONG XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT Luận văn Thạc sĩ Công nghệ Thông tin ĐỒNG NAI, 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG NGUYỄN THANH PHONG XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT Chuyên ngành: Công nghệ Thông tin Mã số: 60480201 Luận văn Thạc sĩ Công nghệ Thông tin NGƢỜI HƢỚNG DẪN KHOA HỌC TS VŨ ĐỨC LUNG ĐỒNG NAI, 2014 LỜI CẢM ƠN Với lời đầu tiên, em xin dành cảm ơn chân thành sâu sắc tới thầy tiến sỹ Vũ Đức Lung hƣớng dẫn giúp đỡ em tận tình q trình hồn thành luận văn Em xin cảm ơn quý Thầy Cô Trƣờng Đại học Lạc Hồng tận tình truyền dạy kiến thức trình em học tập trƣờng, kiến thức giúp em nhiều việc học tập nghiên cứu sau Cuối cùng, xin gửi lời cảm ơn tới ngƣời thân gia đình bạn bè, đồng nghiệp giúp đỡ tạo điều kiện tốt trình làm luận văn Đồng Nai, tháng 08 năm 2014 Trân trọng Nguyễn Thanh Phong LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn sản phẩm riêng cá nhân, kết trình học tập nghiên cứu khoa học độc lập Trong toàn nội dung luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Đồng Nai, tháng 08 năm 2014 Tác giả Nguyễn Thanh Phong MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ MỞ ĐẦU Lý chọn đề tài Mục tiêu đề tài Nội dung thực Phƣơng pháp thực CHƢƠNG TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE 1.1 Giới thiệu 1.2 Các loại lọc WEB có nội dung khiêu dâm 1.2.1 Bộ lọc WEB dựa vào địa chị mạng 1.2.2 Bộ lọc WEB dựa vào URL 1.2.3 Bộ lọc WEB dựa vào DNS 1.2.4 Bộ lọc WEB dựa vào từ khóa 10 1.2.5 Bộ lọc WEB dựa vào nội dung text hình ảnh 10 1.3 Các cơng trình liên quan 11 CHƢƠNG CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN 15 2.1 Rút trích nội dung website 15 2.1.1 Phân tích mã HTML 15 2.1.2 So sánh khung mẫu 16 2.1.3 Xử lý ngôn ngữ tự nhiên 17 2.2 Phân tích nội dung thành token 18 2.2.1 Tiền xử lý liệu 19 2.2.2 Tách câu dựa Maximum Entropy 19 2.2.3 Tách từ 21 2.2.3.1 Phƣơng pháp Maximum Matching 25 2.2.3.2 Phƣơng pháp Transformation – based learning – TBL 25 2.2.3.3 Mô hình tách từ WFST mạng Neural 26 2.2.3.4 Phƣơng pháp tách từ tiếng việt dựa thống kê từ Internet thuật giải di truyền 28 2.2.4 Thuật toán KEA 29 2.2.4.1 Chọn cụm ứng viên 31 2.2.4.2 Tính tốn đặc trƣng 33 2.2.4.3 Huấn luyện 33 2.2.4.4 Rút trích cụm từ khóa 34 2.2.5 Thuật toán KIP 34 2.2.6 Nhận diện thực thể có tên 36 2.3 Phân tích URL 37 CHƢƠNG GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT 38 3.1 Phân tích mơ hình hệ thống 38 3.2 Module xử lý dựa vào URL 40 3.3 Module lọc theo nội dung 40 3.3.1 Giai đoạn huấn luyện 41 3.3.1.1 Tiền xử lý văn 41 3.3.1.2 Trích lọc đặc trƣng 42 3.3.1.3 Thuật toán Naïve Bayes 44 3.3.2 Giai đoạn phân lớp, nhận dạng 47 CHƢƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 50 4.1 Môi trƣờng thử nghiệm 50 4.2 Giao diện chƣơng trình 50 4.2.1 Giao diện 50 4.2.2 Giao diện học từ lấy TOKEN phân lớp nội dung Website 53 4.2.3 Giao diện duyệt TOKEN từ đơn đƣa vào danh sách TOKEN 54 4.2.4 Giao diện duyệt TOKEN từ ghép đƣa vào danh sách TOKEN 54 4.2.5 Giao diện danh sách TOKEN từ phân lớp nội dung Website 55 4.2.6 Giao diện lấy TOKEN URL 55 4.2.7 Giao diện danh sách TOKEN URL để phân lớp URL Website 56 4.3 Thu thập liệu 56 4.3.1 Thu thập liệu để làm sở liệu TOKEN URL 56 4.3.2 Thu thập liệu để làm sở liệu TOKEN nội dung 57 4.4 Đánh giá kết thực nghiệm 58 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 60 TÀI LIỆU THAM KHẢO KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT Từ viết tắt Ý nghĩa KNN K-Nearest Neighbor LDA Latent Drichlet Allocation LLSF Linear Least Square Fit LRMM Left Right Maximum Matching MM Maximum Matching NB Naïve Bayes pLSA Probabilistic Latent Semantic Analysis SVM Support Vector Machine TBL Transformation -based Learning TF WFST Term Frequency Weighted Finit State Transducer DANH SÁCH CÁC HÌNH VẼ Hình 2.1 - Hệ thống bóc tách nội dung VietSpider 16 Hình 2.2 – Mơ hình bóc tách nội dung so sánh khung mẫu 17 Hình 2.3 – Sơ đồ thuật tốn KEA 30 Hình 3.1 – Mơ hình hệ thống lọc Website có nội dung khiêu dâm 39 Hình 3.2 – Quy trình huấn luyện lấy TOKEN URL 40 Hình 3.3 – Quy trình huấn luyện TOKEN nội dung 41 Hình 3.4 – Quy trình tách từ 42 Hình 3.5 – Mơ hình huấn luyện từ 44 Hình 3.6 – Mơ hình giai đoạn phân lớp 48 Hình 4.1 – Giao diện lúc khởi động lọc 50 Hình 4.2 – Giao diện đăng nhập 51 Hình 4.3 – Giao diện duyệt địa WEB tốt 51 Hình 4.4 – Giao diện duyệt địa WEB xấu 52 Hình 4.5 – Giao diện danh sách địa WEB tốt, xấu 52 Hình 4.6 – Giao diện chức hệ thống 53 Hình 4.7 – Giao diện huấn luyện từ đơn, từ ghép 53 Hình 4.8 – Giao diện duyệt TOKEN từ đơn đƣa vào danh sách ToKEN 54 Hình 4.9 – Giao diện duyệt TOKEN từ ghép đƣa vào danh sách ToKEN 54 Hình 4.10 – Giao diện duyệt TOKEN từ đơn từ ghép 55 Hình 4.11 – Giao diện huấn luyện TOKEN URL 55 Hình 4.12 – Giao diện danh sách TOKEN URL sau huấn luyện 56 Hình 4.13 – Địa URL thu thập đƣợc 56 Hình 4.14 – File tốt thu thập đƣợc 57 Hình 4.15 – File xấu thu thập đƣợc 57 Hình 4.16 – Cơ sở liệu TOKEN nội dung sau trình huấn luyện 58 DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 – Kết đánh giá NET PROJECT Bảng 1.2 – Một số sản phẩm lọc WEB theo URL Bảng 2.1 – Xác định cụm ứng viên 32 Bảng 3.1 – Thống kê số từ điển thông dụng tiếng việt 43 Bảng 3.2 – Số liệu thống kê bảng từ điển 43 Bảng 3.3 – Ví dụ minh họa tần số xuất TOKEN 46 Bảng 3.4 –Ví dụ minh họa tần số xuất TOKEN chƣa làm trơn 47 Bảng 3.5 –Ví dụ minh họa tần số xuất TOKEN làm trơn 47 Bảng 4.1 – Kết thực nghiệm File nội dung 59 Bảng 4.2 – Kết thực nghiệm URL 59 49 ( ( )∏ ( )) Trong đó: xk đặc trƣng xuất nội dung P(Xnew bad) P( new /good) đƣợc tính bằng: ( ( ) ∏ ( ) ∏ ( ) ) Ta tiến hành so sánh P(Xnew /bad) P(Xnew /good), Xnew phân vào lớp có xác suất cao Trong thực tiễn số lƣợng token nội dung text lớn nhƣ ta sử dụng cơng thức nhân nhƣ kết nhỏ không phù hợp Chúng tiến hành logarit công thức sử dụng công thức sau cho q trình tính tốn ( ( )) (∏ ( )) ∑ ( ( )) P(bad) P(good) đƣợc tính cơng thức: ( ( ) ) Tƣơng tự nhƣ ta tính đƣợc xác suất để nội dung phân vào lớp là: ( ( )∑ ( ( )) 50 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 Môi trƣờng thử nghiệm Bộ lọc đƣợc cài đặt máy tính với xử lý Core i5, Ram 4G cài đặt hệ điều hành Win8, SQL Server 2008 R2, Visual Studio.Net phiên 2010 phần mềm hổ trợ khác… 4.2 Giao diện chƣơng trình 4.2.1 Giao diện a Giao diện lúc khởi động đăng nhập Hình 4.1 – Giao diện lúc khởi động lọc 51 Hình 4.2 – Giao diện đăng nhập b Giao diện nhận địa WEB tốt Hình 4.3 – Giao diện duyệt địa Web tốt 52 c Giao diện nhập địa WEB xấu Hình 4.4 – Giao diện duyệt địa Web xấu d Giao diện cấu hình hệ thống Hình 4.5 – Giao diện danh sách địa Web xấu, Web tốt 53 Hình 4.6 – Giao diện chức hệ thống 4.2.2 Giao diện học từ lấy token phân lớp nội dung Website Hình 4.7 – Giao diện huấn luyện từ đơn, từ ghép 54 4.2.3 Giao diện duyệt token từ đơn đƣa vào danh sách Token Hình 4.8 – Giao diện duyệt Token từ đơn 4.2.4 Giao diện duyệt token từ ghép đƣa vào danh sách Token Hình 4.9 – Giao diện duyệt Token từ ghép 55 4.2.5 Giao diện danh sách token từ phân lớp nội dung Website Hình 4.10 – Giao diện duyệt Token từ đơn từ ghép 4.2.6 Giao diện lấy token URL Hình 4.11 – Giao diện huấn luyện Token URL 56 4.2.7 Giao diện danh sách token URL để phân lớp URL Website Hình 4.12 – Giao diện danh sách Token URL sau huấn luyện 4.3 Thu thập liệu 4.3.1 Thu thập liệu để làm sở liệu TOKEN URL Để xây dựng sở liệu TOKEN URL để phân lớp URL Website tiến thành thu thập 300 địa có chứa nội dung khiêu dâm sau đƣa vào lọc huấn luyện lấy đƣợc gần 400 TOKEN để làm sở liệu phân lớp URL Website Qua trình huấn luyện đƣợc sở liệu TOKEN URL nhƣ hình 4.12 Hình 4.13 – Địa URL thu thập đƣợc 57 4.3.2 Thu thập liệu để làm sở liệu TOKEN nội dung Đối với sở liệu TOKEN nội dung, tiến hành thu thập liệu huấn luyện với tổng cộng 500 nội dung không lành mạnh 500 nội dung lành mạnh từ nội dung websites sau: www.hang9x.com, www.sexviet.com, conheo.com, lauxanh.us, sexvnonline.com, aitinhviet.com, vnexpress.net, vnn.vn, tuoitre.com.vn, web giáo dục giới tính … Hình 4.14 - File tốt thu thập đƣợc Hình 4.15 - File xấu thu thập đƣợc 58 Sau học với liệu 500 file tốt 500 file xấu thu đƣợc: 8400 từ đơn 92752 từ ghép Áp dụng cơng thức Nạve Bayes để tính xác suất từ đơn từ ghép thu đƣợc sau loại bỏ từ đơn từ ghép có tần số xuất thấp So sánh từ với từ điển có để loại bỏ từ khơng có ý nghĩa (khơng có từ điển) số ToKen thu đƣợc 893 từ (từ đơn từ ghép) để làm sở liệu ToKen đặc trƣng để phân lớp nội dung Website Hình 4.16 – Cơ sở liệu ToKen nội dung sau trình huấn luyện 4.4 Đánh giá kết thực nghiệm Do việc rút trích đặc trƣng văn ta dựa vào CSDL huấn luyện nên số lƣợng token lớn, tránh việc nhiều thời gian cho việc tính tốn token khơng cần thiết có ảnh hƣởng đến việc phân loại ta tiến hành xếp token theo thứ tự giảm dần tần suất xuất (dựa CSDL huấn luyện) thực nghiệm kiểm tra tìm số N, để lấy N token nhỏ mà phân lớp không bị ảnh hƣởng Thử nghiệm kiểm tra phần URL 59 Dữ liệu chuẩn bị bao gồm 100 URL, thực tế có 60 URL xấu, qua trình xử lý lọc phát 20 URL xấu nhƣng thực tế có 18 URL Trƣờng hợp URL xấu lọc khơng phát đƣợc lọc chuyển sang kiểm tra phần nội dung Thử nghiệm kiểm tra phần nội dung Dữ liệu chuẩn bị bao gồm: 300 file tốt 300 file xấu đƣợc thu thập từ trang web tin tức trang web có nội dung khiêu dâm Qua q trình xử lý lọc Kết thực nghiệm, nhƣ sau: Bảng 4.1 – Kết thực nghiệm File nội dung Số TOKEN dùng để phân lớp file Số File phân lớp Độ xác (%) File Tốt File Xấu Tốt Xấu Lấy 100 token 125/300 131/300 41,6% 43,7% Lấy 200 token 213/300 235/300 71% 78,3% Lấy 300 token 275/300 279/300 98,3% 99,3% Lấy 500 token 295/300 295/300 98,3% 99,3% Lấy tất 295/300 295/300 98,3% 99,3% Qua kết thực nghiệm cho thấy số N tối ƣu chọn khoảng 500 token cao để tính tốn phân loại So sánh kết với [7][8] ta thấy phân loại dựa vào việc tách từ theo ngữ nghĩa từ cho kết thấp so với việc phân loại tách từ không phụ thuộc vào ngữ nghĩa dựa tần suất xuất từ 60 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận: Qua trình tìm hiểu nghiên cứu để thực Luận văn đạt đƣợc kết sau: Tìm hiểu thống kê đƣợc phƣơng pháp tách từ, trích chọn đặc trƣng phân loại văn bản; Áp dụng thành cơng thuật tốn Nạve Bayes vào việc phân lớp URL Text Content Website cần truy cập; Thu thập liệu từ Website tiến hành huấn luyện xây dựng đƣợc liệu đặc trƣng (Token từ) cho URL với gần 400 từ Text Content với gần 900 từ để làm liệu dùng để phân lớp Website cần truy cập Hƣớng phát triển Nghiên cứu tích hợp lọc vào trình duyệt web thơng dụng nhằm nâng cao tính ứng dụng đề tài; Cải tiến thuật toán tách từ nhằm giảm thời gian xử lý trình phân lớp nội dung Website lọc 61 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Chu Anh Minh (2009), “Bài tốn trích xuất từ khóa cho trang WEB áp dụng phƣơng pháp phân tích thẻ HTML đồ thị”, Khóa luận tốt nghiệp đại học [2] Bùi Nguyên Khôi, Nguyên cứu số phƣơng pháp phân lớp cải tiến vào phân lớp văn 2009 ĐH KHTN, Luận văn Thạc sĩ [3] Đỗ Phúc (2005), Giáo trình khai thác liệu, Đại học Công nghệ Thông tin Tp HCM [4] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn (2009), Giáo trình Khai phá liệu web, Nxb Giáo dục Việt Nam [5] Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Bài báo Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM [6] Nguyễn Thanh Hùng, “Hƣớng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet”, Tạp chí bƣu viễn thông [7] Nguyễn Cao Thủy Tiên (2011), “Xây dựng lọc phát Website có nội dung khơng lành mạnh”, Luận văn thạc sỹ công nghệ thông tin [8] Phan Hữu Tiếp, Vũ Đức Lung, Cao Nguyễn Thủy Tiên, Lâm Thành Hiển Phƣơng pháp lọc thƣ rác tiếng Việt dựa từ ghép theo vết ngƣời sử dụng, Kỷ yếu hội thảo Quốc gia lần thứ XIV, Chủ đề: Các hệ thống hỗ trợ định, Nhà xuất Khoa học Kỹ thuật Hà Nội, 2012, Trang 463-473 [9] Trần Thị Thảo (2013), “Xây dựng giải pháp hỗ trợ lọc viết từ diễn đàn”, Luận văn thạc sỹ công nghệ thông tin [10] Vu Duc Lung, Truong Nguyen Vu – Bayesian spam filtering for Vietnameses emails, Procedings in International Conference on Computer & Information Science (ICCIS), 2012, ISBN: 978-1-4673-1937-9 Vol#1, p.190-193 Tiếng Anh: [11] Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm Web ublication at http://technology.chtsai.org/mmseg/, 2000 [12] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), “Vietnamese Word 62 Segmentation”, Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium (NLPR2001), p 749-756, Tokyo [13] H Nguyen, T Vu, N Tran, K Hoang (2005), “Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future”, the 3rd International Conference in Computer Science, (RIFT 2005) [14] Le An Ha, A method for word segmentation in Vietnamese, Proceedings of Corpus Linguistics 2003, Lancaster, UK, 2003 [15] Schneider2004 K.-M.Schneider.On word frequency information and negative evidence in Naive Bayes text classification In 4th International Conference on Advances in Natural Language Processing, pages 474–485, Alicante, Spain, 2004 [16] T Hofmann Probabilistic LSA Proc UAI, 1999 [17] Thorsten Joachims, “Text categorization with Support Vector Machines: Learning with many relevant features”, Technical Report 23, LS VIII, University of Dortmund, 1997 [18] Yang and Chute (1994), “An example-based mapping method for text categorization and retrieval”, ACM Transaction on Information Systems (TOIS), pages 252-277 [19] Yang & Xiu (1999), “A re-examination of text categorization methods”, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’ 99) Internet: [20] http://vietnamesecommunity.wordpress.com/2013/03/21/khieu-dam-la-gi/ [21] http://xahoithongtin.com.vn/2013061309041378p0c109/truy-cap-web-khieudam-ban-mat-gi.htm [22] http://news.go.vn/xa-hoi/tin-1262779/nhieu-website-ket-noi-noi-dung-khieudam-tinh-duc.htm [23] http://vn.antoan.yahoo.com/qua-n-ly-n%E1%BB%99i-dung-ti-m-ki%C3%AA152125467.html [24] http://www.baomoi.com/Website-khieu-dam-va-cac-chieu-lua/76/4400420.epi [25] http://www.gltec.com.vn/tin-tuc/68-internet/2830-web-ngi-ln-ngay-cang-thuhut-c-nhiu-qtin-q.html 63 [26] http://xahoithongtin.com.vn/2013061309041378p0c109/truy-cap-web-khieudam-ban-mat-gi.htm [27] http://baohay.vn/chuyen-de/nhung-dieu-can-biet/288247/Web-sex-dang-trothanh-mon-giai-tri-o-chon-cong-so.html [28] http://vi.wikipedia.org/wiki/Internet_t%E1%BA%A1i_Vi%E1%BB%87t_Nam [29] http://vn.antoan.yahoo.com/qua-n-ly-n%E1%BB%99i-dung-ti-m-ki%C3%AA152125467.html [30] http://www.gltec.com.vn/tin-tuc/68-internet/2830-web-ngi-ln-ngay-cang-thuhut-c-nhiu-qtin-q.html ... Xây dựng lọc phát Website có nội dung khiêu dâm dựa URL TEXT CONTENT đƣợc lựa chọn cho luận văn Mục tiêu đề tài Xây dựng lọc WEB tự động phát Website cần truy cập có nội dung khiêu dậm dựa URL. ..BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG NGUYỄN THANH PHONG XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT Chuyên ngành: Công nghệ Thông. .. Website có nội dung khiêu dâm không khiêu dâm Nghiên cứu cách khai phá URL TEXT CONTENT Website từ đề xuất mơ hình lọc Website có nội dung khiêu dâm dựa URL TEXT CONTENT Cài đặt lọc Website thực hóa