XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

79 33 0
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH  LUẬN VĂN ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

  MỤC LỤC Trang LỜI CAM ĐOAN i LỜI CẢM CẢM ƠN ii MỤC LỤ LỤC C iii DANH MỤ MỤC HÌNH VẼ VẼ iv DANH MỤ MỤC BẢ BẢNG BIỂ BIỂU .v v MỞ ĐẦU .1 ĐẦU Tóm lược đề tài tài Mục Mục tiêu đề tài Nộ Nội dung thự thực hiệ .1 Phạ Phạm vi ứng dụ dụng ng .2 THIỆU TỔ TỔNG QUAN CHƯƠNG 1: GIỚI GIỚI THIỆ 1.1 Bộ Bộ lọc web 1.1.1 Khái niệ niệm .3 nội dung không lành mạ mạnh 1.1.2 Đặc điểm điểm web có nộ 1.1.3 Nguyên nhân cầ cần xây dự dựng bộ lọc web .7 nội dung không lành mạ mạnh 7 1.2 Các phương pháp lọc lọc web có nộ 1.2.1 Bộ Bộ lọc web dựa dựa vào địa mạng .7 địa 1.2.2 Bộ Bộ lọc web dự dựa vào URL (Universal Resource Locator) 1.2.3 Bộ Bộ lọc web dự dựa vào v DNS .12 12 1.2.4 Bộ Bộ lọc web dự dựa vào từ từ khóa (key word) 13 1.3 Nhữ Những phầ phần mề mềm lọ lọc web hiệ 14 .14 THUYẾT 16 CHƯƠNG 2: CƠ SỞ LÝ THUYẾ 2.1 Tổ Tổng quan khai phá d ữ li liệệu 16 16   2.1.1 Khai phá Text 16 16 2.1.1.1 Khái niệ niệm 16 16 2.1.1.2 Mộ Một số số lo loạại khai phá Text 16 16 2.1.1.3 Quy trình khai phá Text 17 17 2.1.2 Khai phá web web 18 18 2.1.2.1 Khái niệ niệm 18 18 2.1.2.2 Phân loạ loại khai phá web 18 18 diễn trang web web 19 19 2.1.2.3 Phương pháp biểu biểu diễ 2.1.3 Xử Xử lý văn tự động 21 văn bbảản tự động 21 2.1.3.1 Rút trích đặc trưng văn 21 bả n 21 2.1.3.2 Biể Biểu diễn diễn văn vector đặc trưng 22 2.2 Lọ Lọc nộ nội dung trang web bằ thuậ thuật tốn Nạve Bayes .25 Bayes .25 2.2.1 Giớ  Giớ i thiệ thiệu 25 25 2.2.2 Họ Học Bayes (Bayes Learning) Learning) 25 25 2.2.3 Công thứ thức Bayes .28 28 tiến hành lọ lọc nộ nội dung bằ mạ mạng Bayes 30 30 2.2.4 Các bướ c tiế tiếng Việ Việt t .31 31 2.3 Phương pháp tách từ tiế 2.3.1 Tình hình nghiên cứu 31 31 2.3.2 Mộ Một ssốố phương 32 32 phương pháp pháp tách tách từ từ 2.3.2.1 Tách câu dự dựa Maximum Entropy .32 32 tối đa (Maximum Matching) 34 2.3.2.2 Phương pháp khớ p tối Finite – State State Transducer) 35 2.3.2.3 Phương pháp WFST (Weighted (Weighted Finite –  2.3.2.4 Bài toán tách từ từ công cụ cụ vnTokenizer 37 37 xác suấ suất ttồồn tạ củ từ từ không 2.3.2.5 Phương pháp tách từ dựa phụụ thu ph thuộộc vào ngữ ngữ ngh ĩa 38 38  ĩa   tiếếng Việ Việt 40 2.3.3 So sánh phương pháp tách từ ti 2.4 Phân tích nộ nội dung website website .42 .42 2.4.1 Phân loạ loại nộ nội dung website website 42 .42 ngữ ti tiếếng Việ Việt 43 43 2.4.2 Đặc trưng của ngôn ngữ nội dung website website 44 .44 2.4.3 Phương pháp xử lý nộ 2.4.4 Phân tích câu .45 45 NG DỤ DỤNG NG .47 47 CHƯƠ CH ƯƠNG NG 3: Ứ NG 3.1 Xây dự dựng bộ lọc nộ nội dung web tiế tiếng Việ Việt không lành mạ mạnh 47 3.1.1 Ý tưởng tưởng đề xu xuấất .47 ng tiế tiếp cậ cận 47 .47 3.1.2 Hướ ng 3.1.3 Tiế Tiến trình thu thậ thập nộ nội dung dung 48 48 3.1.4 Quy trình thự thực hiệ n 49 .49 3.1.4.1 Tiế Tiến trình .50 50 3.1.4.2 Tiế Tiến trình .53 53 3.1 3.1.4 4.3 Tiế Tiến trình .55 55 3.2 Kiế Kiến trúc hệ hệ th thống  ình 56 56 ống chương tr  ình 3.2.1 Trình duyệ duyệt web vớ  vớ i chức chức thông thườ ng .56 ng .56 3.2.2 Các chức chức hệ hệ th thốống 56 củ 3.3 Chức Chức chương tr  ình  ình 57 57 3.3.1 3.3 1.Gia Giaoo di diệện của chương tr  ình .57 57 chức chương tr  ình  ình 58 58 3.3.2 Sơ đồ chức 3.3.2.1 Chức Chức đăng nhập hệ thố thống 58 nhập hệ 3.3.2.2 Chức Chức chương tr  ình  ình 59 59 3.4 Chức Chức học từ ti tiếếng Việ Việt 60 60 học từ 3.5 3.5 Chức xử lý lý 61 .61   3.5.1 Lấ Lấy nộ nội dung website cầ cần phân tích tích .61 61 3.5.2 Quả Quản lý bộ từ điển tiế tiếng Việ Việt 61 vớ i nộ nội dung website tiế tiếng Việ Việt 62 3.5.3 Phân tích câu đối đối vớ  3.5.4 Phân tích nộ nội dung website tiế tiếng Việ Việt t 63 .63 3.6 Chức Chức huấn luyện từ từ cho việ việc lọ lọc nộ nội dung 63 .63 huấn luyệ 3.6.1 Huấ Huấn luyệ luyện từ từ ti tiếếng Anh 64 .64 3.6.2 Huấ Huấn luyệ luyện từ từ ti tiếếng Việ Việt 64 .64 3.7 Phân loạ loại nộ nội dung website website 65 65 3.7.1 Nộ Nội dung tiế tiếng Anh 65 65 3.7.2 Nộ Nội dung tiế tiếng Việ Việt 65 3.8 Quả Quản lý thông số số hệ th thốống ng 66 66 3.9 Quả Quản lý danh sách .67 67 3.9.1 Black List 67 67 3.9.2 White List 68 68 3.10 Kế Kết quả th thựực nghiệm nghiệm đánh giá kết quả đạt 68 đạt đđượ  ượ c 68 KẾT LUẬN LUẬN VÀ HƯỚNG TRIỂN .70 HƯỚNG PHÁT TRIỂ TÀI LIỆ LIỆU THAM KHẢ KHẢO   DANH MỤC HÌNH VẼ Hình 1.1 –  1.1 – Màn Màn hình trình duyệ duyệt cấ cấm truy cậ cập Hình 1.2 –  1.2 – Báo Báo cáo tìm kiế kiếm từ từ khóa Việt Nam khóa “sex” “sex” tại Việ Hình 1.3 –  1.3 – Báo Báo cáo tìm kiế kiếm từ từ khóa giớ  6 khóa “sex” “sex” trên gi ớ i Hình 2.1 – 2.1 – Sơ đồ l ĩnh 18 .18  ĩnh vực vực khai phá web Hình 2.2 –  2.2 – Quy Quy trình tách từ từ 37 .37 Hình 3.1 –  3.1 – Ti Tiếến trình thu thậ thập nộ nội dung dung .49 49 Hình 3.2 –  3.2 – Mơ Mơ hình tổ tổng qt lọ lọc nộ nội dung không lành mạ mạnh .50 50 Hình 3.3 –  3.3 – Mơ Mơ hình tách câu tiế tiếng Việ Việt 51 Hình 3.4 –  3.4 – Mơ Mơ hình tách từ từ đơn ng Việ Việt 52 52 đơn tiế tiếng Hình 3.5 –  3.5 – Mơ Mơ hình tách từ từ ghép tiế tiếng Việ Việt 53 Hình 3.6 –  3.6 – Mơ Mơ hình tính xác suấ suất cho từ từ ghép 54 54 Hình 3.7 –  3.7 – Mơ Mơ hình cậ cập nhậ nhật bộ từ điển 55 Hình 3.8 –  3.8 – Giao Giao diệ diện của chương tr  ình 57 57 Hình 3.9 –  3.9 – Giao Giao diệ diện thơng báo không cho truy cậ c ập nộ nội dung website 58 Hình 3.10 –  3.10 – Ch Chức hệ th thống quản lý 588 ức đăng nhập nhập hệ ống chương tr  ình Hình 3.11 –  3.11 – Ch Chức từ đơn tiếng Việ Việt .61 ức học học từ đơn và từ từ ghép tiế Hình 3.12 –  3.12 – L Lấy nộ nội dung website cầ cần phân tích 61 .61 Hình 3.13 –  3.13 – B Bộ từ điển tiế tiếng Việ Việt 62 .62 Hình 3.14 –  3.14 – Phân Phân tích câu tiế tiếng Việ Việt 62 62 Hình 3.15 –  3.15 – Phân Phân tích nộ nội dung website tiế tiếng Việ Việt 63   Hình 3.16 –  3.16 – Hu Huấấn luyệ luyện từ từ ti tiếếng Anh 64 64 Hình 3.17 –  3.17 – Hu Huấấn luyệ luyện từ từ ti tiếếng Việ Việt 64 64 Hình 3.18 –  3.18 – Phân Phân lớ  lớ p nộ nội dung website tiế tiếng Anh Anh 65 65 Hình 3.19 –  3.19 – Phân Phân lớ  lớ p nộ nội dung website tiế tiếng Việ Việt 66 Hình 3.20 –  3.20 – Qu Quảản lý thông số số hệ th thốống ng 67 67 Hình 3.21 –  3.21 – Danh Danh sách Black List List 67 67 Hình 3.22 –  3.22 – Danh Danh sách White List 68 .68   DANH MỤC BẢNG BIỂU Bảng 1.1 –  1.1 – K Kết quả đánh NetProject 9 đánh giá giá của NetProject Bảng 1.2 –  1.2 – M Một số số sản phẩ phẩm lọc lọc web theo phương thức 11 thức URL 11 Bảng 2.1 –  2.1 – SSự khác biệt biệt tiế tiếng Anh tiế tiếng Việ Việt 42 42 giữ Bảng 3.1 –  3.1 – B Bảng mô tả tả chức chức chương tr  ình 59 .59 Bảng 3.2 –  3.2 – K Kết quả xây dự dựng bộ từ điển tiế tiếng Việ Việt 68 Bảng 3.3 –  3.3 – K Kết quả phân loạ loại web web 69 69   MỞ ĐẦU Tóm lược đề tài Trong thờ  thờ i kỳ hiệ nay, Internet ngày phát tri triểển mạnh mẽ trở  trở  nên thông dụng dụng đối tuổi biệệt thiế thiếu niên, họ học sinh, sinh viên đối vớ i lứa tu ổi đặc đặc bi Lợ i ích thiế thiết thự thực nhấ mà Internet mang lại lại cung cấp nguồn tài nguyên thông cấp nguồ tin vô tận tận cho ngườ i sử sử dụng, góp phầ phần khơng nhỏ nhỏ vào việ việc nâng cao kiế kiến thứ thức cho lứ lứa tuổ tu ổi thiế thiếu niên Tuy nhiên, mặ mặt mạ mạnh củ c Internet cũng y ếu yế m củ nó, ngồi nhữ kiế kiến thứ th ức hữ h ữu ích ngườ  ngườ i dùng cũng dễ dàng tìm thấ thấy điểm điể nhữững nộ nh nội dung khơng lành mạ mạnh Internet Chính vậ vậy, mục mục đích đề tài nghiên cứu cứu phương pháp đề xuấất kỹ xu k ỹ thu thuậật ngăn chặn tự động nội dung bằ tiế tiếng Việ Việt không chặn tự động trang web có nộ lành mạ mạnh Mục tiêu đề tài Tìm hiểu hiểu đặc trưng phát triể triển củ website có nộ nội dung không lành mạnh, kế kết hợ p phân tích hệ hệ th thốống lọ l ọc web có Từ Từ đề xu xuấất mơ hình thể tự động nhữ trang web có nộ nội dung khơng lành mạ mạnh sử dụng ngôn động phát hiệ ngữữ ti ng tiếếng Việ Việt bằ b ằng kỹ kỹ thu thuậật rút trích thông tin từ từ website cũn cũngg d ụng ứng dụ khai phá dữ li liệu biệt sử s dụng thuậ thuật toán Naive Bayes nhằm nhằm xác định ệu văn bản, đặc đặc biệ định ng xác suấ suất website không lành mạn mạnhh để có hướ  ng xử xử lý phù hợ  hợ pp ngưỡ ng hướ ng Bênh cạnh cạnh đó, thựực hóa mơ hình thành mộ trình duyệ duyệt web có khả khả th tự động web websit sitee tiế tiếng Việ Việt có nộ nội dung khơng lành mạ mạnh động ngăn ngăn chặ chặnn nhữ Nội dung thực  N ội dung cần thự c đề tài gồm phần sau: − Nghiên cứu tổng quan hệ hệ th thốống lọc web “đen” thông dụng nay, xác dụng hiệ nh những điểm có, đị định điểm bất cập từ nh ững chương tr  ình ứng dụng lọc web hiệ nh mạnh, điểm yếu củ những phương pháp xây dự dựng bộ lọc web ững điểm điểm mạnh, điểm yế   cứu những điểm mạnh củ kỹ kỹ thu thuậật phân loại loại văn nhằm áp dụ dụng − Nghiên điểm mạ nhằ tố tốt nhất vào đề tài nghiên cứu tiếng Việ Việt, từ từ lựa chọn chọn phương pháp − Tìm hiểu phương pháp tách từ tiế tối ưu để giả giải quyế toán lọ lọc nộ nội dung cứu thuận thuận tốn, đặc biệt thuậ thuật tốn Nạve Bayes đặc biệ − Nghiên xuất hợ p xây dự dựng mơ hình − Đề xu ất phương pháp lọc lọc web phù hợ  lọc web hiệ thự thực hóa vấn vấn đề nghiên cứu − Cài đặt đặt Phạm vi ứng dụng Đề tài “ Xây d ựự ng n  g lọc phát website có nội dung khơng lành mạnh” dụng bằ mộ trình duyệ duyệt giúp phụ phụ huynh kiểm kiểm sốt đượ c q trình truy đượ c ứng dụ cập vào website ccủủa em mình, hạ hạn chế chế truy cậ cập vào website có nộ nội dung không lành mạ mạnh   CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Bộ lọc web 1.1.1 Khái niệm Bộ lọc web phầ phần mềm có chức chức lọc hiển th thịị mộ trình lọc nội dung hiể duyệt hay khóa mộ duyệ vài vị vị trí của website mà ngườ i dùng cố cố gắng truy cậ cập vào Bộ Bộ lọc kiể kiểm tra nội nội dung hay địa ch ỉ trang web dự dựa vào tậ tập luật lu ật đượ c thay thế địa nội dung dung không không mong mong muố muốn bằ mộ trang web thay thế, thế, thườ ng ng trang có nộ nội dung có dịng “Access Dinied” Quảản trị Qu trị hệ th thốống nắ n ắm quyề quyền kiể ki ểm soát loạ loại nội nội dung qua lọc Các bộ lọc web thường đượ c sử s dụng trườ ng ng học, h ọc, thư viện, dịch vụ v ụ Internet viện, dị cơng cộ cộng gia đ ình nhằ nhằm giữ giữ an toàn ng thiế thiếu niên tránh toàn cho cho đố đốii tượ  tượ ng nội dung khơng lành mạ mạnh lứ lứa tu tuổi thức việ việc đượ c nhữ ổi chưa có ý thứ làm Hình 1.1 –  1.1 – Màn Màn hình trình duyệ duyệt cấ cấm truy cậ c ập   58 Hình 3.9 –  3.9 – Giao Giao diệ diện thông báo không cho truy cậ c ập nộ nội dung website 3.3.2 Sơ đồ chức chương tr ình 3.3.2.1 Chức đăng nhập hệ thống Mô tả: t ả: chức dành cho ngườ i qu ản lý chương chương tr  ình đăng nhập đ ây chức nhập vào có tồn quyền quyền đối v ới chương tr  ình như: như: quản lý địa Khi đăng nhập nhập thành công địa chỉ Black list, White list,cậ list,cập nh nhậật lại từ điển từ tần xuấất hi hiệện tần số xu chúng Hình Hì nh 3.10 10 –  Chứức đăng nhập hệ th thống quản lý  – Ch nhập hệ ống chương tr  ình   59 3.3.2.2 Chức chương tr ình Bảng 3.1 Bảng mơ tả chức chương tr  ình 3.1 –   – B Chứ c Nội dung Chức Ch từ ti tiếếng Việ Việt: chức chức cho phép ngườ i dùng ức học học từ th thửử nghi nghiệệm việ việc họ học từ từ ti tiếếng Việ Việt Ngoài Ngoài ra, ngườ i dùng cũng có thề dùng chức chức để cập nhậ nhật thêm từ từ mớ i cho bộ từ điển điển làm làm tă tăng ng chức chức phân loại nội dung độ xác củ loại theo nộ Chức Ch gồm 04 chức chức ức xử lý: gồ Lấy nộ nội dung của website truy cập cập Chức Ch từ điển tiế tiếng Việ Việt (bao gồ gồm từ từ tiế tiếng & từ từ ức quản quản lý ti tiếếng) Chức Ch tiếng Việ Việt thành từ từ đơn ức phân tích nội nội dung webiste tiế đơn và từ tổ ti tiếếng Việ Việt Chức Ch chức phân tích nội ức phân tích câu nội nội dung webiste: chức nội dung website thành câu đơn chuẩn chuẩn Chức huấn Chức luyện từ từ huấn luyệ Huấấn luyệ Hu luyện từ từ ti tiếng vớ i nộ nội dung website bằ tiế tiếng Anh ếng Anh đối đối vớ  Huấấn luyệ Hu luyện từ từ ti tiếếng Việ Việt (bao gồ gồm từ từ đơn tiếng) đối vớ i nộ nội đơn và từ từ tiếng) đối vớ  dung website bằ tiế tiếng Việ Việt Chức thử nghi Chức nghiệệm việ việc phân loạ loại nội nội dung theo hai chế Nội dung website tiế tiếng Anh Nội dung website tiế tiếng Việ Việt   60 Chức quản Chức số hệ th thống quản lý thông số ống nơi lưu trữ nội dung gồm cả ti tiếếng Anh lẫ lẫn tiế tiếng Việt, Việt, ngưở ng ng website phân tích đượ c bao gồ xác suấ suất củ từ từ đượ c sử sử dụng Chức Ch quảản lý danh sách Black list của chương trình ức dùng để qu trình Chức Ch quảản lý danh sách White list của chương tr  ình ức dùng để qu Chức dùng để qu Chức quảản lý danh sách từ từ khóa của chương trình Ngồi chức chức vừa hệ th thốống cịn có chức chức lọc dựa tiêu vừa nêu trên, hệ lọc dự cần truy cậ cập dựa từ từ khóa thống lọ lọc sẵ s ẵn có đề website cầ hệ thố chương đã trình bày chương 3.4 Chức học từ tiếng Việt Mô tả: ch chức tiếng Việ Việt dựa ức dùng để học từ đơn đơn và từ từ ghép tiế nội dung webiste thu thậ th ập sẵn Ngồi nhữ nội dung sẵn sẵn có, ngườ i dùng thể mớ i vào việ việc họ h ọc từ t thông qua chức chức lấy n ội dung website đưa nội nội dung mớ  lấy nội truy cậ cập ( mụ mục 4.4.1)   61 Hình 3.11 –  3.11 – Ch Chức từ đơn tiếng Việ Việt ức học học từ đơn và từ từ ghép tiế 3.5 Chức xử lý 3.5.1 Lấy nội dung website cần phân tích Mơ tả: tả: dùng để lấy nộ nội dung website truy cậ cập, phụ phục vụ vụ cho việ việc họ học từ từ ti tiếếng Việ Việt ( mục 4.3) cho việ việc phân loạ loại nộ nội dung webiste Hình 3.12 –  3.12 – L Lấy nộ nội dung website cầ cần phân tích 3.5.2 Quản lý từ điển tiếng Việt Mô tả: dùng quản lý bộ từ điể gồm từ t điểnn phân phân ttích ích đượ c ( bao gồ đơnn và từ từ ghép) Một ssốố ch chức mụ mục là: ức thông dụng dụng củ - Tìm kiế kiếm từ từ đơn, đơn, từ ghép   62 - Cập nhậ nhật trạ trạng thái cho từ từ đơn đơn và từ từ ghép - Loạại bỏ Lo bỏ từ đơn sử dụng đơn và từ từ ghép sử - Thểể hi Th từ có bộ từ điển ện đượ c tồn Hình 3.13 –  3.13 – B Bộ từ điển tiế tiếng Việ Việt 3.5.3 Phân tích câu nội dung website tiếng Việt Mô tả: Sau lấy lấy đượ c nội dung củ webiste cầ cần truy cậ cập, nộ n ội dung sẽ đượ c hi hiệệu ch chỉnh nhằm ỉnh trước qua bước phân tích thành câu đơn chuẩn chuẩn nhằ phụục vụ cho vi ph việệc tách từ từ đơn đối vớ i ti tiếếng Anh từ từ tiếếng đơnn, ttừừ ghép đố đối vớ i ti Việệt Vi Hình 3.14 –  3.14 – Phân Phân tích câu tiế tiếng Việ Việt   63 3.5.4 Phân tích nội dung website tiếng Việt Mơ tả: tả: dùng để phân tích nộ nội dung website tiế tiếng Việt Việt sau qua bướ c tiề tiền xử lý tách câu thành từ từ thờ i thể th ể hiệ chúng giao đơnn và từ từ ghép ghép Đồ Đồng thờ  di diện biết số số lượ ng ng từ từ đơn ện chương tr  ình cho biế đơn và từ từ ghép tìm đượ c Hình Hì nh 3.15 15 –  Phân tích nộ nội dung website tiế tiếng Việ Việt  – Phân 3.6 Chức huấn luyện từ cho việc lọc nội dung huấấn luyệ luyện từ t đơn đố v ớ i tiế ti ếng Anh, từ từ đơn ghép v ớ i tiế ti ếng Dùng để hu đối vớ  đơn và từ từ gh ép đối đối vớ  Việt Vi vớ i mỗ loạ loại ttừừ huấn luyệ luyện dự d ựa tậ tập huấ huấn luyệ luyện: tậ tập huấ huấn ệt Đối Đối vớ  đđượ  ượ c huấ luyện website thông thườ ng luyện ng tậ tập huấ huấn luyệ luyện website không lành mạ mạnh   64 3.6.1 Huấn luyện từ tiếng Anh Mô tả tả: Trên giao diện diện chương tr  ình thể hiệ rõ thơ thông ng số thể Tổng số số file củ từ bộ file huấ huấn luyệ luyện củ toàn bộ vi việệc huấ huấn luyệ luyện Số từ đơn luyện đượ c dự dựa cả 02 file bộ hu huấấn luyệ luyện đơn huấ huấnn luyện Hình 3.16 –  3.16 – Hu Huấấn luyệ luyện từ từ ti tiếếng Anh 3.6.2 Huấn luyện từ tiếng Việt Mơ tả tả: Trên giao diện diện chương tr  ình thể hiệ rõ thông số số thể Tổng số số file củ từ bộ file huấ huấn luyệ luyện củ toàn bộ vi việệc huấ huấn luyệ luyện Số từ đơn luyện đượ c dự dựa cả 02 bộ file huấ huấn luyệ luyện đơn huấ huấnn luyện Số từ ghép huấ huấn luyện luyện đượ c dự dựa cả 02 bộ file huấ huấn luyệ luyện Hình 3.17 –  3.17 – Hu Huấấn luyệ luyện từ từ ti tiếếng Việ Việt   65 3.7 3.7 Phân Phân llooại nội dung website loại nộ n ội dung website thuộ thuộc vào lớ  lớ p nào: lành mạ mạnh hay không Dùng để phân loạ lành mạ mạnh Quy trình phân loạ lo ại dự dựa từ từ đơn đối vớ i ti tiếếng Anh từ từ ghép vớ i tiế tiếng Việ Việt đốii vớ  đố 3.7.1 Nội dung tiếng Anh Mô tả tả: dữ li liệu nội dung dung websit websitee ti tiếếng Anh cầ cần phân tích Kế Kết quả tr trảả ệu đầu đầu vào nộ cho biế biết nội dung thuộc su ất trung bình dự d ựa thuộc lớ p có xác suấ vào trình phân tích nộ n ội dung ( từ từ đơn ng Anh) đơn tiế tiếng Hình 3.18 –  3.18 – Phân Phân lớ  lớ p nộ nội dung website tiế tiếng Anh 3.7.2 Nội dung tiếng Việt Mô tả tả: dữ li liệu nội dung website tiế tiếng Việ Việt cầ cần phân tích Kế Kết quả tr trảả ệu đầu đầu vào nộ cho biế biết nội dung thuộc su ất trung bình dự d ựa thuộc lớ p có xác suấ vào trình phân tich nộ n ội dung ( từ từ ghép tiế tiếng Việ Việt)   66 Hình 3.19 –  3.19 – Phân Phân lớ  lớ p nộ nội dung website tiế tiếng Việ Việt 3.8 Quản lý thông số hệ thống t hống Mô tả: t ả: dùng để qu quảản lý thông số số của chương tr  ình Có lo loạại thơng số dành cho tiế tiếng Anh tiế tiếng Việ Việt Cả Cả loạ loại thơng số số gồm có nhữ mụ mục quản lý sau: ng dẫn dẫn lưu trữ nội dung không lành mạ mạnh sau phân loạ loại Đườ ng ng dẫn dẫn lưu trữ nội dug tố tốt sau phân loạ loại Đườ ng Số lượ ng ng token từ từ khóa tố tốt nhấ cầ cần lấ lấy cho việ việc phân loạ loại nộ nội dung website Xác suấ suất phân loạ loại ttốối thiể thiểu dùng cho việc việc hân lóp văn bản ng loạ loại bỏ từ từ sử dụng ( tầ tần số xu xuấất hi hiệện từ tổ tổng nội dung  Ngưỡ ng huấấn luyệ hu luyện)   67 Hình 3.20 –  3.20 – Qu Quảản lý thơng số số hệ th thốống 3.9 Quản lý danh sách quản Black Dùng để qu ản lý danh sách địa địa Black List White White List List Ngườ  Ngườ i dùng thể hiệ hiệu chỉnh hay thêm mới đối đối vói danh sách 3.9.1 Black List Mơ tả: phía bên trái danh sách Black List c chương tr  ình Ngườ  Ng ườ i quản tr trịị thể thêm mớ  mớ i,i, xóa hay hiệ hiệu chỉnh chỉnh thơng tin đối đề đềuu đối vớ i danh sách Hiệện danh sách có 24071 địa Hi chỉỉ khơn cập Khi ngườ i địa ch khôngg đượ  đượ c phép truy cập dùng truy ccập danh sách chương ch ương tr  ình ngă ập địa địa gănn cchặ hặnn lại mà không cần cần qua bướ c phân tích nộ nội dung Hình 3.21 –  3.21 – Danh Danh sách Black List   68 3.9.2 White List Mô tả t ả: phía bên trái danh sách White List c chương tr  ình Ngườ  Ng ườ i qu ản tr trịị thể thêm mớ  mớ i, xó xóa hay hiệu chỉnh chỉnh thơng tin đối đề đềuu đối vớ i danh sách Hiệện danh sách có 24071 địa Hi chỉỉ khơn cập Khi ngườ i địa ch khôngg đượ  đượ c phép truy cập dùng truy cập cập địa danh sách chương ch ương tr  ình hiể hiển th thịị nội dung địa mà khơng cần cần qua bướ c phân tích nộ nội dung Hình 3.22 –  3.22 – Danh Danh sách White List 3.10 Kết thực nghiệm đánh giá kết đạt Việệc xây dự Vi dựng bộ từ điển tiế tiếng Việ Việt với với 400 trang web đượ c tìm kiế kiếm chỉnh dữ li liệệu, trung bình dữ li liệệu thơ ở  trang Internet, sau qua bướ c tinh ở m web khoả khoảng 200 –  200 – 500 500 từ từ tùy từ trang Do việ việc cập nhậ nh ật từ điển tự tự độ ng, tính xác củ bộ từ điển phụ phụ động, thuộc vào thờ  thuộ thờ i gian sử sử dụng, thờ  thờ i gian sử sử dụng lâu, bộ từ điển học nhiề nhiều tính chí nh xác xác cao cao Bản Việt ảngg 33.2 – K – Kết xây dựng từ điển tiếng tiếng Việt Loạại ttừừ Lo Thông số số Số lượ ng ng Tỉ lệ Từ đơn 2114 >83% Từ tiế tiếng 5260 >79%   69 Sau có bộ từ điển ti tiếến hành học vớ i li liệệu 200 trang web tốt, 200 trang web xấ xấu, kế kết quả th bảng phân loại loại bên dướ i thuu đượ  đượ c qua bả Bản quảả phân loại web ảngg 33.3 – K – Kết qu Kết quả th thửử nghi nghiệệm Kết quả phân loạ loại Độ xác Tốt X ấu Tốt X ấu Từ đơn 167/200 171/200 83.5% 85.5% Từ đơn tiếng đơn & từ tiế 183/200 181/200 91.8% 90.6% Từ tiế tiếng 187/200 189/200 93.5% 94.7%   70 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận kế kết quả sa Đề tà tàii đã đạt đượ c nhữ sauu đây: đây: cứu tổng quan hệ hệ th thốống lọc web “đen” phương pháp xây − Nghiên dựng bộ lọc thông ddụụng hiệ gồm gồm ưu điểm lẫn khuyết khuyết điểm điểm lẫ điểm hiểu phương pháp lọc thống kê điểm mạnh củ kỹ kỹ − Tìm hiểu lọc thố điểm mạ thuật phân loại thuậ loại văn nhằm áp dụ dụng tố tốt vào quy trình lọ lọc nộ nội dung trang web nhằ tiếng Việ Việt , ttừừ lựa chọn chọn phương pháp − So sánh phương phương pháp tách từ tiế tối ưu để giả giải quyế bài tốn tốn xây xây dựng từ điển hồn chỉnh ch choo bài toán lọ lọc nộ nội dung không lành mạ mạnh cứu cá cácc thu thuận biệt thuậ thuật tốn Nạve Bayes ứng dụ dụng vào − Nghiên ận toán, đặc đặc biệ trình phân lớ  lớ p nộ nội dung trang web − Hướ ng ng tiế tiếp cận mớ i đề tài không nhữ lọc đượ c trang web tiế tiếng Anh mà cịn llọc tiếng Việ Việt khơng lành mạ mạnh dựa địa ọc đượ c trang web tiế địa ch chỉ,ỉ, tiêu đề nội dung củ trang web dựng đượ c danh sách blacklist, whitelist chứa ch ứa địa we − Xây dựng địa webs bsit itee đư đượ  ợ c quyền không đượ c quyề quyền quyền truy cậ cập dựng lọc web thể thể hiện hướ ng ng nghiên cứu tiế tiếp cận đắn − Xây dự đắn đề tài th thựực nghiệ nghiệm cho thấy hướ ng ng tiế tiếp cận đề tài khả khả quan → Kết quan cho cho đđộộ xác cao mộ khoả khoảng thờ  thờ i gian chấ chấp nhận nhận đượ cc   71 Hướ ng ng phát triển hợ p lọc vào trình duyệ duyệt web thơng dụng dụng Internet Explorer, − Tích hợ  dụng của đề tài FireFox, Safari… nhằm nhằm nâng cao tính ứng dụ thuật tốn tách từ từ nh nhằằm gi giảảm th thờ  xử lý trình phân lớ  lớ p − Cải titiếến thuậ ờ i gian xử nội dung, tạ tạo sự ti tiệện lợi lợi cho ngườ i sử sử dụng ng phát triể triển của đề xuấất một phương pháp dung hòa việc xử xử lý − Hướ ng đề tà tàii đề xu hòa cho việ nội dung website bao gồ gồm tiế tiếng Việ Việt llẫẫn tiế tiếng Anh cứu xây dự dựng từ điển từ từ vựng thuộ thuộc nộ nội dung không lành − Nghiên mạnh mà không cầ cần duyệ duyệt qua nội nội dung   TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Phúc (2005), Giáo trình khai thác d ữữ  liệu, Đại học Công nghệ nghệ Thông tin Đại họ Tp HCM [2] Hà Quang Thụy, Phan Xuân Hi Hiếếu, Đoàn Sơn (2009), Giáo trình Khai phá Nxb Giá Giáoo dụ dục Việ Việt Nam d ữữ  liệu web, Nxb [3] Phan Hữu Tiế Tiếp (2011) , “Nghiên cứu xây dự dựng b ộ lọc Spam thông minh tự tự học Lạ Lạc Hồ Hồng động””, T ậ p san khoa học giáo viên, Trường Đại động Đại họ Tiếng Anh [4] [4] Chih Chih-H -Hao ao Tsai Tsai (1 (199 996) 6),,  A Word Identification System for Mandarin Chinese Text Based on Two Variants of the t he Maximum Matching Algorithm [5 [5] ] Edel Edel Garc Garcia ia (2 (200 008) 8),, Term Vector Theory and Keyword Weights [6] Goldszmidt D., Fr Friedman, N N.Geiger (2006),  Bayesian network  classifiersMachine Learning [7] Lafferty J (2001), Conditional ramdom fields: probabilistic models for  segmenting and labeling sequence data In International Conference on Machine Learning [8] Rongbo [8] Rongbo Du, Du, Reihan Reihaneh eh Safav Safavi-N i-Nain ainii and Willy Willy Susilo Susilo (2006 (2006), ), Web Filtering Using Text Classification, Australia [9] [9] Seba Sebast stia iani ni Fabr Fabriz izio io (2 (200 004), 4), Text Classification for Web Filtering [10] [10 ] Stern Stern Benja Benjamin (200 (2003), 3), Web Filtering Technology Assessment Website [11] http://www.dict.vietfun.com [12] [12 ] www.goo www.google gle.co com/t m/tren rends ds ... cập vào website có nộ nội dung không lành mạ mạnh   CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Bộ lọc web 1.1.1 Khái niệm Bộ lọc web phầ phần mềm có chức chức lọc hiển th thịị mộ trình lọc nội dung hiể... pháp tách từ từ để xây dự dựng bộ lọc tiế tiếng Việ Việt khơng lành mạ mạnh 2.4 Phân 2.4 Phân tích tích nội dung website 2.4.1 Phân loại nội dung website Khi mộ nội nội dung website đượ c yêu... nộ nội dung của trang web đượ c chứa − Khai phá nộ nội nội dung văn bản trang web Khai phá nội nội dung trang web liên việệc truy xuấ xuất thông tin từ từ cấu trúc, văn quan đến đến vi văn văn

Ngày đăng: 06/08/2020, 12:47

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan