Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
730,82 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN HẢI LONG KHAI PHÁ DỮ LIỆU VĂN BẢN VÀ ỨNG DỤNG LỌC THƯ RÁC TIẾNG VIỆT Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2014 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Nguyễn Đức Dũng Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn Thông MỞ ĐẦU Khai phá liệu bao gồm nhiều phương pháp có Khai Phá Dữ Liệu văn bản, cách tiếp cận với liệu văn Các thơng tin thư điện tử, báo, tài liệu kinh doanh, thông tin kinh tế, nghiên cứu khoa học Dù áp dụng Cơ sở liệu vào hoạt động tổ chức phù hợp đem lại nhiều lợi ích lưu trữ xử lý, ta quên cịn nhiều dạng thơng tin khác lưu trữ dạng văn Internet đóng vai trị quan trọng hoạt động người đó, hoạt động thơng tin liên lạc sử dụng thư điện tử, giúp người trao đổi thơng tin với cách nhanh nhất, an tồn Có vấn đề làm cho người sử dụng thư điện tử cảm thấy khơng hài long khó chịu có nhiều thư rác gửi vào hịm thư mình.Do đó, người dùng muốn hệ thống thư điện tử tự động loại bỏ thư rác đi.Chính lý chọn“Khai phá liệu văn ứng dụng lọc thư rác tiếng Việt” làm hướng nghiên cứu cho luận văn Luận văn gồm nội dung sau: Chương 1: Giới thiệu khai phá liệu văn Nội dung chương nhằm giới thiệu cách khai liệu, khai phá liệu văn bản, ứng dụng khai phá văn lĩnh vực xã hội Chương 2: Thư rác phương pháp phân loại thư rác Chương giới thiệu thư rác gì? Các loại thư rác tác hại nó, đồng thời giới thiệu số phương pháp lọc thư rác nhà cung cấp thư điện tử áp dụng Google, Yahoo Chương 3: Phân loại thư rác theo phương pháp chọn lọc theo nội dung Chương tập trung vào nghiên cứu phương pháp lọc thư rác theo nội dung sử dụng kết hợp phương pháp phân loaik Nạve Bayes kết hợp với Wordnet khó khăn, vấn đề cần giải áp dụng vào Tiếng Việt Chương 4: Phân loại thư rác theo nội dung, cài đặt, thử nghiệm đánh giá Trong chương em xin trình bày tiến trình mà luận văn thực để xây dựng lọc thư rác theo nội CHƯƠNG 1: GIỚI THIỆU KHAI PHÁ DỮ LIỆU VĂN BẢN Nội dung chương nhằm giới thiệu cách khai liệu, khai phá liệu văn bản, ứng dụng khai phá văn lĩnh vực xã hội, từ làm sở cho hướng tiếp cận luận văn 1.1 Cách tiếp cận mục tiêu luận văn 1.2 Khái niệm khai phá liệu 1.3 Khái niệm khái phá liệu văn 1.4 Mục tiêu khai phá liệu văn 1.5 Quá trình khai phá liệu văn Hình 1 Quá trình khai phá liệu văn Qúa trình khai phá liệu văn gồm có giai đoan: Tiền xử lý liệu Biến đổi liệu Trích chọn liệu Khai phá liệu Đánh giá kết tri thức 1.6 Các kỹ thuật khai phá liệu văn 1.6.1 Kỹ thuật phân loại văn 1.6.2 Tìm kiếm văn 1.6.3 Phát xu hướng văn 1.6.4 Phân nhóm văn 1.6.5 Trích chọn văn 1.6.6 Q trình tóm tắt văn 1.6.7 Tính xác( accuracy) 1.6.8 Tính đa chiều (high dimensonality) 1.6.9 Tính khả cỡ (scability) 1.7 Ứng dụng thách thức khai phá liệu CHƯƠNG 2: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP PHÂN LOẠI THƯ RÁC Chương giới thiệu thư rác gì? Các loại thư rác tác hại nó, đồng thời giới thiệu số phương pháp lọc thư rác nhà cung cấp thư điện tử áp dụng Google, Yahoo 2.1 Thư rác gì? Có nhiều ý kiến xung quanh việc định nghĩa thư rác, có ý kiến cho thư rác “thư điện tử thương mại không yêu cầu từ phía người nhận” thư bao gồm thư điện tử quảng cáo sản phẩm thư điện tử lừa gạt, có ý kiến coi thư rác thư quảng cáo không yêu cầu Sau luận văn nêu định nghĩa phổ biến thư rác: Thư rác (spam mail) thư điện tử không yêu cầu, không mong muốn gửi hàng loạt tới nhiều người nhận 2.2 Các loại thư rác tác hại 2.2.1 Các loại thư rác 2.2.2 Các tác hại thư rác gây 2.3 Các phương pháp lọc thư rác 2.3.1 Lọc thư rác thông qua địa IP 2.3.2 Lọc dựa chuỗi hỏi đáp (Challenge/Response filters) 2.3.3 Lọc thư rác sử dụng kỹ thuật heuristic 2.3.4 Lọc thư rác thông qua bỏ phiếu danh sách trắng, đen 2.3.5 Lọc thư rác sử dụng phương pháp xác suất thống kê học máy Tỉ lệ chặn thư rác lọc sử dụng phương pháp cao Chương trình SpamProbe đạt tỉ lệ lọc thư rác tới 99.9% Các phương pháp học máy xác suất thống kê cho phép phân loại thư rác chưa có tập liệu học Một ưu điểm khác phương pháp tỉ lệ chặn thư hợp pháp thấp, thấp nhiều so với phương pháp heuristic Nhược điểm phương pháp học máy phải tập hợp tập hợp lượng liệu lớn phong phú, đa dạng cách thức thể có kết lọc xác 2.3.5.1 Biểu diễn văn 2.3.5.2 Cây định 2.3.5.3 Phương pháp Neural Network(NNet) 2.3.5.4 Centroid - based vector 2.3.5.5 Support vector Machine (SVM) 2.3.5.6 K–Nearest Neighbor (kNN) 2.3.5.7 Linear Least Square Fit (LLSF) 2.3.6 Yêu cầu xác thực 2.3.7 Yêu cầu trả tiền 2.3.8 Phương pháp lọc dựa mạng xã hội 2.4 Kết luận chương CHƯƠNG 3: PHÂN LOẠI THƯ RÁC THEO PHƯƠNG PHÁP CHỌN LỌC THEO NỘI DUNG Trong chương chương trình bày khái quát sở lý thuyết cho toán lọc thư rác, chương này, luận văn tập trung vào nghiên cứu phương pháp lọc thư rác theo nội dung sử dụng kết hợp phương pháp phân loaik Nạve Bayes kết hợp với Wordnet khó khăn, vấn đề cần giải áp dụng vào Tiếng Việt 3.1 Mơ tả tốn Bài tốn phân loại thư rác hiểu sau: Cho tập hợp thư rác D, hỏi để xây dựng lọc thư rác lọc phân loại thư d D vào hai lớp: thư rác (spam mail) thư hợp lệ (non-spam mail) dựa vào nội dung thư 3.2 Lọc thư sử dụng phân loại Bayes đơn giản kết hợp với Wordnet 3.2.1 Giới thiệu chung 3.2.2 Phân loại Bayes đơn giản 11 Khuyễn mại 10% mua miếng dán hình iPhone Khuyễn mại 10% mua điện thoại iPad Khuyễn mại 10% mua miếng dán hình iPad Giảm giá 10% mua miếng dán hình iPhone 10 Giảm giá 10% mua điện thoại iPad 11 Giảm giá 10% mua miếng dán hình iPad Ta có D2 = D + D1 tập liệu huấn luyện sau sử dụng wordnet bao gồm 12 thư bảng Bảng Tập liệu huấn luyện sau sử dụng wordnet STT Nội Dung Khuyễn mại 10% mua điện thoại iPhone Giảm giá 10% mua điện thoại iPhone 12 Ưu đãi 10% mua miếng dán hình iPhone Ưu đãi 10% mua điện thoại iPad Ưu đãi 10% mua miếng dán hình iPad Khuyễn mại 10% mua miếng dán hình iPhone Khuyễn mại 10% mua điện thoại iPad Khuyễn mại 10% mua miếng dán hình iPad Giảm giá 10% mua miếng dán hình iPhone 10 Giảm giá 10% mua điện thoại iPad 11 Giảm giá 10% mua miếng dán hình iPad 12 Ưu đãi 10% mua điện thoại iPhone 13 Gọi S1 số lượng từ gốc thư S2 số lượng từ mở rộng từ gốc, S3 số lượng thư mở rộng từ thư ban đầu, ta có S3 = S1 x S2 Vậy với tập liệu huấn luyện ban đầu M = {“Thư1”, “Thư2”, “Thư3”… “Thưn”} gồm n thư, sau sử dụng wordnet ta thu tập liệu huấn luyện M’ có số lượng thư n’ = ∑ ( ) (3.15) Cách thực hiện: Sau có tập liệu huấn luyện bao gồm thư spam không spam tiến hành tách từ loại bỏ stopword để tìm từ gốc thư, sủ dụng wordnet để sinh email làm liệu huấn luyện Việc ứng dụng với thư tiếng anh chung ta sử dụng sử dụng thư viện wordnet download địa http://wordnet.princeton.edu/wordnet/relatedprojects/#Java để mở rộng tập liệu ban đầu Do việc mạng từ wordnet tiếng việt chưa hoàn chỉnh sẵn sàng sử dụng cho lên, em buộc phải tìm từ đồng nghĩa có mối liên hệ lĩnh vực tay, độ xác việc tìm từ đồng 14 nghĩa, có mối liên hệ ảnh hưởng lớn đến độ xác lọc, làm xác kết thu cao 3.3 Lọc thư rác Tiếng Việt 3.3.1 Các khó khăn vấn đề cần giải 3.3.2 Biểu diễn véctơ đặc trưng 3.3.3 Loại bỏ từ có tần xuất thấp 3.3.4 Lựa chọn đặc trưng 3.4 Kết luận chương 15 CHƯƠNG 4: XÂY DỰNG BỘ LỌC THƯ RÁC THEO NỘI DUNG, CÀI ĐẶT, THỬ NGHIỆM VÀ ĐÁNH GIÁ Trong chương em xin trình bày tiến trình mà luận văn thực để xây dựng lọc thư rác theo nội, sơ đồ thực xây dựng lọc thư rác theo nội dung 16 Hình Sơ đồ thực xây dựng lọc thư rác 4.1 Thu thập liệu 17 4.2 Tiền xử lý liệu 4.2.1 Tách từ 4.2.2 Xử lý liệu 4.2.2.1 Loại bỏ ký tự đặc biệt 4.2.2.2 Loại bỏ stop word 4.2.3 Giảm số chiều cho văn 4.3 Sinh liệu huấn luyện wordnet Đây bước quan trọng, ảnh hưởng đến độ xác lọc Sau lấy 2/3 số lượng email mà ta thu thập bao gồm loại thư thư rác thư thơng thường, ta tiến hành bước sau để sinh liệu wordnet Bước 1: Lấy tất từ có số lần xuất lơn 10 lần tổng số thư rác ta tập từ Wspam Bước 2: Lấy tất từ có số lần xuất lơn 10 lần tổng số thư thông thường ta tập từ Wnon-spam Bước 3: Loại bỏ từ xuất Wspam Wnon-spam, ta hai tập từ Wspam’ Wnonspam’ 18 Bước 4: Sử dụng wordnet để mở rộng tập từ Wspam’ Wnon-spam’ ta hai tập từ WNspam WNnon-spam Bước 5: Duyệt qua thư bao gồm thư rác thư thông thường, ứng với thư rác ta kiểm tra, thư có xuất từ gốc với từ gốc tập WNspam WNnon-spam tương ứng với thư thư rác hay thư thơng thường, ta tiến hành thay từ tương ứng với từ gốc từ mở rộng sinh thư thư Kết thúc bước tức sau duyệt tất thư tập liệu huấn luyện ban đầu ta tập liệu mới, sử dụng tập liệu làm liệu huấn luyện 4.4 Trích xuất từ khóa đặc trưng 4.5 Biểu điễn véctơ đặc trưng 4.6 Huấn luyện lọc 4.7 Kiểm thử đánh giá kết Môi trường thử nghiệm: Hệ điều hành: Window Ultimate 32 bit Bộ vi xử lý: Intel(R) Core(TM)2 E7600 19 RAM: 3GB Ngôn ngữ: JAVA Phương pháp đánh giá: Trong đó: TS (Total Right): số thư phân loại y việc phân loại TW (Total Wrong): số thư phân loại y việc phân loại sai TWL(Total Wrong Label): số thư thuộc loại y bị gán nhãn vào loại khác Khi tiến hành thử nghiệm lọc email, luận văn sử dụng tập liệu huấn luyện gồm 140 thư bao gồm 70 bình thường 70 thư rác, tập liệu kiểm thử gồm 60 thư 20 Đây liệu gốc em dùng để thử nghiệm với phương pháp Naïve Bayes Sau sinh liệu từ tập liệu huấn luyện ta thu tổng cộng 583 thư bao gồm thư rác thư bình thường, có 405 thư bình thường 178 thư rác, ta sử dụng tập liệu huấn luyện để kiểm thử với phương pháp Naïve Bayes kết hơp với Wordnet Sơ đồ biểu thị cho tăng liệu huấn luyện wordnet 700 600 500 400 Ban đầu 300 Wordnet 200 100 Thư rác Thư bình Tổng số thư thường Hình Sơ đồ biểu tăng liệu sinh wordnet 21 Theo ta thấy mộ lượng lơn liệu huấn luyện sinh từ liệu huấn luyện ban đầu Với liệu em tiến hành thử nghiệm với hai phương pháp khác phương pháp Naïve Bayes Naïve Bayes kết hợp với việc sử dụng wordnet Kết thử nghiệm thu bảng 4.1 Bảng Kết kiểm thử nghiệm Mơ hình Loại thư Precision Rác Naive Bayes Thông thường Recall F-score 0.786 0.733 75.86 0.75 0.8 77.41 Trung bình Rác 76.64 0.95 0.6333 76 0.725 0.9666 82.86 Trung bình 79.43 Naive Bayes (DL Wordnet) Thơng thường 22 80 79.5 79 78.5 78 77.5 77 76.5 76 75.5 75 Nạve Bayes Nạve Bayes (DL Wordnet) Hình Sơ đồ thể độ xác Theo kết thử nghiệm cho thấy: Phương pháp Naïve Bayes thu độ xác là: Thư rác 75.86% thư thường 77.41% độ xác trung bình 76.64% Phương pháp Nạve Bayes + Wordnet thu độ xác là: Thư rác 76% thư thường 82.86% độ xác trung bình 79.43% Từ kết ta thấy phương pháp Nạve Bayes + Wordnet có độ xác cao phương pháp Naïve Bayes 2.79% 4.8 Kết luận chương 23 KẾT LUẬN Luận văn tiến hành khảo sát phân tích kỹ thuật thường dùng cho lọc thư rác NNet, KNN, VSM, LLSF Naïve Bayes Trên sở luận văn lựa chọn Naïve Bayes kết hợp với Wordnet để tiến hành xây dựng lọc thư, với tập liệu đâu vào thư thông thường thư rác thu thập từ 15 địa hòm thư khác Luận văn đạt kết sau: Tìm hiểu khảo sát kỹ thuật khai phá văn nói chung kỹ thuật lọc thư rác nói riêng Đưa số ưu điểm nhược điểm kỹ thuật so sánh chúng với nhau, luận văn nhận thấy Naïve Bayes kỹ thuật có nhiều ưu điểm có nhiều quan tâm, nên luận văn tập trung nghiên cứu phát triển lọc thư rác phương pháp này, đồng thời kết hợp với phương pháp mở rộng tập đặc trưng wordnet để có kết tốt 24 Luận văn thu thập liệu huấn luyện kiểm thử từ nhiều hòm thư khác nhau, kết nhận 386 thư Tiếng Việt Luận văn áp dụng wordnet vào tập liệu huấn luyện để sinh tập liệu huấn luyện mới, có nội dung phong phú so với tập liệu huấn luyện ban đầu, cụ thể với tập liệu huấn luyện ban đầu gồm 140 thư, sau áp dụng wordnet luận văn sinh 583 thư để làm tập liệu huấn luyện Xây dựng thành công lọc, tiến hành thực nghiệm so sánh kết hai phương pháp dùng Nạve Bayes thơng thường phương pháp kết hợp Naïve Bayes Wordnet Mộ số vấn đề mà luận văn chưa giải được: Xử lý vấn đề phức tạp ngôn ngữ với Tiếng Việt Do vấn đề Wordnet chưa hỗ trợ Tiếng Việt, cho lên việc mở rộng tập từ cịn gặp nhiều khó khăn chủ yếu phải làm tay cho lên độ xác 25 chưa cao nhiều so với phương pháp Naïve Bayes thông thường Hướng phát triển tương lai: Giải vấn đề khó khăn với Wordnet để mở rộng tập từ huấn luyện xác Xử lý vấn đề phức tạp ngôn ngữ từ sử lý tình khó hơn, đồng thời tiếp tục nghiên cứu phương pháp khác để ứng dụng hiệu ... luận văn thực để xây dựng lọc thư rác theo nội 3 CHƯƠNG 1: GIỚI THIỆU KHAI PHÁ DỮ LIỆU VĂN BẢN Nội dung chương nhằm giới thiệu cách khai liệu, khai phá liệu văn bản, ứng dụng khai phá văn lĩnh... luận văn 1.1 Cách tiếp cận mục tiêu luận văn 1.2 Khái niệm khai phá liệu 1.3 Khái niệm khái phá liệu văn 1.4 Mục tiêu khai phá liệu văn 1.5 Quá trình khai phá liệu văn Hình 1 Quá trình khai phá liệu. .. ứng dụng lọc thư rác tiếng Việt? ?? làm hướng nghiên cứu cho luận văn Luận văn gồm nội dung sau: Chương 1: Giới thiệu khai phá liệu văn Nội dung chương nhằm giới thiệu cách khai liệu, khai phá liệu