1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân lớp đa nhãn và ứng dụng ho bài toán phân loại tin nhắn văn bản sms

108 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 108
Dung lượng 3,46 MB

Nội dung

71 Trang 8 vi DANH M C CÁC ỤKÝ HIỆU VÀ CH VI T T T ỮẾẮKí hiệu Tiếng Anh Tiếng Việt SMS Short Message Services Dịch vụ tin nhắn ngắn qua mạng di động Spam SMS Spam SMS Tin nhắn rác Telco

ĐÀO XUÂN DƯƠNG BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Đào Xuân Dương CÔNG NGHỆ THÔNG TIN PHÂN LỚP ĐA NHÃN VÀ ỨNG DỤNG CHO BÀI TOÁN PHÂN LOẠI TIN NHẮN VĂN BẢN SMS LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN 2017B Hà Nội – 2019 Tai ngay!!! Ban co the xoa dong chu nay!!! 17061131748611000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Đào Xuân Dương PHÂN LỚP ĐA NHÃN VÀ ỨNG DỤNG CHO BÀI TOÁN PHÂN LOẠI TIN NHẮN VĂN BẢN SMS Chuyên ngành : Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : TS TRỊNH ANH PHÚC Hà Nội – 2019 LỜI CẢM ƠN Luận văn tốt nghiệp thạc sĩ chuyên ngành Cơng nghệ thơng tin hồn thành Trường Đại học Bách Khoa Hà Nội Để có luận văn tốt nghiệp này, tơi xin tỏ lịng biết ơn chân thành sâu sắc đến Trường Đại học Bách Khoa Hà Nội, Viện Công nghệ thông tin Truyền thông, đặc biệt TS Trịnh Anh Phúc trực tiếp hướng dẫn, dìu dắt, giúp đỡ tơi với dẫn khoa học quý giá suốt trình triển khai, nghiên cứu hoàn thành đề tài nghiên cứu Tơi xin chân thành cảm ơn thầy, cô giáo trực tiếp giảng dạy, truyền đạt kiến thức khoa học chuyên ngành Công nghệ thông tin cho thân tơi tồn thời gian khóa học Tơi xin trân trọng cảm ơn thầy hội đồng chun mơn đóng góp ý kiến q báu để tơi hồn thiện luận văn Cuối cùng, muốn gửi lời cảm ơn sâu sắc đến gia đình, bạn bè, đồng nghiệp giúp đỡ, trao đổi chia sẻ kinh nghiệm chun mơn, đóng góp ý kiến q báu Đặc biệt người đóng góp, hỗ trợ, cho phép thu thập chia sẻ liệu thực nghiệm để hồn thành q trình nghiên cứu luận văn Mặc dù có nhiều cố gắng để thực đề tài, song làm quen với công tác nghiên cứu khoa học, tiếp cận với cơng nghệ thời gian có hạn nên khơng thể tránh khỏi thiếu sót định Tơi mong góp ý Q thầy, bạn bè đồng nghiệp để đề tài hoàn chỉnh Xin chân thành cảm ơn! i LỜI CAM ĐOAN Tôi xin cam đoan luận văn riêng Các kết nêu luận văn xác trung thực chưa cơng bố đề tài, cơng trình nghiên cứu khác Tôi xin cam đoan thơng tin trích dẫn luận văn rõ nguồn gốc Ngày 01 tháng 10 năm 2019 Đào Xuân Dương ii MỤC LỤC LỜI CẢM ƠN .i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .vi DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ PHẦN MỞ ĐẦU Lý chọn đề tài Mục đích nghiên cứu Đối tượng, phạm vi nghiên cứu, phương pháp nghiên cứu 4 Bố cục luận văn 5 Đóng góp luận văn CHƯƠNG TỔNG QUAN VỀ DỮ LIỆU TIN NHẮN RÁC VÀ CÁC PHƯƠNG PHÁP PHÂN LOẠI TIN NHẮN RÁC 1.1 Tin nhắn rác thực trạng tin nhắn rác Việt Nam 1.2 Đặc điểm tin nhắn văn tiếng Việt .9 1.2.1 Đặc điểm tin nhắn văn tiếng Việt 1.2.2 Cách phân loại tin nhắn spam SMS 10 1.3 Tác hại tin nhắn rác (spam SMS) 11 1.4 Phương pháp phân loại spam SMS 12 1.4.1 Dựa vào nguồn phát tán tin nhắn rác 12 1.4.2 Lọc tin nhắn dựa vào nội dung 13 Tổng kết chương 14 CHƯƠNG - CƠ SỞ LÝ THUYẾT 15 2.1 Cơ sở lý thuyết xử lý ngôn ngữ 15 2.1.1 Xử lý ngôn ngữ tự nhiên .15 iii 2.1.2 Kỹ thuật tách từ (Words segmentation) 16 2.1.3 Một số phương pháp trích chọn đặc trưng 17 2.2 Phân lớp nhị phân/đơn nhãn (Binary Classification/Single Label Classification) 22 2.3 Phân lớp đa nhãn (Multi-Label Classification) 23 2.3.1 Bài toán phân lớp đa nhãn tổng quát 23 2.3.2 Phân biệt phân lớp đa nhãn (Multi-Label) với đa lớp (Multi-Class) 24 2.3.3 Các kỹ thuật phân lớp đa nhãn 24 2.3.4 Lựa chọn thuật toán 25 2.4 Cơ sở mơ hình thống kê 31 2.4.1 Thuật toán Naive Bayes 31 2.4.2 Thuật toán SVM 32 2.4.3 Thuật toán Logistic Regression 35 2.5 Các tiêu chí đánh giá mơ hình phân lớp đa nhãn 37 2.5.1 Các độ đo dựa mẫu 37 2.5.2 Các độ đo dựa nhãn 38 2.5.3 Thời gian chạy thuật toán 40 2.5.4 Lựa chọn tiêu chí đánh giá 41 Tổng kết chương 41 CHƯƠNG - THU THẬP VÀ TIỀN XỬ LÝ DỮ LIỆU 42 3.1 Thu thập gán nhãn liệu 42 3.1.1 Dữ liệu thực nghiệm 42 3.1.2 Dữ liệu phân lớp 43 3.1.3 Gán nhãn phân bố liệu theo nhãn 44 3.1.4 Từ khóa đặc trưng liệu thực nghiệm theo nhãn 46 3.2 Tiền xử lý liệu 50 3.2.1 Chuẩn hoá từ (Sterming) 51 3.2.2 Làm liệu (clean data) 52 3.2.3 Loại bỏ StopWords (remove stopwords) 52 iv 3.2.4 Tách từ (words segmentation) 52 3.3 Trích chọn đặc trưng véc tơ hóa từ với TF-IDF 53 Tổng kết chương 54 CHƯƠNG - KẾT QUẢ VÀ BÀN LUẬN 55 4.1 Mơ hình tổng quát toán 55 4.2 Môi trường thực nghiệm .56 4.2.1 Cấu hình phần cứng thực nghiệm 56 4.2.2 Các thư viện sử dụng 56 4.3 Lựa chọn thuật toán huấn luyện 56 4.4 Thực nghiệm đánh giá kết 57 4.5 Tối ưu tham số mơ hình với GridSearch .58 4.6 Kết thực nghiệm 60 4.6.1 Binary Relevance với Gaussian Naïve Bayes, SVC Logistic Regression 60 4.6.2 Classifier Chains với Gaussian Naïve Bayes 64 4.6.3 Multi-label K-Nearest Neighbours (ML-kNN) 65 4.7 Nhận xét Đánh giá 67 4.7.1 So sánh chất lượng phân lớp thuật toán liệu thực nghiệm 67 4.7.2 So sánh ảnh hưởng độ lớn liệu thời gian chạy thuật toán 68 4.7.3 So sánh chất lượng phân loại trước sau đề xuất phương pháp cải tiến công đoạn tiền xử lý liệu 69 4.7.4 Nhận xét 70 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 71 Các kết đạt luận văn 71 Hạn chế luận văn 71 Hướng nghiên cứu 72 TÀI LIỆU THAM KHẢO 73 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu Tiếng Anh SMS Short Message Services Spam SMS Telco Senders SĐT Spam SMS Telecom Company = Operator Senders Phone Number BrandName BrandName AI ML NLP Artificial Intelligence Machine Learning Natural Language Processing DL Deep Learning SVM TF-IDF Support Vector Machine Term Frequency Inverse Document Frequency BOW Bag of Words N-Gram Statistical N-Gram Language Modeling StopWords Từ dừng/từ loại MLC FE FS Multi-Label Classiffication Feature Extraction Feature Selection One-vs-rest hay gọi oneagainst-rest, one-vs-all, oneagainst-rest, one-against-all Binary Relevance Multinomial Naïve Bayes Gaussian Naive Bayes SVC Label Powerset OVR BR MNB GNB SVC LP Tiếng Việt Dịch vụ tin nhắn ngắn qua mạng di động Tin nhắn rác Nhà cung cấp dịch vụ viễn thông Người gửi/Nguồn gửi tin nhắn SMS Số điện thoại người gửi/nhận Tên thương hiệu (hiển thị thay cho số điện thoại người gửi) Trí tuệ nhân tạo Phương pháp học máy Xử lý ngôn ngữ tự nhiên Kỹ thuật học máy dựa mạng nơ ron (Neural network) Máy vectơ hỗ trợ Trọng số tần suất độ quan trọng từ Mô hình xử lý ngơn ngữ tự nhiên tiếp cận theo hướng dãy từ Mơ hình ngơn ngữ thống kê NGram Những từ mang ý nghĩa cảm thán, xuất nhiều văn bản, không lại mang nhiều ý nghĩa Phân lớp đa nhãn Trích chọn đặc trưng Lựa chọn đặc trưng Phương pháp phân loại lớp với lớp cịn lại Mơ hình phân lớp tương hợp nhị phân Mơ hình Multinomial Nạve Bayes Mơ hình Gaussian Nạve Bayes Mơ hình Liner SVM Mơ hình phân lớp Tập lũy thừa nhãn Classifier Chains Mơ hình phân lớp Chuỗi phân lớp Multi-Label k Nearest Neighbour Phương pháp phân lớp đa nhãn k Láng giềng gần GridSearch GridSearch Kỹ thuật tìm kiếm tham số lưới Accuracy Độ xác tổng quát ACC Ministry of Information and Bộ Thông tin Truyền thông Bộ TT&TT Communications CC ML-kNN vi DANH MỤC CÁC BẢNG Bảng 1.1 Thống kê số lượng tin nhắn quảng cáo từ 2015-2017 (Nguồn VnCert) Bảng 1.2 Thống kê số lượt phản ánh tin rác qua năm 2015-2018 (theo VnCert) Bảng 1.3 So sánh cấu trúc Tin nhắn SMS với thư điện tử (email) 14 Bảng 2.1 Ví dụ nội dung nội dung tin nhắn cho n-gram 19 Bảng 2.2 Ví dụ túi từ vựng unigram 19 Bảng 2.3 Ví dụ vec-tơ đặc trưng unigram 20 Bảng 2.4 Ví dụ túi từ vựng bi-grams 20 Bảng 2.5 Ví dụ vec-tơ đặc trưng bi-grams 20 Bảng 2.6 Ví dụ tốn phân lớp Binary Relevance 26 Bảng 2.7 Các phân nhãn nhị phân tương ứng với nhãn 26 Bảng 2.8 Ví dụ toán phân lớp Classifier Chain 28 Bảng 2.9 Các phân nhãn tương ứng với nhãn Classifier Chains 28 Bảng 2.10 Các tham số sử dụng đánh giá mô hình phân lớp 41 Bảng 3.1 Bảng số liệu thống kê Bộ liệu thực nghiệm 42 Bảng 3.2 Bảng số liệu thống kê Bộ liệu thực nghiệm 42 Bảng 3.3 Dữ liệu phân lớp 43 Bảng 3.4 Phân bố liệu thực nghiệm vào nhóm nhãn .44 Bảng 3.5 Bộ từ điển chuẩn hóa từ viết tắt tiếng Việt 51 Bảng 4.1 Cấu hình phần cứng thực nghiệm 56 Bảng 4.2 Các gói thư viện xử lý 56 Bảng 4.3 So sánh chất lượng phân lớp thuật tốn Binany Relevance sử dụng mơ hình Gaussian Nạve Bayes, SVC Logistic Regression 60 Bảng 4.4 Chỉ số đánh giá dựa nhãn thuật toán BR sử dụng GNB 61 Bảng 4.5 Chỉ số đánh giá dựa nhãn thuật toán BR sử dụng SVC 62 Bảng 4.6 Chỉ số đánh giá dựa nhãn thuật toán Binary Relevance sử dụng Logistic Regression 63 Bảng 4.7 Các độ đo dựa mẫu thuật toán Classifier Chains 64 Bảng 4.8 Chỉ số đánh giá dựa nhãn Classifier Chains với GNB 64 Bảng 4.9 Các tiêu chí đánh giá dựa mẫu thuật tốn ML-kNN 65 Bảng 4.10 Chỉ số đánh giá dựa nhãn thuật toán ML-kNN 65 Bảng 4.11 Bảng so sánh chất lượng phân lớp sau tối ưu mơ hình 66 Bảng 4.12 So sánh chất lượng phân lớp thuật toán liệu thực nghiệm 67 Bảng 4.13 So sánh chất lượng phân lớp thuật toán liệu thực nghiệm 67 Bảng 4.14 So sánh chất lượng phân loại trước sau cải tiến cơng đoạn chuẩn hóa từ tiếng Việt 69 Phân lớp đa nhãn ứng dụng cho toán phân loại tin nhắn văn SMS Trang DANH MỤC CÁC HÌNH VẼ Hình 1.1 Thống kê tin nhắn rác từ nhà mạng Việt Nam năm 2018 Hình 1.2 Các thành phần tin nhắn SMS gửi .13 Hình 1.3 Cấu trúc tin nhắn SMS 13 Hình 2.1 Xử lý ngơn ngữ tự nhiên vấn đề khó AI .15 Hình 2.2 Ví dụ công đoạn tách từ tiếng Việt 16 Hình 2.3 Ví dụ từ điển StopWords .21 Hình 2.4 Tần suất xuất 50 StopWords thường gặp sách .21 Hình 2.5 Mơ hình xử lý phân nhãn liệu nhị phân 22 Hình 2.6 Thuật tốn phân lớp Binary Relevance 27 Hình 2.7 Mơ hình thuật tốn chuỗi phân lớp Classifier Chains 29 Hình 2.8 Thuật toán Classifer Chains 29 Hình 2.9 Thuật tốn ML-kNN 30 Hình 2.10 Mơ tả siêu phẳng SVM 33 Hình 2.11 Mô tả đường biên SVM 34 Hình 2.12 Mơ tả đường biên có margin SVM 34 Hình 2.13 Phương pháp một-chọi-tất (one-vs-all) 35 Hình 2.14 Logistic Regression với nhóm (class) 35 Hình 2.15 Đồ thị hàm sigmoid .36 Hình 3.1 Giả định mối quan hệ nhãn 44 Hình 3.2 Phân bố tin nhắn theo nhãn 45 Hình 3.3 Phân bố tin nhắn đa nhãn .45 Hình 3.4 Sơ đồ WordCloud thể tần suất xuất từ khóa theo nhãn 46 Hình 4.1 Mơ hình tổng qt tốn 55 Hình 4.2 Module tự động phân loại đa nhãn tin nhắn 58 Hình 4.3 Chiến lược tìm kiếm tham số tối ưu Grid Search 59 Hình 4.4 Biểu đồ so sánh số đánh giá theo mẫu thuật tốn Binary Relevance mơ hình Gaussian Nạve Bayes, SVC Logistic Regression .60 Hình 4.5 Biểu đồ số đánh giá theo nhãn thuật toán Binary Relevance mơ hình Gaussian Nạve Bayes, SVC Logistic Regression 61 Hình 4.6 Biểu đồ so sánh ảnh hưởng độ lớn liệu (2 gói thực nghiệm) lên số Hamming-Loss, One-Error, Ranking loss Average Presision 68 Hình 4.7 Biểu đồ so sánh ảnh hưởng độ lớn liệu (2 gói thực nghiệm) lên số Accuracy Score, Precision Score, Recall Score f1 Score .68 Hình 4.8 So sánh ảnh hưởng độ lớn liệu thời gian chạy thuật toán .68 Phân lớp đa nhãn ứng dụng cho toán phân loại tin nhắn văn SMS Trang

Ngày đăng: 26/01/2024, 16:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN