Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt

12 3 0
Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài viết Một số phương pháp phân lớp đa nhãn và ứng dụng phân loại tin nhắn SMS tiếng Việt xem xét các kỹ thuật phân lớp đa nhãn, thu thập tập dữ liệu tin nhắn SMS tiếng Việt (SMSVN) với 2.000 tin nhắn, cải thiện độ chính xác của các phương pháp phân lớp đa nhãn trên tập dữ liệu SMS tiếng Việt bằng cách sử dụng kỹ thuật tiền xử lý để chuẩn hóa và làm sạch dữ liệu. Ngoài ra, chúng tôi cũng đã áp dụng các thuật toán phân lớp đa nhãn để thử nghiệm trên tập dữ liệu này.

Vietnam J Agri Sci 2022, Vol 20, No 12: 1672-1683 Tạp chí Khoa học Nơng nghiệp Việt Nam 2022, 20(12): 1672-1683 www.vnua.edu.vn Hoàng Thị Hà1*, Đào Xuân Dương2, Lê Thị Nhung1 Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam Công ty Cổ phần Tin học Viễn thông Bưu điện * Tác giả liên hệ: htha@vnua.edu.vn Ngày nhận bài: 24.02.2022 Ngày chấp nhận đăng: 20.12.2022 TÓM TẮT Ngày nay, hầu hết người dùng thiết bị di động thường xuyên bị làm phiền lượng lớn tin nhắn lừa đảo, tin nhắn quảng cáo lĩnh vực khác như: giải trí, mua sắm, tài chính, bất động sản Trong đó, tin nhắn SMS thuộc nhiều loại tin nhắn khác lúc Chính vậy, việc sử dụng phương pháp phân lớp đơn nhãn để phân loại tin nhắn không phù hợp Trong nghiên cứu này, xem xét kỹ thuật phân lớp đa nhãn, thu thập tập liệu tin nhắn SMS tiếng Việt (SMSVN) với 2.000 tin nhắn, cải thiện độ xác phương pháp phân lớp đa nhãn tập liệu SMS tiếng Việt cách sử dụng kỹ thuật tiền xử lý để chuẩn hóa làm liệu Ngồi ra, chúng tơi áp dụng thuật tốn phân lớp đa nhãn để thử nghiệm tập liệu Kết cho thấy, sau áp dụng phương pháp tiền xử lý liệu, hầu hết kỹ thuật phân lớp đa nhãn cho độ xác cao tỉ lệ nhãn bị phân lớp sai thấp kỹ thuật Classifier Chains với mơ hình Nạve Bayes (GNB) phù hợp cho tốn phân lớp liệu SMS tiếng Việt Từ khóa: Phân lớp đa nhãn, phân loại tin nhắn SMS, tin nhắn rác, phương pháp thích nghi thuật tốn, phương pháp chuyển đổi toán Multi-label Classification and its Application for Vietnamese SMS classification ABSTRACT Today, most of the users of mobile devices are regularly bothered by a large number of scam messages, advertising messages in different fields such as entertainment, shopping, finance, and real estate Among these, each SMS message can belong to one or more different message types at the same time Therefore, using singlelabel classification methods to classify messages would be inappropriate In this study, we have summarized multilabel classification techniques, collected a dataset of 2,000 Vietnamese SMS messages (SMSVN), and improved the accuracy of the methods for multi-label classification by using the preprocessing techniques to normalize and clean data Moreover, we have also applied the well-known multiple classifiers to test classification on this dataset The results show that, after applying the preprocessing techniques, most of the multi-label classification techniques had higher accuracy and lower classification error The Classifier Chains technique using Naïve Bayes model was suitable for the Vietnamese SMS data classification issues Keywords: Multi-label classification, SMS classification, spam messages, algorithm adaptation methods, problem transformation methods 1672 Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung ï 1673 Một số phương pháp phân lớp đa nhãn ứng dụng phân loại tin nhắn SMS tiếng Việt × ∣  ∣  1674 ï Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung y1 y2 y3 y4 x1 1 x2 0 x3 0 y1    y3 y4 x1 x1 x1 x1 x2 x2 x2 x2 x3 x3 x3 x3 Classifier  y2 Classifier Classifier Classifier  1675 Một số phương pháp phân lớp đa nhãn ứng dụng phân loại tin nhắn SMS tiếng Việt       y1    y1 y2  y1 y2 y3 y1 y2 y3 y4 x1 x1 x1 1 x1 1 x2 x2 x2 0 x2 0 x3 x3 x3 x3 0 Classifier Classifier  Classifier Classifier      1676 Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung Mua sắm/Giải trí NonSpam Ứng dụng/Dịch vụ Spam Bất động sản Quảng cáo Dịch vụ Tài Khuyến mại/Ưu đãi Harm Lừa đảo Virus Lớp Nhãn Tin nhắn NonSpam Tin nhắn rác Spam Quảng cáo Ads Mua sắm/Giải trí Entertainment Ứng dụng/Dịch vụ App Bất động sản RealEstate Dịch vụ Tài Financial Khuyến mại Promotion Harm Harm Lừa đảo Scam Virus Virus 1677 Một số phương pháp phân lớp đa nhãn ứng dụng phân loại tin nhắn SMS tiếng Việt Chuẩn hóa từ - Chuẩn hóa từ - Loại bỏ ký tự số Làm - Chuyển thành chữ thường - Loại bỏ dấu câu - Loại bỏ nhiễu Loại bỏ StopWords Tách từ - Phân tích cú pháp - Tách từ - Vector hóa Keywords References vms|vnm|tb|qc-vtl2|qc vms2|qc vma2|q.c|qc|q_c|q-c|q&c|qua?ng cáo|quang cao|quảng.cáo|quang.cao quảng cáo tcqc|tc qc|tc.qc|tc_qc|tu choi quang cao từ chối quảng cáo tu choi|tu.choi|tu_choi|tu choj từ chối nhan tin|nhan tjn|nhan.tin|nhan_tin nhận tin cc|c.c|c.cu|cccc|chung cu|chung.cu|chung.cư|chung_cu chung cư can ho|can_ho|can.ho|căn_hộ hộ nha|nhäpho' nhà so@n|soan|so?n|s0an soạn gui|g?i|guj gửi b/thu|biệt thự|biet thu|biet.thu|bjet thu biệt thự dc|đ.c|đc|đ.c|đ/c|d.c địa l.h|lh|lien he|liên hệ|ljen he|Ijen he|l.he liên hệ ls|l.s|lai suat|l.suat|laj suat|I/ suat|lãi suất lãi suất qk|quy.khach|quy khach quý khách sđt|so dt|so dien thoai|số ĐT|điện thoại số điện thoại uu dai|Uu+Dai|uu.dai|uu daj ưu đãi mien phi|mien.phi|miễn phí|miễn.phí|mien_phi|mjen phj|mien phj|mien fi miễn phí 0tr.|0tr |0.tr |0.tr triệu đồng 1PN|2PN|3PN| PN |phong ngu|phong_ngu|phong.ngu phịng ngủ 1678 Hồng Thị Hà, Đào Xn Dương, Lê Thị Nhung - - –               1679 Một số phương pháp phân lớp đa nhãn ứng dụng phân loại tin nhắn SMS tiếng Việt ï ï STT Tên thuật toán I Tiếp cận chuyển đổi toán - Binary Relevance (BR) - Gaussian Naïve Bayes (GNB) - SVM - Logistic Regression(LOGR) - Classifier Chains (CC) - Gaussian Naïve Bayes - SVM - Logistic Regression II Tiếp cận thích nghi thuật tốn K - Nearest Neighbours (ML-KNN) DecisionTree (ML-DT) Tên tập liệu SMSVN Lĩnh vực Tin nhắn tiếng Việt Nhãn 1680 Số tin nhắn Số nhãn 2.000 11 Tần suất Nonspam 1000 Spam 1000 Ads 962 Entertainment 231 App 534 RealEstate 80 Financial 56 Promotion 656 Harm 353 Scam 428 Virus 15 Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung Tiêu chí đánh giá Mơ hình GNB SVM LOGR Hamming-Loss 0,037 0,037 0,053 Accuracy 0,844 0,857 0,830 90 22,7 24,1 Time (sec) Tiêu chí đánh giá Mơ hình GNB SVM LOGR Hamming-Loss 0,027 0,034 0,046 Accuracy 0,868 0,807 0,854 54 61 72 Time (sec) ï ï 1681 Một số phương pháp phân lớp đa nhãn ứng dụng phân loại tin nhắn SMS tiếng Việt Mơ hình Tiêu chí đánh giá ML-KNN ML-DT Hamming-Loss 0,028 0,037 Accuracy 0,856 0,846 Time (sec) 2290 56 Tiếp cận chuyển đổi toán Binary Relevance (BR) Tiêu chí đánh giá Hamming-Loss Accuracy Time (sec) GNB SVM LOGR GNB SVM LOGR ML-KNN ML-DT 0,037 0,037 0,053 0,027 0,034 0,046 0,028 0,037 0,807 0,854 0,856 0,846 61 72 2290 56 0,844 0,857 0,830 0,868 90 22,7 24,2 54 Trước tiền xử lý Tiêu chí đánh giá Tiếp cận thích nghi thuật tốn Tiếp cận chuyển đổi toán Classifier Chains (CC) Binary Relevance (BR) Sau tiền xử lý Classifier Chains (CC) Tiếp cận thích nghi thuật tốn Binary Relevance (BR) Classifier Chains (CC) Tiếp cận thích nghi thuật tốn GNB SVM LOGR GNB SVM LOGR ML-KNN ML-DT GNB SVM LOGR GNB SVM LOGR ML-KNN ML-DT Hamming-Loss 0,039 0,039 0,055 0,031 0,048 0,049 0,039 0,039 0,037 0,037 0,053 0,027 0,034 0.046 0,028 0,037 Accuracy 0,8273 0,828 0,834 0,843 0,859 0,835 0,835 0,712 0,844 0,857 0,850 0,868 0.887 0,854 0,856 0,846 40.7 10,6 11 54 24 68 935 21,8 90 22,7 24,2 54 61 72 2290 56 Time (sec) 1682 Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung ï năm 2015 Truy cập từ https://www.bkav.com.vn/ tin-tuc-noi-bat/-/view-content/141094/tong-kettinh -hinh-an-ninh-mang-nua-au-nam-2015 ngày 20/11/2021 Chính Phủ (2020) Chống tin nhắn rác, thư điện tử rác, gọi rác Truy cp t https://vanban.chinhphu vn/default.aspx?pageid=27160&docid=200773 ngy 20/11/2021 Cheng W & Hăullermeier E (2009) Combining instance-based learning and logistic regression for multilabel classification Machine Learning 76(2-3): 211-225 Dembczynski K., ChengW & Hăullermeier E.(2010): Bayes optimal multilabel classification via probabilistic classifier chains In: ICML 2010 Fabian Pedregosa, Gael Varoquaux, Alexandre Gramfort, Vincent Michel & Bertrand Thirion (2011) Scikit-learn: Machine Learning in Python Machine Learning Research 12: 2825-2830 Grigorios Tsoumakas I.K & Ioannis Vlahavas (2009) Mining Multi-label Data In: Maimon O., Rokach L (eds) Data Mining and Knowledge Discovery Handbook https://doi.org/10.1007/978-0-387-09 823-4_34 Springer Hoàng Xuân Huấn (2015) Giáo trình học máy Nhà xuất Đại học Quốc gia, Hà Nội Huu‑Thanh Duong T.A.N.T (2021) A review: preprocessing techniques and data augmentation for sentiment analysis Computational Social Networks 8: Jadon Mayurisingh Nareshpalsingh P H N M (2017) Multi-label Classification Methods: A Comparative Study International Research Journal of Engineering and Technology (IRJET) 4: Phạm Thị Thài, Huynh Chi Nghia, Pham Thuy Huynh & Pham Thị Huyen Trang (2013) Thực trạng ngôn ngữ nhắn tin (SMS language) sinh viên trường Đại học Cần Thơ học sinh THPT Trần Đại Nghĩa Tạp chí Khoa học Trường Đại học Cần Thơ, Phần C: Khoa học Xã hội, Nhân văn Giáo dục 26: 55-63 Tsoumakas G., Katakis I & Vlahavas I.(2010) Mining multi-label data In: Maimon, O., Rokach, L (eds.) Data Mining and Knowledge Discovery Handbook Springer, Heidelberg Bkav (2015) Tổng kết tình hình an ninh mạng nửa đầu Zhang M.L & Zhou Z.H (2007) ML-KNN: A Lazy Learning Approach to Multi-Label Learning Pattern Recogn 40: 2038-2048 1683 ... Virus 1677 Một số phương pháp phân lớp đa nhãn ứng dụng phân loại tin nhắn SMS tiếng Việt Chuẩn hóa từ - Chuẩn hóa từ - Loại bỏ ký tự số Làm - Chuyển thành chữ thường - Loại bỏ dấu câu - Loại bỏ... x3 Classifier  y2 Classifier Classifier Classifier  1675 Một số phương pháp phân lớp đa nhãn ứng dụng phân loại tin nhắn SMS tiếng Việt       y1    y1 y2  y1 y2 y3 y1 y2 y3 y4 x1...Hoàng Thị Hà, Đào Xuân Dương, Lê Thị Nhung ï 1673 Một số phương pháp phân lớp đa nhãn ứng dụng phân loại tin nhắn SMS tiếng Việt × ∣  ∣  1674 ï Hoàng Thị Hà, Đào Xuân Dương, Lê Thị

Ngày đăng: 28/01/2023, 23:36