Phân lớp đa nhãn và ứng dụng cho bài toán phân loại tin nhắn văn bản SMS

ở lý thuyết mơ hình phân lớp đơn nhãn phân lớp đa nhãn văn tiếng Việt  Thử nghiệm đánh giá mơ hình áp dụng cho toán phân loại tin nhắn văn tiếng Việt Lựa chọn mơ hình tối ưu cho toán đặt  Xây dựng ứng dụng giải toán nêu Hướng tới ứng dụng phân loại tin nhắn văn tiếng Việt hoàn toàn tự động Hạn chế luận văn Trong q trình triển khai mơ hình, thời gian có hạn nên luận văn cịn tồn số hạn chế sau:  Chưa nghiên cứu tốn số nhãn vơ lớn, có số hướng nghiên cứu để giảm số chiều toán LDA Tuy nhiên, toán gán nhãn văn tiếng Việt đa nhãn, nhu cầu số nhãn lớn, chưa phải cần thiết  Chưa nghiên cứu vấn đề tách từ với liệu tin nhắn văn tiếng Việt đặc thù để giải toán thực tế (tin nhắn bao gồm tin nhắn tiếng Việt khơng dấu, có dấu tiếng Anh)  Chưa thử nghiệm mơ hình cross-validating để nghiên cứu trường hợp overfiting liệu mẫu nhỏ Trang 71 Hướng nghiên cứu Trong thời gian tiếp theo, tác giả tiếp tục nghiên cứu hướng giải cho hạn chế tồn luận văn tiếp tục triển khai nội dung sau:  Thu thập bổ sung kho liệu tin nhắn văn từ điển từ viết tắt cho mục đích học thuật  Nghiên cứu hướng giải cho toán tách từ với liệu tin nhắn đặc thù (tin nhắn tiếng Việt khơng dấu có dấu)  Nghiên cứu, áp dụng phương pháp cross-validating để giải toán liệu mẫu nhỏ imbalancing, tránh trường hợp overfiting Trang 72 TÀI LIỆU THAM KHẢO TIẾNG ANH [1] Cortes, C & Vapnik, V Mach Learn (1995), “Support-Vector Networks”, Kluwer Academic Publishers, 20(3), pp 273-279 [2] Cramer, J S (2002) “The origins of logistic regression”, Tinbergen Institute Discussion Paper, Faculty of Economics and Econometrics, University of Amsterdam, and Tinbergen Institute, 119(4), pp 2–7 [3] J Read (2010), Scalable Multi-label Classification (Thesis, Doctor of Philosophy (PhD)), University of Waikato, Hamilton, New Zealand [4] Krishni Hewa, An introduction to Grid Search, https://medium.com/datadriveninvestor/an-introduction-to-grid-searchff57adcc0998 [5] L Breiman, J Friedman, R Olshen, and C Stone (1984), Classification and Regression Trees, Wadsworth, Belmont, CA [6] M.-L Zhang, J M Pe˜na, V Robles (2009), “Feature selection for multi-label Naăve bayes classification, Information Sciences, 179(19), pp 3218-3229 [7] M L Zhang, Z H Zhou (2014), “A Review on Multi-Label Learning Algorithms”, IEEE transactions on knowledge and data engineering, 26(8), pp 1819-1837 [8] M L Zhang, Z H Zhou (2007), “ML-KNN: A Lazy Learning Approach to Multi-Label Learning”, Pattern Recogn, 40, pp 2038–2048 [9] M R Boutell, J Luo, X Shen, C.M Brown (2004) “Learning multi-label scene classification”, Pattern Recognition, 37 (9), pp 1757–1771 TIẾNG VIỆT [10] Nguyễn Chí Dũng, Chặn tin nhắn rác (Spam) với Bayes ngây thơ, https://rpubs.com/chidungkt/305371 [11] Phạm Thị Thài, Phạm Thị Quyền Trang, Phạm Thúy Huỳnh Huỳnh Chí Nghĩa (2013), “Thực trạng ngôn ngữ nhắn tin (SMS language) sinh viên trường Đại học Cần Thơ học sinh THPT Trần Đại Nghĩa”, Tạp chí khoa học trường Đại học Cần Thơ, Phần C: Khoa học Xã hội, Nhân văn Giáo dục, 26, tr 55-63 Trang 73 ... hướng giải cho hạn chế tồn luận văn tiếp tục triển khai nội dung sau:  Thu thập bổ sung kho liệu tin nhắn văn từ điển từ viết tắt cho mục đích học thuật  Nghiên cứu hướng giải cho toán tách... từ với liệu tin nhắn đặc thù (tin nhắn tiếng Việt không dấu có dấu)  Nghiên cứu, áp dụng phương pháp cross-validating để giải toán liệu mẫu nhỏ imbalancing, tránh trường hợp overfiting Trang... Chặn tin nhắn rác (Spam) với Bayes ngây thơ, https://rpubs.com/chidungkt/305371 [11] Phạm Thị Thài, Phạm Thị Quyền Trang, Phạm Thúy Huỳnh Huỳnh Chí Nghĩa (2013), “Thực trạng ngơn ngữ nhắn tin (SMS

Định dạng
Số trang	81
Dung lượng	3,19 MB