Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 176 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
176
Dung lượng
5,42 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÊ NGUYỄN HOÀI NAM NGHIÊN CỨU VÀ ĐỀ XUẤT CÁC PHƯƠNG PHÁP TINH GIẢM SỐ LƯỢNG ĐẶC TRƯNG CHO BÀI TOÁN PHÂN LOẠI VĂN BẢN LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Tp Hồ Chí Minh – Năm 2018 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÊ NGUYỄN HOÀI NAM NGHIÊN CỨU VÀ ĐỀ XUẤT CÁC PHƯƠNG PHÁP TINH GIẢM SỐ LƯỢNG ĐẶC TRƯNG CHO BÀI TOÁN PHÂN LOẠI VĂN BẢN Ngành: Hệ thống thông tin Mã số ngành: 62480104 Phản biện 1: PGS.TS Lê Anh Cường Phản biện 2: PGS.TS Quản Thành Thơ Phản biện 3: TS Hà Việt Uyên Synh Phản biện độc lập 1: TS Hà Việt Uyên Synh Phản biện độc lập 2: TS Lê Đình Duy NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HỒ BẢO QUỐC TS PHẠM NGUYỄN CƯƠNG TP Hồ Chí Minh – Năm 2018 LỜI CẢM ƠN Em xin chân thành cảm ơn Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp HCM tạo điều kiện thuận lợi cho em trình học tập trình thực luận án Em xin chân thành cảm ơn PGS TS Hồ Bảo Quốc TS Phạm Nguyễn Cương hướng dẫn động viên em suốt trình thực luận án Em xin chân thành cảm ơn đến Tổ chức Học bổng Odon Vallet Quỹ Phát triển Khoa học Công nghệ Quốc gia (Nafosted) hỗ trợ kinh phí cho em hồn thành luận án Em xin bày tỏ lòng biết ơn sâu sắc đến Cha Mẹ Anh Chị ủng hộ giúp đỡ em Tác giả luận án Lê Nguyễn Hồi Nam LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết luận án trung thực chưa công bố cơng trình khác Tác giả luận án MỘT SỐ THUẬT NGỮ, TỪ VIẾT TẮT VÀ KÝ HIỆU Cụm từ viết tắt Tiếng Anh Tiếng Việt ALOFT At Least One Feature Một phương pháp xếp hạng độ quan trọng đặc trưng ALS Alternating Least Squares Một phương pháp cập nhật lặp ma trận thành phần chuyển đổi đặc trưng NMF AM Ambiguity Measure Feature Selection Một phương pháp tính độ quan trọng đặc trưng BalancedCatScore(tk,Ci) Balanced Category Score Hàm tính độ quan trọng cân đặc trưng tk cho phân loại chủ đề Ci BoW Bag-Of-Words Mơ hình túi từ biểu diễn văn BRatTL Balanced Feature Score Ranking at Total Level Phương pháp xếp hạng độ quan trọng đặc trưng cân mức độ toàn CatDiscrim(Ci) Category Discrimination Mức độ phân tách chủ đề Ci với chủ đề cịn lại CatScore(tk,Ci) Category Score Hàm tính độ quan trọng đặc trưng tk cho phân loại chủ đề Ci CHI Chi-square Một phương pháp tính độ quan trọng đặc trưng CIIC Crossed Centroid Feature Selection Một phương pháp tính độ quan trọng đặc trưng Clustering-based Filter Feature Selection Clustering-based Filter Feature Selection Phương pháp lọc đặc trưng dựa tối ưu tiêu chuẩn gom nhóm văn CMFS Comprehensive Measure Feature Selection Một phương pháp tính độ quan trọng đặc trưng Concepts-Documents Ma trận biểu diễn tập văn mức độ khái niệm ẩn học từ phương pháp chuyển đổi đặc trưng Concepts-Documents i DF Document Frequency Một phương pháp tính độ quan trọng đặc trưng DFPFS Deviation from Poisson Feature Selection Một phương pháp tính độ quan trọng đặc trưng DIF DIA Association Factor Một phương pháp tính độ quan trọng đặc trưng Doc-KM-Cluster-NMFInit Document K-means Clustering NMF Initialization Phương pháp khởi tạo chuyển đổi đặc trưng NMF gom nhóm văn K-Means Doc-SC-Cluster-NMFInit Document Subtractive Clustering NMF Initialization Phương pháp khởi tạo chuyển đổi đặc trưng NMF gom nhóm văn Subtractive Clustering DRR Dimension Reduction Rate Tỉ lệ giảm chiều DtFCFS Detailed FrequencyClustering Filter Feature Selection Một phương pháp tính độ quan trọng đặc trưng FCFS Frequency-Clustering Filter Feature Selection Phương pháp tính độ quan trọng đặc trưng FCM Fuzzy C-means Một phương pháp gom nhóm liệu Features-Documents Features-Documents Ma trận biểu diễn tập văn tập đặc trưng thô ban đầu Frequency-based Filter Feature Selection Frequency-based Filter Feature Selection Phương pháp lọc đặc trưng dựa tối ưu tần suất GlobalScore(tk,Ci) Global Score Hàm tính độ quan trọng đặc trưng tk cho phân loại toàn cục Hidden Concept Hidden Concept Các khái niệm ẩn học từ phương pháp chuyển đổi đặc trưng IG Information Gain Một phương pháp tính độ quan trọng đặc trưng Inter-category Constraint Thành phần thể tính quan trọng đặc trưng tk cho phân biệt chủ đề Ci với chủ đề lại InterCatScore(tk, Ci) ii Clustering-based Intercategory Constraint Thành phần thể tính quan trọng đặc trưng tk cho phân biệt chủ đề Ci với chủ đề lại xét theo tối ưu tiêu chuẩn gom nhóm InterCatScorefreq(tk, Ci) Frequency-based Intercategory Constraint Thành phần thể tính quan trọng đặc trưng tk cho phân biệt chủ đề Ci với chủ đề lại xét theo tối ưu tần suất IntraCatScore(tk, Ci) Intra-category Constraint Thành phần thể tính quan trọng đặc trưng tk cho nội chủ đề Ci IntraCatScoreclus(tk, Ci) Clustering-based Intracategory Constraint Thành phần thể tính quan trọng đặc trưng tk cho nội chủ đề Ci xét theo tối ưu tiêu chuẩn gom nhóm IntraCatScorefreq(tk, Ci) Frequency-based Intracategory Constraint Thành phần thể tính quan trọng đặc trưng tk cho nội chủ đề Ci xét theo tối ưu tần suất KM K-Means Một phương pháp gom nhóm liệu KMFS K-Means-based Filter Feature Selection Một phương pháp tính độ quan trọng đặc trưng LRA Low-rank Approximation Phép xấp xỉ ma trận hạng thấp LRAConcepts-Documents LRAConcepts-Documents Ma trận biểu diễn tập văn mức độ khái niệm ẩn học từ phương pháp chuyển đổi đặc trưng LRA MFD Maximum f Features per Document Một phương pháp xếp hạng độ quan trọng đặc trưng MU Multiplicative Update Một phương pháp cập nhật lặp ma trận thành phần chuyển đổi đặc trưng NMF NMF Non-negative Matrix Factorization Phép phân tích ma trận khơng âm Non-negative Double Singular Value Descomposition Một phương pháp khởi tạo chuyển đổi đặc trưng NMF InterCatScoreclus(tk, Ci) NNDSVD iii kết phép phân tích ma trận SVD OCFS Orthogonal Centroid Feature Selection Một phương pháp tính độ quan trọng đặc trưng PMI Pointwise Mutual Information PPMI Positive Pointwise Mutual Information RatCL Feature Score Ranking at Category Level Một phương pháp đo mối tương quan hai đặc trưng Một phương pháp đo mối tương quan không âm hai đặc trưng Phương pháp xếp hạng độ quan trọng đặc trưng mức độ chủ đề RatDL Feature Score Ranking at Document Level Phương pháp xếp hạng độ quan trọng đặc trưng mức độ văn RatTL Feature Score Ranking at Total Level Phương pháp xếp hạng độ quan trọng đặc trưng mức độ toàn SC Subtractive Clustering SMO Sequential Minimal Optimization Singular Value Decomposition Support Vector Machine Term K-means Clustering NMF Initialization Một phương pháp gom nhóm liệu Một phiên SVM SVD SVM Term-KM-Cluster-NMFInit Terms-Documents Terms-Documents WE WE Concept Word Embedding WE Concept WEConcepts-Documents WEintoLRA WEConcepts-Documents Word Embedding into Lowrank Approximation iv Một phép phân tích ma trận Một mơ hình học phân lớp Phương pháp khởi tạo chuyển đổi đặc trưng NMF gom nhóm đặc trưng K-means Ma trận biểu diễn tâp văn tập từ vựng Phép nhúng từ Đặc trưng học từ phép nhúng từ Ma trận biểu diễn tập văn mức độ khái niệm ẩn học từ phương pháp chuyển đổi đặc trưng WE Phương pháp chuyển đổi đặc trưng tích hợp phép nhúng từ phép xấp xỉ ma trận hạng thấp MỤC LỤC Chương GIỚI THIỆU 1.1 Đặt vấn đề 1.2 Mục tiêu luận án 1.2.1 Về lựa chọn đặc trưng 1.2.2 Về chuyển đổi đặc trưng 1.3 Đóng góp luận án 11 1.4 Cấu trúc luận án 15 Chương TỔNG QUAN VỀ TINH GIẢM SỐ LƯỢNG ĐẶC TRƯNG CHO PHÂN LOẠI VĂN BẢN 17 2.1 Bài toán tinh giảm số lượng đặc trưng 18 2.2 Tổng quan lựa chọn đặc trưng 20 2.2.1 Tính độ quan trọng đặc trưng 24 2.2.2 Xếp hạng độ quan trọng đặc trưng 30 2.3 Tổng quan chuyển đổi đặc trưng 32 2.3.1 SVD (Singular Value Decomposition) 33 2.3.2 NMF (Non-negative Matrix Factorization) 34 2.3.3 Chuyển đổi đặc trưng dựa LRA 35 2.3.4 So sánh chuyển đổi đặc trưng dựa NMF chuyển đổi đặc trưng dựa SVD 37 2.4 Mơ hình học phân lớp mối tương quan với tinh giảm số lượng đặc trưng 40 2.5 Đánh giá phân loại văn 43 2.6 Tổng kết chương 44 Chương PHÂN TÍCH VÀ ĐỀ XUẤT CÁC PHƯƠNG PHÁP TÍNH ĐỘ QUAN TRỌNG ĐẶC TRƯNG TRONG LỰA CHỌN ĐẶC TRƯNG CHO PHÂN LOẠI VĂN BẢN 45 3.1 Phân tích InterCatScore đề xuất phương pháp cải tiến 45 3.2 Phân tích IntraCatScore đề xuất phương pháp cải tiến 48 3.2.1 Đề xuất IntraCatScore 48 3.2.2 Một phiên chi tiết FCFS 51 3.3 Thực nghiệm 54 3.3.1 Thiết lập thực nghiệm 54 3.3.2 Dữ liệu thực nghiệm 57 3.3.3 Kết thực nghiệm Micro-F1 Macro-F1 phương pháp dựa tối ưu tiêu chuẩn gom nhóm 60 v 3.3.4 Kết thực nghiệm Micro-F1 Macro-F1 phương pháp kết hợp IntraCatScore InterCatScore 61 3.3.5 Phân tích độ đo F 64 3.3.6 Phân tích tập từ vựng chọn 67 3.3.7 Kết thực nghiệm tỉ lệ giảm chiều 70 3.3.8 Phân tích thống kê 72 3.3.9 Phân tích độ phức tạp thời gian tính tốn 74 3.4 Tổng kết chương 79 Chương PHÂN TÍCH VÀ ĐỀ XUẤT CÁC PHƯƠNG PHÁP XẾP HẠNG ĐỘ QUAN TRỌNG ĐẶC TRƯNG TRONG LỰA CHỌN ĐẶC TRƯNG CHO PHÂN LOẠI VĂN BẢN 82 4.1 Phân tích ảnh hưởng phương pháp xếp hạng độ quan trọng đặc trưng tới cân hiệu suất phân loại sau lựa chọn đặc trưng 82 4.2 Xếp hạng độ quan trọng đặc trưng mức độ chủ đề (RatCL) 85 4.3 Xếp hạng độ quan trọng đặc trưng cân mức độ toàn (BRatTL) 88 4.4 Thực nghiệm 89 4.4.1 Thiết lập thực nghiệm 89 4.4.2 Kết thực nghiệm 91 4.4.3 Phân tích thống kê 101 4.4.4 Phân tích độ phức tạp thời gian tính tốn 105 4.5 Tổng kết chương 105 Chương PHÂN TÍCH VÀ ĐỀ XUẤT CÁC PHƯƠNG PHÁP KHỞI TẠO CHO QUÁ TRÌNH CHUYỂN ĐỔI ĐẶC TRƯNG NMF TRONG PHÂN LOẠI VĂN BẢN 107 5.1 Khởi tạo chuyển đổi đặc trưng NMF 107 5.2 Động nghiên cứu 109 5.3 Khởi tạo chuyển đổi đặc trưng NMF dựa gom nhóm góc nhìn từ vector đặc trưng 112 5.3.1 Khởi tạo ma trận đặc trưng sở 112 5.3.2 Khởi tạo ma trận tọa độ đặc trưng 114 5.4 Thực nghiệm 116 5.4.1 Thiết lập thực nghiệm 116 5.4.2 Kết thực nghiệm độ lỗi xấp xỉ số vòng lặp 119 5.4.3 Kết thực nghiệm hiệu suất phân loại Micro-F1 Macro-F1 121 5.4.4 Kết thực nghiệm tỉ lệ giảm chiều 123 5.4.5 Phân tích tính xác định vấn đề nhóm rỗng 125 vi Độ Quan Trọng Đặc Trưng FCFS, DtFCFS: Intra-Cat Cons x Inter-Cat Cons Đặc trưng thô – Văn (txd) Các văn chủ đề trở nên gần Các chủ đề hệ thống trở nên tách biệt Lựa chọn đặc trưng Đặc trưng chọn-Văn (Lxd) Xếp Hạng Độ Quan Trọng Đặc Trưng BRatTL RatCL: cấu trúc tập sau cân bẳng Tăng số lượng đặc trưng thiên chủ đề có tài liệu chủ đề khó phân biệt Giảm số lượng đặc trưng thiên chủ đề có nhiều tài liệu chủ đề dễ phân biệt Chuyển Đổi Đặc Trưng Dựa Trên NMF Feature-Clustering-NMFInit Diễn giải ma trận NMF góc độ đặc trưng Đặc trưng chọn-Văn (Lxd) Khởi tạo NMF dựa gom nhóm vector đặc trưng Chuyển đổi đặc trưng Chuyển Đổi Đặc Trưng Tích Hợp WEIntoLRA Khái niệm ẩn-Văn (rxd) Tính hiệu mặt ngữ cảnh xuất từ vựng Tính hiệu mặt thống kê Hình 7.1 Tổng qt đóng góp luận án 7.2 Hướng phát triển Bên cạnh kết đạt được, luận án tồn số vấn đề cần tập trung nghiên cứu nhiều nữa: 148 A Trong Chương 4, luận án để tạo phương pháp lựa chọn đặc trưng tốt liên quan nhiều tới phương pháp tính mức độ phân tách vốn có chủ đề với (Category Discrimination) Trong thực nghiệm, thiết lập thông số cách tính tốn trực tiếp ma trận biểu diễn tập văn ban đầu Bởi thực tế triển khai, tác động đặc trưng nhiễu lên ma trận biểu diễn tập văn ban đầu lớn nên cách tính thơng số thực nghiệm mà chúng tơi làm khơng cịn thu hiệu cao Trong nghiên cứu tiếp theo, tập trung đề xuất phương pháp tính mức độ phân tách vốn có chủ đề với cách xác hơn, qua góp phần nâng cao hiệu trình lựa chọn đặc trưng B Tiếp tục nghiên cứu Chương khởi tạo NMF theo hướng vector đặc trưng, hướng tới nghiên cứu khác trình cập nhật lặp trình xác định điểm hội tụ NMF xem xét ma trận thành phần góc độ đặc trưng Mục tiêu tạo phương pháp chuyển đổi đặc trưng dựa NMF tính tốn cách tồn diện vector đặc trưng – thể đầy đủ chất đặc trưng tập văn – thay có giai đoạn khởi tạo NMF luận án C Trong Chương 6, sử dụng thực nghiệm để chứng minh tính đắn (vừa mang tính thống kê vừa mang tính ngữ cảnh xuất từ vựng) việc tích hợp chuyển đổi đặc trưng LRA chuyển đổi đặc trưng WE Tuy nhiên, thật cần thiết cho nghiên cứu chứng minh điều tính tốn thuyết phục Đây tiền đề quan trọng cho việc đề xuất chuyển đổi đặc trưng tích hợp tốt LRA WE D Về chuyển đổi đặc trưng, xuyên suốt luận án, hướng tới giải pháp tăng thêm tính ngữ nghĩa vào trình chuyển đổi đặc trưng truyền thống dựa LRA Cụ thể, Chương 5, nhiều phương pháp để thực LRA, chọn NMF - phương pháp trì ý nghĩa khơng âm mức cao tính “part-based presentation”- Chương 6, chúng tơi tích hợp WE –một phương pháp biểu diễn từ vựng mang đầy đủ thông tin 149 ngữ cảnh xuất từ vựng- vào LRA Tuy nhiên, việc nên thiên trì tính hiệu mặt thống kê - trì cấu trúc thống kê ma trận biểu diễn tập văn trước chuyển đổi- hay nên thiên tăng tính ngữ nghĩa cho ma trận biểu diễn tập văn sau chuyển đổi vấn đề cần xem xét thêm, đặc biệt với tập văn lớn E Khi kích thước tập văn văn tập lớn, phương pháp tinh giảm số lượng đặc trưng thực phép tính tốn toàn ma trận biểu diễn tập văn dần khơng cịn trở nên khả thi Trong ngữ cảnh này, thật cần thiết hướng tới phương pháp tinh giảm số lượng đặc trưng khơng cần duyệt tồn ma trận biểu diễn tập văn mà trì hiệu cao hướng tới giải pháp tinh giảm số lượng đặc trưng phân tán F Trong nghiên cứu tiếp theo, tiến hành kiểm nghiệm tính hiệu phương pháp tinh giảm số lượng đặc trưng đề xuất nhiều liệu thuộc lĩnh vực khác phân loại văn 150 DANH MỤC CÁC CƠNG TRÌNH CỦA TÁC GIẢ Tạp Chí [I] Nam, L N H., & Quoc, H B (2017) The Hybrid Filter Feature Selection Methods for Improving High-Dimensional Text Categorization International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, Volume 25, Issue 02, pp 235-265 (ISSN: 0218-4885; ISI Journal: SCIE; World Scientific Journal; IF=1.159) [II] Nam, L N H., & Quoc, H B (2017) Integrating Low-rank Approximation and Word Embedding for Feature Transformation in the High-dimensional Text Classification Procedia Computer Science Journal, Volume 112, Special Issue for Knowledge-Based and Intelligent Information & Engineering Systems, pp 437-446 (ISSN: 1877-0509; Elsevier Open Acess Journal indexed in Scopus; RG IF= 1.08) Hội Nghị [III] Nam, L N H., & Quoc, H B (2017) The Clustering-Based Initialization for Non-negative Matrix Factorization in the Feature Transformation of the High-Dimensional Text Categorization System: A Viewpoint of Term Vectors In Proceedings of the 21st International Conference on Theory and Practice of Digital Libraries (TPDL 2017), full paper, pp 511-522, Springer (ISBN: 9783319670072; Conference Ranking A on Information Retrieval*) [IV] Nam, L N H., & Quoc, H B (2016) The ranking methods in the filter feature selection process for text categorization system In Proceedings of the 20th Pacific Asia Conference on Information Systems (PACIS 2016), full paper, Paper 159, Association for Information Systems (ISBN: 9789860491029; Conference Ranking A on Information Systems*) [V] Nam, L N H., & Quoc, H B (2015) A Comprehensive Filter Feature Selection for Improving Document Classification In Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation (PACLIC 2015), full paper, pp.169 – 177, Association for Computational Linguistics (ISBN: 9786165518871; Conference Ranking B on Artificial Intelligence*) [VI] Nam, L N H., & Quoc, H B (2015) A Combined Approach for Filter Feature Selection in Document Classification In Proceedings of the 27th IEEE International Conference on Tools with Artificial Intelligence (ICTAI 2015), full paper, pp 317-324, IEEE (ISBN: 9781509001637; Conference Ranking B on Artificial Intelligence*) *Xếp hạng hội nghị công bố vào năm 2017 Computing Research and Education Association of Australasia (CORE 2017) http://portal.core.edu.au/conf-ranks/ 151 TÀI LIỆU THAM KHẢO [1] Aggarwal, C C., & Zhai, C (Eds.) (2012) Mining text data Springer Science & Business Media [2] Ahaſ, D W., & Bankert'ſ, R L (2012) A comparative evaluation of sequential feature selection algorithms Learning from Data: Artificial Intelligence and Statistics V, 112, 199 [3] Androutsopoulos, I., Koutsias, J., Chandrinos, K V., Paliouras, G., & Spyropoulos, C D (2000) An evaluation of naive bayesian anti-spam filtering arXiv preprint cs/0006013 [4] Asuncion, A., & Newman, D (2007) UCI machine learning repository [5] Badawi, D., & Altnỗay, H (2017) Termset weighting by adapting term weighting schemes to utilize cardinality statistics for binary text categorization Applied Intelligence, 1-17 [6] Basu, T., & Murthy, C A (2016) A supervised term selection technique for effective text categorization International Journal of Machine Learning and Cybernetics, 7(5), 877-892 [7] Bellman, R., (1961) Adaptive control processes: a guided tour (Vol 4) Princeton: Princeton university press [8] Bermejo, P., Gámez, J A., & Puerta, J M (2014) Speeding up incremental wrapper feature subset selection with Naive Bayes classifier Knowledge-Based Systems, 55, 140-147 [9] Bernadó-Mansilla, E., & Garrell-Guiu, J M (2003) Accuracy-based learning classifier systems: models, analysis and applications to classification tasks Evolutionary computation, 11(3), 209-238 [10] Berry, M W., & Kogan, J (Eds.) (2010) Text mining: applications and theory John Wiley & Sons [11] Bingham, E., & Mannila, H (2001, August) Random projection in dimensionality reduction: applications to image and text data In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining (pp 245-250) ACM [12] Blum, A L., & Langley, P (1997) Selection of relevant features and examples in machine learning Artificial intelligence, 97(1), 245-271 [13] Boutsidis, C., & Gallopoulos, E (2008) SVD based initialization: A head start for non-negative matrix factorization Pattern Recognition, 41(4), 1350-1362 [14] Brunet, J P., Tamayo, P., Golub, T R., & Mesirov, J P (2004) Metagenes and molecular pattern discovery using matrix factorization Proceedings of the national academy of sciences, 101(12), 41644169 [15] Bullinaria, J A., & Levy, J P (2007) Extracting semantic representations from word cooccurrence statistics: A computational study Behavior research methods, 39(3), 510-526 [16] Cardoso-Cachopo, A., & Oliveira, A L (2007, March) Semi-supervised single-label text categorization using centroid-based classifiers In Proceedings of the 2007 ACM symposium on Applied computing (pp 844-851) ACM 152 [17] Carvalho, V R., & Cohen, W W (2005, August) On the collective classification of email speech acts In Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (pp 345-352) ACM [18] Casalino, G., & Mencar, C (2014) Subtractive clustering for seeding non-negative matrix factorizations Information Sciences, 257, 369-387 [19] Chakraborti, S., Mukras, R., Lothian, R., Wiratunga, N., Watt, S N., & Harper, D J (2007, January) Supervised Latent Semantic Indexing Using Adaptive Sprinkling In IJCAI (pp 1582-1587) [20] Chan, T F (1992) An improved algorithm for computing the singular value decomposition ACM Transactions on Mathematical Software (TOMS), 8(1), 72-83 [21] Chawla, N V., Japkowicz, N., & Kotcz, A (2004) Editorial: special issue on learning from imbalanced data sets ACM Sigkdd Explorations Newsletter, 6(1), 1-6 [22] Chen, J., Huang, H., Tian, S., & Qu, Y (2009) Feature selection for text classification with Naïve Bayes Expert Systems with Applications, 36(3), 5432-5435 [23] Cichocki, A., & Zdunek, R (2009) Nonnegative matrix and tensor factorizations: applications to exploratory multi-way data analysis and blind source separation John Wiley & Sons [24] Cios, K J., Pedrycz, W., & Swiniarski, R W (1998) Data mining and knowledge discovery In Data Mining Methods for Knowledge Discovery (pp 1-26) Springer US [25] Cooper, M., & Foote, J (2002, December) Summarizing video using non-negative similarity matrix factorization In Multimedia Signal Processing, 2002 IEEE Workshop on (pp 25-28) IEEE [26] Correa, R F., & Ludermir, T B (2006) Improving self-organization of document collections by semantic mapping Neurocomputing, 70(1), 62-69 [27] Cortes, C., & Vapnik, V (1995) Support-vector networks Machine learning, 20(3), 273-297 [28] Crammer, K., & Singer, Y (2001) On the algorithmic implementation of multiclass kernel-based vector machines Journal of machine learning research, 2(Dec), 265-292 [29] Das, S (2001, June) Filters, wrappers and a boosting-based hybrid for feature selection In ICML (Vol 1, pp 74-81) [30] Deerwester, S., Dumais, S T., Furnas, G W., Landauer, T K (1990) Indexing by latent semantic analysis Journal of the American society for information science, 41(6), 391 [31] Demmel, J W (1997) Applied numerical linear algebra Society for Industrial and Applied Mathematics [32] Eckart, C., & Young, G (1936) The approximation of one matrix by another of lower rank Psychometrika, 1(3), 211-218 [33] Enríquez, F., Troyano, J A., & López-Solaz, T (2016) An approach to the use of word embeddings in an opinion classification task Expert Systems with Applications, 66, 1-6 153 [34] Erkan, G., & Radev, D R (2004) Lexrank: Graph-based lexical centrality as salience in text summarization Journal of Artificial Intelligence Research, 22, 457-479 [35] Feldman, R., & Sanger, J (2007) The text mining handbook: advanced approaches in analyzing unstructured data Cambridge university press [36] Feng, L., Zuo, W., & Wang, Y (2015, January) Improved Comprehensive Measurement Feature Selection Method for Text Categorization In Network and Information Systems for Computers (ICNISC), 2015 International Conference on (pp 125-128) IEEE [37] Filatova, E., & Hatzivassiloglou, V (2004, August) A formal model for information selection in multi-sentence text extraction In Proceedings of the 20th international conference on Computational Linguistics (p 397) Association for Computational Linguistics [38] Foltz, P W (1990, March) Using latent semantic indexing for information filtering In ACM SIGOIS Bulletin (Vol 11, No 2-3, pp 40-47) ACM [39] Forman, G (2003) An extensive empirical study of feature selection metrics for text classification The Journal of Machine Learning Research, 3, 1289–1305 [40] Fragoudis, D., & Meretakis, D (2005) Best terms: an efficient feature-selection algorithm for text categorization Knowledge and Information Systems, 8(1), 16-33 [41] Fréin, R., Drakakis, K., Rickard, S., & Cichocki, A (2008) Analysis of financial data using nonnegative matrix factorization In International Mathematical Forum (Vol 3, No 38, pp 1853-1870) Journals of Hikari Ltd [42] Friedman, J., Hastie, T., & Tibshirani, R (2001) The elements of statistical learning (Vol 1) Springer, Berlin: Springer series in statistics [43] Fung, P., & Ngai, G (2006) One story, one flow: Hidden Markov Story Models for multilingual multidocument summarization ACM Transactions on Speech and Language Processing (TSLP), 3(2), 1-16 [44] Galley, M (2006, July) A skip-chain conditional random field for ranking meeting utterances by importance In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (pp 364-372) Association for Computational Linguistics [45] Gao, Y., & Church, G (2005) Improving molecular cancer class discovery through sparse nonnegative matrix factorization Bioinformatics, 21(21), 3970-3975 [46] García, S., Fernández, A., Luengo, J., & Herrera, F (2009) A study of statistical techniques and performance measures for genetics-based machine learning: accuracy and interpretability Soft Computing, 13(10), 959-977 [47] Golub, G H., & Van Loan, C F (2012) Matrix computations (Vol 3) JHU Press 154 [48] Gomez, J C., & Moens, M F (2012) PCA document reconstruction for email classification Computational Statistics & Data Analysis, 56(3), 741-751 [49] Gopal, S., & Yang, Y (2010, July) Multilabel classification with meta-level features In Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval (pp 315-322) ACM [50] Grobelnik, M., & Mladenic, D (2004) Text-mining tutorial the Proceedings of Learning Methods for Text Understanding and Mining, Grenoble, France [51] Guillamet, D., & Vitria, J (2002a) Non-negative matrix factorization for face recognition In Topics in artificial intelligence (pp 336-344) Springer Berlin Heidelberg [52] Guillamet, D., & Vitria, J (2002b, October) Classifying faces with nonnegative matrix factorization In Proc 5th Catalan conference for artificial intelligence (pp 24-31) [53] Gunal, S., & Edizkan, R (2008) Subspace based feature selection for pattern recognition Information Sciences, 178(19), 3716-3726 [54] Guyon, I., & Elisseeff, A (2003) An introduction to variable and feature The Journal of Machine Learning Research, 3, 1157–1182 [55] Han, M., & Ren, W (2015) Global mutual information-based feature selection approach using single-objective and multi-objective optimization Neurocomputing, 168, 47-54 [56] Hofmann, T (1999, July) Probabilistic latent semantic analysis In Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence (pp 289-296) Morgan Kaufmann Publishers Inc [57] Hosseini-Asl, E., & Zurada, J M (2014, June) Nonnegative matrix factorization for document clustering: A survey In International Conference on Artificial Intelligence and Soft Computing (pp 726-737) Springer International Publishing [58] Howland, P., & Park, H (2004) Generalizing discriminant analysis using the generalized singular value decomposition Pattern Analysis and Machine Intelligence, IEEE Transactions on, 26(8), 9951006 [59] Huang, E H., Socher, R., Manning, C D., & Ng, A Y (2012, July) Improving word representations via global context and multiple word prototypes In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume (pp 873-882) Association for Computational Linguistics [60] Jain, A K (2010) Data clustering: 50 years beyond K-means Pattern recognition letters, 31(8), 651-666 [61] Jandot, C., Simard, P., Chickering, M., Grangier, D., & Suh, J (2016) Interactive Semantic Featuring for Text Classification arXiv preprint arXiv:1606.07545 155 [62] Janecek, A., Gansterer, W N., Demel, M., & Ecker, G (2008, September) On the Relationship Between Feature Selection and Classification Accuracy In FSDM (pp 90-105) [63] Jin, C., Ma, T., Hou, R., Tang, M., Tian, Y., Al-Dhelaan, A., & Al-Rodhaan, M (2015) Chisquare statistics feature selection based on term frequency and distribution for text categorization IETE journal of research, 61(4), 351-362 [64] Joachims, T (1998) Text categorization with support vector machines: Learning with many relevant features Machine learning: ECML-98, 137-142 [65] Joachims, T (2001, September) A statistical learning learning model of text classification for support vector machines In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval (pp 128-136) ACM [66] Jolliffe, I (2002) Principal component analysis John Wiley & Sons, Ltd [67] Kao, A., & Poteet, S R (Eds.) (2007) Natural language processing and text mining Springer Science & Business Media [68] Kawamoto, T., Hotta, K., Mishima, T., Fujiki, J., Tanaka, M., & Kurita, T (2000) Estimation of single tones from chord sounds using non-negative matrix factorization Neural Network World, 10(3), 429-436 [69] Kim, H., & Park, H (2007) Sparse non-negative matrix factorizations via alternating nonnegativity-constrained least squares for microarray data analysis Bioinformatics, 23(12), 1495-1502 [70] Klimt, B., & Yang, Y (2004, September) The enron corpus: A new dataset for email classification research In European Conference on Machine Learning (pp 217-226) Springer Berlin Heidelberg [71] Kohavi, R., & John, G H (1997) Wrappers for feature subset selection Artificial intelligence, 97(1-2), 273-324 [72] Kotsiantis, S B., Zaharakis, I., & Pintelas, P (2007) Supervised machine learning: A review of classification techniques [73] Lavengood, K A., & Kiser, P (2007) Information professionals in the text mine Online, 31(3), 16-21 [74] Lee, D D., & Seung, H S (1999) Learning the parts of objects by non-negative matrix factorization Nature, 401(6755), 788-791 [75] Lee, D D., & Seung, H S (2001) Algorithms for non-negative matrix factorization In Advances in neural information processing systems (pp 556-562) [76] Lee, S., Baker, J., Song, J., & Wetherbe, J C (2010, January) An empirical comparison of four text mining methods In System Sciences (HICSS), 2010 43rd Hawaii International Conference on (pp 1-10) IEEE 156 [77] Levy, O., & Gold Y (2015) Improving distributional similarity with lessons learned from word embeddings Transactions of Computational Linguistics Association, 3, 211-225 [78] Lewis, D D., & Knowles, K A (1997) Threading electronic mail: A preliminary study Information processing & management, 33(2), 209-217 [79] Li, X., Cheung, W K., Liu, J., & Wu, Z (2007, June) A novel orthogonal NMF-based belief compression for POMDPs In Proceedings of the 24th international conference on Machine learning (pp 537-544) ACM [80] Li, Y., Li, T., & Liu, H (2017) Recent advances in feature selection and its applications Knowledge and Information Systems, 1-27 [81] Lilleberg, J., Zhu, Y., & Zhang, Y (2015, July) Support vector machines and word2vec for text classification with semantic features In Cognitive Informatics & Cognitive Computing (ICCI* CC), 2015 IEEE 14th International Conference on (pp 136-140) IEEE [82] Liu, B (2007) Web data mining: exploring hyperlinks, contents, and usage data Springer Science & Business Media [83] Liu, B., & Zhang, L (2012) A survey of opinion mining and sentiment analysis In Mining text data (pp 415-463) Springer US [84] Liu, H., & Motoda, H (2012) Feature selection for knowledge discovery and data mining (Vol 454) Springer Science & Business Media [85] Liu, H., & Motoda, H (Eds.) (1998) Feature extraction, construction and selection: A data mining perspective Springer Science & Business Media [86] Liu, H., & Yu, L (2005) Toward integrating feature selection algorithms for classification and clustering IEEE Transactions on knowledge and data engineering, 17(4), 491-502 [87] Liu, T Y., Yang, Y., Wan, H., Zeng, H J., Chen, Z., & Ma, W Y (2005) Support vector machines classification with a very large-scale taxonomy ACM SIGKDD Explorations Newsletter, 7(1), 36-43 [88] MacQueen, J (1967, June) Some methods for classification and analysis of multivariate observations In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability (Vol 1, No 14, pp 281-297) [89] McCarey, F., Cinneide, M O., & Kushmerick, N (2006, June) Recommending library methods: An evaluation of the vector space model (VSM) and latent semantic indexing (LSI) In International Conference on Software Reuse (pp 217-230) Springer Berlin Heidelberg [90] Meng, J., Lin, H., & Yu, Y (2011) A two-stage feature selection method for text categorization Computers & Mathematics with Applications, 62(7), 2793-2800 [91] Mengle, S S., & Goharian, N (2009) Ambiguity measure feature selection algorithm Journal of the American Society for Information Science and Technology, 60(5), 1037-1050 157 [92] Mikolov, T., Chen, K., Corrado, G., & Dean, J (2013) Efficient estimation of word representations in vector space arXiv preprint arXiv:1301.3781 [93] Mladenić, D., Brank, J., Grobelnik, M., & Milic-Frayling, N (2004, July) Feature selection using linear classifier weights: interaction with classification models In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp 234241) ACM [94] Ogura, H., Amano, H., & Kondo, M (2009) Feature selection with a measure of deviations from Poisson in text categorization Expert Systems with Applications, 36(3), 6826-6832 [95] Onan, A., Korukoğlu, S., & Bulut, H (2016) Ensemble of keyword extraction methods and classifiers in text classification Expert Systems with Applications, 57, 232-247 [96] Paatero, P., & Tapper, U (2002) Positive matrix factorization: A nonnegative factor model with optimal utilization of error estimates of data values Environmetrics, 5(2), 111-126 [97] Papadimitriou, C H., Raghavan, P., Tamaki, H., & Vempala, S (2000) Latent semantic indexing: A probabilistic analysis Journal of Computer and System Sciences, 61(2), 217-235 [98] Park, S., Lee, J H., Kim, D H., & Ahn, C M (2007) Multi-document summarization based on cluster using non-negative matrix factorization SOFSEM 2007: Theory and Practice of Computer Science, 761-770 [99] Pauca, V P., Shahnaz, F., Berry, M W., & Plemmons, R J (2004, April) Text mining using nonnegative matrix factorizations In Proceedings of the 2004 SIAM International Conference on Data Mining (pp 452-456) Society for Industrial and Applied Mathematics [100] Pennington, J., Socher, R., & Manning, C D (2014, October) Glove: Global Vectors for Word Representation In EMNLP (Vol 14, pp 1532-1543) [101] Pinheiro, R H., Cavalcanti, G D., & Ren, T I (2015) Data-driven global-ranking local feature selection methods for text categorization Expert Systems with Applications, 42(4), 1941-1949 [102] Pinheiro, R H., Cavalcanti, G D., Correa, R F., & Ren, T I (2012) A global-ranking local feature selection method for text categorization Expert Systems with Applications, 39(17), 1285112857 [103] Platt, J C (1999) 12 fast training of support vector machines using sequential minimal optimization Advances in kernel methods, 185-208 [104] Porter, M F (1980) An algorithm for suffix stripping Program, 14(3), 130-137 [105] Powell, W B (2007) Approximate Dynamic Programming: Solving the curses of dimensionality (Vol 703) John Wiley & Sons 158 [106] Puche, J M., Benítez, J M., Castro, J L., & Mantas, C J (2006, November) Fuzzy pairwise multiclass support vector machines In Mexican International Conference on Artificial Intelligence (pp 562-571) Springer Berlin Heidelberg [107] Qiao, H (2015) New SVD based initialization strategy for non-negative matrix factorization Pattern Recognition Letters, 63, 71-77 [108] Quinlan, J R (1986) Induction of decision trees Machine learning, 1(1), 81-106 [109] Ravisankar, P., Ravi, V., Rao, G R., & Bose, I (2011) Detection of financial statement fraud and feature selection using data mining techniques Decision Support Systems, 50(2), 491-500 [110] Robila, S A., & Maciak, L G (2009) Considerations on parallelizing nonnegative matrix factorization for hyperspectral data unmixing IEEE Geoscience and Remote Sensing Letters, 6(1), 5761 [111] Saeys, Y., Inza, I., & Larrañaga, P (2007) A review of feature selection techniques in bioinformatics bioinformatics, 23(19), 2507-2517 [112] Sauwen, N., Acou, M., Bharath, H., Sima, D., Veraart, J., Maes, F., & Biomedical, M R I (2016, January) Initializing nonnegative matrix factorization using the successive projection algorithm for multi-parametric medical image segmentation In Proceedings of the 24th ESANN European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning [113] Scholkopf, B., & Smola, A J (2001) Learning with kernels: support vector machines, regularization, optimization, and beyond MIT press [114] Schutt, R., & O'Neil, C (2013) Doing data science: Straight talk from the frontline O'Reilly Media, Inc [115] Scott, S., & Matwin, S (1999, June) Feature engineering for text classification In ICML (Vol 99, pp 379-388) [116] Sebastiani, F (2002) Machine learning in automated text categorization ACM computing surveys (CSUR), 34(1), 1-47 [117] Shang, W., Huang, H., Zhu, H., Lin, Y., Qu, Y., & Wang, Z (2007) A novel feature selection algorithm for text categorization Expert Systems with Applications, 33(1), 1-5 [118] Sohrab, M G., Miwa, M., & Sasaki, Y (2015, May) Centroid-Means-Embedding: An Approach to Infusing Word Embeddings into Features for Text Classification In Pacific-Asia Conference on Knowledge Discovery and Data Mining (pp 289-300) Springer International Publishing [119] Song, M (Ed.) (2008) Handbook of research on text and web mining technologies IGI Global [120] Spiegel Murray, R S L J., & Stephens Larry, J (1999) Schaum’s Outline of Theory and Problems of Statistics 159 [121] Srivastava, A N., & Sahami, M (Eds.) (2009) Text mining: Classification, clustering, and applications CRC Press [122] Taboada, M., Brooke, J., Tofiloski, M., Voll, K., & Stede, M (2011) Lexicon-based methods for sentiment analysis Computational linguistics, 37(2), 267-307 [123] Tam, V., Santoso, A., & Setiono, R (2002) A comparative study of centroid-based, neighborhood-based and statistical approaches for effective document categorization In Pattern Recognition, 2002 Proceedings 16th International Conference on (Vol 4, pp 235-238) IEEE [124] Tan, P N (2006) Introduction to data mining Pearson Education India [125] TaşCı, Ş., & Güngör, T (2013) Comparison of text feature selection policies and using an adaptive framework Expert Systems with Applications, 40(12), 4871-4886 [126] Tong, S., & Koller, D (2001) Support vector machine active learning with applications to text classification Journal of machine learning research, 2(Nov), 45-66 [127] Tulai, A F., & Oppacher, F (2004, January) Multiple Species Weighted Voting–A GeneticsBased Machine Learning System In Genetic and Evolutionary Computation–GECCO 2004 (pp 12631274) Springer Berlin Heidelberg [128] Turney, P D., & Pantel, P (2010) From frequency to meaning: Vector space models of semantics Journal of artificial intelligence research, 37(1), 141-188 [129] Uysal, A K., & Gunal, S (2012) A novel probabilistic feature selection method for text classification Knowledge-Based Systems, 36, 226-235 [130] Vapnik, V (2013) The nature of statistical learning theory Springer science & business media [131] Vulic, I., & Moens, M F (2015, August) Monolingual and cross-lingual information retrieval models based on (bilingual) word embeddings In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp 363-372) ACM [132] Wang, D., Li, T., Zhu, S., & Ding, C (2008, July) Multi-document summarization via sentencelevel semantic analysis and symmetric matrix factorization In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (pp 307314) ACM [133] Wang, F., Li, T., Wang, X., Zhu, S., & Ding, C (2011) Community discovery using nonnegative matrix factorization Data Mining and Knowledge Discovery, 22(3), 493-521 [134] Wang, S., & Yao, X (2012) Multiclass imbalance problems: Analysis and potential solutions Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on, 42(4), 1119-1130 [135] Wang, Y X., & Zhang, Y J (2013) Nonnegative matrix factorization: A comprehensive review IEEE Transactions on Knowledge and Data Engineering, 25(6), 1336-1353 160 [136] Williams, J D., Kamal, E., Ashour, M., Amr, H., Miller, J., & Zweig, G (2015, September) Fast and easy language understanding for dialog systems with Microsoft Language Understanding Intelligent Service (LUIS) In SIGDIAL Conference (pp 159-161) [137] Witten, I H., Frank, E., Hall, M A., & Pal, C J (2016) Data Mining: Practical machine learning tools and techniques Morgan Kaufmann [138] Xie, Y L., Hopke, P K., & Paatero, P (1999) Positive matrix factorization applied to a curve resolution problem Journal of Chemometrics, 12(6), 357-364 [139] Xu, R., & Wunsch, D (2005) Survey of clustering algorithms IEEE Transactions on neural networks, 16(3), 645-678 [140] Xu, W., Liu, X., & Gong, Y (2003, July) Document clustering based on non-negative matrix factorization In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval (pp 267-273) ACM [141] Xue, Y., Tong, C S., Chen, Y (2008) Clustering-based initialization for non-negative matrix factorization Applied Mathematics and Computation, 205(2), 525-536 [142] Yan, J., Liu, N., Zhang, B., Yan, S., Chen, Z., Cheng, Q., & Ma, W Y (2005, August) OCFS: optimal orthogonal centroid feature selection for text categorization In Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (pp 122129) ACM [143] Yang, H., Hu, Q., & He, L (2015, May) Learning topic-oriented word embedding for query classification In Pacific-Asia Conference on Knowledge Discovery and Data Mining (pp 188-198) Springer International Publishing [144] Yang, J., & Liu, Z (2011, July) A feature selection based on deviation from feature centroid for text categorization In Intelligent Control and Information Processing (ICICIP), 2011 2nd International Conference on (Vol 1, pp 180-184) IEEE [145] Yang, J., Liu, Y., Zhu, X., Liu, Z., & Zhang, X (2012) A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization Information Processing & Management, 48(4), 741-754 [146] Yang, J., Liu, Z., Qu, Z., & Wang, J (2014, June) Feature selection method based on crossed centroid for text categorization In Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD), 2014 15th IEEE/ACIS International Conference on (pp 1-5) IEEE [147] Yang, Y., & Pedersen, J O (1997, July) A comparative study on feature selection in text categorization In ICML (Vol 97, pp 412-420) 161 [148] Yeh, J Y., Wu, T H., & Tsao, C W (2011) Using data mining techniques to predict hospitalization of hemodialysis patients Decision Support Systems, 50(2), 439-448 [149] Yu, L., & Liu, H (2003, August) Feature selection for high-dimensional data: A fast correlationbased filter solution In ICML (Vol 3, pp 856-863) [150] Zhang, S., Wang, W., Ford, J., & Makedon, F (2006, April) Learning from incomplete ratings using non-negative matrix factorization In Proceedings of the 2006 SIAM International Conference on Data Mining (pp 549-553) Society for Industrial and Applied Mathematics [151] Zhang, Y., & Zhang, Z (2012) Feature subset selection with cumulate conditional mutual information minimization Expert systems with applications, 39(5), 6078-6088 [152] Zheng, Z., Yang, J., & Zhu, Y (2007) Initialization enhancer for non-negative matrix factorization Engineering Applications of Artificial Intelligence, 20(1), 101-110 [153] Zhou, H., Guo, J., Wang, Y., & Zhao, M (2016) A feature selection approach based on interclass and intraclass relative contributions of terms Computational intelligence and neuroscience, 2016 [154] Wang, Y., Feng, L., & Li, Y (2017) Two-step based feature selection method for filtering redundant information Journal of Intelligent & Fuzzy Systems, 33(4), 2059-2073 [155] Wang, Y., & Feng, L (2018) Hybrid feature selection using component co-occurrence based feature relevance measurement Expert Systems with Applications, 102, 83-99 162 ...