Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 152 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
152
Dung lượng
3,12 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG LUẬN ÁN TIẾN SĨ CÔNG NGHÊ THÔNG TIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thơng tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY PGS.TS PHAN XUÂN HIẾU Hà Nội – 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu riêng tơi Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa cơng bố cơng trình khác Nghiên cứu sinh Phạm Thị Ngân i LỜI CẢM ƠN Luận án thực Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội hướng dẫn khoa học PGS.TS Hà Quang Thụy PGS.TS Phan Xuân Hiếu Trước tiên xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy thầy Phan Xuân Hiếu, người đưa tiếp cận đạt thành công lĩnh vực nghiên cứu Tơi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy ln tận tâm, động viên, khuyến khích dẫn tơi hồn thành luận án Tơi xin bày tỏ lòng biết ơn tới thầy Nguyễn Trí Thành nhiệt tình hướng dẫn truyền đạt kinh nghiệm nghiên cứu q trình tơi thực luận án Tôi xin chân thành cảm ơn tới tập thể thầy cô giáo, nhà khoa học thuộc Trường Đại học Công nghệ (đặc biệt thành viên Phòng thí nghiệm khoa học liệu cơng nghệ tri thức – DS&KTlab) - Đại học Quốc gia Hà Nội giúp đỡ chuyên môn tạo điều kiện thuận lợi cho suốt thời gian học tập nghiên cứu Tơi xin bày tỏ lòng cảm ơn chân thành tới cộng tơi thực cơng trình nghiên cứu bạn đồng nghiệp giúp đỡ, trao đổi chia sẻ kinh nghiệm chun mơn, đóng góp ý kiến q báu cho tơi q trình nghiên cứu Tôi xin trân trọng cảm ơn thầy cô hội đồng chun mơn đóng góp ý kiến q báu để tơi hồn thiện luận án Tơi bày tỏ lòng lòng cảm ơn sâu sắc tới Ban giám đốc Học viện Cảnh sát nhân dân; Tập thể lãnh đạo Bộ mơn Tốn-Tin học, Học viện Cảnh sát nhân dân tạo kiện thuận lợi cho q trình nghiên cứu; cảm ơn đồng chí Bộ mơn Tốn-Tin học ln ủng hộ, quan tâm động viên Tôi biết ơn người thân gia đình, bố mẹ nội, bố mẹ ngoại, anh chị em ln chia sẻ khó khăn, động viên chỗ dựa tinh thần vững cho suốt thời gian qua ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH VẼ x MỞ ĐẦU Chương TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN 10 1.1 Từ phân lớp đơn nhãn đơn thể tới phân lớp đa nhãn đa thể 10 1.1.1 Phân lớp đơn nhãn 10 1.1.2 Phân lớp đơn nhãn đa thể 11 1.1.3 Phân lớp đa nhãn 12 1.1.4 Phân lớp đa nhãn đa thể 13 1.2 Giới thiệu chung phân lớp đa nhãn 14 1.2.1 Kỹ thuật phân lớp đa nhãn 15 1.2.1.1 Tiếp cận chuyển đổi toán .16 1.2.1.2 Tiếp cận thích nghi thuật tốn 22 1.2.1.3 Tóm tắt thuật tốn giới thiệu 28 1.2.2 Dữ liệu đa nhãn 29 1.2.2.1 Các độ đo liệu đa nhãn 29 1.2.2.2 Phân bố nhãn 30 1.2.2.3 Mối quan hệ nhãn 30 1.2.3 Đánh giá phân lớp đa nhãn 31 1.2.3.1 Các độ đo dựa mẫu .32 1.2.3.2 Các độ đo dựa nhãn 34 1.3 Giảm chiều liệu phân lớp đa nhãn 36 iii 1.3.1 Tiếp cận giảm chiều không gian đặc trưng đầu vào 37 1.3.2 Tiếp cận giảm chiều không gian nhãn đầu 41 1.4 Học bán giám sát cho phân lớp đa nhãn 43 1.5 Kết luận chương 43 Chương HAI MƠ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT 45 2.1 Mô hình nhận diện thực thể có tên dựa trường ngẫu nhiên có điều kiện tiêu chuẩn kỳ vọng tổng quát 45 2.1.1 Nhận diện thực thể có tên 45 2.1.2 Mô hình đề xuất 46 2.1.2.1 Sử dụng tiêu chuẩn kỳ vọng tổng qt vào mơ hình trường nhẫu nhiên có điều kiện CRFs 48 2.1.2.2 Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát 51 2.1.2.3 Mơ hình đề xuất cho tốn nhận diện thực thể có tên .52 2.1.3 Ứng dụng mơ hình 56 2.2 Một mơ hình phân lớp đơn nhãn hệ tư vấn xã hội 59 2.2.1 Sơ tư vấn xã hội 59 2.2.2 Mơ hình đề xuất 62 2.2.3 Ứng dụng mơ hình 66 2.3 Kết luận chương 68 Chương PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN 70 3.1 Phân lớp đa nhãn văn dựa biểu diễn liệu theo chủ đề ẩn 70 3.1.1 Biểu diễn liệu theo chủ đề ẩn 70 3.1.2 Mơ hình phân lớp đa nhãn văn dựa biểu diễn liệu theo chủ đề ẩn 75 3.1.2.1 Pha – Huấn luyện mơ hình 77 3.1.2.2 Pha – Đánh giá mơ hình huấn luyện 82 iv 3.1.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 83 3.1.3.1 Xây dựng tập liệu thực nghiệm 84 3.1.3.2 Thực nghiệm 85 3.1.3.3 Kết thực nghiệm 86 3.2 Phân lớp đa nhãn văn dựa biểu diễn liệu theo đồ thị khoảng cách chủ đề ẩn 87 3.2.1 Mơ hình biểu diễn văn theo đồ thị khoảng cách 89 3.2.1.1 Biểu diễn liệu theo đồ thị khoảng cách 89 3.2.1.2 Mơ hình đồ thị khoảng cách mơ hình n-gram 92 3.2.2 Mơ hình phân lớp đa nhãn văn dựa biểu diễn liệu theo đồ thị khoảng cách chủ đề ẩn 93 3.2.2.1 Pha huấn luyện mô hình .95 3.2.2.2 Pha phân lớp sử dụng mơ hình huấn luyện 97 3.2.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 98 3.3 Kết luận chương 100 Chương KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT 102 4.1 Tiếp cận phân cụm bán giám sát 102 4.1.1 Tiếp cận dựa ràng buộc 102 4.1.2 Tiếp cận dựa khoảng cách 103 4.2 Mơ hình phân lớp đa nhãn bán giám sát 105 4.2.1 Phát biểu toán phân lớp đa nhãn bán giám sát 105 4.2.2 Thuật toán phân lớp đa nhãn dựa kỹ thuật phân cụm bán giám sát106 4.2.2.1 Thuật toán TESC LIFT 107 4.2.2.2 Thuật toán phân lớp đa nhãn bán giám sát 109 4.2.3 Mơ hình phân lớp đa nhãn bán giám sát đề xuất 116 4.3 Một mơ hình ứng dụng phân lớp đa nhãn văn bán giám sát 117 4.3.1 Mơ hình đề xuất 117 v 4.3.1.1 Pha Huấn luyện mơ hình 118 4.3.1.2 Pha Phân lớp sử dụng mô hình huấn luyện 120 4.3.2 Ứng dụng phân lớp đa nhãn sử dụng mơ hình đề xuất 120 4.4 Kết luận chương 123 KẾT LUẬN 124 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN 128 TÀI LIỆU THAM KHẢO 129 vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu ANN BPMLL BR CC CDE CLR CML CRFs CTM DTM ECC EPCC EPS FE FS IBLR IG kNN LC LP LDA LIFT LP LSA MI MIML MLC ML-DT ML-kNN MLL MLNB MMAC MMP Tiếng Anh Artificial neural network Backpropagation for Multilabel Learning Binary Relevance Classifier Chains Tiếng Việt Mạng Nơ-ron nhân tạo Phân lớp đa nhãn mạng Nơron lan truyền ngược Phân lớp nhị phân Chuỗi phân lớp Phương pháp tích hợp phụ ChiDep Ensemble thuộc Chi Calibrated Label Ranking Xếp hạng nhãn xác định Collective Multi-Label Classifier Bộ phân lớp đa nhãn nhóm Conditional Random Fields Trường ngẫu nhiên có điều kiện Corelated Topic Model Mơ hình chủ đề tương quan Dynamic Topic Model Mơ hình chủ đề động Ensemble of Classifier Chains Tích hợp chuỗi phân lớp Ensemble of Probabilistic Tích hợp chuỗi phân lớp xác Classifier Chains suất Ensemble of Pruned Sets Tích hợp tập cắt tỉa Feature Extraction Trích chọn đặc trưng Feature Selection Lựa chọn đặc trưng Instance-Based Learning by Học dựa thực thể hồi Logistic Regresion quy logic Information Gain Độ lợi thông tin k Nearest Neighbour k láng giềng gần Label Combination Kết hợp nhãn Label Powerset Tập lũy thừa nhãn Latent Dirichlet Allocation Mơ hình chủ đề ẩn Multi-Label Learning with Label Học đa nhãn với đặc trưng nhãn specIfic FeaTures riêng biệt Label Power set Tập lũy thừa nhãn Latent Semantic Analysis Phân tích ngữ nghĩa ẩn Mutual Information Thơng tin tương hỗ Multi-Instance Multi-Label Đa nhãn đa thể Multi-Label Classiffication Phân lớp đa nhãn Multi-Label Decision Tree Cây định đa nhãn Multi-Label k Nearest Neighbour k Láng giềng gần đa nhãn Multi-Label Learning Học đa nhãn Multilabel Naive Bayes Naïve Bayes đa nhãn Multiclass Multilabel Associative Phân lớp kết hợp đa nhãn đa lớp Classification Multilabel Multiclass Thuật toán Perceptron phân lớp Perceptron đa lớp đa nhãn vii MuLAM Multilabel Ant - Miner NER PCA PCC Named Entity Recognition Principal Component Analysis Probabilistic Classifier Chains PCT Predictive Clustering Trees PMM1 PMM2 POS PS PW RPC RSL SVM TESC TFIDF Thuật toán tối ưu đàn kiến đa nhãn Nhận dạng thực thể có tên Phân tích thành phần Chuỗi phân lớp xác suất Thuật tốn phân cụm dự đốn Parametric Mixture Models Mơ hình hòa trộn tham số Part Of Speech Pruned Sets Pairwise Methods Ranking by Pairwise Comparision Ranking via Single-label Learning Support Vector Machine TExt classification using Semisupervised Clustering Term Frequency Inverse Document Frequency Từ loại Các tập bị cắt tỉa Phương pháp cặp đôi Phương pháp xếp hạng theo so sánh cặp đôi Xếp hạng thông qua học đơn nhãn Máy vectơ hỗ trợ Phân lớp văn sử dụng phân cụm bán giám sát Trọng số tần suất độ quan trọng từ viii dụng Bước sử dụng phương pháp lựa chọn đặc trưng dựa thông tin tương hỗ nhằm loại bỏ đặc trưng dư thừa giữ lại đặc trưng có tính chất quan trọng, định mơ hình, từ tăng hiệu mơ hình giảm độ phức tạp tính tốn Mơ hình thứ hai đề xuất nhằm khai thác đặc trưng khoảng cách trật tự từ biểu diễn mơ hình đồ thị khoảng cách Mơ hình khắc phục nhược điểm mơ hình biểu diễn theo khơng gian vectơ truyền thống – quan tâm đến đặc trưng đơn lẻ mà không quan tâm đến quan hệ, trật từ khoảng cách đặc trưng Mơ hình luận án đề xuất kết hợp khai thác đặc trưng ngữ nghĩa ẩn mơ hình chủ đề ẩn LDA cung cấp đồng thời áp dụng mơ hình đồ thị khoảng cách đối tượng chủ đề ẩn từ khai thác thơng tin quan hệ thứ bậc khoảng cách chủ đề ẩn văn Cả hai mơ hình cung cấp phương pháp biểu diễn liệu nhằm tăng cường hiệu cho mơ hình phân lớp liệu đa nhãn Thứ ba, luận án đề xuất thuật toán MULTICS phân lớp liệu đa nhãn bán giám sát dựa kỹ thuật phân cụm nhằm khai thác thông tin đặc trưng riêng biệt cho nhãn / tập nhãn Học máy bán giám sát tiếp cận cho phương pháp tiên tiến hiệu nhờ kết hợp liệu có nhãn làm định hướng liệu khơng có nhãn để mở rộng củng cố mơ hình Trong liệu có nhãn cần tốn nhiều thời gian công sức để gán nhãn thủ cơng liệu khơng nhãn phong phú dễ dàng thu Dựa giả thiết rằng, đặc trưng riêng biệt nhãn / tập nhãn đặc trưng mang tính chất phân biệt tối ưu cho nhãn/tập nhãn đó, sử dụng tập đặc trưng vào trình phân lớp mang lại hiệu tốt Luận án đề xuất mơ hình phân lớp bán giám sát dựa kỹ thuật phân cụm bán giám sát để xây dựng phân hoạch tập liệu có nhãn khơng nhãn miền ứng dụng Dựa vào phân hoạch tập liệu này, xây dựng phân lớp để đoán nhận nhãn cho liệu dựa khoảng cách với tâm cụm phân hoạch Thuật toán MULTICS [PTNgan6] B Trawiński cộng [9] tham chiếu cho thấy tham gia thuật toán vào dòng nghiên cứu phân lớp đa nhãn giới 125 Đồng thời, luận án cung cấp khảo sát khái quát phân lớp đa nhãn Phân lớp đa nhãn tiến hóa tiên tiến phân lớp đơn nhãn truyền thống, phù hợp với nhiều ứng dụng thực tế phân lớp văn bản, gán nhãn ảnh, dự đoán chức gen,… mà đối tượng đồng thời thuộc nhiều phân lớp khác Sự khác biệt đề nhiều thách thức tiếp cận giải toán, mối quan hệ nhãn, độ đo đánh giá toán phân lớp đa nhãn Luận án khảo sát tiếp cận cho toán đa nhãn, kỹ thuật giảm chiều liệu cho toán phân lớp đa nhãn nhằm loại bỏ đặc trưng không liên quan giữ lại đặc trưng quan trọng từ tăng cường hiệu mơ hình; độ đo phương pháp đánh giá cho toán phân lớp đa nhãn làm sở để đánh giá hiệu mơ hình đề xuất II Hạn chế luận án Trong trình triển khai mơ hình, luận án tồn số hạn chế sau: Một là, thuật toán phân lớp đa nhãn dựa phân cụm bán giám sát cần nghiên cứu công phu bao gồm phân tích chi tiết độ phức tạp thuật tốn, cải tiến phù hợp thành phần thuật toán để phát huy lợi “tham lam” thuật toán Hai là, đề cập tới vấn đề giảm chiều liệu phân lớp đơn nhãn phân lớp đa nhãn song nghiên cứu luận án đề cập mức độ mà chưa khảo sát giải pháp tiên tiến giảm chiều liệu, đặc biệt giảm chiều liệu phân lớp đa nhãn Ba là, miền ứng dụng văn có lợi cho nghiên cứu phân lớp đa nhãn song lại không tạo điều kiện tốt cho phân lớp đa nhãn – đa thể miền ứng dụng khác, chẳng hạn miền ứng dụng liệu ảnh III Định hướng nghiên cứu Trong thời gian tiếp theo, nghiên cứu sinh tiếp tục nghiên cứu hướng giải cho hạn chế tồn luận án tiếp tục triển khai đề xuất 126 để hoàn thiện giải pháp cho phân lớp đa nhãn Một là, thuật tốn MULTICSLearn cần phân tích sâu sắc đặc biệt khía cạnh độ phức tạp thời gian tính tốn vùng tồn miền ứng dụng Cải tiến kỹ thuật tìm nhãn để phân hoạch tập liệu theo nhãn giả theo hướng tìm nhãn có ảnh hưởng lớn mạng xã hội tập nhãn thời [99] Hai là, kỹ thuật giảm chiều liệu tiên tiến cho phân lớp đa nhãn [62], [75], [78] cần nghiên cứu để áp dụng sáng tạo vào toán ứng dụng luận án Ba là, khảo sát miền ứng dụng liệu ảnh, nghiên cứu mơ hình giải pháp phân lớp đa nhãn – đa thể liệu ảnh nhằm làm phù hợp với q trình tiến hóa phân lớp liệu đề cập Chương 127 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN [PTNgan1] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012) Named Entity Recognition for Vietnamese documents using semisupervised learning method of CRFs with Generalized Expectation Criteria IALP 2012: 85-89 (Scopus7, DBLP8) [PTNgan2] Thi-Ngan Pham, Thi-Hong Vuong, Thi-Hoai Thai, Mai-Vu Tran, Quang-Thuy Ha (2016) Sentiment Analysis and User Similarity for Social Recommender System: An Experimental Study Lecture Notes in Electrical Engineering (376): 1147-1156 (Scopus) [PTNgan3] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013) Hidden Topic Models for Multi-label Review Classification: An Experimental Study Computational Collective Intelligence Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611 (Scopus, DBLP) [PTNgan4] Thi-Ngan Pham, Van-Hien Tran, Tri-Thanh Nguyen, QuangThuy Ha (2017) Exploiting Distance graph and Hidden Topic Models for Multi-label Text Classification ACIIDS 2017 Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 321-331 (Scopus) [PTNgan5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, TriThanh Nguyen, Quang-Thuy Ha (2017) MASS: a Semi-supervised Multilabel Classification Algorithm With specific Features ACIIDS 2017 Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 37-47 (Scopus) [PTNgan6] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha (2017) A semi-supervised multi-label classification framework with feature reduction and enrichment Journal of Information and Telecommunication, 1(2), 141-154 (DBLP) https://www.scopus.com/authid/detail.uri?authorId=56013971500 http://dblp.uni-trier.de/pers/hd/p/Pham:Thi=Ngan 128 TÀI LIỆU THAM KHẢO [1] [2] A Elisseeff and J Weston A Kernel method for Multi-Labelled Classification Neural Information Proceesing Systems 2001 (NIPS 2001): 681–687 A H Razavi, D Inkpen Text Representation Using Multi-level Latent [3] Dirichlet Allocation Canadian Conference on AI 2014: 215-226 A K Menon, C Elkan Link prediction via matrix factorization In Joint european conference on machine learning and knowledge discovery in databases Springer, Berlin, Heidelberg, 2011: 437-452 [4] A Mansouri, L.S Affendey, A Mamat Named entity recognition approaches International Journal of Computer Science and Network Security 8.2 (2008): 339-344 [5] A McCallum, G Mann, G Druck Generalized Expectation Criteria Technical Report UM-CS-2007-60, University of Massachusetts Amherst, 2007 [6] A McCallum Multi-label text classification with a mixture model trained by EM AAAI Workshop on text learning, 1999: 1-7 B Hariharan, S V N Vishwanathan, M Varma Efficient max-margin multi-label classification with applications to zero-shot learning Machine Learning, 88 (1-2) 2012: 127-155 B Qian, I Davidson Semi-Supervised Dimension Reduction for MultiLabel Classification AAAI, Volumn10, 2010: 569-574 B Trawiński, T Lasota, O Kempa, Z Telec, M Kutrzyński Comparison of Ensemble Learning Models with Expert Algorithms Designed for a [7] [8] [9] [10] [11] [12] Property Valuation System In: Conference on Computational Collective Intelligence Technologies and Applications Springer, Cham, 2017: 317327 C C Aggarwal and P Zhao Towards Graphical Models for Text Processing Knowledge and Information Systems Vol 36:1, 2013: 1-21 C C Aggarwal Data classification: algorithms and applications CRC Press, 2014 C Vens, J Struyf, L Schietgat, S Džeroski, H Blockeel Decision trees for hierarchical multilabel classification Machine Learning, 73(2) 2008: 129 185–214 [13] D B Nguyen, S.H Hoang, S.B Pham, T.P Nguyen Named entity recognition for Vietnamese In Asian Conference on Intelligent Information and Database Systems, Springer, Berlin, Heidelberg, 2010: 205-214 [14] D Jurafsky, J.H Martin Speech and language processing Pearson, 2014 D M Blei, A Y Ng, M I Jordan Latent Dirichlet Allocation Journal of [15] Machine Learning Research 3, 2003: 993-1022 [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] D M Blei Probabilistic topic models Communications of the ACM 55.4, 2012: 77-84 D M Dunlavy, T G Kolda, E Acar Temporal link prediction using matrix and tensor factorizations ACM Transactions on Knowledge Discovery from Data (TKDD), 5(2), 10, 2011 D Nadeau, S Sekine A survey of named entity recognition and classification Lingvisticae Investigationes 30(1), 2007: 3-26 D Ramage, D Hall, R Nallapati, C D Manning Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora EMNLP 2009: 248-256 D Yang, D Zhang, Z Yu, Z Wang A sentiment-enhanced personalized location recommendation system In Proceedings of the 24th ACM Conference on Hypertext and Social Media, ACM 2013: 119-128.] E Gibaja, S Ventura A tutorial on multilabel learning ACM Computing Surveys (CSUR) 47(3), 2015: 52 E Gibaja, S Ventura Multi-label learning: a review of the state of the art and ongoing research Wiley Interdisc Rew.: Data Mining and Knowledge Discovery, 4(6), 2014: 411-444 E Hüllermeier, J Fürnkranz, W Cheng, K Brinker Label ranking by learning pairwise preferences Artif Intell 172(16-17), 2008: 1897-1916 E L Mencía, F Janssen Stacking Label Features for Learning Multilabel Rules Discovery Science 2014: 192-203 E L Mencia, J Furnkranz Pairwise learning of multilabel classifications with perceptrons Neural Networks, 2008 IJCNN 2008.(IEEE World Congress on Computational Intelligence) IEEE International Joint Conference on IEEE, 2008: 2899-2906 130 [26] E Spyromitros, G Tsoumakas, I Vlahavas An empirical study of lazy [27] multilabel classification algorithms In: Hellenic conference on artificial intelligence Springer, Berlin, Heidelberg, 2008: 401-406 F Briggst, X.Z Fern, R Raich Rank-loss support instance machines for MIML instance annotation In: Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining ACM, 2012: 534-542 [28] [29] [30] [31] F Charte, A.J Rivera, M.J Del Jesus, F Herrera LI-MLC: A label inference methodology for addressing high dimensionality in the label space for multilabel classification IEEE transactions on neural networks and learning systems, 25(10), 2014:1842-1854 F Herrera, F Charte, A J Rivera, M.J Del Jesus Multilabel Classification: Problem Analysis, Metrics and Techniques Springer International, 2016 F Ricci, L Rokach, B Shapira, P B Kantor Recommender systems handbook Springer US, 2011 [32] F Sebastiani Machine Learning in Automated Text Categorization ACM Computing Survey 34, 2002: 1-47 G Chen, Y Song, F Wang, C Zhang Semi-supervised multi-label learning by solving a sylvester equation In: Proceedings of the 2008 SIAM International Conference on Data Mining Society for Industrial and [33] Applied Mathematics, 2008: 410-419 G Doquire, M Verleysen Mutual information-based feature selection for multilabel classification Neurocomputing 122 (2013): 148-155 [34] [35] [36] [37] G Doquire, M Verleysen Feature Selection for Multi-label Classification Problems Advances in Computational Intelligence, 2011: 9-16 G Druck, G Mann, A McCallum Learning from Labeled Features using Generalized Expectation Criteria In: Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval ACM, 2008: 595-602 G Ruffo Learning single and multiple instance decision trees for computer security applications PhD Thesis, University of Turin, 2000 G S Mann, A McCallum Generalized Expectation Criteria for Semi- 131 Supervised Learning of Conditional Random Fields In ACL Volumn 8, [38] [39] 2008: 870–878 G S Mann, A McCallum Generalized Expectation Criteria for SemiSupervised Learning with Weakly Labeled Data Journal of Machine Learning Research 11, 2010: 955-984 G Salton, A Wong, C S Yang A vector space model for automatic indexing Communications of the ACM, 18(11), 1975: 613-620 [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] G Tsoumakas, I Katakis, I Vlahavas Mining Multi-label Data Data Mining and Knowledge Discovery Handbook, Springer, 2010: 667–686 G Tsoumakas, I Katakis, I Vlahavas Random k-labelsets for multi-label classification IEEE Transactions on Knowledge and Data Engineering, 2011, 23.7: 1079-1089 G Tsoumakas, I Katakis Multi-label Classification: An Overview International Journal of Data Warehousing and Mining (IJDWM), 2007, 3.3: 1-13 G Tsoumakas, I Vlahavas Random k-labelsets: An ensemble method for multilabel classification European Conference on Machine Learning 2007: 406-417 G Tsoumakas, M Zhang, Z.H Zhou Introduction to the special issue on learning from multi-label data Machine Learning 88 (1-2), 2012: 1-4 H Hotelling Relations between two sets of variates In: Breakthroughs in Statistics, Springer, 1992: 162–190 H Le Trung, V Le Anh, K Le Trung Bootstrapping and rule-based model for recognizing Vietnamese named entity In Asian Conference on Intelligent Information and Database Systems (ACIIDS) 2014: 167–176 H Liu, L Yu Toward integrating feature selection algorithms for classification and clustering IEEE Transactions on Knowledge and Data Engineering 17, 2005: 491–502 H Ma, D Zhou, C Liu, M.R Lyu, I King Recommender systems with social regularization In: Proceedings of the fourth ACM international conference on Web search and data mining, 2011: 287–296 H Ma, H Yang, M.R Lyu, I King Sorec: social recommendation using probabilistic matrix factorization In: Proceeding of the 17th ACM 132 conference on Information and knowledge management, 2008: 931–940 [50] [51] H Ma, I King, M.R Lyu Learning to recommend with social trust ensemble In: Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, 2009: 203–210 H Q Le Making use of category structure for multi-class classification PhD Thesis, Heinrich Heine University Düsseldorf, 2010 [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] H Q Le, M V Tran, N N Bui, N C Phan, Q T Phan An integrated approach using conditional random fields for named entity recognition and person property extraction in vietnamese text In: Asian Language Processing (IALP), 2011: 115-118 H Q Pham, M.L Nguyen, B Nguyen, V.C Nguyen Semi-supervised Learning for Vietnamese Named Entity Recognition using Online Conditional Random Fields In: Proceedings of NEWS 2015 the fifth named entities workshop, 2015: 53-8 H Qu, S Zhang, H Liu, J Zhao: A multi-label classification algorithm based on label-specific features Wuhan University Journal of Natural Sciences 16, (6), 2011: 520-524 I T Jolliffe Principal Component Analysis Springer, 2002 J D Lafferty, A McCallum, F.C.N Pereira Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data In: Proceedings of the 18th International Conference on Machine Learning 2001: 282-289 J Fürnkranz, E Hüllermeier, E.L Mencía, K Brinker Multilabel classification via calibrated label ranking Machine Learning, 73 (2), 2008: 133–153 J Golbeck Generating predictive movie recommendations from trust in social networks Trust Management, 2006: 93-104 J J Zhang, M Fang, X Li Multi-label learning with discriminative features for each label Neurocomputing 154, 2015: 305-316 J Jiang Information extraction from text Mining text data, 2012: 11-41 J Lee, H Lim, D.W Kim Approximating Mutual Information for MultiLabel Feature Selection Electronics Letters, vol 48(15), 2012: 129-130 133 [62] J Li, H Liu Challenges of Feature Selection for Big Data Analytics IEEE [63] Inteligent Systems 32(2), 2017: 9-15 J Read, A Bifet, G Holmes, B Pfahringer Scalable and efficient multilabel classification for evolving data streams Machine Learning, 88 (1-2), [64] 2012: 243-272 J Read, B Pfahringer, G Holmes, E Frank Classifier chains for multilabel classification Machine Learning 85(3), 2011: 333-359 [65] [66] [67] [68] [69] [70] [71] [72] [73] J Read, L Martino, J Hollmén Multi-label methods for prediction with sequential data Pattern Recognition 63, 2017: 45-55 J Read A Pruned Problem Transformation Method for Multi-label Classification In: Proceedings of 2008 New Zealand Computer Science Research Student Conference (NZCSRS), 2008: 143–150 J Read Scalable Multi-label Classification PhD Thesis, The University of Waikat, 2010 J Tang, H Gao, H Liu mTrust: Discerning multi-faceted trust in a connected world In: Proceedings of the fifth ACM international conference on Web search and data mining ACM, 2012: 93-102 J Tang, H Gao, X Hu, H Liu Exploiting homophily effect for trust prediction In: Proceedings of the sixth ACM international conference on Web search and data mining ACM, 2013: 53-62 J Tang, X Hu, H Liu Social Recommendation: A Review Social Network Analysis and Mining, 2013, 3.4: 1113-1133 J V Carrera-Trejo, G Sidorov, S Miranda-Jiménez, M M Ibarra, R C Martínez Latent Dirichlet Allocation complement in the vector space model for Multi-Label Text Classification International Journal of Combinatorial Optimization Problems and Informatics, 6(1), 2015: 7-19 J Wang, J D Zucker Solving the multi-instance problem: A lazy learning approach In Proceedings of 17th International Conf on Machine Learning, 2000: 1119–1126 K Brinker, J Furnkranz, E Hullermeier A unified model for multilabel classification and ranking In: Proceedings of the 2006 conference on ECAI 2006: 17th European Conference on Artificial Intelligence August 29-September 1, 2006, Riva del Garda, Italy IOS Press, 2006: 489-493 134 [74] K [75] ranking In: Proceedings of the 20th international joint conference on Artifical intelligence Morgan Kaufmann Publishers Inc., 2007 p 702-707 K Cheng, J Li, H Liu FeatureMiner: A Tool for Interactive Feature Brinker, E Hullermeier Case-based multilabel Selection In: Proceedings of the 25th ACM International on Conference on Information and Knowledge Management ACM, 2016: 2445-2448 [76] K Dembczynski, W Waegeman, W Cheng, E Hüllermeier On label dependence and loss minimization in multi-label classification Machine [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] Learning, 88 (1-2), 2012: 5-45 L Breiman Random forests Machine Learning 45(1), 2001:5–32 L Jian, J Li, K Shu, H Liu Multi-Label Informed Feature Selection In: IJCAI International Joint Conference on Artificial Intelligence 2016: 1627-1633 L Sun, S Ji, J Ye Multi-label dimensionality reduction CRC Press, 2013 M Jamali, M Ester A matrix factorization technique with trust propagation for recommendation in social networks In: Proceedings of the fourth ACM conference on Recommender systems, ACM 2010: 135–142 M Jamali, M Ester Trustwalker: a random walk model for combining trust-based and item-based recommendation In: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, ACM 2009: 397–406 M L Zhang, J M Peña, V Robles Feature selection for multi-label naive Bayes classification Information Sciences, 2009, 179.19: 3218-3229 M L Zhang, L Wu LIFT: Multi-label learning with label-specific features IEEE transactions on pattern analysis and machine intelligence, 37(1), 2015: 107-120 M L Zhang, Z H Zhou A Review on Multi-Label Learning Algorithms IEEE transactions on knowledge and data engineering, 2014, 26.8: 18191837 M L Zhang, Z H Zhou Improve multi-instance neural networks through feature selection Neural Processing Letters 2004: 1–10 M L Zhang, Z H Zhou ML-KNN: A Lazy Learning Approach to MultiLabel Learning Pattern Recogn, 40, 2007: 2038–2048 135 [87] M L Zhang LIFT: Multi-Label Learning with Label-Specific Features In: Proceedings of the Twenty-Second international joint conference on Artificial Intelligence-Volume Volume Two AAAI Press, 2011: 1609-1614 [88] M Poyraz, Z.H Kilimci, M.C Ganiz Higher-order smoothing: a novel semantic smoothing method for text classification Journal of Computer Science and Technology 29(3), 2014: 376-391 [89] [90] [91] [92] [93] [94] M R Boutell, J Luo, X Shen, C.M Brown Learning multi-label scene classification Pattern Recognition, 37 (9), 2004: 1757–1771 M V Tran, X T Tran, and H L Uong User Interest Analysis with Hidden Topic in News Recommendation System Asian Language Processing (IALP), 2010: 211-214 MALLET n.d http://mallet.cs.umass.edu/ N Nguyen Semi-Supervised Learning With Partially Labeled Examples PhD Thesis, Cornell University, 2010 O G R Pupo, C Morell, S Ventura Evolutionary feature weighting to improve the performance of multi-label lazy algorithms Integrated Computer-Aided Engineering 21(4), 2014: 339-354 O G R Pupo, C Morell, S Ventura Scalable extensions of the ReliefF algorithm for weighting and selecting features on the multi-label learning context Neurocomputing 161, 2015: 168-182 [95] O Maron, T Lozano-Pérez A Framework for Multiple-Instance Learning In: Advances in neural information processing systems 1998: 570-576 [96] P Massa, P Avesani Controversial users demand local trust metrics: An experimental study on Epinions.com community AAAI 2005: 121-126 P Massa, P Avesani Trust-aware collaborative filtering for recommender systems In: OTM Confederated International Conferences" On the Move to Meaningful Internet Systems" Springer, Berlin, Heidelberg, 2004: 492-508 P Massa, P Avesani Trust-aware recommender systems In: Proceedings of the 2007 ACM conference on Recommender systems ACM, 2007: 17-24 P Szymanski, T Kajdanowicz, K Kersting How Is a Data-Driven [97] [98] [99] Approach Better than Random Choice in Label Space Division for Multi- 136 Label Classification? Entropy 18(8) 282, 2016 [100] [101] P V Krishna, S Misra, D Joshi, M.S Obaidat Learning automata based sentiment analysis for recommender system on cloud In Computer, Information and Telecommunication Systems (CITS), 2013 International Conference on IEEE 2013: 1-5 P Victor, C Cornelis, M De Cock, A Teredesai A comparative analysis of trustenhanced recommenders for controversial items The International AAI Conference on Weblogs and Social Media, 2009: 342–345 [102] [103] [104] [105] [106] [107] [108] [109] [110] P Victor, M De Cock, C Cornelis Trust and recommendations Recommender Systems Handbook, Springer, 2011: 645–675 Q T Ha, H N Bui, T T Nguyen A Trace Clustering Solution Based on Using the Distance Graph Model International Conference on Computational Collective Intelligence Springer International Publishing, 2016: 313-322 Q T Tran, T T Pham, Q H Ngo, D Dinh, N Collier Named entity recognition in Vietnamese documents Progress in Informatics Journal 5, 2007: 14-17 Q Zhang, S.A Goldman EM-DD: An improved multi-instance learning technique In: Advances in neural information processing systems 2002: 1073-1080 R E Schapire, Y Singer BoosTexter: A Boosting-based System for Text Categorization Machine Learning 39(2-3), 2000: 135-168 S Andrews, I Tsochantaridis, T Hofmann Support vector machines for multiple-instance learning In: Advances in neural information processing systems, 2002: 561-568 S Basu Semi-supervised clustering: probabilistic models, algorithms and experiments PhD Thesis, The University of Texas at Austin, 2005 S Godbole, S Sarawagi Discriminative methods for multi-labeled classification Advances in knowledge discovery and data mining (PAKDD) 2004: 22–30 S H Yang, H Zha, B G Hu Dirichlet-bernoulli alignment: A generative model for multi-class multi-label multi-instance corpora In: Advances in neural information processing systems, 2009: 2143-2150 137 [111] S Jungjit New Multi-Label Correlation-Based Feature Selection Methods [112] for Multi-Label Classification and Application in Bioinformatics PhD Thesis, University of Kent at Canterbury, March 2016 S Li, Z Zhang, J Duan An ensemble multi-label feature selection algorithm based on information entropy International Arab Journal of Information Technology (IAJIT), 2014, 11.4: 379-386 [113] S S Bucak Multiple Kernel and Multi-Label Learning for Image Categorization PhD Thesis, Michigan State University, 2014 [114] [115] [116] [117] [118] S Vembu, T Gartner Label ranking algorithms: A survey Preference Learning 2010: 45-64 T G Dietterich, R H Lathrop, T Lozano-Pérez Solving the Multiple Instance Problem with Axis-Parallel Rectangles Artificial intelligence, 89(1-2), 1997: 31-71 T Gartner, P A Flach, A Kowalczyk, A J Smola Multi-instance kernels The 19th International Conference on Machine Learning (ICML 2002): 179–186 T N Rubin, A Chambers, P Smyth, M Steyvers Statistical topic models for multi-label document classification Machine Learning, 88(1-2), 2012: 157-208 T Zhou, D Tao, X Wu Compressed labeling on distilled labelsets for multi-label learning Machine Learning, 88 (1-2), 2012: 69-126 [119] W He, Y Wang Text representation and classification based on multiinstance learning In: Management Science and Engineering, ICMSE 2009 International Conference on IEEE, 2009: 34-39 [120] W Zhang, X Tang, T Yoshida TESC: An approach to text classification using semi-supervised clustering Knowledge-Based Systems 75, 2015: 152-160 X Wu, V Kumar Top 10 algorithms in data mining CRC Press, 2009 X Zhu, A B Goldberg Introduction to Semi-Supervised Learning Morgan and Claypool, 2009 Y Chen and J Z Wang Image categorization by learning and reasoning with regions Machine Learning Research 5, 2004: 913–939 [121] [122] [123] [124] Y Chevaleyre, J D Zucker Solving Multiple-Instance and Multiple-Part 138 Learning Problems with Decision Trees and Rule Sets Application to the [125] [126] Mutagenesis Problem Canadian Conference on AI 2001: 204-214 Y Guo, D Schuurmans Semi-supervised multi-label classification: A Simultaneous Large-Margin, Subspace Learning Approach Machine Learning and Knowledge Discovery in Databases, (2) 2012: 355-370 Y Liu, R.Jin, L Yang Semi-supervised multi-label learning by constrained nonnegative matrix factorization AAAI Volumn 1, 2006: 421-426 [127] [128] [129] [130] Y Yang, S Gopal Multi-label classification with meta-level features in a learning-to-rank framework Machine Learning, 88 (1-2), 2012: 47-68 Z H Zhou, M L Zhang, S.J Huang, Y.F Li Multi-instance multi-label learning Artificial intelligence 176(1), 2012: 2291-2320 Z H Zhou, M L Zhang Multi-Instance Multi-Label Learning with Application to Scene Classification In: Advances in neural information processing systems 2007: 1609-1616 Z H Zhou, J M Xu On the relation between multi-instance learning and semisupervised learning In: Proceedings of the 24th international conference on Machine learning ACM, 2007: 1167-1174 139 ... TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG... hướng từ phân lớp đơn nhãn tới phân lớp đa nhãn phân lớp đa thể hiện, phân lớp đa nhãn đa thể [128] Phân lớp đơn nhãn (còn gọi phân lớp truyền thống) quy ước đối tượng liệu có nhãn (hàm phân lớp đơn... Chương TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN 10 1.1 Từ phân lớp đơn nhãn đơn thể tới phân lớp đa nhãn đa thể 10 1.1.1 Phân lớp đơn nhãn 10 1.1.2 Phân lớp đơn nhãn đa thể