Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VÕ DUY THANH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2017 i BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG VÕ DUY THANH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng PGS.TS Đoàn Văn Ban Đà Nẵng - 2017 ii LỜI CAM ĐOAN Tôi tên Võ Duy Thanh Tôi xin cam đoan công trình nghiên cứu thực Các nội dung kết nghiên cứu trình bày Luận án trung thực chưa công bố tác giả hay công trình khoa học khác Tác giả Luận án Võ Duy Thanh i MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ vii DANH MỤC BẢNG ix MỞ ĐẦU Chương NGHIÊN CỨU TỔNG QUAN 1.1 Học máy 1.1.1 Khái niệm 1.1.2 Ứng dụng học máy 1.1.3 Các dạng liệu học máy 11 1.2 Các phương pháp học máy 13 1.2.1 Học có giám sát 13 1.2.2 Học không giám sát 15 1.2.3 Học bán giám sát 16 1.2.4 Học tăng cường 16 1.2.5 Học sâu 17 1.3 Tổng quan học bán giám sát 21 1.3.1 Một số phương pháp học bán giám sát 23 1.3.2 Thuật toán học có giám sát SVM bán giám sát SVM 34 1.3.3 Huấn luyện SVM 38 1.3.4 SVM phân lớp văn 39 1.3.5 Bán giám sát SVM phân lớp trang Web 40 ii 1.3.6 Thuật toán phân lớp văn điển hình 41 1.4 Phân loại văn 43 1.4.1 Văn 43 1.4.2 Biểu diễn văn véc tơ 44 1.4.3 Phân loại văn 46 1.5 Đề xuất nghiên cứu 49 1.6 Tiểu kết chương 51 Chương XÂY DỰNG KHO DỮ LIỆU 53 2.1 Giới thiệu kho liệu phân loại văn tiếng Việt 53 2.2 Tổng quan kho liệu 54 2.2.1 Khái niệm kho liệu 54 2.2.2 Đặc điểm kho liệu 55 2.2.3 Mục đích kho liệu 56 2.2.4 Kiến trúc kho liệu 57 2.3 Phân tích yêu cầu 60 2.3.1 Xây dựng kho 60 2.3.2 Khai thác kho 62 2.3.3 Cập nhật kho 63 2.4 Phân tích đặc tả liệu 63 2.5 Giải pháp xây dựng kho 64 2.5.1 Đề xuất mô hình tổng quát 64 2.5.2 Quá trình xây dựng kho liệu 64 2.5.3 Quy trình chương trình phân loại văn 65 2.5.4 Sử dụng thuật toán Naïve Bayes để phân loại văn 70 iii 2.5.5 Định dạng đầu liệu kho 73 2.6 Kết kho liệu thử nghiệm đánh giá 76 2.6.1 Kết kho liệu thử nghiệm 76 2.6.2 Đánh giá kho liệu 76 2.7 Tiểu kết chương 76 Chương PHÂN LOẠI VĂN BẢN DỰA TRÊN MÔ HÌNH CỰ LY TRẮC ĐỊA……………………………………………………………………… 78 3.1 Mô hình cự ly trắc địa máy véc tơ hỗ trợ 78 3.1.1 Mô hình cự ly trắc địa 78 3.1.2 Kỹ thuật phân cụm đa dạng sử dụng cự ly trắc địa 82 3.1.3 Phương pháp tính toán cự ly trắc địa 83 3.1.4 Hàm nhân máy véc tơ hỗ trợ sử dụng cự ly trắc địa 85 3.2 Phương pháp phân loại văn dựa mô hình cự ly trắc địa 86 3.3 Thực nghiệm phân loại văn dựa mô hình cự ly trắc địa 87 3.3.1 Phát triển chương trình ứng dụng 87 3.3.2 Chuẩn bị liệu 87 3.3.3 Triển khai chương trình 89 3.3.4 Kết thực nghiệm 90 3.4 Tiểu kết chương 95 Chương RÚT GỌN SỐ CHIỀU VÉC TƠ DỰA TRÊN ĐỒ THỊ DENDROGRAM 96 4.1 Giới thiệu 96 4.1.1 Định nghĩa đồ thị Dendrogram 96 4.1.2 Giải pháp đề xuất 97 iv 4.2 Xây dựng đồ thị Dendrogram từ liệu Wikipedia 101 4.2.1 Thuật toán xử lý Wikipedia 101 4.2.2 Thuật toán xử lý từ điển 103 4.2.3 Thuật toán tính toán ma trận P tần số xuất chung 104 4.2.4 Thuật toán xây dựng đồ thị Dendrogram 105 4.2.5 Triển khai phân cụm 105 4.2.6 Thử nghiệm 107 4.3 Áp dụng véc tơ rút gọn vào phân loại văn 112 4.3.1 Dữ liệu đầu vào 112 4.3.2 Kết thực nghiệm 112 4.4 Tiểu kết chương 117 KẾT LUẬN 118 CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 121 TÀI LIỆU THAM KHẢO 122 v DANH MỤC CÁC TỪ VIẾT TẮT ANN Artificial Neural Network (Mạng nơ ron nhân tạo) CRFs Conditional Random Fields DM Data Marts (Kho liệu chủ đề) DWH Data WareHouse (Kho liệu) GD Geodesic Distance (Cự li trắc địa) IDF Inverse Document Frequency (Tần số nghịch đảo văn bản) IID Independently and Identically Distributed (phân phối độc lập phân bố tương tự) ISOMAP Isometric Feature Mapping (Lập đồ đặc trưng Metric) KNN K - Nearest Neighbor (K láng giềng gần nhất) LDA Linear Discriminant Analysis (Phân tích biệt thức tuyến tính) MDP Markov decision process (Quy trình định Markov) MEM Maximum Entropy Markov Model (Mô hình Markov cực đại hóa entropy) NB Naĩve Bayes NLP Natural Language Proscessing (Xử lý ngôn ngữ tự nhiên) SVM Support vector Machine (Máy véc tơ hỗ trợ) S3VM Semi-Supervised Support Vector Machine (bán giám sát dựa máy véc tơ hỗ trợ) TF Term frequency (tần suất từ) RBF Radial Basis Funcions (Hàm sở Radial) VC Vapnik-Chervonenkis (Khoảng cách VC) vi DANH MỤC HÌNH VẼ Hình 1.1 Siêu phẳng cực đại 26 Hình 1.2 Biểu diễn trực quan thiết lập Self-training 28 Hình 1.3 Sơ đồ biểu diễn trực quan thiết lập Co-training 30 Hình 1.4 Siêu mặt tối ưu biên 36 Hình 1.5 Véc tơ đặc trưng biểu diễn văn mẫu 46 Hình 1.6 Mô hình tổng quát hệ thống phân loại văn 49 Hình 1.7 Mô hình phân lớp văn 50 Hình 1.8 Mô hình đề xuất phân lớp văn sử dụng Self-training 51 Hình 2.1 Kiến trúc DWH 58 Hình 2.2 Kiến trúc DWH với khu vực xử lý 58 Hình 2.3 Kiến trúc DWH với khu vự xử lý kho liệu chủ đề 59 Hình 2.4 Mô hình đề xuất tổng quát kho liệu 64 Hình 2.5 Quy trình phân loại văn 66 Hình 2.6 Mô hình không gian véc tơ chiều 70 Hình 3.1 Cự ly Euclid cự ly trắc địa 79 Hình 3.2 Mô hình đề xuất 79 Hình 3.3 Mô hình đề xuất phân loại văn dựa cự ly trắc địa 87 Hình 3.4 Giá trị trung bình độ lệch chuẩn tỷ lệ phân loại 94 Hình 4.1 Đồ thị Dendrogram 96 Hình 4.2 Ví dụ đồ thị Dendrogram 101 vii Hình 4.3 Lưu đồ thuật toán xử lý tập tin liệu Wikipedia 103 Hình 4.4 Sơ đồ thuật toán xử lý từ điển 104 Hình 4.5 Ví dụ cho việc cắt đồ thị Dendrogram, kết nhận cụm 107 Hình 4.6 Số lượng cặp từ theo tần số xuất chung 108 Hình 4.7 Số lượng nhóm phụ thuộc phân cụm đồ thị Dendrogram 109 Hình 4.8 Kết phân cụm với Dendrogram 109 Hình 4.9 Một ví dụ khác thể từ liên quan đến âm nhạc 110 Hình 4.10 Một ví dụ đồ thị Dendrogram cho từ 110 Hình 4.11 Ví dụ đồ thị Dendrogram cho từ thuộc chủ đề y học 111 Hình 4.12 Dung lượng lưu trữ véc tơ phụ thuộc vào số lượng từ 114 Hình 4.13 Đồ thị thể thời gian gán nhãn lần huấn luyện 115 Hình 4.14 Thời gian phân loại văn trung bình lần huấn luyện 115 Hình 4.15 Đồ thị thể độ phân loại lần HL theo tỷ lệ phân cụm 116 Hình 4.16 Đồ thị thể thay đổi kết theo tỷ lệ phân loại 116 viii Dựa vào hình ta thấy việc rút gọn từ điển cho phép cải thiện việc phân loại ta chọn tỷ lệ rút gọn từ điển (từ 30% > 70%) so với không gian véc tơ ban đầu tỷ lệ phân loại văn cao so với chưa phân cụm rút gọn từ 4.4 Tiểu kết chương Kết đạt qua phương pháp đề xuất nhằm nâng cao chất lượng phân loại văn tiếng Việt tự động Phương pháp thứ sử dụng từ điển bách khoa toàn thư Wikipedia đồ thị Dendrogram việc rút gọn số chiều véc tơ biểu diễn văn tiếng Việt Phương pháp thứ hai áp dụng véc tơ rút gọn để phân loại văn Thực nghiệm cho thấy việc áp dụng không gian véc tơ rút gọn dựa đồ thị Dendrogram thư viện Wikipedia giúp tiết kiệm dung lượng lưu trữ thời gian phân loại văn tiếng Việt mà đảm bảo tỷ lệ phân loại đúng, tỷ lệ phân loại văn cao so với chưa phân cụm Hạn chế phương pháp đề xuất thử nghiệm xác suất xuất chung cặp từ trang Wikipedia để phân nhóm từ dẫn tới có khả sai lệch mặt ngữ nghĩa, trang Wikipedia có nhiều thông tin Chẳng hạn trang bao gồm nhiều thông tin Bóng đá, Giáo dục, Pháp luật … Trong nghiên cứu khắc phục hạn chế nêu 117 KẾT LUẬN Kết đạt Luận án trình bày kết nghiên cứu phân loại văn tiếng Việt kết hợp kỹ thuật học máy bán giám sát dựa máy véc tơ hỗ trợ (SVM) Kết đạt là: - Đã xây dựng kho liệu phục vụ cho thực nghiệm phân loại văn tiếng Việt - Đề xuất thử nghiệm giải pháp phân loại văn dựa cự ly đường trắc địa - Đề xuất thử nghiệm giải pháp rút gọn số chiều véc tơ biểu diễn văn tiếng Việt để tăng tốc độ xử lý đảm bảo độ xác phân loại văn Dựa kết thử nghiệm, luận án so sánh phương pháp đề xuất dựa mô hình cự ly trắc địa với mô hình SVM túy liệu Tỷ lệ phân loại trung bình hai phương pháp không chêch lệch nhiều kết quả, nhiên phương sai phương pháp đề xuất (± 2%) nhỏ nhiều so với SVM (± 4%) Điều cho thấy phương pháp đề xuất ổn định so với sử dụng SVM túy Thực nghiệm cho thấy việc áp dụng không gian véc tơ rút gọn Dendrogram Wikipedia giúp giảm đáng kể dung lượng lưu trữ thời gian phân loại văn tiếng Việt mà đảm bảo tỷ lệ phân loại Ở mức rút gọn 30%70% so với không gian véc tơ ban đầu, tỷ lệ phân loại văn cao so với chưa phân cụm Giới hạn luận án Về bản, chương trình phân loại văn thực hoàn thành chức đặt giúp người sử dụng xây dựng mô hình phân loại cho loại văn tiếng Việt Tự động phân loại văn dựa mô hình xây dựng Tuy nhiên việc thu thập liệu ban đầu mức thử nghiệm 118 Điểm hạn chế luận án, chưa sử dụng WORDNET xây dựng đồ thị đồng để xem xét mối tương quan ngữ nghĩa từ trước xây dựng véc tơ đặc trưng cho cụm văn Chính điều làm giảm khả tối ưu gom cụm thông qua giải thuật gom cụm Rút gọn số chiều véc tơ văn thử nghiệm xác suất xuất chung cặp từ trang Wikipedia để phân nhóm từ dẫn tới có khả sai lệch mặt ngữ nghĩa trang Wikipedia có nhiều thông tin Chẳng hạn trang bao gồm thông tin Bóng đá, Giáo dục, Pháp luật, Quốc tế, Xã hội, … - Chỉ thực nghiệm máy véc tơ hỗ trợ (VSM) - Chưa so sánh thuật toán Dendrogram khác Trong thời gian tới, bổ sung số tính hoàn thiện chương trình để nâng cao hiệu quả, đồng thời xây dựng kho liệu đủ lớn nhằm mục đích phân loại văn cách xác Đề xuất hướng nghiên cứu Tóm tắt văn hướng nghiên cứu quan tâm nhà khoa học nay, đặc biệt vấn đề ngôn ngữ tiếng Việt nhiều vấn đề cần quan tâm nghiên cứu Chính thế, hướng nghiên cứu tóm tắt văn hướng nghiên cứu mở Trong giới hạn nghiên cứu luận án, xin đề xuất hướng nghiên cứu tương lai đề tài là: - Tiếp tục nghiên cứu WORDNET trợ giúp tra cứu ngữ nghĩa tiếng Anh, từ xây dựng WORDNET cho tra cứu tiếng Việt Hoặc sử dụng đồ thị đồng để tối ưu khả tương tác tạo véc tơ đặc trưng cho cụm văn - Để nâng cao tính hiệu mô hình học bán giám sát có kết hợp tóm tắt nội dung văn bản, tiếp tục nghiên cứu phương pháp xử lý tách từ tiếng Việt, nhằm tăng độ xác phương pháp trích rút ý nội dung văn bản, đồng thời tiến hành thực nghiệm nhiều tỷ lệ nén 119 nội dung khác để tìm tỷ lệ nén nội dung có độ xác cao hơn, nhằm cải thiện thêm độ xác kết phân lớp văn dựa vào mô hình đề xuất - Thử nghiệm với tần số xuất chung đoạn văn, câu - Thử nghiệm với liệu khác Wikipedia, ví dụ báo trang báo mạng Việt Nam - Thử nghiệm với phương pháp học máy khác so sánh thuật toán Dendrogram khác 120 CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ Vo Duy Thanh, Vo Trung Hung, Pham Minh Tuan, Doan Van Ban, “Text classification based on semi-supervised learning”, Proceeding of the SoCPaR 2013, IEEE catalog number CFP1395H-ART, ISBN 978-1-4799-3400-3/13/$31.00, pp 238-242, 2013 Vo Duy Thanh, Vo Trung Hung, Phạm Minh Tuan and Ho Khac Hung, “Text Classification Based On Manifold Semi-Supervised Support Vector Mahcine”, Proceeding of the ISDA 2014, 14th International Conference on Intelligent Systems Design and Applications, Okinawa, Japan 27-29, November 2014, IEEJ catalog, ISSN: 2150-7996,pp 13-19 Pham Minh Tuan, Nguyen Thi Le Quyen, Vo Duy Thanh, Vo Trung Hung, “Vietnamese Documents Classification Based on Dendrogram and Wikipedia”, Proceedings of Asian Conference on Information Systems 2014, ACIS 2014, December 1-3, 2014, Nha Trang, Viet Nam, © 2014 by ACIS 2014, ISBN: 978-488686-089-7, pp 247-253 Vo Duy Thanh, Vo Trung Hung, Ho Khac Hung, Tran Quoc Huy, “Text Classification Based On SVM And Text Summarization”, International Journal of Engineering Research & Technology (IJERT) ISSN: 2278-0181, Vol 4, Issue 02, February-2015, pp 181-186 Võ Trung Hùng, Nguyễn Thị Ngọc Anh, Hồ Phan Hiếu, Nguyễn Ngọc Huyền Trân, Võ Duy Thanh, “So sánh văn dựa mô hình véc tơ”, Tạp chí Khoa học Công nghệ, Đại học Đà Nẵng, ISSN: 1859-1531, số 3(112)-2017, 1, Trang: 105-109 121 TÀI LIỆU THAM KHẢO [1] Asgharbeygi N and A Maleki (2008), “Geodesic K-means Clustering“ Proc ICPR08: pp 1-4 [2] A Blum and T Mitchell (1998), “Combining labeled and unlabeled data with Co-training” In Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT-98), pp 92-100 [3] A P Dempster Et al (1997), “Maximum likelihood from incomplete data via the EM algorithm” Journal of the Royal Statistical Society, Series B, 39(1): pp 1-38 [4] Balcan M F and Blum A (2006), “An augmented pac model for semisupervised learning.“ In O Chapelle, B Sch¨olkopf and A Zien (Eds.), Semisupervised learning MIT Press, pp 61-89 [5] Bengio, Y et al (2007) “Greedy layer-wise training of deep networks” Advances in Neural Information Processing Systems, NIPS 19 [6] Belkin, M et al (2006) “Manifold regularization: a geometric framework for learning from Labeled and Unlabeled Examples” Journal of Machine Learning Research, 7, 2399–2434 [7] Bennett K P (1998), “Semi-Supervised Support Vector Machines.“ Department of Mathematical Sciences Rensselaer Polytechnic InstituteTroy, pp 368-374.[5] [8] C C Kemp et al (2003),“Semi-Supervised learning with trees.“ Advances in Neural Information Processing System 16, NIPS 2003: pp 257-264 [9] Carlson A (2010), Coupled Semi-Supervised Learning Machine Learning Department School of Computer Science, Carnegie Mellon University Pittsburgh, PA 15213, CMU-ML-10-104, May [10] Chapelle et al (2006), Semi-Supervised Learning, The MIT Press Cambridge, Massachusetts Institute of Technology, ISBN 978-0-262-03358-9, London – England 122 [11] C Liu and P C Yuen (2011) “A boosted co-training algorithm for human action recognition,” IEEE Transactions on Circuits and Systems for Video Technology, vol 21, no 9, pp 1203–1213 [12] Collins M and Singer Y (1999), “Unsupervised models for named entity classification“, EMNLP/VLC-99, pp 100-110 [13] Cozman F G and Cohen I (2002), “Unlabeled data can degrade classification performance of generative classifiers.“, Int’ l Florida Artificial Intell Society Conf, pp 327-331 [14] C Rosenberg et al (2005) “Semisupervised self-training of object detection models,” in Proceedings of the 7th IEEE Workshop on Applications of Computer Vision (WACV ’05), IEEE, January 2005, pp 29–36 [15] Craven M., et al (1998) “Learning to extract symbolic knowledge from the World Wide Web” In Proceedings of the Fifteenth National Conference on Arti_cial Intellligence (AAAI-98), pp 509-516 [16] David D Lewis Et al (2004), “RCV1: A New Benchmark Collection for Text Categorization Research”, Journal of Machine Learning Research (5), pp 361397 [17] Dennis Ramdass & Shreyes Seshasai (2009), “Document Classification for Newspaper Articles”, 6.863 Final Project Spring 2009, pp 1-12 [18] Diederik et al (2014), “Semi-supervised Learning with Deep Generative Models“, NIPS Neural Information Processing Systems, Montreal, Canada, 811th December [19] Didaci, Luca et al (2012) “Analysis of Co-training Algorithm with Very Small Training Sets” Lecture Notes in Computer Science Springer Berlin Heidelberg ISBN: 9783642341656, pp 719–726 [20] Dinh Dien et al (2001),“Vietnamese Word Segmentation“, Proceedings of the NLPRS 2001, Tokyo, Japan, 27-30 November, pp 749-756 [21] Đỗ Phúc Trần Thế Lân (2004), “Phân loại văn tiếng Việt đựa tập thô“, Hội thảo Quốc gia CNTT, Đà Nẵng, pp 125-131 123 [22] Đỗ Phúc et al (2008), “Gom cụm đồ thị ứng dụng vào việc rút trích nội dung khối thông điệp diễn đàn thảo luận“, Tạp chí phát triển khoa học công nghệ, Tập 11, số 05, pp 21-32 [23] Fazakis, Nikos et al (2015) "Self-Trained LMT for Semi-supervised Learning" Computational Intelligence and Neuroscience 2016: 1– 13 doi:10.1155/2016/3057481 [24] Feil B and Abonyi J (2007), “Geodesic Distance Based Fuzzy Clustering“, Lecture Notes in Computer Science, Soft Computing in Industrial Applications 39, pp 50-59 [25] Giang Nguyễn Linh Nguyễn Mạnh Hiển (2006), “Phân loại văn tiếng Việt với phân loại véc tơ hỗ trợSVM“, Tạp chí CNTT&TT [26] Glenn Fung and O L Mangasarian (2001), “Semi-supervised Support Vector Machines for Unlabeled Data Classification“, Optimization Methods and Software, pp 1-14 [27] Goh A (2011), Riemannian manifold clustering and dimensionality reduction for vision-based analysis Machine Learning for Vision-Based Motion Analysis: Theory and Techniques, Springer-Verlag: pp 27-53 [28] Hamel L (2008), Knowledge Discovery With Support vector machines University of Rhode Island, ISBN 978-0-470-37192-3 [29] Houda benbrahim (2011), “Fuzzy Semi-supervised Support Vector Machines“, Machine Learning and Data Mining in Pattern Recognition, of the series Lecture Notes in Computer Science, 7th International Conference, MLDM, New York, USA, Vol 6871, pp 127-139 [30] Hung Nguyen et al (2005), “Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese“, Proceedings of 4th IEEE International Conference on Computer Science - Research, Innovation and Visio [31] J Kim et al (2007), “Soft Geodesic Kernel K-means“, Proc ICASSP20072, pp 429-432 124 [32] Jafar Tanha et al (2015), “Semi-supervised Self-training for decision tree classifiers“, International Journal of Machine Learning and Cybernetics, pp 1–16 [33] Jason D.M Rennie (2001), Improving Multi-class Text Classification with Naive Bayes, Submitted to the Department of Electrical Engineering and Computer Sciencein partial fulfillment of the requirements for the degree of Master of Science [34] Jason Weston et al (2008) “Deep learning via semi-supervised embedding”, Proceeding ICML '08 Proceedings of the 25th international conference on Machine learning, Helsinki, Finland, July 05-09, 2008, ACM New York, NY, USA ©2008, ISBN: 978-1-60558-205-4 doi>10.1145/1390156.1390303, Pages 1168-1175 [35] Jin Chen et al (2009), “Constructing Overview + Detail Dendrogram – Matrix Views“, IEEE Trans Vis Comput Graph Nov-Dec, pp 889-896 [36] Joachims, T (1999), “Transductive inference for text classification using support véc tơ machines“, Proc 16th International Conf on Machine Learning Morgan Kaufmann, San Francisco, CA, pp 200–209 [37] Joachims, T (1997), “A probabilistic analysis of the Rocchio algorithm with TF-IDF for text categorization”, ICML 97 Proceedings of the Fourteenth International Conference on Machine Learning, pp 143-151 [38] Joachims, T (1998), “Text Categorization with Support Vector Machines: Learning with Many Relevant Features“, In European Conference on Machine Learning (ECML), pp 137-142 [39] Joachims, T (2003), “Transductive learning via spectral graph partitioning” In Proceeding of The Twentieth International Conference on Machine Learning (ICML2003), 290-297 [40] Jones R (2005), Learning to extract entities from labeled and unlabeled text (Technical Report CMU-LTI-05-191) School of Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213 Doctoral Dissertation 125 [41] Kristin et al (1998), “Semi-supervised Support Vector Machines“, Advances in neural information processing systems, pp 368-374 [42] Lang, K (1995) “Newsweeder: Learning to filter netnews” In Machine Learning: Proceeding of th Twelfth International Conference (ICML-95), pp 331-339 [43] Le, Hong Phuong et al, (2008) “A Hybrid Approach to Word Segmentation of Vietnamese Texts” 2nd International Conference on Language and Automata Theory and Applications - LATA 2008, Mar, Tarragona, Spain Springer Berlin / Heidelberg, 5196, pp 240-249 [44] Levy, Omer; Goldberg, Yoav (2014) Neural Word Embedding as Implicit Matrix Factorization NIPS, pp 1-9 [45] Lewis, D D., & Gale, W A (1994) “A sequential algorithm for training text classiers” In SIGIR '94: Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 3-12 [46] Lewis, D D, & Knowles, K A (1997) “Threading electronic mail: A preliminary study” Information Processing and Management, 33 (2), 209-217 [47] Li Cunhe and Wu Chenggang (2010), “A new semi-supervised support vector machine learning algorithm based on active learning“, Future Computer and Communication (ICFCC), 2nd International Conference on Vol: 3, pp 638641 [48] Liqun Qi and Houyuan Jiang, (1997) “Semismooth Karush-Kuhn-Tucker Equations and Convergence Analysis of Newton and Quasi-Newton Methods for Solving These Equations”, Mathematics of Operations Research, Vol 22, No (May, 1997), pp 301-325 [49] McCallum A and Nigam K (1998), “A comparison of event models for naïve bayes text classification“, AAAI-98 Workshop on “Learning for Text Categorization”, Press, pp 335-343 [50] Min Song et al (2011), “Combining active learning and semi-supervised 126 learning techniques to extract protein interaction sentences“, BMC Bioinformatics, December, pp 1471-1480 [51] Mitchells T (2006), The discipline of machine learning, Technical Report CMU-ML- 06-108, Carnegie Mellon University, pp 1-7 [52] M.-L Zhang and Z.-H Zhou (2011), “CoTrade: confident co-training with data editing,” IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, vol 41, no 6, pp 1612–1626 [53] M Iggane (2012) “Self-training using a k-nearest neighbor as a base classifier reinforced by support vector machines” International Journal of Computer Applications, vol 56, no 6, pp 43–46 [54] Mohamed Farouk Abdel Hady et al (2010), “Semi-supervised learning for tree-structured ensembles of RBF networks with Co-training“, Neural Networks, The 18th International Conference on Artificial Neural Networks, ICANN, Vol 23, Issue 4, May, pp 497–509 [55] Nikos, Fazakis et al (2016), ”Self-trained LMT for semisupervised learning”, Journal Computational Intelligence and Neuroscience Volume 2016, January 2016 Article No 10, Hindawi Publishing Corp New York, NY, United States doi>10.1155/2016/3057481 pp 1-13 [56] Neil D Lawrence and Michael I Jordan (2004), “Semi-supervised Learning via Gaussian Processes“, Neutral Information Processing Systems 17, pp 753-760 [57] Nguyen, Cam Tu et al, (2006) “Vietnamese word segmentation with CRFs and SVMs: An investigation” In 20th Pacific Asia Conference on Language, Information and Computation (PACLIC), pp 215-222 [58] Nguyễn Ngọc Bình (2004), “Dùng lý thuyết tập thô kỹ thuật khác để phân loại, phân cụm văn tiếng Việt“, Kỷ yếu hội thảo ICT.rda’04 Hà nội [59] Nigam K (2001), Using unlabeled data to improve text classification Technical Report CMU-CS-01-126 Carnegie Mellon University Doctoral Dissertation 127 [60] Nigam K et al (2000), Text classification from labeled and unlabeled documents using EM Machine Learning, pp 103–134 [61] Pham M T and K Tachibana (2013), “An Algorithm for Fuzzy Clustering Based on Conformal Geometric Algebra“, Knowledge and Systems Engineering Advances in Intelligent Systems and Computing 245, pp 83-94 [62] Pazzani, M J et al (1996) “Syskill & Webert: Identifying interesting Web sites” In Proceedings of the Thirteenth National Conference on Artificial Intelligence (AAAI-96), pp 54-59 [63] Ratnaparkhi A (1997), “A Simple Introduction to Maximum Entropy Model For Natural Language Processing” In Technical Report 97-08 Institute for Reseach In Cognitive Science University of Pensylvania, pp 1-11 [64] Riloff, E and R Jones (1999) “Learning dictionaries for information extraction by multi-level bootstrapping” In Proceedings of the 6th national conference on Artificial intelligence, Orlando, Florida, United States AAAI, pp 474–479 [65] Renaud Blanch et al (2015) “Dendrogramix: a Hybrid Tree-Matrix Visualization Technique to Support Interactive Exploration of Dendrograms”, To appear in IEEE Transactions on Visualization and Computer Graphics (Proceedings of PacificVis 2015) pp 31-38 [66] Rosie Jones, et al (1999), “Bootstrapping for text learning Tasks”, IJCAI-99 Workshop on Text Mining: Foundations, Techniques and Applications, pp 52-63 [67] R Souvenir and R Pless (2005), “Manifold clustering“, IEEE International Conference on Computer Vision I: pp 648–653 [68] Sahami, M et al (1998) “A Baysian approach to _ltering junk e-mail” In AAAI-98 Workshop on Learning for Text Categorization Tech rep WS-9805, AAAI Press http://robotics.stanford.edu/users/sahami/papers.html [69] S Poria et al (2012), “Fuzzy clustering for semi-supervised learning - Case study: Construction of an emotion lexicon“, Proceedings of MICAI, pp 73-86 128 [70] Seege M (2001), Learning with labeled and unlabeled data Technical Report University of Edinburgh [71] Shavlik, J., & Eliassi-Rad, T (1998) “Intelligent agents for web-based tasks: An advice-taking approach” In AAAI-98 Workshop on Learning for Text Categorization Tech rep WS-98-05, AAAI Press http://www.cs.wisc.edu/_shavlik/mlrg/publications.html [72] Shifei Ding et al (2015), “An overview on semi-supervised support vector machine“, in Neural Computing and Applications, pp 1-10 [73] Sidorov Grigori and Velasquez Francisco et al (2009), “Syntactic n-Grams as Machine Learning Features for Natural Language Processing“, Expert Systems with Applications 41 (3), pp 853–860 [74] Sidorov Grigori et al (2012), “Syntactic Dependency-based n-grams as Classification Features“, LNAI 7630, pp 1–11 [75] Stamatis Karlos Et al (2016) “A Semisupervised Cascade Classification Algorithm”, Applied Computational Intelligence and Soft Computing, Volume 2016, Article ID 5919717, 14 pages, http://dx.doi.org/10.1155/2016/5919717 [76] S Sun and F Jin (2011) “Robust co-training” International Journal of Pattern Recognition and Artificial Intelligence, vol 25, no 7, pp 1113–1126 [77] Steven J Benson and Jone J Moré, (2001) “A Limited Memory Variable Metric Method In Subspace for Bound-constrained Optimization Problem” In Preprint ANL/MCS, P909-0901 [78] Susana Eyheramendy, et al (2003), “On the Naive Bayes Model for Text Classification” In Proceedings of the ninth international workshop on Artifcial Intelligence & Statistics, eds, C.M Bishop and B.J Frey [79] Thắng Huỳnh Quyết Đinh Thị Thu Phương (2005), “Tiếp cận phương pháp học không giám sát học có giám sát với toán phân lớp văn tiếng Việt đề xuất cải tiến công thức tính độ liên quan hai văn mô hình véc tơ“, Kỷ yếu Hội thảo ICT.rda’04, pp 251-261 129 [80] Tongguang Ni et al (2015), “Locality Preserving Semi-Supervised Support Vector Machine“, Journal of information Science and Engineering 31, pp 2009-2024 [81] Trần Cao Đệ Phạm Nguyên Khang (2012), “Phân loại với máy học vector hỗ trợ định“, Tạp chí khoa học Trường Đại học Cần Thơ, 21a, pp 52-63 [82] Trần Mai Vũ et al (2008), “Độ tương đồng ngữ nghĩa hai câu áp dụng vào toán sử dụng tóm tắt đa văn để đánh giá chất lượng phân cụm liệu máy tìm kiếm VNSEN“, Hội thảo CN Thông tin Truyền thông lần thứ (ICTFIT08) ĐHKHTN, ĐHQG TP HCM, pp 94-102 [83] Triguero Isaac et al (2013), Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study Knowledge and Information Systems 42 (2): pp 245–284 [84] Van Nguyen et al (2014), “Kernel-based semi-supervised learning for novelty detection“, International Joint Conference on Neural Networks (IJCNN), Conference Location, July pp: 4129 - 4136 [85] Vipin Kumar et al (2010), “Optimizing F-Measure with Support Vector Machines“, Proceedings of the 16 International, Florida, Articial Intellegence Reseach Society Conference, pp 356-360 [86] Vu Cong Duy Hoang et al (2007), “A Comparative Study on Vietnamese Text Classification Methods“, Research, Innovation and Vision for the Future, IEEE International Conference on, pp 267-273 [87] Xiaojin Zhu (2008), Semi-Supervised Learning Literature Survey Computer Sciences TR 1530, University of Wisconsin, Last modified on July [88] Yarowsky, D (1995), "Unsupervised Word Sense Disambiguation Rivaling Supervised Methods" Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics Cambridge, MA, pp 189–196 [89] Y Wang and S Chen (2013), “Safety-aware semi-supervised classification“, IEEE Transaction on Neural Network and Learning System, Vol 24, pp 1763-1772 130 [90] [76]Yu, H et al (2003) “Text classification from positive and unlabeled documents” In O Frieder, J et al (Eds.), CIKM 2003: Proceedings of the Twelfth ACM International Conference on Information and Knowledge Management pp 232-239 [91] Yitan Li Et al (2015) “Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective” Proceedings of the Twenty-Fourth international joint conference on Artificial Intelligence (IJCAI 2015) pp 3650-3656 [92] Yun Jin et al (2011), “A Semi-Supervised Learning Algorithm Based on Modified Self-training SVM“, in Journal of Computers 6, pp.1438-1443 [93] Yves Grandvalet and Yoshua Bengio (2005), “Semi-supervised Learning by Entropy Minimization“, Advances in neutral information processing systems 17, pp 1-8 [94] Z H Zhou et al (2007), “Semi-supervised learning with very few labeled training examples“, in Proceedings of the 22nd Conference on Artificial Intelligence and the 19th Innovative Applications of Artificial Intelligence Conference (AAAI '07), pp 675-680 [95] Zhu et al (2009), introduction to semi-supervised learning Morgan & Claypool ISBN 9781598295481 [96] Zhou, D., Huang, J., & Scholkopf, B (2005) “Learning from labeled and unlabeled data on a directed graph” ICML05, 22nd International Conference on Machine Learning Bonn, Germany [97] Zhou, Z.-H., & Li, M (2005) “Semi-supervised regression with co-training” International Joint Conference on Artificial Intelligence (IJCAI) [98] Zhu, X (2005) “Semi-supervised learning with graphs” Doctoral dissertation, Carnegie Mellon University (mã số CMU-LTI-05-192) [99] Piyush Rai (2011) Semi-supervised learning, CS5350/6350: Machine Learning, November 8, 2011 131 ... ĐẠI HỌC ĐÀ NẴNG VÕ DUY THANH NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT HỌC BÁN GIÁM SÁT VÀO LĨNH VỰC PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 LUẬN ÁN TIẾN SĨ KỸ THUẬT... trung nghiên cứu phương pháp nhằm phân loại văn tiếng Việt hiệu dựa kỹ thuật học bán giám sát Tổng quan tình hình nghiên cứu Trong khoa học máy tính, học bán giám sát lớp kỹ thuật học máy... - Chỉ nghiên cứu số kỹ thuật học bán giám sát dựa SVM, phân loại bán giám sát với trình xử lý hồi quy Gauss, phân loại học bán giám sát sử dụng hàm nhân, kỹ thuật nhân đồ thị sử dụng phép biến