Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 152 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
152
Dung lượng
3,12 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG LUẬN ÁN TIẾN SĨ CÔNG NGHÊ THÔNG TIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thơng tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY PGS.TS PHAN XUÂN HIẾU Hà Nội – 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu riêng tơi Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa cơng bố cơng trình khác Nghiên cứu sinh Phạm Thị Ngân i LỜI CẢM ƠN Luận án thực Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội hướng dẫn khoa học PGS.TS Hà Quang Thụy PGS.TS Phan Xuân Hiếu Trước tiên xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy thầy Phan Xuân Hiếu, người đưa tiếp cận đạt thành công lĩnh vực nghiên cứu Tơi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy ln tận tâm, động viên, khuyến khích dẫn tơi hồn thành luận án Tơi xin bày tỏ lịng biết ơn tới thầy Nguyễn Trí Thành nhiệt tình hướng dẫn truyền đạt kinh nghiệm nghiên cứu q trình tơi thực luận án Tôi xin chân thành cảm ơn tới tập thể thầy cô giáo, nhà khoa học thuộc Trường Đại học Công nghệ (đặc biệt thành viên Phịng thí nghiệm khoa học liệu cơng nghệ tri thức – DS&KTlab) - Đại học Quốc gia Hà Nội giúp đỡ chuyên môn tạo điều kiện thuận lợi cho suốt thời gian học tập nghiên cứu Tơi xin bày tỏ lịng cảm ơn chân thành tới cộng tơi thực cơng trình nghiên cứu bạn đồng nghiệp giúp đỡ, trao đổi chia sẻ kinh nghiệm chun mơn, đóng góp ý kiến q báu cho tơi q trình nghiên cứu Tôi xin trân trọng cảm ơn thầy cô hội đồng chun mơn đóng góp ý kiến q báu để tơi hồn thiện luận án Tơi bày tỏ lòng lòng cảm ơn sâu sắc tới Ban giám đốc Học viện Cảnh sát nhân dân; Tập thể lãnh đạo Bộ mơn Tốn-Tin học, Học viện Cảnh sát nhân dân tạo kiện thuận lợi cho q trình nghiên cứu; cảm ơn đồng chí Bộ mơn Tốn-Tin học ln ủng hộ, quan tâm động viên Tôi biết ơn người thân gia đình, bố mẹ nội, bố mẹ ngoại, anh chị em ln chia sẻ khó khăn, động viên chỗ dựa tinh thần vững cho suốt thời gian qua ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH VẼ x MỞ ĐẦU Chương TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN 10 1.1 Từ phân lớp đơn nhãn đơn thể tới phân lớp đa nhãn đa thể 10 1.1.1 Phân lớp đơn nhãn 10 1.1.2 Phân lớp đơn nhãn đa thể 11 1.1.3 Phân lớp đa nhãn 12 1.1.4 Phân lớp đa nhãn đa thể 13 1.2 Giới thiệu chung phân lớp đa nhãn 14 1.2.1 Kỹ thuật phân lớp đa nhãn 15 1.2.1.1 Tiếp cận chuyển đổi toán .16 1.2.1.2 Tiếp cận thích nghi thuật tốn 22 1.2.1.3 Tóm tắt thuật tốn giới thiệu 28 1.2.2 Dữ liệu đa nhãn 29 1.2.2.1 Các độ đo liệu đa nhãn 29 1.2.2.2 Phân bố nhãn 30 1.2.2.3 Mối quan hệ nhãn 30 1.2.3 Đánh giá phân lớp đa nhãn 31 1.2.3.1 Các độ đo dựa mẫu .32 1.2.3.2 Các độ đo dựa nhãn 34 1.3 Giảm chiều liệu phân lớp đa nhãn 36 iii 1.3.1 Tiếp cận giảm chiều không gian đặc trưng đầu vào 37 1.3.2 Tiếp cận giảm chiều không gian nhãn đầu 41 1.4 Học bán giám sát cho phân lớp đa nhãn 43 1.5 Kết luận chương 43 Chương HAI MƠ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT 45 2.1 Mô hình nhận diện thực thể có tên dựa trường ngẫu nhiên có điều kiện tiêu chuẩn kỳ vọng tổng quát 45 2.1.1 Nhận diện thực thể có tên 45 2.1.2 Mô hình đề xuất 46 2.1.2.1 Sử dụng tiêu chuẩn kỳ vọng tổng qt vào mơ hình trường nhẫu nhiên có điều kiện CRFs 48 2.1.2.2 Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát 51 2.1.2.3 Mơ hình đề xuất cho tốn nhận diện thực thể có tên .52 2.1.3 Ứng dụng mơ hình 56 2.2 Một mơ hình phân lớp đơn nhãn hệ tư vấn xã hội 59 2.2.1 Sơ tư vấn xã hội 59 2.2.2 Mơ hình đề xuất 62 2.2.3 Ứng dụng mơ hình 66 2.3 Kết luận chương 68 Chương PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN 70 3.1 Phân lớp đa nhãn văn dựa biểu diễn liệu theo chủ đề ẩn 70 3.1.1 Biểu diễn liệu theo chủ đề ẩn 70 3.1.2 Mơ hình phân lớp đa nhãn văn dựa biểu diễn liệu theo chủ đề ẩn 75 3.1.2.1 Pha – Huấn luyện mơ hình 77 3.1.2.2 Pha – Đánh giá mơ hình huấn luyện 82 iv 3.1.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 83 3.1.3.1 Xây dựng tập liệu thực nghiệm 84 3.1.3.2 Thực nghiệm 85 3.1.3.3 Kết thực nghiệm 86 3.2 Phân lớp đa nhãn văn dựa biểu diễn liệu theo đồ thị khoảng cách chủ đề ẩn 87 3.2.1 Mơ hình biểu diễn văn theo đồ thị khoảng cách 89 3.2.1.1 Biểu diễn liệu theo đồ thị khoảng cách 89 3.2.1.2 Mơ hình đồ thị khoảng cách mơ hình n-gram 92 3.2.2 Mơ hình phân lớp đa nhãn văn dựa biểu diễn liệu theo đồ thị khoảng cách chủ đề ẩn 93 3.2.2.1 Pha huấn luyện mô hình .95 3.2.2.2 Pha phân lớp sử dụng mơ hình huấn luyện 97 3.2.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 98 3.3 Kết luận chương 100 Chương KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT 102 4.1 Tiếp cận phân cụm bán giám sát 102 4.1.1 Tiếp cận dựa ràng buộc 102 4.1.2 Tiếp cận dựa khoảng cách 103 4.2 Mơ hình phân lớp đa nhãn bán giám sát 105 4.2.1 Phát biểu toán phân lớp đa nhãn bán giám sát 105 4.2.2 Thuật toán phân lớp đa nhãn dựa kỹ thuật phân cụm bán giám sát106 4.2.2.1 Thuật toán TESC LIFT 107 4.2.2.2 Thuật toán phân lớp đa nhãn bán giám sát 109 4.2.3 Mơ hình phân lớp đa nhãn bán giám sát đề xuất 116 4.3 Một mơ hình ứng dụng phân lớp đa nhãn văn bán giám sát 117 4.3.1 Mơ hình đề xuất 117 v 4.3.1.1 Pha Huấn luyện mơ hình 118 4.3.1.2 Pha Phân lớp sử dụng mô hình huấn luyện 120 4.3.2 Ứng dụng phân lớp đa nhãn sử dụng mơ hình đề xuất 120 4.4 Kết luận chương 123 KẾT LUẬN 124 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN 128 TÀI LIỆU THAM KHẢO 129 vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu ANN BPMLL BR CC CDE CLR CML CRFs CTM DTM ECC EPCC EPS FE FS IBLR IG kNN LC LP LDA LIFT LP LSA MI MIML MLC ML-DT ML-kNN MLL MLNB MMAC MMP Tiếng Anh Artificial neural network Backpropagation for Multilabel Learning Binary Relevance Classifier Chains Tiếng Việt Mạng Nơ-ron nhân tạo Phân lớp đa nhãn mạng Nơron lan truyền ngược Phân lớp nhị phân Chuỗi phân lớp Phương pháp tích hợp phụ ChiDep Ensemble thuộc Chi Calibrated Label Ranking Xếp hạng nhãn xác định Collective Multi-Label Classifier Bộ phân lớp đa nhãn nhóm Conditional Random Fields Trường ngẫu nhiên có điều kiện Corelated Topic Model Mơ hình chủ đề tương quan Dynamic Topic Model Mơ hình chủ đề động Ensemble of Classifier Chains Tích hợp chuỗi phân lớp Ensemble of Probabilistic Tích hợp chuỗi phân lớp xác Classifier Chains suất Ensemble of Pruned Sets Tích hợp tập cắt tỉa Feature Extraction Trích chọn đặc trưng Feature Selection Lựa chọn đặc trưng Instance-Based Learning by Học dựa thực thể hồi Logistic Regresion quy logic Information Gain Độ lợi thông tin k Nearest Neighbour k láng giềng gần Label Combination Kết hợp nhãn Label Powerset Tập lũy thừa nhãn Latent Dirichlet Allocation Mơ hình chủ đề ẩn Multi-Label Learning with Label Học đa nhãn với đặc trưng nhãn specIfic FeaTures riêng biệt Label Power set Tập lũy thừa nhãn Latent Semantic Analysis Phân tích ngữ nghĩa ẩn Mutual Information Thơng tin tương hỗ Multi-Instance Multi-Label Đa nhãn đa thể Multi-Label Classiffication Phân lớp đa nhãn Multi-Label Decision Tree Cây định đa nhãn Multi-Label k Nearest Neighbour k Láng giềng gần đa nhãn Multi-Label Learning Học đa nhãn Multilabel Naive Bayes Naïve Bayes đa nhãn Multiclass Multilabel Associative Phân lớp kết hợp đa nhãn đa lớp Classification Multilabel Multiclass Thuật toán Perceptron phân lớp Perceptron đa lớp đa nhãn vii MuLAM Multilabel Ant - Miner NER PCA PCC Named Entity Recognition Principal Component Analysis Probabilistic Classifier Chains PCT Predictive Clustering Trees PMM1 PMM2 POS PS PW RPC RSL SVM TESC TFIDF Thuật toán tối ưu đàn kiến đa nhãn Nhận dạng thực thể có tên Phân tích thành phần Chuỗi phân lớp xác suất Thuật tốn phân cụm dự đốn Parametric Mixture Models Mơ hình hịa trộn tham số Part Of Speech Pruned Sets Pairwise Methods Ranking by Pairwise Comparision Ranking via Single-label Learning Support Vector Machine TExt classification using Semisupervised Clustering Term Frequency Inverse Document Frequency Từ loại Các tập bị cắt tỉa Phương pháp cặp đôi Phương pháp xếp hạng theo so sánh cặp đôi Xếp hạng thông qua học đơn nhãn Máy vectơ hỗ trợ Phân lớp văn sử dụng phân cụm bán giám sát Trọng số tần suất độ quan trọng từ viii ... tới phân lớp đa nhãn phân lớp đa thể hiện, phân lớp đa nhãn đa thể [128] Phân lớp đơn nhãn (còn gọi phân lớp truyền thống) quy ước đối tượng liệu có nhãn (hàm phân lớp đơn trị) Phân lớp đa nhãn. .. cơng trình nghiên cứu sớm học đa nhãn tập trung vào miền ứng dụng phân lớp văn [6], [106] Theo thời gian, học đa nhãn ứng dụng vào nhiều miền ứng dụng đa dạng (đặc biệt miền ứng dụng phân lớp liệu... đơn thể tới phân lớp đa nhãn đa thể 10 1.1.1 Phân lớp đơn nhãn 10 1.1.2 Phân lớp đơn nhãn đa thể 11 1.1.3 Phân lớp đa nhãn 12 1.1.4 Phân lớp đa nhãn đa thể