Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 141 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
141
Dung lượng
3 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG LUẬN ÁN TIẾN SĨ CÔNG NGHÊ THÔNG TIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN NGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thơng tin Mã số: 62.48.01.04 LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY PGS.TS PHAN XUÂN HIẾU Hà Nội – 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận án cơng trình nghiên cứu riêng tơi Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa cơng bố cơng trình khác Nghiên cứu sinh Phạm Thị Ngân i LỜI CẢM ƠN Luận án thực Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội hướng dẫn khoa học PGS.TS Hà Quang Thụy PGS.TS Phan Xuân Hiếu Trước tiên xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy thầy Phan Xuân Hiếu, người đưa tiếp cận đạt thành công lĩnh vực nghiên cứu Tơi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy ln tận tâm, động viên, khuyến khích dẫn tơi hồn thành luận án Tơi xin bày tỏ lịng biết ơn tới thầy Nguyễn Trí Thành nhiệt tình hướng dẫn truyền đạt kinh nghiệm nghiên cứu q trình tơi thực luận án Tôi xin chân thành cảm ơn tới tập thể thầy cô giáo, nhà khoa học thuộc Trường Đại học Công nghệ (đặc biệt thành viên Phịng thí nghiệm khoa học liệu cơng nghệ tri thức – DS&KTlab) - Đại học Quốc gia Hà Nội giúp đỡ chuyên môn tạo điều kiện thuận lợi cho suốt thời gian học tập nghiên cứu Tơi xin bày tỏ lịng cảm ơn chân thành tới cộng tơi thực cơng trình nghiên cứu bạn đồng nghiệp giúp đỡ, trao đổi chia sẻ kinh nghiệm chun mơn, đóng góp ý kiến q báu cho tơi q trình nghiên cứu Tôi xin trân trọng cảm ơn thầy cô hội đồng chun mơn đóng góp ý kiến q báu để tơi hồn thiện luận án Tơi bày tỏ lòng lòng cảm ơn sâu sắc tới Ban giám đốc Học viện Cảnh sát nhân dân; Tập thể lãnh đạo Bộ mơn Tốn-Tin học, Học viện Cảnh sát nhân dân tạo kiện thuận lợi cho q trình nghiên cứu; cảm ơn đồng chí Bộ mơn Tốn-Tin học ln ủng hộ, quan tâm động viên Tôi biết ơn người thân gia đình, bố mẹ nội, bố mẹ ngoại, anh chị em ln chia sẻ khó khăn, động viên chỗ dựa tinh thần vững cho suốt thời gian qua ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH VẼ x MỞ ĐẦU Chương TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN 10 1.1 Từ phân lớp đơn nhãn đơn thể tới phân lớp đa nhãn đa thể 10 1.1.1 Phân lớp đơn nhãn 10 1.1.2 Phân lớp đơn nhãn đa thể 11 1.1.3 Phân lớp đa nhãn 12 1.1.4 Phân lớp đa nhãn đa thể 13 1.2 Giới thiệu chung phân lớp đa nhãn 14 1.2.1 Kỹ thuật phân lớp đa nhãn 15 1.2.1.1 Tiếp cận chuyển đổi toán .16 1.2.1.2 Tiếp cận thích nghi thuật tốn 22 1.2.1.3 Tóm tắt thuật tốn giới thiệu 28 1.2.2 Dữ liệu đa nhãn 29 1.2.2.1 Các độ đo liệu đa nhãn 29 1.2.2.2 Phân bố nhãn 30 1.2.2.3 Mối quan hệ nhãn 30 1.2.3 Đánh giá phân lớp đa nhãn 31 1.2.3.1 Các độ đo dựa mẫu .32 1.2.3.2 Các độ đo dựa nhãn 34 1.3 Giảm chiều liệu phân lớp đa nhãn 36 iii 1.3.1 Tiếp cận giảm chiều không gian đặc trưng đầu vào 37 1.3.2 Tiếp cận giảm chiều không gian nhãn đầu 41 1.4 Học bán giám sát cho phân lớp đa nhãn 43 1.5 Kết luận chương 43 Chương HAI MƠ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT 45 2.1 Mô hình nhận diện thực thể có tên dựa trường ngẫu nhiên có điều kiện tiêu chuẩn kỳ vọng tổng quát 45 2.1.1 Nhận diện thực thể có tên 45 2.1.2 Mô hình đề xuất 46 2.1.2.1 Sử dụng tiêu chuẩn kỳ vọng tổng qt vào mơ hình trường nhẫu nhiên có điều kiện CRFs 48 2.1.2.2 Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát 51 2.1.2.3 Mơ hình đề xuất cho tốn nhận diện thực thể có tên .52 2.1.3 Ứng dụng mơ hình 56 2.2 Một mơ hình phân lớp đơn nhãn hệ tư vấn xã hội 59 2.2.1 Sơ tư vấn xã hội 59 2.2.2 Mơ hình đề xuất 62 2.2.3 Ứng dụng mơ hình 66 2.3 Kết luận chương 68 Chương PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN 70 3.1 Phân lớp đa nhãn văn dựa biểu diễn liệu theo chủ đề ẩn 70 3.1.1 Biểu diễn liệu theo chủ đề ẩn 70 3.1.2 Mơ hình phân lớp đa nhãn văn dựa biểu diễn liệu theo chủ đề ẩn 75 3.1.2.1 Pha – Huấn luyện mơ hình 77 3.1.2.2 Pha – Đánh giá mơ hình huấn luyện 82 iv 3.1.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 83 3.1.3.1 Xây dựng tập liệu thực nghiệm 84 3.1.3.2 Thực nghiệm 85 3.1.3.3 Kết thực nghiệm 86 3.2 Phân lớp đa nhãn văn dựa biểu diễn liệu theo đồ thị khoảng cách chủ đề ẩn 87 3.2.1 Mơ hình biểu diễn văn theo đồ thị khoảng cách 89 3.2.1.1 Biểu diễn liệu theo đồ thị khoảng cách 89 3.2.1.2 Mơ hình đồ thị khoảng cách mơ hình n-gram 92 3.2.2 Mơ hình phân lớp đa nhãn văn dựa biểu diễn liệu theo đồ thị khoảng cách chủ đề ẩn 93 3.2.2.1 Pha huấn luyện mô hình .95 3.2.2.2 Pha phân lớp sử dụng mơ hình huấn luyện 97 3.2.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 98 3.3 Kết luận chương 100 Chương KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT 102 4.1 Tiếp cận phân cụm bán giám sát 102 4.1.1 Tiếp cận dựa ràng buộc 102 4.1.2 Tiếp cận dựa khoảng cách 103 4.2 Mơ hình phân lớp đa nhãn bán giám sát 105 4.2.1 Phát biểu toán phân lớp đa nhãn bán giám sát 105 4.2.2 Thuật toán phân lớp đa nhãn dựa kỹ thuật phân cụm bán giám sát106 4.2.2.1 Thuật toán TESC LIFT 107 4.2.2.2 Thuật toán phân lớp đa nhãn bán giám sát 109 4.2.3 Mơ hình phân lớp đa nhãn bán giám sát đề xuất 116 4.3 Một mơ hình ứng dụng phân lớp đa nhãn văn bán giám sát 117 4.3.1 Mơ hình đề xuất 117 v 4.3.1.1 Pha Huấn luyện mơ hình 118 4.3.1.2 Pha Phân lớp sử dụng mô hình huấn luyện 120 4.3.2 Ứng dụng phân lớp đa nhãn sử dụng mơ hình đề xuất 120 4.4 Kết luận chương 123 KẾT LUẬN 124 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN 128 TÀI LIỆU THAM KHẢO 129 vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Kí hiệu ANN BPMLL BR CC CDE CLR CML CRFs CTM DTM ECC EPCC EPS FE FS IBLR IG kNN LC LP LDA LIFT LP LSA MI MIML MLC ML-DT ML-kNN MLL MLNB MMAC MMP Tiếng Anh Artificial neural network Backpropagation for Multilabel Learning Binary Relevance Classifier Chains Tiếng Việt Mạng Nơ-ron nhân tạo Phân lớp đa nhãn mạng Nơron lan truyền ngược Phân lớp nhị phân Chuỗi phân lớp Phương pháp tích hợp phụ ChiDep Ensemble thuộc Chi Calibrated Label Ranking Xếp hạng nhãn xác định Collective Multi-Label Classifier Bộ phân lớp đa nhãn nhóm Conditional Random Fields Trường ngẫu nhiên có điều kiện Corelated Topic Model Mơ hình chủ đề tương quan Dynamic Topic Model Mơ hình chủ đề động Ensemble of Classifier Chains Tích hợp chuỗi phân lớp Ensemble of Probabilistic Tích hợp chuỗi phân lớp xác Classifier Chains suất Ensemble of Pruned Sets Tích hợp tập cắt tỉa Feature Extraction Trích chọn đặc trưng Feature Selection Lựa chọn đặc trưng Instance-Based Learning by Học dựa thực thể hồi Logistic Regresion quy logic Information Gain Độ lợi thông tin k Nearest Neighbour k láng giềng gần Label Combination Kết hợp nhãn Label Powerset Tập lũy thừa nhãn Latent Dirichlet Allocation Mơ hình chủ đề ẩn Multi-Label Learning with Label Học đa nhãn với đặc trưng nhãn specIfic FeaTures riêng biệt Label Power set Tập lũy thừa nhãn Latent Semantic Analysis Phân tích ngữ nghĩa ẩn Mutual Information Thơng tin tương hỗ Multi-Instance Multi-Label Đa nhãn đa thể Multi-Label Classiffication Phân lớp đa nhãn Multi-Label Decision Tree Cây định đa nhãn Multi-Label k Nearest Neighbour k Láng giềng gần đa nhãn Multi-Label Learning Học đa nhãn Multilabel Naive Bayes Naïve Bayes đa nhãn Multiclass Multilabel Associative Phân lớp kết hợp đa nhãn đa lớp Classification Multilabel Multiclass Thuật toán Perceptron phân lớp Perceptron đa lớp đa nhãn vii MuLAM Multilabel Ant - Miner NER PCA PCC Named Entity Recognition Principal Component Analysis Probabilistic Classifier Chains PCT Predictive Clustering Trees PMM1 PMM2 POS PS PW RPC RSL SVM TESC TFIDF Thuật toán tối ưu đàn kiến đa nhãn Nhận dạng thực thể có tên Phân tích thành phần Chuỗi phân lớp xác suất Thuật tốn phân cụm dự đốn Parametric Mixture Models Mơ hình hịa trộn tham số Part Of Speech Pruned Sets Pairwise Methods Ranking by Pairwise Comparision Ranking via Single-label Learning Support Vector Machine TExt classification using Semisupervised Clustering Term Frequency Inverse Document Frequency Từ loại Các tập bị cắt tỉa Phương pháp cặp đôi Phương pháp xếp hạng theo so sánh cặp đôi Xếp hạng thông qua học đơn nhãn Máy vectơ hỗ trợ Phân lớp văn sử dụng phân cụm bán giám sát Trọng số tần suất độ quan trọng từ viii o Nếu tài liệu có nhãn D3 đồng nhãn (theo tập nhãn ban đầu ) tiến hành phân hoạch D3 sử dụng thuật toán TESC (coi tài liệu đồng nhãn tương đương với tài liệu gán nhãn đơn) thu tập cụm o Nếu tài liệu có nhãn D3 khơng đồng nhãn nhãn (theo tập nhãn ban đầu ) loại bỏ nhãn l1 tập L2 sau tiến hành đệ quy MULTICS D3 với đầu vào * * +, + Thuật toán dừng lại tập đồng nhãn số lượng văn nhỏ (theo cấu hình thuật tốn TESC) Cuối thu tập cụm phân hoạch tập liệu b Phân lớp liệu Trong bước phân lớp liệu, đầu vào phân hoạch tập liệu xây dựng bước huấn luyện liệu cần gán nhãn Đầu bước tập nhãn tương ứng với văn cần gán nhãn Phương pháp 1NN áp dụng bước theo hướng tính khoảng cách văn cần gán nhãn với tâm cụm để tìm cụm gần nhất, tập nhãn cụm gần gán cho văn cần gán nhãn Giả mã bước xác định nhãn thể sau: Thủ tục MULTICSClassifier Đầu vào: : tập cụm liệu gán nhãn * + : liệu cần gán nhãn Đẩu ra: : Tập nhãn tương ứng với văn Thuật toán: // // cụm xét đến nhãn cụm Với cụm ( ) ‖ ‖ //tính khoảng cách 114 If ( ) ( ) End for Thủ tục 4.2 Thủ tục phân lớp MULTICSClassifier Bằng việc chia nhỏ tập liệu thành ba tập con, mơ hình đề xuất MULTICS hạn chế vấn đề độ phức tạp tính tốn Tuy nhiên, phức tạp liệu nên việc xác định tính chất lực lượng tập để tính tốn số vịng lặp thuật tốn trường hợp tổng quát khó Xét số trường hợp đơn giản sau: - Trường hợp vùng |D2| |D3| | ̅ |/2 Theo công thức truy hồi, công thức tính thời gian thực thi sau: T(n) = thời gian phân hoạch liệu thành tập (D1, D2, D3) lần đệ quy MULTICS D2 D3 Trong thời gian phân hoạch liệu thành tập (D1, D2, D3) sử dụng TESC có độ phức tạp O(n2), thời gian đệ quy MULTICS D2 D3 T(n/2) Do đó: ( ) ( ) ( ( ) /) ( ( / /) ) ( ( / ) Cơng thức dừng đạt T(1) Khi Ta có: ( ) / ( ) 115 ) ( ) / / Khi đó, độ phức tạp tính tốn trường hợp ( - Trường hợp vùng |D1| |D2| |D3| ) | ̅ |/3 T(n) = thời gian phân hoạch liệu thành tập (D1, D2, D3), thời gian phân hoạch D1 lần đệ quy MULTICS D2 D3 Trong thời gian phân hoạch liệu thành tập (D1, D2, D3) sử dụng TESC có độ phức tạp O(n2), thời gian phân hoạch thời gian đệ quy MULTICS D2 D3 T(n/3) Do đó: Theo cơng thức truy hồi, ta có cơng thức tính thời gian thực thi sau: ( ) Tương tự ( ) / ( ) Như vậy, thấy mơ hình thực thi tương đối tốt trường hợp đơn giản xét 4.2.3 Mơ hình phân lớp đa nhãn bán giám sát đề xuất Luận án đề xuất mơ hình phân lớp đa nhãn bán giám sát, kết hợp bước bổ sung, làm giàu đặc trưng nhằm tăng cường biểu diễn cho liệu, bước lựa chọn đặc trưng nhằm loại bỏ đặc trưng dư thừa, không liên quan giữ lại đặc trưng quan trọng, bước vận dụng thuật toán phân lớp bán giám sát MULTICS đề xuất nhằm khai thác nguồn liệu đa nhãn phong phú sẵn có miền ứng dụng Quy trình bước giải toán thực sau: Pha 1: Xây dựng mơ hình phân lớp đa nhãn dựa kỹ thuật phân cụm bán giám sát - Bước 1: Tiền xử lý xây dựng tập đặc trưng cho liệu huấn luyện bao gồm liệu có nhãn liệu không nhãn - Bước 2: Làm giàu đặc trưng - Bước 3: Rút gọn đặc trưng - Bước 4: Xây dựng phân lớp theo thuật toán MULTICSLearn Pha 2: Phân lớp liệu đánh giá 116 - Bước 1: Tiền xử lý xây dựng tập đặc trưng cho liệu kiểm thử - Bước 2: Làm giàu đặc trưng - Bước 3: Biểu diễn liệu kiểm thử theo tập đặc trưng rút gọn - Bước 4: Sử dụng phân lớp tập liệu kiểm thử đánh giá Quy trình 4.1 Các bước giải tốn theo mơ hình đề xuất Mơ hình biểu diễn cho quy trình thể Hình 4.1 Hình 4.1 Mơ hình phân lớp bán giám sát đề xuất 4.3 Một mơ hình ứng dụng phân lớp đa nhãn văn bán giám sát 4.3.1 Mơ hình đề xuất Thừa hưởng kết thu từ mơ hình biểu diễn liệu theo chủ đề ẩn (đã trình bày Chương 3) nhằm khai thác ngữ nghĩa ẩn làm giàu cho tập đặc trưng tiếp cận bán giám sát phân lớp đa nhãn theo thuật tốn MULTICS trình bày trên, luận án đề xuất mơ hình phân lớp đa nhãn bán giám sát cho miền ứng dụng văn tiếng Việt trình bày Hình 4.2bvà bước giải tốn thực theo Quy trình 4.2 117 Pha 1: Huấn luyện mơ hình - Bước 1: Tiền xử lý liệu: tách câu, tách từ, loại bỏ từ dừng, chuẩn hóa liệu biểu diễn liệu theo đặc trưng TFIDF / Nhị phân - Bước 2: Xây dựng mơ hình chủ đề ẩn LDA tập đặc trưng chủ đề ẩn - Bước 3: Lựa chọn đặc trưng dựa phương pháp thông tin tương hỗ MI G Doquire M Verleysen [34] đề xuất để rút gọn tìm tập đặc trưng tiêu biểu cho trình phân lớp - Bước 4: Xây dựng phân lớp đa nhãn sử dụng thuật toán MULTICS Pha 2: Phân lớp đa nhãn sử dụng mơ hình huấn luyện - Bước 1: Tiền xử lý liệu kiểm thử xây dựng tập đặc trưng - Bước 2: Bổ sung tập đặc trưng phân phối chủ đề ẩn cho liệu huấn luyện - Bước 3: Biểu diễn liệu kiểm thử theo tập đặc trưng lựa chọn - Bước 4: Phân lớp sử dụng phân lớp đa nhãn Pha Quy trình 4.2 Quy trình giải tốn 4.3.1.1 Pha Huấn luyện mơ hình Bước 1: Xuất phát từ đặc điểm kiểu liệu phân phối xác suất chủ đề ẩn kiểu liệu thực, thuật toán MULTICS sử dụng đặc trưng nhị phân, nên để khảo sát đặc trưng kiểu liệu, luận án đề xuất xây dựng tập đặc trưng khác bao gồm biểu diễn theo đặc trưng TFIDF (dữ liệu kiểu thực – liên tục) đặc trưng nhị phân (dữ liệu kiểu nguyên – rời rạc) Sau bước này, thu vector biểu diễn đặc trưng Bước 2: Xây dựng mơ hình chủ đề ẩn LDA tập vector đặc trưng phân phối xác suất chủ đề ẩn Sau bước này, thu tập đặc trưng liệu bao gồm đặc trưng TFIDF/nhị phân đặc trưng phân phối xác suất chủ đề ẩn ( ( ( ) ( ( ( ) Trong đó, ( ( ) ( ) ( ) ) ( ( ) ) ) ) ) giá trị TFIDF từ thứ i văn d ) giá trị nhị phân từ thứ i văn d 118 giá trị phân phối xác xuất văn d chủ đề ẩn thứ i Hình 4.2 Mơ hình ứng dụng phân lớp đa nhãn bán giám sát cho văn tiếng Việt Bước 3: Lựa chọn đặc trưng bước mơ hình xử lý liệu nhằm loại bỏ đặc trưng dư thừa, không liên quan giữ lại đặc trưng quan trọng Luận án khảo sát ý nghĩa bước lựa chọn đặc trưng sử dụng kỹ thuật thông tin tương hỗ Bước 4: Xây dựng mô hình phân lớp sử dụng thuật tốn bán giám sát MULTICS Sau thu phân hoạch tập liệu, mơ hình xây dựng theo phương pháp tìm kiếm láng giềng gần để dự đoán tập nhãn cho liệu dựa tập nhãn cụm gần 119 4.3.1.2 Pha Phân lớp sử dụng mơ hình huấn luyện Dữ liệu tiền xử lý xây dựng tập đặc trưng tương tự Bước 1, 2, pha huấn luyện mô hình Sau đưa vào phân lớp để xác định nhãn theo phương pháp 1NN 4.3.2 Ứng dụng phân lớp đa nhãn sử dụng mơ hình đề xuất Để đánh giá hiệu mơ hình đề xuất, mơ hình áp dụng vào tốn đánh giá khách sạn trình bày Chương Ba tập liệu xây dựng bao gồm: liệu có nhãn, liệu khơng nhãn liệu kiểm tra Để đánh giá đóng góp liệu có nhãn với mơ hình, chúng tơi sinh tập tập liệu có nhãn với kích thước 500, 750, 1000 đánh giá Đồng thời để đánh giá đóng góp liệu khơng nhãn với mơ hình, chúng tơi sử dụng tập liệu khơng nhãn với kích thước 0, 50, 100, 200 300 đánh giá Các thực nghiệm sử dụng tập liệu kiểm thử bao gồm 250 đánh giá Ngoài ra, thực nghiệm sử dụng tập liệu miền ứng dụng để xây dựng mơ hình chủ đề ẩn LDA gồm 22000 đánh giá Các mơ hình chủ đề ẩn xây dựng với số lượng chủ đề ẩn khác để đánh giá mức độ ảnh hưởng đăc trưng phân phối xác suất chủ đề ẩn Chúng xây dựng mơ hình phân lớp đa nhãn theo tiếp cận giám sát dựa phương pháp chuyển đổi toán đa nhãn toán đơn nhãn truyền thống với nhân kỹ thuật SVM Mơ hình thực thi tập liệu kết tốt nhóm liệu huấn luyện gồm 750 đánh giá sử dụng để so sánh với mơ hình đề xuất Kịch thực nghiệm thiết kế sau: - Thực nghiệm (ký hiệu BN): Chỉ sử dụng tập đặc trưng nhị phân cho mơ hình Đây thực nghiệm Mục 4.3 - Thực nghiệm (ký hiệu BN+MI): Sử dụng tập đặc trưng nhị phân kết hợp bước lựa chọn đặc trưng sử dụng thông tin tương hỗ - Thực nghiệm (ký hiệu BN+LDA): Sử dụng tập đặc trưng nhị phân đặc trưng phân phối xác suất chủ đề ẩn LDA 120 - Thực nghiệm (ký hiệu TFIDF+LDA): Sử dụng tập đặc trưng TFIDF đặc trưng phân phối xác suất chủ đề ẩn LDA - Thực nghiệm (ký hiệu TFIDF+LDA+MI): Sử dụng tập đặc trưng TFIDF đặc trưng phân phối xác suất chủ đề ẩn LDA kết hợp với kỹ thuật lựa chọn đặc trưng sử dụng thông tin tương hỗ Chúng ( sử dụng độ đo dựa nhãn +) trình bày mục 1.2.3.2 * Kết thực nghiệm sở theo hướng sử dụng tiếp cận chuyển đổi toán phân lớp nhị phân với nhân kỹ thuật SVM cho kết tốt liệu huấn luyện gồm 750 nhận xét có gán nhãn với độ đo F1 63.9% Các kết thực nghiệm ứng dụng mơ hình đề xuất cho thực thi tốt phương pháp sở với kết tốt có độ đo F1 85.3% Sau sâu phân tích kết kịch thực nghiệm theo mơ hình đề xuất để phân tích ảnh hưởng bước mơ hình Kích thước tập liệu huấn luyện 500 750 1000 Kích thước tập liệu khơng nhãn 50 100 200 300 50 100 200 300 50 100 200 300 BN BN + MI Precisionmicro (%) Recallmicro (%) F1micro (%) Precisionmicro (%) Recallmicro (%) F1micro (%) 77.4 81.4 80.6 83 79.6 77.7 82.4 82.1 80.7 79 80.1 80.7 81.3 81 82.4 81.1 77.7 78.7 82.5 80.4 81.5 81.3 82.3 82.5 82.3 79.6 81 83.3 84.4 83.9 79.2 79.5 79.7 82.7 80 79.6 81.8 82.2 81.6 80.6 79.8 80.9 82.3 82.6 83.2 74.3 76.3 73.1 74.8 81 75.7 77 74.8 74.1 79.9 80.3 78.4 83.1 75.9 78.2 75.8 78.7 78.5 76.4 76.1 76.8 78.2 78.2 81.2 80.4 78.1 81.2 82.7 84.6 80.9 75 77.5 75.7 75.6 78.5 76.2 77.6 76.4 77.5 80.2 79.1 79.8 82.8 80 79.5 Bảng 4.1 Kết thực nghiệm thực nghiệm 121 Kết thực nghiệm thể Bảng 4.1 cho thấy việc sử dụng liệu không nhãn làm tăng hiệu thực thi mơ hình so với thực nghiệm không sử dụng liệu không nhãn Tuy nhiên, kết thực nghiệm thấp kết thực nghiệm cho thấy kỹ thuật lựa chọn đặc trưng không làm tăng hiệu thực thi mô hình Theo quan điểm nghiên cứu sinh, thân thuật tốn MULTICS có q trình xây dựng tập đặc trưng riêng nhãn/tập nhãn khơng sử dụng tồn tập đặc trưng, coi bước lựa chọn đặc trưng hữu ích riêng biệt cho nhãn/tập nhãn Do đó, việc sử dụng thêm bước lựa chọn đặc trưng sử dụng thông tin tương hỗ thực nghiệm làm giảm Kích thước tập liệu không nhãn hiệu thực thi thuật toán MULTICS 10 15 25 50 100 10 15 25 50 100 10 15 25 50 100 79.4 79.1 79.2 80.5 80.6 79.2 81.5 82.4 80 80.9 79.5 82.4 80.5 80.7 80.6 50 79.5 80.1 80 80.9 80.9 78.4 82.5 85.3 81.5 82.2 82 83.9 81.8 83.7 82.8 100 81.1 81.1 79.6 80.3 80.2 84.9 84.4 82.3 83.5 83.4 83.5 82.8 83.6 82.7 200 79.8 80.6 79.8 80 79.8 81.9 81.2 81.4 82.3 82.3 81.4 83.5 83.8 83.6 300 80.2 79.8 80.6 79.7 80.3 81.3 79.4 80.8 81.9 82.6 81.7 83.8 80.5 83.4 84 83.6 83.9 BN+LDA F1micro (%) TFIDF+LDA F1micro (%) TFIDF+LDA+MI F1 micro (%) Số lượng chủ đề Số lượng chủ đề Số lượng chủ đề Bảng 4.2 Kết thực nghiệm 3, thực nghiệm thực nghiệm Số lượng thực nghiệm nhóm thực nghiệm 3, 4, tương đối lớn nên luận án chọn thực nghiệm có kết tốt nhóm thực nghiệm để trình bày Bảng 4.2 Kết thực nghiệm cho thấy việc kết hợp đặc trưng nhị phân với đặc trưng phân phối xác suất chủ đề ẩn làm giảm hiệu thực thi mơ hình Điều lý giải khác biệt kiểu liệu đặc trưng nhị phân (dữ liệu nguyên) kiểu liệu phân phối xác suất chủ đề ẩn (dữ liệu thực) Do đó, luận án đề xuất tiến hành thực nghiệm với đồng kiểu liệu thực đặc trưng TFIDF đặc trưng phân phối xác xuất chủ đề ẩn LDA Kết thực nghiệm cho kết tốt tất thực nghiệm khác với kết tốt 85.3% Thực nghiệm đề xuất kết hợp kỹ thuật lựa chọn đặc trưng sử dụng thông tin tương hỗ khơng làm tăng hiệu thực thi mơ hình so với thực nghiệm Kết lần 122 khẳng định thuật toán phân lớp đa nhãn bán giám sát MULTICS cho kết tốt mà không cần kết hợp với kỹ thuật lựa chọn đặc trưng 4.4 Kết luận chương Chương trình bày mơ hình đề xuất cho phân lớp đa nhãn bán giám sát Trong đó, kỹ thuật phân cụm bán giám sát xây dựng để tạo đặc trưng cho đối tượng Bên cạnh đó, tiếp thu đề xuất liên quan việc xây dựng tập đặc trưng riêng biệt cho nhãn nhằm tăng hiệu phân lớp, luận án xây dựng thuật toán phân lớp đa nhãn hướng tới việc cá thể nhãn nhóm nhãn có quan hệ với xây dựng tập đặc trưng cho riêng cá thể, từ làm tăng hiệu phân lớp cho đối tượng Việc sử dụng nguồn liệu không nhãn phong phú tham gia vào học mơ hình tận dụng nguồn tài nguyên sẵn có kết hợp với liệu có nhãn để tăng hiệu mơ hình Đây xu hướng nhiều nhà nghiên cứu quan tâm 123 KẾT LUẬN I Những kết luận án Luận án tham gia vào dòng nghiên cứu phân lớp đa nhãn giới đạt số đóng góp sau phân lớp đơn nhãn phân lớp đa nhãn văn tiếng Việt Thứ nhất, luận án đề xuất hai mơ hình phân lớp đơn nhãn mơ hình gán nhãn thực thể có tên mơ hình hệ tư vấn xã hội Trong đó, nhận dạng thực thể có tên tốn nhóm tốn trích chọn thơng tin nhằm tìm kiếm rút thông tin liên quan thực thể văn Bài tốn coi tốn phân lớp đơn nhãn thực thể gán cho nhãn (tên gọi) tập nhãn cho trước Luận án đề xuất mơ hình học bán giám sát trường ngẫu nhiên có điều kiện CRFs dựa tiêu chuẩn kỳ vọng tổng quát xây dựng từ tập ràng buộc đặc trưng phân phối xác suất thực thể có tên khai thác từ thơng tin hữu ích tập liệu khơng nhãn Tiếp theo, đề án đề xuất mơ hình hệ tư vấn xã hội dựa kỹ thuật phân tích quan điểm người dùng, sử dụng mơ hình lọc cộng tác với phương pháp hướng người dùng dựa mối quan hệ tương đồng người dùng hệ thống mạng xã hội Mơ hình khai thác xây dựng tập đặc trưng phong phú xã hội tiểu sử để tăng cường quan hệ người dùng Thứ hai, luận án khảo sát hai giải pháp biểu diễn liệu phân lớp đa nhãn văn tiếng Việt bao gồm phương pháp biểu diễn liệu theo mơ hình chủ đề ẩn phương pháp biểu diễn liệu theo đồ thị khoảng cách Với giả thiết văn tạo việc kết hợp nhiều chủ đề chủ đề phân phối từ, mơ hình chủ đề ẩn LDA cung cấp phương pháp khai thác ngữ nghĩa ẩn văn để làm giàu thêm đặc trưng cho mơ hình Luận án đề xuất mơ hình phân lớp liệu dựa số bước quan trọng sau: Xây dựng tập đặc trưng cho mơ hình bao gồm đặc trưng TFIDF truyền thống kết hợp với tập đặc trưng xác suất chủ đề ẩn mà văn xét thuộc về; đặc trưng xác suất chủ đề ẩn khai thác từ mơ hình chủ đề ẩn LDA tập liệu miền ứng 124 dụng Bước sử dụng phương pháp lựa chọn đặc trưng dựa thông tin tương hỗ nhằm loại bỏ đặc trưng dư thừa giữ lại đặc trưng có tính chất quan trọng, định mơ hình, từ tăng hiệu mơ hình giảm độ phức tạp tính tốn Mơ hình thứ hai đề xuất nhằm khai thác đặc trưng khoảng cách trật tự từ biểu diễn mơ hình đồ thị khoảng cách Mơ hình khắc phục nhược điểm mơ hình biểu diễn theo khơng gian vectơ truyền thống – quan tâm đến đặc trưng đơn lẻ mà không quan tâm đến quan hệ, trật từ khoảng cách đặc trưng Mô hình luận án đề xuất kết hợp khai thác đặc trưng ngữ nghĩa ẩn mơ hình chủ đề ẩn LDA cung cấp đồng thời áp dụng mô hình đồ thị khoảng cách đối tượng chủ đề ẩn từ khai thác thơng tin quan hệ thứ bậc khoảng cách chủ đề ẩn văn Cả hai mơ hình cung cấp phương pháp biểu diễn liệu nhằm tăng cường hiệu cho mơ hình phân lớp liệu đa nhãn Thứ ba, luận án đề xuất thuật toán MULTICS phân lớp liệu đa nhãn bán giám sát dựa kỹ thuật phân cụm nhằm khai thác thông tin đặc trưng riêng biệt cho nhãn / tập nhãn Học máy bán giám sát tiếp cận cho phương pháp tiên tiến hiệu nhờ kết hợp liệu có nhãn làm định hướng liệu khơng có nhãn để mở rộng củng cố mơ hình Trong liệu có nhãn cần tốn nhiều thời gian công sức để gán nhãn thủ cơng liệu khơng nhãn phong phú dễ dàng thu Dựa giả thiết rằng, đặc trưng riêng biệt nhãn / tập nhãn đặc trưng mang tính chất phân biệt tối ưu cho nhãn/tập nhãn đó, sử dụng tập đặc trưng vào trình phân lớp mang lại hiệu tốt Luận án đề xuất mơ hình phân lớp bán giám sát dựa kỹ thuật phân cụm bán giám sát để xây dựng phân hoạch tập liệu có nhãn khơng nhãn miền ứng dụng Dựa vào phân hoạch tập liệu này, xây dựng phân lớp để đoán nhận nhãn cho liệu dựa khoảng cách với tâm cụm phân hoạch Thuật toán MULTICS [PTNgan6] B Trawiński cộng [9] tham chiếu cho thấy tham gia thuật tốn vào dịng nghiên cứu phân lớp đa nhãn giới 125 Đồng thời, luận án cung cấp khảo sát khái quát phân lớp đa nhãn Phân lớp đa nhãn tiến hóa tiên tiến phân lớp đơn nhãn truyền thống, phù hợp với nhiều ứng dụng thực tế phân lớp văn bản, gán nhãn ảnh, dự đoán chức gen,… mà đối tượng đồng thời thuộc nhiều phân lớp khác Sự khác biệt đề nhiều thách thức tiếp cận giải toán, mối quan hệ nhãn, độ đo đánh giá toán phân lớp đa nhãn Luận án khảo sát tiếp cận cho toán đa nhãn, kỹ thuật giảm chiều liệu cho toán phân lớp đa nhãn nhằm loại bỏ đặc trưng không liên quan giữ lại đặc trưng quan trọng từ tăng cường hiệu mơ hình; độ đo phương pháp đánh giá cho toán phân lớp đa nhãn làm sở để đánh giá hiệu mơ hình đề xuất II Hạn chế luận án Trong trình triển khai mơ hình, luận án cịn tồn số hạn chế sau: Một là, thuật toán phân lớp đa nhãn dựa phân cụm bán giám sát cần nghiên cứu công phu bao gồm phân tích chi tiết độ phức tạp thuật tốn, cải tiến phù hợp thành phần thuật toán để phát huy lợi “tham lam” thuật toán Hai là, đề cập tới vấn đề giảm chiều liệu phân lớp đơn nhãn phân lớp đa nhãn song nghiên cứu luận án đề cập mức độ mà chưa khảo sát giải pháp tiên tiến giảm chiều liệu, đặc biệt giảm chiều liệu phân lớp đa nhãn Ba là, miền ứng dụng văn có lợi cho nghiên cứu phân lớp đa nhãn song lại không tạo điều kiện tốt cho phân lớp đa nhãn – đa thể miền ứng dụng khác, chẳng hạn miền ứng dụng liệu ảnh III Định hướng nghiên cứu Trong thời gian tiếp theo, nghiên cứu sinh tiếp tục nghiên cứu hướng giải cho hạn chế tồn luận án tiếp tục triển khai đề xuất 126 để hoàn thiện giải pháp cho phân lớp đa nhãn Một là, thuật tốn MULTICSLearn cần phân tích sâu sắc đặc biệt khía cạnh độ phức tạp thời gian tính tốn vùng tồn miền ứng dụng Cải tiến kỹ thuật tìm nhãn để phân hoạch tập liệu theo nhãn giả theo hướng tìm nhãn có ảnh hưởng lớn mạng xã hội tập nhãn thời [99] Hai là, kỹ thuật giảm chiều liệu tiên tiến cho phân lớp đa nhãn [62], [75], [78] cần nghiên cứu để áp dụng sáng tạo vào toán ứng dụng luận án Ba là, khảo sát miền ứng dụng liệu ảnh, nghiên cứu mơ hình giải pháp phân lớp đa nhãn – đa thể liệu ảnh nhằm làm phù hợp với q trình tiến hóa phân lớp liệu đề cập Chương 127 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN [PTNgan1] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012) Named Entity Recognition for Vietnamese documents using semisupervised learning method of CRFs with Generalized Expectation Criteria IALP 2012: 85-89 (Scopus7, DBLP8) [PTNgan2] Thi-Ngan Pham, Thi-Hong Vuong, Thi-Hoai Thai, Mai-Vu Tran, Quang-Thuy Ha (2016) Sentiment Analysis and User Similarity for Social Recommender System: An Experimental Study Lecture Notes in Electrical Engineering (376): 1147-1156 (Scopus) [PTNgan3] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013) Hidden Topic Models for Multi-label Review Classification: An Experimental Study Computational Collective Intelligence Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611 (Scopus, DBLP) [PTNgan4] Thi-Ngan Pham, Van-Hien Tran, Tri-Thanh Nguyen, QuangThuy Ha (2017) Exploiting Distance graph and Hidden Topic Models for Multi-label Text Classification ACIIDS 2017 Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 321-331 (Scopus) [PTNgan5] Thi-Ngan Pham, Van-Quang Nguyen, Duc-Trong Dinh, TriThanh Nguyen, Quang-Thuy Ha (2017) MASS: a Semi-supervised Multilabel Classification Algorithm With specific Features ACIIDS 2017 Studies in Computational Intelligence, Volume 710 (Advanced Topics in Intelligent Information and Database Systems): 37-47 (Scopus) [PTNgan6] Thi-Ngan Pham, Van-Quang Nguyen, Van-Hien Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha (2017) A semi-supervised multi-label classification framework with feature reduction and enrichment Journal of Information and Telecommunication, 1(2), 141-154 (DBLP) https://www.scopus.com/authid/detail.uri?authorId=56013971500 http://dblp.uni-trier.de/pers/hd/p/Pham:Thi=Ngan 128