DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ANN Artificial neural network Mạng Nơ-ron nhân tạo BPMLL Backpropagation for Multilabel Learning Phân lớp đa nhãn mạng Nơron lan truyền ngược CC
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TS HÀ QUANG THỤY
2 PGS.TS PHAN XUÂN HIẾU
Hà Nội – 2017
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực
và chưa từng được công bố trong các công trình nào khác
Nghiên cứu sinh
Phạm Thị Ngân
Trang 4LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướng dẫn khoa học của PGS.TS Hà Quang Thụy và PGS.TS Phan Xuân Hiếu
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và thầy Phan Xuân Hiếu, những người đã đưa tôi tiếp cận và đạt được những thành công trong lĩnh vực nghiên cứu của mình Tôi đặc biệt gửi lời cảm ơn tới thầy Hà Quang Thụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tôi hoàn thành được bản luận án này
Tôi xin bày tỏ lòng biết ơn tới thầy Nguyễn Trí Thành đã nhiệt tình hướng dẫn và truyền đạt các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận án
Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa học thuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phòng thí nghiệm khoa học dữ liệu và công nghệ tri thức – DS&KTlab) - Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập và nghiên cứu
Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực hiện các công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và chia sẻ những kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi trong quá trình nghiên cứu
Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đóng góp các ý kiến quý báu để tôi hoàn thiện luận án
Tôi cũng bày tỏ lòng lòng cảm ơn sâu sắc tới Ban giám đốc Học viện Cảnh sát nhân dân; Tập thể lãnh đạo Bộ môn Toán-Tin học, Học viện Cảnh sát nhân dân
đã tạo kiện thuận lợi cho tôi trong quá trình nghiên cứu; cảm ơn các đồng chí trong
Bộ môn Toán-Tin học đã luôn ủng hộ, quan tâm và động viên tôi
Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại, các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vững chắc cho tôi trong suốt thời gian qua
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii
DANH MỤC CÁC BẢNG ix
DANH MỤC CÁC HÌNH VẼ x
MỞ ĐẦU 1
Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN 10
1.1 Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện 10
1.1.1 Phân lớp đơn nhãn 10
1.1.2 Phân lớp đơn nhãn đa thể hiện 11
1.1.3 Phân lớp đa nhãn 12
1.1.4 Phân lớp đa nhãn đa thể hiện 13
1.2 Giới thiệu chung về phân lớp đa nhãn 14
1.2.1 Kỹ thuật phân lớp đa nhãn 15
1.2.1.1 Tiếp cận chuyển đổi bài toán 16
1.2.1.2 Tiếp cận thích nghi thuật toán 22
1.2.1.3 Tóm tắt về các thuật toán được giới thiệu 28
1.2.2 Dữ liệu đa nhãn 29
1.2.2.1 Các độ đo dữ liệu đa nhãn 29
1.2.2.2 Phân bố nhãn 30
1.2.2.3 Mối quan hệ giữa các nhãn 30
1.2.3 Đánh giá phân lớp đa nhãn 31
1.2.3.1 Các độ đo dựa trên mẫu 32
1.2.3.2 Các độ đo dựa trên nhãn 34
1.3 Giảm chiều dữ liệu trong phân lớp đa nhãn 36
Trang 61.3.1 Tiếp cận giảm chiều không gian đặc trưng đầu vào 37
1.3.2 Tiếp cận giảm chiều không gian nhãn đầu ra 41
1.4 Học bán giám sát cho phân lớp đa nhãn 43
1.5 Kết luận chương 1 43
Chương 2 HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT 45
2.1 Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều kiện và tiêu chuẩn kỳ vọng tổng quát 45
2.1.1 Nhận diện thực thể có tên 45
2.1.2 Mô hình đề xuất 46
2.1.2.1 Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường nhẫu nhiên có điều kiện CRFs 48
2.1.2.2 Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát 51
2.1.2.3 Mô hình đề xuất cho bài toán nhận diện thực thể có tên 52
2.1.3 Ứng dụng mô hình 56
2.2 Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội 59
2.2.1 Sơ bộ về tư vấn xã hội 59
2.2.2 Mô hình đề xuất 62
2.2.3 Ứng dụng mô hình 66
2.3 Kết luận chương 68
Chương 3 PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN 70
3.1 Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn 70
3.1.1 Biểu diễn dữ liệu theo chủ đề ẩn 70
3.1.2 Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn 75
3.1.2.1 Pha 1 – Huấn luyện mô hình 77
3.1.2.2 Pha 2 – Đánh giá mô hình huấn luyện 82
Trang 73.1.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 83
3.1.3.1 Xây dựng tập dữ liệu thực nghiệm 84
3.1.3.2 Thực nghiệm 85
3.1.3.3 Kết quả thực nghiệm 86
3.2 Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn 87
3.2.1 Mô hình biểu diễn văn bản theo đồ thị khoảng cách 89
3.2.1.1 Biểu diễn dữ liệu theo đồ thị khoảng cách 89
3.2.1.2 Mô hình đồ thị khoảng cách và mô hình n-gram 92
3.2.2 Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách chủ đề ẩn 93
3.2.2.1 Pha huấn luyện mô hình 95
3.2.2.2 Pha phân lớp sử dụng mô hình huấn luyện 97
3.2.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 98
3.3 Kết luận chương 3 100
Chương 4 KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT 102
4.1 Tiếp cận phân cụm bán giám sát 102
4.1.1 Tiếp cận dựa trên ràng buộc 102
4.1.2 Tiếp cận dựa trên khoảng cách 103
4.2 Mô hình phân lớp đa nhãn bán giám sát 105
4.2.1 Phát biểu bài toán phân lớp đa nhãn bán giám sát 105
4.2.2 Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát106 4.2.2.1 Thuật toán TESC và LIFT 107
4.2.2.2 Thuật toán phân lớp đa nhãn bán giám sát 109
4.2.3 Mô hình phân lớp đa nhãn bán giám sát đề xuất 116
4.3 Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát 117
4.3.1 Mô hình đề xuất 117
Trang 84.3.1.1 Pha 1 Huấn luyện mô hình 118
4.3.1.2 Pha 2 Phân lớp sử dụng mô hình huấn luyện 120
4.3.2 Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất 120
4.4 Kết luận chương 4 123
KẾT LUẬN 124
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN 128
TÀI LIỆU THAM KHẢO 129
Trang 9DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
ANN Artificial neural network Mạng Nơ-ron nhân tạo
BPMLL Backpropagation for Multilabel
Learning
Phân lớp đa nhãn mạng Nơron lan truyền ngược
CC Classifier Chains Chuỗi bộ phân lớp
CDE ChiDep Ensemble Phương pháp tích hợp phụ
thuộc Chi
CLR Calibrated Label Ranking Xếp hạng nhãn xác định
CML Collective Multi-Label Classifier Bộ phân lớp đa nhãn nhĩm
CRFs Conditional Random Fields Trường ngẫu nhiên cĩ điều kiện
CTM Corelated Topic Model Mơ hình chủ đề tương quan
DTM Dynamic Topic Model Mơ hình chủ đề động
ECC Ensemble of Classifier Chains Tích hợp chuỗi bộ phân lớp
EPCC Classifier Chains Ensemble of Probabilistic
Tích hợp chuỗi bộ phân lớp xác suất
EPS Ensemble of Pruned Sets Tích hợp các tập cắt tỉa
FE Feature Extraction Trích chọn đặc trưng
FS Feature Selection Lựa chọn đặc trưng
IBLR Instance-Based Learning by
Logistic Regresion
Học dựa trên thực thể bằng hồi quy logic
IG Information Gain Độ lợi thơng tin
kNN k Nearest Neighbour k láng giềng gần nhất
LDA Latent Dirichlet Allocation Mơ hình chủ đề ẩn
LIFT Multi-Label Learning with Label
specIfic FeaTures
Học đa nhãn với đặc trưng nhãn riêng biệt
LSA Latent Semantic Analysis Phân tích ngữ nghĩa ẩn
MI Mutual Information Thơng tin tương hỗ
MIML Multi-Instance Multi-Label Đa nhãn đa thể hiện
MLC Multi-Label Classiffication Phân lớp đa nhãn
ML-DT Multi-Label Decision Tree Cây quyết định đa nhãn
ML-kNN Multi-Label k Nearest Neighbour k Láng giềng gần nhất đa nhãn
MLL Multi-Label Learning Học đa nhãn
MLNB Multilabel Naive Bayes Nạve Bayes đa nhãn
MMAC Multiclass Multilabel Associative
Classification Phân lớp kết hợp đa nhãn đa lớp
MMP Multilabel Multiclass
Perceptron
Thuật tốn Perceptron phân lớp
đa lớp đa nhãn
Trang 10MuLAM Multilabel Ant - Miner Thuật toán tối ưu đàn kiến đa
nhãn
NER Named Entity Recognition Nhận dạng thực thể có tên
PCA Principal Component Analysis Phân tích thành phần chính
PCC Probabilistic Classifier Chains Chuỗi bộ phân lớp xác suất
PCT Predictive Clustering Trees Thuật toán cây phân cụm dự
đoán
PMM1
Parametric Mixture Models Mô hình hòa trộn tham số
PMM2
PW Pairwise Methods Phương pháp cặp đôi
RPC Ranking by Pairwise
Comparision
Phương pháp xếp hạng theo so sánh cặp đôi
RSL Ranking via Single-label
Learning
Xếp hạng thông qua học đơn nhãn
SVM Support Vector Machine Máy vectơ hỗ trợ
TESC TExt classification using
Trang 11DANH MỤC CÁC BẢNG
Bảng 1.1 Ví dụ về dữ liệu đa nhãn 16
Bảng 1.2 Tóm tắt các thuật toán phân lớp đa nhãn 29
Bảng 1.3 Bảng ký hiệu dữ liệu phân lớp thực và dự đoán 34
Bảng 2.1 Mẫu ngữ cảnh từ vựng 55
Bảng 2.2 Mẫu ngữ cảnh phát hiện tên thực thể 55
Bảng 2.3 Kết quả thực nghiệm 57
Bảng 2.4 Bảng đặc trưng tiểu sử và đặc trưng xã hội của người dùng 67
Bảng 2.5 Kết quả thực nghiệm 67
Bảng 3.1 Ví dụ về kết quả của mô hình chủ đề ẩn cho tài liệu 81
Bảng 3.2 Ví dụ về dữ liệu đa nhãn 82
Bảng 3.3 Tập dữ liệu thực nghiệm 84
Bảng 3.4 Tập dữ liệu huấn luyện 84
Bảng 3.5 Tập dữ liệu cho mô hình chủ đề ẩn 85
Bảng 3.6 Kết quả phân lớp 86
Bảng 3.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn 96
Bảng 3.8 Kết quả thực nghiệm của mô hình phân lớp đa nhãn dựa trên mô hình chủ đề ẩn và đồ thị khoảng cách 100
Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2 121
Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5 122
Trang 12DANH MỤC CÁC HÌNH VẼ
Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và
Scopus (phải) tới năm 2013 [22] 3
Hình 0.2 Phân bố các chủ đề trong các chương của luận án 7
Hình 1.1 Phân lớp đơn nhãn truyền thống [128] 10
Hình 1.2 Học đơn nhãn đa thể hiện [128] 11
Hình 1.3 Học đa nhãn [128] 13
Hình 1.4 Học đa nhãn đa thể hiện [128] 14
Hình 1.5 Hai tiếp cận học đa nhãn [21] 15
Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn 17
Hình 1.7 Thuật toán phân lớp BR [89] 18
Hình 1.8 Thuật toán phân lớp CC [64] 20
Hình 1.9 Thuật toán phân lớp CLR [84] 21
Hình 1.10 Thuật toán phân lớp RakEL [43], [84] 22
Hình 1.11 Thuật toán ML-kNN [84] 23
Hình 1.12 Thuật toán phân lớp ML-DT [84] 25
Hình 1.13 Thuật toán phân lớp Rank-SVM [84] 26
Hình 1.14 Thuật toán phân lớp CML [84] 27
Hình 1.15 Các độ đo đánh giá của hệ thống đa nhãn [84] 31
Hình 1.16 Mô hình lựa chọn đặc trưng cho phân lớp dữ liệu [47] 36
Hình 2.1 Đồ thị vô hướng mô tả CRFs 49
Hình 2.2 Mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát 53
Hình 2.3 Tập các ràng buộc (Constraint file) 54
Hình 2.4 Kết quả mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát trên các tập ràng buộc khác nhau 58
Hình 2.5 Mô hình hệ thống tư vấn xã hội 64
Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16] 72
Hình 3.2 Mô hình sinh trong LDA [15] 73
Hình 3.3 Thuật toán sinh trong mô hình LDA 73
Hình 3.4 Mô hình chủ đề ẩn cho bài toán phân lớp đa nhãn 78
Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana 87
Trang 13Hình 3.6 Biểu diễn văn bản theo không gian vectơ, v1 và v2 là hai văn bản trong không gian vectơ ba chiều T1, T2, T3 trong đó Ti là từ 88Hình 3.7 Minh họa biểu diễn đồ thị khoảng cách 90Hình 3.8 Mô hình phân lớp đa nhãn dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn 94Hình 3.9 Biểu diễn đồ thị khoảng cách trên câu chủ đề 96Hình 4.1 Mô hình phân lớp bán giám sát đề xuất 117Hình 4.2 Mô hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt 119
Trang 14MỞ ĐẦU Tính cấp thiết của luận án
Cùng với sự bùng nổ dữ liệu cả về dung lượng lẫn về chủng loại, phân lớp dữ liệu tự động là rất cần thiết và là một trong những chủ đề chính trong khai phá dữ liệu Trong mười thuật tốn khai phá dữ liệu điển hình nhất cĩ tới bảy thuật tốn liên quan tới bài tốn phân lớp là thuật tốn C4.5 và cải biên, thuật tốn máy vectơ
hỗ trợ SVM (Support Vector Machine, cịn được gọi là máy vectơ tựa), thuật tốn
EM (Expectation–Maximization), thuật tốn Adaboost, thuật tốn k-láng giềng gần nhất k-NN, thuật tốn Bayes “ngây thơ” (Nạve Bayes), thuật tốn CART (Classification and Regression Trees) [121] Bản chất của bài tốn phân lớp dữ liệu
là xây dựng một hàm (hoặc ánh xạ) tồn phần từ tập dữ liệu (gồm các dữ liệu đã tồn
tại hoặc sẽ xuất hiện) thuộc một miền ứng dụng tới một tập hữu hạn nhãn cho trước dựa trên thơng tin đã biết về hàm này trên một tập con các dữ liệu đã được gán nhãn (được gọi là tập ví dụ mẫu) Hàm kết quả được gọi là mơ hình (bộ) phân lớp
(classification model/classifier) hay mơ hình dự báo (prediction model) lớp Do bài
tốn phân lớp địi hỏi cho trước một tập ví dụ mẫu cho nên nĩ cũng được gọi là bài tốn học cĩ giám sát
Một thuật tốn phân lớp điển hình thường trải qua hai bước thực hiện Bước
thứ nhất, được gọi là bước học mơ hình (learning step), thực hiện việc phân tích dữ liệu thuộc một tập con ví dụ mẫu, được gọi là tập dữ liệu huấn luyện (training
dataset), để xây dựng một mơ hình phân lớp phù hợp với tập dữ liệu huấn luyện Về
bản chất, ở bước học, thuật tốn phân lớp “học” một hàm cĩ khả năng gán nhãn cho mọi dữ liệu miền ứng dụng Hàm phân lớp kết quả từ bước học được sử dụng để dự báo nhãn cho các dữ liệu mới Tuy nhiên, trước khi đem mơ hình phân lớp vào ứng
dụng thực tế, thuật tốn phân lớp cần tiến hành bước đánh giá mơ hình (model
evaluation, hay kiểm thử mơ hình (model testing)) Ở bước đánh giá mơ hình, một
tập con ví dụ mẫu, được gọi là tập dữ liệu kiểm thử (testing data), được sử dụng để
đo độ chính xác của thuật tốn Mơ hình phân lớp được áp dụng trên các ví dụ trong tập dữ liệu kiểm thử để nhận được các nhãn dự báo và các nhãn này được so sánh
Trang 15với nhãn thực sự đã có tương ứng của ví dụ Nếu tỷ lệ nhãn dự báo trùng hợp với nhãn thực sự càng cao thì mô hình phân lớp càng chính xác Nhằm đảm bảo việc đánh giá mô hình phân lớp là khách quan, tập dữ liệu kiểm thử và tập dữ liệu huấn luyện là rời nhau (hai tập dữ liệu không chứa chung một ví dụ bất kỳ) Khi chất lượng của mô hình phân lớp được khẳng định thì nó được sử dụng để “gán” nhãn cho mọi dữ liệu chưa có nhãn (hiện có và sẽ có) thuộc miền ứng dụng
Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp được tiến hóa từ đơn giản tới ngày càng phức tạp hơn theo hướng từ phân lớp đơn nhãn tới phân lớp
đa nhãn hoặc phân lớp đa thể hiện, và cho tới phân lớp đa nhãn đa thể hiện [128] Phân lớp đơn nhãn (còn được gọi là phân lớp truyền thống) quy ước mỗi đối tượng
dữ liệu có duy nhất một nhãn (hàm phân lớp đơn trị) Phân lớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn (hàm phân lớp đa trị), chẳng hạn, một tài liệu về chuyển nhượng cầu thủ bóng đá có thể vừa thuộc lớp kinh tế vừa thuộc lớp thể thao Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng với nhiều thể hiện và mỗi đối tượng này tương ứng với một nhãn Một ví dụ điển hình
về đối tượng đơn nhãn đa thể hiện là coi mỗi đối tượng là một chùm chìa khóa chứa nhiều chìa khóa, mỗi khóa có thể mở được một phòng [124] Giả sử có một phòng khóa cửa và có N chùm chìa khóa, nếu một chùm nào đó chứa chìa khóa mở được phòng này thì chùm đó được coi là hữu ích Phân lớp đa nhãn - đa thể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiện và các thể hiện này tương ứng với nhiều nhãn Chương 1 của luận án sẽ đề cập chi tiết hơn về quá trình tiến hóa bài toán phân lớp
Luận án “Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng” tập trung vào bài toán phân lớp đa nhãn Phân lớp đa nhãn (Multi-Label Classiffication: MLC) hay học đa nhãn (Multi-Label Learning: MLL) là một khung học máy
(learning framwork) giám sát mới nổi trong thời gian gần đây [22], [40], [42], [84]
Khung học máy này đã thể hiện sự phù hợp với thực tế và tính ứng dụng rộng rãi trong các bài toán phân lớp, điển hình là trong phân lớp văn bản, phân tích dữ liệu
đa phương tiện, sinh học, khai phá mạng xã hội, học điện tử và nhiều miền ứng
Trang 16dụng khác [21], [40] Tuy nhiên, học đa nhãn đòi hỏi những tiến hóa mới đối với các phương pháp học máy cho giải pháp thích hợp với dữ liệu đa nhãn như vấn đề
về mối quan hệ giữa các nhãn, chi phí tính toán của thuật toán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu Đây là các vấn đề cần tiếp tục nghiên cứu, cải tiến và phát triển để nâng cao hiệu quả phân lớp đa nhãn
Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và Scopus
(phải) tới năm 2013 [22]
Chính vì lý do đó, học đa nhãn cuốn hút một cộng đồng nhiên cứu rộng rãi trên thế giới Bằng các truy vấn phù hợp vào cơ sở dữ liệu ISI và Scopus [22], E Gibaja và
S Ventura nhận được thông tin về số lượng hàng năm các công bố khoa học về học đa nhãn và trích dẫn tới các công bố đó trong các cơ sở dữ liệu ISI và Scopus Kết quả số liệu thống kê của các tác giả được chỉ dẫn tại Hình 0.1 Các biểu đồ trong Hình 0.1 chứng tỏ rằng học đa nhãn là chủ đề nhận được sự quan tâm ngày càng tăng trong cộng đồng nghiên cứu Tính tới năm 2013, theo các tác giả thì hội nghị ECML/PKDD 2009
và hai hội nghị MLD 2009 và MLD 2010 chứa một lượng đáng kể các công trình nghiên cứu về học đa nhãn Các nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang
và cộng sự1, Ioannis P Vlahavas, Grigorios Tsoumakas và cộng sự2, Sebastián Ventura Soto3 và cộng sự với nhiều đóng góp nổi bật về học đa nhãn
Trang 17Học đa nhãn là chủ đề nghiên cứu của một số luận án Tiến sỹ trên thế giới, chẳng hạn như [51], [67], [92], [111], [113] Luận án của J Read [67] đề xuất giải pháp phân lớp đa nhãn trên quy mô lớn với hai mô hình phân lớp dựa trên phương pháp tập cắt tỉa và chuỗi bộ phân lớp; hai tiếp cận này nhận được đánh giá tốt từ cộng đồng nghiên cứu nhờ tính hiệu quả trên cả phương diện về sự đa dạng và quy
mô của dữ liệu Tác giả H.Q.Le [51] đề xuất một kỹ thuật lựa chọn đặc trưng đa lớp
và một thuật toán phân lớp đa nhãn trên miền dữ liệu web có cấu trúc nhóm Thuật toán phân lớp đa nhãn đa cặp (Multi-Pair) chuyển đổi bài toán phân lớp đa nhãn về nhiều bài toán phân lớp nhị phân (OVA One-Vs-All), sau đó, tiếp tục phân tách mỗi
bộ phân lớp nhị phân thành các cặp so sánh nhỏ hơn và đơn giản hơn giữa một nhóm và một tập con của phần bù của nhóm Phân tách như vậy giúp tận dụng được cấu trúc nhóm trong phần bù và giảm sự mất cân bằng dữ liệu trong phương pháp OVA Trong một tiếp cận khác, S.S.Bucak [113] đề xuất một phương pháp biểu diễn ảnh dựa trên học đa nhân và thuật toán học đa nhãn dựa trên tiếp cận xếp hạng
đa nhãn, trong đó thuật toán xếp hạng đa nhãn sẽ xếp hạng tất cả lớp ảnh sao cho các lớp liên quan sẽ có hạng cao hơn các lớp ít liên quan Luận án của S.Jungjit [111] đề xuất một mô hình phân lớp đa nhãn kết hợp hai bộ phân lớp đa nhãn kinh
điển là phân lớp đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn mạng
Nơron lan truyền ngược (BPMLL) với giải pháp lựa chọn đặc trưng thông qua tìm kiếm các tập con đặc trưng phù hợp
Theo M L Zhang và Z H Zhou [84], các công trình nghiên cứu sớm nhất về học đa nhãn là tập trung vào miền ứng dụng phân lớp văn bản [6], [106] Theo thời gian, học đa nhãn được ứng dụng vào nhiều miền ứng dụng đa dạng (đặc biệt là miền ứng dụng phân lớp dữ liệu ảnh) và nhiều phương pháp học đa nhãn đã được đề xuất [1], [7], [23], [25], [42], [44], [63], [66], [73], [74], [76], [114], [117], [118], [127] Các phương pháp ban đầu thường đi theo cách tiếp cận là cố gắng chia bài toán học đa nhãn thành nhiều bài toán phân lớp hai nhãn hoặc chuyển nó thành phương pháp học máy xếp hạng nhãn trong phân lớp đa nhãn [23], [42], [73], [74], những tiếp cận gần đây chú trọng hơn đến việc khai thác mối quan hệ giữa các nhãn [7], [76], [117], [118], tiếp
Trang 18cận khai thác mối quan hệ đa nhãn và dự đoán chuỗi tuần tự [65]
Trong học đa nhãn, các giải pháp biểu diễn dữ liệu và lựa chọn đặc trưng dữ liệu tốt cho phép nâng cao tính hiệu quả của các giải pháp học đa nhãn [24], [82], [83], [87], [93], [94], [127] và nhiều giải pháp đã được đề xuất M.L Zhang và cộng
sự sử dụng chiến thuật lựa chọn đặc trưng dựa trên phân tích thành phần chính PCA
và các thuật toán di truyền để loại bỏ các đặc trưng dư thừa, không liên quan và chọn
ra tập đặc trưng phù hợp nhất cho bài toán phân lớp [82] hoặc khai thác các đặc trưng
cụ thể cho từng nhãn để sử dụng cho quá trình huấn luyện và kiểm thử [83], [87] A.Elisseeff và J.Weston sử dụng các đặc trưng nhãn được sắp xếp để khai thác mối quan hệ giữa các nhãn trong bài toán phân lớp đa nhãn [1] O.G.R Pupo và cộng sự đánh trọng số đặc trưng dựa trên bộ lọc nhằm cải tiến các thuật toán lười (lazy algorithm) phân lớp đa nhãn [93] hoặc cải tiến thuật toán ReliefF đánh trọng số và lựa chọn đặc trưng cho phân lớp đa nhãn bao gồm việc sử dụng phương pháp chuyển đổi bài toán đa nhãn về bài toán phân lớp đơn nhãn và thích nghi thuật toán ReliefF trực tiếp giải quyết bài toán phân lớp đa nhãn [94] Phân tích các đặc trưng dữ liệu cho phân lớp đa nhãn cũng là một trong các hướng nghiên cứu được quan tâm gần đây [44]
Tại Việt Nam, qua khảo sát các công trình khoa học được công bố, phân lớp đơn nhãn đã nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu4
Trong khi
đó, phân lớp đa nhãn, đặc biệt là phân lớp đa nhãn văn bản tiếng Việt, còn khá ít5 và
đa phần do các nhóm nghiên cứu tại Đại học Công nghệ, Đại học Quốc gia Hà Nội tiến hành và hiện chưa có luận án tiến sỹ nào về phân lớp đa nhãn
Các tiếp cận về phân lớp đa nhãn trước đây chủ yếu tập trung vào giải thuật theo phương pháp học giám sát, các mô hình phân lớp đa nhãn bán giám sát vẫn còn hiếm Luận án này tiếp nối các nghiên cứu về phân lớp đa nhãn, tiếp tục phân tích, đánh giá và đề xuất cải tiến mô hình phân lớp về phương pháp biểu diễn dữ liệu, lựa
4
Google Scholar trả về tài liệu đối với truy vấn “classification” + “Vietnamese” ngày 26/9/2017
5 Google Scholar trả về 29 tài liệu đối với truy vấn ““multi-label classification” + “Vietnamese”” ngày 20/12/2016
Trang 19chọn đặc trưng và đề xuất mới thuật toán phân lớp đa nhãn theo phương pháp bán giám sát nhằm tận dụng nguồn tài nguyên dữ liệu chưa gán nhãn phong phú Phân lớp văn bản có tính ứng dụng do sự xuất hiện rộng rãi của văn bản trong mọi lĩnh vực của đời sống, ở sách báo, thông điệp, diễn đàn,… Do đó, luận án tập trung vào bài toán phân lớp đa nhãn văn bản tiếng Việt
Nghiên cứu của luận án hướng tới một số mục tiêu sau đây Thứ nhất,
luận án cung cấp một khảo sát khái quát về phân lớp đa nhãn Thứ hai, luận án đề xuất các phương pháp biểu diễn dữ liệu và lựa chọn đặc trưng phù hợp nhằm nâng cao hiệu quả của giải pháp phân lớp đa nhãn văn bản tiếng Việt Nghiên cứu, đề xuất các thuật toán phân lớp đa nhãn dựa trên các thuật toán phân lớp hiện đại là mục tiêu thứ ba của luận án Cuối cùng, luận án xây dựng một số phần mềm thử nghiệm thực thi các giải pháp biểu diễn dữ liệu và thuật toán phân lớp đa nhãn được luận án đề xuất để kiểm chứng tính hiệu quả của các đề xuất đó
Đối tượng nghiên cứu của luận án là phương pháp biểu diễn dữ liệu, lựa
chọn đặc trưng và thuật toán phân lớp đa nhãn trong miền dữ liệu văn bản tiếng Việt
Phạm vi nghiên cứu của luận án được giới hạn ở phương pháp biểu diễn dữ
liệu, lựa chọn đặc trưng và thuật toán phân lớp đa nhãn văn bản tiếng Việt, tập trung vào miền ứng dụng phân tích nhận xét đánh giá tiếng Việt
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất mô
hình biểu diễn dữ liệu và thuật toán phân lớp đa nhãn cũng như nghiên cứu thực nghiệm để kiểm chứng đánh giá các đề xuất của luận án
Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới và
đạt được một số đóng góp được ghi nhận, tập trung vào các nghiên cứu về phân lớp
đa nhãn văn bản tiếng Việt
Thứ nhất, luận án đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn
là mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] và mô hình biểu diễn dữ liệu theo
đồ thị khoảng cách các chủ đề [PTNgan4]
Thứ hai, trên cơ sở phát triển thuật toán phân cụm bán giám sát đơn nhãn TESC [120], luận án đề xuất một thuật toán phân lớp đa nhãn bán giám sát (Thuật
Trang 20toán MULTICS [PTNgan5], [PTNgan6]) sử dụng chiến thuật “tham lam” khai thác các đặc trưng riêng biệt của các nhãn
Thứ ba, luận án tham gia đóng góp vào dòng nghiên cứu về học phân lớp đơn nhãn văn bản tiếng Việt tương ứng với hai ứng dụng thực tiễn là đề xuất mô hình gán nhãn thực thể có tên [PTNgan1] và mô hình hệ tư vấn xã hội [PTNgan2]
Đồng thời, nhằm minh chứng cho tiềm năng ứng dụng thực tiễn của các mô hình đề xuất, luận án thực thi các thực nghiệm để kiểm chứng tính hữu dụng của các thuật toán và mô hình được luận án đề xuất Kết quả thực nghiệm cho thấy tiềm năng ứng dụng cao các kết quả nghiên cứu từ luận án
Luận án cũng có đóng góp trong việc cung cấp một nghiên cứu tổng quan về học máy đa nhãn
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo Hình 0.2 cung cấp một khung nhìn sơ bộ
về phân bố các chủ đề trong bốn chương nội dung của luận án
Hình 0.2 Phân bố các chủ đề trong các chương của luận án
Chương 1 của luận án cung cấp một nghiên cứu khái quát từ phân lớp đơn nhãn tới phân lớp đa nhãn Phân lớp đơn nhãn tuy đơn giản, hiệu quả nhưng không phù hợp với không ít tình huống trong thực tế; khung học máy đa nhãn (đơn thể
Trang 21hiện) thể hiện được tính thực tế và ứng dụng rộng rãi trong nhiều bài toán phân lớp; Các vấn đề cơ bản liên quan đến khung học máy đa nhãn kết tinh ở hai lớp phương pháp phân lớp đa nhãn (chuyển đổi bài toán và thịch nghi thuật toán), rút gọn đặc trưng (giảm chiều) và lựa chọn các đặc trưng hữu ích trong phân lớp đa nhãn; các
độ đo và phương pháp đánh giá phân lớp đa nhãn
Luận án cung cấp hai mô hình phân lớp đơn nhãn ứng dụng thực tế [PTNgan1], [PTNgan2] Mô hình gán nhãn thực thể có tên tiếng Việt dựa trên mô hình trường ngẫu nhiên điều kiện (CRFs) sử dụng tập ràng buộc theo tiêu chuẩn kỳ vọng tổng quát Mô hình hệ tư vấn xã hội tiếng Việt dựa trên tiếp cận lọc cộng tác kết hợp thông tin bổ sung về người dùng liên quan từ phương tiện xã hội; tác động của các đặc trưng bổ sung từ phương tiện xã hội tới hiệu quả tư vấn cũng được khảo sát Chương 2 của luận án trình bày chi tiết về cách tiếp cận của luận án và mô hình phân lớp đơn nhãn được đề cập
Chương 3 của luận án đề xuất hai mô hình phân lớp đa nhãn dựa trên tiếp cận
về biểu diễn dữ liệu nhằm cung cấp các đặc trưng mới nâng cao hiệu quả mô hình Trong mô hình đầu tiên [PTNgan3], biểu diễn dữ liệu theo chủ đề ẩn nhằm khai thác thông tin ngữ nghĩa ẩn trong văn bản giúp làm giàu thêm các đặc trưng của dữ liệu và lựa chọn các đặc trưng tiêu biểu, quan trọng hoặc mang tính quyết định (loại
bỏ những đặc trưng không có hoặc ít quan trọng) dựa trên thông tin tương hỗ (Mutual Information) Một mô hình ứng dụng cho bài toán đánh giá danh tiếng cho
1000 khách sạn Việt Nam đã được xây dựng Mô hình thứ hai [PTNgan4] đề nghị một phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn Kết quả
áp dụng mô hình vào bài toán đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam
đã minh chứng được tính hiệu quả khi sử dụng biểu diễn đồ thị khoảng cách
Xây dựng được ví dụ mẫu trong phân lớp đa nhãn là một công việc rất tốn kém và mất nhiều thời gian do sự tồn tại các mối liên quan giữa các nhãn trong cùng một thể hiện, vì vậy, phân lớp đa nhãn bán giám sát là một giải pháp hiệu quả Luận
án đề xuất một thuật toán phân lớp đa nhãn bán giám sát MULTICS [PTNgan5, PTNgan6] trên cơ sở mở rộng thuật toán phân lớp văn bản đơn nhãn bán giám sát
Trang 22TESC [120] Luận án xây dựng một mô hình phân lớp đa nhãn bán giám sát trên nền thuật toán MULTICS áp dụng vào bài toán xây dựng hệ thống đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam Kết quả thực nghiệm cho thấy tính hiệu quả của thuật toán MULTICS Thuật toán MULTICS và các nội dung liên quan được trình
bày trong Chương 4 của luận án
Trang 23Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP
ĐA NHÃN
Trong mục đầu tiên, luận án trình bày về sự tiến hóa của bài toán phân lớp từ phân lớp đơn nhãn truyền thống tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và cuối cùng là phân lớp đa nhãn đa thể hiện Tiếp đó, luận án tập trung phân tích các đặc điểm của phân lớp đa nhãn (đơn thể hiện) bao gồm đặc điểm của dữ liệu đa nhãn và biểu diễn dữ liệu, kỹ thuật phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn
1.1 Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện
Bài toán phân lớp dữ liệu về bản chất là xây dựng một hàm từ tập dữ liệu của miền ứng dụng vào một tập nhãn cho trước Đối tượng phân lớp trong tập dữ liệu miền ứng dụng được biểu diễn bằng một tập đặc trưng là kết quả của quá trình khảo sát và hiểu dữ liệu Như vậy, một đối tượng phân lớp có thể được biểu diễn bằng
các tập đặc trưng khác nhau “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một
tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng, ngược lại, “đa thể
hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn
dữ liệu miền ứng dụng Ngầm định bài toán phân lớp trong luận án là phân lớp dữ liệu “đơn thể hiện” nếu không có chỉ dẫn tường minh
1.1.1 Phân lớp đơn nhãn
Một cách hình thức, bài toán phân lớp đơn nhãn được phát biểu như sau: Ký hiệu là không gian thể hiện (hoặc không gian thuộc tính) và là tập các nhãn Cho trước một tập mẫu D = *( ) ( ) ( )+ trong đó là một thể hiện và là một nhãn đã biết của Nhiệm vụ đặt ra là cần học một hàm ánh xạ từ không gian thể hiện vào tập các nhãn
Hình 1.1 Phân lớp đơn nhãn truyền thống [128]
Trong phân lớp đơn nhãn văn bản, các đối tượng phân lớp là tập các văn bản Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn
Trang 24bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện)
Mô hình phân lớp đơn nhãn nhị phân truyền thống đánh giá và kiểm tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không
Tồn tại một số biến thể của bài toán phân lớp đơn nhãn Khác với phân lớp đơn nhãn nguyên thủy yêu cầu mỗi đối tượng được gán duy nhất một nhãn, một số biến thể phân lớp đơn nhãn cho phép mỗi đối tượng được gán tới một tập nhãn với mỗi nhãn trong tập tương ứng với một giá trị xác suất hoặc một giá trị hạng [11]
C C Aggarwa [11] tổng kết một số kỹ thuật cơ bản trong phân lớp đơn nhãn
và trở thành nền tảng cho các phương pháp phân lớp như phương pháp cây quyết định, phương pháp dựa trên luật, phương pháp dựa trên thực thể, phương pháp máy vectơ hỗ trợ, phương pháp mạng nơron, phương pháp xác suất
1.1.2 Phân lớp đơn nhãn đa thể hiện
Trong nhiều ứng dụng thực tế (phân lớp ảnh, trích chọn ảnh, phân lớp văn bản, khai phá web, phát hiện thư rác (spam), an ninh máy tính, phát hiện khuôn mặt…), một phần tử dữ liệu chỉ thuộc vào một lớp nhưng được biểu diễn bằng một tập các thể hiện kết hợp với nhau Đây là bài toán phân lớp đơn nhãn đa thể hiện, một dạng tiến hóa từ phân lớp đơn nhãn Theo Z.H Zhou và cộng sự [128], [129], các công trình công bố sớm nhất về học đa thể hiện là [95], [115] Trong bài toán phân lớp đa thể hiện, mỗi phần tử dữ liệu được biểu diễn dưới dạng túi; tập dữ liệu huấn luyện bao gồm nhiều túi, mỗi túi chứa nhiều thể hiện, túi được gán nhãn dương nếu nó chứa ít nhất một thể hiện dương; ngược lại thì gán nhãn âm Mục tiêu
là gán nhãn cho các túi chưa biết một cách chính xác
Hình 1.2 Học đơn nhãn đa thể hiện [128]
Cho trước một tập dữ liệu *( ) ( ) ( )+ trong đó, là
Trang 25Hầu hết các tiếp cận phân lớp đơn nhãn đa thể hiện được tiến hành theo phương pháp thích nghi thuật toán, trong đó một thuật toán phân lớp đơn nhãn đơn thể hiện được chuyển đổi theo hướng chuyển hóa mục tiêu phân biệt trên thể hiện sang mục tiêu phân biệt trên các túi dữ liệu Theo Z.H Zhou và cộng sự [128], một
số thuật toán phân lớp đơn nhãn đa thể hiện điển hình là: Thuật toán mật độ thay đổi (Diverse Density) [95] và thuật toán mật độ thay đổi dựa trên entropy cực đại EM-
DD [105], thuật toán cây quyết định RELIC [36], thuật toán k láng giềng gần nhất
Citation-kNN và Bayesian – kNN [72], thuật toán mạng nơron BP-MIP và mở rộng [85], các thuật toán dựa trên máy vectơ hỗ trợ và phương pháp nhân như MI-SVM [107], DD-SVM [123], MISS-SVM [130], MI-Kernel [116] Một số tiếp cận theo phương pháp chuyển đổi bài toán theo hướng chuyển đổi biểu diễn đa thể hiện về đơn thể hiện được Z.H Zhou và M.L Zhang đề xuất [130]
1.1.3 Phân lớp đa nhãn
Cũng trong nhiều ứng dụng thực tế (phân lớp văn bản, gán nhãn ảnh, dự đoán chức năng gen, phân lớp video,… ), một đối tượng có thể đồng thời được gán vào nhiều lớp khác nhau Đây là bài toán phân lớp đa nhãn Bài toán này là một sự tiến hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu
đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề này sẽ được chỉ ra ở các phần tiếp theo
Trang 26Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau
Các thách thức về dữ liệu đa nhãn, về mối quan hệ nhãn và đưa phân lớp đa nhãn vào ứng dụng thực tế tạo nên các chủ đề nghiên cứu thời sự và nhiều giải pháp kết quả đã và đang được công bố Vì vậy, các chủ đề này được lựa chọn là các chủ
đề tập trung nghiên cứu trong luận án
1.1.4 Phân lớp đa nhãn đa thể hiện
Ở mức tiến hóa cao nhất của bài toán phân lớp là phân lớp đa nhãn đa thể hiện được M.L Zhang và Z.H Zhou lần đầu tiên hình thức hóa trong [129] và được khái quát hóa trong [128] Bài toán phân lớp đa nhãn đa thể hiện được phát biểu khái quát như sau: Cho trước một tập nhãn lớp, mỗi phần tử dữ liệu được phân lớp
có thể đồng thời thuộc về nhiều lớp và mỗi phần tử dữ liệu có thể được biểu diễn qua nhiều thể hiện Khung phân lớp đa nhãn - đa thể hiện quan tâm tới sự nhập nhằng đồng thời trong biểu diễn của không gian đầu vào và đầu ra; nó cung cấp một khung nhìn mang tính tự nhiên và gần với thực tế hơn
Trang 27Cho trước một tập dữ liệu *( ) ( ) ( )+, trong đó,
là một tập các thể hiện { } ( ) và là một tập nhãn { } ( ), với là số thể hiện trong và
là số nhãn trong Khung học máy đa nhãn đa thể hiện học một hàm ánh xạ từ không gian thể hiện vào không gian tập nhãn
Hình 1.4 Học đa nhãn đa thể hiện [128]
Trong phân lớp đa nhãn đa thể hiện văn bản, các đối tượng phân lớp là tập các văn bản Xây dựng các tập các đặc trưng khác nhau, mỗi văn bản được biểu diễn bởi các tập đặc trưng vừa xây dựng (đa thể hiện) Mô hình phân lớp đa nhãn đa thể hiện đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau
Z.H Zhou và cộng sự [128] hệ thống hóa các giải pháp học máy đa nhãn đa thể hiện và một số phương pháp điển hình được giới thiệu sau đây Hai thuật toán MIMLSVM và MIMLBoost [128], [129] tiến hành việc giảm cấp bài toán phân lớp
đa nhãn đa thể hiện thành các bài toán đơn giản hơn sử dụng học máy đa nhãn đơn thể hiện và học máy đa thể hiện đơn nhãn làm cầu nối Thuật toán DBA [110] biểu diễn bài toán MIML dưới dạng mô hình sinh thống kê Thuật toán Ranking Loss [27] tối ưu hóa hàm rủi ro xếp hạng nhãn cho túi và gán nhãn thể hiện Thuật toán láng giềng gần nhất MIML-kNN được đề xuất trong [86]
1.2 Giới thiệu chung về phân lớp đa nhãn
Tuy không phải là dạng tiến hóa cao nhất trong khung học máy như giới thiệu trên đây, nhưng phân lớp đa nhãn có phạm vi ứng dụng rất rộng lớn trong thực tiễn, và vì vậy, phân lớp đa nhãn luôn là một chủ đề nghiên cứu – triển khai thời sự
Phần tiếp theo trình bày khái quát một số vấn đề cơ bản về phân lớp đa nhãn
Trang 281.2.1 Kỹ thuật phân lớp đa nhãn
Hình 1.5 Hai tiếp cận học đa nhãn [21]
Phân lớp đa nhãn được chia thành hai nhĩm tiếp cận chính là tiếp cận chuyển đổi bài tốn và tiếp cận thích nghi thuật tốn
Tiếp cận chuyển đổi bài tốn là phương pháp chuyển đổi bài tốn phân lớp
đa nhãn thành một hoặc nhiều bài tốn phân lớp đơn nhãn (phân lớp đa lớp hoặc phân lớp nhị phân) hoặc các bài tốn hồi quy Theo tiếp cận này, các bộ phân lớp đơn nhãn được thực thi sau đĩ các dự đốn phân lớp đơn nhãn được kết hợp lại thành kết quả dự đốn đa nhãn Phương pháp này khá linh động vì cĩ thể sử dụng bất kỳ bộ phân lớp đơn nhãn nào như Máy vectơ hỗ trợ SVM [109], Nạve Bayes [6], k láng giềng gần nhất kNN [26] và Perceptrons [57]…
Trang 29Tiếp cận thích nghi thuật toán là phương pháp mở rộng các thuật toán học phân lớp đơn nhãn đã biết để áp dụng trực tiếp giải quyết bài toán phân lớp đa nhãn Các thuật toán phân lớp đơn nhãn điển hình nhất được chọn lựa để thích nghi là AdaBoost [106], cây quyết định [12], thuật toán học lười [86]
Hình 1.5 thể hiện một cách trực quan các nhóm phương pháp cho phân lớp
đa nhãn và một số thuật toán thuộc mỗi nhóm Luận án trình bày một số thuật toán điển hình của mỗi tiếp cận ở phần tiếp theo
1.2.1.1 Tiếp cận chuyển đổi bài toán
Để minh họa cho phương pháp này, luận án sử dụng tập dữ liệu ở Bảng 1.1 Trong bảng dữ liệu có bốn mẫu được phân lớp vào tập nhãn lớp gồm bốn nhãn:
đa lớp) trong phương pháp chuyển đổi bài toán có ký hiệu độ phức tạp pha huấn luyện là ( ) và pha kiểm thử là ( )
Trang 30a Thuật toán tương hợp nhị phân – Binary Relevance(BR)
Theo M R Boutell và cộng sự [89], ý tưởng chính của thuật toán này là giảm
cấp bài toán học đa nhãn thành q bài toán phân lớp nhị phân độc lập, trong đó mỗi bài
toán phân lớp nhị phân tương ứng với một nhãn trong không gian nhãn Theo đó, để xác định nhãn lớp thứ được ký hiệu là , đầu tiên thuật toán BR xây dựng một tập huấn luyện nhị phân tương ứng bằng việc xem xét sự liên quan của mỗi mẫu huấn luyện với nhãn
{ ( )/ } (1.1)
Trong đó ( ) {
Tiếp đó, có thể sử dụng bất kỳ thuật toán học máy nhị phân để xây dựng một bộ phân lớp nhị phân ví dụ ( ) Khi đó, với bất kỳ mẫu huấn luyện đa nhãn ( ), sẽ xem xét quá trình học của q bộ phân lớp nhị phân
trên dữ liệu Nếu nhãn tương ứng thì được coi là một dữ liệu dương, ngược lại được coi là một dữ liệu âm Chiến thuật này là huấn luyện chéo (cross-training)
Với một dữ liệu cần phân lớp, BR sẽ dự đoán tập nhãn tương ứng bằng việc kết hợp các nhãn được xác định từ mỗi bộ phân lớp nhị phân
Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn
Tuy nhiên, khi tất cả các bộ phân lớp nhị phân cho đầu ra là âm, thì tập nhãn
dự đoán Y sẽ bị rỗng Để tránh việc dự đoán tập nhãn rỗng, luật T-Criterion có thể được áp dụng:
Trang 31{ ( ) } ⋃* ( )+ (1.3) Trường hợp không bộ phân lớp nhị phân nào cho kết quả dương, T-Criterion
sẽ bổ sung công thức (1.2) bằng việc đưa vào nhãn lớp với đầu ra tốt nhất (ít âm nhất) Bộ phân lớp đa nhãn được xác định theo công thức (1.3) Ngoài T-Criterion, một số quy tắc khác cũng có thể được sử dụng trong việc dự đoán tập nhãn dựa trên đầu ra của mỗi bộ phân lớp nhị phân
Hình 1.7 mô tả đoạn giả mã minh họa cho thuật toán BR
5 Trả kết quả Y theo công thức (1.3)
Hình 1.7 Thuật toán phân lớp BR [89]
Ưu điểm vượt trội của BR là cách tiếp cận trực tiếp để giải quyết vấn đề dữ liệu đa nhãn Ngược lại, nhược điểm của BR là đã loại bỏ tất cả các mối quan hệ tiềm năng giữa các nhãn và bộ phân lớp nhị phân cho mỗi nhãn có thể rơi vào trạng thái mất cân bằng lớp khi lớn và mật độ nhãn thấp Dựa theo đoạn chương trình giả mã, M.R Boutell và cộng sự [89] xác định được độ phức tạp tính toán cho giai đoạn huấn luyện là ( ( )) và cho giai đoạn kiểm tra là ( ( ))
b Phương pháp chuỗi bộ phân lớp – Classifier Chain(CC)
Theo J.Read và cộng sự [64], ý tưởng của phương pháp này là chuyển bài toán học đa nhãn thành một chuỗi các phân lớp nhị phân, trong đó các bộ phân lớp nhị phân trong chuỗi được xây dựng dựa trên dự đoán của các bộ phân lớp trước đó
Cho nhãn lớp { }, hàm * + * + là hàm hoán vị các nhãn theo một thứ tự xác định ( ) ( ) ( ) Với nhãn thứ trong danh sách, ( ) ( ), một tập huấn luyện nhị phân tương ứng được xây dựng bằng việc kết hợp mỗi dữ liệu với các dữ liệu liên quan đến các nhãn trước ( )
Trang 32( ) {.[ ( )] ( ( ))/ } (1.4) Trong đó, ( ) ( ( )) ( ( ))/
[ ( )] là vectơ kết hợp của vectơ và vectơ ( )
( ) là vectơ nhãn nhị phân cho các nhãn đứng trước ( ) trên dữ liệu Trường hợp đặc biệt ( ) Tiếp đó, các thuật toán học nhị phân được sử dụng để đưa ra bộ phân lớp nhị phân ( ) * + , ví dụ ( ) ( ( )) Nói cách khác, ( ) xác định ( ) có là nhãn liên quan hay không
Đối với một dữ liệu chưa biết, tập nhãn kết hợp của nó được dự đoán bằng cách đi qua chuỗi bộ phân lớp một số lần lặp Ký hiệu ( ) * + là giá trị nhị phân dự đoán của ( ) trên dữ liệu x, được xác định như sau:
( ) [ ( )( )]
( ) [ ( )([ ( ) ( )])] ( ) (1.5) Trong đó, , - là hàm xác định giá trị nhị phân dự đoán của nhãn Theo đó, tập nhãn dự đoán tương ứng là:
được xác định bằng việc lấy mẫu không thay thế hoặc có thay thế [67]
Hình 1.8 mô tả đoạn giả mã thuật toán chuỗi bộ phân lớp (CC) Trong thuật toán này, mối quan hệ giữa các nhãn đã được xem xét theo một cách ngẫu nhiên So với thuật toán BR, thuật toán chuỗi bộ phân lớp có ưu điểm là đã khai thác mối quan hệ giữa các nhãn nhưng nhược điểm là không thực thi song song được do đặc điểm của chuỗi Luận án J Read [67] chỉ ra rằng độ phức tạp tính toán của thuật
Trang 33toán chuỗi bộ phân lớp cho pha huấn luyện là ( ( )) và pha kiểm tra
5 Trả kết quả Y theo công thức (1.6)
Hình 1.8 Thuật toán phân lớp CC [64]
c Phương pháp xếp hạng nhãn theo kích cỡ - CalibratedLabelRanking (CLR)
Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành bài toán xếp hạng nhãn trong đó việc xếp hạng các nhãn được thực thi bằng kỹ thuật so sánh cặp đôi
Với q nhãn lớp { }, có tổng cộng ( ) bộ phân lớp nhị phân có thể được sinh ra bằng phương pháp so sánh cặp đôi, mỗi bộ phân lớp cho một cặp nhãn ( ) ( ) Cụ thể là, với mỗi cặp nhãn ( ), so sánh cặp đôi đầu tiên sẽ xây dựng một tập huấn luyện nhị phân tương ứng bằng việc xem xét mối quan hệ của mỗi mẫu huấn luyện với :
{ ( )/ | ( ) ( ) } (1.7) Trong đó
( ) { ( ) ( )
( ) ( ) Đối với thể hiện chưa biết , thuật toán CLR đầu tiên sẽ xây dựng ( ) bộ phân lớp nhị phân được huấn luyện để đạt được tất cả các phiếu bầu cho mỗi nhãn lớp có thể
Trang 34Dựa vào định nghĩa trên, ta có ∑ ( ) ( ) Do đó, các nhãn trong không gian nhãn có thể được xếp hạng theo số phiếu bầu của nó
Hình 1.9 Thuật toán phân lớp CLR [84]
Hình 1.9 trình bày đoạn giả mã của thuật toán CLR Thuật toán này có độ phức tạp tính toán cho pha huấn luyện là ( ( )) và pha kiểm tra là ( ( )) [84]
d Thuật toán tập k nhãn ngẫu nhiên – Random k Labelset (RakEL)
Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành một
bộ các phân lớp đa lớp, trong đó mỗi máy học thành phần trong bộ tập trung vào một tập con ngẫu nhiên của không gian nhãn dựa trên bộ phân lớp đa lớp được tạo ra bằng kỹ thuật tập lũy thừa nhãn – LP [41], [43] Chiến thuật chính là sử dụng
thuật toán LP trên các tập k nhãn ngẫu nhiên (tập con kích thước k trên không gian
nhãn để đảm báo hiệu quả tính toán), sau đó xây dựng bộ kết hợp các bộ phân lớp
LP để đạt được tính hoàn thiện trong dự đoán
Gọi là tập hợp tất cả các tập nhãn kích thước trong không gian nhãn ,
Trang 35trong đó tập nhãn kích thước thứ được kí hiệu là ( ), ( ) ( ) ( )
( )
1 for r=1 to n do
2 Chọn ngẫu nhiên một tập k nhãn ( ) với ( )
3 Xây dựng tập huấn luyện đa lớp ( ) theo công thức
( ) {( ( ) ( )/) }
4 Gán ( ) ( )/;
5 endfor
6 Trả kết quả Y theo công thức { ( ) ( ) }
Hình 1.10 Thuật toán phân lớp RakEL [43], [84]
Hình 1.10 trình bày đoạn giả mã của thuật toán Random k-Labelsets Tiếp cận thể hiện mức độ liên quan của nhãn được kiểm soát bởi kích thước của tập nhãn k Thuật toán RakEL có độ phức tạp tính toán cho pha huấn luyện là ( ( ))
và pha kiểm tra là ( ( )) được trình bày trong [43], [84]
1.2.1.2 Tiếp cận thích nghi thuật toán
a Thuật toán k láng giềng gần nhất đa nhãn – Multi-Label k Nearest Neighbour (ML-kNN)
Ý tưởng chính của thuật toán này là sử dụng kỹ thuật k láng giềng gần nhất
để xác định các láng giềng gần nhất của dữ liệu cần gán nhãn, sau đó sử dụng luật cực đại hậu nghiệm trên các thông tin liên quan đến nhãn từ các láng giềng để đưa
ra tập nhãn dự đoán
Đoạn giả mã thuật toán ML-kNN được trình bày ở Hình 1.11 Thuật toán này
có ưu điểm là thừa kế được những điểm mạnh của phương pháp học lười và suy diễn Bayesian đó là: Một là, biên quyết định có thể điều chỉnh một cách thích hợp dựa trên các láng giềng khác nhau được xác định cho mỗi dữ liệu chưa biết Hai là, có thể xác định cân bằng lớp dựa trên các xác suất tiên nghiệm ước lượng cho mỗi nhãn lớp Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ) và pha kiểm thử là ( ) được trình bày trong [84]
Trang 366 Tính mảng tần suất và ̃ theo công thức
b Thuật toán cây quyết định đa nhãn – Multi-Label Decision Tree(ML-DT)
Ý tưởng chính của phương pháp này là sử dụng thuật toán cây quyết định để giải quyết với dữ liệu đa nhãn, trong đó sử dụng độ lợi thông tin dựa trên entropy đa nhãn để xây dựng cây quyết định đệ quy
Cho một tập dữ liệu đa nhãn *( ) + với là số mẫu, thông tin thu được bằng việc chia theo đặc trưng thứ tại giá trị chia như sau:
( ) ( ) ∑
* +
( ) (1.9) Trong đó,
*( ) + *( ) + (1.10)
Trang 37và bao gồm các mẫu có giá trị trên đặc trưng thứ l tương ứng thấp hơn và
lớn hơn
Bắt đầu từ nút gốc ( ), ML-DT xác định đặc trưng và giá trị chia cắt tương ứng làm cực đại hóa thông tin đạt được trong công thức (1.9) sau đó sinh ra 2 nút con tương ứng với và Quá trình trên được thực thi một cách đệ quy bằng việc coi hoặc là nút gốc mới và kết thúc khi đáp ứng một số tiêu chuẩn dừng (ví dụ như kích thước của nút con nhỏ hơn một ngưỡng được xác định trước)
số lớp mới tăng theo hàm mũ theo , nhiều lớp mới có thể không xuất hiện trong , do đó, xác suất được cho là tầm thường (ví dụ ( ) ) Để hạn chế được vấn
đề này, ML-DT giả thiết độc lập giữa các nhãn và tính entropy đa nhãn theo cách có thể phân rã được:
Đối với một thể hiện x chưa biết, nó được thực hiện trên cây quyết định bằng
cách duyệt qua các cạnh cho đến khi gặp một nút lá được kết hợp với một số mẫu huấn luyện Sau đó, tập nhãn được dự đoán tương ứng với:
{ } (1.13) Nói cách khác, nếu đối với một nút lá, phần lớn các mẫu huấn luyện được gán nhãn và thể hiện kiểm tra được đặt trong cùng nút là sẽ được gán nhãn
Trang 388 endif
9 Duyệt x từ nút gốc đến khi gặp nút lá
10 Trả kết quả Y theo công thức (1.13)
Hình 1.12 Thuật toán phân lớp ML-DT [84]
Hình 1.12 mô tả giả mã của thuật toán ML-DT với giả thiết độc lập về nhãn trong việc tính toán entropy đa nhãn Một ưu điểm nổi bật của ML-DT là hiệu quả cao trong việc xây dựng mô hình cây quyết định từ dữ liệu đa nhãn
Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ) và pha kiểm tra là ( ) được trình bày trong [84]
c Thuật toán xếp hạng máy vectơ hỗ trợ - Rank-SVM
Ý tưởng chính của thuật toán này là thích nghi chiến thuật cực đại biên để
giải quyết bài toán học đa nhãn, tiến hành xây dựng hệ thống học gồm q bộ phân
lớp tuyến tính {( ) } trong đó và là vectơ trọng số và giá trị xếp hạng (bias) của nhãn lớp thứ j - ; khi đó biên quyết định trên mẫu ( ) được xác định dựa trên xếp hạng trên các lớp liên quan và không liên quan của mẫu
Trang 39siêu phẳng 〈 〉 Do đó, công thức (1.14) coi khoảng cách L2 của đến siêu phẳng của mọi cặp nhãn liên quan, không liên quan, công thức này trả
về giá trị cực tiểu là biên trên ( ) Do đó, đường biên của hệ thống học trên toàn tập huấn luyện được xác định như sau:
(1.17) Trong đó:
( ) ( * ( ) + * ̅ ( ) + )
3 Trả kết quả Y theo công thức
{ 〈 〉 〈 ( )〉 }
Hình 1.13 Thuật toán phân lớp Rank-SVM [84]
Hình 1.13 là đoạn giả mã của thuật toán Rank-SVM Đây là tiếp cận theo quy hoạch toàn phương (bậc hai), định nghĩa một biên trên các siêu phẳng cho cặp nhãn liên quan và không liên quan Rank-SVM thừa hưởng ưu điểm từ phương pháp nhân (kernel)
để giải quyết vấn đề phân lớp không tuyến tính và nhiều biến thể khác có thể đạt được Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( ( ) ( )) trong đó ( ) là độ phức tạp tính toán của thuật toán quy hoạch toàn
Trang 40phương QP để giải quyết công thức (1.16)với a là các biến và b là các ràng buộc; độ
phức tạp tính toán cho pha kiểm tra là ( ) được trình bày trong [84]
d Thuật toán bộ phân lớp đa nhãn nhóm – Collective Multi-Label (CML)
Ý tưởng cơ bản của thuật toán này là sử dụng nguyên lý cực đại entropy để giải quyết bài toán học đa nhãn với yêu cầu thỏa mãn các ràng buộc về phân phối nhãn
9 endfor
10 endfor
11 Xác định các tham số * + ( ) bằng việc cực đại hóa công thức
( ) (∏ ( )
( )
) ∑
( ))( )
∑
12 Trả kết quả Y theo công thức
( )
Hình 1.14 Thuật toán phân lớp CML [84]
Với một mẫu đa nhãn bất kỳ ( ), ta có ( ) là biểu diễn các biến ngẫu nhiên tương ứng sử dụng vectơ nhãn nhị phân ( ) * + ,
trong đó thành phần thứ j thể hiện Y chứa nhãn thứ j tương ứng với và Y không chứa nhãn thứ j tương ứng với Khi đó, học đa nhãn tương ứng với việc học một phân phối xác suất chung ( )
Đầu tiên xây dựng các ràng buộc về mối quan hệ nhãn, từ đó xác định phân phối xác suất có điều kiện ( ) dựa trên nguyên lý cực đại hóa entropy của mẫu