k Thuật tốn Thời gian (s) ↓ hloss ↓ oneError ↓
Coverage rloss ↓ AP ↑ MAP ↑ 0 CC 1974446 0.0231 0.6337 42.5307 0.2717 0.3897 0.2407 CC-m 1910255 0.0228 0.6190 42.5816 0.2716 0.3950 0.2507 1 CC 2099641 0.0235 0.6203 40.7567 0.2616 0.4060 0.2318 CC-m 1936269 0.0235 0.6136 38.9813 0.2459 0.4156 0.2365 2 CC 1995075 0.0230 0.6337 40.3275 0.2607 0.3997 0.2391 CC-m 2012868 0.0230 0.6350 40.8877 0.2662 0.3974 0.2450
Sau đây là biểu đồ thể hiện sự so sánh độ chính xác trung bình (AP) và Độ chính xác trung bình trên N xếp hạng (MAP) của các phương pháp trong thực nghiệm với lần thử nghiệm đầu k=0.
Hình 4.3: Biểu đồ so sánh kết quả thực nghiệm
Dựa trên kết quả thực nghiệm, luận văn đưa ra những nhật xét như sau: Độ chính xác trung bình và độ chính xác trung bình trên N xếp hạng của phương pháp Classifier Chain đã được chỉnh sửa để tích hợp độ gần nhau giữa các nhãn vào thuật tốn học đa nhãn so với phương pháp Classifier Chain ban đầu từ thư viện mulan cho kết quả tốt hơn.
Ngồi ra, dựa vào bảng kết quả thực nghiệm với 6 phương pháp đánh giá hloss - MAP và 3-fold cross validation, so sánh kết quả của CC vs CC-m ta thấy tỉ lệ: tốt hơn/tương đương/kém hơn là 12/2/4. Như vậy, thấy rõ là CC-m tốt hơn CC trong 12 lần, 2 lần tương đương và chỉ thua 4 lần. Kết luận chung là CC-m tốt hơn CC.
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 AP ↑ MAP ↑
Biểu đồ so sánh kết quả AP và MAP của hai phương pháp CC và CC-m
KẾT LUẬN
Qua quá trình tìm hiểu và nghiên cứu, luận văn đã thấy được vai trị quan trọng và tính cấp thiết của bài tốn phân lớp đa nhãn. Luận văn đã đưa ra được một số phương pháp phân lớp đa nhãn và áp dụng các phương pháp đĩ vào dữ liệu tiếng Việt. Đồng thời, luận văn đã trình bày về phương pháp xác định độ gần nhau giữa các nhãn và đưa ra đề xuất tích hợp độ gần nhau vào trong các phương pháp phân lớp đa nhãn đã trình bày. Từ đĩ, luận văn đã đề xuất ra mơ hình giải quyết được bài tốn phân lớp đa nhãn.
Luận văn đã đạt được các kết quả như sau:
1) Giới thiệu được bài tốn phân lớp đa nhãn và làm rõ một số phương pháp phân lớp đa nhãn.
2) Giới thiệu phương pháp xác định độ gần nhau giữa các nhãn và đưa ra đề xuất để tích hợp độ gần nhau của các nhãn, từ và các phương pháp phân lớp đa nhãn đã tìm hiểu.
3) Nghiên cứu và đánh giá phương pháp phân lớp đa nhãn với phương pháp đề
xuất dựa trên thực nghiệm.
4) Áp dụng các phương pháp học máy đa nhãn cho bài tốn gán nhãn tiếng Việt.
Tuy nhiên, do hạn chế về mặt thời gian nên luận văn vẫn cịn một số hạn chế như: chưa áp dụng thực nghiệm trên miền dữ liệu phong phú, chưa cài đặt và tiến hành thực nghiệm trên tất cả phương pháp đề xuất.
Trong thời gian tới, tơi sẽ tiếp tục mở rộng luận văn bằng cách cài đặt và thực nghiệm trên các phương pháp đề xuất vào việc phân lớp đa nhãn. Đồng thời, luận văn cũng đưa thêm một số độ đo để đánh giá các phương pháp phân lớp đa nhãn
Bên cạnh kết quả đã được, luận văn cịn cĩ nhiều thiếu sĩt và hạn chế, tơi rất mong được sự đĩng gĩp ý kiến của thầy cơ và bạn bè.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1] T. T. L. Hương, Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và mơi trường, Hà Nội: Luận văn thạc sỹ, Trường Đại học Cơng nghệ - Đại học Quốc Gia Hà Nội, 2012.
[2] N. T. T. Linh, Phân lớp tài liệu web độc lập ngơn ngữ, Hà Nội: Khĩa luận tốt nghiệp, Trường Đại học Cơng Nghệ - Đại học Quốc Gia Hà Nội, 2006.
[3] N. T. Thảo, Các phương pháp phân lớp đa nhãn văn bản tiếng Việt, Hà Nội: Khĩa luận tốt nghiệp, Trường Đại học Cơng Nghệ - Đại học Quốc Gia Hà Nội, 2013. [4] H. Q. Thụy, Bài giảng nhập mơn khai phá dữ liệu, Trường Đại học Cơng Nghệ -
Đại học Quốc Gia Hà Nội, 2013.
Tiếng Anh:
[5] N. V. Cuong, N. T. T. Linh, P. X. Hieu and H. Q. Thuy, "A Maximum entropy model for text classification," Proceedings of the 6th International Conference on
Internet Information Retrieval (IRC 2006), p. 143–149, 2006.
[6] N. Ghamrawi and A. McCallum, "Collective multi-label classification," Computer
Science Department Faculty Publication Series, 2005.
[7] T. Grigorios and V. Ioannis, "Random k-Labelsets: An ensemble method for multilabel classification," Lecture Notes in Computer Science, pp. 406-417, 2007. [8] R. Jesse, P. Bernhard, H. Geoff and F. Eibe, "Classifier chains for multi-label classification," Machine Learning and Knowledge Discovery in Databases, vol. 5782, pp. 254-269, 2009.
[9] F. Johannes, H. Eyke and L. Eneldo, "Multilabel classification via calibrated label ranking," Machine Learning, vol. 73, no. 2, pp. 133-153.
[10] R. B. Matthew , L. Jiebo , S. Xipeng and M. B. C.M.Christopher, "Learning multi label scene classification," Pattern Recognition, vol. 37, no. 9, pp. 1757-1771, 2004.
[11] Mikolov, T., Chen, K., Corrado, G. and Dean, J., "Efficient Estimation of Word Representations," no. in Proceedings of Workshop at ICLR, 2013.
[12] Z. Min-Ling and Z. Kun, "Multi-label learning by exploiting label dependency,"
Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 999-1008, 2010.
[13] Z. Min-Ling and Z. Zhi-Hua, "A review on multi-Label learning algorithms,"
Knowledge and Data Engineering, IEEE Transactions on, vol. 26, no. 8, pp. 819 -
837, 2014.
[14] Z. Min-Ling and Z. Zhi-Hua, "ML-KNN: A lazy learning approach to multi-label learning," National Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China, pp. 2038-2048, 2007.
[15] Sorower and S. Mohammad, "A literature survey on algorithms for multi-label learning," Corvallis, OR, Oregon State University, 2010.