Bảng 3.1: Cấu hình phần cứng STT Thành phần 1 CPU 2 RAM 3 HDD 4 OS
Bảng 3.2: Công cụ và các thư viện phần mềm STT Tên phần mềm 1 Eclipse Kepler (4.3.1) 2 Weka 3.7.6 3 JMIL 3.2.3. Dữ liệu thực nghiệm
Để đánh giá các phương pháp, luận văn tiến hành thực nghiệm với bộ dữ liệu MSRCv2 [20]. Bộ dữ liệu MSRCv2 được Microsoft Research cung cấp gồm 591 hình ảnh, 23 lớp đối tượng. Mỗi ảnh có trung bình 3.95 nhãn [13]. Trong đó, mỗi vùng ảnh (thể hiện) được biểu diễn
bằng một vec tơ đặc trưng chiều (với = 48). Mỗi hình ảnh là một tập các vec tơ đặc trưng.
3.2.4. Thực nghiệm
3.2.4.1. Gán nhãn cấp độ vùng ảnh
3.2.4.1.1. Phương pháp MIML-DD
Bảng 3.3 là kết quả tổng hợp của phương pháp MIML-DD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.
Bảng 3.3: Kết quả của MIML-DD ở cấp độ vùng ảnh
Tỉ lệ giả túi (%) 0 5 10 20 30 40 50
3.2.4.1.2. Phương pháp MIML-EMDD
Bảng 3.4 là kết quả tổng hợp của phương pháp MIML-EMDD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.
Bảng 3.4: Kết quả của MIML-EMDD ở cấp độ vùng ảnh
Tỉ lệ giả túi (%) 0 5 10 20 30 40 50 60 3.2.4.1.3. So sánh các phương pháp
Hình 3.2 và Hình 3.3 là biểu đồ so sánh kết quả tổng hợp, khi lấy giá trị trung bình kết quả theo đánh giá chéo 10-fold cross validation của hai phương pháp MIML-DD và MIML-EMDD, tương ứng cho tỉ lệ giả túi là 0% và 60%.
average precision 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 MIML-DD MIML-EMDD
Hình 3.2: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 0%
average precision 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 MIML-DD MIML-EMDD
Hình 3.3: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 60%
3.2.4.2. Gán nhãn cấp độ hình ảnh
3.2.4.2.1. Phương pháp MIML-DD
Bảng 3.5 là skết quả tổng hợp của phương pháp MIML-DD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.
Bảng 3.5: Kết quả của MIML-DD ở cấp độ hình ảnh
Tỉ lệ giả túi (%) 0 5 10 20 30 40 50 60
3.2.4.2.2. Phương pháp MIML-EMDD
Bảng 3.6 là kết quả tổng hợp của phương pháp MIML-EMDD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.
Bảng 3.6: Kết quả của MIML-EMDD ở cấp độ hình ảnh
Tỉ lệ giả túi (%) 0 5 10 20 30 40 50 60 3.2.4.2.3. So sánh các phương pháp
Hình 3.4 và Hình 3.5 là biểu đồ so sánh kết quả tổng hợp, khi lấy giá trị trung bình kết quả theo đánh giá chéo 10-fold cross validation của hai phương pháp MIML-DD và MIML-EMDD, tương ứng cho tỉ lệ giả túi là 0% và 60%.
average precision 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 MIML-DD MIML-EMDD
Hình 3.4: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 0%
average precision 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 MIML-DD MIML-EMDD
Hình 3.5: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 60%
3.2.5. Đánh giá kết quả
Từ kết quả thực nghiệm ta thấy, ở cả hai cấp độ (cấp độ vùng ảnh và cấp độ hình ảnh), khi bổ sung thông tin các giả túi đã được gán nhãn với tỉ lệ tăng dần thì phương pháp MIML-DD cho kết quả tốt hơn, riêng phương pháp MIML- EMDD cho kết quả kém hơn. Chất lượng gán nhãn của phương pháp MIML-DD có xu hướng được cải thiện tốt hơn khi bổ sung tăng dần thông tin các giả túi. Tuy nhiên, chất lượng lượng gán nhãn của phương pháp MIML-EMDD lại có xu hướng giảm đi khi bổ sung tăng dần thông tin các giả túi.
So sánh các phương pháp với nhau, ở cả hai cấp độ, với tỉ lệ giả túi là 0% thì phương pháp MIML-EMDD cho kết quả tốt hơn phương pháp MIML-DD. Ngược lại, với tỉ lệ giả túi là 60%, phương pháp MIML-DD tốt hơn phương pháp MIML-EMDD.
3.3. Kết luận
Trong chương này, luận văn đã trình bày đề xuất tích hợp các phương pháp học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] vào khung học máy MIML thành các phương pháp học máy đa nhãn – đa thể hiện MIML-DD, MIML-EMDD, MIML-MISVM để ứng dụng cho bài toán gán nhãn vùng ảnh. Ngoài ra, luận văn còn đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn. Luận văn đã tiến hành thực nghiệm dựa trên các phương pháp được đề xuất. Dữ liệu thực nghiệm là bộ dữ liệu chuẩn MSRCv2 được cung cấp bởi Microsoft Research. Luận văn đã tiến hành thực nghiệm ở cấp độ gán nhãn vùng ảnh và cấp độ gán nhãn hình ảnh. Kết quả thu được cho thấy tính khả thi của các phương pháp được đề xuất.
KẾT LUẬN
Qua quá trình tìm hiểu và nghiên cứu phương pháp học máy đa nhãn – đa thể hiện, các hướng giải pháp giải quyết vấn đề học máy đa nhãn – đa thể hiện và các phương pháp học máy đa thể hiện DD [9], EM-DD [11], MISVM [3]. Luận văn đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD, EM-DD, MISVM để giải quyết bài toán gán nhãn vùng ảnh. Luận văn thu được các kết quả chính sau đây:
- Giới thiệu tổng quan về phương pháp học máy đa nhãn – đa thể hiện, bài toán gán nhãn vùng ảnh, các hướng giải pháp giải quyết vấn đề học máy đa nhãn – đa thể hiện và các thuật toán học máy đa thể hiện DD [9], EM-DD [11], MISVM [3].
- Đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD, EM-DD, MISVM để giải quyết bài toán gán nhãn vùng ảnh, đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn.
- Áp dụng các phương pháp đã đề xuất cho bài toán gán nhãn vùng ảnh, thực nghiệm và so sánh các phương pháp cho việc gán nhãn vùng ảnh và hình ảnh trên tập dữ liệu chuẩn MSRCv2 [20] được cung cấp bởi Microsoft Research.
Tuy nhiên, luận văn vẫn tồn tại một số mặt hạn chế như: chưa cài đặt và tiến hành thực nghiệm trên tất cả các phương pháp đề xuất, chất lượng gán nhãn tuy đã được nâng cao (nhờ bổ sung thông tin vùng ảnh) nhưng vẫn cần cải thiện thêm.
Trong thời gian tới, chúng tôi sẽ tiếp tục nghiên cứu bài toán gán nhãn vùng ảnh theo hướng tiếp cận sử dụng các phương pháp học máy đa nhãn – đa thể hiện với ý tưởng tích hợp mô hình học tích cực nhằm nâng cao chất lượng gán nhãn.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1] Nguyễn Nhật Tân (2014), Các phương pháp học máy đa thể hiện cho bài toán gán nhãn vùng ảnh, Khóa luận tốt nghiệp, Trường Đại học Công nghệ - Đạihọc Quốc gia Hà nội.
Tiếng Anh:
[2] Amar R.A., Dooly D.R., Goldman S.A., Zhang Q. (2001), “Multiple-Instance Learning of Real-Valued Data”, Proceedings 18th International Conference on Machine Learning, pp.3.
[3] Andrews, Stuart, Ioannis Tsochantaridis, Thomas Hofmann (2002), "Support vector machines for multiple-instance learning", Advances in neural information processing systems, pp. 561-568.
[4] Boutell, M.R., Luo J., Shen X., Brown C.M. (2004), "Learning multi-label scene classification", Pattern recognition 37 (9), pp. 1757-1771.
[5] Dietterich, Thomas G., Richard H. Lathrop, Tomás Lozano-Pérez (1997), "Solving the multiple instance problem with axis-parallel rectangles",
Artificial intelligence 89 (1), pp. 31-71.
[6] Godbole, Shantanu, Sunita Sarawagi (2004), "Discriminative methods for multi-labeled classification", Advances in Knowledge Discovery and Data Mining, Springer Berlin Heidelberg, pp. 22-30.
[7] Grigorios Tsoumakas, Ioannis Katakis (2007), “Multi-label Classification : An Overview”, International Journal of Data Warehousing & Mining, 3 (3), pp. 1-13.
[8] Jianjun He, Hong Gu, Zhelong Wang (2012), "Bayesian multi-instance multi- label learning using Gaussian process prior", Machine learning 88 (1-2), pp. 273-295.
[9] Maron, Oded, Tomás Lozano-Pérez (1998), "A framework for multiple- instance learning", Advances in neural information processing systems, pp. 570-576.
[10] Maron, O. (1998), Learning from ambiguity, Ph.D. Thesis, Massachusetts Institute of Technology, United States, AI Technical Report 1639.
[11] Qi Zhang, Sally A. Goldman (2001), “EM-DD: An Improved Multiple- Instance Learning Technique”, Advances in Neural Information Processing Systems 14, pp. 1073–1080.
[12] Settles, B., Craven, M., Ray, S. (2008). “Multiple-instance active learning”.
Advances in neural information processing systems, pp. 1289-1296.
[13] Xia, Z., Shen, Y., Feng, X., Peng, J., Fan, J. (2015) “Automatic tag-to- region assignment via multiple instance learning”, Multimedia Tools and Applicationsss 74 (3), pp. 979-1002.
[14] Zhang, Min-Ling, Zhi-Hua Zhou. (2006), "Multilabel neural networks with applications to functional genomics and text categorization", Knowledge andData Engineering, IEEE Transactions on 18.10, pp. 1338-1351.
[15] Zhang, Min-Ling, Zhi-Hua Zhou (2007), "ML-KNN: A lazy learning approach to multi-label learning", Pattern recognition 40.7, pp. 2038-2048. [16] Zhang, Min-Ling, Zhi-Jian Wang (2009), "MIMLRBF: RBF neural
networks for multi-instance multi-label learning", Neurocomputing 72.16, pp. 3951-3956.
[17] Zhi-Hua Zhou, Min-Ling Zhang (2006), “Multi-Instance Multi-Label Learning with Application to Scene Classification”, NIPS 2006, pp. 1609- 1616.
[18] Zhi-Hua Zhou, Min-Ling Zhang, Sheng-Jun Huang, Yu-Feng Li (2012), “Multi-instance multi-label learning”, Artif. Intell. 176 (1), pp. 2291-2320. [19] http://blog.instagram.com/post/129662501137/150922-400million [20] http://research.microsoft.com/en-us/projects/objectclassrecognition