Môi trường và các công cụ

Một phần của tài liệu (Luận văn thạc sĩ) phương pháp học máy đa nhãn đa thể hiện và ứng dụng trong gán nhẵn vùng ảnh (Trang 41)

Bảng 3.1: Cấu hình phần cứng

STT Thành phần Thông số

1 CPU Intel Core i5-2450M 2.50 Ghz

2 RAM 4 GB

3 HDD 500 GB

Bảng 3.2: Công cụ và các thư viện phần mềm

STT Tên phần mềm Tác giả Nguồn

1 Eclipse Kepler (4.3.1) Tổ chức Eclipse Foundation http://www.eclipse.org 2 Weka 3.7.6 Machine Learning Group at the University of Waikato, Hamilton, New Zealand http://www.cs.waikato.ac. nz/ml/weka/ 3 JMIL TS. Nguyễn Cẩm Tú 3.2.3. Dữ liệu thực nghiệm

Để đánh giá các phương pháp, luận văn tiến hành thực nghiệm với bộ dữ liệu MSRCv2 [20]. Bộ dữ liệu MSRCv2 được Microsoft Research cung cấp gồm 591 hình ảnh, 23 lớp đối tượng. Mỗi ảnh có trung bình 3.95 nhãn [13]. Trong đó, mỗi vùng ảnh (thể hiện) được biểu diễn bằng một vec tơ đặc trưng 𝑘 chiều (với 𝑘 = 48). Mỗi hình ảnh là một tập các vec tơ đặc trưng.

3.2.4. Thực nghiệm

3.2.4.1. Gán nhãn cấp độ vùng ảnh

3.2.4.1.1. Phương pháp MIML-DD

Bảng 3.3 là kết quả tổng hợp của phương pháp MIML-DD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.

Bảng 3.3: Kết quả của MIML-DD ở cấp độ vùng ảnh

Tỉ lệ giả túi (%) average precision average recall average fmeasure

0 0.477291549 0.262229317 0.313249248 5 0.544202899 0.293191108 0.353615968 10 0.614317707 0.376750062 0.440207206 20 0.616616937 0.308469429 0.380676715 30 0.611953723 0.321794148 0.393492636 40 0.589060309 0.351164777 0.414654208 50 0.63197447 0.321900563 0.393493141

60 0.678627084 0.375860733 0.450121737 3.2.4.1.2. Phương pháp MIML-EMDD

Bảng 3.4 là kết quả tổng hợp của phương pháp MIML-EMDD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.

Bảng 3.4: Kết quả của MIML-EMDD ở cấp độ vùng ảnh

Tỉ lệ giả túi (%) average precision average recall average fmeasure

0 0.624562712 0.368721737 0.434328873 5 0.616952868 0.319419228 0.373094002 10 0.679766372 0.417084003 0.475409329 20 0.576819218 0.366491118 0.418941873 30 0.474139648 0.295311934 0.342384848 40 0.539420724 0.331690773 0.380600613 50 0.624296675 0.356320853 0.419582669 60 0.46021597 0.273291564 0.324106226 3.2.4.1.3. So sánh các phương pháp

Hình 3.2 và Hình 3.3 là biểu đồ so sánh kết quả tổng hợp, khi lấy giá trị trung bình kết quả theo đánh giá chéo 10-fold cross validation của hai phương pháp MIML-DD và MIML-EMDD, tương ứng cho tỉ lệ giả túi là 0% và 60%.

Hình 3.2: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 0%

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 MIML-DD MIML-EMDD

Hình 3.3: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 60%

3.2.4.2. Gán nhãn cấp độ hình ảnh

3.2.4.2.1. Phương pháp MIML-DD

Bảng 3.5 là skết quả tổng hợp của phương pháp MIML-DD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.

Bảng 3.5: Kết quả của MIML-DD ở cấp độ hình ảnh

Tỉ lệ giả túi (%) average precision average recall average fmeasure

0 0.671384775 0.417500753 0.491215512 5 0.660514371 0.430388952 0.495105981 10 0.727380952 0.453691774 0.526253466 20 0.713293476 0.395854246 0.484635956 30 0.66075282 0.418391567 0.488703562 40 0.699743855 0.428422078 0.493756412 50 0.717784148 0.427697441 0.50665872 60 0.677164592 0.409507945 0.476476649 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 MIML-DD MIML-EMDD

3.2.4.2.2. Phương pháp MIML-EMDD

Bảng 3.6 là kết quả tổng hợp của phương pháp MIML-EMDD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.

Bảng 3.6: Kết quả của MIML-EMDD ở cấp độ hình ảnh

Tỉ lệ giả túi (%) average precision average recall average fmeasure

0 0.688405797 0.441929152 0.52005728 5 0.520539574 0.371990718 0.41977508 10 0.681549494 0.362043696 0.443192551 20 0.575845411 0.334248665 0.402573203 30 0.557210549 0.377757373 0.434182195 40 0.600696767 0.362757437 0.434936207 50 0.626161278 0.338130653 0.414293677 60 0.681815293 0.37350217 0.449079825 3.2.4.2.3. So sánh các phương pháp

Hình 3.4 và Hình 3.5 là biểu đồ so sánh kết quả tổng hợp, khi lấy giá trị trung bình kết quả theo đánh giá chéo 10-fold cross validation của hai phương pháp MIML-DD và MIML-EMDD, tương ứng cho tỉ lệ giả túi là 0% và 60%.

Hình 3.4: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 0%

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 MIML-DD MIML-EMDD

Hình 3.5: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 60%

3.2.5. Đánh giá kết quả

Từ kết quả thực nghiệm ta thấy, ở cả hai cấp độ (cấp độ vùng ảnh và cấp độ hình ảnh), khi bổ sung thông tin các giả túi đã được gán nhãn với tỉ lệ tăng dần thì phương pháp MIML-DD cho kết quả tốt hơn, riêng phương pháp MIML- EMDD cho kết quả kém hơn. Chất lượng gán nhãn của phương pháp MIML-DD có xu hướng được cải thiện tốt hơn khi bổ sung tăng dần thông tin các giả túi. Tuy nhiên, chất lượng lượng gán nhãn của phương pháp MIML-EMDD lại có xu hướng giảm đi khi bổ sung tăng dần thông tin các giả túi.

So sánh các phương pháp với nhau, ở cả hai cấp độ, với tỉ lệ giả túi là 0% thì phương pháp MIML-EMDD cho kết quả tốt hơn phương pháp MIML-DD. Ngược lại, với tỉ lệ giả túi là 60%, phương pháp MIML-DD tốt hơn phương pháp MIML-EMDD. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 MIML-DD MIML-EMDD

3.3. Kết luận

Trong chương này, luận văn đã trình bày đề xuất tích hợp các phương pháp học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] vào khung học máy MIML thành các phương pháp học máy đa nhãn – đa thể hiện MIML-DD, MIML- EMDD, MIML-MISVM để ứng dụng cho bài toán gán nhãn vùng ảnh. Ngoài ra, luận văn còn đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn. Luận văn đã tiến hành thực nghiệm dựa trên các phương pháp được đề xuất. Dữ liệu thực nghiệm là bộ dữ liệu chuẩn MSRCv2 được cung cấp bởi Microsoft Research. Luận văn đã tiến hành thực nghiệm ở cấp độ gán nhãn vùng ảnh và cấp độ gán nhãn hình ảnh. Kết quả thu được cho thấy tính khả thi của các phương pháp được đề xuất.

KẾT LUẬN

Qua quá trình tìm hiểu và nghiên cứu phương pháp học máy đa nhãn – đa thể hiện, các hướng giải pháp giải quyết vấn đề học máy đa nhãn – đa thể hiện và các phương pháp học máy đa thể hiện DD [9], EM-DD [11], MISVM [3]. Luận văn đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD, EM-DD, MISVM để giải quyết bài toán gán nhãn vùng ảnh. Luận văn thu được các kết quả chính sau đây:

- Giới thiệu tổng quan về phương pháp học máy đa nhãn – đa thể hiện, bài toán gán nhãn vùng ảnh, các hướng giải pháp giải quyết vấn đề học máy đa nhãn – đa thể hiện và các thuật toán học máy đa thể hiện DD [9], EM-DD [11], MISVM [3].

- Đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD, EM-DD, MISVM để giải quyết bài toán gán nhãn vùng ảnh, đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn.

- Áp dụng các phương pháp đã đề xuất cho bài toán gán nhãn vùng ảnh, thực nghiệm và so sánh các phương pháp cho việc gán nhãn vùng ảnh và hình ảnh trên tập dữ liệu chuẩn MSRCv2 [20] được cung cấp bởi Microsoft Research.

Tuy nhiên, luận văn vẫn tồn tại một số mặt hạn chế như: chưa cài đặt và tiến hành thực nghiệm trên tất cả các phương pháp đề xuất, chất lượng gán nhãn tuy đã được nâng cao (nhờ bổ sung thông tin vùng ảnh) nhưng vẫn cần cải thiện thêm.

Trong thời gian tới, chúng tôi sẽ tiếp tục nghiên cứu bài toán gán nhãn vùng ảnh theo hướng tiếp cận sử dụng các phương pháp học máy đa nhãn – đa thể hiện với ý tưởng tích hợp mô hình học tích cực nhằm nâng cao chất lượng gán nhãn.

TÀI LIỆU THAM KHẢO

Tiếng Việt:

[1]Nguyễn Nhật Tân (2014), Các phương pháp học máy đa thể hiện cho bài toán gán nhãn vùng ảnh, Khóa luận tốt nghiệp, Trường Đại học Công nghệ - Đại học Quốc gia Hà nội.

Tiếng Anh:

[2]Amar R.A., Dooly D.R., Goldman S.A., Zhang Q. (2001), “Multiple-Instance Learning of Real-Valued Data”, Proceedings 18th International Conference on Machine Learning, pp.3.

[3]Andrews, Stuart, Ioannis Tsochantaridis, Thomas Hofmann (2002), "Support vector machines for multiple-instance learning", Advances in neural information processing systems, pp. 561-568.

[4]Boutell, M.R., Luo J., Shen X., Brown C.M. (2004), "Learning multi-label scene classification", Pattern recognition 37 (9), pp. 1757-1771.

[5]Dietterich, Thomas G., Richard H. Lathrop, Tomás Lozano-Pérez (1997), "Solving the multiple instance problem with axis-parallel rectangles",

Artificial intelligence 89 (1), pp. 31-71.

[6]Godbole, Shantanu, Sunita Sarawagi (2004), "Discriminative methods for multi-labeled classification", Advances in Knowledge Discovery and Data Mining, Springer Berlin Heidelberg, pp. 22-30.

[7]Grigorios Tsoumakas, Ioannis Katakis (2007), “Multi-label Classification : An Overview”, International Journal of Data Warehousing & Mining, 3 (3), pp. 1-13.

[8]Jianjun He, Hong Gu, Zhelong Wang (2012), "Bayesian multi-instance multi- label learning using Gaussian process prior", Machine learning 88 (1-2), pp. 273-295.

[9]Maron, Oded, Tomás Lozano-Pérez (1998), "A framework for multiple- instance learning", Advances in neural information processing systems, pp. 570-576.

[10] Maron, O. (1998), Learning from ambiguity, Ph.D. Thesis, Massachusetts Institute of Technology, United States, AI Technical Report 1639.

[11] Qi Zhang, Sally A. Goldman (2001), “EM-DD: An Improved Multiple- Instance Learning Technique”, Advances in Neural Information Processing Systems 14, pp. 1073–1080.

[12] Settles, B., Craven, M., Ray, S. (2008). “Multiple-instance active learning”.

Advances in neural information processing systems, pp. 1289-1296.

[13] Xia, Z., Shen, Y., Feng, X., Peng, J., Fan, J. (2015) “Automatic tag-to- region assignment via multiple instance learning”, Multimedia Tools and Applicationsss 74 (3), pp. 979-1002.

[14] Zhang, Min-Ling, Zhi-Hua Zhou. (2006), "Multilabel neural networks with applications to functional genomics and text categorization", Knowledge and Data Engineering, IEEE Transactions on 18.10, pp. 1338-1351.

[15] Zhang, Min-Ling, Zhi-Hua Zhou (2007), "ML-KNN: A lazy learning approach to multi-label learning", Pattern recognition 40.7, pp. 2038-2048. [16] Zhang, Min-Ling, Zhi-Jian Wang (2009), "MIMLRBF: RBF neural

networks for multi-instance multi-label learning", Neurocomputing 72.16, pp. 3951-3956.

[17] Zhi-Hua Zhou, Min-Ling Zhang (2006), “Multi-Instance Multi-Label Learning with Application to Scene Classification”, NIPS 2006, pp. 1609- 1616.

[18] Zhi-Hua Zhou, Min-Ling Zhang, Sheng-Jun Huang, Yu-Feng Li (2012), “Multi-instance multi-label learning”, Artif. Intell. 176 (1), pp. 2291-2320. [19] http://blog.instagram.com/post/129662501137/150922-400million [20] http://research.microsoft.com/en-us/projects/objectclassrecognition

Một phần của tài liệu (Luận văn thạc sĩ) phương pháp học máy đa nhãn đa thể hiện và ứng dụng trong gán nhẵn vùng ảnh (Trang 41)

Tải bản đầy đủ (PDF)

(50 trang)