Trong đó [(𝑋(𝑖), 𝑦(𝑖)), Ψ(𝑋(𝑖), 𝑦(𝑖))] là túi thứ 𝑖 trong tổng số 𝑚 × |𝑌| túi, túi thứ 𝑖 chứa 𝑛𝑖 thể hiện.
Từ tập dữ liệu đa thể hiện 𝐷𝑀𝐼 mới này, ta có thể sử dụng để học hàm ánh xạ 𝑓𝑀𝐼𝐿 của học máy đa thể hiện. Hàm 𝑓𝑀𝐼𝐿 có thể thực hiện được các yêu cầu của học máy đa nhãn – đa thể hiện do [18]:
𝑓𝑀𝐼𝑀𝐿(𝑋∗) = {𝑦|𝑠𝑖𝑔𝑛[𝑓𝑀𝐼𝐿(𝑋∗, 𝑦)] = 1} (3.1) Quay trở lại với đặc điểm của học máy đa thể hiện, túi được gán nhãn âm nếu tất cả các thể hiện trong túi đó có nhãn âm, túi được gán nhãn dương nếu có ít nhất một thể hiện có nhãn dương (chỉ cần có một thể hiện có nhãn dương thì túi chứa thể hiện đó sẽ được gán nhãn dương). Học máy đa thể hiện chỉ quan tâm đến nhãn của túi, ta sẽ không biết chính xác nhãn của tất cả các thể hiện có trong túi đó (túi được gán nhãn dương, các thể hiện trong túi âm đều có nhãn âm) [18]. Trong các túi dương có thể chứa các thể hiện có nhãn âm. Thách thức chính trong học máy đa thể hiện là xác định được thể hiện nào trong túi có nhãn dương thực sự là thể hiện có nhãn dương, ngay cả khi tỉ lệ giữa các thể hiện âm và các thể hiện dương có trong túi là tùy ý [12]. Trên cơ sở như vậy, luận văn đề xuất bổ sung thêm các thể hiện đã biết nhãn vào tập dữ liệu 𝐷𝑀𝐼 nhằm tăng cường chất lượng gán nhãn. Với việc bổ sung các thể hiện đã biết nhãn, ta cung cấp cho thuật toán học máy đa thể hiện căn cứ xác định chính xác túi có nhãn dương nhờ đó giảm sự nhập nhằng và tăng cường được chất lượng gán nhãn. Trước khi áp dụng các hàm 𝑓𝑀𝐼𝐿 cho tập dữ liệu 𝐷𝑀𝐼, luận văn tiến hành xây dựng các giả túi (pseudo bag – túi chỉ có một thể hiện) từ các thể hiện đã biết nhãn trong các túi đã được gán nhãn.
Từ các túi [(𝑋𝑢, 𝑦𝑣), Ψ(𝑋𝑢, 𝑦𝑣)] (𝑣 = 1,2, … , |𝑌|), ta xây dựng các giả túi: [(𝑋′ 𝑢1, 𝑦1), 𝜓(𝑋′𝑢1, 𝑦1)], … , [(𝑋′ 𝑢𝑛𝑢, 𝑦1), ψ(𝑋′𝑢𝑛𝑢, 𝑦1)], [(𝑋′𝑢1, 𝑦2), ψ(𝑋′ 𝑢1, 𝑦2)], … , [(𝑋′𝑢𝑛𝑢, 𝑦|𝑌|), ψ(𝑋′𝑢𝑛𝑢, 𝑦|𝑌|)], … , [(𝑋′𝑢𝑛𝑢, 𝑦|𝑌|), ψ(𝑋′𝑢𝑛𝑢, 𝑦|𝑌|)] Trong đó [(𝑋′𝑢𝑖, 𝑦𝑣), ψ(𝑋′𝑢𝑖, 𝑦𝑣)] (𝑖 = 1,2, … , 𝑛𝑢, 𝑣 = 1,2, … , |𝑌|) là các giả túi đã được gán nhãn. ψ(𝑋′𝑢𝑖, 𝑦𝑣) ∈ {0,1} là nhãn của túi (𝑋′𝑢𝑖, 𝑦𝑣), (𝑋′𝑢𝑖, 𝑦𝑣) là một giả túi chứa một thể hiện: {(𝑥𝑢𝑖, 𝑦𝑣)}. ψ(𝑋′𝑢𝑖, 𝑦) = 1 nếu 𝑦 là nhãn của thể hiện 𝑥𝑢𝑖 và ψ(𝑋′𝑢𝑖, 𝑦) = 0 nếu ngược lại. Từ tập các giả túi, ta chọn ngẫu nhiên các giả túi với điều kiện ψ(𝑋′𝑢𝑖, 𝑦) = 1 để bổ sung cho tập dữ liệu 𝐷𝑀𝐼, ta có tập dữ liệu mới:
𝐷′𝑀𝐼 = 𝐷𝑀𝐼 ∪ {[(𝑋′𝑢𝑖, 𝑦𝑣), ψ(𝑋′𝑢𝑖, 𝑦𝑣)]} với điều kiện ψ(𝑋′𝑢𝑖, 𝑦𝑣) = 1 Với các túi chưa được gán nhãn, ta cũng xây dựng các giả túi từ tất cả các thể hiện có trong túi. Tập các túi cần được gán nhãn sẽ là tập các giả túi được tạo từ các thể hiện có trong các túi chưa được gán nhãn ban đầu. Với bài toán gán nhãn cho cấp độ hình ảnh, ta sẽ gán nhãn cho tập các túi chưa được gán nhãn ban đầu, thay vì gán nhãn cho tập các giả túi được xây dựng từ các thể hiện có trong các túi chưa được gán nhãn này.
Cuối cùng, áp dụng các phương pháp học máy đa thể hiện DD, EM-DD, MISVM đã trình bày ở trên cho tập dữ liệu 𝐷′𝑀𝐼. Việc tích hợp các phương pháp học đa thể hiện DD [9], EM-DD [11], MISVM [3] vào học máy đa nhãn - đa thể hiện sẽ tạo thành các phương pháp học máy đa nhãn – đa thể hiện MIML-DD, MIML-EMDD và MIML-MISVM tương ứng.
3.2. Thực nghiệm và đánh giá
3.2.1. Mô tả thực nghiệm
Trên cơ sở các phương pháp học máy đa nhãn – đa thể hiện MIML-DD, MIML-EMDD, MIML-MISVM được đề xuất ở mục 3.1, luận văn tiến hành thực nghiệm so sánh từng phương pháp với bộ dữ liệu MSRCv2 [20] ở cả hai cấp độ là gán nhãn vùng ảnh và gán nhãn ảnh, trong đó có bổ sung các giả túi đã được gán nhãn với tỉ lệ tăng dần từ 0%, 5%, 10%, 20%, … và 60%.
Luận văn sử dụng phương pháp đánh giá chéo k-fold cross validation với k=10 để đánh giá kết quả thực nghiệm. Tập dữ liệu được chia thành mười phần. Trong đó, một phần dữ liệu được sử dụng làm dữ liệu kiểm tra, chín phần dữ liệu còn lại được dùng làm dữ liệu huấn luyện cho các phương pháp MIML-DD, MIML-EMDD.
3.2.2. Môi trường và các công cụ
Bảng 3.1: Cấu hình phần cứng
STT Thành phần Thông số
1 CPU Intel Core i5-2450M 2.50 Ghz
2 RAM 4 GB
3 HDD 500 GB
Bảng 3.2: Công cụ và các thư viện phần mềm
STT Tên phần mềm Tác giả Nguồn
1 Eclipse Kepler (4.3.1) Tổ chức Eclipse Foundation http://www.eclipse.org 2 Weka 3.7.6 Machine Learning Group at the University of Waikato, Hamilton, New Zealand http://www.cs.waikato.ac. nz/ml/weka/ 3 JMIL TS. Nguyễn Cẩm Tú 3.2.3. Dữ liệu thực nghiệm
Để đánh giá các phương pháp, luận văn tiến hành thực nghiệm với bộ dữ liệu MSRCv2 [20]. Bộ dữ liệu MSRCv2 được Microsoft Research cung cấp gồm 591 hình ảnh, 23 lớp đối tượng. Mỗi ảnh có trung bình 3.95 nhãn [13]. Trong đó, mỗi vùng ảnh (thể hiện) được biểu diễn bằng một vec tơ đặc trưng 𝑘 chiều (với 𝑘 = 48). Mỗi hình ảnh là một tập các vec tơ đặc trưng.
3.2.4. Thực nghiệm
3.2.4.1. Gán nhãn cấp độ vùng ảnh
3.2.4.1.1. Phương pháp MIML-DD
Bảng 3.3 là kết quả tổng hợp của phương pháp MIML-DD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.
Bảng 3.3: Kết quả của MIML-DD ở cấp độ vùng ảnh
Tỉ lệ giả túi (%) average precision average recall average fmeasure
0 0.477291549 0.262229317 0.313249248 5 0.544202899 0.293191108 0.353615968 10 0.614317707 0.376750062 0.440207206 20 0.616616937 0.308469429 0.380676715 30 0.611953723 0.321794148 0.393492636 40 0.589060309 0.351164777 0.414654208 50 0.63197447 0.321900563 0.393493141
60 0.678627084 0.375860733 0.450121737 3.2.4.1.2. Phương pháp MIML-EMDD
Bảng 3.4 là kết quả tổng hợp của phương pháp MIML-EMDD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.
Bảng 3.4: Kết quả của MIML-EMDD ở cấp độ vùng ảnh
Tỉ lệ giả túi (%) average precision average recall average fmeasure
0 0.624562712 0.368721737 0.434328873 5 0.616952868 0.319419228 0.373094002 10 0.679766372 0.417084003 0.475409329 20 0.576819218 0.366491118 0.418941873 30 0.474139648 0.295311934 0.342384848 40 0.539420724 0.331690773 0.380600613 50 0.624296675 0.356320853 0.419582669 60 0.46021597 0.273291564 0.324106226 3.2.4.1.3. So sánh các phương pháp
Hình 3.2 và Hình 3.3 là biểu đồ so sánh kết quả tổng hợp, khi lấy giá trị trung bình kết quả theo đánh giá chéo 10-fold cross validation của hai phương pháp MIML-DD và MIML-EMDD, tương ứng cho tỉ lệ giả túi là 0% và 60%.
Hình 3.2: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 0%
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 MIML-DD MIML-EMDD
Hình 3.3: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 60%
3.2.4.2. Gán nhãn cấp độ hình ảnh
3.2.4.2.1. Phương pháp MIML-DD
Bảng 3.5 là skết quả tổng hợp của phương pháp MIML-DD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.
Bảng 3.5: Kết quả của MIML-DD ở cấp độ hình ảnh
Tỉ lệ giả túi (%) average precision average recall average fmeasure
0 0.671384775 0.417500753 0.491215512 5 0.660514371 0.430388952 0.495105981 10 0.727380952 0.453691774 0.526253466 20 0.713293476 0.395854246 0.484635956 30 0.66075282 0.418391567 0.488703562 40 0.699743855 0.428422078 0.493756412 50 0.717784148 0.427697441 0.50665872 60 0.677164592 0.409507945 0.476476649 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 MIML-DD MIML-EMDD
3.2.4.2.2. Phương pháp MIML-EMDD
Bảng 3.6 là kết quả tổng hợp của phương pháp MIML-EMDD khi lấy trung bình kết quả theo đánh giá chéo 10-fold cross validation.
Bảng 3.6: Kết quả của MIML-EMDD ở cấp độ hình ảnh
Tỉ lệ giả túi (%) average precision average recall average fmeasure
0 0.688405797 0.441929152 0.52005728 5 0.520539574 0.371990718 0.41977508 10 0.681549494 0.362043696 0.443192551 20 0.575845411 0.334248665 0.402573203 30 0.557210549 0.377757373 0.434182195 40 0.600696767 0.362757437 0.434936207 50 0.626161278 0.338130653 0.414293677 60 0.681815293 0.37350217 0.449079825 3.2.4.2.3. So sánh các phương pháp
Hình 3.4 và Hình 3.5 là biểu đồ so sánh kết quả tổng hợp, khi lấy giá trị trung bình kết quả theo đánh giá chéo 10-fold cross validation của hai phương pháp MIML-DD và MIML-EMDD, tương ứng cho tỉ lệ giả túi là 0% và 60%.
Hình 3.4: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 0%
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 MIML-DD MIML-EMDD
Hình 3.5: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 60%
3.2.5. Đánh giá kết quả
Từ kết quả thực nghiệm ta thấy, ở cả hai cấp độ (cấp độ vùng ảnh và cấp độ hình ảnh), khi bổ sung thông tin các giả túi đã được gán nhãn với tỉ lệ tăng dần thì phương pháp MIML-DD cho kết quả tốt hơn, riêng phương pháp MIML- EMDD cho kết quả kém hơn. Chất lượng gán nhãn của phương pháp MIML-DD có xu hướng được cải thiện tốt hơn khi bổ sung tăng dần thông tin các giả túi. Tuy nhiên, chất lượng lượng gán nhãn của phương pháp MIML-EMDD lại có xu hướng giảm đi khi bổ sung tăng dần thông tin các giả túi.
So sánh các phương pháp với nhau, ở cả hai cấp độ, với tỉ lệ giả túi là 0% thì phương pháp MIML-EMDD cho kết quả tốt hơn phương pháp MIML-DD. Ngược lại, với tỉ lệ giả túi là 60%, phương pháp MIML-DD tốt hơn phương pháp MIML-EMDD. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 MIML-DD MIML-EMDD
3.3. Kết luận
Trong chương này, luận văn đã trình bày đề xuất tích hợp các phương pháp học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] vào khung học máy MIML thành các phương pháp học máy đa nhãn – đa thể hiện MIML-DD, MIML- EMDD, MIML-MISVM để ứng dụng cho bài toán gán nhãn vùng ảnh. Ngoài ra, luận văn còn đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn. Luận văn đã tiến hành thực nghiệm dựa trên các phương pháp được đề xuất. Dữ liệu thực nghiệm là bộ dữ liệu chuẩn MSRCv2 được cung cấp bởi Microsoft Research. Luận văn đã tiến hành thực nghiệm ở cấp độ gán nhãn vùng ảnh và cấp độ gán nhãn hình ảnh. Kết quả thu được cho thấy tính khả thi của các phương pháp được đề xuất.
KẾT LUẬN
Qua quá trình tìm hiểu và nghiên cứu phương pháp học máy đa nhãn – đa thể hiện, các hướng giải pháp giải quyết vấn đề học máy đa nhãn – đa thể hiện và các phương pháp học máy đa thể hiện DD [9], EM-DD [11], MISVM [3]. Luận văn đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD, EM-DD, MISVM để giải quyết bài toán gán nhãn vùng ảnh. Luận văn thu được các kết quả chính sau đây:
- Giới thiệu tổng quan về phương pháp học máy đa nhãn – đa thể hiện, bài toán gán nhãn vùng ảnh, các hướng giải pháp giải quyết vấn đề học máy đa nhãn – đa thể hiện và các thuật toán học máy đa thể hiện DD [9], EM-DD [11], MISVM [3].
- Đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD, EM-DD, MISVM để giải quyết bài toán gán nhãn vùng ảnh, đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn.
- Áp dụng các phương pháp đã đề xuất cho bài toán gán nhãn vùng ảnh, thực nghiệm và so sánh các phương pháp cho việc gán nhãn vùng ảnh và hình ảnh trên tập dữ liệu chuẩn MSRCv2 [20] được cung cấp bởi Microsoft Research.
Tuy nhiên, luận văn vẫn tồn tại một số mặt hạn chế như: chưa cài đặt và tiến hành thực nghiệm trên tất cả các phương pháp đề xuất, chất lượng gán nhãn tuy đã được nâng cao (nhờ bổ sung thông tin vùng ảnh) nhưng vẫn cần cải thiện thêm.
Trong thời gian tới, chúng tôi sẽ tiếp tục nghiên cứu bài toán gán nhãn vùng ảnh theo hướng tiếp cận sử dụng các phương pháp học máy đa nhãn – đa thể hiện với ý tưởng tích hợp mô hình học tích cực nhằm nâng cao chất lượng gán nhãn.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1]Nguyễn Nhật Tân (2014), Các phương pháp học máy đa thể hiện cho bài toán gán nhãn vùng ảnh, Khóa luận tốt nghiệp, Trường Đại học Công nghệ - Đại học Quốc gia Hà nội.
Tiếng Anh:
[2]Amar R.A., Dooly D.R., Goldman S.A., Zhang Q. (2001), “Multiple-Instance Learning of Real-Valued Data”, Proceedings 18th International Conference on Machine Learning, pp.3.
[3]Andrews, Stuart, Ioannis Tsochantaridis, Thomas Hofmann (2002), "Support vector machines for multiple-instance learning", Advances in neural information processing systems, pp. 561-568.
[4]Boutell, M.R., Luo J., Shen X., Brown C.M. (2004), "Learning multi-label scene classification", Pattern recognition 37 (9), pp. 1757-1771.
[5]Dietterich, Thomas G., Richard H. Lathrop, Tomás Lozano-Pérez (1997), "Solving the multiple instance problem with axis-parallel rectangles",
Artificial intelligence 89 (1), pp. 31-71.
[6]Godbole, Shantanu, Sunita Sarawagi (2004), "Discriminative methods for multi-labeled classification", Advances in Knowledge Discovery and Data Mining, Springer Berlin Heidelberg, pp. 22-30.
[7]Grigorios Tsoumakas, Ioannis Katakis (2007), “Multi-label Classification : An Overview”, International Journal of Data Warehousing & Mining, 3 (3), pp. 1-13.
[8]Jianjun He, Hong Gu, Zhelong Wang (2012), "Bayesian multi-instance multi- label learning using Gaussian process prior", Machine learning 88 (1-2), pp. 273-295.
[9]Maron, Oded, Tomás Lozano-Pérez (1998), "A framework for multiple- instance learning", Advances in neural information processing systems, pp. 570-576.
[10] Maron, O. (1998), Learning from ambiguity, Ph.D. Thesis, Massachusetts Institute of Technology, United States, AI Technical Report 1639.
[11] Qi Zhang, Sally A. Goldman (2001), “EM-DD: An Improved Multiple- Instance Learning Technique”, Advances in Neural Information Processing Systems 14, pp. 1073–1080.
[12] Settles, B., Craven, M., Ray, S. (2008). “Multiple-instance active learning”.
Advances in neural information processing systems, pp. 1289-1296.
[13] Xia, Z., Shen, Y., Feng, X., Peng, J., Fan, J. (2015) “Automatic tag-to- region assignment via multiple instance learning”, Multimedia Tools and Applicationsss 74 (3), pp. 979-1002.
[14] Zhang, Min-Ling, Zhi-Hua Zhou. (2006), "Multilabel neural networks with applications to functional genomics and text categorization", Knowledge and Data Engineering, IEEE Transactions on 18.10, pp. 1338-1351.
[15] Zhang, Min-Ling, Zhi-Hua Zhou (2007), "ML-KNN: A lazy learning approach to multi-label learning", Pattern recognition 40.7, pp. 2038-2048. [16] Zhang, Min-Ling, Zhi-Jian Wang (2009), "MIMLRBF: RBF neural
networks for multi-instance multi-label learning", Neurocomputing 72.16, pp. 3951-3956.
[17] Zhi-Hua Zhou, Min-Ling Zhang (2006), “Multi-Instance Multi-Label Learning with Application to Scene Classification”, NIPS 2006, pp. 1609- 1616.
[18] Zhi-Hua Zhou, Min-Ling Zhang, Sheng-Jun Huang, Yu-Feng Li (2012), “Multi-instance multi-label learning”, Artif. Intell. 176 (1), pp. 2291-2320. [19] http://blog.instagram.com/post/129662501137/150922-400million [20] http://research.microsoft.com/en-us/projects/objectclassrecognition