Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
1,48 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN DUY LINH PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN DUY LINH PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Cẩm Tú TS Đặng Thanh Hải Hà nội – 2015 i Lời cảm ơn Lời đầu tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc đến TS Nguyễn Cẩm Tú, TS Đặng Thanh Hải tận tình bảo hướng dẫn tơi suốt q trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho tơi suốt q trình học tập nghiên cứu trường Tôi xin gửi lời cảm ơn đến anh, chị bạn phịng thí nghiệm KT-Lab hỗ trợ tơi nhiều trình thực luận văn Cuối cùng, xin gửi lời cảm ơn vô hạn đến gia đình bạn bè, người ln bên cạnh giúp đỡ động viên tơi suốt q trình học tập, thực luận văn Tôi xin chân thành cảm ơn! Hà nội, ngày 18 tháng 12 năm 2015 Học viên Nguyễn Duy Linh ii Lời cam đoan Tơi xin cam đoan nội dung trình bày luận văn thực hướng dẫn TS Nguyễn Cẩm Tú, TS Đặng Thanh Hải Tất tài liệu tham khảo từ nghiên cứu liên quan trích dẫn rõ ràng từ danh mục tài liệu tham khảo luận văn Nội dung luận văn khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Hà nội, ngày 18 tháng 12 năm 2015 Học viên Nguyễn Duy Linh iii MỤC LỤC Lời cam đoan ii Danh mục từ viết tắt v Danh mục bảng vi Danh mục hình vẽ, đồ thị vii MỞ ĐẦU CHƯƠNG TỔNG QUAN PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN VÀ BÀI TOÁN GÁN NHÃN VÙNG ẢNH 1.1 Phương pháp học máy đa nhãn - đa thể 1.2 Bài toán gán nhãn vùng ảnh 1.3 Kết luận 11 CHƯƠNG CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN 12 2.1 Hướng giải pháp phân rã toán 12 2.1.1 Lấy học máy đa nhãn làm cầu nối 13 2.1.2 Lấy học máy đa thể làm cầu nối 14 2.2 Hướng giải pháp giải trực tiếp 14 2.3 Một số phương pháp học máy đa thể 16 2.3.1 Phương pháp DD 16 2.3.2 Phương pháp EM-DD 19 2.3.3 Phương pháp MISVM 22 2.4 Một số độ đo đánh giá học máy đa nhãn – đa thể 25 2.5 Kết luận 28 CHƯƠNG ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN - ĐA THỂ HIỆN CHO BÀI TOÁN GÁN NHÃN VÙNG ẢNH 29 3.1 Phương pháp đề xuất 29 3.1.1 Giới thiệu 29 3.1.2 Nội dung phương pháp đề xuất 29 3.2 Thực nghiệm đánh giá 32 iv 3.2.1 Mô tả thực nghiệm 32 3.2.2 Môi trường công cụ 32 3.2.3 Dữ liệu thực nghiệm 33 3.2.4 Thực nghiệm 33 3.2.5 Đánh giá kết 37 3.3 Kết luận 38 KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 v Danh mục từ viết tắt STT Từ viết tắt Bp-Mll EM-DD DD D-MIMLSVM MI MIL MISVM MISL MIML 10 MIMLRBF 11 MIMLSVM 12 MIML-DD 13 MIML-EMDD 14 MIML-MISVM 15 16 17 18 19 20 21 22 ML-kNN MLL MLSVM MSRCv2 SISL SIML SVM NLDD Cụm từ tiếng anh Back-propagation Multi-label learning Expectation-Maximization Diversity Density Diversity Density Directly Multi-Instance Lulti-Label Learning Support Vector Machine Multi-Instance Multi-Instance Learning Multi-Instance Support Vector Machine (Maximum Pattern Margin Formulation) Multi-Instance Single-Label Learning Multi-Instance Multi-Label Learning Multi-Instance Multi-Label Learning Radial Basis Function Multi-Instance Multi-Label Learning Support Vector Machine Multi-Instance Multi-Label Learning Diversity Density Multi-Instance Multi-Label Learning Expectation-Maximization Diversity Density Multi-Instance Multi-Label Learning MultiInstance Support Vector Machine Multi-Label k-Nearest Neighbor Multi-Label Learning Multi-Label Learning Support Vector Machine Microsoft Research Cambridge version Single-Instance Single-Label Learning Single-Instance Multi-Label Learning Support Vector Machines Negative Logarithm of Diversity Density vi Danh mục bảng Bảng 3.1: Cấu hình phần cứng 32 Bảng 3.2: Công cụ thư viện phần mềm 33 Bảng 3.3: Kết MIML-DD cấp độ vùng ảnh 33 Bảng 3.4: Kết MIML-EMDD cấp độ vùng ảnh 34 Bảng 3.5: Kết MIML-DD cấp độ hình ảnh 35 Bảng 3.6: Kết MIML-EMDD cấp độ hình ảnh 36 vii Danh mục hình vẽ, đồ thị Hình 1.1: Bốn khung học máy phân lớp Hình 1.2: Một viết có nhiều nhãn Hình 1.3: Một hình ảnh chứa nhiều vùng ảnh Hình 1.4: Ví dụ học máy đa nhãn - đa thể Hình 1.5: Hình ảnh gán nhãn yếu Instagram Hình 2.1: Hai giải pháp phân rã toán học máy MIML 12 Hình 2.2: Thuật tốn MIML Bayes dựa q trình Gaussian tiền nghiệm 15 Hỉnh 2.3: Cấu trúc mạng nơ ron MIMLRBF 16 Hình 2.4: Ví dụ điểm có Diverse Density 17 Hình 2.5: Mã giả phương pháp EM-DD 21 Hình 2.6: Ví dụ phân lớp với MISVM 23 Hình 2.7: Mã giả giải thuật tối ưu heuristic phương pháp MISVM 24 Hình 3.1: Mơ hình phương pháp đề xuất 30 Hình 3.2: Biểu đồ thể kết trung bình phương pháp cấp độ vùng ảnh với tỉ lệ giả túi 0% 34 Hình 3.3: Biểu đồ thể kết trung bình phương pháp cấp độ vùng ảnh với tỉ lệ giả túi 60% 35 Hình 3.4: Biểu đồ thể kết trung bình phương pháp cấp độ hình ảnh với tỉ lệ giả túi 0% 36 Hình 3.5: Biểu đồ thể kết trung bình phương pháp cấp độ hình ảnh với tỉ lệ giả túi 60% 37 MỞ ĐẦU Hiện nay, với phát triển mạnh mẽ ứng dụng chia sẻ hình ảnh, mạng xã hội sản sinh lượng liệu hình ảnh vơ lớn Cùng với gia tăng nhu cầu tổ chức, tìm kiếm, trích xuất thơng tin từ nguồn liệu hình ảnh Mỗi hình ảnh thường chứa số vùng ảnh định, ứng với vùng ảnh có nội dung mang ý nghĩa khác Gán nhãn vùng ảnh nhằm hỗ trợ cho việc phân loại, tìm kiếm, trích xuất thơng tin từ ảnh dựa từ khóa Do khối lượng liệu hình ảnh lớn nên việc gán nhãn vùng ảnh thủ cơng tốn nhiều thời gian cơng sức Vì vậy, nhu cầu gán nhãn vùng ảnh tự động trở nên cấp thiết Học máy đa nhãn – đa thể bốn khung học máy phân lớp phổ biến [17, 18], bao gồm học máy đơn nhãn - đơn thể (hay gọi học máy giám sát truyền thống), học máy đơn nhãn - đa thể (hay học máy đa thể hiện), học máy đa nhãn – đơn thể (hay học máy đa nhãn) học máy đa nhãn - đa thể Với học máy phân lớp đơn nhãn – đơn thể (single-instance, single-label learning: SISL) hay gọi học máy phân lớp truyền thống, đối tượng phân lớp thuộc vào lớp (nhãn lớp) có thể miền ứng dụng Trong học máy phân lớp đơn nhãn - đa thể (multi-instance, single-label learning: MISL) [5], đối tượng thuộc vào lớp có nhiều thể khác Với học máy đa nhãn – đơn thể (single-instance, multi-label learning: SIML) [7], đối tượng phân vào nhiều lớp có thể miền ứng dụng Học máy đa nhãn – đa thể (multi-instance, multi-label learning: MIML) [17, 18] khung học máy phân lớp nay, nhóm tác giả Zhi-Hua Zhou Min-Ling Zhang công bố lần vào năm 2006 Trong khung học máy MIML, đối tượng không thuộc vào nhiều lớp, mà cịn có nhiều thể So với học máy phân lớp truyền thống, khung học máy đa nhãn – đa thể biểu diễn tự nhiên thuận tiện [17, 18] đối tượng có nhiều thể hiện, đồng thời thuộc nhiều lớp Trong thực tế, có khơng đối tượng có nhiều thể thuộc nhiều lớp khác Ví dụ, hình ảnh cịn xem túi thường bao gồm số vùng ảnh (mỗi vùng ảnh coi thể hiện), đồng thời hình ảnh thuộc nhiều lớp khác Việc áp dụng phương pháp học máy có giám sát cho toán gán nhãn vùng ảnh yêu cầu liệu học gán nhãn cho vùng ảnh phải đủ 40 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Nguyễn Nhật Tân (2014), Các phương pháp học máy đa thể cho tốn gán nhãn vùng ảnh, Khóa luận tốt nghiệp, Trường Đại học Công nghệ - Đại học Quốc gia Hà nội Tiếng Anh: [2] Amar R.A., Dooly D.R., Goldman S.A., Zhang Q (2001), “Multiple-Instance Learning of Real-Valued Data”, Proceedings 18th International Conference on Machine Learning, pp.3 [3] Andrews, Stuart, Ioannis Tsochantaridis, Thomas Hofmann (2002), "Support vector machines for multiple-instance learning", Advances in neural information processing systems, pp 561-568 [4] Boutell, M.R., Luo J., Shen X., Brown C.M (2004), "Learning multi-label scene classification", Pattern recognition 37 (9), pp 1757-1771 [5] Dietterich, Thomas G., Richard H Lathrop, Tomás Lozano-Pérez (1997), "Solving the multiple instance problem with axis-parallel rectangles", Artificial intelligence 89 (1), pp 31-71 [6] Godbole, Shantanu, Sunita Sarawagi (2004), "Discriminative methods for multi-labeled classification", Advances in Knowledge Discovery and Data Mining, Springer Berlin Heidelberg, pp 22-30 [7] Grigorios Tsoumakas, Ioannis Katakis (2007), “Multi-label Classification : An Overview”, International Journal of Data Warehousing & Mining, (3), pp 1-13 [8] Jianjun He, Hong Gu, Zhelong Wang (2012), "Bayesian multi-instance multilabel learning using Gaussian process prior", Machine learning 88 (1-2), pp 273-295 [9] Maron, Oded, Tomás Lozano-Pérez (1998), "A framework for multipleinstance learning", Advances in neural information processing systems, pp 570-576 [10] Maron, O (1998), Learning from ambiguity, Ph.D Thesis, Massachusetts Institute of Technology, United States, AI Technical Report 1639 [11] Qi Zhang, Sally A Goldman (2001), “EM-DD: An Improved MultipleInstance Learning Technique”, Advances in Neural Information Processing Systems 14, pp 1073–1080 41 [12] Settles, B., Craven, M., Ray, S (2008) “Multiple-instance active learning” Advances in neural information processing systems, pp 1289-1296 [13] Xia, Z., Shen, Y., Feng, X., Peng, J., Fan, J (2015) “Automatic tag-toregion assignment via multiple instance learning”, Multimedia Tools and Applicationsss 74 (3), pp 979-1002 [14] Zhang, Min-Ling, Zhi-Hua Zhou (2006), "Multilabel neural networks with applications to functional genomics and text categorization", Knowledge and Data Engineering, IEEE Transactions on 18.10, pp 1338-1351 [15] Zhang, Min-Ling, Zhi-Hua Zhou (2007), "ML-KNN: A lazy learning approach to multi-label learning", Pattern recognition 40.7, pp 2038-2048 [16] Zhang, Min-Ling, Zhi-Jian Wang (2009), "MIMLRBF: RBF neural networks for multi-instance multi-label learning", Neurocomputing 72.16, pp 3951-3956 [17] Zhi-Hua Zhou, Min-Ling Zhang (2006), “Multi-Instance Multi-Label Learning with Application to Scene Classification”, NIPS 2006, pp 16091616 [18] Zhi-Hua Zhou, Min-Ling Zhang, Sheng-Jun Huang, Yu-Feng Li (2012), “Multi-instance multi-label learning”, Artif Intell 176 (1), pp 2291-2320 [19] http://blog.instagram.com/post/129662501137/150922-400million [20] http://research.microsoft.com/en-us/projects/objectclassrecognition