Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
1,62 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN DUY LINH PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN DUY LINH PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Cẩm Tú TS Đặng Thanh Hải Hà nội – 2015 i Lời cảm ơn Lời đầu tiên, tơi xin gửi lời cảm ơn lịng biết ơn sâu sắc đến TS Nguyễn Cẩm Tú, TS Đặng Thanh Hải tận tình bảo hướng dẫn tơi suốt q trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho tơi suốt q trình học tập nghiên cứu trường Tôi xin gửi lời cảm ơn đến anh, chị bạn phịng thí nghiệm KT-Lab hỗ trợ tơi nhiều trình thực luận văn Cuối cùng, xin gửi lời cảm ơn vô hạn đến gia đình bạn bè, người ln bên cạnh giúp đỡ động viên tơi suốt q trình học tập, thực luận văn Tôi xin chân thành cảm ơn! Hà nội, ngày 18 tháng 12 năm 2015 Học viên Nguyễn Duy Linh ii Lời cam đoan Tơi xin cam đoan nội dung trình bày luận văn thực hướng dẫn TS Nguyễn Cẩm Tú, TS Đặng Thanh Hải Tất tài liệu tham khảo từ nghiên cứu liên quan trích dẫn rõ ràng từ danh mục tài liệu tham khảo luận văn Nội dung luận văn khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Hà nội, ngày 18 tháng 12 năm 2015 Học viên Nguyễn Duy Linh iii MỤC LỤC Lời cam đoan ii Danh mục từ viết tắt v Danh mục bảng vi Danh mục hình vẽ, đồ thị vii MỞ ĐẦU CHƯƠNG TỔNG QUAN PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN VÀ BÀI TOÁN GÁN NHÃN VÙNG ẢNH 1.1 Phương pháp học máy đa nhãn - đa thể 1.2 Bài toán gán nhãn vùng ảnh 1.3 Kết luận 11 CHƯƠNG CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN 12 2.1 Hướng giải pháp phân rã toán 12 2.1.1 Lấy học máy đa nhãn làm cầu nối 13 2.1.2 Lấy học máy đa thể làm cầu nối 14 2.2 Hướng giải pháp giải trực tiếp 14 2.3 Một số phương pháp học máy đa thể 16 2.3.1 Phương pháp DD 16 2.3.2 Phương pháp EM-DD 19 2.3.3 Phương pháp MISVM 22 2.4 Một số độ đo đánh giá học máy đa nhãn – đa thể 25 2.5 Kết luận 28 CHƯƠNG ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN - ĐA THỂ HIỆN CHO BÀI TOÁN GÁN NHÃN VÙNG ẢNH 29 3.1 Phương pháp đề xuất 29 3.1.1 Giới thiệu 29 3.1.2 Nội dung phương pháp đề xuất 29 3.2 Thực nghiệm đánh giá 32 iv 3.2.1 Mô tả thực nghiệm 32 3.2.2 Môi trường công cụ 32 3.2.3 Dữ liệu thực nghiệm 33 3.2.4 Thực nghiệm 33 3.2.5 Đánh giá kết 37 3.3 Kết luận 38 KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 v Danh mục từ viết tắt STT Từ viết tắt Bp-Mll EM-DD DD D-MIMLSVM MI MIL MISVM MISL MIML 10 MIMLRBF 11 MIMLSVM 12 MIML-DD 13 MIML-EMDD 14 MIML-MISVM 15 16 17 18 19 20 21 22 ML-kNN MLL MLSVM MSRCv2 SISL SIML SVM NLDD Cụm từ tiếng anh Back-propagation Multi-label learning Expectation-Maximization Diversity Density Diversity Density Directly Multi-Instance Lulti-Label Learning Support Vector Machine Multi-Instance Multi-Instance Learning Multi-Instance Support Vector Machine (Maximum Pattern Margin Formulation) Multi-Instance Single-Label Learning Multi-Instance Multi-Label Learning Multi-Instance Multi-Label Learning Radial Basis Function Multi-Instance Multi-Label Learning Support Vector Machine Multi-Instance Multi-Label Learning Diversity Density Multi-Instance Multi-Label Learning Expectation-Maximization Diversity Density Multi-Instance Multi-Label Learning MultiInstance Support Vector Machine Multi-Label k-Nearest Neighbor Multi-Label Learning Multi-Label Learning Support Vector Machine Microsoft Research Cambridge version Single-Instance Single-Label Learning Single-Instance Multi-Label Learning Support Vector Machines Negative Logarithm of Diversity Density vi Danh mục bảng Bảng 3.1: Cấu hình phần cứng 32 Bảng 3.2: Công cụ thư viện phần mềm 33 Bảng 3.3: Kết MIML-DD cấp độ vùng ảnh 33 Bảng 3.4: Kết MIML-EMDD cấp độ vùng ảnh 34 Bảng 3.5: Kết MIML-DD cấp độ hình ảnh 35 Bảng 3.6: Kết MIML-EMDD cấp độ hình ảnh 36 vii Danh mục hình vẽ, đồ thị Hình 1.1: Bốn khung học máy phân lớp Hình 1.2: Một viết có nhiều nhãn Hình 1.3: Một hình ảnh chứa nhiều vùng ảnh Hình 1.4: Ví dụ học máy đa nhãn - đa thể Hình 1.5: Hình ảnh gán nhãn yếu Instagram Hình 2.1: Hai giải pháp phân rã toán học máy MIML 12 Hình 2.2: Thuật tốn MIML Bayes dựa q trình Gaussian tiền nghiệm 15 Hỉnh 2.3: Cấu trúc mạng nơ ron MIMLRBF 16 Hình 2.4: Ví dụ điểm có Diverse Density 17 Hình 2.5: Mã giả phương pháp EM-DD 21 Hình 2.6: Ví dụ phân lớp với MISVM 23 Hình 2.7: Mã giả giải thuật tối ưu heuristic phương pháp MISVM 24 Hình 3.1: Mơ hình phương pháp đề xuất 30 Hình 3.2: Biểu đồ thể kết trung bình phương pháp cấp độ vùng ảnh với tỉ lệ giả túi 0% 34 Hình 3.3: Biểu đồ thể kết trung bình phương pháp cấp độ vùng ảnh với tỉ lệ giả túi 60% 35 Hình 3.4: Biểu đồ thể kết trung bình phương pháp cấp độ hình ảnh với tỉ lệ giả túi 0% 36 Hình 3.5: Biểu đồ thể kết trung bình phương pháp cấp độ hình ảnh với tỉ lệ giả túi 60% 37 MỞ ĐẦU Hiện nay, với phát triển mạnh mẽ ứng dụng chia sẻ hình ảnh, mạng xã hội sản sinh lượng liệu hình ảnh vơ lớn Cùng với gia tăng nhu cầu tổ chức, tìm kiếm, trích xuất thơng tin từ nguồn liệu hình ảnh Mỗi hình ảnh thường chứa số vùng ảnh định, ứng với vùng ảnh có nội dung mang ý nghĩa khác Gán nhãn vùng ảnh nhằm hỗ trợ cho việc phân loại, tìm kiếm, trích xuất thơng tin từ ảnh dựa từ khóa Do khối lượng liệu hình ảnh lớn nên việc gán nhãn vùng ảnh thủ cơng tốn nhiều thời gian cơng sức Vì vậy, nhu cầu gán nhãn vùng ảnh tự động trở nên cấp thiết Học máy đa nhãn – đa thể bốn khung học máy phân lớp phổ biến [17, 18], bao gồm học máy đơn nhãn - đơn thể (hay gọi học máy giám sát truyền thống), học máy đơn nhãn - đa thể (hay học máy đa thể hiện), học máy đa nhãn – đơn thể (hay học máy đa nhãn) học máy đa nhãn - đa thể Với học máy phân lớp đơn nhãn – đơn thể (single-instance, single-label learning: SISL) hay gọi học máy phân lớp truyền thống, đối tượng phân lớp thuộc vào lớp (nhãn lớp) có thể miền ứng dụng Trong học máy phân lớp đơn nhãn - đa thể (multi-instance, single-label learning: MISL) [5], đối tượng thuộc vào lớp có nhiều thể khác Với học máy đa nhãn – đơn thể (single-instance, multi-label learning: SIML) [7], đối tượng phân vào nhiều lớp có thể miền ứng dụng Học máy đa nhãn – đa thể (multi-instance, multi-label learning: MIML) [17, 18] khung học máy phân lớp nay, nhóm tác giả Zhi-Hua Zhou Min-Ling Zhang công bố lần vào năm 2006 Trong khung học máy MIML, đối tượng không thuộc vào nhiều lớp, mà cịn có nhiều thể So với học máy phân lớp truyền thống, khung học máy đa nhãn – đa thể biểu diễn tự nhiên thuận tiện [17, 18] đối tượng có nhiều thể hiện, đồng thời thuộc nhiều lớp Trong thực tế, có khơng đối tượng có nhiều thể thuộc nhiều lớp khác Ví dụ, hình ảnh cịn xem túi thường bao gồm số vùng ảnh (mỗi vùng ảnh coi thể hiện), đồng thời hình ảnh thuộc nhiều lớp khác Việc áp dụng phương pháp học máy có giám sát cho toán gán nhãn vùng ảnh yêu cầu liệu học gán nhãn cho vùng ảnh phải đủ 27 Độ đo average F1 thể cân độ đo average precision độ đo average recall Trường hợp lý tưởng 𝑎𝑣𝑔𝐹1𝑆 (ℎ) = Giá trị 𝑎𝑣𝑔𝐹1𝑆 (ℎ) cao hiệu cao 28 2.5 Kết luận Trong chương hai, luận văn trình bày hướng giải pháp giải toán học máy đa nhãn – đa thể Tiếp đó, luận văn trình bày phương pháp học máy đa thể DD [9], EM-DD [11] MISVM [3] Ngoài ra, luận văn giới thiệu số độ đo đánh giá học máy đa nhãn – đa thể Trong chương tiếp theo, luận văn trình bày đề xuất tích hợp phương pháp học máy đa thể DD [9], EM-DD [11], MISVM [3] vào học máy MIML để ứng dụng cho toán gán nhãn vùng ảnh 29 CHƯƠNG ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN - ĐA THỂ HIỆN CHO BÀI TOÁN GÁN NHÃN VÙNG ẢNH 3.1 Phương pháp đề xuất 3.1.1 Giới thiệu Trên sở hướng giải pháp phân rã toán học máy đa nhãn – đa thể lấy học máy đa thể làm cầu nối, luận văn đề xuất tích hợp phương pháp học máy đa thể DD [9], EM-DD [11], MISVM [3] trình bày Chương hai vào học máy MIML thành phương pháp học máy đa nhãn – đa thể MIML-DD, MIML-EMDD, MIML-MISVM Ngoài ra, luận văn đề xuất bổ sung số thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn Tuy hướng giải pháp phân rã toán học máy đa nhãn – đa thể lấy học máy đa thể làm cầu nối thực trước [17, 18] Việc tích hợp phương pháp học máy đa thể DD, EM-DD, MISVM vào học máy MIML ứng dụng toán gán nhãn vùng ảnh hoàn toàn Luận văn tiến hành thực nghiệm, so sánh việc tích hợp thuật toán học máy đa thể DD, EM-DD MISVM vào học máy MIML để giải không tốn gán nhãn vùng ảnh mà cịn tốn gán nhãn cấp độ hình ảnh 3.1.2 Nội dung phương pháp đề xuất Hình 3.1 mơ hình phương pháp đề xuất Đầu tiên, từ tập liệu MIML ta thực chuyển đổi thành tập liệu đa thể Với ví dụ MIML (𝑋𝑢 , 𝑌𝑢 ) (𝑢 = 1,2, … , 𝑚), ta chuyển đổi thành tập gồm |𝑌| túi đa thể [17, 18]: {[(𝑋𝑢 , 𝑦1 ), Ψ(𝑋𝑢 , 𝑦1 ) ], [(𝑋𝑢 , 𝑦2 ), Ψ(𝑋𝑢 , 𝑦2 ) ], … , [(𝑋𝑢 , 𝑦|𝑌| ), Ψ(𝑋𝑢 , 𝑦|𝑌| ) ]} Trong [(𝑋𝑢 , 𝑦𝑣 ), Ψ(𝑋𝑢 , 𝑦𝑣 )] (𝑣 = 1,2, … , |𝑌|) túi đa thể gán nhãn Ψ(𝑋𝑢 , 𝑦𝑣 ) ∈ {0,1} nhãn túi (𝑋𝑢 , 𝑦𝑣 ), (𝑋𝑢 , 𝑦𝑣 ) túi chứa 𝑛𝑢 thể hiện: {(𝑥𝑢1 , 𝑦𝑣 ), (𝑥𝑢1 , 𝑦𝑣 ), … , (𝑥𝑢,𝑛𝑢 , 𝑦𝑣 )} Ψ(𝑋𝑢 , 𝑦) = 𝑦 ∈ 𝑌𝑢 Ψ(𝑋𝑢 , 𝑦) = 𝑦 ∉ 𝑌𝑢 Vì vậy, tập liệu MIML ban đầu chuyển thành tập liệu đa thể 𝐷𝑀𝐼 chứa 𝑚 × |𝑌| túi thể Ta xếp danh sách túi tập liệu 𝐷𝑀𝐼 theo thứ tự: [(𝑋1 , 𝑦1 ), Ψ(𝑋1 , 𝑦1 ) ], … , [(𝑋1 , 𝑦|𝑌| ), Ψ(𝑋1 , 𝑦|𝑌| ) ], [(𝑋2 , 𝑦1 ), Ψ(𝑋2 , 𝑦1 ) ], …, 30 [(𝑋2 , 𝑦|𝑌| ), Ψ(𝑋2 , 𝑦|𝑌| ) ], … , [(𝑋𝑚 , 𝑦1 ), Ψ(𝑋𝑚 , 𝑦1 ) ], … , [(𝑋𝑚 , 𝑦|𝑌| ), Ψ(𝑋𝑚 , 𝑦|𝑌| ) ] Hình 3.1: Mơ hình phương pháp đề xuất 31 Trong [(𝑋 (𝑖) , 𝑦 (𝑖) ), Ψ(𝑋 (𝑖) , 𝑦 (𝑖) )] túi thứ 𝑖 tổng số 𝑚 × |𝑌| túi, túi thứ 𝑖 chứa 𝑛𝑖 thể Từ tập liệu đa thể 𝐷𝑀𝐼 này, ta sử dụng để học hàm ánh xạ 𝑓𝑀𝐼𝐿 học máy đa thể Hàm 𝑓𝑀𝐼𝐿 thực yêu cầu học máy đa nhãn – đa thể [18]: 𝑓𝑀𝐼𝑀𝐿 (𝑋 ∗ ) = {𝑦|𝑠𝑖𝑔𝑛[𝑓𝑀𝐼𝐿 (𝑋 ∗ , 𝑦)] = 1} (3.1) Quay trở lại với đặc điểm học máy đa thể hiện, túi gán nhãn âm tất thể túi có nhãn âm, túi gán nhãn dương có thể có nhãn dương (chỉ cần có thể có nhãn dương túi chứa thể gán nhãn dương) Học máy đa thể quan tâm đến nhãn túi, ta xác nhãn tất thể có túi (túi gán nhãn dương, thể túi âm có nhãn âm) [18] Trong túi dương chứa thể có nhãn âm Thách thức học máy đa thể xác định thể túi có nhãn dương thực thể có nhãn dương, tỉ lệ thể âm thể dương có túi tùy ý [12] Trên sở vậy, luận văn đề xuất bổ sung thêm thể biết nhãn vào tập liệu 𝐷𝑀𝐼 nhằm tăng cường chất lượng gán nhãn Với việc bổ sung thể biết nhãn, ta cung cấp cho thuật toán học máy đa thể xác định xác túi có nhãn dương nhờ giảm nhập nhằng tăng cường chất lượng gán nhãn Trước áp dụng hàm 𝑓𝑀𝐼𝐿 cho tập liệu 𝐷𝑀𝐼 , luận văn tiến hành xây dựng giả túi (pseudo bag – túi có thể hiện) từ thể biết nhãn túi gán nhãn Từ túi [(𝑋𝑢 , 𝑦𝑣 ), Ψ(𝑋𝑢 , 𝑦𝑣 )] (𝑣 = 1,2, … , |𝑌|), ta xây dựng giả túi: [(𝑋 ′ 𝑢1 , 𝑦1 ), 𝜓(𝑋′𝑢1 , 𝑦1 )], … , [(𝑋 ′ 𝑢𝑛𝑢 , 𝑦1 ), ψ(𝑋 ′ 𝑢𝑛𝑢 , 𝑦1 )], [(𝑋 ′ 𝑢1 , 𝑦2 ), ψ(𝑋 ′ 𝑢1 , 𝑦2 )], … , [(𝑋 ′ 𝑢𝑛𝑢 , 𝑦|𝑌| ), ψ(𝑋′𝑢𝑛𝑢 , 𝑦|𝑌| )], … , [(𝑋 ′ 𝑢𝑛𝑢 , 𝑦|𝑌| ), ψ(𝑋 ′ 𝑢𝑛𝑢 , 𝑦|𝑌| )] Trong [(𝑋′𝑢𝑖 , 𝑦𝑣 ), ψ(𝑋′𝑢𝑖 , 𝑦𝑣 )] (𝑖 = 1,2, … , 𝑛𝑢 , 𝑣 = 1,2, … , |𝑌|) giả túi gán nhãn ψ(𝑋′𝑢𝑖 , 𝑦𝑣 ) ∈ {0,1} nhãn túi (𝑋′𝑢𝑖 , 𝑦𝑣 ), (𝑋′𝑢𝑖 , 𝑦𝑣 ) giả túi chứa thể hiện: {(𝑥𝑢𝑖 , 𝑦𝑣 )} ψ(𝑋′𝑢𝑖 , 𝑦) = 𝑦 nhãn thể 𝑥𝑢𝑖 ψ(𝑋′𝑢𝑖 , 𝑦) = ngược lại Từ tập giả túi, ta chọn ngẫu nhiên giả túi với điều kiện ψ(𝑋′𝑢𝑖 , 𝑦) = để bổ sung cho tập liệu 𝐷𝑀𝐼 , ta có tập liệu mới: 32 𝐷′𝑀𝐼 = 𝐷𝑀𝐼 ∪ {[(𝑋′𝑢𝑖 , 𝑦𝑣 ), ψ(𝑋′𝑢𝑖 , 𝑦𝑣 )]} với điều kiện ψ(𝑋′𝑢𝑖 , 𝑦𝑣 ) = Với túi chưa gán nhãn, ta xây dựng giả túi từ tất thể có túi Tập túi cần gán nhãn tập giả túi tạo từ thể có túi chưa gán nhãn ban đầu Với tốn gán nhãn cho cấp độ hình ảnh, ta gán nhãn cho tập túi chưa gán nhãn ban đầu, thay gán nhãn cho tập giả túi xây dựng từ thể có túi chưa gán nhãn Cuối cùng, áp dụng phương pháp học máy đa thể DD, EM-DD, MISVM trình bày cho tập liệu 𝐷′𝑀𝐼 Việc tích hợp phương pháp học đa thể DD [9], EM-DD [11], MISVM [3] vào học máy đa nhãn - đa thể tạo thành phương pháp học máy đa nhãn – đa thể MIML-DD, MIML-EMDD MIML-MISVM tương ứng 3.2 Thực nghiệm đánh giá 3.2.1 Mô tả thực nghiệm Trên sở phương pháp học máy đa nhãn – đa thể MIML-DD, MIML-EMDD, MIML-MISVM đề xuất mục 3.1, luận văn tiến hành thực nghiệm so sánh phương pháp với liệu MSRCv2 [20] hai cấp độ gán nhãn vùng ảnh gán nhãn ảnh, có bổ sung giả túi gán nhãn với tỉ lệ tăng dần từ 0%, 5%, 10%, 20%, … 60% Luận văn sử dụng phương pháp đánh giá chéo k-fold cross validation với k=10 để đánh giá kết thực nghiệm Tập liệu chia thành mười phần Trong đó, phần liệu sử dụng làm liệu kiểm tra, chín phần liệu cịn lại dùng làm liệu huấn luyện cho phương pháp MIML-DD, MIML-EMDD 3.2.2 Môi trường công cụ Bảng 3.1: Cấu hình phần cứng STT Thành phần CPU RAM HDD OS Thông số Intel Core i5-2450M 2.50 Ghz GB 500 GB Windows 8.1 64-bit 33 Bảng 3.2: Công cụ thư viện phần mềm STT Tên phần mềm Tác giả Eclipse Kepler Tổ chức Eclipse (4.3.1) Foundation Machine Learning Group at the University Weka 3.7.6 of Waikato, Hamilton, New Zealand JMIL Nguồn http://www.eclipse.org http://www.cs.waikato.ac nz/ml/weka/ TS Nguyễn Cẩm Tú 3.2.3 Dữ liệu thực nghiệm Để đánh giá phương pháp, luận văn tiến hành thực nghiệm với liệu MSRCv2 [20] Bộ liệu MSRCv2 Microsoft Research cung cấp gồm 591 hình ảnh, 23 lớp đối tượng Mỗi ảnh có trung bình 3.95 nhãn [13] Trong đó, vùng ảnh (thể hiện) biểu diễn vec tơ đặc trưng 𝑘 chiều (với 𝑘 = 48) Mỗi hình ảnh tập vec tơ đặc trưng 3.2.4 Thực nghiệm 3.2.4.1 Gán nhãn cấp độ vùng ảnh 3.2.4.1.1 Phương pháp MIML-DD Bảng 3.3 kết tổng hợp phương pháp MIML-DD lấy trung bình kết theo đánh giá chéo 10-fold cross validation Bảng 3.3: Kết MIML-DD cấp độ vùng ảnh Tỉ lệ giả túi (%) average precision average recall average fmeasure 0.477291549 0.262229317 0.313249248 0.544202899 0.293191108 0.353615968 10 0.614317707 0.376750062 0.440207206 20 0.616616937 0.308469429 0.380676715 30 0.611953723 0.321794148 0.393492636 40 0.589060309 0.351164777 0.414654208 50 0.63197447 0.321900563 0.393493141 34 60 0.678627084 0.375860733 0.450121737 3.2.4.1.2 Phương pháp MIML-EMDD Bảng 3.4 kết tổng hợp phương pháp MIML-EMDD lấy trung bình kết theo đánh giá chéo 10-fold cross validation Bảng 3.4: Kết MIML-EMDD cấp độ vùng ảnh Tỉ lệ giả túi (%) average precision average recall average fmeasure 0.624562712 0.368721737 0.434328873 0.616952868 0.319419228 0.373094002 10 0.679766372 0.417084003 0.475409329 20 0.576819218 0.366491118 0.418941873 30 0.474139648 0.295311934 0.342384848 40 0.539420724 0.331690773 0.380600613 50 0.624296675 0.356320853 0.419582669 60 0.46021597 0.273291564 0.324106226 3.2.4.1.3 So sánh phương pháp Hình 3.2 Hình 3.3 biểu đồ so sánh kết tổng hợp, lấy giá trị trung bình kết theo đánh giá chéo 10-fold cross validation hai phương pháp MIML-DD MIML-EMDD, tương ứng cho tỉ lệ giả túi 0% 60% average precision average recall average fmeasure 0.7 0.6 0.5 0.4 0.3 0.2 0.1 MIML-DD MIML-EMDD Hình 3.2: Biểu đồ thể kết trung bình phương pháp cấp độ vùng ảnh với tỉ lệ giả túi 0% 35 average precision average recall average fmeasure 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 MIML-DD MIML-EMDD Hình 3.3: Biểu đồ thể kết trung bình phương pháp cấp độ vùng ảnh với tỉ lệ giả túi 60% 3.2.4.2 Gán nhãn cấp độ hình ảnh 3.2.4.2.1 Phương pháp MIML-DD Bảng 3.5 skết tổng hợp phương pháp MIML-DD lấy trung bình kết theo đánh giá chéo 10-fold cross validation Bảng 3.5: Kết MIML-DD cấp độ hình ảnh Tỉ lệ giả túi (%) average precision average recall average fmeasure 0.671384775 0.417500753 0.491215512 0.660514371 0.430388952 0.495105981 10 0.727380952 0.453691774 0.526253466 20 0.713293476 0.395854246 0.484635956 30 0.66075282 0.418391567 0.488703562 40 0.699743855 0.428422078 0.493756412 50 0.717784148 0.427697441 0.50665872 60 0.677164592 0.409507945 0.476476649 36 3.2.4.2.2 Phương pháp MIML-EMDD Bảng 3.6 kết tổng hợp phương pháp MIML-EMDD lấy trung bình kết theo đánh giá chéo 10-fold cross validation Bảng 3.6: Kết MIML-EMDD cấp độ hình ảnh Tỉ lệ giả túi (%) average precision average recall average fmeasure 0.688405797 0.441929152 0.52005728 0.520539574 0.371990718 0.41977508 10 0.681549494 0.362043696 0.443192551 20 0.575845411 0.334248665 0.402573203 30 0.557210549 0.377757373 0.434182195 40 0.600696767 0.362757437 0.434936207 50 0.626161278 0.338130653 0.414293677 60 0.681815293 0.37350217 0.449079825 3.2.4.2.3 So sánh phương pháp Hình 3.4 Hình 3.5 biểu đồ so sánh kết tổng hợp, lấy giá trị trung bình kết theo đánh giá chéo 10-fold cross validation hai phương pháp MIML-DD MIML-EMDD, tương ứng cho tỉ lệ giả túi 0% 60% average precision average recall average fmeasure 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 MIML-DD MIML-EMDD Hình 3.4: Biểu đồ thể kết trung bình phương pháp cấp độ hình ảnh với tỉ lệ giả túi 0% 37 average precision average recall average fmeasure 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 MIML-DD MIML-EMDD Hình 3.5: Biểu đồ thể kết trung bình phương pháp cấp độ hình ảnh với tỉ lệ giả túi 60% 3.2.5 Đánh giá kết Từ kết thực nghiệm ta thấy, hai cấp độ (cấp độ vùng ảnh cấp độ hình ảnh), bổ sung thông tin giả túi gán nhãn với tỉ lệ tăng dần phương pháp MIML-DD cho kết tốt hơn, riêng phương pháp MIMLEMDD cho kết Chất lượng gán nhãn phương pháp MIML-DD có xu hướng cải thiện tốt bổ sung tăng dần thông tin giả túi Tuy nhiên, chất lượng lượng gán nhãn phương pháp MIML-EMDD lại có xu hướng giảm bổ sung tăng dần thông tin giả túi So sánh phương pháp với nhau, hai cấp độ, với tỉ lệ giả túi 0% phương pháp MIML-EMDD cho kết tốt phương pháp MIML-DD Ngược lại, với tỉ lệ giả túi 60%, phương pháp MIML-DD tốt phương pháp MIML-EMDD 38 3.3 Kết luận Trong chương này, luận văn trình bày đề xuất tích hợp phương pháp học máy đa thể DD [9], EM-DD [11], MISVM [3] vào khung học máy MIML thành phương pháp học máy đa nhãn – đa thể MIML-DD, MIMLEMDD, MIML-MISVM để ứng dụng cho tốn gán nhãn vùng ảnh Ngồi ra, luận văn cịn đề xuất bổ sung thơng tin vùng ảnh nhằm nâng cao chất lượng gán nhãn Luận văn tiến hành thực nghiệm dựa phương pháp đề xuất Dữ liệu thực nghiệm liệu chuẩn MSRCv2 cung cấp Microsoft Research Luận văn tiến hành thực nghiệm cấp độ gán nhãn vùng ảnh cấp độ gán nhãn hình ảnh Kết thu cho thấy tính khả thi phương pháp đề xuất 39 KẾT LUẬN Qua trình tìm hiểu nghiên cứu phương pháp học máy đa nhãn – đa thể hiện, hướng giải pháp giải vấn đề học máy đa nhãn – đa thể phương pháp học máy đa thể DD [9], EM-DD [11], MISVM [3] Luận văn đề xuất xây dựng thuật toán học máy MIML dựa việc tích hợp thuật tốn học máy đa thể DD, EM-DD, MISVM để giải toán gán nhãn vùng ảnh Luận văn thu kết sau đây: - Giới thiệu tổng quan phương pháp học máy đa nhãn – đa thể hiện, toán gán nhãn vùng ảnh, hướng giải pháp giải vấn đề học máy đa nhãn – đa thể thuật toán học máy đa thể DD [9], EM-DD [11], MISVM [3] - Đề xuất xây dựng thuật toán học máy MIML dựa việc tích hợp thuật tốn học máy đa thể DD, EM-DD, MISVM để giải toán gán nhãn vùng ảnh, đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn - Áp dụng phương pháp đề xuất cho toán gán nhãn vùng ảnh, thực nghiệm so sánh phương pháp cho việc gán nhãn vùng ảnh hình ảnh tập liệu chuẩn MSRCv2 [20] cung cấp Microsoft Research Tuy nhiên, luận văn tồn số mặt hạn chế như: chưa cài đặt tiến hành thực nghiệm tất phương pháp đề xuất, chất lượng gán nhãn nâng cao (nhờ bổ sung thông tin vùng ảnh) cần cải thiện thêm Trong thời gian tới, chúng tơi tiếp tục nghiên cứu tốn gán nhãn vùng ảnh theo hướng tiếp cận sử dụng phương pháp học máy đa nhãn – đa thể với ý tưởng tích hợp mơ hình học tích cực nhằm nâng cao chất lượng gán nhãn 40 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Nguyễn Nhật Tân (2014), Các phương pháp học máy đa thể cho toán gán nhãn vùng ảnh, Khóa luận tốt nghiệp, Trường Đại học Công nghệ - Đại học Quốc gia Hà nội Tiếng Anh: [2] Amar R.A., Dooly D.R., Goldman S.A., Zhang Q (2001), “Multiple-Instance Learning of Real-Valued Data”, Proceedings 18th International Conference on Machine Learning, pp.3 [3] Andrews, Stuart, Ioannis Tsochantaridis, Thomas Hofmann (2002), "Support vector machines for multiple-instance learning", Advances in neural information processing systems, pp 561-568 [4] Boutell, M.R., Luo J., Shen X., Brown C.M (2004), "Learning multi-label scene classification", Pattern recognition 37 (9), pp 1757-1771 [5] Dietterich, Thomas G., Richard H Lathrop, Tomás Lozano-Pérez (1997), "Solving the multiple instance problem with axis-parallel rectangles", Artificial intelligence 89 (1), pp 31-71 [6] Godbole, Shantanu, Sunita Sarawagi (2004), "Discriminative methods for multi-labeled classification", Advances in Knowledge Discovery and Data Mining, Springer Berlin Heidelberg, pp 22-30 [7] Grigorios Tsoumakas, Ioannis Katakis (2007), “Multi-label Classification : An Overview”, International Journal of Data Warehousing & Mining, (3), pp 1-13 [8] Jianjun He, Hong Gu, Zhelong Wang (2012), "Bayesian multi-instance multilabel learning using Gaussian process prior", Machine learning 88 (1-2), pp 273-295 [9] Maron, Oded, Tomás Lozano-Pérez (1998), "A framework for multipleinstance learning", Advances in neural information processing systems, pp 570-576 [10] Maron, O (1998), Learning from ambiguity, Ph.D Thesis, Massachusetts Institute of Technology, United States, AI Technical Report 1639 [11] Qi Zhang, Sally A Goldman (2001), “EM-DD: An Improved MultipleInstance Learning Technique”, Advances in Neural Information Processing Systems 14, pp 1073–1080 41 [12] Settles, B., Craven, M., Ray, S (2008) “Multiple-instance active learning” Advances in neural information processing systems, pp 1289-1296 [13] Xia, Z., Shen, Y., Feng, X., Peng, J., Fan, J (2015) “Automatic tag-toregion assignment via multiple instance learning”, Multimedia Tools and Applicationsss 74 (3), pp 979-1002 [14] Zhang, Min-Ling, Zhi-Hua Zhou (2006), "Multilabel neural networks with applications to functional genomics and text categorization", Knowledge and Data Engineering, IEEE Transactions on 18.10, pp 1338-1351 [15] Zhang, Min-Ling, Zhi-Hua Zhou (2007), "ML-KNN: A lazy learning approach to multi-label learning", Pattern recognition 40.7, pp 2038-2048 [16] Zhang, Min-Ling, Zhi-Jian Wang (2009), "MIMLRBF: RBF neural networks for multi-instance multi-label learning", Neurocomputing 72.16, pp 3951-3956 [17] Zhi-Hua Zhou, Min-Ling Zhang (2006), “Multi-Instance Multi-Label Learning with Application to Scene Classification”, NIPS 2006, pp 16091616 [18] Zhi-Hua Zhou, Min-Ling Zhang, Sheng-Jun Huang, Yu-Feng Li (2012), “Multi-instance multi-label learning”, Artif Intell 176 (1), pp 2291-2320 [19] http://blog.instagram.com/post/129662501137/150922-400million [20] http://research.microsoft.com/en-us/projects/objectclassrecognition