Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN MAI TIẾN DŨNG PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI ẢNH VỚI SỐ LƯỢNG LỚP LỚN LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH – 2017 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN MAI TIẾN DŨNG PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI ẢNH VỚI SỐ LƯỢNG LỚP LỚN Chuyên ngành: Khoa học Máy tính Mã số: 62.48.01.01 Phản biện 1: PGS.TS Lý Quốc Ngọc Phản biện 2: TS Lê Thành Sách Phản biện 3: PGS.TS Hồ Bảo Quốc Phản biện độc lập 1: PGS.TS Lê Thị Lan Phản biện độc lập 2: TS Trần Thái Sơn NGƯỜI HƯỚNG DẪN KHOA HỌC GS TSKH HOÀNG VĂN KIẾM TP HỒ CHÍ MINH – 2017 LỜI CẢM ƠN Đầu tiên, xin gởi lời tri ân sâu sắc đến GS.TSKH Hồng Văn Kiếm, người Thầy tận tình hướng dẫn động viên suốt thời gian học tập, nghiên cứu thực luận án Tôi xin chân thành cảm ơn GS Shin’ichi Satoh, PGS.TS Dương Anh Đức, TS Lê Đình Duy, TS Ngơ Đức Thành ý kiến đóng góp q báu cho luận án Tơi xin chân thành cảm ơn Phịng Đào tạo Sau Đại học - Khoa học Cơng nghệ, Phịng Thí nghiệm Truyền thơng Đa phương tiện, Khoa Khoa học Máy tính, Q Thầy Cơ Đồng nghiệp hỗ trợ suốt thời gian thực luận án Cuối cùng, tơi muốn bày tỏ lịng biết ơn sâu sắc đến Ba, Mẹ, Vợ Gia đình ln điểm tựa vững chắc, nguồn động viên to lớn tiếp thêm nghị lực giúp hồn thành tốt luận án LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận án trung thực chưa cơng bố cơng trình khác, ngoại trừ tư liệu trích dẫn ghi mục tài liệu tham khảo Tác giả luận án Mai Tiến Dũng Mục lục Lời cảm ơn i Lời cam đoan ii Mục lục Danh mục ký hiệu, thuật ngữ chữ viết tắt Danh sách bảng Danh sách hình vẽ Chương TỔNG QUAN 12 1.1 Giới thiệu tóm tắt cơng trình nghiên cứu 12 1.2 Động lực nghiên cứu 15 1.3 Mục đích, đối tượng phạm vi nghiên cứu 16 1.4 Ý nghĩa khoa học thực tiễn đề tài 17 1.5 Bố cục luận án 18 Chương 2.1 2.2 CƠ SỞ LÝ THUYẾT 20 Giới thiệu toán 20 2.1.1 Bài toán đa phân lớp 20 2.1.2 Bài toán phân loại ảnh với số lượng lớp lớn 21 Những vấn đề thách thức 21 2.2.1 Dữ liệu lớn 21 2.2.2 Các phương pháp phân loại 24 2.2.3 Biểu diễn ảnh 24 2.2.4 Độ xác 25 2.2.5 Chi phí phân loại 25 2.2.6 Cân độ xác chi phí thực 26 Những cơng trình nghiên cứu liên quan 27 2.3.1 Hướng tiếp cận phẳng 27 2.3.2 Hướng tiếp cận dựa cấu trúc phân cấp 34 2.3.3 Hướng tiếp cận khác 43 2.4 Những vấn đề tồn 44 2.5 Mục tiêu luận án 45 2.3 Chương PHÂN LOẠI DỰA TRÊN CẤU TRÚC CÂY PHÂN CẤP 47 3.1 Giới thiệu 48 3.2 Xây dựng phân cấp cân 50 3.2.1 Tổng quan phân cấp 50 3.2.2 Xây dựng phân cấp cân dựa tất ảnh ảnh trung 3.3 3.4 bình 51 3.2.3 Xây dựng phân cấp cân dựa tương đồng lớp 71 3.2.4 So sánh tính hiệu phương pháp đề xuất 84 3.2.5 Thảo luận 85 Duyệt dựa thông tin nút 86 3.3.1 Các cách tiếp cận có 87 3.3.2 Các mối quan hệ nút 88 3.3.3 Xây dựng mơ hình chọn nhánh ứng viên 90 3.3.4 Quá trình thực phân loại 92 3.3.5 Thí nghiệm 93 Tổng kết chương 95 Chương PHÂN LOẠI DỰA TRÊN BỘ PHÂN LỚP TIỀM ẨN 96 4.1 Giới thiệu 96 4.2 Ý tưởng phương pháp đề xuất 97 4.3 Xây dựng phân lớp tiềm ẩn 98 4.3.1 98 Mô tả phương pháp 4.3.2 Thuật toán huấn luyện 100 4.3.3 Thuật toán phân loại 102 Thực nghiệm 103 4.4.1 Thiết lập thực nghiệm 103 4.4.2 Kết thực nghiệm 105 4.5 So sánh với phương pháp phân loại dựa phân cấp đề xuất 120 4.6 Tổng kết chương 121 4.4 Chương 5.1 5.2 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 122 Kết luận 122 5.1.1 Những kết đạt 122 5.1.2 Những ưu điểm hạn chế phương pháp đề xuất 123 Hướng phát triển 125 5.2.1 Phát triển phương pháp xây dựng phân cấp tập liệu thực 125 5.2.2 Phát triển phương pháp xác định lớp tiềm ẩn 125 5.2.3 Ứng dụng lĩnh vực khác 126 DANH MỤC CÔNG BỐ KHOA HỌC 127 Phục lục A: Các tập liệu Phương pháp biểu diễn ảnh 128 A.1 Các tập liệu 128 A.1.1 Tập liệu Caltech-256 128 A.1.2 Tập liệu SUN-397 129 A.1.3 Tập liệu ILSVRC2010-1K 129 A.1.4 Tập liệu ImagetNet-10K 130 A.2 Phương pháp biểu diễn ảnh 133 A.2.1 Biểu diễn ảnh theo mơ hình BOW 133 A.2.2 Biểu diễn ảnh theo mơ hình mạng học sâu 134 TÀI LIỆU THAM KHẢO 137 Danh mục ký hiệu, thuật ngữ chữ viết tắt Tiếng Anh Tạm dịch additive kernel hàm nhân có tính cộng Author et al Author cộng classify thực phân lớp, phân loại classifier phân lớp classification phân lớp, phân loại clustering phân nhóm codeword từ mã coding mã hóa confusion nhập nhằng decoding giải mã deep learning học sâu dot-product tích vơ hướng eigen vector vector riêng eigenvalue trị riêng feature map ánh xạ đặc trưng fine-grained mức chi tiết flat classification phân lớp phẳng hierarchical classification phân lớp phân cấp homogeneous kernel hàm nhân đồng kernel nhân label tree phân cấp, phân loại Tiếng Anh Tạm dịch large-scale dataset tập liệu lớn largest singular values giá trị kì dị lớn latent tiềm ẩn latent class lớp tiềm ẩn latent classifier phân lớp tiềm ẩn latent space không gian tiềm ẩn low rank approximation xấp xỉ ma trận bậc thấp multi-class đa lớp negative label nhãn âm node nút positive definite kernel hàm nhân định nghĩa dương positive label nhãn dương property of reproducing kernel tính chất tái tạo không gian Hilbert Hilbert space regression hồi quy state-of-the-art tiên tiến semantic gap khoảng cách ngữ nghĩa spectral clustering phân nhóm dựa phổ support vector vector hỗ trợ testing set tập liệu kiểm tra training set tập liệu huấn luyện two alternating convex optimiza- phương pháp tối ưu thay hai bước tions validation set tập liệu kiểm thử visual recognition nhận dạng thị giác Cụm từ tiếng Anh Viết tắt Accuracy Acc Bag-of-Word BOW Direct Acycle Graph DAG Error-Correcting Ouput Codes ECOC ImageNet Large Scale Visual Recognition ILSVRC Challenge Integer Linear Programming ILP Locality-constrained Linear Coding LLC multiple-instance learning MIL One-versus-All OvA One-versus-One OvO Random Dense Output Coding RDOC Random Sparse Output Coding RSOC Scale-invariant feature transform SIFT Singular Value Decomposition SVD Sparse Output Coding SpOC Spatial Pyramid Matching SPM state-of-the-art SoA Support Vector Machine SVM Stochastic gradient descent SGD Test speedup Ste Visual Geometry Group VGG tiến hành thực nghiệm luận án chọn cách ngẫu nhiên theo tỉ lệ thường áp dụng nghiên cứu liên quan sau: 50% số ảnh lớp dùng làm ảnh huấn luyện, 25% số ảnh dùng làm ảnh kiểm thử 25% dùng làm ảnh kiểm tra A.1.2 Tập liệu SUN-397 Tập liệu SUN [13] có 908 lớp khác có 130.000 ảnh, có 397 lớp chọn lọc dùng làm tập liệu chuẩn cho việc đánh giá kết phân đa lớp, tập cịn gọi tập SUN-397, tập có tất 108.754 ảnh lưu trữ theo định dạng jpeg Trung bình lớp có 274 ảnh nhiều 2.361 ảnh 100 ảnh Cấu trúc phân cấp thể mối quan hệ lớp có chiều cao 3, gồm 397 nút tương ứng với 397 lớp, nút có tối đa nút cha, có tất 20 nút trung gian Tương tự tập liệu Caltech-256, tập liệu không cung cấp tập liệu huấn luyện-kiểm thử-kiểm tra Chúng phân chia tập liệu cách ngẫu nhiên theo tỉ lệ: 50% số ảnh lớp dùng làm ảnh huấn luyện, 25% số ảnh dùng làm ảnh kiểm thử 25% dùng làm ảnh kiểm tra A.1.3 Tập liệu ILSVRC2010-1K Tập liệu ILSVRC2010-1K (ILSVRC2010 hay ImagetNet-1K) [14] tập liệu sử dụng phổ biến để đánh giá phương pháp phân lớp với số lượng lớp lớn Tập liệu có 1000 lớp thuộc lĩnh vực khác Các tập liệu huấn luyện, kiểm thử kiểm tra chia sẳn cung cấp cho mục đích nghiên cứu Cụ thể sau: tập liệu huấn luyện gồm có 1.261.406 ảnh, lớp có khoảng 668 đến 3.047 ảnh; tập kiểm thử có 150.000 ảnh, lớp có 150 ảnh; tập liệu kiểm thử có 50.000 ảnh, lớp có 50 ảnh Cấu trúc phân cấp lớp xây dựng theo cấu trúc WordNet [36], gồm có 1.676 đỉnh, có 1.000 đỉnh nút Do tập liệu gồm lớp chọn lọc từ tập liệu ImageNet, nên cấu trúc phân cấp có nút có nút con, số nút thuộc vào nhiều nút khác 129 Bảng A.1: Thống kê số lượng ảnh thông tin phân cấp tập liệu Tập liệu Caltech-256 SUN-397 ILSVRC2010-1K ImageNet-10K Tổng số ảnh 29.780 108.754 1.461.406 9M Số nút 256 397 1.000 7.404 Số nút trung gian 62 20 676 3.043 Chiều cao 17 19 Bảng A.2: Thống kê số lượng ảnh tập liệu Tập liệu Tổng số ảnh Số lớp Caltech-256 SUN-397 ILSVRC2010-1K ImageNet-10K 29.780 108.754 1.461.406 9.114.429 256 397 1.000 10.184 A.1.4 Số ảnh lớp Tối thiểu Trung bình Tối đa 80 100 800 100 274 2.361 668 1000 3.047 200 895 2.896 Năm công bố 2006 2010 2010 2010 Tập liệu ImagetNet-10K ImagetNet [38] tập liệu ảnh lớn Tập liệu có 14 triệu ảnh gần 22 ngàn lớp thuộc nhiều lĩnh vực khác Cấu trúc phân cấp lớp tổ chức theo cấu trúc WordNet, nút tương ứng với synset WordNet Imagenet-10K tập liệu chọn lọc từ ImageNet phổ biến vào năm 2010 công trình [2] Đây tập liệu có kích thước lớn, gồm 10.184 lớp triệu ảnh Mức độ đa dạng tỉ lệ nhiễu ảnh cao, ảnh có kích thước định dạng lưu trữ khác Vì xem tập liệu thách thức phương pháp phân lớp Do có kích thước lớn khơng có sẵn tập liệu, để thực nghiệm tập liệu chọn ngẫu nhiên ảnh lớp theo số lượng sau: 100 ảnh dùng làm ảnh huấn luyện, 50 ảnh dùng làm ảnh kiểm thử 50 ảnh dùng làm ảnh kiểm tra Thông tin cấu trúc phân cấp số lượng ảnh tập liệu liệt kê bảng A.1 bảng A.2 Các hình A.1, A.2, A.3 hình A.4 thể thơng tin sử phân bố số lượng ảnh lớp tập liệu Caltech-256, SUN-397, ILSVRC2010-1K ImageNet-10K 130 Caltech−256: #images vs #classes 800 700 600 #images 500 400 300 200 100 0 50 100 150 200 250 ith class Hình A.1: Hình ảnh phân bố số lượng ảnh lớp tập liệu Caltech-256 SUN−397: #images vs #classes 2500 2000 #images 1500 1000 500 0 50 100 150 200 ith class 250 300 350 Hình A.2: Hình ảnh phân bố số lượng ảnh lớp tập liệu SUN-397 131 ILSVRC2010−2010: #images vs #classes 3500 3000 #images 2500 2000 1500 1000 500 0 100 200 300 400 500 ith class 600 700 800 900 1000 Hình A.3: Hình ảnh phân bố số lượng ảnh lớp tập liệu ILSVRC2010-1K ImageNet−10K: #images vs #classes 3000 2500 #images 2000 1500 1000 500 0 1000 2000 3000 4000 5000 6000 ith class 7000 8000 9000 10000 Hình A.4: Hình ảnh phân bố số lượng ảnh lớp tập liệu ImageNet-10K 132 A.2 Phương pháp biểu diễn ảnh Có nhiều phương pháp để biểu diễn ảnh dạng vector đặc trưng Tuy nhiên, BOW mơ hình phổ biến sử dụng để mơ tả ảnh dựa đặc trưng cục Ngoài ra, năm gần đây, mơ hình mạng học sâu đạt kết cao nhiều tốn thuộc nhiều lĩnh vực khác nhau, có tốn phân lớp ảnh Chúng tơi trình bày tóm tắt cách sử dụng hai mơ hình để biểu ảnh A.2.1 Biểu diễn ảnh theo mô hình BOW Do số lượng điểm đặc trưng cục ảnh khác khác Vì khó cho việc đánh giá mức độ giống hay khác hai ảnh Một giải pháp cho vấn đề sử dụng mơ hình túi từ (BOW) để biểu diễn ảnh vector đặc trưng có số chiều Trong luận án này, sử dụng đặc trưng SIFT [23] rút trích cơng cụ vlfeat [62], đặc trưng cục sử dụng phổ biến đạt nhiều kết cao lĩnh vực xử lý ảnh Quá trình xác định vector đặc trưng cho ảnh gồm hai cơng đoạn sau: • Công đoạn tạo từ điển: để tạo từ điển mơ hình BOW, chúng tơi chọn ngẫu nhiên 25% số ảnh từ lớp tiến hành rút trích đặc trưng SIFT cho ảnh, áp dụng thuật tốn phân nhóm k-means tập điểm đặc trưng với giá trị số lượng từ k = 10.000 để tạo từ điển có kích thước 10.000 từ, từ cịn gọi visual word • Công đoạn xác định vector đặc trưng cho ảnh: sử dụng từ điển tạo công đoạn trước áp dụng phương pháp mã hóa LLC [24] cài đặt [63] để mã hóa đặc trưng cục theo từ từ điển Để hạn chế ảnh hưởng yếu tố khơng gian, nên ngồi việc tiến hành xác định đặc trưng toàn ảnh, ảnh chia thành phần nhỏ đặc trưng tính phần [9] Sau ta kết hợp đặc trưng tính từ ảnh từ phần nhỏ cửa ảnh để tạo thành vector đặc trưng cuối dùng Vector dùng để mô tả nội dung ảnh Đây lý ký hiệu cho trường hợp biểu diễn theo đặc trưng 133 Bảng A.3: Thông tin vector đặc trưng sử dụng tập liệu Tập liệu Caltech-256 SUN-397 ImageNet-1K ImageNet-10K Kích thước từ điển 10.000 10.000 10.000 10.000 pyramid × 1, × × 1, × × 1, × 1×1 Số chiều vector đặc trưng 50.000 50.000 50.000 10.000 BOW-SIFT-LLC-SPM Lưu ý: chia ảnh thành nhiều vùng kích thước vector đặc trưng tăng theo Do đó, thực nghiệm tập liệu Caltech-256, SUN-397 ILSVRC2010-1K, chia ảnh thành vùng × × 2, vector đặc trưng mơ tả ảnh có kích thước (1 × + × 2) ∗ 10.000 = 50.000 chiều Riêng tập liệu ImageNet-10K, có kích thước lớn nên chúng tơi xét tồn ảnh mà khơng thực vùng Thơng tin chi tiết kích thước từ điển số chiều vector đặc trưng biểu diễn ảnh trình bày tóm tắt bảng A.3 Trong mơ hình này, ảnh biểu diễn qua tập vùng cục (local patch), vùng xác định dựa đặc trưng cục (local feature) Do đó, chất lớp ảnh khơng đầy đủ Tính đồng nghĩa đa nghĩa đặc trưng thị giác theo cách biểu diễn ảnh giải phần cách chia ảnh thành vùng khác xác định đặc trưng vùng Mặc dù nhiều hạn chế so với mơ hình biểu diễn ảnh dựa đặc trưng học tự động qua mạng học sâu, mơ hình có ưu điểm trực quan, dễ hiểu nhiều thư viện xử lý ảnh hỗ trợ A.2.2 Biểu diễn ảnh theo mơ hình mạng học sâu Mơ hình mạng học sâu (deep learning hay deep convolutional neural networks (CNN)) gần đạt thành tựu đáng kể nhiều lĩnh vực khác [16, 17, 18, 25, 26] Thành tích chiến thắng thách thức ILSVRC-2012 Alex Krizhevsky cộng [16] thực gây ấn tượng với cộng đồng nghiên cứu lĩnh vực thị giác máy tính Tiếp theo có nhiều kiến trúc mạng cơng bố, phổ biến mơ hình nhóm nghiên cứu VGG Đại học Oxford Hình A.5 minh họa tóm tắt kiến trúc mạng khác 134 mạng VGG-VERYDEEP Trong cấu hình này, mạng VGG-VERYDEEP-16 gồm có 16 lớp (layers) thường sử dụng nghiên cứu để rút trích đặc trưng học sâu cho ảnh, ngồi lý chi phí thực rút trích, độ xác mạng VGG-VERYDEEP-16 xấp xỉ với mạng VGG-VERYDEEP-19 [17] Trong thực nghiệm, để rút trích đặc trưng học sâu cho ảnh, sử dụng cơng cụ MatConvNet toolbox [64] mơ hình huấn luyện trước mạng VERYDEEPVGG-16 tập liệu ILSVRC-2012 [17] Đầu vào mạng ảnh đầu mạng giá trị dự đoán kết phân lớp cho ảnh vào 1000 lớp ILSVRC-2012 Tuy nhiên, cấu hình mạng học sâu, lớp cuối (soft max) tương ứng với đầu toán (cụ thể 1000 giá trị dự đoán tương ứng với 1000 lớp), lớp kế cuối (FC-1000) tương ứng với mô hình thực phân lớp cho 1000 lớp Vì giá trị đầu vào lớp tương ứng với vector đặc trưng mơ hình phân lớp thông thường Điều cho phép sử dụng giá kết lớp trước (fc7) vector đặc trưng có 4.096 chiều (giá trị) [17, 25, 26] Trong thực nghiệm, để biễu diễn ảnh dựa đặc trưng này, sử dụng ký hiệu VGG-VERYDEEP-16 135 Hình A.5: Minh họa kiến trúc mạng học sâu nhóm VGG 136 TÀI LIỆU THAM KHẢO [1] Ryan Rifkin and Aldebaro Klautau In defense of one-vs-all classification J Mach Learn Res., 5:101–141, December 2004 12, 24, 27 [2] Jia Deng, Alexander C Berg, Kai Li, and Li Fei-Fei What does classifying more than 10, 000 image categories tell us? In ECCV, pages 71–84, 2010 12, 13, 17, 35, 46, 68, 130 [3] Thomas G Dietterich and Ghulum Bakiri Solving multiclass learning problems via error-correcting output codes Journal of Artificial Intelligence Research (JAIR), 2: 263–286, 1995 13, 31 [4] Erin L Allwein, Robert E Schapire, and Yoram Singer Reducing multiclass to binary: A unifying approach for margin classifiers Journal of Machine Learning Research, 1: 113–141, September 2001 13, 31 [5] Samy Bengio, Jason Weston, and David Grangier Label embedding trees for large multi-class tasks In NIPS, pages 163–171, 2010 13, 35, 39, 40, 43, 46, 48, 49, 57, 58, 59, 60, 62, 63, 64, 65, 66, 69, 70, 71, 77, 78, 79, 80, 82, 84, 87, 92, 93, 97, 107, 114, 115, 117, 120 [6] Jia Deng, Sanjeev Satheesh, Alex Berg, and Li Fei-Fei Fast and balanced: Efficient label tree learning for large scale object recognition In NIPS, 2011 13, 35, 40, 41, 43, 46, 48, 49, 57, 59, 60, 62, 77, 78, 97, 107, 114 [7] Baoyuan Liu, Fereshteh Sadeghi, Marshall Tappen, Ohad Shamir, and Ce Liu Probabilistic label trees for efficient large scale image classification In CVPR, pages 843– 850, 2013 13, 35, 40, 43, 48, 49, 57, 68, 87, 88, 97 137 [8] Andrea Vedaldi and Andrew Zisserman Efficient additive kernels via explicit feature maps IEEE Trans Pattern Anal Mach Intell., 34(3):480–492, March 2012 14, 72, 77 [9] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories In CVPR, pages 2169– 2178, 2006 16, 25, 43, 57, 104, 133 [10] Ritendra Datta, Dhiraj Joshi, Jia Li, and James Z Wang Image retrieval: Ideas, influences, and trends of the new age ACM Comput Surv., 40(2):5:1–5:60, May 2008 16 [11] Li-Jia Li, Richard Socher, and Fei-Fei Li Towards total scene understanding: Classification, annotation and segmentation in an automatic framework In CVPR, pages 2036–2043, 2009 16 [12] Jia Deng, Alex Berg, and Li Fei-Fei Hierarchical semantic indexing for large scale image retrieval In CVPR, 2011 16, 35, 48 [13] Jianxiong Xiao, James Hays, Krista A Ehinger, Aude Oliva, and Antonio Torralba Sun database: Large-scale scene recognition from abbey to zoo In CVPR, pages 3485– 3492, 2010 16, 17, 38, 129 [14] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C Berg, and Li Fei-Fei ImageNet Large Scale Visual Recognition Challenge International Journal of Computer Vision (IJCV), pages 1–42, April 2015 16, 17, 21, 29, 104, 105, 129 [15] G Griffin, A Holub, and P Perona Caltech-256 object category dataset Technical Report 7694, California Institute of Technology, 2007 17, 38, 128 [16] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton Imagenet classification with deep convolutional neural networks In NIPS, pages 1106–1114, 2012 18, 25, 43, 134 [17] Karen Simonyan and Andrew Zisserman Very deep convolutional networks for largescale image recognition CoRR, abs/1409.1556, 2014 18, 25, 43, 57, 104, 134, 135 138 [18] C Szegedy, Wei Liu, Yangqing Jia, P Sermanet, S Reed, D Anguelov, D Erhan, V Vanhoucke, and A Rabinovich Going deeper with convolutions In CVPR, pages 1–9, June 2015 18, 134 [19] Matthew D Zeiler and Rob Fergus Visualizing and understanding convolutional networks In ECCV, pages 818–833, 2014 18 [20] Chih-Chung Chang and Chih-Jen Lin Libsvm: A library for support vector machines ACM Trans Intell Syst Technol., 2(3):1–27, May 2011 24, 32 [21] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, and Chih-Jen Lin Liblinear: A library for large linear classification J Mach Learn Res., 9:1871–1874, June 2008 24, 32, 59, 101, 105 [22] Zeynep Akata, Florent Perronnin, Zaid Harchaoui, and Cordelia Schmid Good practice in large-scale learning for image classification IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(3):507–520, 2014 24, 104 [23] David G Lowe Distinctive image features from scale-invariant keypoints Int J Comput Vision, 60(2):91–110, November 2004 25, 43, 57, 104, 133 [24] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, Thomas S Huang, and Yihong Gong Locality-constrained linear coding for image classification In CVPR, pages 3360– 3367, 2010 25, 43, 57, 104, 133 [25] Ken Chatfield, Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman Return of the devil in the details: Delving deep into convolutional nets In BMVC, 2014 25, 43, 134, 135 [26] Ken Chatfield, Relja Arandjelovic, Omkar M Parkhi, and Andrew Zisserman On-thefly learning for visual search of large-scale image and video datasets IJMIR, 4(2): 75–93, 2015 25, 43, 134, 135 [27] Corinna Cortes and Vladimir Vapnik Support-vector networks Machine Learning, 20 (3):273–297, 1995 28 139 [28] Trevor Hastie and Robert Tibshirani Classification by pairwise coupling Annals of Statistics, 26(2):451–471, 1998 29 [29] John C Platt, Nello Cristianini, and John Shawe-Taylor Large margin DAGs for multiclass classification In NIPS, pages 547–553, 2000 30 [30] X Zhang, L Liang, and H Shum Spectral error correcting output codes for efficient multiclass recognition In ICCV, 2009 31, 59, 62, 63, 64, 69, 107, 114 [31] Bin Zhao and Eric P Xing Sparse output coding for large-scale visual recognition In CVPR, pages 3350–3357, 2013 31, 32, 72 [32] T G Dietterich and G Bakiri Solving multi-class learning problems via error- correcting output codes J A.I Res., 1995 31 [33] E L Allwein, R E Schapire, and Y Singer Reducing multi-class to binary: a unifying approach for margin classifiers J Mach Learn Res., 2001 31, 59, 62, 63, 64, 69, 107, 114 [34] Tianshi Gao and Daphne Koller Multiclass boosting with hinge loss based on output coding In ICML, pages 569–576, 2011 31 [35] Tianshi Gao and Daphne Koller Discriminative learning of relaxed hierarchy for largescale visual recognition In ICCV, pages 2072–2079, 2011 35, 49, 71 [36] George A Miller Wordnet: A lexical database for english Commun ACM, 38(11): 39–41, November 1995 37, 129 [37] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Fei-Fei Li Imagenet: A large-scale hierarchical image database In CVPR, pages 248–255, 2009 38 [38] ImageNet ImageNet: The challenge evaluates algorithms for object detection and image classification at large scale http://http://image-net.org/, 2014 Accessed: August 10, 2014 38, 130 [39] G Griffin and P Perona Learning and using taxonomies for fast visual categorization In CVPR, pages 1–8, 2008 39 140 [40] Andrew Y Ng, Michael I Jordan, Yair Weiss, et al On spectral clustering: Analysis and an algorithm NIPS, pages 849–856, 2002 39, 49, 59, 73, 74, 75, 76 [41] Song Liu, Haoran Yi, Liang-Tien Chia, and Deepu Rajan Adaptive hierarchical multiclass svm classifier for texture-based image classification In ICME 2005, pages 1190– 1193, 2005 40, 43, 49, 59, 60, 62, 63, 64, 69, 70, 77, 78, 79, 80, 82, 84, 85, 120 [42] Florent Perronnin and Christopher R Dance Fisher kernels on visual vocabularies for image categorization In CVPR, 2007 43 [43] Jorge Sánchez and Florent Perronnin High-dimensional signature compression for large-scale image classification In CVPR, pages 1665–1672, 2011 43, 104, 105 [44] Paul S Bradley, Olvi L Mangasarian, and W Nick Street Clustering via concave minimization In NIPS, pages 368–374, 1996 55 [45] K.P Bennett, P.S Bradley, and A Demiriz Constrained k-means clustering Technical Report MSR-TR-2000-65, May 2000 55 [46] Shiai Zhu, Xiao-Yong Wei, and Chong-Wah Ngo Collaborative error reduction for hierarchical classification Computer Vision and Image Understanding, 124:79–90, 2014 57, 87, 88, 89, 93, 94, 95 [47] Sergio Escalera, Oriol Pujol, and Petia Radeva Error-correcting ouput codes library Journal of Machine Learning Research, 11:661–664, 2010 59 [48] David Haussler Convolution kernels on discrete structures Technical Report UCSCRL-99-10, 1999 71, 72 [49] Liefeng Bo and Cristian Sminchisescu Efficient match kernel between sets of features for visual recognition In NIPS, pages 135–143, 2009 72 [50] Dong Xu and Shih-Fu Chang Video event recognition using kernel methods with multilevel temporal alignment IEEE Trans Pattern Anal Mach Intell., 30(11):1985– 1997, 2008 72 141 [51] Bernhard Scholkopf and Alexander J Smola Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond MIT Press, Cambridge, MA, USA, 2001 ISBN 0262194759 72, 91 [52] Yang Wang and David A Forsyth Large multi-class image categorization with ensembles of label trees In ICME, pages 1–6, 2013 87 [53] Stuart Andrews, Ioannis Tsochantaridis, and Thomas Hofmann Support vector machines for multiple-instance learning In NIPS, pages 561–568, 2002 90, 92 [54] Yuanqing Lin, Fengjun Lv, Shenghuo Zhu, Ming Yang, Timothée Cour, Kai Yu, Liangliang Cao, and Thomas S Huang Large-scale image classification: Fast feature extraction and SVM training In CVPR, pages 1689–1696, 2011 105 [55] Sergio Escalera, Oriol Pujol, and Petia Radeva Error-correcting ouput codes library Journal of Machine Learning Research, 11:661–664, 2010 107 [56] Michael W Berry, Murray Browne, Amy N Langville, V Paul Pauca, and Robert J Plemmons Algorithms and applications for approximate nonnegative matrix factorization Computational Statistics and Data Analysis, 52(1):155 – 173, 2007 ISSN 0167-9473 118 [57] Daniel D Lee and H Sebastian Seung Algorithms for non-negative matrix factorization In T K Leen, T G Dietterich, and V Tresp, editors, NIPS, pages 556–562 MIT Press, 2001 118 [58] Chih-Jen Lin Projected gradient methods for nonnegative matrix factorization Neural Comput., 19(10):2756–2779, October 2007 ISSN 0899-7667 118 [59] Naiyang Guan, Dacheng Tao, Zhigang Luo, and John Shawe-Taylor Mahnmf: Manhattan non-negative matrix factorization CoRR, abs/1207.3438, 2012 118 [60] Naiyang Guan, Dacheng Tao, Zhigang Luo, and Bo Yuan Nenmf: An optimal gradient method for nonnegative matrix factorization IEEE Trans Signal Processing, 60(6): 2882–2898, 2012 118 142 [61] Yangfeng Ji and Jacob Eisenstein Discriminative improvements to distributional sentence similarity In EMNLP, pages 891–896, 2013 118 [62] A Vedaldi and B Fulkerson VLFeat: An open and portable library of computer vision algorithms http://www.vlfeat.org/, 2008 133 [63] Andrea Vedaldi Ken Chatfield, Victor Lempitsky and Andrew Zisserman The devil is in the details: an evaluation of recent feature encoding methods In BMVC, pages 1–12, 2011 133 [64] Andrea Vedaldi and Karel Lenc Matconvnet: Convolutional neural networks for matlab In ACM Multimedia 2015, pages 689–692, 2015 135 143 ... phương pháp phụ thuộc tuyến tính vào số lượng lớp, phương pháp thích hợp với số lượng lớp nhỏ Trong trường hợp số lượng lớp lớn số lượng lớn ảnh cần phân loại làm giảm khả ứng dụng phương pháp. .. kết phân loại lớp Angelf ish, Shark, W hale phương pháp phân loại phẳng Các phương pháp phân loại dựa cấu trúc phân cấp thường sử dụng số lượng phân lớp so với phương pháp OvA thực phân loại. .. tốn phương pháp phân loại dựa cấu trúc phân cấp so với phương pháp OvA hợp số lượng lớp lớn số lượng lớn ảnh cần phân loại [2, 5, 6, 7, 12] Hình 2.5 ví dụ minh họa tính hiệu phương pháp dùng phân

Định dạng
Số trang	147
Dung lượng	9,74 MB