(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	61
Dung lượng	1,14 MB

Nội dung

(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel(Luận văn thạc sĩ) Phân loại ảnh dựa trên hướng tiếp cận Kernel

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÊ THANH TÂM PHÂN LOẠI ẢNH DỰA TRÊN HƯỚNG TIẾP CẬN KERNEL LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh - 2011 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÊ THANH TÂM PHÂN LOẠI ẢNH DỰA TRÊN HƯỚNG TIẾP CẬN KERNEL Ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ (Chuyên ngành Tin học) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS NGUYỄN ĐÌNH THÚC TS TRẦN THÁI SƠN Thành phố Hồ Chí Minh - 2011 LỜI CẢM ƠN Trước tiên, xin chân thành cảm ơn PGS.TS Nguyễn Đình Thúc TS Trần Thái Sơn hướng dẫn tận tình cho tơi suốt thời gian thực luận văn Tôi xin cảm ơn GS Akihiro Sugimoto (National Institute of Informatics, Tokyo, Japan) TS Yousun Kang (National Institute of Informatics, Tokyo, Japan) dẫn cho tơi góp ý q báu nội dung luận văn thời gian thực tập tháng Viện Tin học Quốc gia Nhật Bản (National Institute of Informatics, Tokyo, Japan) Tôi xin cảm ơn GS Seiichi Mita (Toyota Technological Institutue, Nagoya, Japan) tận tình hỗ trợ, hướng dẫn giúp tơi có kinh nghiệm thực tiễn trình thực tập tháng Học viện Kỹ thuật Toyota, Nagoya, Nhật Bản (Toyota Technological Institute, Nagoya, Japan) Tôi xin cảm ơn GS D McAllister (Toyota Technological Institute, Chicago, USA) GS L El Ghaoui (University of California, Bekerley, USA) tận tình giảng dạy cho tảng máy học, tối ưu thị giác máy tính Tơi xin cảm ơn ThS Trần Lê Hồng Dũ nghiên cứu sinh M Kloft (University of California, Bekerley, USA) trao đổi, thảo luận truyền đạt kinh nghiệm quý báu q trình thực nghiệm đề tài Tơi xin gởi lời cảm ơn quý thầy cô, anh chị bạn bè khoa Công nghệ thông tin, Trường Đại Học Khoa Học Tự Nhiên TP.HCM, người giúp đỡ cung cấp cho kiến thức, kinh nghiệm Con xin cảm ơn ba mẹ gia đình ln u thương, hỗ trợ suốt thời gian học tập, giúp có thêm tự tin để thực tốt công việc Xin chân thành cảm ơn! Người thực Lê Thanh Tâm MỤC LỤC LỜI CẢM ƠN .1 MỤC LỤC Danh mục kí hiệu chữ viết tắt Danh mục bảng .6 Danh mục hình vẽ, đồ thị MỞ ĐẦU .8 Chương Giới thiệu 1.1 Mục tiêu 1.2 Đóng góp luận văn 1.2.1 Xây dựng kernel cho thuật toán SVM .9 1.2.2 Áp dụng kernel xây dựng cho toán phân loại ảnh 10 1.3 Các đóng góp khác liên quan 11 1.4 Cấu trúc luận văn 11 Chương 2.1 Thuật toán phân lớp dựa SVM 13 Học với kernel – Support Vector Machine (SVM) .13 2.1.1 Thuật toán phân lớp SVM 13 2.1.2 Kernel thuật toán phân lớp SVM 15 2.1.2.1 Đo độ tương đồng sử dụng kernel .15 2.1.2.2 Kernel xác định dương (Positive Definite Kernel) 16 2.1.2.3 Xây dựng không gian tái sinh kernel Hibert (Reproducting Kernel Hibert Space – RKHS) 17 2.2 Học với nhiều kernel – Multiple Kernel Learning (MKL) 19 2.2.1 SILP .20 2.2.2 Chương SimpleMKL 22 Phương pháp kernel 24 3.1 Mơ hình túi đặc trưng (Bag-of-feature model – BoF) 25 3.2 Các cải tiến mơ hình BoF .26 3.3 Phương pháp biểu diễn thưa (Sparse Coding) 28 Chương Hierarchical Spatial Matching Kernel 30 4.1 Kernel tháp không gian (Spatial Pyramid Matching Kernel – SPMK) 30 4.2 Kernel đề xuất: Hierarchical Spatial Matching Kernel 31 Chương 5.1 Thực nghiệm 36 Phân loại ảnh (Image categorization) 36 5.1.1 Giới thiệu toán phân loại ảnh 36 5.1.2 Ứng dụng phân loại ảnh 37 5.1.3 Những thách thức toán phân loại ảnh 38 5.1.4 Các hướng tiếp cận 38 5.1.4.1 Hướng tiếp cận dựa đặc trưng 39 5.1.4.2 Hướng tiếp cận dựa phương pháp học .39 5.2 Thực nghiệm 41 5.2.1 Phân loại đối tượng 42 5.2.1.1 Cơ sở liệu Oxford Flowers: 42 5.2.1.2 Cơ sở liệu CALTECH: .44 5.2.2 Phân loại cảnh (scene categorization) 48 5.2.3 Thí nghiệm Sparse Coding cho Hierarchical Spatial Matching Kernel (ScHSMK) .50 5.2.3.1 ScHSMK sở liệu Oxford Flower .50 5.2.3.2 ScHSMK sở liệu CALTECH-101 51 Kết luận kiến nghị 53 Kết luận 53 Kiến nghị 54 Danh mục cơng trình tác giả .55 Tài liệu tham khảo .56 Danh mục kí hiệu chữ viết tắt BoF Bag of feature C2F Coarse to fine MKL Multiple Kernel Learning HSMK Hierarchical Spatial Matching Kernel PMK Pyramid Matching Kernel SPM Spatial Pyramid Matching SPMK Spatial Pyramid Matching Kernel SVM Support Vector Machine Danh mục bảng Bảng 5.1: Bảng so sánh độ xác phân lớp (%) sử dụng đặc trưng cở sở liệu Oxford Flower (với NN ký hiệu cho thuật toán phân lớp láng giềng gần nhất: Nearest Neighbour) 42 Bảng 5.2: Bảng so sánh độ xác phân lớp (%) HSMK SPMK sở liệu Oxford Flower .44 Bảng 5.3: Bảng so sánh kết phân lớp sở liệu CALTECH-101 45 Bảng 5.4: Bảng so sánh độ xác phân lớp HSMK SPMK cở sở liệu CALTECH-101 .46 Bảng 5.5: Bảng so sánh kết phân lớp sở liệu CALTECH-256 48 Bảng 5.6: Bảng so sánh kết phân lớp sở liệu MIT Scene (8 lớp) 48 Bảng 5.7: Bảng so sánh kết phân lớp sở liệu MIT Scene 50 Bảng 5.8: Bảng so sánh kết phân lớp sử dụng Sparse Coding so với sử dụng vector quantization (Kmeans) Oxford Flower 51 Bảng 5.9: Bảng so sánh kết phân lớp sử dụng Sparse Coding so với sử dụng vector quantization (Kmeans) CALTECH-101 52 Danh mục hình vẽ, đồ thị Hình 1: Mơ hình tổng qt cho phương pháp kernel 24 Hình 2: Minh họa kernel HSMK áp dụng ảnh X Y với L=2 R=2 (a) Đầu tiên, HSMK chia ảnh thành 2l x 2l vùng với l=0, 1, SPMK (b) Tuy nhiên, HSMK sử dụng mơ hình coarse-to-fine cho vùng cách tính tốn độ tương đồng chuỗi resolution khác 2-r x 2-r với r = 0, 1, (c) Công thức (4.8) mà vector trọng số tính từ MKL với kernel có phân bố đồng sử dụng để xấp xỉ độ so khớp tối ưu vùng thay sử dụng mơ hình BoF SPMK .32 Hình 3: Mơ hình mối liên hệ thành phần (Pictorial) .40 Hình 4: Minh họa sở liệu Oxford Flower (17 lớp) 44 Hình 5: Minh họa sở liệu CALTECH-101 45 Hình 6: Minh họa sở liệu CALTECH-256 48 Hình 7: Minh họa sở liệu MIT-Scene (8 lớp) 50 MỞ ĐẦU Với bùng nổ liệu ảnh, việc phân loại ảnh thành lớp ngữ nghĩa nhu cầu cho việc quản lý truy vấn ảnh dựa nội dung ảnh Thêm nữa, phân loại ảnh toán lĩnh vực thị giác máy tính ứng dụng máy học nhận quan tâm nhiều nhà khoa học giới Bài tốn phân loại ảnh có nhiều thách thức từ việc ảnh chụp nhiều góc độ khác nhau, điều kiện chiếu sáng khác nhau, đa dạng thể lớp ngữ nghĩa phức tạp thông tin ảnh Để giải tốn phân loại ảnh có hai hướng tiếp cận dựa đặc trưng dựa phương pháp học Trong đó, hướng tiếp cận dựa phương pháp học mà đặc biệt nhánh tiếp cận dựa phương pháp kernel phương pháp áp dụng rộng rãi mang lại kết cao toán phân loại ảnh nói riêng lĩnh vực thị giác máy tính nói chung, tính mềm dẻo mô tả ảnh điều kiện phức tạp Do vậy, luận văn này, đề xuất kernel mới, đặt tên Hierarchical Spatial Matching Kernel (HSMK) áp dụng cho toán phân loại ảnh HSMK mơ hình cải tiến từ mơ hình Spatial Pyramid Maching (SPM), thay sử dụng mơ hình Bag-of-Feature (BoF) để mơ hình cho vùng (subregions), HSMK sử dụng mơ hình thơ mịn (coarse to fine – C2F) cho vùng mà thực hóa phương pháp multiresolution (tạm dịch nhiều loại phân giải), tức xem xét vùng chuỗi độ phân giải (resolution) khác nhau, vậy, miêu tả thông tin tổng quát vùng từ độ phân giải thô, thông tin chi tiết vùng độ phân giải mịn cách thức xem xét vùng đồ, để đạt độ đo tương đồng tốt vùng Từ thí nghiệm cho thấy, kernel đề xuất - HSMK cho hiệu tốt cho toán phân loại ảnh đạt kết tối ưu (state-of-theart) nhiều sở liệu chuẩn cho toán phân loại ảnh 45 khác sử dụng kết hợp nhiều loại đặc trưng thuật toán học phức tạp MKL linear programming boosting (LP-B) [12] Hình 5: Minh họa sở liệu CALTECH-1012 Bảng 5.4 cho thấy kết đạt từ HSMK tốt so với kết đạt từ SPMK Thêm nữa, thực thí nghiệm bỏ lớp HSMK đạt độ xác 78.4% cho trường hợp dùng lớp 30 mẫu để học Điều chứng tỏ, cách tiếp cận đề xuất có tính hiệu cao thực đơn giản so với cách tiếp cận đạt kết cao khác Bảng 5.3: Bảng so sánh kết phân lớp sở liệu CALTECH-101 Grauman & Darrell [13] Wang & Wang [34] Lazebnik et al [18] (mẫu học) 10 (mẫu học) 15 (mẫu học) 20 (mẫu học) 25 (mẫu học) 30 (mẫu học) 34.8% 44.0% 50.0% 53.5% 55.5% 58.2% - - 61.4% 56.4% - - 64.6% Cơ sở liệu CALTECH-101 cung cấp địa chỉ: http://www.vision.caltech.edu/Image_Datasets/Caltech101/101_ObjectCategories.tar.gz 46 Yang et al [36] Boimann et al [4] Gehler & Nowozin (MKL) [12] Gehler & Nowozin (LP-Beta) [12] Gehler & Nowozin (LP-B) [12] Phương pháp đề xuất (HSMK) 56.9% - 67.0% 72.8% - - 73.2% 79.1% 42.1% 55.1% 62.3% 67.1% 70.5% 73.7% 54.2% 65.0% 70.4% 73.6% 75.5% 77.8% 46.5% 59.7% 66.7% 71.1% 73.8% 77.2% 50.5% 62.2% 69.0% 72.3% 74.4% 77.3% Bảng 5.4: Bảng so sánh độ xác phân lớp HSMK SPMK cở sở liệu CALTECH-101 SPMK (M = 400) HSMK (M = 400) SPMK (M = 800) HSMK (M = 800) (mẫu học) 48.18% 50.68% 48.11% 50.48% 10 (mẫu học) 58.86% 61.97% 59.70% 62.17% 15 (mẫu học) 65.34% 67.91% 66.84% 68.95% 20 (mẫu học) 69.35% 71.35% 69.98% 72.32% 25 (mẫu học) 71.95% 73.92% 72.62% 74.36% 30 (mẫu học) 73.46% 75.59% 75.13% 77.33% Hình minh họa đa dạng thể đối tượng sở liệu CALTECH-256, hàng lớp sở liệu, CALTECH-256 phiên mở rộng CALTECH-101, không chuẩn hóa CALTECH-101 nên phức tạp lớn Và sở liệu CALTECH-256, tơi thực thí nghiệm với HSMK sử dụng 15 30 mẫu từ lớp cho việc học, bao gồm lớp (clutter class) 25 mẫu cho lớp cho việc kiểm tra, mẫu chọn ngẫu nhiên từ sở liệu CALTECH-256 Tơi lập trình lại thuật tốn SPMK [14] sử dụng đặc trưng SIFT với phân bố dày từ thí nghiệm tơi để so sánh công hiệu HSMK SPMK Như Bảng 5.5, HSMK cho độ xác phân lớp phần trăm so với độ xác SPMK 47 48 Hình 6: Minh họa sở liệu CALTECH-2563 Bảng 5.5: Bảng so sánh kết phân lớp sở liệu CALTECH-256 Kernel Griffin et al (SPMK) [14] Yang et al (ScSPM) [36] Gehler & Nowozin (MKL) [12] SPMK (với Dense SIFT) Phương pháp đề xuất (HSMK) 15 (mẫu học) 28.4% 27.7% 30.6% 25.3% 27.2% 30 (mẫu học) 34.2% 34.0% 35.6% 31.3% 34.1% 5.2.2 Phân loại cảnh (scene categorization) HSMK thí nghiệm cở sở liệu MIT Scene (gồm lớp) UIUC Scene (gồm 15 lớp) Trên sở liệu này, tơi chọn kích cở từ điển M = 400 Hình minh họa số mẫu cở sở liệu MIT Scene, hàng lớp, sở liệu UIUC Scene mở rộng MIT Scene, bao gồm lớp MIT Scene bổ sung thêm lớp nữa, UIUC Scene ảnh ảnh mức xám, MIT Scene chứa ảnh màu Trên cở sở liệu MIT Scene, chọn ngẫu nhiên 100 mẫu từ lớp cho việc huấn luyện chọn ngẫu nhiên 100 mẫu khác lớp cho việc kiểm thử Như Bảng 5.6, tỉ lệ phân lớp HSMK cao 2.5 phần trăm so với SPMK Cách tiếp cận đề xuất cho kết cao sơ với cách tiếp cận khác sử dụng đặc trưng cục [15] kết hợp nhiều đặc trưng cục [15] 10 phần trăm, tốt so với cách sử dụng đặc trưng toàn cục GIST [27] mà biết đặc trưng tốt việc phân loại cảnh Bảng 5.6: Bảng so sánh kết phân lớp sở liệu MIT Scene (8 lớp) Phương pháp GIST [27] Đặc trưng cục [15] Dense SIFT (SPMK) Dense SIFT (HSMK) Độ xác (%) 83.7 77.2 85.8 88.3 Cơ sở liệu CALTECH-256 cung cấp địa chỉ: http://www.vision.caltech.edu/Image_Datasets/Caltech256/ 49 50 Hình 7: Minh họa sở liệu MIT-Scene (8 lớp)4 Trên sở liệu UIUC Scene5, tơi thiết lập thí nghiệm miêu tả cơng trình Lazebnik đồng [18] Chọn ngẫu nhiên 100 mẫu từ lớp cho việc học kiểm tra tất mẫu lại sở liệu Từ Bảng 5.7 cho thấy, kết từ HSMK tốt so với kết SPMK [18] SPM dựa biểu diễn thưa (sparse coding) [36] Bảng 5.7: Bảng so sánh kết phân lớp sở liệu MIT Scene Phương pháp Lazebnik et al [18] Yang et al [36] SPMK Phương pháp đề xuất (HSMK) Độ xác (%) 81.4 80.3 79.9 82.2 5.2.3 Thí nghiệm Sparse Coding cho Hierarchical Spatial Matching Kernel (ScHSMK) Để nâng cao hiệu phân lớp, thay sử dụng Kmeans để thành lập từ điển, thông kê từ vựng, tơi thí nghiệm sử dụng mơ hình biểu diễn thưa (sparse coding) kết hợp với HSMK hai sở liệu phân loại đối tượng Oxford Flower CALTECH-101 5.2.3.1 ScHSMK sở liệu Oxford Flower Đối với sở liệu Oxford Flower, sử dụng kích cỡ từ điển M=800, q trình tính HSMK, tơi thí nghiệm với trường hợp dùng kernel tuyến tính (tích nội) thay cho cơng thức (4.2) – intersection kernel gọi Linear Hierarchial Spatial Matching Kernel (HSMK-L), tham số thí nghiệm khác sử dụng phần 5.2.1.1 Bảng 5.8 cho thấy kết phân lớp sử dụng biểu diễn thựa Cơ sở liệu MIT-Scene cung cấp địa chỉ: http://people.csail.mit.edu/torralba/code/spatialenvelope/spatial_envelope_256x256_static_8outd oorcategories.zip Cơ sở liệu UIUC-Scene cung cấp địa chỉ: http://www-cvr.ai.uiuc.edu/ponce_grp/data/scene_categories/scene_categories.zip 51 (Sparse Coding) cho kết tốt so với sử dụng lượng tử hóa vector (vector quantization) (ví dụ sử dụng thuật toán Kmeans) Trong trường hợp sử dụng biểu diễn thựa (sparse coding) HSMK tốt so với SPMK khoảng phần trăm sử dụng kernel tuyến tính hay intersection kernel cho tính tốn vùng công thức (4.2) Thêm từ Bảng 5.8, ta thấy biểu diễn thựa (sparse coding) có xu hướng làm cho đặc trưng đạt tính tuyến tính nhiều so với lượng tử hóa vector (vector quantization), nên ta thay intersection kernel kernel tuyến tính, kết không thay đổi đáng kể Bảng 5.8: Bảng so sánh kết phân lớp sử dụng Sparse Coding so với sử dụng vector quantization (Kmeans) Oxford Flower Phương pháp SPMK Sparse Code + SPMK + Linear kernel (ScSPMK-L) Sparse Code + SPMK + Intersection kernel (ScSPMK) HSMK Sparse Code + HSMK + Linear Kernel (ScHSMK-L) Sparse Code + HSMK + Intersection kernel (ScHSMK) 5.2.3.2 Độ xác (%) 69.12 71.18 73.09 72.94 73.82 75.00 ScHSMK sở liệu CALTECH-101 Đối với sở liệu CALTECH-101, sử dụng hai loại kích cỡ từ điển M=400 M=800 Và thí nghiệm cho hai trường hợp số lượng mẫu học 15 30 mẫu học cho lớp, tham số khác thí nghiệm phần 5.2.1.2 sở liệu CALTECH-101 Tơi thực thí nghiệm với trường hợp dùng kernel tuyến tính (tích nội) thay cho cơng thức (4.2) – intersection kernel thí nghiệm phần 5.2.3.1 Bảng 5.9 cho thấy HSMK với biễu diễn thựa (Sparse coding) đạt kết tối ưu (state of the art) sở liệu CALTECH-101 HSMK tốt SPMK khoảng đến phần trăm với phương pháp tạo từ vựng lượng tử hóa vector (vector quantization) hay biểu diễn thưa (sparse coding), sử dụng kernel tuyến tính hay intersection kernel Khi sử dụng 52 biểu diễn thưa (sparse coding) kết cải thiện so với sử dụng lượng tử hóa vector (vector quantization), điều giải thích qua cơng thức tối ưu trình bày phần Biểu diễn thựa (Sparse coding) làm cho đặc trưng trở nên tuyến tính hơn, thấy kết phân lớp sử dụng biểu diễn thưa (sparse coding) với kernel tuyến tính, ta thu kết tốt ngang với sử dụng lượng tử hóa vector (vector quantization) với intersection kernel Bảng 5.9: Bảng so sánh kết phân lớp sử dụng Sparse Coding so với sử dụng vector quantization (Kmeans) CALTECH-101 SPM (M=400) HSMK (M=400) SPM (M=800) HSMK (M=800) Vector quantization Sparse coding + linear kernel Sparse coding + intersection kernel Vector quantization Sparse coding + linear kernel Sparse coding + intersection kernel Vector quantization Sparse coding + linear kernel Sparse coding + intersection kernel Vector quantization Sparse coding + linear kernel Sparse coding + intersection kernel Boimain et al [4] 30 mẫu học 73.46 73.54 75.68 75.59 77.15 79.02 75.13 75.52 76.96 77.33 78.93 15 mẫu học 65.34 67.91 66.84 68.95 72.14 80.60 79.1 73.44 72.8 53 Kết luận kiến nghị Kết luận Tôi đề xuất kernel tốt hiệu gọi hierarchical spatial matching kernel (HSMK) HSMK sử dụng mơ hình thơ mịn (coarse to fine – C2F) vùng để cải thiện spatial pyramid matching kernel (SPMK), HSMK mô tả vùng tốt dựa nhiều thông tin vùng lân cận thông qua chuỗi độ phân giải (resolution) khác nhau, mô tả thông tin tổng quát resolution thô, thông tin chi tiết vùng độ phân giải (resolution) mịn Thêm nữa, kernel HSMK có khả xử lý tốt tập hợp đặc trưng không thứ tự SPMK pyramid matching kernel (PMK) tập hợp có số phần tử khác Sự kết hợp kernel đề xuất với đặc trưng cục có phân bố dày (dense local feature) cho thấy đạt hiệu cao Mơ hình cho phép đạt kết tương ứng kết tốt (state-of-the-art) so với cách tiếp cận khác tồn nhiều loại sở liệu từ phân loại đối tượng Oxford Flower, CALTECH-101, CALTECH-256, đến sở liệu phân loại cảnh MIT Scene, UIUC Scene Hơn nữa, phương pháp đề xuất đơn giản sử dụng loại đặc trưng cục với SVM phi tuyến, cac phương pháp tiếp cận khác gần phức tạp nhiều mà dựa multiple kernel learning (MKL) kết hợp nhiều loại đặc trưng (feature combinations) Trên sở liệu chuẩn phân loại đối tượng phân loại cảnh, cách tiếp cận đề xuất cho kết tốt SPMK Thêm nữa, SPMK thành phần quan trọng nhiều hệ thống đạt kết tốt nay, ví dụ dùng việc xây dựng kernel mơ hình học MKL Điều có nghĩa ta thay SPMK HSMK để tăng độ xác hệ thống xây dựng dựa kernel Khi sử dụng biểu diễn thưa (Sparse coding) thay cho lượng tử hóa vector (vector quantization) tính hiệu HSMK cải thiện thêm nữa, đạt kết 54 tối ưu sở liệu CALTECH-101 (cơ sở liệu quan cho việc đánh giá phân loại ảnh) Kiến nghị Nghiên cứu mặt lý thuyết ảnh hưởng mơ hình thơ mịn (coarse to fine – C2F) cho việc biễu diễn ảnh xây dựng kernel Nghiên cứu lý thuyết tác động biểu diễn thựa (sparse coding) lên nhiều độ phân giải (multi-resolution) HSMK 55 Danh mục cơng trình tác giả6 Trong nước: [1] Lê Thanh Tâm, Trần Thái Sơn, Seiichi Mita (2009), “Phát phân loại biển báo giao thông dựa SVM thời gian thực,” Hội nghị Công Nghệ Thông Tin Truyền Thơng (ICTFIT), Thành phố Hồ Chí Minh, Việt Nam Quốc tế: [1] Tam T Le, Son T Tran, Seiichi Mita, Thuc D Nguyen (2010), “Realtime Traffic Sign Detection Using Color and Shape-Based Features,” The 2nd Asian Conference on Intelligent Information and Database Systems, Lecture Notes in Artificial Intelligence 5991, Hue, Vietnam [2] Tam T Le, Yousun Kang, Akihiro Sugimoto, Son T Tran, Thuc D Nguyen (2011), “Hierarchical Spatial Matching Kernel for Image Categorization,” International Conference on Image Analysis and Recognition (ICIAR), Burnaby, BC, Canada (accepted) Các báo http://sites.google.com/site/lttamvn lưu trữ trang web nghiên cứu cá nhân: 56 Tài liệu tham khảo Tiếng Anh [1] N Aronszajn (1950), “Theory of reproducing kernels,” Transaction American Mathematics Society, vol 68:337-404 [2] S Boyd, and L Vandenberghe (2004), “Convex Optimization,” Cambridge University Press, Cambridge, England [3] C Cortes, and V Vapnik (1995), “Support Vector Networks,” in Machine Learning, vol 10(3):273-297 [4] O Boiman, E Shechtman, and M Irani (2008),"In defense of nearestneighbor based image classiffication," in CVPR [5] N Dalal and B Triggs (2005),"Histograms of oriented gradients for human detection," in Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition [6] C Dance, J Willamowski, L Fan, C Bray, and G Csurka (2004),"Visual categorization with bags of keypoints," in ECCV International Workshop on Statistical Learning in Computer Vision [7] L Fei-Fei, R Fergus, and P Perona (2004),"Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories," in Workshop on Generative-Model Based Vision [8] Li Fei-Fei and P Perona (2005),"A bayesian hierarchical model for learning natural scene categories," in Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), Washington, DC, USA, p Volume [9] P Felzenszwalb, D Mcallester, and D Ramanan (June 2008),"A discriminatively trained, multiscale, deformable part model," in IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), Anchorage, Alaska 57 [10] R Fergus, P Perona, and A Zisserman (2003),"Object class recognition by unsupervised scale-invariant learning," in IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol [11] M Fischler and R Elschlager (1973)"The representation and matching of pictorial structures," IEEE Transactions on Computers, pp 67-92 [12] P Gehler and S Nowozin (2009),"On feature combination for multiclass object classiffication," in ICCV, pp 221-228 [13] K Grauman and T Darrell (2005),"The pyramid match kernel: discriminative classiffication with sets of image features," in ICCV, pp 1458-1465 [14] G Griffin, A Holub, and P Perona (2007)"Caltech-256 object category dataset," Technical Report 7694, California Institute of Technology, USA [15] M Johnson (2008), "Semantic Segmentation and Image Search," PhD Thesis, University of Cambridge, UK [16] M Kloft, U Brefeld, P Laskov, and S Sonnenburg (2008),"Non-sparse multiple kernel learning," in NIPS Workshop on Kernel Learning: Automatic Selection of Kernels [17] R.I Kondor and T Jebara (2003),"A kernel between sets of vectors," in ICML, pp 361-368 [18] G R G Lanckriet, N Cristianini, P Bartlett, L E Ghaoui, and M Jordan (2004), “Learning the Kernel Matrix with Semidefinite Programming,” in Journal of Machine Learning Research, vol 5:27-72 [19] S Lazebnik, C Schmid, and J Ponce (2006),"Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories," in CVPR, vol [20] David G Lowe (2004)"Distinctive Image Features from Scale-Invariant keypoints," International Journal of Computer Vision, vol 60 (2): pp 91110 58 [21] David G Lowe (1999),"Object recognition from local scale-invariant features," in International Conference on Computer Vision, Corfu, Greece [22] J Mairal, F Bach, J Ponce, and G Sapiro (2009),"Online dictionary learning for sparse coding," in ICML, pp 689-696 [23] S Maji, A Berg, and J Malik (2008),"Classiffication using intersection kernel support vector machines is efficient," in CVPR, pp 1-8 [24] F Moosmann, B Triggs, and F Jurie (2008),"Randomized clustering forests for building fast and discriminative visual vocabularies," in NIPS Workshop on Kernel Learning: Automatic Selection of Kernels [25] M.E Nilsback and A Zisserman (2006),"A visual vocabulary for ower classiffication," in CVPR, vol 2, pp 1447-1454 [26] M.E Nilsback and A Zisserman (2008),"Automated ower classiffication over a large number of classes," in ICVGIP [27] A Oliva and A Torralba (2001)"Modeling the shape of the scene: A holistic representation of the spatial envelope," in IJCV, pp 145-175 [28] A Rakotomamonjy, F Bach, Y Grandvalet, and S Canu (2008) “SimpleMKL,” in Journal of Machine Learning Research, vol 9:24912521 [29] B Scholkopf, and A.J Smola (2002) “Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond,” MIT Press, Cambridge, MA, USA [30] S Sonnenburg, G Ratsch, C Schafer, and B Scholkopf (2006) “Large Scale Multiple Kernel Learning,” in Journal of Machine Learning Research [31] V Vapnik, and A Lerner (1963), “Pattern recognition using generalized portrait method”, in Automation and Remote Control, 24, 774-780 [32] V Vapnik, and A Chervonenkis (1964), “A note on one class of perceptrons”, in Automation and Remote Control, 25 59 [33] M Varma and D Ray (2007),"Learning the discriminative powerinvariance trade-off," in IEEE 11th International Conference on Computer Vision [34] S.C Wang and Y.C.F Wang (2010),"A multi-scale learning framework for visual categorization," in ACCV [35] L Yang, R Jin, R Sukthankar, and F Jurie (2008),"Unifying discriminative visual code-book generation with classiffier training for object category recognition," in CVPR, Los Alamitos, CA, USA, vol 0, pp 1-8 [36] J Yang, K Yu, Y Gong, and T Huang (2009),"Linear spatial pyramid matching using sparse coding for image classiffication," in CVPR, pp 1794-1801 [37] Q Yuan, A Thangali, V Ablavsky, and S Sclaroff (2008),"Multiplicative kernels: Object detection, segmentation and pose estimation," in Computer Vision and Pattern Recognition ... đối tượng 5.1.4 Các hướng tiếp cận Có hai hướng tiếp cận cho tốn phân loại ảnh: (i) dựa đặc trưng, (ii) dựa phương pháp học để phân loại đối tượng 39 5.1.4.1 Hướng tiếp cận dựa đặc trưng Trong... xuất vào toán phân loại ảnh lĩnh vực thị giác máy tính Trong đó, tốn phân loại đối tượng phân loại cảnh hai thể cụ thể toán phân loại ảnh thực nghiệm dựa việc áp dụng kernel đề xuất để phân lớp 1.2... loại ảnh (Image categorization) 36 5.1.1 Giới thiệu toán phân loại ảnh 36 5.1.2 Ứng dụng phân loại ảnh 37 5.1.3 Những thách thức toán phân loại ảnh 38 5.1.4 Các hướng tiếp

Ngày đăng: 06/01/2023, 11:19