Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
1,24 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN MAI TIẾN DŨNG PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI ẢNH VỚI SỐ LƯỢNG LỚP LỚN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH – 2017 Cơng trình hồn thành tại: TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Người hướng dẫn khoa học: GS.TSKH HOÀNG VĂN KIẾM Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường : vào lúc ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt nam - Thư viện Trường Đại học Công nghệ Thông tin – Đại học Quốc gia Tp Hồ Chí Minh Mục lục Mục lục Chương TỔNG QUAN 1.1 Giới thiệu tóm tắt cơng trình nghiên cứu 1.2 Động lực nghiên cứu 1.3 Mục đích, đối tượng phạm vi nghiên cứu 1.4 Ý nghĩa khoa học thực tiễn đề tài 1.5 Bố cục luận án 4 6 Chương CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu toán 2.1.1 Bài toán đa phân lớp 2.1.2 Bài toán phân loại ảnh với số lượng lớp lớn 2.2 Những vấn đề thách thức 2.2.1 Dữ liệu lớn 2.2.2 Các phương pháp phân loại 2.2.3 Biểu diễn ảnh 2.2.4 Độ xác 2.2.5 Chi phí phân loại 2.2.6 Cân độ xác chi phí thực 2.3 Những cơng trình nghiên cứu liên quan 2.3.1 Hướng tiếp cận phẳng 2.3.2 Hướng tiếp cận dựa cấu trúc phân cấp 2.3.3 Hướng tiếp cận khác 2.4 Một số vấn đề thách thức tồn 2.5 Mục tiêu luận án 9 9 9 10 10 10 11 11 11 11 11 12 12 13 Chương 3.1 3.2 3.3 3.4 PHÂN LOẠI DỰA TRÊN CẤU TRÚC CÂY PHÂN CẤP Giới thiệu Xây dựng phân cấp cân 3.2.1 Tổng quan phân cấp 3.2.2 Xây dựng phân cấp cân dựa tất ảnh ảnh trung bình 3.2.3 Xây dựng phân cấp cân dựa tương đồng lớp 3.2.4 So sánh tính hiệu phương pháp đề xuất Duyệt dựa thông tin nút 3.3.1 Các cách tiếp cận có 3.3.2 Các mối quan hệ nút 3.3.3 Xây dựng mơ hình chọn nhánh ứng viên 3.3.4 Quá trình thực phân loại 3.3.5 Thí nghiệm Tổng kết chương 15 20 24 25 25 25 26 27 28 28 Chương 4.1 4.2 4.3 4.4 4.5 4.6 PHÂN LOẠI DỰA TRÊN BỘ PHÂN LỚP TIỀM ẨN Giới thiệu Ý tưởng phương pháp đề xuất Xây dựng phân lớp tiềm ẩn 4.3.1 Mô tả phương pháp 4.3.2 Thuật toán huấn luyện 4.3.3 Thuật toán phân loại Thực nghiệm 4.4.1 Thiết lập thực nghiệm 4.4.2 Kết thực nghiệm So sánh với phương pháp phân loại dựa phân cấp đề xuất Tổng kết chương 14 14 15 15 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận 29 29 29 30 30 32 32 34 34 34 37 37 38 38 5.1.1 5.1.2 5.2 Những kết đạt Những ưu điểm hạn chế pháp đề xuất Hướng phát triển DANH MỤC CÔNG BỐ KHOA HỌC phương 38 38 39 40 Chương 1.1 TỔNG QUAN Giới thiệu tóm tắt cơng trình nghiên cứu Phân loại (còn gọi đa phân lớp) ảnh với số lượng lớp lớn (hàng trăm đến hàng chục nghìn lớp) tốn quan trọng lĩnh vực máy học thị giác máy tính, có nhiều ứng dụng thực tiễn truy xuất ảnh video, tổ chức quản lý phân lớp tự động nội dung ảnh video, thành phần toán phức tạp toán hiểu tự động gán nhãn, mô tả nội dung ảnh video khái niệm, Trong luận án này, nghiên cứu sinh nghiên cứu phát triển số thuật toán hiệu để giải vấn đề thách thức bài toán phân loại ảnh với số lượng lớn lớp Cụ thể sau: Phát triển phương pháp xây dựng cấu trúc phân cấp cân có độ xác cao hiệu chi phí phân lớp Cấu trúc cân nhằm đảm bảo độ dài đường từ nút gốc đến nút tương đương nhau, giúp nâng cao tính hiệu chi phí phân lớp Để tăng độ xác phân lớp, tất ảnh ảnh trung bình lớp sử dụng xây dựng Mục đích khai thác yếu tố đa dạng ảnh lớp tính đại diện cho lớp phân chia lớp vào nhánh Điều giúp cải thiện khả dự đoán phân lớp nút làm tăng độ xác phân lớp Cả hai yếu tố cân độ xác xét kết hợp trình xây dựng Kết thực nghiệm tập liệu chuẩn chứng minh phương pháp đề xuất hiệu so phương pháp khác Nội dung phương pháp công bố hội thảo ICIAP-2015 [CT.3] tạp chí CVIU [CT.2] Nội dung chi tiết đóng góp trình bày chương luận án Phát triển phương pháp xây dựng cấu trúc phân cấp cân dựa tương đồng lớp Để đảm bảo độ xác phân lớp nút, lớp tương đồng với nên phân vào nút Sự tương đồng hai lớp xác định dựa phương pháp sum match kernel (được tính trực tiếp dựa vector đặc trưng) mà không dựa vào phân lớp nhị phân OvA phương pháp khác Mặc dù phương pháp hiệu có độ phức tạp tính toán cao Hạn chế khắc phục cách sử dụng phương pháp ánh xạ đặc trưng để chuyển đặc trưng qua khơng gian Khi tương đồng hai lớp xác định dựa ảnh trung bình hai lớp khơng gian Ngồi ra, để giảm chi phí thực phân lớp, nghiên cứu sinh đề xuất phương pháp cân số lượng lớp nhánh để tạo cấu trúc cân Nội dung nghiên cứu trình bày chi tiết chương công bố hội thảo quốc tế ATC-2015 [CT.4] tạp chí JCC-2016 [CT.1] Phát triển phương pháp phân loại dựa thông tin nút nhằm hạn chế vấn đề lan truyền lỗi nâng cao độ xác phân lớp Trong nghiên cứu này, nghiên cứu sinh đề xuất cách tiếp cận cách xét đến mối quan hệ nút ứng viên với nút mối quan hệ nút ứng viên với để lựa chọn nút ứng viên Các thực nghiệm tiến hành cấu trúc chứng minh độ xác phân lớp theo phương pháp đề xuất đạt kết tốt so với phương pháp duyệt khác Nội dung chi tiết phương pháp trình bày chương công bố hội thảo ICIP-2016 [CT.6] Đề xuất phương pháp phân loại dựa phân lớp tiềm ẩn Một giới hạn cấu trúc phân cấp điều chỉnh độ xác chi phí phân lớp cho sử dụng tốt tài nguyên có hệ thống để đạt độ xác tốt Lý cấu trúc cố định sau xây dựng Trong phương pháp OvA có chi phí tuyến tính với số lớp Trong luận án này, nghiên cứu sinh đề xuất phương pháp dựa kỉ thuật xấp xỉ ma trận bậc thấp để chuyển toán đa phân lớp không gian với số lượng lớp lớn tốn phân đa lớp khơng gian có số lượng lớp nhỏ Từ kết phân lớp không gian nhỏ này, ta thực phép kết hợp ma trận để tạo kết phân lớp không gian ban đầu Bằng cách này, chọn số phân lớp tương ứng để sử dụng tốt tài nguyên hệ thống nhằm đạt độ xác tốt Nội dung nghiên cứu trình bày chi tiết chương công bố hội thảo MMSP-2015 [CT.5] 1.2 Động lực nghiên cứu Bài toán phân loại ảnh với số lượng lớp lớn toán quan trọng lĩnh vực thị giác máy tính có nhiều ứng dụng phát đối tượng, phân lớp tự động, tổ chức quản lý truy xuất ảnh-video, gán thích mơ tả nội dung ảnh-video, Tuy nhiên, độ phức tạp phân loại phương pháp thông thường (chẳng hạn phương pháp OvA) tỉ lệ với số lượng lớp, trường hợp số lượng lớp lớn làm hạn chế khả ứng dụng phương pháp thực tiễn Một số phương pháp phân loại dựa cấu trúc phân cấp có chi phí phân loại thấp, nhiên dùng số lượng nhỏ phân lớp để phân loại ảnh, nên độ xác thường giảm so với phương pháp OvA Ngoài ra, làm để xây dựng tối ưu khắc phục việc lan truyền lỗi vấn đề thách thức 1.3 Mục đích, đối tượng phạm vi nghiên cứu • Mục đích nghiên cứu: Nghiên cứu phát triển phương pháp phân lớp với số lượng lớp lớn hiệu chi phí thực phân lớp đạt độ xác phân lớp cao • Đối tượng nghiên cứu: Đối tượng nghiên cứu luận án toán phân loại (đa phân lớp) trường hợp số lượng lớp lớn • Phạm vi nghiên cứu: Phạm vi nghiên cứu giới hạn tập liệu ảnh có số lượng lớp lớn Trong đó: – Khái niệm lớp ảnh sử dụng luận án hiểu tập ảnh có nội dung liên quan đến khái niệm ngữ nghĩa hiểu người Các khái niệm thường biểu diễn danh từ chung danh từ riêng với nhiều mức độ ngữ nghĩa loại khác (ví dụ Object, Scene, Event, Artifacts, People, ) – Số lượng lớp (large-scale) xét nghiên cứu từ vài trăm đến vài chục nghìn lớp Các thực nghiệm tiến hành tập liệu cộng đồng nghiên cứu thừa nhận sử dụng liên quan đến toán phân loại với số lượng lớp lớn 1.4 Ý nghĩa khoa học thực tiễn đề tài • Nội dung nghiên cứu sinh thực luận án nghiên cứu đề xuất số phương pháp để giải thách thức toán phân loại ảnh với số lượng lớp lớn Nghiên cứu sinh đề xuất phương pháp phân lớp tiềm ẩn phương pháp cải tiến tiếp cận phân cấp nhằm nâng cao độ xác giảm chi phí tính tốn thực phân loại với số lượng lớp lớn Thực nghiệm tiến hành kiểm chứng tập liệu chuẩn quốc tế, kết có tính xác thực cao Các phương pháp đề xuất công bố hội thảo tạp chí chun ngành có uy tín phản biện độc lập • Hệ thống phân loại ảnh có độ xác cao chi phí tính tốn hợp lý có nhiều hỗ trợ hữu hiệu ứng dụng thực tế như: truy vấn ảnh-video; tổ chức, quản lý liệu ảnh-video; gán thích ảnh-video; hiểu diễn đạt nội dung ảnh-video, • Hiện nay, hệ phân lớp ảnh dựa vào mạng học sâu đạt nhiều tiến đáng kể số phương pháp phương pháp One-versus-All (OvA) thực song song Tuy nhiên, thấy: – Mục tiêu phương pháp OvA song song giảm thời gian thực phân lớp chi phí tính tốn để thực phân lớp cho ảnh không giảm Với phương pháp đề xuất luận án (chẳng hạn phương pháp dựa phân lớp tiềm ẩn), khơng giảm chi phí tính tốn cách điều chỉnh số lượng phân lớp tiềm ẩn để đạt hiệu suất tối ưu mà cịn thực song song phương pháp OvA – Trong hệ phân lớp ảnh dựa vào mạng học sâu (như mạng AlexNet, VGG-VERYDEEP, GoogLeNet ) chức lớp mạng cuối thực thao tác phân loại phương pháp OvA, chi phí phân loại cho ảnh lớp mạng tỉ lệ tuyến tính với số lượng lớp ảnh Ảnh hưởng lớn mạng học sâu toán phân loại ảnh mặt học đặc trưng tự động, phương pháp phân loại Trong đó, mục tiêu luận án phương pháp phân loại chi phí tính tốn phân loại Các đặc trưng học sâu hồn tồn tích hợp vào phương pháp đề xuất nhằm nâng cao hiệu phân loại 1.5 Bố cục luận án Nội dung luận án bố cục gồm chương tài liệu tham khảo Chương 1: Tổng quan, Chương 2: Cơ sở lý thuyết, Chương 3: Phân loại dựa cấu trúc phân cấp, Chương 4: Phân loại dựa phân lớp tiềm ẩn Chương 5: Kết luận hướng phát triển pvi (x) với nút lại vk ∈ ψ(v), k = i Vector có dạng sau: ρvi (x) = [pvi (x), pvi (x) − pv1 (x), , pvi (x) − pv|ψ(v)| (x)] (3.13) Khi đó, vector ϕi,j (x) mô tả mối quan hệ nút vi với nút anh em vi nút vi biểu diễn sau: ϕi,j (x) = [ρvi (x), ρvi,j (x)] (3.14) Vector ϕi,j (x) biểu diễn cho nhánh ứng viên từ nút vi đến nút vi,j 3.3.3 Xây dựng mơ hình chọn nhánh ứng viên Với nút vi nút nút v, có tập nhánh ứng viên qua nút vi : γvi (x) = {ϕi,1 (x), ϕi,2 (x), , ϕi,|ψ(vi )| (x)} (3.15) Theo cách này, nút v ta có danh sách tập nhánh ứng viên γvi (x) Bài toán chọn nút vi giải dạng tối ưu max margin Cho trước ảnh x gán nhãn y Một nhánh ứng viên biểu biễn vector ϕi,j (x) Vector gán nhãn dương y ∈ (vi ) y ∈ (vi,j ), ngược lại, vector gán nhãn âm Một tập γvi (x) chứa tất nhánh ứng viên qua vi gán nhãn dương có chứa nhánh ứng viên dương Ngược lại, tập γvi (x) gán nhãn âm Gọi Γ+ v danh sách chứa tất tập γvi (.) có nhãn dương − Γv danh sách chứa tất tập γvi (.) có nhãn âm Khi đó, tìm hàm margin với tham số (wv , bv ) để tối đa hóa khoảng − cách Γ+ v Γv Hàm mục tiêu biểu diễn dạng công thức tổng quát sử 26 dụng soft margin SVM sau: minimize subject to yi (wvT xi wv 2 ξik +C i + b) ≥ − ξi and ξi ≥ C giá trị , {ξi } biến không âm Để hạn chế mức độ ảnh hưởng outlier/error có hệ số ξ lớn tập huấn luyện, ta chọn giá trị k = 1, trường hợp 1-norm soft margin Khi cơng thức viết lại sau: wv ,bv ,{ξi } wv 2 +C ξi (3.16) ∀i = 1, , |Γ+ v |, ξi ≥ (3.17) i theo điều kiện: max (wvT · γ + bv ) ≥ − ξi , γ∈Γ+ v max (wvT · γ + bv ) ≤ −1 + ξj , γ∈Γ− v ∀j = 1, , |Γ− v |, ξj ≥ (3.18) Bài toán tối ưu giải theo phương pháp multipleinstance learning (MIL) Kết ta có mơ hình tương ứng với hai tham số (wv , bv ) Mơ hình sử dụng để ước lượng nút ứng viên tương ứng 3.3.4 Quá trình thực phân loại Phân loại ảnh x cách duyệt nút gốc đến nút Tại nút v đường đi, ta tính danh sách Γxv chứa |ψ(v)| tập nhánh ứng viên qua nút vi , vi ∈ ψ(v) Γxv = {γv1 (x), , γv|ψ(v)| (x)} (3.19) Sử dụng mơ hình tương ứng với lời giải phương trình (3.16) nút v, ta chọn nút nút có giá trị dự đốn lớn nhất: γ˜ = arg maxx (wvT · γ + bv ) γ∈Γv 27 (3.20) Bảng 3.10: So sánh hiệu phương pháp tập liệu ILSVRC2010-1K 3.3.5 Phương pháp T32 T10 T6 T4 Baseline ER-SHC Traverse-MIL 7.32 7.70 12.68 6.01 5.70 8.48 5.52 5.12 6.76 5.12 4.66 6.04 Thí nghiệm Với cấu trúc TQ , Q số nút tối đa nút, chúng tơi áp dụng cách duyệt sau: • Baseline: phương pháp duyệt bản: nút chọn nút có giá trị dự đốn cao • ER-SHC: phương pháp cải tiến Zhu cộng (CVIU2014) • Traverse-MIL: phương pháp đề xuất nghiên cứu Các thực nghiệm tiến hành tập liệu Caltech-256, SUN-397, ILSVRC2010-1K Vector đặc trưng sử dụng BOWSIFT-LLC-SPM phân chia liệu tương tự thực nghiệm trước Các kết thực nghiệm tập liệu ILSVRC2010-1K với cấu hình khác liệt kê bảng 3.10 chứng minh độ xác phân loại phương pháp đề xuất cao so với phương pháp khác 3.4 Tổng kết chương Chương trình bày cách chi tiết phương pháp xây dựng phương pháp duyệt dựa mối quan hệ nút Các kết thực nghiệm tập liệu chuẩn Caltech-256, SUN-397, ILSVRC2010-1K ImageNet-10K chứng minh tính hiệu phương pháp đề xuất so với phương pháp liên quan 28 Chương PHÂN LOẠI DỰA TRÊN BỘ PHÂN LỚP TIỀM ẨN Tóm tắt Chương giới thiệu cách tiếp cận dùng phân lớp tiềm ẩn Đây phương pháp đề xuất sở theo ý tưởng giảm thiểu số lần gọi thực thi phân lớp, mà cách tiếp cận dùng phân cấp giải pháp Trong cách tiếp cận này, phương pháp xấp xỉ ma trận bậc thấp sử dụng để chuyển không gian ban đầu gồm C lớp sang không gian gồm L lớp tiềm ẩn, giá trị L