1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn

42 45 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 42
Dung lượng 1,24 MB

Nội dung

Mục đích nghiên cứu đề tài Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn nhằm Nghiên cứu và phát triển các phương pháp phân lớp với số lượng lớp lớn hiệu quả về chi phí thực hiện phân lớp và đạt được độ chính xác phân lớp cao.

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN MAI TIẾN DŨNG PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI ẢNH VỚI SỐ LƯỢNG LỚP LỚN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH – 2017 Cơng trình hồn thành tại: TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Người hướng dẫn khoa học: GS.TSKH HOÀNG VĂN KIẾM Phản biện 1: PGS.TS Lý Quốc Ngọc Phản biện 2: TS Lê Thành Sách Phản biện 3: PGS.TS Hồ Bảo Quốc Phản biện độc lập 1: PGS.TS Lê Thị Lan Phản biện độc lập 2: TS Trần Thái Sơn Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường tại: Phòng A116, trường Đại học Công nghệ thông tin – ĐHQG-HCM, vào lúc 14 ngày 20 tháng 12 năm 2017 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt nam - Thư viện Trường Đại học Công nghệ Thông tin – ĐHQG-HCM Mục lục Mục lục Chương TỔNG QUAN 1.1 Giới thiệu tóm tắt cơng trình nghiên cứu 1.2 Động lực nghiên cứu 1.3 Mục đích, đối tượng phạm vi nghiên cứu 1.4 Ý nghĩa khoa học thực tiễn đề tài 1.5 Bố cục luận án 4 6 Chương CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu toán 2.1.1 Bài toán đa phân lớp 2.1.2 Bài toán phân loại ảnh với số lượng lớp lớn 2.2 Những vấn đề thách thức 2.2.1 Dữ liệu lớn 2.2.2 Các phương pháp phân loại 2.2.3 Biểu diễn ảnh 2.2.4 Độ xác 2.2.5 Chi phí phân loại 2.2.6 Cân độ xác chi phí thực 2.3 Những cơng trình nghiên cứu liên quan 2.3.1 Hướng tiếp cận phẳng 2.3.2 Hướng tiếp cận dựa cấu trúc phân cấp 2.3.3 Hướng tiếp cận khác 2.4 Một số vấn đề thách thức tồn 2.5 Mục tiêu luận án 9 9 9 10 10 10 11 11 11 11 11 12 12 13 Chương 3.1 3.2 3.3 3.4 PHÂN LOẠI DỰA TRÊN CẤU TRÚC CÂY PHÂN CẤP Giới thiệu Xây dựng phân cấp cân 3.2.1 Tổng quan phân cấp 3.2.2 Xây dựng phân cấp cân dựa tất ảnh ảnh trung bình 3.2.3 Xây dựng phân cấp cân dựa tương đồng lớp 3.2.4 So sánh tính hiệu phương pháp đề xuất Duyệt dựa thông tin nút 3.3.1 Các cách tiếp cận có 3.3.2 Các mối quan hệ nút 3.3.3 Xây dựng mơ hình chọn nhánh ứng viên 3.3.4 Quá trình thực phân loại 3.3.5 Thí nghiệm Tổng kết chương 15 20 22 23 23 24 24 25 26 26 Chương 4.1 4.2 4.3 4.4 4.5 4.6 PHÂN LOẠI DỰA TRÊN BỘ PHÂN LỚP TIỀM ẨN Giới thiệu Ý tưởng phương pháp đề xuất Xây dựng phân lớp tiềm ẩn 4.3.1 Mô tả phương pháp 4.3.2 Thuật toán huấn luyện 4.3.3 Thuật toán phân loại Thực nghiệm 4.4.1 Thiết lập thực nghiệm 4.4.2 Kết thực nghiệm So sánh với phương pháp phân loại dựa phân cấp đề xuất Tổng kết chương 14 14 15 15 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận 30 30 30 31 31 33 33 35 35 35 38 38 39 39 5.1.1 5.1.2 5.2 Những kết đạt Những ưu điểm hạn chế pháp đề xuất Hướng phát triển DANH MỤC CÔNG BỐ KHOA HỌC phương 39 39 40 41 Chương 1.1 TỔNG QUAN Giới thiệu tóm tắt cơng trình nghiên cứu Phân loại (còn gọi đa phân lớp) ảnh với số lượng lớp lớn (hàng trăm đến hàng chục nghìn lớp) toán quan trọng lĩnh vực máy học thị giác máy tính, có nhiều ứng dụng thực tiễn truy xuất ảnh video, tổ chức quản lý phân lớp tự động nội dung ảnh video, thành phần tốn phức tạp toán hiểu tự động gán nhãn, mô tả nội dung ảnh video khái niệm, Trong luận án này, nghiên cứu sinh nghiên cứu phát triển số thuật toán hiệu để giải vấn đề thách thức bài toán phân loại ảnh với số lượng lớn lớp Cụ thể sau: Phát triển phương pháp xây dựng cấu trúc phân cấp cân có độ xác cao hiệu chi phí phân lớp Cấu trúc cân nhằm đảm bảo độ dài đường từ nút gốc đến nút tương đương nhau, giúp nâng cao tính hiệu chi phí phân lớp Để tăng độ xác phân lớp, tất ảnh ảnh trung bình lớp sử dụng xây dựng Mục đích khai thác yếu tố đa dạng ảnh lớp tính đại diện cho lớp phân chia lớp vào nhánh Điều giúp cải thiện khả dự đoán phân lớp nút làm tăng độ xác phân lớp Cả hai yếu tố cân độ xác xét kết hợp q trình xây dựng Kết thực nghiệm tập liệu chuẩn chứng minh phương pháp đề xuất hiệu so phương pháp khác Nội dung phương pháp công bố hội thảo ICIAP-2015 [CT.3] tạp chí CVIU [CT.2] Nội dung chi tiết đóng góp trình bày chương luận án Phát triển phương pháp xây dựng cấu trúc phân cấp cân dựa tương đồng lớp Để đảm bảo độ xác phân lớp nút, lớp tương đồng với nên phân vào nút Sự tương đồng hai lớp xác định dựa phương pháp sum match kernel (được tính trực tiếp dựa vector đặc trưng) mà không dựa vào phân lớp nhị phân OvA phương pháp khác Mặc dù phương pháp hiệu có độ phức tạp tính tốn cao Hạn chế khắc phục cách sử dụng phương pháp ánh xạ đặc trưng để chuyển đặc trưng qua khơng gian Khi tương đồng hai lớp xác định dựa ảnh trung bình hai lớp khơng gian Ngồi ra, để giảm chi phí thực phân lớp, nghiên cứu sinh đề xuất phương pháp cân số lượng lớp nhánh để tạo cấu trúc cân Nội dung nghiên cứu trình bày chi tiết chương công bố hội thảo quốc tế ATC-2015 [CT.4] tạp chí JCC-2016 [CT.1] Phát triển phương pháp phân loại dựa thông tin nút nhằm hạn chế vấn đề lan truyền lỗi nâng cao độ xác phân lớp Trong nghiên cứu này, nghiên cứu sinh đề xuất cách tiếp cận cách xét đến mối quan hệ nút ứng viên với nút mối quan hệ nút ứng viên với để lựa chọn nút ứng viên Các thực nghiệm tiến hành cấu trúc chứng minh độ xác phân lớp theo phương pháp đề xuất đạt kết tốt so với phương pháp duyệt khác Nội dung chi tiết phương pháp trình bày chương cơng bố hội thảo ICIP-2016 [CT.6] Đề xuất phương pháp phân loại dựa phân lớp tiềm ẩn Một giới hạn cấu trúc phân cấp điều chỉnh độ xác chi phí phân lớp cho sử dụng tốt tài nguyên có hệ thống để đạt độ xác tốt Lý cấu trúc cố định sau xây dựng Trong phương pháp OvA có chi phí tuyến tính với số lớp Trong luận án này, nghiên cứu sinh đề xuất phương pháp dựa kỉ thuật xấp xỉ ma trận bậc thấp để chuyển toán đa phân lớp khơng gian với số lượng lớp lớn tốn phân đa lớp khơng gian có số lượng lớp nhỏ Từ kết phân lớp không gian nhỏ này, ta thực phép kết hợp ma trận để tạo kết phân lớp không gian ban đầu Bằng cách này, chọn số phân lớp tương ứng để sử dụng tốt tài nguyên hệ thống nhằm đạt độ xác tốt Nội dung nghiên cứu trình bày chi tiết chương công bố hội thảo MMSP-2015 [CT.5] 1.2 Động lực nghiên cứu Bài toán phân loại ảnh với số lượng lớp lớn tốn quan trọng lĩnh vực thị giác máy tính có nhiều ứng dụng phát đối tượng, phân lớp tự động, tổ chức quản lý truy xuất ảnh-video, gán thích mơ tả nội dung ảnh-video, Tuy nhiên, độ phức tạp phân loại phương pháp thông thường (chẳng hạn phương pháp OvA) tỉ lệ với số lượng lớp, trường hợp số lượng lớp lớn làm hạn chế khả ứng dụng phương pháp thực tiễn Một số phương pháp phân loại dựa cấu trúc phân cấp có chi phí phân loại thấp, nhiên dùng số lượng nhỏ phân lớp để phân loại ảnh, nên độ xác thường giảm so với phương pháp OvA Ngồi ra, làm để xây dựng tối ưu khắc phục việc lan truyền lỗi vấn đề thách thức 1.3 Mục đích, đối tượng phạm vi nghiên cứu • Mục đích nghiên cứu: Nghiên cứu phát triển phương pháp phân lớp với số lượng lớp lớn hiệu chi phí thực phân lớp đạt độ xác phân lớp cao • Đối tượng nghiên cứu: Đối tượng nghiên cứu luận án toán phân loại (đa phân lớp) trường hợp số lượng lớp lớn • Phạm vi nghiên cứu: Phạm vi nghiên cứu giới hạn tập liệu ảnh có số lượng lớp lớn Trong đó: – Khái niệm lớp ảnh sử dụng luận án hiểu tập ảnh có nội dung liên quan đến khái niệm ngữ nghĩa hiểu người Các khái niệm thường biểu diễn danh từ chung danh từ riêng với nhiều mức độ ngữ nghĩa loại khác (ví dụ Object, Scene, Event, Artifacts, People, ) – Số lượng lớp (large-scale) xét nghiên cứu từ vài trăm đến vài chục nghìn lớp Các thực nghiệm tiến hành tập liệu cộng đồng nghiên cứu thừa nhận sử dụng liên quan đến toán phân loại với số lượng lớp lớn 1.4 Ý nghĩa khoa học thực tiễn đề tài • Nội dung nghiên cứu sinh thực luận án nghiên cứu đề xuất số phương pháp để giải thách thức toán phân loại ảnh với số lượng lớp lớn Nghiên cứu sinh đề xuất phương pháp phân lớp tiềm ẩn phương pháp cải tiến tiếp cận phân cấp nhằm nâng cao độ xác giảm chi phí tính tốn thực phân loại với số lượng lớp lớn Thực nghiệm tiến hành kiểm chứng tập liệu chuẩn quốc tế, kết có tính xác thực cao Các phương pháp đề xuất công bố hội thảo tạp chí chun ngành có uy tín phản biện độc lập • Hệ thống phân loại ảnh có độ xác cao chi phí tính tốn hợp lý có nhiều hỗ trợ hữu hiệu ứng dụng thực tế như: truy vấn ảnh-video; tổ chức, quản lý liệu ảnh-video; gán thích ảnh-video; hiểu diễn đạt nội dung ảnh-video, • Hiện nay, hệ phân lớp ảnh dựa vào mạng học sâu đạt nhiều tiến đáng kể số phương pháp phương pháp One-versus-All (OvA) thực song song Tuy nhiên, thấy: – Mục tiêu phương pháp OvA song song giảm thời gian thực phân lớp chi phí tính tốn để thực phân lớp cho ảnh không giảm Với phương pháp đề xuất luận án (chẳng hạn phương pháp dựa phân lớp tiềm ẩn), không giảm chi phí tính tốn cách điều chỉnh số lượng phân lớp tiềm ẩn để đạt hiệu suất tối ưu mà cịn thực song song phương pháp OvA – Trong hệ phân lớp ảnh dựa vào mạng học sâu (như mạng AlexNet, VGG-VERYDEEP, GoogLeNet ) chức lớp mạng cuối thực thao tác phân loại phương pháp OvA, chi phí phân loại cho ảnh lớp mạng tỉ lệ tuyến tính với số lượng lớp ảnh Ảnh hưởng lớn mạng học sâu toán phân loại ảnh mặt học đặc trưng tự động, phương pháp phân loại Trong đó, mục tiêu luận án phương pháp phân loại chi phí tính tốn phân loại Các đặc trưng học sâu hồn tồn tích hợp vào phương pháp đề xuất nhằm nâng cao hiệu phân loại 1.5 Bố cục luận án Nội dung luận án bố cục gồm chương tài liệu tham khảo Chương 1: Tổng quan, Chương 2: Cơ sở lý thuyết, Chương 3: Phân loại dựa cấu trúc phân cấp, Chương 4: Phân loại dựa phân lớp tiềm ẩn Chương 5: Kết luận hướng phát triển Bảng 3.10: So sánh hiệu phương pháp tập liệu ILSVRC2010-1K Phương pháp T32 T10 T6 T4 Baseline ER-SHC Traverse-MIL 7.32 7.70 12.68 6.01 5.70 8.48 5.52 5.12 6.76 5.12 4.66 6.04 Sử dụng mơ hình tương ứng với lời giải phương trình (3.16) nút v, ta chọn nút nút có giá trị dự đoán lớn nhất: γ˜ = arg maxx (wvT · γ + bv ) γ∈Γv 3.3.5 (3.20) Thí nghiệm Với cấu trúc TQ , Q số nút tối đa nút, áp dụng cách duyệt sau: • Baseline: phương pháp duyệt bản: nút chọn nút có giá trị dự đốn cao • ER-SHC: phương pháp cải tiến Zhu cộng (CVIU2014) • Traverse-MIL: phương pháp đề xuất nghiên cứu Các thực nghiệm tiến hành tập liệu Caltech-256, SUN-397, ILSVRC2010-1K Vector đặc trưng sử dụng BOWSIFT-LLC-SPM phân chia liệu tương tự thực nghiệm trước Các kết thực nghiệm tập liệu ILSVRC2010-1K với cấu hình khác liệt kê bảng 3.10 chứng minh độ xác phân loại phương pháp đề xuất cao so với phương pháp khác 3.4 Tổng kết chương Chương trình bày phương pháp xây dựng cân phương pháp duyệt dựa mối quan hệ nút Các kết thực nghiệm tập liệu chuẩn chứng minh tính hiệu phương pháp đề xuất so với phương pháp liên quan 26 Thuật toán 3.2 [A] = Balancing(Y, G, A, P (v)max ): cân số lượng lớp nút nút v Đầu vào: 1: • Y = {y1 , , yN }: tập hợp gồm N vector đặc trưng biểu diễn cho N lớp tương ứng nút v; 2: • G = {g1 , , gQ }: tập hợp gồm Q giá trị tâm Q nhóm; 3: • A = {a1 , , aN }: tập hợp gồm N phần tử, phần tử = k cho biết thơng tin lớp ci phân vào nhóm gk ; 4: • P (v)max : Số lớp tối đa nhóm; Đầu ra: A = {a1 , , aN } : tập hợp gồm N phần tử, phần tử = k cho biết thông tin lớp ci phân vào nhóm gk ; Số lượng lớp tối đa nhóm P (v)max 5: Bước 1: 6: • Gọi R tập nhóm có số lượng lớp lớn P (v)max 7: • Gọi T tập nhóm có số lượng lớp nhỏ P (v)max 8: • Gọi D tập phần tử chọn để phân vào nhóm T : D = ∅ 9: Bước 2: Xét nhóm R: giữ lại P (v)max phần tử có khoảng cách đến tâm nhóm nhỏ Các phần tử cịn lại thêm vào D 10: Bước 3: 11: while D = ∅ 12: yi ← D 13: Phần tử yi phân vào nhóm tj ∈ T khoảng cách từ yi đến tâm gj nhóm tj nhỏ nhất: tj = tj ∪ {yi } 14: Cập nhật lại giá trị tâm gj dựa phần tử nhóm tj 15: if |tj | = P (v)max then 16: T = T \ {tj } 17: end if 18: end while Thuật toán 3.3 [A] = Clustering( (v), S˜N ×N , Q, P (v)max ): phân nhóm tập lớp (v) vào Q nút Đầu vào: 1: • (v) : tập hp cỏc lp thuc nỳt v; 2: ã SN ìN : ma trận tương đồng N lớp; 3: • Q: số nút tối đa; 4: • P (v)max : số lượng lớp tối đa nút con; Đầu ra: A = {a1 , , aN } : tập hợp gồm N phần tử, phần tử = k cho biết thông tin lớp ci phân vào nhóm gk ; Số lượng lớp tối đa nhóm P (v)max ˜ 5: Bước 1: Xác định ma trận tương đồng S(v) dựa vào ma trận S˜ (v) 6: Bước 2: Thực phân nhóm lớp: ˜ 7: [Y, G, A] = SpectralClustering( (v), S(v), Q, P (v)max ) 8: Bước 3: Cân số lượng lớp nút con: [A] = Balancing(Y, G, A, P (v)max ) Chương PHÂN LOẠI DỰA TRÊN BỘ PHÂN LỚP TIỀM ẨN Tóm tắt Chương giới thiệu cách tiếp cận dùng phân lớp tiềm ẩn Đây phương pháp đề xuất sở theo ý tưởng giảm thiểu số lần gọi thực thi phân lớp, mà cách tiếp cận dùng phân cấp giải pháp Trong cách tiếp cận này, phương pháp xấp xỉ ma trận bậc thấp sử dụng để chuyển không gian ban đầu gồm C lớp sang không gian gồm L lớp tiềm ẩn, giá trị L

Ngày đăng: 28/10/2020, 04:39

HÌNH ẢNH LIÊN QUAN

Hình 2.2: Minh họa bài toán phân loại ảnh với số lượng lớp lớn. Trong trường hợp này, việc phân loại sẽ khó chính xác hơn, chi phí thực hiện phân loại sẽ cao hơn. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn
Hình 2.2 Minh họa bài toán phân loại ảnh với số lượng lớp lớn. Trong trường hợp này, việc phân loại sẽ khó chính xác hơn, chi phí thực hiện phân loại sẽ cao hơn (Trang 12)
Hình 2.9: Minh họa mục tiêu của luận án: phát triển các phương pháp phân loại ảnh hiệu quả về chi phí tính toán khi phân loại và đạt độ chính xác cao. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn
Hình 2.9 Minh họa mục tiêu của luận án: phát triển các phương pháp phân loại ảnh hiệu quả về chi phí tính toán khi phân loại và đạt độ chính xác cao (Trang 15)
Bảng 3.9: So sánh hiệu quả của các phương pháp khi dùng toàn bộ các ảnh huấn luyện được cung cấp trong tập dữ liệu ILSVRC2010-1K sử dụng đặc trưng VGG-VERYDEEP-16. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn
Bảng 3.9 So sánh hiệu quả của các phương pháp khi dùng toàn bộ các ảnh huấn luyện được cung cấp trong tập dữ liệu ILSVRC2010-1K sử dụng đặc trưng VGG-VERYDEEP-16 (Trang 25)
Hình 4.2: Kiến trúc tổng quan của hệ thống thực hiện huấn luyện và phân lớp dựa trên các bộ phân lớp tiềm ẩn. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn
Hình 4.2 Kiến trúc tổng quan của hệ thống thực hiện huấn luyện và phân lớp dựa trên các bộ phân lớp tiềm ẩn (Trang 32)
trận này có thể được mô tả trực quan qua hình vẽ 4.3. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn
tr ận này có thể được mô tả trực quan qua hình vẽ 4.3 (Trang 33)
Hình 4.4: Minh họa kết quả sử dụng đặc trưng VGG-VERYDEEP-16. Trong trường hợp độ chính xác top-1, chúng ta chỉ dùng khoảng phân nửa bộ phân lớp tiềm ẩn sẽ có độ chính xác tương đương với trường - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn
Hình 4.4 Minh họa kết quả sử dụng đặc trưng VGG-VERYDEEP-16. Trong trường hợp độ chính xác top-1, chúng ta chỉ dùng khoảng phân nửa bộ phân lớp tiềm ẩn sẽ có độ chính xác tương đương với trường (Trang 37)
Hình 4.10: So sánh thời gian (tính theo giây) thực hiện phân lớp của các phương pháp theo kích thước tập dữ liệu kiểm tra. - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn
Hình 4.10 So sánh thời gian (tính theo giây) thực hiện phân lớp của các phương pháp theo kích thước tập dữ liệu kiểm tra (Trang 38)
Ste = 33.33, ta cần L= 33 1000 .33 ≈ 30 bộ phân lớp tiềm ẩn. Bảng 4.5 liệt - Tóm tắt Luận án tiến sĩ Khoa học máy tính: Phát triển một số phương pháp phân loại ảnh với số lượng lớp lớn
te = 33.33, ta cần L= 33 1000 .33 ≈ 30 bộ phân lớp tiềm ẩn. Bảng 4.5 liệt (Trang 39)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN