Tóm tắt: Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.

27 3 0
Tóm tắt: Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.Nâng cao độ chính xác của tra cứu ảnh theo nội dung dựa trên tiếp cận học đa tạp từ thông tin phản hồi của người dùng.

BỘ GIÁO DỤC VIỆN HÀN LÂM KHOA HỌC VÀ ĐÀO TẠO VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… CÙ VIỆT DŨNG NÂNG CAO ĐỘ CHÍNH XÁC CỦA TRA CỨU ẢNH THEO NỘI DUNG DỰA TRÊN TIẾP CẬN HỌC ĐA TẠP TỪ THÔNG TIN PHẢN HỒI CỦA NGƯỜI DÙNG Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 TĨM TẮT LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Hà Nội – 2023 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS TS Nguyễn Hữu Quỳnh Người hướng dẫn khoa học 2: PGS TS Ngô Quốc Tạo Phản biện 1: Phản biện 2: Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 202 Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam LỜI MỞ ĐẦU Tính cấp thiết luận án Tra cứu ảnh dựa vào nội dung (Content base image retrieval CBIR) thu hút nhiều quan tâm thập kỷ qua Nó thách thức to lớn khoảng trống đặc trưng mức thấp khái niệm ngữ nghĩa mức cao Để thu hẹp khoảng trống này, phản hồi liên quan (Relevant feedback - RF) giới thiệu công cụ mạnh để tăng cường hiệu CBIR Chúng ta thấy rằng, toán tra cứu ảnh với phản hồi liên quan có số vấn đề sau: (1) khám phá cấu trúc Euclide toàn cục, xem xét cấu trúc cục mẫu lân cận; (2) số lượng mẫu thu từ phản hồi người dùng thường nhỏ cân hai lớp dương lớp âm; (3) Chưa quan tâm đến nhiều khía cạnh khác đối tượng liệu ảnh Do đó, độ xác phương pháp tra cứu ảnh sử dụng học máy cho phản hồi thường hiệu Do vậy, việc đề xuất phương pháp tra cứu ảnh hiệu để giải hạn chế nhu cầu cần thiết, mà luận án chọn đề tài “Nâng cao độ xác tra cứu ảnh theo nội dung dựa tiếp cận học đa tạp từ thông tin phản hồi người dùng” Mục tiêu luận án Mục tiêu chung luận án: Nâng cao độ xác tra cứu ảnh dựa học đa tạp để giảm chiều từ thông tin phản hồi người dùng Mục tiêu cụ thể luận án: Đề xuất số kỹ thuật tra cứu ảnh để nâng cao độ xác tra cứu ảnh bao gồm: -Đề xuất phương pháp tìm ma trận chiếu tối ưu theo tiếp cận học đa tạp -Đề xuất phương pháp tự động bổ sung mẫu dương vào tập huấn luyện, giải vấn đề cân tập huấn luyện Đồng thời tận dụng khía cạnh khác đối tượng để tạo phân lớp mạnh Các đóng góp luận án Luận án có đóng góp sau: (1) Đề xuất phương pháp tìm ma trận chiếu tối ưu theo tiếp cận học đa tạp [CT5] Phương pháp xem xét cấu trúc cục mẫu dương âm thuộc hai lân cận khác để học phép chiếu mà liệu phân biệt khơng gian chiếu, dẫn đến cải tiến độ xác cho tra cứu ảnh (2) Đề xuất phương pháp tự động bổ sung mẫu dương vào tập huấn luyện để giải vấn đề cân tập huấn luyện [CT4] Phương pháp có thể: (a) bổ sung số mẫu dương vào tập huấn luyện; (b) tận dụng khía cạnh khác đối tượng để tạo phân lớp mạnh Bố cục luận án Luận án bố cục thành ba chương: Chương giới thiệu tổng quan tra cứu ảnh dựa vào nội dung Chương mô tả phương pháp tìm ma trận chiếu tối ưu theo tiếp cận học đa tạp tra cứu ảnh, gọi chiếu phân biệt lớp ngữ nghĩa cho tra cứu ảnh (SCDPIR - Semantic class discriminant projection for image retrieval) Chương trình bày phương pháp cân tập mẫu phản hồi kết hợp tra cứu ảnh đa khía cạnh Cuối cùng, luận án đưa số kết luận định hướng nghiên cứu tương lai CHƯƠNG TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 1.1 Giới thiệu tra cứu ảnh Nhiệm vụ hệ thống CBIR sử dụng nội dung trực quan trích rút tự động thành đặc trưng nhiều chiều tìm số hình ảnh tương tự với hình ảnh truy vấn sở liệu lớn Hình 1.1 1.2 Sơ đồ tra cứu ảnh dựa vào nội dung truyền thống Giới thiệu phản hồi liên quan 1.2.1 Cơ chế phản hồi liên quan Trong CBIR thường đưa người dùng vào vòng lặp tra cứu, chế gọi “phản hồi liên quan” (relevant feedback - RF) Hình 1.6 Sơ đồ tra cứu ảnh với phản hồi liên quan 1.2.2 Học đa tạp tra cứu ảnh dựa vào nội dung Việc học đa tạp với mục tiêu tạo không gian nơi ảnh liên quan chiếu gần ảnh không liên quan chiếu cách xa cách học cấu trúc cục hình thành lân cận ảnh truy vấn ảnh phản hồi Điều đạt cách nhúng ảnh truy vấn tập ảnh phản hồi tập điểm liệu (các nút) đồ thị k láng giềng gần có trọng số Ánh xạ tối ưu tìm thấy dựa ma trận trọng số cạnh, cho điểm lân cận đồ thị ánh xạ với cách tối thiểu hàm chi phí Mỗi ảnh sở liệu sau ánh xạ sang không gian chiếu mới, thu kết tra cứu tập hàng xóm gần với ảnh truy vấn Sau vòng phản hồi, cấu trúc cục không gian đa tạp lại học lại 1.2.3 Rà soát số nghiên cứu liên quan Ban đầu, cách tiếp cận tra cứu ảnh với RF giả thiết rằng, tồn điểm truy vấn lý tưởng mà tìm thấy cho kết phù hợp với mong muốn người dùng Cách tiếp cận gọi “dịch chuyển điểm truy vấn” (QPM - Query Point Movement) Trong RF, mẫu người dùng cung cấp thường nhỏ so với chiều đặc trưng, phải giải toán gọi “lời nguyền số chiều - curseof dimensionality” Khi số chiều đặc trưng lớn so với số lượng mẫu tập huấn luyện, mô hình học máy rơi vào tình trạng q khớp Để giải vấn đề này, số tác giả đề xuất kỹ thuật giảm chiều phân tích thành phần (PCA- Principal Components Analysis) [53, 54] phân tích phân biệt tuyến tính (LDA - Linear Discriminant Analysis) [55] Trong năm gần đây, có nhiều thuật toán học đa tạp để giảm chiều đề xuất để khám phá cấu trúc đa tạp Có thể kể đến số phương pháp đa tạp Locality Preserving Projections, Augmented Relation Embedding, Maximum Margin Projection, Locally Linear Embedding Laplacian Eigenmaps Tuy nhiên, phương pháp thực với điểm liệu tập huấn luyện, khơng đưa rõ ràng phép chiếu thực cho điểm liệu kiểm tra Bên cạnh đó, phương pháp xem xét tính chất hình học lớp, bỏ qua mối liên hệ mẫu từ lớp khác Mặt khác, phương pháp thường không quan tâm đến ảnh thuộc lân cận khác chúng liên quan với truy vấn Do đó, phương pháp tra cứu ảnh thường có hiệu hạn chế 1.3 Lý thuyết liên quan đến luận án Trong phần này, trình bày tổng quan ngắn gọn lý thuyết đồ thị, độ đo khoảng cách máy véc tơ hỗ trợ, nhân Radial Basis Function sử dụng làm sở cho chế phân hạng cho pha phản hồi hệ thống đề xuất giới thiệu chương sau 1.4 Đánh giá độ xác CBIR 1.4.1 Độ xác độ xác trung bình Để đánh giá hiệu hệ thống CBIR, độ xác sử dụng Độ xác (precision) tỷ lệ số lượng ảnh liên quan với ảnh truy vấn số lượng tất ảnh hiển thị hàng đầu trả gọi phạm vi (scope) cụ thể K, thường gọi P@K Hiệu xác tra cứu chung hệ thống đo trung bình tất độ xác AP tính tốn sau: AP = ∑𝑁 𝑖=1 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑖) N (1.1) Với 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑖) độ xác truy vấn N số lượng ảnh đưa làm ảnh truy vấn 1.4.2 Một số tập ảnh liệu dùng cho tra cứu ảnh dựa vào nội dung Tên tập liệu COREL Số chủ đề 80 Số ảnh 10800 SIMPLIcity 10 1000 Oxford 11 5062 Caltech 101 101 8742 1.4.3 Kịch phản hồi liên quan thực nghiệm Trong hệ thống tra cứu ảnh thực tế, ảnh truy vấn thường khơng có sở liệu ảnh luận án sử dụng bốn phần kiểm chứng chéo để đánh giá thuật toán Việc lựa chọn thông tin phản hồi mô tự động dựa thông tin từ tập tin cậy Với truy vấn gửi, hệ thống tra cứu phân hạng ảnh sở liệu Tập kết khởi tạo gồm K ảnh hàng đầu sau phân hạng lựa chọn làm ảnh phản hồi Người dùng tương tác với hệ thống thông qua đánh dấu tập kết tra cứu khởi tạo ảnh có chủ đề (cùng khái niệm) với ảnh truy vấn làm ảnh liên quan (mẫu phản hồi dương) ảnh cịn lại khơng đánh dấu làm ảnh không liên quan (mẫu phản hồi âm) lấy thêm K/2 ảnh xếp hạng sau tập kết tra cứu khởi tạo làm mẫu chưa gán nhãn 1.5 Kết luận chương Trong chương 1, luận án trình bày lý thuyết tổng quan hệ thống tra cứu ảnh dựa vào nội dung phản hồi liên quan Bên cạnh đó, phân tích số phương pháp phản hồi liên quan nhằm giảm khoảng trống ngữ nghĩa Qua đó, phân tích, đánh giá ưu nhược điểm số phương pháp CBIR có để đề xuất số phương pháp nhằm giải hạn chế phân tích CHƯƠNG PHƯƠNG PHÁP HỌC CHIẾU PHÂN BIỆT LỚP NGỮ NGHĨA CHO TRA CỨU ẢNH VỚI PHẢN HỒI LIÊN QUAN Trong chương này, luận án đề xuất phương pháp học chiếu phân biệt lớp ngữ nghĩa cho giảm chiều tra cứu ảnh [CT5] để giải hạn chế: số chiều đặc trưng thường cao nhiều so với số mẫu tập phản hồi mẫu nằm hai không gian (hai lân cận) khác chưa xét đến 2.1 Giới thiệu Các hình ảnh CBIR thể vectơ đặc trưng thường có kích thước cao từ hàng chục đến hàng trăm hầu hết trường hợp nên gặp phải vấn đề “curse of dimensionality” Các phương pháp giảm chiều áp dụng để giải vấn đề cách chiếu điểm khơng gian chiều cao sang không gian khác chiều thấp Các phương pháp không giám sát xử lý liệu khơng có nhãn, bao gồm phân tích thành phần (PCA), chiếu bảo tồn cục (LPP), nhúng tuyến tính cục (LLE), nhúng bảo toàn lân cận (Neighborhood Preserving Embedding - NPE), Supervised Isomap (S-Isomap) Các phương pháp học có giám sát tiêu biểu gồm phân tích phân biệt tuyến tính (LDA), chiếu bảo tồn cục tối ưu có giám sát (Supervised Optimal Locality Preserving Projection SoLPP), phân tích lề Fisher (Marginal Fisher Analysis - MFA), nhúng láng giềng phân biệt (discriminant neighborhood embedding - DNE), chiếu phân biệt phân lớp hồi quy tuyến tính (Linear Regression Classification Steered Discriminative Projection - LRCDP), nhúng đồ thị bảo toàn phân biệt toàn cục cục (Discriminative Globality And Locality Preserving Graph Embedding - DGLPGE) Các phương pháp bán giám sát tiêu biểu bao gồm nhúng quan hệ gia tăng (Augmented Relation Embedding - ARE), chiếu cực đại lề (Maximum margin projection - MMP), phân tích phân biệt bán giám sát (Semisupervised Discriminant Analysis - SDA) Các phương pháp kể quan tâm đến nén tách biệt điểm thuộc lân cận mà bỏ qua việc nén tách biệt điểm khác lân cận, tức không đảm bảo điểm liên quan ngữ nghĩa mà lân cận khác gần ảnh truy vấn không gian chiều thấp Bên cạnh đó, phương pháp nêu thực với điểm liệu tập huấn luyện, khơng đưa rõ ràng phép chiếu thực cho điểm thử Do đó, chúng khơng hiệu cho tra cứu ảnh Để khắc phục vấn đề trên, luận án đề xuất phương pháp học chiếu phân biệt lớp ngữ nghĩa (Semantic Class Discriminant Projection - SCDP) [CT5] Trong SCDP, bảo tồn trung thực cấu trúc cục điểm liệu không gian đặc trưng trực quan nhiều chiều gốc, quan tâm đến điểm khác lân cận tìm ma trận chiếu tốt cho chúng 2.2 Nghiên cứu liên quan Trong phần này, rà soát ngắn gọn DNE, ARE, MMP, DAGDNE, chúng sở cho phương pháp đề xuất 2.3 Đề xuất phương pháp học chiếu phân biệt lớp ngữ nghĩa liệu đa tạp Xây dựng hàm mục tiêu Cho tập 𝐱1 , 𝐱2 , … 𝐱𝑁 ℝ𝑛 , tìm ma trận biến đổi 𝐔 = (𝐮1 , 𝐮2 , … , 𝐮𝑑 ) mà ánh xạ 𝑁 điểm thành tập 𝐲1 , 𝐲2 , … 𝐲𝑁 ℝ𝑑 (𝑑 ≪ 𝑛) cho 𝐲𝑖 biểu diễn 𝐱𝑖 , 𝐲𝑖 = 𝐔 𝑇 𝐱𝑖 Cho ℚ ⊂ ℝ𝑛 không gian đặc trưng ảnh 𝑛 chiều, 𝜎: ℚ × ℚ → ℝ hàm khoảng cách Cho ma trận 𝐗 = 11 Từ hàm mục tiêu (2.11) (2.12), vấn đề tìm phép chiếu 𝐲 = 𝐔 𝑇 𝐱 đưa toán tối ưu sau: 𝐔 = 𝑎𝑟𝑔 𝑚𝑎𝑥𝐔 𝑡𝑟𝑎𝑐𝑒(𝐔𝑇 𝐁𝐔) 𝑡𝑟𝑎𝑐𝑒(𝐔𝑇 𝐂𝐔) (2.12) Vậy ma trận 𝐔 = (𝐮1 , 𝐮2 , … , 𝐮𝑑 ) gồm 𝑑 véc tơ lớn tương ứng với trị riêng ∧= 𝑑𝑖𝑎𝑔 (𝜆1 , 𝜆2, … , 𝜆𝑑 ) ma trận (𝐂 −1 𝐁) với điều kiện 𝐂 khả nghịch Do đó, để nhúng ảnh truy vấn 𝐪(x) ∈ ℚ, ánh xạ vào đa tạp 𝐪(𝐲) = 𝐔 𝑻 𝐪(x) Tìm điểm lân cận 𝐪(𝐲) sử dụng khoảng cách Euclide, phân hạng đỉnh danh sách trả Thuật toán 2.1 Thuật toán chiếu phân biệt lớp ngữ nghĩa (SCDP) Input: 𝐗 = {𝐱1 , 𝐱2 , … 𝐱𝑁 } ∈ ℝ𝑛 gồm N ảnh với R, IR, UL ⊂X, R : tập ảnh có nhãn dương, IR: tập ảnh có nhãn âm, UL: tập ảnh khơng có nhãn, d: số chiều không gian chiếu k, α: tham số Output: Ma trận chiếu 𝐔 = (𝐮1 , 𝐮2 , … , 𝐮𝑑 ) Bước 1: 𝑤𝑖𝑗𝐹  𝑒 − 𝜎2 (𝐱 𝑖 ,𝐱 𝑗 ) 𝜏 { 0, , 𝐱𝑖 ∈ 𝑘 − 𝑁𝑁(𝐱𝑗 ) 𝐱𝑗 ∈ 𝑘 − 𝑁𝑁(𝐱𝑖 ) ngược lại; Bước 2: 𝛼, (𝑤𝑖𝑗𝐹 > ∧ 𝑤𝑖𝑗𝐹 ≤ 1) ∧ (𝐱𝑖 ∈ 𝐑 ∧ 𝐱𝑗 ∈ 𝐑) 𝑤𝑖𝑗𝑅  {1, (𝑤𝑖𝑗𝐹 > ∧ 𝑤𝑖𝑗𝐹 ≤ 1) ∧ (𝐱𝑖 ∈ 𝐔𝐋 ∧ 𝐱𝑗 ∈ 𝐔𝐋) 0, ngược lại; 1, (𝑤𝑖𝑗𝐹 > ∧ 𝑤𝑖𝑗𝐹 ≤ 1) ∧ (𝐱𝑖 ∈ 𝐑 ∧ 𝐱𝑗 ∈ 𝐈𝐑) 𝐹 𝑤𝑖𝑗𝐼𝑅  { (𝑤𝑖𝑗 > ∧ 𝑤𝑖𝑗𝐹 ≤ 1) ∧ (𝐱𝑖 ∈ 𝐈𝐑 ∧ 𝐱𝑗 ∈ 𝐑) 0, ngược lại; 1, if 𝐱 𝑖 ∈ 𝐑 ∧ 𝐱𝑗 ∈ 𝐑 𝑠_𝑠𝑖𝑗  { 0, ngược lại; 12 Bước 3: 𝑇 𝑇 𝐁 (𝐱𝑖 − 𝐱𝑗 )(𝐱 𝑖 − 𝐱𝑗 ) + (𝐦𝑖 − 𝐦𝑗 )(𝐦𝑖 − 𝐦𝑗 ) với 𝐱𝑖 , 𝐱𝑗 ∈ 𝑤𝑖𝑗𝐼𝑅 𝐦𝑖 = ∑𝑗 𝐱𝑗 𝑤𝑖𝑗𝑅 𝑇 𝑇 𝐂(𝐱𝑖 − 𝐱𝑗 )(𝐱 𝑖 − 𝐱𝑗 ) + (𝐦𝑖 − 𝐦𝑗 )(𝐦𝑖 − 𝐦𝑗 ) với 𝐱 𝑖 , 𝐱𝑗 ∈ 𝑤𝑖𝑗𝑅 𝐦𝑖 = ∑𝑗 𝐱𝑗 𝑤𝑖𝑗𝑅 𝑡𝑟𝑎𝑐𝑒(𝐔𝑇 𝐁𝐔) Bước 4: U= 𝑎𝑟𝑔 𝑚𝑎𝑥𝑼 𝑡𝑟𝑎𝑐𝑒(𝐔𝑇 𝐂𝐔) với (𝐔 𝑇 𝐂𝐔) = 𝐈 𝐔 = (𝐮1 , 𝐮2 , … , 𝐮𝑑 ) với cột véc tơ riêng tương ứng với trị riêng 𝜆1 > 𝜆2 > ⋯ > 𝜆𝑑 Độ phức tạp thuật toán SCDP 𝑂((𝑛 + 𝑑)𝑛2 n số đặc trưng, d số chiều không gian chiếu 2.4 Tra cứu ảnh với học chiếu phân biệt lớp ngữ nghĩa Thuật toán 2.2 Tra cứu ảnh với học chiếu phân biệt lớp ngữ nghĩa (SCDPIR) Input: 𝐃𝐁: Tập ảnh liệu, q: Ảnh truy vấn khởi tạo, N: Số lượng ảnh trả lần lặp, d: số chiều không gian chiếu Output: S: Tập ảnh kết Bước 1: X Retrieval-Init(q, DB, N>; Bước 2: Repeat Bước 2.1: IRFeedback(𝐗, −1); Bước 2.2 RFeedback(𝐗, 1); Bước 2.3 𝐔𝐋𝐗 − (𝐈𝐑 ∪ 𝐑) 13 Bước 2.4 𝐔SCDP( 𝐗, 𝐑, 𝐈𝐑, 𝑑, 𝑘, 𝛼); Bước2.5 𝐃𝐁(𝐲) 𝑴𝒂𝒑𝒑𝒊𝒏𝒈(𝐃𝐁, 𝐔); 𝐪(𝐲) 𝑴𝒂𝒑𝒑𝒊𝒏𝒈(𝐪, 𝐔) Bước 2.6 𝐒Retrieval< 𝐪(𝐲) , 𝐃𝐁(𝐲) , N>; until (Người dùng dừng phản hồi); Bước Return S; Độ phức tạp 𝑂(𝑙 + (n + d)n2 ) 𝑙 số ảnh, n số chiều không gian đặc trưng gốc d số chiều không gian chiếu 2.5 Đánh giá hiệu tra cứu ảnh với học chiếu phân biệt lớp ngữ nghĩa u tra cứu ảnh 2.5.1 Độ xác tra cứu ảnh So sánh độ xác thuật tốn tra cứu ảnh đề xuất với baseline, MMP, DSSA DAG-DNE dùng tham số 𝑘=12, 𝛼 = 50 Kết tập ảnh liệu Corel Hình 2.8 Độ xác phương pháp top 20 ảnh trả 14 a) lần lặp phản hồi thứ (b) lần lặp phản hồi thứ hai Hình 2.9 Các đường cong precision-scope trung bình thuật tốn khác cho hai lần lặp Kết tập liệu ảnh SIMPLIcity Với tập Corel 10K8 cho ta thấy hiệu phương pháp đề xuất cải thiện đáng kể, để trực quan hóa phép chiếu phương pháp đề xuất tập Corel khơng tối ưu số lượng ảnh nhiều Do phần này, thực nghiệm thực tập liệu ảnh 15 SIMPLIcity có 1000 ảnh để trình bày việc trực quan hóa kết bốn phương pháp MMP, DSSA, DAG-DNE SCDPIR 2.5.2 Chiều không gian chiếu phân biệt lớp ngữ nghĩa (a) Chiều không gian (SCDP) (c) Chiều không gian(DAG-DNE) (b) Chiều không gian (MMP) (d) Chiều khơng gian (DSSA) Hình 2.11 Hiệu bốn phương pháp theo số chiều Chúng ta thấy hiệu MMP nhận hiệu tốt hai chiều (Hình 2.11 (b)), hiệu SCDP ln có hiệu tốt sáu chiều (Hình 2.11 (a)), DSSA đạt hiệu tốt số chiều lớn chiều (Hình 2.11 (d)), DAG-DNE đạt hiệu tốt số chiều lớn 12 chiều (Hình 2.11 (c)) Như vậy, số chiều chiếu tối ưu SCDPIR cao MMP thấp DAG-DNE DSSA Nhưng, hiệu suất SCDPIR cao nhiều so với MMP số chiều tương đối thấp điều 16 chấp nhận ứng dụng thực tế Ngồi ra, với thuật tốn DAG-DNE, hiệu đạt tốt với số chiều tương đối lớn cao bị vấn đề khớp áp dụng ứng dụng giới thực 2.6 Kết luận chương Trong chương này, luận án trình bày phương pháp SCDP khám phá cấu trúc phi tuyến liệu không gian gốc để tìm ma trận chiếu Bên cạnh đó, chương đánh giá thực nghiệm hai tập liệu Corel 10K8 SIMPLIcity thể độ xác phương pháp đề xuất cải thiện đáng tin cậy 17 CHƯƠNG CÂN BẰNG TẬP MẪU PHẢN HỒI VÀ KẾT HỢP TRA CỨU ẢNH ĐA KHÍA CẠNH 3.1 Giới thiệu Các tốn phản hồi liên quan khác so với toán phân lớp truyền thống phản hồi cung cấp người dùng thường bị giới hạn hệ thống tra cứu ảnh thực Do đó, phương pháp học mẫu nhỏ hứa hẹn cho RF Tuy nhiên, hầu hết cách tiếp cận không quan tâm đến ảnh chưa gán nhãn dương âm dù chúng hữu ích cho q trình học phản hồi hay giảm chiều để nâng cao độ xác tra cứu Bên cạnh đó, chúng cịn bỏ qua cân số mẫu dương âm tập phản hồi Trong chương 3, đề xuất phương pháp cân tập mẫu phản hồi kết hợp tra cứu ảnh đa khía cạnh (CIR) [CT4] thực (a) bổ sung số mẫu dương nhằm xây dựng tập mẫu cân (BSFG balanced sample feedback based on the graph); (b) tận dụng thơng tin hình học việc giảm chiều hiệu (SCDP) (đã trình bày chương 2); (c) tận dụng khía cạnh đối tượng để xây dựng phân lớp mạnh (CMAC) 3.2 Kỹ thuật cân tập mẫu phản hồi sử dụng học bán giám sát đồ thị Cho đồ thị lân cận gần G = (X, S) đồ thị vô hướng với tập đỉnh X = {x1 , x2 , … x𝑁 } ∈ 𝑅 𝑛 N đỉnh (ảnh) kết việc thực truy vấn trước Giả sử đồ thị G đánh trọng số, tức cạnh hai đỉnh x𝑖 x𝑗 mang trọng số không âm s𝑖𝑗 ≥ Ma trận kề có trọng số đồ thị ma trận 𝑆 = (𝑠𝑖𝑗 )𝑖,𝑗=1,…𝑁 18 Gọi 𝑘𝑁𝑁(x𝑖 ) 𝑘 lân cận gần điểm x𝑖 Nếu x𝑖 ∈ 𝑘𝑁𝑁(x𝑗 ) (hoặc x𝑗 ∈ 𝑘𝑁𝑁(x𝑖 )), s𝑖𝑗 = Ngược lại, s𝑖𝑗 = Do G vô hướng yêu cầu s𝑖𝑗 = s𝑗𝑖 Giả sử có 𝑚 điểm người dùng gán nhãn (bao gồm ảnh truy vấn gốc) 𝐿𝑋 = {x1 , x2 , … x𝑚 } ∈ 𝑅 𝑛 𝑁 − 𝑚 điểm chưa người dùng gán nhãn 𝑈𝑋 = {x𝑁−𝑚+1 , x𝑁−𝑚+2 , … x𝑁−𝑚 } ∈ 𝑅 𝑛 Để phục cho việc xác định điểm x𝑖 , nơi mà lớp dương có mật độ cao xung quanh điểm đó, xây dựng đồ thị 𝐺 𝑙𝑎𝑏𝑒𝑙 Đồ thị 𝐺 𝑙𝑎𝑏𝑒𝑙 có đỉnh giống đỉnh đồ thị 𝐺 có ma trận trọng số 𝑆 𝑙𝑎𝑏𝑒𝑙 Cho 𝑙𝑎𝑏𝑒𝑙(x𝑖 ) nhãn điểm x𝑖 (nhãn liên quan không liên quan) Với điểm x𝑖 , tập 𝑘𝑁𝑁 𝑙𝑎𝑏𝑒𝑙 (x𝑖 ) bao gồm điểm lân cận x𝑖 mà có nhãn với x𝑖 chưa có nhãn Lý việc xem điểm đủ gần với x𝑖 dường có liên quan đến x𝑖 Cụ thể: 𝑘𝑁𝑁 𝑙𝑎𝑏𝑒𝑙 (x𝑖 ) = {x| 𝑙𝑎𝑏𝑒𝑙(x) == 𝑙𝑎𝑏𝑒𝑙(x𝑖 ) ℎ𝑜ặ𝑐 x ∈ 𝑈𝑋} (3.1) Chúng ta xác định 𝑆 𝑙𝑎𝑏𝑒𝑙 ma trận trọng số 𝐺 𝑙𝑎𝑏𝑒𝑙 sau: 𝛽 , 𝑙𝑎𝑏𝑒𝑙(x𝑖 ) == 𝑙𝑎𝑏𝑒𝑙(x𝑗 ) 1, x𝑖 x𝑗 ∈ 𝑈𝑋 x𝑖 ∈ 𝑘𝑁𝑁 𝑙𝑎𝑏𝑒𝑙 (x𝑗 ) (3.2) ℎ𝑜ặ𝑐 x𝑗 ∈ 𝑘𝑁𝑁 𝑙𝑎𝑏𝑒𝑙 (x𝑖 ) { 0, ngược lại Trong (3.2), giá trị 𝛽 cao hàm ý hai ảnh có nhãn có 𝑠𝑖𝑗 𝑙𝑎𝑏𝑒𝑙 = ngữ nghĩa Trên đồ thị 𝐺 𝑙𝑎𝑏𝑒𝑙 , bậc đỉnh x𝑖 ∈ 𝑋 xác định bằng: 𝑙𝑎𝑏𝑒𝑙 𝑑𝑖 𝑙𝑎𝑏𝑒𝑙 = ∑𝑁 (3.3) 𝑗=1 𝑠𝑖𝑗 Với điểm chưa gán nhãn x𝑖 ∈ 𝑈𝑋, tìm điểm có bậc 𝑑𝑖 𝑙𝑎𝑏𝑒𝑙 cao số điểm thuộc lân cận 𝑘𝑁𝑁 𝑙𝑎𝑏𝑒𝑙 (x𝑖 ) lấy nhãn điểm làm nhãn tạm thời x𝑖 Cụ thể: Nhãn tạm thời x𝑖 gán nhãn x ∗ với x ∗ xác định sau: 19 x∗ = argmax (𝑑𝑗 𝑙𝑎𝑏𝑒𝑙 ) (3.4) x𝑗 ∈𝑘𝑁𝑁𝑙𝑎𝑏𝑒𝑙 (x𝑖 ) Thủ tục xác định nhãn tạm thời minh họa Hình 3.5 Hình 3.5 Minh họa xác định nhãn tạm thời Ý tưởng để xác định nhãn cuối điểm x𝑖 sau Đầu tiên, phân hoạch đồ thị theo Ncut thành hai lớp: lớp âm lớp dương Sau đó, kiểm tra xem điểm x𝑖 thuộc lớp Hình 3.6 Đồ thị 𝐺 𝑙𝑎𝑏𝑒𝑙 phân chia theo tiêu chí Ncut Hiệu BSFG Hình 3.7 Độ xác ba phương pháp O-SVM, SVMMSMOTE, SVM-BSFG 20 3.3 Kỹ thuật kết hợp phân lớp theo khía cạnh Vấn đề cân mẫu giải thông qua học bán giám sát dựa vào đồ thị Tuy nhiên, chưa khám phá thuộc tính thống kê cho phân lớp liệu Với nhận định rằng, phân lớp biểu diễn tất khía cạnh hữu ích liệu đầu vào Với khía cạnh khác mẫu xét, phân lớp huấn luyện độc lập tập mẫu theo khía cạnh có nhãn Các phân lớp tổ hợp thành phân lớp mạnh theo kỹ thuật bầu cử đa số Trong luận án, khía cạnh xác định đặc trưng: màu, hình dạng kết cấu Bài tốn phát biểu thành thuật toán tổ hợp phân lớp theo khía cạnh (Combine Multiple Aspect Classiers - CMAC) Thuật toán 3.2 Thuật toán kết hợp phân lớp theo khía cạnh (CMAC) Input: reduced_Aspect 𝑖 , i = 1,…, k : Các tập mẫu theo khía cạnh giảm chiều: Output: 𝛽: Bộ phân lớp kết hợp: Bước 1: For i=1, , k 𝐶 𝑖  Aspect Classifiers (reduced_Aspect 𝑖 ); Bước 2: 𝛽(𝑥) = argmax ∑𝑏 𝛿𝑠𝑔𝑛(𝐶 𝑖(𝑥)),𝑦 𝑦∈{−1, 1} Hiệu CMAC Hình 3.8 Độ xác O-SVM SVM-CMAC 21 3.4 Phương pháp tra cứu ảnh kết hợp chiếu phân biệt lớp ngữ nghĩa đa khía cạnh Hình 3.9 Sơ đồ tra phương pháp tra cứu ảnh kết hợp chiếu phân biệt lớp ngữ nghĩa đa khía cạnh 22 3.5 Đánh giá độ xác phương pháp CIR 0.6 Độ xác 0.5 0.4 O-SVM 0.3 HMR 0.2 DMINTIR 0.1 DSSA CIR Số lần lặp Hình 3.10 Độ xác năm phương pháp 3.6 Kết luận chương Trong luận án đề xuất phương pháp CIR nâng cao độ xác hệ thống tra cứu sử dụng RF có thể: (1) tận dụng thơng tin mẫu chưa có nhãn; (2) khai thác cấu trúc phi tuyến liệu đa tạp (3) tận dụng khía cạnh hữu ích khác đối tượng Các kết thực nghiệm tập liệu ảnh ảnh Corel phương pháp đề xuất cải tiến đáng kể độ xác tra cứu 23 KẾT LUẬN Độ xác hệ thống tra cứu ảnh dựa vào nội dung cộng đồng nghiên cứu quan tâm cải tiến Nhiều phương pháp đề xuất thời gian qua Tuy nhiên, chênh lệch đặc trưng mức thấp ảnh cảm nhận trực quan từ người dùng nội dung ảnh làm cho độ xác hệ thống tra cứu ảnh khoảng cách với nhu cầu người dùng Các đóng góp luận án theo định hướng sử dụng chế phản hồi liên quan để thu hẹp chênh lệch khoảng cách Luận án có đóng góp sau: (1) Đề xuất phương pháp tìm ma trận chiếu tối ưu theo tiếp cận học đa tạp [CT5] Phương pháp xem xét cấu trúc cục mẫu dương âm thuộc hai lân cận khác để học phép chiếu mà liệu phân biệt không gian chiếu, dẫn đến cải tiến độ xác cho tra cứu ảnh (2) Đề xuất phương pháp tự động bổ sung mẫu dương vào tập huấn luyện để giải vấn đề cân tập huấn luyện [CT4] Phương pháp có thể: (a) bổ sung số mẫu dương vào tập huấn luyện; (b) tận dụng khía cạnh khác đối tượng để tạo phân lớp mạnh Một số vấn đề cần nghiên cứu tiếp tương lai: - Nghiên cứu mạng nơ ron tích chập để nâng cao độ xác tra cứu tập ảnh lớn - Nghiên cứu áp dụng chế băm sâu để nâng cao tốc độ tra cứu - Từng bước tiến đến việc đưa hệ thống vào áp dụng số lĩnh vực sống 24 NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN Nhằm mục tiêu nâng cao độ xác tra cứu ảnh sử dụng học máy để giảm chiều từ thông tin phản hồi người dùng, luận án có đóng góp sau: (1) Đề xuất phương pháp tìm ma trận chiếu tối ưu theo tiếp cận học đa tạp [CT5] Phương pháp xem xét cấu trúc cục mẫu dương âm thuộc hai lân cận khác để tìm phép chiếu, đảm bảo tính phân biệt khơng gian chiếu, đồng thời cải tiến độ xác tra cứu ảnh (2) Đề xuất phương pháp tự động bổ sung mẫu dương vào tập huấn luyện, giải vấn đề cân tập huấn luyện [CT4] Phương pháp bổ sung mẫu dương vào tập huấn luyện đồng thời tận dụng khía cạnh khác đối tượng để tạo phân lớp mạnh DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ Trong nước: [CT1] Cù Việt Dũng, Nguyễn Hữu Quỳnh, An Hồng Sơn, Đào Thị Thúy Quỳnh, Cải tiến tra cứu ảnh thông qua kết hợp phân lớp không gian ngẫu nhiên, Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, 2018, 7278 [CT2] Cù Việt Dũng, Nguyễn Hữu Quỳnh, Ngô Quốc Tạo, Trần Thị Minh Thu, Một phương pháp tra cứu ảnh học biểu diễn học đa tạp cho giảm chiều với thông tin từ người dùng, Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, 2019, 307-314 [CT3] Cù Việt Dũng, An Hồng Sơn, Nguyễn Hữu Quỳnh, Ngô Quốc Tạo, Đào Thị Thúy Quỳnh, Phương pháp học bán giám sát dựa vào đồ thị xây dựng tập mẫu cân cho tra cứu ảnh, Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, 2021, 143-149 Quốc tế: [CT4] Nguyen Huu Quynh, Cu Viet Dung, Dao Thi Thuy Quynh, Ngo Quoc Tao, Phuong Van Canh, Graph-based semisupervised and manifold learning for image retrieval with SVM-based relevant feedback, Journal of Intelligent & Fuzzy Systems(SCIE,IF=1.637), 2019, 37, 711–722 [CT5] Nguyen Huu Quynh, Cu Viet Dung, Dao Thi Thuy Quynh, (2021), Semantic class discriminant projection for image retrieval with relevance feedback Multimedia Tools and Applications (SCIE, IF = 2.313, Q1), 2021, 80, 15351–15376

Ngày đăng: 07/06/2023, 12:39

Tài liệu cùng người dùng

Tài liệu liên quan