Bài báo này trình bày chi tiết phương pháp tra cứu ảnh sử dụng phân cụm phổ trong phản hồi liên quan, mô tả các kết quả thực nghiệm và cuối cùng là kết luận. Bên cạnh đó, bài viết còn đề xuất phương pháp, có tên là SCRF, giải quyết hai vấn đề chính đó là: (1) tìm các ảnh liên quan ngữ nghĩa nằm rải rác trong toàn bộ không gian đặc trưng với độ chính xác cao và (2) thời gian tra cứu không tăng theo số phản hồi của người dùng.
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/319236116 MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN Article · August 2017 CITATIONS READS 163 authors, including: Quynh Dao Thi Thuy Quynh Nguyen Huu Posts and Telecommunications Institute of Technology Electric Power University PUBLICATIONS 2 CITATIONS 34 PUBLICATIONS 65 CITATIONS SEE PROFILE SEE PROFILE Canh Phuong Van Tao Quoc Ngo Electric Power University Institute of Information Technology/Vietnamese Academy of Scienc… PUBLICATIONS 2 CITATIONS 33 PUBLICATIONS 42 CITATIONS SEE PROFILE SEE PROFILE Some of the authors of this publication are also working on these related projects: Ngô Quốc Tajo and Phạm Việt Bình View project Content-based image retrieval View project All content following this page was uploaded by Quynh Nguyen Huu on 23 August 2017 The user has requested enhancement of the downloaded file Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Phương Văn Cảnh, Ngô Quốc Tạo MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN Đào Thị Thúy Quỳnh *, Nguyễn Hữu Quỳnh **, Phương Văn Cảnh**, Ngô Quốc Tạo*** Trường Đại học Khoa học, Đại học Thái Nguyên, * ** Khoa Công nghệ thông tin, Trường Đại học Điện lực, Viện Công nghệ thông tin, Viện Hàn Lâm Khoa học Công nghệ Việt Nam, ** * quynhdtt@tnus.edu.vn, quynhnh@epu.edu.vn, canhpv@epu.edu.vn, nqtao@ioit.ac.vn TÓM TẮT- Nhiều kỹ thuật tra cứu ảnh dựa vào nội dung thiết kế để lấy ảnh lân cận ảnh truy vấn bỏ qua ảnh liên quan nằm tồn khơng gian đặc trưng Trong báo này, đề xuất phương pháp tra cứu ảnh, gọi SCRF (spectral clustering in relevant feedback) có ưu điểm khơng u cầu người dùng phải xây dựng truy vấn phức tạp mà lấy ảnh nằm rải rác tồn khơng gian đặc trưng Bên cạnh đó, phương pháp khai thác đầy đủ thông tin tương tự ảnh phản hồi người dùng hình thành cụm liên quan ngữ nghĩa để xây dựng truy vấn đa điểm lần truy vấn Hơn nữa, thời gian tra cứu phương pháp không tăng theo số lượng ảnh phản hồi từ người dùng Chúng cung cấp kết thực nghiệm để minh chứng độ xác phương pháp Từ khóa- Tra cứu ảnh dựa vào nội dung, phản hồi liên quan, truy vấn đa điểm, phân cụm phổ I.GIỚI THIỆU Tra cứu ảnh dựa vào nội dung (CBIR-Content Based Image Retrieval) nhận nhiều quan tâm thập kỷ qua, nhu cầu xử lý hiệu lượng liệu đa phương tiện khổng lồ tăng nhanh chóng Nhiều hệ thống CBIR phát triển, gồm QBIC, Photobook, MARS, NeTra, PicHunter, Blobworld, VisualSEEK, SIMPLIcity hệ thống khác Trong hệ thống CBIR tiêu biểu, đặc trưng ảnh trực quan mức thấp (tức màu, kết cấu hình dạng) trích rút tự động cho mục tiêu đánh số mô tả ảnh Đối với cách tiếp cấn truy vấn mẫu, ảnh truy vấn đưa vào hệ thống xử lý tương tự ảnh sở liệu để sinh véc tơ thích hợp Tra cứu thực việc sinh danh sách ảnh phân hạng theo thứ tự giảm dần độ đo tương tự so với ảnh truy vấn Là vấn đề quan trọng CBIR, độ đo tương tự lượng hóa giống nội dung cặp ảnh Phụ thuộc vào kiểu đặc trưng mà lựa chọn độ đo tương tự thích hợp Tất kỹ thuật tra cứu dựa vào nội dung thừa nhận thông tin tương hỗ độ đo tương tự ảnh ngữ nghĩa ảnh Bằng cách khác nhau, độ đo tương tự cố gắng nắm khía cạnh nội dung ảnh, ngữ nghĩa kế thừa từ độ tương tự hay đặc trưng mức thấp Tuy nhiên, ngữ nghĩa kế thừa từ độ tương tự nhiều không giống với khái niệm mức cao truyền tải ảnh (ngữ nghĩa ảnh) Đó khoảng cách ngữ nghĩa [7], phản ánh khác biệt lực mô tả hạn chế đặc trưng trực quan mức thấp khái niệm mức cao Cách tiếp cận dựa vào phản hồi liên quan tra cứu ảnh dựa vào nội dung lĩnh vực nghiên cứu tích cực năm qua nhằm rút ngắn khoảng cách ngữ nghĩa Một số nghiên cứu tốt theo cách tiếp cận tìm thấy [1; 3; 8; 10; 11; 13; 14; 16] Hầu hết hệ thống CBIR có biểu diễn ảnh véc tơ đặc trưng sử dụng đặc trưng trực quan, hai véc tơ coi gần hai ảnh tương ứng với hai véc tơ tương tự Khi hệ thống CBIR đưa tập ảnh xem tương tự với ảnh truy vấn cho, người dùng lấy ảnh liên quan truy vấn cho hệ thống điều chỉnh lại truy vấn sử dụng ảnh liên quan mà người dùng vừa chọn Các kỹ thuật CBIR dựa vào phản hồi liên quan không yêu cầu người dùng cung cấp truy vấn khởi tạo xác yêu cầu người dùng xây dựng truy vấn lý tưởng thông qua đánh giá ảnh liên quan hay không Các cách tiếp cận CBIR giả thiết rằng, nguyên tắc ảnh liên quan gần với ảnh truy vấn không gian đặc trưng Tuy nhiên, tương tự ảnh mà người nhận thức lại có khác biệt với khoảng cách chúng không gian đặc trưng Tức là, ảnh liên quan mặt ngữ nghĩa nằm phân tán tồn không gian đặc trưng nằm rải rác số cụm cụm Trong trường hợp này, cách tiếp cận phản hồi liên quan truyền thống [1; 3; 5; 8; 10; 11; 14; 16; 18; 19] không làm việc tốt dịch chuyển tâm truy vấn Thực phản hồi liên quan đề cập đến việc tính tốn nhiều điểm truy vấn không gian đặc trưng thay đổi hàm khoảng cách Như Hình 1(a), nghiên cứu theo hướng tiếp cận ban đầu [1; 5; 8; 16] biểu diễn truy vấn điểm đơn thay đổi trọng số thành phần đặc trưng để tìm điểm truy vấn tối ưu hàm khoảng cách tối ưu Trong trường hợp này, điểm đơn tính tốn sử dụng trung bình trọng số tất ảnh liên quan không gian đặc trưng Các đường viền biểu diễn đường có độ tương tự tương đương Trong đó, cách tiếp cận nghiên cứu sau [7; 20; 21; 22; 24] biểu diễn truy vấn nhiều điểm để xác định hình đường viền Hình 1(b) Cách tiếp cận sử dụng phương pháp phân cụm [23] để tính tốn điểm truy vấn sử dụng các kết truy vấn (các ảnh liên quan) dựa vào đánh giá phản hồi người dùng Với giả thiết ảnh liên quan ánh xạ sang điểm gần theo độ đo tương tự Một đường viền rộng xây dựng để phủ tất điểm truy vấn hệ thống tìm ảnh tương tự với truy vấn Tuy nhiên, không gian đặc trưng hàm khoảng cách khác so với nhận thức người dùng, ảnh liên quan ánh xạ sang vùng có hình dạng tách rời không gian đặc trưng Tức là, ảnh liên quan phân hạng ảnh tra cứu khác theo truy vấn cho Để hội tụ nhanh đến nhu MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN cầu thông tin mức ngữ nghĩa cao hơn, hệ thống tìm ảnh tương tự với điểm truy vấn Hình 1(c) Một truy vấn mà tra cứu ảnh tương tự với điểm truy vấn gọi truy vấn tách rời hay truy vấn đa điểm Đặc biệt, truy vấn ảnh phức tạp biểu diễn nhiều vùng tách rời ảnh liên quan ngữ nghĩa nằm rải rác số vùng trực quan vùng Hình 1.1 Hình dạng truy vấn (a) Dịch chuyển điểm truy vấn (b) Hình dạng lồi (đa điểm) (c) Hình dạng lõm (đa điểm) Tất kỹ thuật CBIR chắn thừa nhận thông tin tương hỗ độ đo tương tự ngữ nghĩa ảnh Một hệ thống CBIR điển hình xếp hạng ảnh mục tiêu theo độ đo tương tự ảnh truy vấn nên lấy ảnh nằm lân cận ảnh truy vấn bỏ qua ảnh liên quan nằm rải rác toàn không gian đặc trưng Các hạn chế động lực để đề xuất phương pháp cải thiện tương tác người dùng với hệ thống tra cứu ảnh cách khai thác đầy đủ thông tin độ tương tự ảnh tập phản hồi Bên cạnh khơng cần đòi hỏi người dùng phải đưa vào nhiều ảnh truy vấn đa dạng thích hợp để biểu diễn nhu cầu thơng tin Thời gian tra cứu khơng tăng theo số lượng ảnh phản hồi người dùng Phần lại báo tổ chức sau: phần 2, trình bày chi tiết phương pháp tra cứu ảnh sử dụng phân cụm phổ phản hồi liên quan Phần 3, mô tả kết thực nghiệm cuối kết luận đưa phần II PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN Trong phần này, giới thiệu chung hệ thống đề xuất Tiếp theo, mô tả chi tiết thành phần hệ thống Cuối cùng, thuật tốn tra cứu đề xuất trình bày 2.1 Mơ tả chung phương pháp SCRF Hình 2.1 Cấu trúc phương pháp đề xuất Phương pháp SCRF mơ tả sơ đồ hình 2.1., q trình tra cứu việc trích rút đặc trưng ảnh truy vấn Các đặc trưng ảnh sở liệu thường trích rút lưu trữ thành tập véc tơ đặc trưng Sử dụng đặc trưng với độ đo tương tự đặc trưng, tương đồng ảnh truy vấn ảnh sở liệu so sánh phân hạng Tiếp theo, tập ảnh lân cận với ảnh truy vấn khởi tạo trả cho người dùng Người dùng chọn ảnh liên quan tới mong muốn họ để hình thành lên tập ảnh phản hồi Một thuật toán phân cụm áp dụng lên tập ảnh phản hồi để hình thành lên cụm liên quan ngữ nghĩa Với cụm vừa tìm phương pháp chúng tơi thực tìm đại diện cho cụm để hình thành truy vấn đa điểm đưa vào thực tra cứu lần lặp sau Quá trình lặp lại người dùng ngừng phản hồi phương pháp đưa tập kết Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Phương Văn Cảnh, Ngô Quốc Tạo 2.2 Phương pháp đề xuất Phương pháp chúng tơi thay tìm truy vấn trung tâm cho mẫu tích cực mà người dùng chọn, thực phân cụm tập ảnh phản hồi người dùng Sau có cụm ngữ nghĩa đó, chúng tơi tìm đại diện cho cụm Mỗi đại diện dùng để hình thành lên truy vấn đa điểm lần lặp tra cứu Phương pháp tìm ảnh tương tự với điểm hay đại diện truy vấn đa điểm để trả danh sách ảnh đa dạng nằm rải rác toàn khơng gian đặc trưng Thuật tốn phân cụm tập ảnh phản hồi từ người dùng Trong tập ảnh lân cận trả truy vấn khởi tạo người dùng chọn n ảnh liên quan Để khai thác thông tin tương tự ảnh tập ảnh phản hồi gọi thuật tốn CRISE để hình thành lên các cụm ngữ nghĩa Mỗi ảnh chọn để đại diện cho cụm phải ảnh mà tương tự với tất ảnh cụm Các đại diện cụm hình thành lên truy vấn đa điểm lần lặp tra cứu Quá trình lặp lại người dùng dừng phản hồi Biểu diễn phân cụm tập ảnh phản hồi Dưới biểu diễn đồ thị, phân cụm phát biểu tự nhiên toán phân hoạch đồ thị Trong số nhiều phương pháp phân hoạch đồ thị phổ [4; 15; 9; 17] áp dụng thành công với nhiều lĩnh vực thị giác máy tính gồm phân tích chuyển động [5], phân đoạn ảnh [9; 17] nhận dạng đối tượng [15] Trong báo này, sử dụng phương pháp sử dụng k véc tơ riêng tính trực tiếp phân hoạch k-way [2] So với phương pháp sử dụng véc tơ riêng thời điểm gọi đệ qui [9], phương pháp sử dụng k véc tơ riêng tốt mặt thực hành Nói chung, phương pháp phân hoạch đồ thị cố gắng tổ chức nút thành nhóm cho độ tương tự phạm vi nhóm cao, và/hoặc độ tương tự nhóm thấp Một đồ thị cho G=(V,E) với ma trận affinity A, cách đơn giản để định lượng giá cho nút phân hoạch thành hai tập rời C C2 (C1C2= C1C2=V) tổng có trọng số cạnh mà kết nối hai tập Tiếp theo, chúng tơi trình bày ngắn gọn phương pháp dựa nghiên cứu A Y Ng cộng (xem chi tiết [2]) −‖𝑠𝑖 −𝑠𝑗 ‖ 2𝜎2 Đầu tiên, từ n điểm liệu ảnh, phương pháp xây dựng ma trận affinity A theo 𝑎𝑖𝑗 = 𝑒 (i ≠ j), aii=0) (1) Ở tham số tỉ lệ 2 điều khiển mức độ lực aij giảm nhanh với khoảng cách si sj, phương pháp chọn tự động xem [2] Một giá trị aij hai ảnh “cao” hai ảnh tương tự Xây dựng ma trận đường chéo D phần tử (i,i) tổng hàng thứ i ma trận A D ma trận chéo với 𝐷𝑖𝑖 = ∑𝑗=1,…,𝑛 𝑎𝑖𝑗 Tính ma trận Laplace chuẩn hóa : L = D-1/2 A D-1/2 Tìm k véc tơ riêng x1,x2,…xk lớn ma trận L, x1=(x11, x12, x13, …, x1n), x2=(x21, x22, x23, …, x2n), ….xk=(xk1, xk2, xk3, …, xkn) xây dựng ma trận X = [x1T ,x2T ,…,xkT ] Є Rn x k , cụ thể: x1T x2T x3T … xkT x11 x21 x31 … xk1 x12 x22 x32 … xk2 x13 x23 x33 … xk3 x3n … … x2n … … … x1n xkn Xây dựng ma trận Y từ X việc chuẩn hóa dòng X chiều dài đơn vị ma trận Y (Yij = Xij (∑j X2 ij ) y1 y11 y12 y13 … y1k y2 y21 y22 y32 … y2k y3 y31 y32 y33 … y3k … … yn2 … … … yk yn1 ynk ) MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN Mỗi dòng ma trận Y xem điểm không gian véc tơ k chiều Đến đây, có n điểm khơng gian Rk, phân cụm (yi)i=1…n không gian Rk thành k cụm C1,C2,…,Ck thông qua K-Means Cuối cùng, gán điểm si tới cụm j hàng thứ i ma trận Y tưởng ứng với cụm j Hình thuật toán phân cụm sử dụng k véc tơ riêng CRISE (Clustering Relevant Images Set using Eigenvectors) thực việc phân cụm tập ảnh liên quan mà người dùng chọn thành k cụm Thuật toán CRISE Input: -Tập ảnh S={s1,s2,…,sn} với si Rn - Số cụm k Output: k cụm: C1,C2,…,Ck Bước 1: Xây dựng ma trận affinity for i1 to n for j1 to n −‖𝑠𝑖 −𝑠𝑗 ‖ if (ij) 𝑎𝑖𝑗 exp( ) 2𝜎 else 𝑎𝑖𝑗 0 Bước 2: Xây dựng ma trận đường chéo ma trận Laplace L for i1 to n 𝑑𝑖𝑖 ∑𝑗=1,…,𝑛 𝑎𝑖𝑗 L D-1/2 A D-1/2 Bước 3: Tìm k véc tơ riêng lớn x1,x2,…,xk ma trận Laplace L for i1 to k 𝑥𝑖 𝐿𝑎𝑟𝑔𝑒𝑠𝑡_𝑒𝑖𝑔𝑒𝑛_𝑣𝑒𝑐𝑡𝑜𝑟𝑠(𝐿) X [x1T ,x2T ,…,xkT ] Bước : Xây dựng ma trận Y từ X for i1 to n for j1 to k 1/2 yij xij/ (∑𝑘 𝑥𝑖𝑘 ) Y [y1 ,y2 ,…,yk ] Bước 5: Phân thành k cụm thông qua K-Means 𝑃 for i1 to n 𝑝𝑖 𝑦𝑖 𝑃𝑃𝑝𝑖 K-Mean(P) Bước 6: Gán si vào cụm for i1 to n if 𝑝𝑖 ∈ (𝐶𝑗 )𝑖=1, 𝑘 𝐶𝑗 ← 𝐶𝑗 ∪ 𝑠𝑖 Return C1,C2,…,Ck Hình 2.2: Thuật tốn CRISE Tìm ảnh đại diện cho cụm Để thực việc tra cứu ảnh hiệu quả, ảnh đại diện thích hợp phải thu cho cụm Ở đây, ảnh chọn đại diện cho cụm phải ảnh mà tương tự với tất ảnh cụm Phát biểu minh họa toán học sau : Với biểu diễn đồ thị ảnh cho G=(V,E) với ma trận affinity A, cho tập cụm ảnh {C1,C2,…,Ck} (tập cụm này phân hoạch V, tức Ci ∩ Cj = ∅, i ≠ 𝑗 ⋃𝑘𝑖=1 𝐶𝑖 = 𝑉) ảnh đại diện 𝐶𝑖 𝑎𝑟𝑔 max ∑𝑗∈𝐶𝑖 𝑎 (2) 𝑗∈𝐶𝑖 𝑗𝑡 Như vậy, với cụm, ảnh đại diện ảnh mà có tổng độ tương tự phạm vi cụm cực đại Khoảng cách từ ảnh đến truy vấn đa điểm Khác với phương pháp tra cứu ảnh khác , phương pháp chúng tơi hình thành lên truy vấn truy vấn đa điểm MQ=(Q1, Q2, Qk) từ đại diện cụm Khi đó, khoảng cách từ ảnh 𝐷𝐼𝑖 đến truy vấn đa điểm MQ=(Q1, Q2, Qk) cực tiểu khoảng cách có trọng số từ ảnh 𝐷𝐼𝑖 đến Qj truy vấn đa điểm tính theo cơng thức (3): 𝐷(𝐷𝐼𝑖 , 𝑀𝑄) = 𝑚𝑖𝑛𝑗=1 𝑘 𝒅𝒊𝒔𝒕(𝐷𝐼𝑖 , 𝑄𝑗 ) (3) Trong công thức (3), 𝒅𝒊𝒔𝒕(𝐷𝐼𝑖 , 𝑄𝑗 ) với i=1 N, j=1 k khoảng cách từ ảnh 𝐷𝐼𝑖 đến điểm truy vấn Qj truy vấn đa điểm MQ Thuật toán tra cứu ảnh sử dụng phân cụm phổ phản hồi liên quan Hình 2.2 mơ tả Thuật tốn tra cứu ảnh hiệu sử dụng phân cụm phổ phản hồi, có tên SCRF Khi người dùng thực truy vấn, phương pháp sử dụng thuật toán MQMRBR [12] để tra cứu tập ảnh Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Phương Văn Cảnh, Ngô Quốc Tạo sở liệu DI cho kết tập ảnh S Người dùng thực việc chọn tập ảnh liên quan E tập S thông qua hàm 𝑼𝒔𝒆𝒓_𝑪𝒉𝒐𝒐𝒔𝒆_𝑹𝒆𝒍𝒆𝒗𝒂𝒏𝒄𝒆𝑰𝒎𝒂𝒈𝒆(), phương pháp phân cụm tập E thành k cụm thơng qua thuật tốn CRIES tìm đại diện cho k cụm thơng qua hàm 𝑪𝒐𝒎𝒑𝒖𝒕𝒆_𝑹𝒆𝒑𝒓𝒆𝒔𝒆𝒏𝒕𝒂𝒕𝒊𝒗𝒆() gán cho tập đại diện Khoảng cách ảnh sở liệu DIi truy vấn đa điểm MQ tính theo cơng thức (3) Q trình tiếp tục người dùng dừng việc chọn ảnh liên quan Thuật toán tra cứu ảnh hiệu sử dụng phân cụm phổ phản hồi liên quan Input: Tập N ảnh sở liệu DI Ảnh truy vấn Q Ouput: Tập ảnh kết S’ MQMRBR(DI, Q, S) // Thực tập ảnh DI với truy vấn Q tập kết S Repeat 𝐸𝑼𝒔𝒆𝒓_𝑪𝒉𝒐𝒐𝒔𝒆_𝑹𝒆𝒍𝒆𝒗𝒂𝒏𝒄𝒆𝑰𝒎𝒂𝒈𝒆(S, n) // người dùng chọn ảnh liên quan từ tập ảnh S 𝐶𝑪𝑹𝑰𝑬𝑺(E, k) // phân tập ảnh liên quan E thành k cụm RI𝑪𝒐𝒎𝒑𝒖𝒕𝒆_𝑹𝒆𝒑𝒓𝒆𝒔𝒆𝒏𝒕𝒂𝒕𝒊𝒗𝒆(C, M) For i←1 to N For j1 to k Tính disi theo công thức sau : 𝑑𝑖𝑠𝑖 = 𝑚𝑖𝑛𝑗=1 𝑘 𝑑𝑖𝑠𝑖𝑗 Sort(DI) // xếp ảnh tập ảnh sở liệu DI theo thứ tự tăng dần khoảng cách so với truy vấn đa điểm MQ Return S’ // danh sách ảnh có khoảng cách nhỏ với MQ Until (User dừng phản hồi) Hình 2.3: Thuật toán tra cứu ảnh hiệu sử dụng phân cụm phổ phản hồi liên quan SCRF THỰC NGHIỆM 3.1 Môi trường thực nghiệm Cơ sở liệu ảnh: Cơ sở liệu sử dụng cho thử nghiệm tổ chức lại từ tập Corel Photo Gallery Tập gồm 80 loại1, ví dụ là: mùa thu, hàng không, cảnh, lâu đài, đám mây, chó, voi, núi băng, linh trưởng, tàu, nhũ đá, hỏa tiến, hổ, tàu hỏa, thác nước,… Tất ảnh tập ảnh có tính chất chứa đối tượng tiền cảnh bật Đa số nhóm gồm 100 ảnh, có vài nhóm có 100 hình ảnh Cỡ ảnh có max(chiều rộng, chiều cao)=120 min(chiều rộng, chiều cao)=80 Véc tơ đặc trưng: Các đặc trưng chia làm hai loại là: đặc trưng màu đặc trưng kết cấu (xem Bảng dưới) Bảng Các loại đặc trưng Các loại đặc trưng Tên đặc trưng Độ dài Loại đặc trưng màu Loại đặc trưng kết cấu Lược đồ màu hsvHistogram 32 Tương quan màu color auto correlogram 64 Gắn kết màu colorMoments Biến đổi wavelet waveletTransform 40 gabor Wavelet gaborWavelet 48 Biểu diễn ảnh: Mỗi ảnh sử dụng biểu diễn năm đặc trưng trực quan gồm ba đặc trưng màu hai đặc trưng kết cấu Các véc tơ đặc trưng tương ứng với kênh bảng hai chiều gồm 10800 dòng (mỗi dòng chứa véc tơ đặc trưng ảnh) 190 cột (độ dài tổng véc tơ đặc trưng) Tập tin cậy (ground truth): Tập tin cậy Corel sử dụng rộng rãi đánh giá CBIR, chúng tơi sử dụng phân loại Corel làm tin cậy nền, tức xem tất ảnh loại Corel liên quan Tập tin cậy gồm cột (có tiêu đề: ID ảnh truy vấn, ID ảnh Sự liên quan) gồm 1,981,320 dòng 3.2 Chiến lược mô phản hồi liên quan Để bắt chước hành vi người, thực mô phản hồi liên quan thử nghiệm Đầu tiên, truy vấn khởi tạo thực để tạo kết truy vấn Chúng mô tương tác người dùng việc chọn n ảnh liên quan từ kết tra cứu khởi tạo dựa vào tập tin cậy (ground truth) Những ảnh liên quan từ https://sites.google.com/site/dctresearch/Home/content-based-image-retrieval (Download lúc 6:32 AM ngày 25/12/2016) MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN lần lặp phản hồi phân thành k cụm thực tìm đại diện cho k cụm Sau k đại diện dùng để xây dựng truy đa điểm phục vụ cho tra cứu Sau kết tra cứu gộp lại để tạo danh sách kết tổng hợp theo chiến lược truy vấn đa điểm tách rời Phản hồi liên quan thực theo chiến lược chọn ảnh liên quan (dựa vào tập tin cậy nền) danh sách kết Trong chiến lược này, trường hợp xấu khơng có ảnh liên quan ảnh truy vấn trường hợp tốt có n-1 ảnh liên quan ngồi ảnh truy vấn Do đó, số lượng ảnh liên quan dao động từ đến n ảnh (bao gồm ảnh truy vấn) Chiến lược sử dụng để mô người dùng thực tế thực nghiệm 3.3 Thực truy vấn đánh giá Trong thực nghiệm chúng tơi, yếu tố lựa chọn sau: Một truy vấn khởi tạo đưa vào hệ thống, kết tương ứng với truy vấn hiển thị cho người dùng Sau đó, người dùng phản hổi danh sách kết tương ứng với truy vấn khởi tạo để hình thành danh sách ảnh phản hồi Hệ thống thực phân cụm danh sách ảnh phản hồi tìm đại diễn cho cụm Đại diện cụm xây dựng lên truy vấn đa điểm lần lặp truy vấn Trong pha tính khoảng cách, khoảng cách từ ảnh sở liệu đến truy vấn đa điểm giá trị cực tiểu khoảng cách từ ảnh sở liệu tới đại diện truy vấn đa điểm để lấy ảnh nằm rải rác tồn khơng gian đặc trưng Quá trình dừng lại người dùng khơng tiếp tục phản hồi Mơ hình hệ thống thực trình thể Hình 3.3 Q1 Q Máy tìm kiếm Phân cụm ảnh phản hồi S Q2 Máy tìm kiếm R Tìm đại diện Qk Hình 3.3 Mơ hình hệ thống Độ xác trung bình mức 100 ảnh trả sử dụng để đánh giá Bốn thiết lập phản hồi sử dụng để so sánh 1, 2, 3, số đại diện truy vấn đa điểm chiến lược phản hồi, có cấu hình Ba phương pháp khác sử dụng để so sánh bao gồm Jin&French (phương pháp sử dụng truy vấn tách rời) [6], hệ thống ERIN [12] với hệ thống SCRF mà đề xuất Bảng Bảng kết phương pháp số đại diện truy vấn đa điểm lần phản hồi Phương pháp Jin&French Độ xác theo số đại diện truy vấn đa điểm 0.24 0.266 0.28 0.29 ERIN 0.24 0.29 0.31 0.33 SCRF 0.35168 0.43178 0.48154 0.48278 Trong Bảng 2, thể độ xác trung bình ba phương pháp Jin&French, ERIN phương pháp SCRF mức 1, 2, 3, số đại diện truy vấn đa điểm với phương pháp số cụm số truy vấn IV Kết luận Chúng tập trung vào đề xuất phương pháp, có tên SCRF, giải hai vấn đề là: (1) tìm ảnh liên quan ngữ nghĩa nằm rải rác tồn khơng gian đặc trưng với độ xác cao (2) thời gian tra cứu không tăng theo số phản hồi người dùng Để giải hai vấn đề này, tận dụng đánh giá người dùng để hình thành tập ảnh liên quan phân cụm chúng thành cụm ngữ nghĩa nằm rải rác tồn khơng gian đặc trưng đại diện cụm hình thành lên truy vấn đa điểm Phương pháp sử dụng thuật tốn phân cụm phổ có ưu điểm phân cụm ảnh kết nối với khơng thiết phải nhóm vào đường bao lồi nên thực tốt thuật tốn phân cụm truyền thống Từ tra cứu ảnh nằm rải rác toàn khơng gian đặc trưng nâng cao độ xác Kết thực nghiệm sở liệu đặc trưng gồm 10.800 ảnh phương pháp đề xuất SCRF cung cấp độ xác cao hẳn so với phương pháp Jin&French phương pháp ERIN Độ xác tỉ số số ảnh liên quan với ảnh truy vấn tập kết trả tổng số ảnh trả Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Phương Văn Cảnh, Ngô Quốc Tạo Chúng xin chân thành cảm ơn đề tài: “Nghiên cứu phương pháp tra cứu ảnh dựa vào đa truy vấn”, mã số PTNTDD17.04 hộ trợ TÀI LIỆU THAM KHẢO [1] Andre B, Vercauteren T, Buchner AM, Wallace MB, Ayache N (2012) Learning semantic and visual similarity for endomicroscopy video retrieval IEEE Transactions on Medical Imaging 31(6):1276–88 [2] A Y Ng, M I Jordan, and Y Weiss On spectral clustering: Analysis and algorithm In Proceedings Of Neural Information Processing Systems (NIPS), 2001 [3] A.W.M Smeulders, M Worring, A Gupta, R Jain, Content-based image retrieval at the end of the early years, IEEE Trans Pattern Anal Mach Intell 22 (12) (2000) 1349–1380 [4] Bartolini, I., Ciacci, P., Waas, F., (2001) Feedbackbypass: A new approach to interactive similarity query processing In: Proceedings of the 27th VLDB Conference, Roma, Italy, pp 201–210 [5] J Costeira and T Kanade,“A multibody factorization method for motion analysis,”inProc Int Conf Computer Vision, 1995, pp 1071–1076 [6] Jin, X., & French, J.C, (2005) "Improving Image Retrieval Effectiveness via Multiple Queries," Multimedia Tools and Applications, vol 26, pp 221-245 [7] K A Hua, N Yu, and D Liu (2006) Query Decomposition: A Multiple Neighborhood Approach to Relevance Feedback Processing in Content-based Image Retrieval InProceedings of the IEEE ICDE Conference [8] Ishikawa, Y., Subramanya, R., Faloutsos, C., (1998) Mind Reader: Querying databases through multiple examples In: Proceedings of the 24th VLDB Conference, New York, USA, pp 218–227 [9] J Shi and J Malik,“Normalized cuts and image segmentation,”IEEE Trans Pattern Anal Mach Intell., vol 22, no 8, pp 888–905, Aug 2000 [10] Norton, D.; Heath, D.; and Ventura, D (2016) Annotating images with emotional adjectives using features that summarize local interest points.IEEE Transactions on Affective Computing, Under Review [11] M Ortega-Binderberger and S Mehrotra (2004) Relevance feedback techniques in the MARS image retrieval systems Multimedia Systems, 9(6):535–547 [12] Quynh N.H., Quynh D.T.T., Tao N.Q., Dung C.V., Canh P.V., Sơn A.H (2016) Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả, Kỷ yếu hội nghị Quốc gia lần thứ Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) [13] Rui, Y., Huang, T., Ortega, M., Mehrotra, S., (1998) Relevance feedback: A power tool for interactive contentbased image retrieval IEEE Transactions on Circuits and Systems for Video Technology (5), pp 644–655 [14] Rui, Y., Huang, T., Chang, S.F., (1999) Image Retrieval: current techniques, promising directions and open issues Journal of Visual Communication and Image Representation 10, 39–62 [15] S Sarkar and P Soundararajan,“Supervised learning of large percep-tual organization: graph spectral partitioning and learning automata,”IEEE Trans Pattern Anal Mach Intell., vol 22, no 5, pp 504–525,May 2000 [16] T Gevers and A Smeulders (2004) Content-based image retrieval: An overview In G Medioni and S B Kang, editors, Emerging Topics in Computer Vision Prentice Hall [17] Y Weiss,“Segmentation using eigenvectors: a unifying view,”inProc Int Conf Computer Vision, 1999, pp 975– 982 [18] Flickner, M., Sawhney, H., Niblack, W., et al., (1995) Query by image and video content: The QBIC system IEEE Computer Magazine 28 (9), 23–32 [19] Rocchio, J.J., (1971) Relevance feedback in information retrieval In: Salton, G (Ed.), The SMART Retrieval System—Experiments in Automatic Document Processing Prentice Hall, Englewood Cliffs, NJ, pp 313–323 [20] O Chum, J Philbin, J Sivic, M Isard, and A Zisserman (2007) Total recall: Automatic query expansion with a generative feature model for object retrieval In Proc ICCV [21] Porkaew, K., Chakrabarti, K., (1999) Query refinement for multimedia similarity retrieval in MARS In: Proceedings of the 7th ACM Multimedia Conference, Orlando, Florida, pp 235–238 [22] R Arandjelovi´c and A Zisserman (2012) Three things everyone should know to improve object retrieval In Proc CVPR [23] Charikar, M., Chekuri, C., Feder, T., Motwani, R., (1997) Incremental clustering and dynamic information retrieval In: Proceedings of the ACM STOC Conference, pp 626–635 MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN [24] Quynh Dao Thi Thuy, Quynh Nguyen Huu, Canh Phuong Van, Tao Ngo Quoc (2017), An efficient semantic – Related image retrieval method, Expert Systems with Applications, Volume 72, pp 30-41 AN EFFICIENT IMAGE RETRIEVAL METHOD USING SPECTRAL CLUSTERING IN RELEVANT FEEDBACK Nguyen Huu Quynh*, Dao Thi Thuy Quynh**, Phương Văn Cảnh*, Ngo Quoc Tao*** * Information Technology Faculty, Electric Power University, ** Thainguyen University of Science, ** * Institute of Information Technology, Vietnamese Academy of Science and Technology, quynhnh@epu.edu.vn, quynhdtt@tnus.edu.vn, canhpv@epu.edu.vn, nqtao@ioit.ac.vn Abstract - Many previous techniques were designed to retrieve images in a certain neighborhood of the query image, thus bypassing the related images in the whole feature space Besides, some designed techniques only care about similarity between query image and data image that neglects similarities among data images In this paper, we propose an efficient image retrieval method using spectral clustering in relevant feedback (SCRF) which has advantages that not require the user to provide initial queries correctly but also retrieve relevant images in the entire feature space In addition, our method fully exploit the similarity information of feedback image and contrust multipoints query in next query Furthermore, the retrieval time of our method also is not increase with the number of user feedback We also provide experimental results to demonstrate the effectiveness of our method Keywords- Content based image retrieval, relevant feedback, multiponts query, spectral clustering View publication stats ... 6:32 AM ngày 25/12/2016) MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN lần lặp phản hồi phân thành k cụm thực tìm đại diện cho k cụm Sau k đại diện dùng để... Hữu Quỳnh, Phương Văn Cảnh, Ngô Quốc Tạo MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN Đào Thị Thúy Quỳnh *, Nguyễn Hữu Quỳnh **, Phương Văn Cảnh**, Ngô Quốc... yn1 ynk ) MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HIỆU QUẢ SỬ DỤNG PHÂN CỤM PHỔ TRONG PHẢN HỒI LIÊN QUAN Mỗi dòng ma trận Y xem điểm không gian véc tơ k chiều Đến đây, có n điểm không gian Rk, phân cụm (yi)i=1…n