1. Trang chủ
  2. » Công Nghệ Thông Tin

Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả

9 20 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 734,11 KB

Nội dung

Bài viết đề xuất phương pháp tra cứu ảnh, có tên ERIN (Efficient Representation of Information Need). Phương pháp có ưu điểm biểu diễn tốt nhu cầu thông tin của người dùng do sử dụng nhiều ảnh và nhiều biểu diễn. Bên cạnh đó, phương pháp xác định được độ quan trọng của mỗi biểu diễn ảnh và giảm khoảng cách ngữ nghĩa giữa đặc trưng mức thấp và khái niệm mức cao dẫn đến nâng cao chất lượng hệ thống tra cứu ảnh. Thực nghiệm trên cơ sở dữ liệu ảnh gồm 10.800 ảnh.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00054 MỘT PHƯƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU THÔNG TIN NGƯỜI DÙNG HIỆU QUẢ Nguyễn Hữu Quỳnh1, Đào Thị Thúy Quỳnh2, Ngô Quốc Tạo3, Cù Việt Dũng1, Phƣơng Văn Cảnh1, An Hồng Sơn4 Khoa Công nghệ thông tin, Trƣờng Đại học Điện lực, Trƣờng Đại học Khoa học, Đại học Thái Nguyên, Viện Công nghệ thông tin, Viện Hàn Lâm Khoa học Công nghệ Việt Nam, Trƣờng Đại học Công nghiệp Việt Hung quynhnh@epu.edu.vn, quynhdtt@tnus.edu.vn, nqtao@ioit.ac.vn, dungcv@epu.edu.vn, canhpv@epu.edu.vn, sonanhongvh@gmail.com TÓM TẮT— Hầu hết cách tiếp cận tra cứu ảnh dựa vào nội dung truyền thống không biểu diễn hiệu nhu cầu thông tin người dùng Lý hạn chế là: (a) nhu cầu thông tin người dùng phong phú, khó biểu diễn nhu cầu với ảnh truy vấn, (b) ảnh thường gồm nhiều biểu diễn với độ quan trọng khác phương pháp thường coi độ quan trọng ngang nhau, (c) đặc trưng mức thấp không phản ánh thông tin ngữ nghĩa ảnh (d) hàm khoảng cách kết hợp với đặc trưng mức thấp nhận thức độ tương tự trực quan người dùng Nhằm khắc phục hạn chế trên, đề xuất phương pháp tra cứu ảnh, có tên ERIN (Efficient Representation of Information Need) Phương pháp có ưu điểm biểu diễn tốt nhu cầu thông tin người dùng sử dụng nhiều ảnh nhiều biểu diễn Bên cạnh đó, phương pháp xác định độ quan trọng biểu diễn ảnh giảm khoảng cách ngữ nghĩa đặc trưng mức thấp khái niệm mức cao dẫn đến nâng cao chất lượng hệ thống tra cứu ảnh Chúng thực nghiệm sở liệu ảnh gồm 10.800 ảnh Các kết thực nghiệm kỹ thuật cải tiến hiệu hệ thống tra cứu ảnh dựa vào nội dung so với phương pháp có cho kết gần với nhu cầu người dùng Từ khóa— Tra cứu ảnh dựa vào nội dung, biểu diễn nhu cầu thông tin, đa truy vấn, véc tơ đặc trưng I GIỚI THIỆU Tra cứu ảnh dựa vào nội dung (CBIR-Content Based Image Retrieval) nhận đƣợc nhiều quan tâm thập kỷ qua, nhu cầu xử lý hiệu lƣợng liệu đa phƣơng tiện khổng lồ tăng nhanh chóng Nhiều hệ thống CBIR đƣợc phát triển, gồm QBIC [19], Photobook [4], MARS [25] NeTra [23], PicHunter [18] , Blobworld [6], VisualSEEK [28], SIMPLIcity [22] hệ thống khác [15, 32, 17, 16, 20, 24, 26, 21] Trong hệ thống CBIR tiêu biểu, đặc trƣng ảnh trực quan mức thấp (tức màu, kết cấu hình dạng) đƣợc trích rút tự động cho mục tiêu đánh số mô tả ảnh Để tìm kiếm ảnh mong muốn, ngƣời dùng đƣa ảnh làm mẫu hệ thống trả lại tập ảnh tƣơng tự dựa vào đặc trƣng đƣợc trích rút Cho dù nhiều thuật tốn phức tạp đƣợc thiết kế để mô tả đặc trƣng màu, hình dạng kết cấu, thuật tốn khơng thể mơ hình tƣơng đƣơng ngữ nghĩa ảnh có nhiều giới hạn giải sở liệu ảnh nội dung rộng [2] Các thực nghiệm mở rộng hệ thống CBIR nội dung mức thấp thƣờng thất bại mô tả khái niệm ngữ nghĩa mức cao ý nghĩa ngƣời dùng [3] Do đó, hiệu CBIR xa so với kỳ vọng ngƣời dùng Trong [34], Eakins đề cập ba mức truy vấn CBIR, cụ thể: Mức 1: Tra cứu đặc trƣng gốc nhƣ màu, kết cấu, hình dạng vị trí khơng gian thành phần ảnh Truy vấn tiêu biểu truy vấn mẫu, ―tìm ảnh nhƣ này‖; Mức 2: Tra cứu đối tƣợng có loại cho đƣợc nhận biết đặc trƣng gốc, với độ suy diễn logic Chẳng hạn, ―tìm ảnh có chứa hoa hồng‖; Mức 3: Tra cứu thuộc tính tóm tắt, bao gồm lƣợng đáng kể lập luận mức cao mục đích đối tƣợng cảnh đƣợc miêu tả Điều bao gồm tra cứu kiện đặt tên, ảnh với xúc cảm tôn giáo, Truy vấn mẫu, ―tìm ảnh đám đông vui nhộn‖ Mức đƣợc gọi tra cứu ảnh ngữ nghĩa khoảng trống mức khoảng cách ngữ nghĩa [1] Cụ thể hơn, khác khả mô tả đặc trƣng ảnh mức thấp bị giới hạn phong phú ngữ nghĩa ngƣời dùng đƣợc gọi khoảng cách ngữ nghĩa [5,27,35] Các kỹ thuật việc rút ngắn ―khoảng cách ngữ nghĩa‖ gồm có loại chính: (1) sử dụng thể đối tƣợng để xác định khái niệm mức cao, (2) sử dụng công cụ học máy để kết hợp đặc trƣng mức thấp với khái niệm truy vấn, (3) đƣa phản hồi liên quan vào lặp tra cứu cho học ý định ngƣời dùng, (4) sinh mẫu ngữ nghĩa để hỗ trợ tra cứu ảnh mức cao, (5) Cách sử dụng nội dung trực quan ảnh thông tin văn thu đƣợc từ Web cho tra cứu ảnh Web Phản hồi liên quan trình trực tuyến mà cố gắng học mục đích ngƣời dùng q trình cơng cụ mạnh đƣợc sử dụng truyền thống hệ thống tra cứu thơng tin [29] Nó đƣợc giới thiệu CBIR khoảng đầu năm 1990, với mục đích mang ngƣời dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa mà truy vấn biểu diễn ngƣời dùng nghĩ Bằng việc tiếp tục học thông qua tƣơng tác với ngƣời dùng cuối, phản hồi liên quan đƣợc cung cấp cải tiến hiệu đáng kể hệ thống CBIR [30,31] Một viễn cảnh tiêu biểu cho RF CBIR nhƣ sau [33]: Nguyễn Hữu Quỳnh, Đào Thị Thúy Quỳnh , Ngô Quốc Tạo, Cù Việt Dũng, Phƣơng Văn Cảnh 445 (1) Hệ thống cung cấp kết tra cứu khởi tạo thông qua truy vấn mẫu, phác thảo,… (2) Ngƣời dùng đánh giá kết có liên quan đến ảnh truy vấn hay không độ liên quan (3) Thuật toán học máy đƣợc áp dụng để học phản hồi ngƣời dùng Sau quay bƣớc (2) (2)-(3) đƣợc lặp ngƣời dùng thỏa mãn với kết Hình lƣợc đồ đơn giản hệ thống CBIR với phản hồi liên quan Truy vấn ngƣời dùng khởi tạo (ảnh mẫu từ khóa) Lặp phản hồi Các kết tra cứu Phản hồi ngƣời dùng Cơ sở liệu ảnh Các mẫu đƣợc gán nhãn (các ảnh liên quan hay không) Học (điều chỉnh tham số truy vấn) Các kết tra cứu cuối Hình Tra cứu ảnh dựa vào nội dung với phản hồi liên quan Các đối tƣợng trả so với truy vấn ngƣời dùng nhiều hệ thống tra cứu ảnh dựa vào nội dung có thƣờng khơng thỏa mãn nhu cầu thông tin ngƣời dùng [7, 8, 9, 10] Điều số lý sau: Lý thứ nhất, nhu cầu thông tin ngƣời dùng phong phú, khó biểu diễn nhu cầu với ảnh truy vấn Điều rõ ràng thơng qua việc xét mơ hình tra cứu tổng quát Hình Để tra cứu theo mơ hình tổng qt này, cần thực hai giai đoạn nhƣ sau: Giai đoạn thứ nhất, ngƣời dùng xác định nhu cầu thơng tin (chẳng hạn nhu cầu muốn tìm tất bơng hoa hồng sở liệu), sau ngƣời dùng chọn ảnh truy vấn biểu diễn nhu cầu thông tin vừa xác định Giai đoạn thứ hai, ảnh mà ngƣời dùng vừa chọn đƣợc sử dụng làm ảnh truy vấn phƣơng pháp tra cứu ảnh khác đƣợc thực tập kết quả: kết 1, kết 2,… kết n Ngƣời dùng xác định nhu cầu thông tin Giai Ngƣời dùng chọn ảnh để biểu diễn tốt nhu cầu thơng tin Ảnh truy vấn Hệ thống CBIR Kết Kết Hình Mơ hình tra cứu tổng quát Kết n MỘT PHƢƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU THÔNG TIN NGƢỜI DÙNG HIỆU QUẢ 446 Chúng ta nhận thấy, mô hình tra cứu tổng quát Hình 2, ảnh truy vấn không biểu diễn tốt nhu cầu thông tin phong phú ngƣời dùng, cho dù phƣơng pháp tra cứu có cho tập kết (gồm kết 1, kết 2,… kết n) có độ xác 100% so với ảnh truy vấn (điều khơng có thực tế) tập kết khơng phải mong muốn ngƣời dùng Chính lý mà phƣơng pháp tra cứu sử dụng ảnh truy vấn thƣờng cho tập kết không đáp ứng kỳ vọng ngƣời dùng; Lý thứ hai, ảnh thƣờng gồm nhiều biểu diễn với độ quan trọng khác nhƣng phƣơng pháp thƣờng coi độ quan trọng ngang lý cuối đặc trƣng mức thấp không phản ánh đƣợc thông tin ngữ nghĩa ảnh hàm khoảng cách kết hợp với đặc trƣng mức thấp đƣợc nhận thức độ tƣơng tự trực quan ngƣời dùng Các lý động lực để chúng tơi đề xuất phƣơng pháp tra cứu ảnh có tên ERIN (Efficient Representation of Information Need) có ƣu điểm biểu diễn tốt nhu cầu thông tin ngƣời dùng sử dụng nhiều ảnh nhiều điểm để biểu diễn, xác định đƣợc độ quan trọng biểu diễn ảnh giảm khoảng cách ngữ nghĩa thông qua kỹ thuật phản hồi liên quan dẫn đến nâng cao chất lƣợng hệ thống tra cứu ảnh Phần lại báo đƣợc tổ chức nhƣ sau: phần 2, trình bày chi tiết phƣơng pháp tra cứu ảnh ERIN dựa vào đa truy vấn đa biểu diễn Phần 3, trình bày thuật tốn đề xuất cải tiến độ xác tra cứu sử dụng biểu diễn nhu cầu thông tin ngƣời dùng hiệu Phần 4, mô tả kết thực nghiệm cuối kết luận đƣợc đƣa phần II PHƢƠNG PHÁP TRA CỨU ẢNH DỰA VÀO ĐA TRUY VẤN VÀ ĐA BIỂU DIỄN Từ số ảnh ngƣời dùng đƣa vào làm truy vấn mà biểu diễn nhu cầu thơng tin họ, tập ảnh kết tƣơng ứng với truy vấn đó, cần có mơ hình ảnh sở liệu, mơ hình đa truy vấn đa biểu diễn mơ hình tra cứu Trong phần này, chúng tơi trình bày ba mơ hình này, thuật toán xác định độ quan trọng biểu diễn thuật toán tra cứu ảnh sử dụng đa truy vấn đa biểu diễn Mơ hình biểu diễn ảnh sở liệu: Trƣớc tra cứu ảnh, ảnh tập ảnh phải đƣợc biểu diễn lƣu trữ sở liệu đặc trƣng Để thực đƣợc việc đó, cần có mơ hình biểu diễn ảnh tập ảnh Kí hiệu ảnh sở liệu DIi, ảnh DIi có tập biểu diễn } với biểu diễn đặc trƣng j ảnh DIi, biểu diễn có trọng số uij (đƣợc xác định qua thuật toán IR Hình 6) gắn với biểu diễn đặc trƣng j ảnh DIi so với biểu diễn đặc trƣng khác ảnh DIi Hình minh họa trực quan mơ hình DI DI1 R11 DI2 R1m R21 DIN R2m RN1 RNm Hình Mơ hình biểu diễn ảnh sở liệu Mơ hình biểu diễn đa truy vấn đa biểu diễn: Sau có mơ hình biểu diễn ảnh sở liệu, bƣớc tiếp theo, cần có mơ hình biểu diễn đa truy vấn đa biểu diễn MQ (Multipoint Query) Mỗi truy vấn gồm M ảnh đại diện (đƣợc ký hiệu RIk), ảnh đại diện RIk đƣợc biểu diễn tƣơng tự nhƣ ảnh sở liệu, tức ảnh RIk đƣợc biểu diễn tập biểu diễn }, biểu diễn đặc trƣng j ảnh RIk, biểu diễn có trọng số vkj gắn với biểu diễn đặc trƣng j ảnh RIk so với biểu diễn đặc trƣng khác ảnh RIk Mơ hình tra cứu đa truy vấn đa biểu diễn: Trong phƣơng pháp này, đại diện truy vấn ảnh sở liệu có cấu trúc Độ tƣơng tự đa truy vấn ảnh sở liệu đƣợc tính tổng có trọng số độ tƣơng tự biểu diễn đặc trƣng riêng lẻ Kết cuối tra cứu danh sách ảnh đƣợc phân hạng theo thứ tự giảm dần độ tƣơng tự so với ảnh truy vấn Cho MQ nút truy vấn RIk với k=1 M (các nút đại diện) MQ Cho RIk (các nút biểu diễn đặc trƣng) Cho vi trọng số nút đại diện Cho vkj trọng số nút biểu diễn đặc trƣng Hình minh họa trực quan mơ hình Nguyễn Hữu Quỳnh, Đào Thị Thúy Quỳnh , Ngô Quốc Tạo, Cù Việt Dũng, Phƣơng Văn Cảnh 447 MQ RI1 R11 RI2 R1m R21 RIM R2m RM1 RMm Hình Mơ hình biểu diễn đa truy vấn đa biểu diễn Kí hiệu disik khoảng cách ảnh sở liệu thứ i đến đại diện thứ k truy vấn đƣợc tính theo cơng thức (1) sau: ∑ (1) Kí hiệu disi khoảng cách ảnh sở liệu thứ i đến truy vấn đƣợc tính theo cơng thức sau: (2) Trên sở mơ hình ảnh sở liệu, mơ hình truy vấn đa điểm mơ hình tra cứu, chúng tơi xây dựng thuật tốn tra cứu dựa vào đa truy vấn đa biểu diễn Thuật tốn, có tên MQMRBR (Multiple Queries and Multiple Representations Based Retrieval), tính khoảng cách đa truy vấn ảnh sở liệu, sau cho danh sách đƣợc phân hạng theo thứ tự tăng dần khoảng cách Thuật tốn MQMRBR đƣợc mơ tả nhƣ Hình Thuật tốn tra cứu ảnh dựa vào đa truy vấn đa biểu diễn MQMRBR Hình thực nhƣ sau: Đầu tiên, pha xây dựng mơ hình biểu diễn ảnh sở liệu đƣợc thực Trong pha này, ảnh DIi tập ảnh sở liệu DI gồm N ảnh, thực trích rút biểu diễn thứ j ( ) ảnh RIi thông qua hàm Đi với biểu diễn thứ j trọng số (để xác định độ quan trọng biểu diễn thứ j, lúc ban đầu có độ quan trọng nhƣ nhau) đƣợc gán thơng qua thủ tục Weight_Assign() Sau đó, pha xây dựng mơ hình biểu diễn truy vấn đa điểm đƣợc tiến hành Trong pha này, với ảnh tập M ảnh đại diện truy vấn MQ ngƣời dùng đƣa vào có trọng số để xác định đại diện độ quan trọng đại diện thứ k, trọng số đƣợc tính tốn thơng qua thủ tục RI_Weight_Compute() Trên ảnh , thực trích rút biểu diễn thứ j ( ) thông qua hàm trọng số tƣơng ứng với biểu diễn (lúc ban đầu có độ quan trọng ngang nhau) đƣợc tính tốn thơng qua hàm R_Weight_Compute() Cuối pha tra cứu Trong pha này, thực tính khoảng cách biểu diễn thứ j ảnh DIi ( ảnh RIk ( ) thông qua hàm () nhân với đối ngẫu trọng số để đƣợc khoảng cách DIi RIk, sau lƣu vào Khoảng cách ảnh sở liệu truy vấn đa điểm MQ khoảng cách cực tiểu có trọng số khoảng cách riêng ảnh sở liệu DIi ảnh đại diện RIk truy vấn, giá trị đƣợc lƣu trữ vào disi Sau có khoảng cách ảnh sở liệu DIi với truy vấn đa điểm MQ, thủ tục Sort() xếp ảnh DIi tập ảnh DI theo thứ tự tăng dần khoảng cách so với truy vấn MQ trả tập ảnh kết S Thuật toán MQMRBR (Multiple Queries and Multiple Representations Based Retrieval) Input: Tập N ảnh sở liệu Tập M ảnh truy vấn Số đặc trƣng Ouput: Tập ảnh kết DI MQ m S Xây dựng mơ hình biểu diễn ảnh sở liệu For i1 to N For j1 to m {  // thực trích rút biểu diễn đặc trƣng j ảnh sở liệu thứ i Weight_Assign( ) // lúc đầu gán trọng số cho biểu diễn đặc trƣng thứ j ảnh sở liệu thứ i } MỘT PHƢƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU THÔNG TIN NGƢỜI DÙNG HIỆU QUẢ 448 Xây dựng mơ hình biểu diễn truy vấn đa điểm For k=1 to M For j=1 to m {  // trích rút biểu diễn đặc trƣng j ảnh đại diện thứ k thuộc truy vấn đa điểm RI_Weight_Compute( ) // tính trọng số cho ảnh đại diện thứ k truy vấn đa điểm R_Weight_Compute( ) // lúc đầu gán trọng số cho biểu diễn đặc trƣng thứ j ảnh đại diện thứ k } Thực mơ hình tra cứu truy vấn đa điểm For i to N { For k to M { For j to m } } Sort(DI) // xếp ảnh tập ảnh DI theo thứ tự tăng dần khoảng cách so với truy vấn đa điểm MQ Return S // danh sách ảnh có khoảng cách nhỏ so với MQ Hình Thuật tốn tra cứu ảnh dựa vào đa truy vấn đa biểu diễn MQMRBR III CẢI TIẾN ĐỘ CHÍNH XÁC TRA CỨU Trong số k ảnh đƣợc trả việc thực đa truy vấn đa biểu diễn thuật toán MQMRBR, ngƣời dùng chọn n ảnh liên quan Dựa vào n điểm liên quan này, gọi thuật toán IR để xác định độ quan trọng biểu diễn Một số đại diện đƣợc tính tốn số n ảnh liên quan để xây dựng đa truy vấn Việc tính toán đại diện đƣợc thực cách phân cụm tập n đối tƣợng ảnh liên quan chọn trọng tâm cụm làm đại diện Thuật toán phân cụm đƣợc sử dụng thuật toán [11], có tính chất bảo tồn đƣợc trọng tâm đảm bảo đại diện đƣợc lựa chọn điểm từ tập liên quan Thuật toán nhận đầu vào M cụm mong muốn, điểm đƣợc thêm vào, thuật tốn tính tốn tập cụm trì số cụm nhỏ M Tiếp theo, phƣơng pháp tính khoảng cách đối tƣợng ảnh đa truy vấn danh sách đƣợc phân hạng theo thứ tự tăng dần khoảng cách so với truy vấn Quá trình đƣợc lặp lại ngƣời dùng dừng phản hồi Trọng số tƣơng ứng với đại diện RIk đa truy vấn số đối tƣợng ảnh liên quan cụm tƣơng ứng Thuật tốn tính độ quan trọng biểu diễn: Mỗi ảnh gồm nhiều biểu diễn đƣợc biểu diễn điểm không gian đặc trƣng Thông thƣờng, phƣơng pháp coi biểu diễn có độ quan trọng nhƣ Điều không phản ảnh thực tế có số biểu diễn quan trọng biểu diễn cịn lại Do đó, chúng tơi quan tâm tới việc xác định độ quan trọng biểu diễn ảnh Ý tƣởng việc xác định độ quan trọng biểu diễn dựa vào phản hồi ngƣời dùng Khi ngƣời dùng phản hồi số ảnh liên quan ngữ nghĩa với ảnh truy vấn, coi ảnh điểm liệu khơng gian xét hình bao điểm liệu Một hình bao điểm nhƣ đƣợc chiếu xuống trục tƣơng ứng với biểu diễn, sau tính phƣơng sai điểm theo trục (sẽ biết đƣợc độ phân tán liệu theo trục không gian lớn có nghĩa độ quan trọng theo trục nhỏ) Do đó, độ quan trọng biểu diễn không gian nghịch đảo phƣơng sai điểm theo trục Chúng tơi trình bày thuật toán IR (Importance of Representation) để xác định độ quan trọng biểu diễn Thuật tốn tính độ quan trọng biểu diễn khơng gian biểu diễn RS Hình dƣới thuật toán IR Thuật toán IR - Importance of Representation Input: Tập n điểm liệu Tập biểu diễn Số biểu diễn Ouput: Trọng số biểu diễn thứ j C RS m Weightj Nguyễn Hữu Quỳnh, Đào Thị Thúy Quỳnh , Ngô Quốc Tạo, Cù Việt Dũng, Phƣơng Văn Cảnh 449 For j1 to m {  ∑  ∑ Weightj  // trọng số biểu diễn thứ j } Hình Thuật tốn tính độ quan trọng biểu diễn IR Thuật tốn IR Hình 6, lấy đầu vào n điểm (ảnh) cụm không gian RS Lúc này, theo đặc trƣng thứ j không gian RS có n điểm liệu thuật tốn tính phƣơng sai n điểm liệu theo trục j khơng gian RS Sau tính đƣợc giá trị phƣơng sai , thuật toán đƣa độ quan trọng biểu diễn j không gian RS Độ quan trọng biểu diễn theo trục j đƣợc tính gán cho Weightj Hình dƣới mơ tả thuật tốn tra cứu ảnh sử dụng biểu diễn nhu cầu thông tin ngƣời dùng hiệu có tên ERIN (Efficient Representation of Information Need) Thuật toán tra cứu ảnh sử dụng biểu diễn nhu cầu thơng tin ngƣời dùng hiệu quả, có tên ERIN Hình 7, đƣợc thực nhƣ sau: Khi ngƣời dùng gửi tập ảnh làm đa truy vấn MQ, phƣơng pháp sử dụng thuật toán MQMRBR để tra cứu tập ảnh sở liệu DI cho kết tập ảnh S Ngƣời dùng thực việc chọn tập ảnh liên quan E tập S thông qua hàm , phƣơng pháp phân cụm tập E thành M cụm thông qua hàm Clustering() gán cho C, tâm m cụm đƣợc tính tốn thơng qua hàm gán cho tập đại diện RI Trọng số cho tâm cụm thứ k đƣợc tính thơng qua hàm RI_Weight_Compute() trọng số cho biểu diễn thứ j tâm cụm thứ k đƣợc tính qua hàm IR() Khoảng cách ảnh sở liệu DIi truy vấn MQ đƣợc tính theo cơng thức (1) (2) Q trình tiếp tục ngƣời dùng dừng việc chọn ảnh liên quan Thuật toán ERIN (Efficient Representation of Information Need) Input: Tập N ảnh sở liệu Tập M ảnh đại diện truy vấn Tập biểu diễn Số biểu diễn Ouput: Tập ảnh kết DI MQ RS m S’ MQMRBR(DI, MQ, S) // Thực tập ảnh DI với truy vấn đa điểm MQ tập kết S Repeat  // ngƣời dùng chọn ảnh liên quan từ tập ảnh S  // phân tập ảnh liên quan E thành M cụm RI For k ←1 to M For j←1 to m { RI_Weight_Compute( ) // tính trọng số cho tâm cụm thứ k truy vấn đa điểm IR(E, RS, m, Weightj) tính trọng số cho biểu diễn đặc trƣng thứ j tâm cụm thứ k } Tính disik theo cơng thức (1): ∑ Tính disi theo công thức sau (2): Sort(DI) // xếp ảnh tập ảnh sở liệu DI theo thứ tự tăng dần khoảng cách so với truy vấn đa điểm MQ Return S’ // k ảnh có khoảng cách nhỏ với MQ Until (User dừng phản hồi) Hình Thuật tốn tra cứu ảnh sử dụng biểu diễn nhu cầu thông tin ngƣời dùng hiệu ERIN 450 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU THÔNG TIN NGƢỜI DÙNG HIỆU QUẢ IV THỰC NGHIỆM Hệ thống đƣợc cài đặt máy tính PC Pentium G3220 3.00 GHz chạy hệ điều hành Windows 8.1 với sở liệu ảnh gồm 10.800 ảnh1 Các ảnh đƣợc lƣu trữ theo định dạng JPEG với cỡ 120×80 đƣợc lƣợng hóa thành 16 màu Cơ sở liệu bao gồm 80 chủ đề: biển, thẻ, ngựa, bƣớm, hoa, vận động viên thể thao, lƣớt ván, thuyền buồm, hoa quả, cờ, chim, nhà, thác nƣớc, gấu, linh dƣơng đầu bị, tơ, núi - hồng hôn, cánh rừng,… Cơ sở liệu đƣợc sử dụng để minh chứng xác kỹ thuật Các ảnh 50 ảnh đƣợc tra cứu đƣợc phân thành mẫu tích cực tiêu cực (theo đánh giá ngƣời dùng) Chúng so sánh nghiên cứu với nghiên cứu CBsIR [13] CCH [12] Để cung cấp kết đáng tin cậy, ảnh từ mƣời chín loại đƣợc chọn ngẫu nhiên làm ảnh truy vấn Đồ thị triệu hồi xác [14] đƣợc sử dụng để so sánh ERIN, CBsIR CCH Sự xác xác trung bình tổng truy vấn kết đƣợc Hình Ký hiệu R tập ảnh liên quan sở liệu, A tập ảnh tra cứu đƣợc trả về, RA tập ảnh liên quan tập A (Hình 8) Triệu hồi (Recall) tỷ số ảnh liên quan sở liệu đƣợc tra cứu theo truy vấn Độ xác (Precision) tỷ số ảnh đƣợc tra cứu mà liên quan đến ảnh truy vấn recall  area ( RA ) area ( R A ) , precision  area ( A) area ( R) |R| |RA| |A| Hình Triệu hồi xác cho kếquả truy vấn Ảnh hồng hôn đƣợc sử dụng nhƣ ảnh truy vấn ERIN, CBsIR CCH để hiệu ERIN Bảng đƣa tóm tắt kết trung bình truy vấn Các kết tra cứu đƣợc tóm tắt dƣới dạng triệu hồi xác Trong truy vấn hai thực nghiệm đƣợc thực hiện, thứ kỹ thuật ERIN đƣợc sử dụng cho trình tra cứu Kỹ thuật CBsIR đƣợc sử dụng thực nghiệm thứ hai cuối kỹ thuật CCH Bảng Các kết trung bình truy vấn Recall Precision ERIN CBsIR CCH 0.1 0.73 0.66 0.59 0.2 0.69 0.6 0.51 0.3 0.61 0.53 0.43 0.4 0.56 0.47 0.42 0.5 0.48 0.38 0.31 0.6 0.43 0.34 0.27 0.7 0.37 0.29 0.25 0.8 0.32 0.28 0.24 0.9 0.27 0.25 0.22 0.24 0.21 0.14 Hình kết ERIN tốt CBsIR CCH https://sites.google.com/site/dctresearch/Home/content-based-image-retrieval Nguyễn Hữu Quỳnh, Đào Thị Thúy Quỳnh , Ngô Quốc Tạo, Cù Việt Dũng, Phƣơng Văn Cảnh 451 ERIN 0.8 CBsIR CCH 0.7 Precision 0.6 0.5 0.4 0.3 0.2 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Recall Hình So sánh Precision - Recall ERIN với CBsIR CCH V KẾT LUẬN Chúng tập trung vào đề xuất phƣơng pháp, có tên ERIN, giải ba vấn đề là: (1) biểu diễn tốt nhu cầu thông tin ngƣời dùng, (2) xác định đƣợc độ quan trọng biểu diễn giảm khoảng cách ngữ nghĩa đặc trƣng mức thấp khái niệm mức cao Để giải đƣợc vấn đề (1), sử dụng nhiều truy vấn để biểu diễn thông tin ngƣời dùng Với vấn đề (2) tận dụng đánh giá ngƣời dùng để xác định độ quan trọng biễn diễn đặc trƣng với vấn đề (3) sử dụng kỹ thuật phản hồi liên quan ngƣời dùng để giải Các kết thực nghiệm sở liệu gồm 10.800 ảnh độ xác phƣơng pháp đƣợc đề xuất Thực nghiệm hiệu ERIN cao phƣơng pháp CBsIR CCH TÀI LIỆU THAM KHẢO [1] J Eakins, M Graham, Content-based image retrieval, Technical Report, University of Northumbria at Newcastle, 1999 [2] A Mojsilovic, B Rogowitz, Capturing image semantics with low-level descriptors, Proceedings of the ICIP, September 2001,pp 18–21 [3] X.S Zhou, T.S Huang, CBIR: from low-level features to high-level semantics, Proceedings of the SPIE, Image and Video Communication and Processing, San Jose, CA, vol 3974, 2000, pp 426–431 [4] A Pentland, R W Picard, and S Sclaroff (1996) Photobook: content-based manipulation for image databases.International Journal of Computer Vision, 18(3):233–254 [5] Y Chen, J.Z Wang, R.Krovetz, An unsupervised learning approach to content-based image retrieval, IEEE Proceedings of the International Symposium on Signal Processing and its Applications, July 2003, pp 197–200 [6] C Carson, S Belongie, H Greenspan, and J Malik (2002) Blobworld: image segmentation using expectation-maximization and its application to image querying IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(8):1026–1038 [7] K Chakrabarti, K Porkaew, and S Mehrotra (2000) Efficient query refinement in multimedia databases Proceedings of International Conference in Data Engineering(ICDE) [8] Y Ishikawa, R Subramanya, and C Faloutsos (1998) Mindreader: Querying databases through multiple examples Proc Of VLDB [9 ] K Porkaew, K Chakrabarti, and S Mehrotra (1999) Query refinement for content-based multimedia retrieval in MARS Proceedings of ACM Multimedia Conference [10] Y Rui, T Huang, and S Mehrotra (1998) Relevance feedback techniques in interactive content-based image retrieval Proc of IS&T and SPIE Storage and Retrieval of Image and Video Databases [11] M Charikar, C Chekuri, T Feder, and R Mot-wani ( 1997) Incremental clustering and dynamic infor-mation retrieval Proc of ACM Symposium on Theory of Computing [12] R.O Stehling, M.A Nascimento, A.X Falc˜ao (2003), ―Cell histograms versus color histograms for image representation and retrieval‖, Knowledge and Information Systems (KAIS) Journal, pp 151-179 [13] Luo, Jie and Nascimento, Mario A (2004), Content Based Sub Image Retrieval Using Relevance Feedback,Proceedings of the 2Nd ACM International Workshop on Multimedia Databases [14] B Yates and R Neto (1999), Modern Information Retrieval, Addison Wesley [15] Bartolini, I., Ciacci, P., Waas, F., (2001) Feedbackbypass: A new approach to interactive similarity query processing In: Proceedings of the 27th VLDB Conference, Roma, Italy, pp 201–210 [16] A Gupta and R Jain (1997) Visual information retrieval Communications of the ACM, 40(5):7079 [17] L Chen, M T.ăOzsu, and V Oria (2004) MINDEX: An efficient index structure for salient-object-based queries in video databases Multimedia Systems, 10 (1):56–71 452 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU THÔNG TIN NGƢỜI DÙNG HIỆU QUẢ [18] I J Cox, M L Miller, T P Minka, T V Papathomas, and P N.Yianilos (2000) The Bayesian image retrieval system, PicHunter: theory, implementation, and psychophysical experiments IEEE Transactions on Image Processing, 9(1):20–37 [19] [Flickner et al., 1995] Flickner, M., Sawhney, H., Niblack, W., et al., (1995) Query by image and video content: The QBIC system IEEE Computer Magazine 28 (9), 23–32 [20] K A Hua, N Yu, and D Liu (2006) Query Decomposition: A Multiple Neighborhood Approach to Relevance Feedback Processing in Content-based Image Retrieval InProceedings of the IEEE ICDE Conference [21] K Vu, K A Hua, and W Tavanapong ( 2003) Image retrieval based on regions of interest IEEE Transactions on Knowledge and Data Engineering, 15(4):1045–1049 [22] J Z Wang, J Li, and G Wiederhold,( 2001) ―SIMPLIcity: Semantics-Sensitive Integrated Matching for Picture Libraries,‖ IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol 23, no 9, pp 947-963 [23] W Y Ma and B Manjunath ( 1997) Netra: a toolbox for navigating large image databases In Proceedings of the IEEE International conference on Image Processing, pages 568–571 [24] V Ogle and M Stonebraker (1995) Chabot: retrieval from a relational database of images.IEEE Computer, 28(9):40–48 [25] M Ortega-Binderberger and S Mehrotra (2004) Relevance feedback techniques in the MARS image retrieval systems Multimedia Systems, 9(6):535–547 [26] H T Shen, B C Ooi, and X Zhou (2005) Towards effective indexing for very large video sequence database In Proceedings of the ACM SIGMOD Conference, pages 730–741 [27] A.W.M Smeulders, M Worring, A Gupta, R Jain, Content-based image retrieval at the end of the early years, IEEE Trans Pattern Anal Mach Intell 22 (12) (2000) 1349–1380 [28] Smith, J.R., Chang, S.F., (1996) VisualSEEk: A fully automated content-based image query system In: Proceedings of the ACM Int’l Multimedia Conference, pp 87–98 [29] G Salton, Automatic Text Processing, Addison-Wesley, Reading, MA, 1989 [30] Y Rui, T.S Huang, M Ortega, S Mehrotra, Relevance feedback:a power tool for interactive content-based image retrieval, IEEE Trans Circuits Video Technol (5) (1998) 644–655 [31] Y Rui, T.S Huang, Optimizing learning in image retrieval, Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, June 2000, pp 1236–1243 [32] Brunelli, R., Mich, O., (2000) Image retrieval by examples IEEE Transactions on Multimedia (3), 164–171 [33] X.S Zhu, T.S Huang, Relevance feedback in image retrieval: a comprehensive review, Multimedia System (6) (2003) 536– 544 [34] Y Rui, T.S Huang, S.-F Chang, Image retrieval: current techniques, promising directions, and open issues, J Visual Commun Image Representation 10 (4) (1999) 39–62 [35] Y Yan, M.-L Shyu, and Q Zhu (2016), Negative correlation discovery for big multimediadata semantic concept mining and retrieval, in Proceedings of the IEEE international Conference on Semantic Computing, pp 55-62 AN IMAGE RETRIEVAL METHOD EFFICIENTLY REPRESENTS THE USER’S INFORMATION NEED Nguyen Huu Quynh, Dao Thi Thuy Quynh, Ngo Quoc Tao, Cu Viet Dung, Phƣơng Văn Cảnh, An Hong Son ABSTRACT — Most of the conventional approaches to content-based on image retrieval is not efficiently represents the user’s information need The reasons for these limitations are: (a) the user’s information needs are very rich, so it is difficult to perform this with a query image, (b) an image usually includes multiple representations with different importance but these methods are often considered equal importance, (c) low-level image features not capture the semantics of images , (d) distance function associated with low level features can not express user’s perception of visual similarity In order to overcome these problems, we propose image retrieval method, called ERIN (Efficient Representation of Information Need) The method has the advantages that efficently represent the user's information need by using multiple images and Multiple Representations Beside, the method determines the importance of each representation which leads to improve quality content – based on image retrieval system Our experimental results on a database of over 10.800 images The experimental results indicate that this technique improved the performance of content – based on image retrieval compared to established methods and the results are closed to the user's information need Keywords— Content based image retrieval, representation of information need, multiple queries, and multiple representations, feature vector ... hình tra cứu tổng qt Kết n MỘT PHƢƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU THÔNG TIN NGƢỜI DÙNG HIỆU QUẢ 446 Chúng ta nhận thấy, mơ hình tra cứu tổng qt Hình 2, ảnh truy vấn khơng biểu diễn tốt nhu. .. k ảnh có khoảng cách nhỏ với MQ Until (User dừng phản hồi) Hình Thuật toán tra cứu ảnh sử dụng biểu diễn nhu cầu thông tin ngƣời dùng hiệu ERIN 450 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU... } MỘT PHƢƠNG PHÁP TRA CỨU ẢNH BIỂU DIỄN NHU CẦU THÔNG TIN NGƢỜI DÙNG HIỆU QUẢ 448 Xây dựng mơ hình biểu diễn truy vấn đa điểm For k=1 to M For j=1 to m {  // trích rút biểu diễn đặc trƣng j ảnh

Ngày đăng: 26/11/2020, 00:16

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w