ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG NGUYỄN VĂN TỒN NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG PHÂN CỤM GIA TĂNG VỚI PHẢN HỒI LIÊN QUAN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2018 i LỜI CẢM ƠN Luận văn hoàn thành với hướng dẫn tận tình PGS.TS Nguyễn Hữu Quỳnh – Khoa Cơng nghệ thông tin - Đại học Điện lực Trước tiên tơi xin chân thành bày tỏ lịng biết ơn sâu sắc tới PGS.TS Nguyễn Hữu Quỳnh người tận tình hướng dẫn, động viên giúp đỡ suốt thời gian thực luận văn Tôi xin chân thành cảm ơn thầy cô trường Đại học Công Nghệ thông tin Truyền thông – Đại học Thái Ngun, tạo điều kiện thuận lợi cho tơi hồn thành tốt khóa học Xin chân thành cảm ơn anh, chị bạn học viên lớp Cao học CHK15A ln động viên, giúp đỡ nhiệt tình chia sẻ với kinh nghiệm học tập, công tác suốt khố học Cuối cùng, tơi xin gửi lời cảm ơn sâu sắc đến gia đình, người thân, bạn bè động viên, khuyến khích hỗ trợ cần thiết để tơi hồn thành luận văn Mặc dù cố gắng, song luận văn tránh khỏi thiếu sót, kính mong dẫn quý thầy cô bạn Thái Nguyên, ngày tháng năm 2018 Người viết Nguyễn Văn Tồn ii LỜI CAM ĐOAN Tơi xin cam đoan số liệu kết nghiên cứu luận văn trung thực không trùng lặp với đề tài khác Tôi xin cam đoan giúp đỡ cho việc thực luận văn cảm ơn thơng tin trích dẫn luận văn rõ nguồn gốc Thái Nguyên, ngày tháng năm 2018 Người cam đoan Nguyễn Văn Toàn iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .vi DANH MỤC CÁC BẢNG BIỂU vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU .1 CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG VỚI PHẢN HỒI LIÊN QUAN 1.1 Tổng quan tra cứu ảnh dựa vào nội dung 1.1.1 Vấn đề tra cứu ảnh dựa vào nội dung 1.2 Tra cứu ảnh sử dụng phản hồi liên quan 14 1.3 Vấn đề phân cụm[1] .16 1.3.1 Thuật toán K-Means 20 1.3.2 Phân cụm phân cấp 21 1.3.3 Phân cụm dựa vào mật độ .23 1.3.4 Phân cụm dựa vào mơ hình .23 1.3.5 Phân cụm dựa vào đồ thị 26 1.4 Tiểu kết chương 26 CHƯƠNG 2: PHƯƠNG PHÁP TRA CỨU ẢNH VỚI PHẢN HỒI LIÊN QUAN SỬ DỤNG PHÂN CỤM GIA TĂNG .27 2.1 Tra cứu ảnh với ngữ nghĩa mức cao .27 2.1.1 Giới thiệu tra cứu ảnh với ngữ nghĩa mức cao 27 2.1.2 Khoảng cách ngữ nghĩa 28 2.1.3 Phản hồi liên quan 29 2.2 Tra cứu ảnh với phản hồi liên quan 31 2.3 Kỹ thuật phân tích phân biệt tuyến tính (LDA-Linear Discriminant Analysis) 32 iv 2.3.1 Định nghĩa LDA 32 2.3.2 Tính tốn phương sai between-class ( 2.3.3 Tính phương sai within-class ( ) 32 ) 34 2.3.4 Xây dựng không gian thấp chiều 36 2.3.5 Sơ đồ phương pháp tra cứu ảnh sử dụng phân cụm gia tăng phản hồi liên quan 37 2.4 Tiểu kết chương 39 CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM 40 3.1 Giới thiệu toán tra cứu ảnh dựa vào nội dung 40 3.2 Môi trường thực nghiệm 41 3.2.1 Cơ sở liệu ảnh 42 3.2.2 Vec-tơ đặc trưng 43 3.2.3 Tập tin cậy 44 3.2.4 Cấu hình đề xuất thiết bị chạy thực nghiệm 44 3.3 Đánh giá kết thực nghiệm 44 3.3.1 Chiến lược mô phản hồi liên quan .44 3.3.2 Kết đánh giá 45 3.4 Giao diện hệ thống 47 3.5 Tiểu kết chương 51 KẾT LUẬN .52 TÀI LIỆU THAM KHẢO 53 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt CBIR RBIR CSDL CRT EMD IRM DPF MRMD RF vi DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 Bảng phân bố tập ảnh Corel 42 Bảng 3.2 Các loại đặc trưng .43 Bảng 3.3 Bảng cấu hình đề xuất thiết bị chạy thực nghiệm .44 Bảng 3.4 Bảng kết phương pháp 46 vii DANH MỤC CÁC HÌNH Hình 1.1 Kiến trúc tổng quan hệ thống tra cứu ảnh dựa vào nội dung Hình 1.2 Khơng gian màu RGB Hình 1.3 Khơng gian màu HSV Hình 1.4 Lược đồ hệ thống CBIR với RF 16 Hình 1.5 Các tập liệu cụm 17 Hình 1.6 Các tập liệu khơng thích hợp với K-Means 21 Hình 1.7 Phân cụm phân cấp tập liệu D={a,b,c,d,e} 22 Hình 2.1 Dịch chuyển điểm truy vấn 29 Hình 2.2 Hình dạng lồi (đa điểm) 30 Hình 2.3 Hình dạng lõm (đa điểm) 30 Hình 2.4 Tra cứu ảnh dựa vào nội dung với phản hồi liên quan 31 Hình 2.5 Các bước trực quan hóa để tính khơng gian chiều thấp kỹ thuật LDA .33 Hình 2.6 Sơ đồ tra cứu ảnh sử dụng phân cụm gia tăng 38 Hình 3.1 Mơ hình tổng qt hệ thống 41 Hình 3.2 Biểu đồ so sánh kết thực nghiệm 46 Hình 3.3 Giao diện hệ thống 47 Hình 3.4 Chọn tập liệu ảnh / đặc trưng .48 Hình 3.5 Chọn ảnh truy vấn khởi tạo .48 Hình 3.6 Tra cứu với truy vấn khởi tạo 84003, 84004, 84008 thuộc lớp 840 48 Hình 3.7 Kết phân cụm tập huấn luyện .49 Hình 3.8 Công cụ tra cứu phân cụm LDA 49 Hình 3.9 Kết tra cứu phản hồi liên quan 50 Hình 3.10 Kết phân cụm gia tăng 50 Hình 3.11 Kết tra cứu sau sử dụng phân cụm gia tăng .51 viii MỞ ĐẦU Tra cứu ảnh dựa vào nội dung (CBIR-Content Based Image Retrieval) nhận nhiều quan tâm thập kỷ qua, nhu cầu xử lý hiệu lượng liệu đa phương tiện khổng lồ tăng nhanh chóng Nhiều hệ thống CBIR phát triển, gồm QBIC, Photobook, MARS, VisualSEEK, SIMPLIcity hệ thống khác Trong hệ thống CBIR tiêu biểu, đặc trưng ảnh trực quan mức thấp (tức màu, kết cấu hình dạng) trích rút tự động cho mục tiêu đánh số mơ tả ảnh Để tìm kiếm ảnh mong muốn, người dùng đưa ảnh làm mẫu hệ thống trả lại tập ảnh tương tự dựa vào đặc trưng trích rút Là vấn đề quan trọng CBIR, độ đo tương tự lượng hóa giống nội dung cặp ảnh Phụ thuộc vào kiểu đặc trưng trích rút mà lựa chọn độ đo tương tự thích hợp Tất kỹ thuật tra cứu ảnh dựa vào nội dung thừa nhận thông tin tương hỗ độ đo tương tự ảnh ngữ nghĩa ảnh Bằng nhiều cách khác nhau, độ đo tương tự cố gắng nắm khía cạnh nội dung ảnh, ngữ nghĩa kế thừa từ độ tương tự hay đặc trưng mức thấp Tuy nhiên, ngữ nghĩa kế thừa từ độ tương tự nhiều không giống với khái niệm mức cao truyền tải ảnh (ngữ nghĩa ảnh) Đó khoảng cách ngữ nghĩa, phản ánh khác biệt lực mô tả hạn chế đặc trưng trực quan mức thấp khái niệm mức cao Các kỹ thuật việc rút ngắn “khoảng cách ngữ nghĩa” gồm có loại chính: (1) sử dụng thể đối tượng để xác định khái niệm mức cao, (2) sử dụng công cụ học máy để kết hợp đặc trưng mức thấp với khái niệm truy vấn, (3) đưa phản hồi liên quan vào lặp tra cứu cho học ý định người dùng, (4) sinh mẫu ngữ nghĩa để hỗ trợ tra cứu ảnh mức cao, (5) Cách sử dụng nội dung trực quan ảnh thông tin văn thu từ Web cho tra cứu ảnh Web Từ nhận định gợi ý giáo viên hướng dẫn, định chọn đề tài: “Nghiên cứu phương pháp tra cứu ảnh sử dụng phân cụm gia tăng với phản hồi liên quan” Đề tài kết hợp hai hướng tiếp cận (2) (3), đưa phản hồi liên quan người dùng vào trình tra cứu sử dụng phương pháp phân cụm gia tăng để phân cụm tập ảnh phản hồi nhằm biểu diễn nhu cầu thông tin người dùng hiệu Phản hồi liên quan trình trực tuyến mà cố gắng học mục đích người dùng q trình tra cứu, công cụ mạnh sử dụng truyền thống hệ thống tra cứu thơng tin Nó giới thiệu CBIR khoảng đầu năm 1990, với mục đích mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa mà truy vấn biểu diễn người dùng nghĩ Bằng việc tiếp tục học thông qua tương tác với người dùng cuối, phản hồi liên quan cung cấp cải tiến hiệu đáng kể hệ thống CBIR Phân cụm phương pháp học không giám sát để tạo thành nhóm hay cụm liệu Lý thuyết phân cụm giả thuyết “các đối tượng gần có xu hướng liên quan tới yêu cầu” Đã có nhiều thuật tốn thực việc phân cụm như: K-mean, K-medoid, EM…Tuy nhiên, thuật toán thường gọi phân cụm ngoại tuyến (off-line), tức là, thuật tốn thực phân cụm tồn sở liệu ảnh có sẵn (gồm nhiều ảnh), có ảnh bổ sung vào, trình lại phải phân cụm lại từ đầu Các thuật tốn ngoại tuyến khơng phù hợp trường hợp đòi hỏi trực tuyến (on-line), chẳng hạn, trường hợp mà áp dụng tập ảnh nhỏ (là kết lần thực tra cứu) đòi hỏi phân cụm nhiều ảnh cần bổ sung phân cụm không cần phải tiến hành với liệu phân cụm trước Thuật tốn mà đáp ứng trường hợp trực tuyến phải có tính chất “gia tăng” hay gọi phân cụm gia tăng Nhiệm vụ luận văn nắm vững kiến thức tổng quan lĩnh vực xử lý ảnh, sâu nghiên cứu lĩnh vực tra cứu ảnh dựa vào nội dung, tìm hiểu số thuật tốn học khơng giám sát, nghiên cứu thuật toán phân cụm gia tăng đưa vào hệ thống tra cứu ảnh dựa vào nội dung Cài đặt chương trình thử nghiệm đánh giá, so sánh hiệu hệ thống tra cứu ảnh dựa vào nội dung sử dụng phân cụm phổ với số hệ thống tra cứu ảnh điển hình khác Bố cục luận văn: Chương 1: Tổng quan tra cứu ảnh dựa vào nội dung với phản hồi liên quan Chương 2: Phương pháp tra cứu ảnh với phản hồi liên quan sử dụng phân cụm gia tăng Chương 3: Chương trình thử nghiệm CHƯƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG VỚI PHẢN HỒI LIÊN QUAN 1.1 Tổng quan tra cứu ảnh dựa vào nội dung 1.1.1 Vấn đề tra cứu ảnh dựa vào nội dung Tra cứu ảnh dựa vào nội dung việc áp dụng kỹ thuật thị giác máy tính vào vấn đề tìm kiếm hình ảnh, tức vấn đề tìm kiếm hình ảnh kỹ thuật số sở liệu (lớn) Tra cứu ảnh dựa vào nội dung sử dụng nội dung thị giác màu sắc, hình dạng, kết cấu, khơng gian để biểu diễn ảnh Các nội dung thị giác ảnh trích rút mơ tả véc tơ đặc trưng đa chiều có dạng véc tơ đặc trưng sở liệu Khởi đầu cho việc tra cứu ảnh, người dùng cung cấp ảnh mẫu cho hệ thống tra cứu Hệ thống chuyển đổi ảnh mẫu thành véc tơ đặc trưng so sánh với khoảng cách/độ tương tự véc tơ đặc trưng ảnh sở liệu để tính tốn đưa kết ảnh có độ tương tự cao Hệ thống tra cứu ảnh dựa vào nội dung 1.1.1.1 Các chức hệ thống tra cứu ảnh dựa vào nội dung Một hệ thống tra cứu ảnh dựa vào nội dung (CBIR – Content Based Image Retrieval) có chức sau: 1) Trích rút đặc trưng biểu diễn nội dung nguồn phân tích theo cách thích hợp cho so sánh truy vấn sử dụng (không gian nguồn thông tin biến đổi thành không gian đặc trưng cho mục tiêu so sánh nhanh bước tiếp theo) Bước thông thường cần nhiều thời gian phải xử lý tất thông tin nguồn (các ảnh) sở liệu Tuy nhiên, bước thực lần thực ngoại tuyến 2) Phân tích truy vấn người sử dụng biểu diễn chúng dạng thích hợp để đối sánh với sở liệu nguồn Bước tương tự với bước trước, áp dụng với ảnh cần truy vấn 3) Thực so sánh truy vấn tìm kiếm với thơng tin có sở liệu lưu trữ để tra cứu thông tin liên quan theo cách hiệu Bước thực trực tuyến yêu cầu phải đáp ứng nhanh Các kỹ thuật đánh số đại sử dụng để tổ chức lại không gian đặc trưng nhằm tăng tốc trình đối sánh 4) Thực điều chỉnh cần thiết hệ thống (thường điều chỉnh tham số máy đối sánh) dựa phản hồi từ người sử dụng và/hoặc ảnh tra cứu 1.1.1.2 Một số hệ thống CBIR tiêu biểu So sánh độ tương tự Người Các kết dùng Đầu tra cứu Phản hồi liên quan Hình 1.1 Kiến trúc tổng quan hệ thống tra cứu ảnh dựa vào nội dung Một hệ thống CBIR thực truy vấn ảnh dựa việc tự động rút trích thơng tin đặc trưng hình ảnh như: màu sắc, kết cấu, hình dạng, vị trí Các nhà nghiên cứu đưa nhiều phương pháp với cách tiếp cận khác nhau; nhiều hệ thống truy vấn ảnh dựa nội dung đời như: QBIC, BlobWorld, VisualSEEk, MARS, Photobook, Virage, Netra, SIMPLIcity, NEC PicHunter… Dưới xin điểm qua số hệ thống CBIR tiêu biểu 5 1) Hệ thống QBIC Hệ thống truy vấn ảnh theo nội dung QBIC (Query By Image Content) nghiên cứu phát triển nhóm nghiên cứu Visual Media Management thuộc công ty IBM, hệ thống tra cứu ảnh thương mại phát triển từ sớm Người dùng xây dựng phác thảo, vẽ lựa chọn màu kết cấu dựa theo ảnh truy vấn Hệ thống hỗ trợ vài độ đo tương tự cho ảnh như: trung bình màu sắc, lược đồ màu sắc kết cấu Công nghệ sử dụng hệ thống bao gồm đánh số tìm kiếm Hiện hệ thống cịn cung cấp vài cách tiếp cận truy vấn theo đơn đặc trưng, đa đặc trưng đa giai đoạn 2) Hệ thống Blobwold Hệ thống Blobwold khoa Khoa học máy tính, Đại học California, Berkeley nghiên cứu phát triển Các đặc tính sử dụng cho truy vấn màu sắc, kết cấu, vị trí hình dạng vùng Màu sắc mô tả biểu đồ 218 bin màu kết hợp không gian Lab Kết cấu thể tương phản không đẳng hướng vùng không gian 2D (độ tương phản, độ tương phản x tính khơng đẳng hướng) Hình dạng thể (xấp xỉ) vùng, độ lệch tâm định hướng 3) Hệ thống VisualSEEk Hệ thống VisualSEEk xây dựng Trung tâm nghiên cứu viễn thông thuộc trường đại học Columbia, New York Đây hệ thống truy vấn dựa vào đặc trưng trực quan ảnh, sử dụng không gian 166 màu HSV Sự tương đồng hai ảnh xác định theo tương đồng vùng ảnh Hệ thống cho phép người dùng nhập vào truy vấn, sử dụng đặc trưng mức thấp hình ảnh như: màu sắc, bố cục không gian kết cấu Các đặc trưng mơ tả theo màu sắc biến đổi Wavelet dựa đặc trưng kết cấu 4) Hệ thống Netra Hệ thống Netra sử dụng đặc trưng ảnh: màu sắc, hình dạng, kết cấu, vị trí không gian vùng ảnh phân đoạn để tìm kiếm tra cứu vùng tương tự từ sở liệu Các đặc trưng nghiên cứu hệ thống Netra phân tích kết cấu dựa lọc Gabor, xây dựng từ điển ảnh dựa mạng neural phân đoạn vùng dựa vào luồng biên Trích rút đặc trưng Trích rút đặc trưng ảnh mức thấp sở hệ thống CBIR Trích rút đặc trưng bao gồm trích rút thơng tin có nghĩa ảnh, làm giảm dung lượng lưu trữ, hệ thống nhanh hiệu CBIR 1.1.1.3 Đặc trưng màu sắc Đặc trưng màu sắc sử dụng rộng rãi tra cứu ảnh Một vài phương pháp tra cứu ảnh dựa sở tương tự màu sắc mô tả tài liệu ý tưởng giống Mỗi hình ảnh thêm vào sưu tập phân tích tính tốn biểu đồ màu để thấy tỷ lệ điểm ảnh màu ảnh Biểu đồ màu ảnh sau lưu trữ sở liệu để tìm kiếm, người dùng xác định tỷ lệ mong muốn màu gửi ảnh mẫu mà tính tốn biểu đồ màu Dù cách trình tra cứu sau lấy ảnh mà có biểu đồ màu tương ứng gần với ảnh truy vấn 1) Không gian màu - Không gian màu RGB (Red – Green – Blue) Không gian màu RGB sử dụng nhiều cho đồ họa máy tính, mơ tả màu sắc thành phần R (Red) – G (Green) B (Blue) Không gian xem khối lập phương chiều với màu Red trục x, màu Green trục y, màu Blue trục z Mỗi màu không gian xác định thành phần R, G, B Ứng với tổ hợp khác màu cho ta màu Không gian màu RGB sử dụng rộng rãi việc biểu diễn ảnh, gồm thành phần màu đỏ, xanh lục, xanh lam Chúng gọi cộng sơ cấp màu khác không gian RGB tạo cách thêm chúng Hình 1.2 Khơng gian màu RGB - Khơng gian màu CIE Không gian màu CIE L*a*b CIE L*u*v không gian độc lập xem đồng Chúng chứa độ sáng thành phần nhẹ sáng (L) hai thành phần màu a b u v Có thể chuyển từ khơng gian màu RGB thành không gian CIEL*a*b CIE L*u*v - Không gian màu HSV Không gian màu HSV (HSL HSB) sử dụng rộng rãi đồ họa máy tính miêu tả màu cách trực quan Ba thành phần màu có màu sắc, độ bão hịa (nhẹ sáng) giá trị (độ sáng) Không gian RGB chuyển thành khơng gian HSV cơng thức đơn giản Không gian màu thành phần sử dụng trục màu thành phần (R-G, 2B-R-G, R+G+B) Cách thể có lợi việc lập thơng tin độ sáng trục thứ ba Hai trục màu bất biến với thay đổi cường độ sáng tối, giảm việc lấy mẫu người nhạy cảm với độ sáng Hình 1.3 Không gian màu HSV 2) Lược đồ màu Lược đồ màu xác định tập bin, bin biểu thị xác suất pixel ảnh Một lược đồ màu H ảnh cho xác định véc tơ: H={H[0], H[1], H[2], , H[i], H[N]} Ở i biểu diễn màu lược đồ màu tương ứng với khối không gian màu RGB, H[i] số pixel có màu i ảnh N số bin lược đồ màu 1.1.1.4 Đặc trưng kết cấu Kết cấu mô tả vùng trợ giúp tốt trình tra cứu Kết cấu khơng có khả tìm ảnh tương tự, sử dụng để phân lớp ảnh kết cấu từ ảnh không kết cấu sau kết hợp với thuộc tính đặc trưng khác màu để làm cho tra cứu hiệu Kết cấu thuộc tính quan trọng khác ảnh Những kết cấu đa dạng xem xét mẫu nhận dạng tầm nhìn máy tính Phương pháp đại diện cấu trúc phân thành hai loại: cấu trúc thống kê Phương pháp cấu trúc gồm có hoạt động hình thái đồ thị kề Phương pháp thống kê gồm: quang phổ Fourier, ma trận đồng xuất hiện, phân tích phận thay đổi bất biến, tính Tamura, phân hủy Wold, trường ngẫu nhiên Markov, mơ hình fractal lọc đa phân giải 1.1.1.5 Đặc trưng hình dạng Hình dạng xem đặc trưng quan trọng mô tả đối tượng bật ảnh giúp phân biệt hai ảnh Các đặc trưng hình dạng ứng dụng nói chung gồm aspect ratio, circularity, Fourier descriptors, moment invariants, consecutive boundary segments Đặc trưng hình dạng đối tượng vùng sử dụng nhiều hệ thống tra cứu ảnh dựa vào nội dung So với đặc tính màu sắc kết cấu hình dạng thường mô tả sau ảnh phân đoạn thành vùng đối tượng Khi mà việc phân đoạn ảnh khó để đạt độ xác mạnh mẽ việc sử dụng đặc tính hình dạng tra cứu ảnh giới hạn ứng dụng đặc biệt nơi mà đối tượng vùng có sẵn Mơ tả hình dạng dựa vào biên dựa vào vùng Đặc tính hình dạng tốt với đối tượng bất biến với xoay, dịch chuyển mở rộng 1.1.1.6 Vị trí khơng gian Bên cạnh kết cấu màu, vị trí khơng gian hữu ích phân lớp vùng Chẳng hạn, “bầu trời” “biển” có đặc trưng kết cấu màu tương tự, vị trí không gian chúng khác với “bầu trời” thường xuất đỉnh ảnh, biển Vị trí khơng gian thường xác định đơn giản “trên, dưới, đỉnh” theo vị trí vùng ảnh Trọng tâm vùng hình chữ nhật bao tối thiểu sử dụng để cung cấp thơng tin vị trí khơng gian Tâm không gian vùng sử dụng để biểu diễn vị trí khơng gian Quan hệ khơng gian tương đối quan trọng vị trí khơng gian tuyệt đối đặc trưng ngữ nghĩa Xâu 2-D biến thể cấu trúc phổ biến sử dụng để biểu diễn quan hệ hướng đối tượng “trái/phải”, “dưới/trên” Tuy nhiên, quan hệ hướng khơng đủ để biểu 10 diễn nội dung ngữ nghĩa ảnh bỏ qua quan hệ topo Để hỗ trợ tốt cho tra cứu ảnh dựa vào ngữ nghĩa, thuật tốn mơ hình ngữ cảnh khơng gian trình bày mà xem xét sáu quan hệ khơng gian cắc cặp vùng: trái, phải, trên, dưới, tiếp xúc trước Một phương pháp thú vị đề xuất Smith cộng Hệ thống sử dụng mẫu vùng cấu tạo (CRT) để xác định xếp không gian vùng lớp ngữ nghĩa đặc trưng CRT thu từ tập ảnh mẫu Độ đo tương tự Hệ thống tra cứu ảnh dựa vào nội dung tính tốn độ tương tự trực quan ảnh truy vấn ảnh sở liệu Khi đó, kết tra cứu không ảnh mà gồm danh sách ảnh xếp hạng theo độ tương tự với ảnh truy vấn Có nhiều phương pháp đo độ tương tự phát triển tra cứu ảnh năm gần Các phương pháp đo khoảng cách/độ tương tự khác ảnh hưởng đáng kể tới hiệu suất tra cứu Trong hệ thống tra cứu ảnh CBIR dựa vào vùng (RBIR), độ tương tự ảnh đo hai mức Đầu tiên mức vùng Tức đo khoảng cách hai vùng dựa đặc trưng mức thấp chúng Thứ hai mức ảnh Tức đo độ tương tự toàn hai ảnh mà chứa số vùng khác Hầu hết nhà nghiên cứu sử dụng độ đo kiểu Minkowski để xác định khoảng vùng Giả sử có hai vùng biểu diễn hai véc tơ p chiều (x 1, x2,…xp), (y1, y2,…yp) tương ứng Độ đo Minkowski xác định sau: ( , ) = (∑ =1 Cụ thể, r 2, khoảng cách Euclidean tiếng (khoảng cách L2) Khi r 1, khoảng cách Manhattan (khoảng cách L1) Một phiên biến thể sử dụng thường xuyên hàm khoảng cách Minkowski có trọng số mà đưa trọng số vào để nhận biết đặc trưng quan trọng ( , ) = (∑ =1 Ở wi, i=1,…,p trọng số áp dụng vào đặc trưng khác 11 Các khoảng cách khác sử dụng tra cứu ảnh, khoảng cách Canberra, khoảng cách angular, hệ số Czekanowski, tích trong, hệ số dice, hệ số cosine hệ số Jaccard Độ tương tự tồn thể hai ảnh khó để đo Về có hai cách: Đối sánh mộ t- một: Nghĩa vùng ảnh truy vấn phép đối sánh vùng ảnh mục tiêu ngược lại Như [8], vùng truy vấn ảnh truy vấn kết hợp với vùng đối sánh tốt ảnh mục tiêu Sau độ tương tự tồn xác định tổng có trọng số độ tương tự vùng truy vấn ảnh truy vấn đối sánh tốt ảnh mục tiêu, trọng số liên quan đến cỡ vùng Đối sánh nhiều - nhiều: Có nghĩa vùng ảnh truy vấn phép đối sánh nhiều vùng ảnh mục tiêu ngược lại Một phương pháp sử dụng phổ biến khoảng cách EMD (Earth Mover Distance) EMD độ đo linh hoạt tổng qt Nó đo chi phí cực tiểu yêu cầu để biến đổi phân bố sang phân bố khác dựa vào toán giao vận truyền thống từ tối ưu tuyến tính, theo thuật tốn hiệu sẵn có EMD đối sánh tương tự nhận thức tốt áp dụng biểu diễn phân bố có độ dài thay đổi, thích hợp cho đo độ tương tự ảnh hệ thống RBIR Li cộng đề xuất lược đồ đối sánh vùng tích hợp (IRM) mà cho phép đối sánh vùng ảnh với số vùng ảnh khác giảm ảnh hưởng phân đoạn thiếu xác Trong định nghĩa này, đối sánh hai vùng gán với điểm quan trọng Điều tạo ta ma trận quan trọng hai tập vùng (một tập ảnh truy vấn, tập lại ảnh mục tiêu) Độ tương tự toàn thể hai ảnh xác định dựa vào ma trận quan trọng cách tương tự với EMD Dù độ đo Minkowski sử dụng rộng rãi hệ thống để đo khoảng cách vùng, thực nghiệm mở rộng khơng hiệu mơ hình độ tương tự nhận thức Cách đo độ tương tự nhận thức câu hỏi lớn chưa có đáp án Có số nghiên cứu thực nỗ nực để giải vấn đề Chẳng hạn, [4], hàm khoảng cách động phần 12 (DPF) xác định, giảm chiều véc tơ đặc trưng việc chọn động lượng nhỏ chiều Cho = | − |, = 1, tác định∆ = { ℎỏ ℎấ ( 1, … , ) Sau DPF ( , ) = (∑ Có hai tham số điều chỉnh m r Các kết thực nghiệm ban đầu minh chứng DPF cung cấp kết tra cứu xác độ đo Minkowski Tuy nhiên, giá trị m phụ thuộc liệu, điều làm cho thuật tốn khơng linh hoạt Ngoài ra, để sử dụng rộng rãi hệ thống tra cứu ảnh, nghiên cứu xa yêu cầu để xác thực hiệu ứng dụng khác Trong [9], khoảng cách nhận thức cho độ đo tương tự hình dạng trình bày Mỗi hình dạng đặc trưng với tập dấu hiệu Một khoảng cách độ đo dấu hiệu xác định sau khoảng cách khơng độ đo xác định tập khoảng cách dấu hiệu để đo độ tương tự hình Phương pháp mở rộng sang RBIR việc coi vùng ảnh dấu hiệu Vasconcelos Lippman đề xuất khoảng cách đa tạp đa phân giải (MRMD) cho nhận dạng khuôn mặt Trong MRMD, hai ảnh đối sánh xem đa tạp khoảng cách hai ảnh cực tiểu sai số biến đổi đa tạp sang đa tạp khác Để giảm tính tốn, ảnh đưa vào phân tích đa phân giải Đo khoảng cách thích hợp cho ứng dụng gióng hàng ảnh nhận dạng khn mặt phát cảnh video Trong [3], đo độ tương tự loại đặc trưng ảnh khác xem định đa mức xử lý Các ảnh sở liệu biểu diễn số mô tả kết cấu màu MPEG-7, mô tả đưa sang khuôn khổ hợp định phân cấp sử dụng logic mờ Ưu điểm độ đo tương tự loại đặc trưng ảnh khác kết hợp thành đặc trưng tích hợp Trong nghiên cứu sau đó, tác giả mở rộng khn 13 khổ hợp định thành khn khổ học có giám sát với phản hồi liên quan từ người dùng [2] 1.2 Tra cứu ảnh sử dụng phản hồi liên quan Tra cứu ảnh dựa vào nội dung thu hút nhiều quan tâm nghiên cứu đạt nhiều thành tựu, nhiên, nỗ lực nghiên cứu chưa theo kịp phát triển tra cứu thơng tin (văn bản) Có hai lý cho không hiệu hệ thống là: Thứ là: Khoảng trống đặc trưng mức thấp khái niệm mức cao (khoảng cách ngữ nghĩa) Vấn đề xuất phát từ thực tế đặc trưng màu, kết cấu, hình dạng khơng chuyển tải ý nghĩa ảnh; đó, nhiều độ đo tương tự trực quan sử dụng trình tra cứu lược đồ màu mơ tả Fourier chưa đủ biểu diễn đặc trưng không thiết phải phù hợp với ngữ nghĩa gán cho ảnh người dùng Thứ là: Sự nhận thức chủ quan người: hai người khác chí người hồn cảnh khác có giải thích khác nội dung trực quan ảnh Sự nhận thức chủ quan người tồn mức khác nhau: người quan tâm nhiều đến đặc trưng màu ảnh, người khác đưa nhiều liên quan đến đặc trưng kết cấu; chí hai quan tâm đến đặc trưng kết cấu, cách họ cảm nhận độ tương tự kết cấu khác Để giải hạn chế CBIR, kỹ thuật gọi phản hồi liên quan giới thiệu, người máy tính tương tác nhiều lần với để cải tiến truy vấn mức cao biểu diễn dựa đặc trưng ảnh mức thấp Kỹ thuật áp dụng thành công tương đối lâu tra cứu tài liệu, quan tâm nhiều cộng đồng CBIR Những lý cho điều vấn đề nhận thức chủ quan người, khoảng cách ngữ nghĩa, thực tế không giống tài liệu văn bản, đánh giá ảnh định ảnh liên quan hay không gánh nặng người dùng Điều tạo cho trình phản hồi liên quan hợp lý nhanh Tuy nhiên, thực tế chủ yếu góp phần làm cho phản hồi liên quan chủ đề 14 nghiên cứu tích cực CBIR độ xác máy tìm kiếm CBIR nói chung thấp Phản hồi liên quan CBIR trình điều chỉnh động truy vấn có sử dụng thơng tin phản hồi từ người dùng liên quan ảnh tra cứu từ trước cho truy vấn điều chỉnh xấp xỉ tốt nhu cầu người dùng Mục tiêu trình thu truy vấn mức cao người dùng nhận thức chủ quan việc tương tác với anh/chị điều chỉnh tự động trọng số dựa phản hồi cung cấp Một ngữ cảnh hệ thống phản hồi liên quan (Relevance Feedback - RF) là: Bước 1: Người dùng đưa ảnh mẫu truy vấn và/hoặc từ khóa mơ tả đối hệ thống Bước 2: Hệ thống cung cấp kết tra cứu khởi tạo dựa độ đo tương tự xác định trước Bước 3: Người dùng đánh dấu ảnh tra cứu việc đánh giá chúng có liên quan đến truy vấn hay không Bước 4: Dựa thông tin phản hồi người dùng, hệ thống điều chỉnh truy vấn tra cứu danh sách ảnh cho người dùng Thuật tốn lặp lại Bước Hình 1.4 lược đồ đơn giản hệ thống CBIR với RF 15 Truy vấn người dùng khởi tạo (ảnh mẫu từ khóa) Các kết tra cứu Cơ sở liệu ảnh Lặp phản hồi Phản hồi người dùng Các mẫu gán nhãn (các ảnh liên quan hay không) Học (điều chỉnh tham số truy vấn) Các kết tra cứu cuối Hình 1.4 Lược đồ hệ thống CBIR với RF 1.3 Vấn đề phân cụm Khái niệm phân cụm Phân cụm (clustering/cluster analysic) trình phân chia tập đối tượng liệu thành cụm (cluster), cho đối tượng cụm tương tự với nhau, đối tượng cụm khác khơng tương tự với Khác với phân lớp học có giám sát (học từ tập ví dụ gắn nhãn), phân cụm vấn đề học không giám sát (học từ tập ví dụ khơng gắn nhãn) Phân cụm hoạt động quan trọng tư nhận thức người Từ lâu phân cụm thực nhiều ngành khoa học sinh học, y học, địa lý, tâm lý học Hiện phân cụm ứng dụng nhiều lĩnh vực như: khai khoáng liệu (data mining), tra cứu thông tin (information retrieval), nhận dạng mẫu (pettern recognition), xử lý hình ảnh (image processing), thị giác máy tính (computer vision), marketing 16 Hình 1.5 biểu diễn ba tập liệu không gian chiều Hầu hết quan sát cho rằng, tập liệu hình 1.5a có cụm, hình 1.5b có cụm, hình 1.5c có cụm, (bằng khoanh vùng) hình 1.5a, 1.5b 1.5c tương ứng Trong hình 1.5c, điểm nằm ngồi vùng khoanh không thuộc cụm cả, chúng xem liệu nhiễu (ngoại lai) Thế hỏi, lý bạn cho tập liệu có cụm thế, có lẽ lúng túng đưa câu trả lời Sẽ định nghĩa xác (về mặt tốn học) cụm thích hợp cho ba tập liệu hình 1.5, để dựa vào định nghĩa xác định cụm (a) (b) (c) Hình 1.5 Các tập liệu cụm Chúng ta hiểu rõ khái niệm cụm, mô tả cụm hai đặc trưng: gắn kết bên (cohesion/compactness) đối tượng cụm, cô lập bên hay tách biệt (separation) cụm Theo hai đặc trưng này, với việc xác định ý nghĩa cụ thể cho gắn kết bên cụm tách biệt cụm, đưa mơ tả xác cụm Có nhiều cách xác định gắn kết đối tượng cụm, tách biệt cụm, có nhiều cách quan niệm cụm 17 Với tập liệu cho, trước cấu trúc tập liệu (mục tiêu phân cụm để phát cấu trúc tập liệu), khơng biết tập có cụm hay khơng? có cụm? gắn kết tạo cụm? làm để tìm cụm vốn có tập liệu đó? Đã có nhiều thuật toán phân cụm đề xuất Nhiều thuật tốn phân cụm địi hỏi số cụm biết, tức số cụm tham biến thuật toán Có thuật tốn lại cần tham biến khác Có tập liệu chứa cụm hình cầu, hình elipsoid tập lồi; có tập chứa cụm đám mây hình dáng đa dạng, “độ đậm đặc” đám mây khác nhau, làm tìm cụm thế? Trong thực tế, tập liệu chứa số lớn liệu, tập điểm khơng gian chiều cao; địi hỏi thuật tốn phải hiệu kể trường hợp Có thể nói phân cụm vấn đề thách thức! Sau đưa số định nghĩa ký hiệu cần thiết Mỗi đối tượng biểu diễn vector đặc trưng M thành phần X = (x 1,…,xM), xi giá trị đặc trưng thứ i, x i số thực rời rạc Chúng ta giả sử tập liệu gồm N liệu: D = {x1,…,xn,…,xN}, Xn= (xn1,…,xnM) Một (cách) phân cụm D họ C tập không rỗng C k D: C={C1,…,Ck, ,CK} Trong đó, K số cụm (1