Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoàng cách tt

27 98 0
Nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoàng cách tt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… ĐÀO THỊ THÚY QUỲNH NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG KỸ THUẬT ĐIỀU CHỈNH TRỌNG SỐ CỦA HÀM KHOẢNG CÁCH Chuyên ngành: Khoa học máy tính Mã số: 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN Hà Nội – 2019 Cơng trình đƣợc hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Ngƣời hƣớng dẫn khoa học 1: PGS.TS Ngô Quốc Tạo Ngƣời hƣớng dẫn khoa học 2: PGS.TS Nguyễn Hữu Quỳnh Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … , ngày … tháng … năm … Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Cơ sở liệu ảnh ngày trở nên phổ biến lĩnh vực ứng dụng khác viễn thám, phòng chống tội phạm, y học,… Sự tiến triển kỹ thuật thu, truyền lưu trữ ảnh cho phép xây dựng sở liệu ảnh lớn Các nhân tố thúc đẩy quan tâm nghiên cứu phương pháp khai thác hiệu sở liệu ảnh Các kỹ thuật tra cứu ảnh dựa vào văn mô tả ảnh tốn nhiều thời gian, chi phí cao phụ thuộc vào cảm nhận chủ quan chuyên viên kỹ thuật Hơn nữa, hệ thống dựa vào từ khoá khó thay đổi sau Để khắc phục khó khăn này, tra cứu ảnh dựa vào nội dung (Content-based image retrieval-CBIR) đời vào đầu năm 90 Ý tưởng cách tiếp cận sử dụng kỹ thuật trích rút đặc trưng trực quan cách tự động mô tả nội dung từ ảnh đặc trưng màu sắc, kết cấu, hình dạng làm số ảnh Có nhiều hệ thống tra cứu ảnh dựa vào nội dung đề xuất Tuy nhiên, nhiều thực nghiệm hệ thống CBIR nội dung mức thấp thường thất bại mô tả khái niệm ngữ nghĩa mức cao ý nghĩ người dùng Do đó, hiệu hệ thống CBIR xa so với kỳ vọng người dùng Do đó, luận án chọn đề tài “Nâng cao độ xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách” để góp phần giải vấn đề đặt Mục tiêu luận án Luận án nghiên cứu đề xuất số phương pháp tra cứu ảnh nhằm nâng cao độ xác tra cứu Các phương pháp hướng tới giải vấn đề giảm khoảng cách ngữ nghĩa đặc trưng mức thấp khái niệm mức cao ảnh Các đóng góp luận án Đề xuất phương pháp SRIR (Semantic–Related Image Retrieval method) phương pháp AWEIGHT (An efficient image retrieval method using adaptive weights) Bố cục luận án Luận án bố cục thành ba chương Chương giới thiệu tổng quan tra cứu ảnh dựa vào nội dung Chương trình bày phương pháp tra cứu ảnh liên quan ngữ nghĩa tác giả đề xuất, có tên SRIR Chương trình bày phương pháp tra cứu ảnh sử dụng trọng số thích nghi tác giả đề xuất, có tên AWEIGHT Cuối cùng, luận án đưa số kết luận định hướng nghiên cứu tương lai Chƣơng TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 1.1 Giới thiệu Các dạng nguồn đa phương tiện khác tăng lên nhanh chóng, chẳng hạn liệu trực quan điện thoại thông minh, ứng dụng 2D/3D, nội dung web, Do đó, nhu cầu dịch vụ ảnh trở nên quan trọng hết Tuy nhiên, phương tiện trực quan yêu cầu lượng xử lý lưu trữ đáng kể, cần có phương pháp hiệu để đánh số, lưu trữ, phân tích tra cứu thơng tin trực quan từ sở liệu ảnh Do đó, tra cứu ảnh nhanh, xác hiệu cho loại tập ảnh trở thành nhiệm vụ thách thức 1.1.1 Tra cứu ảnh dựa vào văn Cách tiếp cận ban đầu cho tra cứu ảnh dựa vào văn bản, ảnh đánh số từ khóa, chủ đề mã phân loại Các từ khóa, chủ đề mã phân loại sử dụng trình tra cứu Tuy nhiên, với sở liệu ảnh lớn, khó khăn phải đối mặt cách tiếp cận tra cứu dựa vào văn ngày trở nên nghiêm trọng trình tốn nhiều nhân lực thời gian Để khắc phục vấn đề này, nội dung ảnh (gồm mầu, kết cấu hình dạng) trích rút tự động từ thân ảnh sử dụng cho tra cứu ảnh 1.1.2 Tra cứu ảnh dựa vào nội dung Trong tra cứu ảnh dựa vào nội dung, ảnh tra cứu thơng qua đặc trưng mức thấp (tức màu, hình dạng, kết cấu) sử dụng đặc trưng ngữ nghĩa mức cao hay đặc trưng ngữ nghĩa Hình 1.1 Minh họa khoảng cách ngữ nghĩa Kiến trúc hệ thống tra cứu ảnh dựa vào đặc trưng thị giác Hình 1.2 Tập ảnh Trích rút đặc trưng Cơ sở liệu đặc trưng Độ tương tự Kết tra cứu Sắp xếp Ảnh truy vấn Trích rút đặc trưng Đầu Véc tơ đặc trưng Hình 1.2 Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung Hình 1.3 chế hoạt động phản hồi liên quan CBIR Khi có kết tra cứu khởi tạo, người dùng chọn ảnh liên quan danh sách kết để làm mẫu có nhãn (dương hay âm) Dựa tập mẫu huấn luyện này, thuật toán máy học thực để điều chỉnh tham số Dựa tham số vừa học, tra cứu ảnh thực Quá trình tra cứu lặp lại người dùng thỏa mãn Hình 1.3: Sơ đồ phản hồi liên quan 1.1.3 Một số nghiên cứu tra cứu ảnh dựa vào nội dung Một số phương pháp tra cứu ảnh dựa vào nội dung đưa ra, chẳng hạn: VisualSeek, SIMPLicity, Blobwworld, WebSeek, Image Rover… 1.2.Trích rút đặc trƣng, 1.2.1 Đặc trƣng màu Đặc trưng màu sử dụng hiệu cho tra cứu ảnh màu sở liệu ảnh Các mơ tả màu trích rút so sánh thuận lợi, đặc trưng màu thích hợp cho tra cứu ảnh dựa vào đặc trưng trực quan 1.2.2 Đặc trƣng kết cấu Kết cấu ảnh đặc trưng ảnh quan trọng để mô tả thuộc tính bề mặt đối tượng mối quan hệ với vùng xung quanh 1.2.3 Đặc trƣng hình Đặc trưng hình dạng ảnh mang thơng tin ngữ nghĩa phân thành hai loại: dựa đường bao dựa vùng 1.2.4 Thông tin không gian Thông tin không gian biểu thị vị trí khơng gian tuyệt đối vị trí khơng gian tương đối vùng Các vùng đối tượng với đặc trưng màu tương tự phân biệt tốt việc tận dụng thông tin không gian 1.3 Đo khoảng cách Việc lựa chọn xác định loại độ đo khoảng cách mà sử dụng để so sánh độ tương tự cặp ảnh phụ thuộc vào cấu trúc véc tơ đặc trưng mô tả chúng Một số độ đo tương tự sử dụng phổ biến nhất: Khoảng cách Minkowski, Mahalanobis, Cosine, Hamming, Earth Mover … 1.4 Phân cụm Tiếp nối q trình biểu diễn trích rút đặc trưng, phương pháp phân cụm nhằm nhóm mơ tả ảnh thành cụm khác với ngữ nghĩa khác Các phương pháp phân cụm phổ biến như: K-means, GMM (Gaussian mixture models) phân cụm mờ (chẳng hạn fuzzy c-means), MPCK-mean… 1.5 Giảm khoảng cách ngữ nghĩa Có nhiều cách tiếp cận để giảm khoảng cách ngữ nghĩa tra cứu ảnh dựa vào nội dung Luận án lựa chọn theo hướng tiếp cận học máy để đưa đề xuất giảm khoảng cách 1.6 Đánh giá hiệu Để đánh giá ứng dụng tra cứu ảnh, sở liệu ảnh tập truy vấn yêu cầu Các truy vấn thực để thu kết tra cứu Sau đó, phương pháp đánh giá hiệu sử dụng để so sánh kết tra cứu với ảnh liên quan đến ảnh truy vấn sở liệu 1.7 Kết luận Chƣơng định hƣớng nghiên cứu Trong chương này, luận án trình bày đặc trưng mức thấp ảnh, cấu trúc hệ thống tra cứu ảnh dựa vào đặc trưng mức thấp phân tích số phương pháp tra cứu ảnh dựa vào đặc trưng mức thấp Bên cạnh đó, luận án trình bày số phương pháp giảm khoảng cách ngữ nghĩa theo cách tiếp cận phản hồi liên quan Một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao phân tích Ở thời điểm nay, đề xuất thuật toán hiệu cho CBIR, số vấn đề cần phải giải Vấn đề giảm gánh nặng cho người dùng, tức không yêu cầu người dùng phải cung cấp đồng thời nhiều ảnh truy vấn đa dạng Vấn đề thứ hai ảnh liên quan ngữ nghĩa không thuộc cụm mà nằm rải rác khơng gian đặc trưng Do để tăng độ xác, cần thiết phải có cách thức lấy ảnh nằm rải rác không gian đặc trưng Vấn đề thứ ba vùng chứa điểm truy vấn tối ưu khác khác Do đó, để nâng cao độ xác, cần khai thác thông tin địa phương vùng Trong luận án này, tác giả tập trung vào vấn đề nâng cao độ xác tra cứu ảnh theo hướng tiếp cận giảm khoảng cách ngữ nghĩa Thứ nhất, luận án đề xuất phương pháp tra cứu ảnh liên quan ngữ nghĩa để thu tập ảnh kết có đa dạng nằm rải rác tồn khơng gian đặc trưng mà khơng yêu cầu người dùng tạo truy vấn phức tạp [CT5] Thứ hai, luận án đề xuất phương pháp tra cứu ảnh sử dụng trọng số thích nghi Thay sử dụng chung trọng số cho cụm chứa ảnh truy vấn tối ưu, phương pháp xác định trọng số cho cụm cụ thể [CT6] Chƣơng PHƢƠNG PHÁP TRA CỨU ẢNH LIÊN QUAN NGỮ NGHĨA 2.1 Giới thiệu Các cách tiếp cận CBIR giả thiết rằng, khơng gian đó, vị trí ảnh liên quan gần với ảnh truy vấn Giả thiết phù hợp với toán mà người dùng muốn tìm ảnh có đặc trưng mức thấp, chẳng hạn: tìm bơng hồng màu đỏ Tuy nhiên, với tốn mà người dùng đặt u cầu tìm ảnh có đặc trưng mức thấp khác ngữ nghĩa, chẳng hạn: tìm tất hồng (bao gồm hoa hồng màu đỏ, màu vàng, màu trắng) sở liệu ảnh, giả thiết khơng phù hợp Chương chương sau luận án đề xuất phương pháp giải tốn tìm ảnh có đặc trưng mức thấp khác ngữ nghĩa (tức chủ đề) Sự tương tự ảnh mà người nhận thức (các ảnh liên quan mặt ngữ nghĩa) lại khác với tương tự chúng không gian đặc trưng Tức là, ảnh liên quan mặt ngữ nghĩa nằm phân tán tồn khơng gian đặc trưng nằm rải rác số cụm cụm Trong trường hợp này, cách tiếp cận phản hồi liên quan truyền thống [2,29,61,74] không làm việc tốt (do họ sử dụng cách tiếp cận điểm truy vấn) Thực phản hồi liên quan đề cập đến việc tính tốn nhiều điểm truy vấn không gian đặc trưng thay đổi hàm khoảng cách Các phương pháp trình bày theo cách tiếp cận phản hồi liên quan với truy vấn tách rời có ưu điểm cho kết ảnh liên quan ngữ nghĩa nằm rải rác tồn khơng gian đặc trưng Tuy nhiên, phương pháp có hạn chế: (1) Yêu cầu người dùng phải cung cấp đồng thời ảnh truy vấn đa dạng, chẳng hạn, để truy vấn chủ đề hoa hồng, người dùng phải cung cấp ảnh hoa hồng đỏ, hoa hồng vàng, hoa hồng trắng, làm truy vấn Nếu điều kiện không thỏa mãn, kết tra cứu khởi tạo ảnh nằm vùng không bao gồm ảnh liên quan nằm vùng khác Nếu người dùng cung cấp cho hệ thống ảnh truy vấn ảnh hoa hồng màu vàng, kết tra cứu khởi tạo trả ảnh hoa hồng màu vàng mà bỏ qua ảnh hoa hồng màu trắng màu đỏ Lý việc hệ thống tra cứu ảnh truyền thống, ảnh có véc tơ đặc trưng mức thấp tương tự nằm gần (hay cụm đặc trưng mức thấp) Trên danh sách kết khởi tạo gồm có bơng hồng màu vàng, người dùng chọn hồng màu vàng Hệ thống dựa vào phản hồi hồng màu vàng để tiếp tục tra cứu Các pha tra cứu dịch chuyển đến vùng màu vàng Kết hệ thống thu bơng hồng màu vàng Vì vậy, vùng hoa hồng màu đỏ trắng bị bỏ qua, độ xác hệ thống bị giới hạn cho dù pha tra cứu sau có ưu việt đến đâu (2) Số lần truy vấn cho lần lặp phụ thuộc vào số ảnh liên quan người dùng cung cấp, có hai khả không thuận lợi xảy ra: Khả thứ nhất, người dùng chọn ảnh phản hồi (ít số cụm không gian đặc trưng) Trong khả này, độ xác hệ thống khơng đảm bảo theo lý thuyết phân cụm, nhiều truy vấn phủ nhiều cụm Khả thứ hai người dùng chọn nhiều ảnh phản hồi Khả làm tăng gánh nặng cho pha gộp danh sách kết (mỗi truy vấn có danh sách kết quả) Ngồi ra, q nhiều truy vấn khơng cải tiến nhiều độ xác hệ thống (thực nghiệm [49] độ xác tăng nhanh từ đến truy vấn tăng chậm số truy vấn từ đến 20) Chẳng hạn, sở liệu Corel với chủ đề hoa hồng, ảnh truy vấn hoa hồng nằm rải rác cụm (mỗi cụm tương ứng với màu hoa hồng) (3) Sử dụng trọng số truy vấn ngang nhau, tức là, độ quan trọng truy vấn cho dù truy vấn có lân cận khác (4) Các đặc trưng có trọng số cho dù thành phần đặc trưng có độ quan trọng khác Những hạn chế nguyên nhân dẫn đến độ xác hệ thống tra cứu chưa cao Trên sở phân tích hạn chế phương pháp có, luận án đề xuất phương pháp tra cứu ảnh liên quan ngữ nghĩa Phương pháp đề xuất có ưu điểm là: (1) Chỉ sử dụng truy vấn để tạo kết tra cứu khởi tạo đa dạng, gồm ảnh nằm vùng khác (giảm gánh nặng cho người dùng việc chọn nhiều ảnh truy vấn) (2) Phân cụm ảnh liên quan với thời gian thấp (3) Xác định độ quan trọng ngữ nghĩa truy vấn (4) Xác định độ quan trọng theo đặc trưng Bốn ưu điểm thể phương pháp công bố [CT5, CT6] 2.2 Sơ đồ phƣơng pháp đề xuất Trên sở phân tích mục 2.1 trên, luận án đề xuất sơ đồ phương pháp Hình 2.5 Ảnh truy vấn Các biểu diễn Kết Véc tơ đặc trưng Độ tương tự Tập ảnh Phản hồi tra cứu Các điểm truy vấn Tập phản hồi Phân cụm gia tăng Độ quan trọng truy vấn Tính tốn Độ quan trọng đặc trưng Các cụm Tính tốn Truy vấn Cơ sở liệu đặc trưng Sắp xếp Đại diện cụm Hình 2.5 Cấu trúc phƣơng pháp đề xuất Phần luận án trình bày chi tiết phương pháp đề xuất Phần cần có số định nghĩa, luận án đưa số định nghĩa Định nghĩa 2.1 (Tập đặc trƣng) Một tập đặc trưng F gồm có N đặc trưng, gồm m thành phần, thành phần giá trị thực (2.1) Định nghĩa 2.2 (Không gian đặc trƣng) Một không gian đặc trưng FS gồm m chiều, chiều tương ứng với thành phần thực đặc trưng t (t=1 N) thuộc tập đặc trưng F, điểm pt (t=1 N) không gian FS tương ứng với đặc trưng F (2.2) Định nghĩa 2.3 (Không gian đặc trƣng thứ i) Một không gian đặc trưng thứ i, ký hiệu , không gian đặc trưng gồm n chiều, điểm không gian ký hiệu (t=1 N) có n tọa độ (2.3) Định nghĩa 2.4 (Đo khoảng cách hai điểm không gian đặc trƣng FSi) Đo khoảng cách hai điểm (k,l=1 N) kl ,được ký ), độ đo khoảng cách hiệu ( Ý tƣởng phƣơng pháp đề xuất khơng đặt ảnh (bao gồm ảnh sở liệu ảnh truy vấn) không gian đặc trưng mà đặt nhiều không gian đặc trưng (trong ngữ cảnh chương này, luận án ánh xạ biểu diễn ảnh vào không gian đặc trưng tương ứng), sau thực tra cứu việc truy vấn không gian đặc trưng nhập kết tương ứng với không gian đặc trưng thành kết cuối Lý mà phương pháp luận án lấy ảnh nằm rải rác không gian đặc trưng màu gốc ảnh chuyển biểu diễn xám Theo biểu diễn này, đặc trưng hình dạng kết cấu khơng bị át màu Một ảnh hoa hồng (biểu diễn xám) ánh xạ thành điểm không gian Trung bình nhóm i ∑ : ma trận hiệp phương sai gộp chung tất nhóm Giả sử ta biết: (2.12) (2.13) Lưu ý: công thức (2.13) tỉ số mẫu huấn luyện nhóm i tổng số mẫu huấn luyện Đến đây, thu cơng thức: (2.14) Vì mẫu số (2.14) khơng phụ thuộc vào i, nên coi số C thu công thức (2.15) Thay từ (2.11) vào (2.15), ta được: ∑ ∑ Vì số ∑ (2.16) (2.16) không phụ thuộc vào i nên ta đặt ∑ ta có: ∑ (2.17) lấy logarit hai vế (2.17), ta được: ∑ log log log (2.18) Giá trị vế phải (2.18) với nhóm i nên ta quan tâm đến: ∑ log (2.19) ∑ ∑ [ ∑ ] =log (2.20) Như vậy, mục tiêu ta cực đại công thức (2.20) theo i Do ∑ (2.20) không phụ thuộc vào i nên ta coi số nên (2.20) biến đổi thành ∑ ∑ log (2.21) Bỏ qua số , ta có hàm mục tiêu: ∑ ∑ log (2.22) Với đầu vào x, dự đốn nhãn i cao 2.4.3 Cơng thức đề xuất cho tính khoảng cách cải tiến Luận án đề xuất cơng thức tính khoảng cách từ ảnh đến truy vấn đa điểm MQ = (Q1, Q2, Qn) Khoảng cách (2.23) cực tiểu khoảng cách có trọng số từ ảnh đến truy vấn Qi: ( ) (2.23)  11 Trong công thức (2.23), Dist( ,Qi ) với i=1 n, j=1 k khoảng cách từ ảnh đến truy vấn Qi với trọng số đặc trưng (xác định theo thuật toán IF ), trọng số ngữ nghĩa kết hợp với khoảng cách dij (xem cách tính trọng số ngữ nghĩa cơng thức (2.24)) 2.4.4 Cơng thức đề xuất cho tính trọng số ngữ nghĩa truy vấn Đề xuất dựa nhận thức rằng, cụm chứa nhiều ảnh liên quan ngữ nghĩa quan trọng cụm lại Do đó, truy vấn tạo từ cụm có trọng số ngữ nghĩa cao cụm lại Vì vậy, tác giả đề xuất tính trọng số ngữ nghĩa wij kết hợp với khoảng cách dij từ ảnh đến truy vấn Qi (thuộc cụm ngữ nghĩa i) tỉ số số ảnh liên quan ngữ nghĩa cụm i tổng số ảnh liên quan n cụm ngữ nghĩa ụ  (2.24) ∑ ụ Các trọng số cần thỏa mãn điều kiện ∑  2.4.5 Thuật tốn đề xuất cho tính độ quan trọng đặc trƣng Ý tưởng việc xác định độ quan trọng đặc trưng dựa vào phản hồi người dùng độ phân tán điểm liệu Khi người dùng phản hồi số ảnh liên quan ngữ nghĩa với ảnh truy vấn, phương pháp đề xuất phân cụm ảnh thành cụm xét cụm số cụm sau: ảnh cụm điểm không gian đa đặc trưng điểm có vị trí gần khơng gian đa đặc trưng Một hình bao điểm chiếu xuống trục tương ứng với đặc trưng, sau tính phương sai điểm theo trục (độ phân tán liệu theo trục không gian đặc trưng lớn có nghĩa độ quan trọng theo trục nhỏ) Do đó, độ quan trọng đặc trưng không gian đa đặc trưng nghịch đảo phương sai điểm theo trục 2.4.6 Thuật tốn đề xuất cho gộp danh sách kết Với điểm truy vấn, hệ thống cho danh sách kết Các danh sách cần gộp lại để có danh sách kết cuối Thuật tốn gộp thực cơng việc Mệnh đề [Độ phức tạp thuật toán Combination]: Độ phức tạp thuật toán Combination với n số danh sách cần kết hợp k số ảnh trả danh sách 2.4.7 Thuật toán đề xuất chung cho tra cứu ảnh liên quan ngữ nghĩa Ở phần này, luận án đề xuất thuật tốn, có tên SRIR (Semantic – Related Image Retrieval), khơng đòi hỏi người dùng phải cung cấp đồng thời nhiều truy vấn đa dạng Dưới mô tả thuật toán tra cứu ảnh liên quan ngữ nghĩa SRIR Thuật toán 2.5 Thuật toán SRIR Input: Tập ảnh sở liệu DB Ảnh truy vấn Q 12 Số ảnh tra c u sau lần lặp k Không gian đặc trưng F Số đặc trưng m Ouput: Tập ảnh kết R C+Q; PMQFC+  ; (  WMQFC+ ; DMQFC+ s1 ; C-  ; PMQFC-  ; (  WMQFC- ; DMQFC- s2 ; G+  ; PMQFG+  (  WMQFG+ ; DMQFG+ s3 ; G-  ; PMQFG-  (  WMQFG- ; DMQFG- s4 ; ( US ; repeat USUS ; CL ; for i1 to n  ; ci (CiCL); PMQici for j1 to k ụ WMQi∑ ) ) ; ) ; ) ) ụ ); DMQid (  Ri; SR until User dừng phản hồi return R; Mệnh đề [Độ phức tạp thuật toán SRIR]: Độ phức tạp thuật toán SRIR với N số ảnh có CSDL 2.5 Đánh giá thực nghiệm 2.5.1 Môi trƣờng thực nghiệm 13 Cơ sở liệu sử dụng cho thử nghiệm tập Corel gồm 3.400 ảnh 2.5.3 Thực truy vấn đánh giá Để kiểm tra độ xác phương phấp đề xuất Tất 3400 ảnh tập ảnh dùng làm truy vấn Độ xác1 trung bình mức 150 ảnh trả sử dụng để đánh giá Trong Bảng 2.2, thể độ xác trung bình bốn phương pháp Basic C+, JF, MMRF phương pháp đề xuất SRIR mức 1,4 ,8 ,12, 16 20 truy vấn, với số cụm số truy vấn Bảng 2.2 Bảng kết phƣơng pháp theo số truy vấn lần phản hồi Độ xác theo số truy vấn Phƣơng truy truy truy 12 truy 16 truy 20 truy pháp vấn vấn vấn vấn vấn vấn Basic C+ 0.20 0.22 0.23 0.24 0.245 0.25 JF 0.24 0.29 0.31 0.33 0.34 0.35 MMRF 0.243 0.31 0.315 0.323 0.334 0.365 SRIR 0.36490 0.39789 0.40035 0.40241 0.40360 0.40385 Các kết thực nghiệm Hình 2.11 Trục ngang số cụm (có thể 1, 4, 8, 12, 16, 20) Trục đứng độ xác Ba phương pháp khác gồm Basic C+ , JF, MMRF SRIR đường cong Hình 2.11 với Độ xác hệ thống tăng lên (trục đứng) với tăng trung ngang (số cụm) Nhiều cụm sử dụng tra cứu, độ xác hệ thống cao Dễ thấy, độ xác phương pháp SRIR tốt số cụm khoảng từ đến 8, cụ thể 36.490% mức 1, 39.789% mức 40.035% mức 0.45 0.4 Độ xác 0.35 0.3 Basic C+ 0.25 0.2 JF 0.15 MMRF 0.1 SRIR 0.05 12 16 20 Số truy vấn phản hồi Hình 2.11 So sánh độ xác Độ xác (precision) tỉ số số ảnh liên quan với ảnh truy vấn tập kết trả tổng số ảnh trả 14 Trong phương pháp SRIR, đường cong độ xác tăng nhanh từ đến cụm (đặc biệt từ đến 4) tăng chậm khoảng từ 12 đến 20 cụm, cụm phủ hầu hết cụm không gian đặc trưng Dù phương pháp JF tăng nhanh khoảng từ đến truy vấn [49] phương pháp đề xuất SRIR có độ xác cao hẳn mà khơng làm tăng thời gian tra cứu Lý việc phương pháp đề xuất, dù số cụm khoảng từ đến tận dụng thông tin ngữ nghĩa từ số phản hồi người dùng nhiều 2.6 Kết luận Chƣơng Luận án tập trung vào việc phân tích ưu điểm hạn chế phương pháp có Trên sở đề xuất phương pháp, có tên SRIR, giải bốn vấn đề là: (1) Chỉ sử dụng truy vấn để tạo kết tra cứu khởi tạo đa dạng, gồm ảnh nằm vùng khác (giảm gánh nặng cho người dùng việc chọn nhiều ảnh truy vấn); (2) Phân cụm ảnh liên quan với thời gian thấp; (3) xác định độ quan trọng ngữ nghĩa truy vấn (4) xác định độ quan trọng theo đặc trưng Kết thực nghiệm sở liệu đặc trưng gồm 3400 ảnh phương pháp đề xuất SRIR cung cấp độ xác cao hẳn so với phương pháp Basic C+, MMRF phương pháp JF 15 Chƣơng PHƢƠNG PHÁP TRA CỨU ẢNH SỬ DỤNG TRỌNG SỐ THÍCH NGHI 3.1 Giới thiệu Chương luận án trình bày phương pháp tra cứu ảnh [CT5] lấy điểm ảnh sở liệu nằm rải rác tồn khơng gian đặc trưng cho kết tra cứu cao phương pháp so sánh Tuy nhiên, phương pháp phương pháp có chưa giải hai hạn chế sau: Thứ nhất, không khai thác đầy đủ thông tin phản hồi (mức độ liên quan ảnh) để xác định điểm truy vấn tối ưu Chẳng hạn, Hình 3.1 giao diện chung hệ thống có Giao diện cho thấy, người dùng tích chọn vào phía ảnh (nếu ảnh liên quan) khơng tích chọn (nếu ảnh khơng liên quan), Trong người dùng đánh giá ảnh có ID pl_flower\84059 cao ảnh có ID pl_flower\476083 Hình 3.1: Giao diện điển hình hệ thống CBIR với phản hồi liên quan Thứ hai, phương pháp coi vùng chứa điểm truy vấn tối ưu khác ngang gán trọng số cho tất điểm lân cận truy vấn tối ưu Điều khơng thích hợp vùng khác thường có thuộc tính riêng biệt Hình 3.2 Minh họa vùng truy vấn tối ƣu ngang (a) Hình bên trái: điểm truy vấn thứ (b) Hình bên phải: điểm truy vấn thứ hai 16 Dựa quan sát này, luận án đề xuất phương pháp tra cứu ảnh thông qua trọng số thích nghi, có tên AWEIGH (An efficient image retrieval method using adaptive weights) [CT6] Trong phương pháp này, thay sử dụng véc tơ trọng số giống cho vùng chứa điểm truy vấn tối ưu khác nhau, phương pháp tự động tính tốn điểm truy vấn tối ưu véc tơ trọng số tối ưu tương ứng với vùng mà chứa điểm truy vấn tối ưu dựa vào phản hồi người dùng Bên cạnh đó, phương pháp trước thực phân cụm tất ảnh phản hồi, độ phức tạp tính tốn phương pháp cao Để giải hạn chế này, phương pháp đề xuất phân cụm phản hồi lần lặp (từ lần lặp thứ hai, phương pháp phân lớp phản hồi vào cụm) (xem mục 2.3 Chương 2) Hình 3.3 sơ đồ phương pháp đề xuất luận án Sự khác biệt đề xuất luận án phương pháp tra cứu ảnh phản hồi liên quan có nằm ba thành phần (thuộc đường biên nét đứt hình chữ nhật bao): (a) Xác định điểm truy vấn tối ưu, (b) tính tốn véc tơ trọng số (c) Tính tốn hàm khoảng cách cải tiến Các thành phần nhúng vào hệ thống tra cứu ảnh sử dụng phản hồi liên quan nào, luận án thực mô tả thành phần cách tách biệt mục tiếp sau AWEIGHT Ảnh truy vấn Xác định điểm truy vấn tối ưu Máy tìm kiếm Xác định trọng số Tính tốn hàm khoảng cách cải tiến Tập kết Tập phản hồi Máy tìm kiếm Phân cụm ảnh Tập kết Tập phản hồi Tập huấn luyện Gia tăng cụm Hình 3.3 Sơ đồ tra cứu ảnh sử dụng trọng số thích nghi 17 3.2 Thuật tốn xác định điểm truy vấn tối ƣu trọng số thích nghi hàm khoảng cách cải tiến Trong phần này, luận án trình bày kỹ thuật đề xuất để xác định điểm truy vấn tối ưu trọng số thích nghi hàm khoảng cách Kỹ thuật xác định điểm truy vấn tối ưu trọng số thích nghi theo cụm ảnh cho Trong trường hợp nhiều cụm, kỹ thuật thực cho cụm Ở đây, ta giả sử có cụm i (i=1,…,g) đó, ảnh cụm i biểu diễn img img img img với j=1…n , ma trận M img img (n số phần tử cụm i) biểu diễn ảnh cụm i Giả thiết véc tơ truy vấn tối ưu cụm i q q q q Giả sử thông tin đánh giá người dùng dạng mức độ liên quan cho img (j=1, ,n ) ký hiệu lr (ở lr  , lr cao khoảng cách nhỏ hay độ tương tự cao), véc tơ L lr lr lr biểu diễn thông tin đánh giá người dùng dạng mức độ liên quan cụm M img img Bài tốn tìm điểm truy vấn tối ưu q ma trận trọng số đưa toán tối ưu có ràng buộc sau: ∑ lr (img q ) img q (3.1) Với ràng buộc det( )=1 Ở det( ) định thức ma trận (ràng buộc det( )=1 để tránh trường hợp ma trận ma trận khơng) Để tìm nghiệm q toán (3.1), ta sử dụng phương pháp nhân tử Lagrange để giải: - Điểm truy vấn tối ưu q : q ∑ với q ∑ - Ma trận trọng số ∑ m d (3.2) : det C C (3.3) Với ma trận hiệp phương sai có trọng số ảnh cụm i: C c với: ∑ lr c img ̅̅̅̅̅ mg img ̅̅̅̅̅ mg (3.4) Từ véc tơ truy vấn tối ưu q ma trận trọng số W, hàm khoảng cách xác định sau: d (img Cho Cpf (q q ) (img q ) (img q ) (3.5) ) danh sách điểm cụm mẫu phản hồi dương tương ứng với điểm truy vấn tối ưu thứ i (q 18 tức danh sách điểm hình ellip tương ứng Nearest p danh sách k điểm gần pi e e Nearest p e Cpf q điểm phản hồi dương lân cận k điểm pi Hàm khoảng cách đề xuất viết sau: (p q ) (p q ) (3.6) d d Khi đó: d truy vấn tối ưu q (p q d ) khoảng cách cải tiến từ điểm pi tới điểm p q khoảng cách từ pi tới điểm truy vấn tối ưu q theo Thuật toán 3.2 3.3 Đề xuất thuật toán tra cứu ảnh sử dụng trọng số thích nghi Trên sở nội dung trình bày trên, luận án đề xuất thuật toán tra cứu ảnh sử dụng trọng số thích nghi AWEIGHT sử dụng điểm truy vấn tối ưu, hàm khoảng cách tối ưu hàm khoảng cách cải tiến Thuật toán 3.2 Thuật toán AWEIGHT Input: Image set: S Query: Qinitial Number of retrieved images after each interation: k Output: The result set: Result(Qopt) Result(Qinitial) ; Relevant( ,N)Feedback esult N ; CISE(Relevant( ,N), g, IMG) D{ i N } Repeat 5.1 for i1 to g FQM( , , ) 5.2 Result(Qopt) ; )N 5.3 Relevant( N’)Feedback esult( ; 5.4 For j to N’ INC(D, imgj  Relevant( N’), i); Add(imgj, ) until (User stops responding); Return Result(Qopt); 3.4 Thử nghiệm đánh giá kết 3.4.1 Môi trƣờng thực nghiệm Cơ sở liệu ảnh Hiệu tra cứu phương pháp đề xuất đánh giá sở liệu (CSDL) gồm 10.800 ảnh CSDL ảnh tập Corel Photo Gallery 19 3.4.2 Các kết thực nghiệm thảo luận Trong phần thực nghiệm, tham số lựa chọn sau: Hiệu tra cứu đánh giá sở liệu ảnh COREL gồm 10.800 ảnh, tất ảnh sở liệu sử dụng để thực truy vấn Thực nghiệm thực đánh giá độ xác phương pháp đề xuất dựa độ xác trung bình 10.800 ảnh truy vấn Mỗi truy vấn thực trả 100 ảnh, lý chọn 100 ảnh người dùng thường xem xét trang hình trang hình chứa 50 ảnh để lựa chọn ảnh phản hồi Các kết quả, độ xác trung bình 10800 truy vấn, thể số liệu Bảng 3.2 đồ thị Hình 3.5 Chi tiết độ xác tồn 10.800 truy vấn xem địa http://117.6.134.238:368/results.html/ Bảng 3.2 Bảng kết trung bình độ xác phƣơng pháp theo số điểm truy vấn ba lần phản hồi Trung bình độ xác (%) Phƣơng pháp Độ hính xác trung bình điểm truy vấn điểm truy vấn điểm truy vấn CRF 0.2387 0.3065 0.3199 DSSA 0.3135 0.42658 0.4846 WATH 0.2856 0.3763 0.4218 AWEIGHT 0.3324 0.48658 0.5125 Trong Bảng 3.2, thể độ xác trung bình năm phương pháp CRF, DSSA, WATH phương pháp đề xuất AWEIGHT mức 2, điểm truy vấn, với phương pháp đề xuất số điểm truy vấn xác định theo số cụm Với điểm truy vấn, độ xác phương pháp đề xuất cao ba phương pháp CRF, DSSA, WATH 9.37%, 1.89%, 4.68% Trường hợp điểm truy vấn, độ xác phương pháp đề xuất CRF, DSSA, WATH 18.008%, 6%, 11.028 Trường hợp điểm truy vấn, phương pháp đề xuất có độ xác cao CRF, DSSA, WATH, 19.26%, 2.79%, 9.07% 0.6 0.5 0.4 CRF 0.3 DSSA 0.2 WATH 0.1 AWEIGHT Số lượng điểm truy vấn Hình 3.7 So sánh độ xác phƣơng pháp Từ kết thực nghiệm Hình 3.7, độ xác ba hệ thống tăng lên (trục đứng) với tăng trục ngang (số điểm truy vấn) Lý việc số điểm tăng phủ nhiều số cụm không gian đặc 20 trưng trực quan Dễ thấy rằng, độ xác phương pháp AWEIGHT tốt hẳn phương pháp lại tất trường hợp bao gồm điểm, điểm điểm Nguyên nhân việc phương pháp đề xuất tận dụng thông tin địa phương điểm truy vấn 0.4 0.35 Độ lệch chuẩn 0.3 CRF 0.25 DSSA 0.2 WATH 0.15 SAF 0.1 AWEIGHT 0.05 Số lượng điểm truy vấn Hình 3.8 So sánh độ lệch chuẩn phƣơng pháp Hình 3.8 độ lệch chuẩn phương pháp, độ lệch chuẩn phương pháp đề xuất cao phương pháp (CRF, DSSA, WATH SAF) tất cấu hình 2, điểm truy vấn So sánh độ xác phƣơng pháp đề xuất sử dụng tập thực không sử dụng tập thực Để kiểm tra độ nhạy phương pháp, lấy ngẫu nhiên 1000 ảnh sở liệu Corel làm ảnh truy vấn, thực nghiệm yêu cầu 50 sinh viên phản hồi 1000 ảnh truy vấn (thể nhận thức chủ quan người dùng) Hình 3.11 độ xác trung bình phương pháp đề xuất với hai cấu hình: cấu hình thứ sử dụng tập thực ảnh từ sở liệu ảnh Corel (Aweight_GT) Cấu hình thứ hai sử dụng nhận thức chủ quan sinh viên (Aweight_UP) Từ Hình 3.9 ta thấy phương pháp đề xuất sử dụng phản hồi liên quan từ sinh viên có giảm so với sử dụng tập thực khơng đáng kể Độ xác trung bình 0.6 0.5 0.4 0.3 Aweight_GT 0.2 Aweight_UP 0.1 Số lượng điểm truy vấn Hình 3.9 So sánh độ xác trung bình phƣơng pháp Aweight với tập thực Aweight sử dụng nhận thức trực quan sinh viên 21 Độ xác trung bình Đánh giá độ xác phƣơng pháp đề xuất trƣờng hợp giả định Để minh họa cho ưu điểm phương pháp đề xuất, luận án tiến hành thực nghiệm để so sánh phương pháp đề xuất với trường hợp sau: Thứ nhất, phương pháp Aweight khơng xem xét tính chất địa phương điểm truy vấn tối ưu không dùng hàm khoảng cách tối ưu Aweight_WLNR (Aweight without local nature of the region) Thứ hai, phương pháp Aweight không sử dụng hàm khoảng cách cải tiến Aweight_WIDF (Aweight without improved distance functions) Thêm vào đó, luận án thực so sánh với phương pháp FGSSH (Fast graph similarity search via hashing) Hình 3.10 độ xác trung bình 10.800 ảnh truy vấn với ba lần lặp phản hồi tất cấu hình 2,4, điểm truy vấn 0.6 0.5 0.4 AWEIGHT 0.3 Aweight_WLNR 0.2 Aweight_WIDF 0.1 FGSSH Số lượng điểm truy vấn Hình 3.10 So sánh độ xác trung bình phƣơng pháp Aweight, Aweight_WLNR, Aweight_WIDF FGSSH Hình 3.10 cho biết phương pháp Aweight ln có độ xác cao so với Aweight_WLNR, Aweight_WIDF FGSSH Ngồi ra, từ thực nghiệm cho thấy độ xác phương pháp Aweight_WLNR thấp nhiều so với phương pháp Aweight Aweight _WIDF Điều tính chất địa phương vùng ảnh hưởng lớn đến kết tra cứu Các kết thực nghiệm Hình 3.10 minh chứng ưu điểm phương pháp đề xuất khai thác tính chất địa phương vùng để xác định điểm truy vấn tối ưu, trọng số tối ưu (hoặc hàm khoảng cách tối ưu) hàm khoảng cách cải tiến Hiệu tính tốn Một ưu điểm khác phương pháp Aweight việc sử dụng phân cụm gia tăng Với phương pháp phân cụm này, phương pháp Aweight tránh việc phân cụm lại sau lần lặp phản hồi liên quan Để minh chứng cho ưu điểm này, luận án thực đánh giá thời gian thực tra cứu phương pháp Aweight không sử dụng phân cụm gia tăng Aweight_WRC (Aweight without Re-Cluster) Thực nghiệm thực lựa chọn 10.800 ảnh sở liệu Corel làm ảnh truy vấn thời gian xử lý trung bình thể hình 3.11 với ba vòng lặp phản hồi Từ hình 3.11, thấy thời gian thực truy 22 vấn phương pháp Aweight thấp nhiều so với Aweight_WRC Kết minh chứng bước phân cụm gia tăng phương pháp Aweight hiệu mặt thời gian tính tốn 6000 Thời gian (ms) 5000 4000 3000 Aweight_WRC 2000 Aweight 1000 Số lượng điểm truy vấn Hình 3.11 Thời gian thực tra cứu phƣơng pháp đề xuất với hai trƣờng hợp 3.5 Kết luận Chƣơng Trong chương này, luận án trình bày phương pháp tra cứu ảnh đề xuất sử dụng trọng số thích nghi để cải tiến hiệu phương pháp tra cứu ảnh phương pháp Chương [CT5] phương pháp có Phương pháp AWEIGHT khai thác hiệu thông tin phản hồi thông qua mức phản hồi từ lần lặp để xác định điểm truy vấn tối ưu Phương pháp AWEIGHT khai thác đầy đủ tính chất địa phương điểm truy vấn tối ưu thay sử dụng tính chất tồn cục điểm truy vấn tối ưu phương pháp trước Do đó, phương pháp AWEIGHT thu điểm lân cận dựa vào tính chất địa phương điểm truy vấn tối ưu Phương pháp AWEIGHT thực phân cụm gia tăng tập ảnh phản hồi người dùng: mẫu phản hồi lần lặp hình thành lên tập ví dụ huấn luyện, mẫu phản hồi từ lần lặp thứ hai thêm vào cụm mà không cần phân cụm lại toàn mẫu phản hồi Phân cụm gia tăng cho phép phương pháp tra cứu ảnh Aweight tận dụng nhiều phản hồi từ phía người dùng mà khơng tăng tốc độ tính tốn Thêm vào đó, phương pháp AWEIGHT áp dụng vào hệ thống tra cứu ảnh nhiều người sử dụng Các kết thực nghiệm minh chứng phương pháp đề xuất có độ xác cao phương pháp DSSA, CRF WATH 23 KẾT LUẬN Nghiên cứu nâng cao độ xác thời gian tra cứu ảnh dựa vào đặc trưng mức thấp thực thời gian dài Nghiên cứu giảm khoảng cách ngữ nghĩa đặc trưng mức thấp khái niệm ngữ nghĩa mức cao chủ để nghiên cứu nóng bỏng gần nhiều nhà nghiên cứu lĩnh vực CBIR quan tâm Nhiều kỹ thuật giảm khoảng cách ngữ nghĩa với phản hồi liên quan đề xuất thời gian gần Các đóng góp luận án theo hướng giảm khoảng cách ngữ nghĩa với phản hồi liên quan để nâng cao độ xác tốc độ tra cứu Để giải vấn đề điểm ảnh sở liệu nằm rải rác toàn không gian đặc trưng tốc độ tra cứu, luận án đề xuất phương pháp, có tên SRIR [CT5] Trong đó, phương pháp khơng đòi hỏi người dùng phải cung cấp đồng thời nhiều truy vấn đa dạng (giảm gánh nặng cho người dùng) Bên cạnh đó, phương pháp tận dụng đánh giá người dùng để xác định độ quan trọng ngữ nghĩa truy vấn độ quan trọng đặc trưng Ngồi ra, luận án khơng thực phân cụm lại toàn tập ảnh mà thực phân cụm gia tăng Để giải vấn đề chọn điểm truy vấn tính khoảng cách “tốt”, luận án trình đề xuất phương pháp tra cứu ảnh sử dụng trọng số thích nghi [CT6] Trong đó, phương pháp khai thác hiệu mức độ phản hồi để xác định điểm truy vấn tối ưu Bên cạnh đó, phương pháp khai thác đầy đủ tính chất địa phương điểm truy vấn tối ưu thay sử dụng tính chất tồn cục điểm truy vấn tối ưu phương pháp trước Ngoài ra, phương pháp thực phân cụm gia tăng tập ảnh phản hồi người dùng Một số vấn đề cần nghiên cứu tiếp tương lai: - Tích hợp kỹ thuật học sâu vào hệ thống tra cứu - Tiếp tục nghiên cứu giải pháp giảm khoảng cách ngữ nghĩa - Thực nghiệm CSDL ảnh có kích thước lớn đa dạng - Từng bước tiến đến việc đưa hệ thống vào áp dụng thực tế 24 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ Trong nƣớc: [CT1] Nguyễn Hữu Quỳnh, Đào Thị Thúy Quỳnh, Ngô Quốc Tạo, Cù Việt Dũng, Phương Văn Cảnh, An Hồng Sơn, (2016) Một phương pháp tra cứu ảnh biểu diễn nhu cầu thông tin người dùng hiệu quả, (FAIR, 2016) [CT2] Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh, Ngô Quốc Tạo, Phương Văn Cảnh, An Hồng Sơn, (2017) Một phương pháp tra cứu ảnh sử dụng phân cụm phổ phản hồi liên quan, (FAIR, 2017) [CT3] Đào Thị Thúy Quỳnh, Nguyễn Hữu Quỳnh , Ngô Quốc Tạo, Phương Văn Cảnh (2018) Nâng cao độ xác phương pháp tra cứu ảnh ngữ cảnh tập huấn luyện hạn chế (FAIR, 2018) Quốc tế: [CT4] Quynh Dao Thi Thuy, Quynh Nguyen Huu, Son An Hong (2019), “Image retrieval uses SVM-based relevant feedback for imbalance and small training set”, The 2019 IEEE - RIVF International Conference On Computing and Communication Technologies [CT5] Quynh Dao Thi Thuy, Quynh Nguyen Huu, Canh Phuong Van, Tao Ngo Quoc (2017), An efficient semantic – Related image retrieval method, Expert Systems with Applications, Volume 72, pp 30-41 (SCIE) [CT6] Quynh Nguyen Huu, Quynh Dao Thi Thuy, Canh Phuong Van, Can Nguyen Van, Tao Ngo Quoc (2018), An efficient image retrieval method using adaptive weights, Applied Intelligence, Volume 48, pp 3807– 3826, (SCI) 25 ... Nâng cao độ xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách để góp phần giải vấn đề đặt Mục tiêu luận án Luận án nghiên cứu đề xuất số phương pháp tra cứu. .. theo Thuật toán 3.2 3.3 Đề xuất thuật toán tra cứu ảnh sử dụng trọng số thích nghi Trên sở nội dung trình bày trên, luận án đề xuất thuật toán tra cứu ảnh sử dụng trọng số thích nghi AWEIGHT sử dụng. .. cứu ảnh 1.1.2 Tra cứu ảnh dựa vào nội dung Trong tra cứu ảnh dựa vào nội dung, ảnh tra cứu thơng qua đặc trưng mức thấp (tức màu, hình dạng, kết cấu) sử dụng đặc trưng ngữ nghĩa mức cao hay đặc

Ngày đăng: 25/10/2019, 22:55

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan