1. Trang chủ
  2. » Công Nghệ Thông Tin

Cải tiến độ chính xác tra cứu ảnh thông qua học sâu và học độ đo khoảng cách tối ưu

7 7 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết đề xuất phương pháp tra cứu ảnh IRDLoM (Image Retrieval using Deep learning and optimal distance metric) sử dụng mạng CNN để xây dựng bộ đặc trưng và tìm một phép chiếu tuyến tính với một độ đo tương tự cải tiến. Phần thực nghiệm cung cấp các kết quả thực nghiệm để minh chứng độ chính xác của phương pháp đề xuất.

Đào Thị Thúy Quỳnh CẢI TIẾN ĐỘ CHÍNH XÁC TRA CỨU ẢNH THÔNG QUA HỌC SÂU VÀ HỌC ĐỘ ĐO KHOẢNG CÁCH TỐI ƯU Đào Thị Thúy Quỳnh Khoa Công nghệ thơng tin 1, Học Viện Cơng Nghệ Bưu Chính Viễn Thơng * * Tóm tắt- Tra cứu ảnh dựa vào nội dung thực việc so sánh độ đo tương tự biểu diễn ảnh truy vấn biểu diễn sở liệu ảnh Do đó, hiệu phương pháp tra cứu ảnh bị ảnh hưởng nhiều biểu diễn ảnh độ đo tương tự Gần đây, học sâu sử dụng đem lại hiệu cao toán phân lớp, nhận dạng ảnh, đặc trưng ảnh học mơ hình CNN mang tính ngữ nghĩa cao Trong báo này, đề xuất phương pháp tra cứu ảnh IRDLoM (Image Retrieval using Deep learning and optimal distance metric) sử dụng mạng CNN để xây dựng đặc trưng tìm phép chiếu tuyến tính với độ đo tương tự cải tiến Phần thực nghiệm cung cấp kết thực nghiệm để minh chứng độ xác phương pháp đề xuất Từ khóa: Content-based image retrieval, deep learning, similarity measures, mahalanobis metric distance I MỞ ĐẦU Tra cứu ảnh dựa vào nội dung (CBIR-Content Based Image Retrieval) nhận nhiều quan tâm thập kỷ qua, nhu cầu xử lý hiệu lượng liệu đa phương tiện khổng lồ tăng nhanh chóng Nhiều hệ thống CBIR phát triển, gồm QBIC [21], Photobook [22], MARS [23], PicHunter [24] , Blobworld [25] Trong hệ thống CBIR tiêu biểu, đặc trưng ảnh trực quan mức thấp (màu, kết cấu hình dạng) trích rút tự động biểu diễn thành véc tơ đặc trưng tương ứng cho mục tiêu mô tả ảnh so sánh độ tương tự Để tìm kiếm ảnh mong muốn, người dùng đưa ảnh làm mẫu truy vấn hệ thống trả lại tập ảnh tương tự dựa vào đặc trưng trích rút Khi hệ thống trình bày tập ảnh xem tương tự truy vấn, người dùng lấy ảnh liên quan với ảnh truy vấn cho, hệ thống điều chỉnh truy vấn sử dụng chúng Phản hồi liên quan dựa vào kỹ thuật CBIR không yêu cầu người dùng cung cấp truy vấn khởi tạo xác, đánh giá truy vấn lý tưởng người dùng sử dụng ảnh liên quan phản hồi người dùng Tác giả liên hệ: Đào Thị Thúy Quỳnh Email: quynhdao.ptit@gmail.com Đến tòa soạn: 8/2020, chỉnh sửa: 9/2020, chấp nhận đăng: 10/2020 SỐ 03 (CS.01) 2020 Do đó, biểu diễn ảnh véc tơ đặc trưng độ đo tương tự hai yếu tố ảnh hưởng tới hiệu hệ thống CBIR Nâng cao hiệu hệ thống CBIR vấn đề thách thức nghiên cứu Để nâng cao hiệu quả, cần giảm khoảng trống ngữ nghĩa CBIR, khoảng trống ngữ nghĩa thể hạn chế biểu diễn ảnh đặc trưng mức thấp trích rút tự động ngữ nghĩa ảnh người cảm nhận Để giảm khoảng trống ngữ nghĩa này, có số đề xuất đưa kỹ thuật học máy vào trình tra cứu ảnh Những năm gần đây, học sâu nâng cao hiệu toán nhận dạng, phân loại đối tượng Với mong muốn nâng cao hiệu từ trình xây dựng đặc trưng biểu diễn ảnh, phương pháp đề xuất sử dụng cấu trúc mạng CNN để xây dựng đặc trưng có tính ngữ nghĩa cao Bên cạnh đó, phương pháp đề xuất kết hợp kỹ thuật phân lớp LDA học độ đo tương tự (Learning similarity measures) để đưa độ đo tương tự cải tiến phù hợp với liệu Ý tưởng học độ đo khoảng cách tìm độ đo khoảng cách tối ưu mà tối thiểu khoảng cách cặp ảnh tương tự tối đa hóa khoảng cách cặp ảnh khơng tương tự Sau đó, độ đo khoảng cách tối ưu dùng để phân hạng lại toàn tập ảnh trả kết Chúng đề xuất kỹ thuật hiệu cứu ảnh hiệu quả, kỹ thuật có tên IRDLoM (Image Retrieval using Deep learning and optimal distance metric) Bằng thực nghiệm sở liệu ảnh gồm 10.800 ảnh , xác phương pháp đề xuất Phần lại báo tổ chức sau Trong Phần 2, trình bày chi tiết phương pháp đề xuất Phần mô tả thực nghiệm hiệu thảo luận kết Cuối cùng, đưa kết luận II NGHIÊN CỨU LIÊN QUAN Tra cứu ảnh dựa vào nội dung sử dụng học khoảng cách nhận quan tâm cộng đồng nghiên cứu [6, 9, 13, 14, 15, 16, 17,18] Dữ liệu đầu vào thuật toán học khoảng cách tra cứu ảnh thường chia làm hai nhóm: (1) xem xét đến cặp ảnh tương tự (2) xem xét cặp ảnh tương tự cặp ảnh không tương tự Ý tưởng điều chỉnh trọng số hàm khoảng cách áp dụng vào hệ thống tra cứu ảnh, chẳng hạn phương pháp SRIR [19] Phương pháp thường tận dụng thông tin tập ảnh tương tự, xem xét tới phân tán liệu chiều biểu diễn ma TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 62 CẢI TIẾN ĐỘ CHÍNH XÁC TRA CỨU ẢNH THÔNG QUA HỌC SÂU VÀ HỌC ĐỘ ĐO KHOẢNG CÁCH TỐI ƯU trận đường chéo Từ đưa hàm khoảng cách Euclid cải tiến áp dụng vào phân hạng toàn tập ảnh Phương pháp MCML [4], phương pháp học độ đo khoảng cách Mahalanobis cho mẫu lớp ánh xạ tới điểm Bài toán học độ đo khoảng cách đưa toán tối ưu lồi tìm nghiệm theo phương pháp Gradient-descent Tuy nhiên, việc tìm nghiệm tốn tối ưu phương pháp Gradient-descent có chi phí tính tốn lớn Phương pháp LMNN [5] với ý tưởng cực tiểu khoảng cách mẫu nhãn nằm lân cận k-NN cực đại khoảng cách mẫu khác nhãn lề lớn mà sử dụng hàm khoảng cách Mahalanobis Ý tưởng mơ hình hóa tốn tối ưu giải phương pháp SDP [3] từ tìm độ đo khoảng cách cải tiến Thuật toán học trực tuyến cho độ tương tự ảnh cỡ lớn (OASIS) [18] thiết kế chuyên biệt để làm việc với ràng buộc cặp Tuy nhiên, chúng dựa giả thiết mạnh liệu đầu vào cấu trúc ràng buộc (yêu cầu liệu đầu vào véc tơ thưa) Do đó, khó áp dụng thực tế Phương pháp Xing [20] với ý tưởng đưa toán tối ưu dạng lồi mà cực tiểu hóa tổng khoảng cách cặp ảnh tương tự với ràng buộc tổng khoảng cách cặp ảnh không tương tự đạt cực đại Ở pha khởi tạo, phương pháp sử dụng hàm khoảng cách Euclid cải tiến với A=I Sau đó, phương pháp Xing đưa hàm khoảng cách cải tiến với A kết tốn tối ưu lồi nói Tuy nhiên, phương pháp Xing có chi phí tính tốn lớn sử dụng phương pháp giải Gradient-descent để tìm nghiệm chưa khai thác tập ảnh tương tự cách hiệu Với phương pháp RCA [8], ý tưởng phương pháp sử dụng cặp ảnh tương tự, tìm phép biến đổi liệu dựa vào ma trận phương sai sinh từ tập ảnh tương tự Từ đó, cải tiến hàm khoảng cách Mahalanobis cách thay đổi ma trận trọng số Mặc dù, phương pháp RCA có chi phí tính tốn hiệu phương pháp Xing phương pháp RCA xem xét tới tập ảnh tương tự Từ phân tích ưu điểm hạn chế nghiên cứu liên quan trên, đề xuất phương pháp tra cứu ảnh với hàm khoảng cách cải tiến Việc cải tiến hàm khoảng cách dựa việc cực đại hóa thương tổng khoảng cặp ảnh khơng tương tự tổng khoảng cách cặp ảnh tương tự Trong ý tưởng này, xem xét tập ảnh tương tự không tương tự để tìm ma trận trọng số cải tiến hiệu phương pháp tra cứu III PHƯƠNG PHÁP TRA CỨU ẢNH ĐỀ XUẤT Phương pháp đề xuất thực xây dựng đặc trưng dựa vào học sâu, từ k-NN trả tập ảnh khởi tạo cho người dùng Quá trình phản hồi liên quan thực hiện, người dùng lựa chọn tập ảnh phù hợp với mong muốn tập mẫu liên quan Lấy tập mẫu liên quan, phương pháp thực huấn luyện để tìm phép chiếu tuyến tính thỏa mãn phương sai mẫu tập liên quan cực tiểu cực đại hóa phương sai mẫu liên quan khơng liên quan Sau đó, phương pháp thực xây dựng độ đo tương tự cải tiến SOÁ 03 (CS.01) 2020 Mahalanobis thực tìm ma trận tối ưu M cơng thức độ đo tương tự cải tiến A Tổng quan phương pháp Phương pháp tra cứu ảnh đề xuất IRDLoM mơ tả Hình Phương pháp sử dụng mơ hình CNN huấn luyện tập liệu, sau sử dụng cấu trúc mạng làm khởi tạo để trích rút đặc trưng mức cao, q trình biểu diễn ảnh véc tơ đặc trưng Khi người dùng đưa vào ảnh truy vấn, phương pháp thực trích rút đặc trưng tương tự thực với ảnh sở liệu Phương pháp thực so sánh độ tương tự véc tơ đặc trưng ảnh truy vấn tập véc tơ đặc trưng sở liệu ảnh sử dụng độ đo Euclid trả tập ảnh kết khởi tạo cho người dùng Người dùng thực trình phản hồi liên quan, lựa chọn ảnh phù hợp với mong muốn Tiếp theo, thông tin phản hồi bao gồm tập ảnh liên quan không liên quan đưa vào học độ đo khoảng cách tối ưu hóa trọng số hàm khoảng cách cải tiến Sau đó, tất ảnh xếp lại dựa giá trị hàm khoảng cách Mahalanobis cải tiến Nếu người dùng chưa thỏa mãn với kết quả, trình phản hồi liên quan lặp lại để trả tập ảnh kết cho người dùng Cơ sở CNN CSDL véc tơ đặc liệu ảnh trưng So sánh độ đo tương tự L2 Truy vấn CN N Phản hồi liên quan Học độ đo tương tự LoM Véc tơ đặc trưng Kết Phân hạng tập ảnh Hình Sơ đồ phương pháp đề xuất B Biểu diễn ảnh sử dụng học sâu Trong năm gần đây, mạng CNN đem lại hiệu tuyệt vời trong lĩnh vực thị giác máy toán phân lớp ảnh, xác định đối tượng, phân đoạn ngữ nghĩa Từ đó, có nhiều nghiên cứu tra cứu ảnh dựa vào nội dung (CBIR) sử dụng CNN nhận kết tốt Trong [7] số cách tiếp cận để cải tiến hiệu hệ thống CBIR sử dụng học sâu việc xây dựng đặc trưng có tính ngữ nghĩa cao hơn: (1) sử dụng mơ hình CNN tiền huấn luyện xây dựng đặc trưng ảnh dùng khoảng cách L để so sánh độ đo tương ứng véc tơ đặc trưng; (2) dùng mơ hình CNN tiền huấn luyện để xây dựng đặc trưng, nhiên cải tiến cách sử dụng học độ đo khoảng cách (DML) để có độ đo tương tự thích hợp với liệu pha so sánh độ tương tự; (3) với liệu cụ thể đó, huấn luyện lại mơ hình CNN kết hợp với phân lớp cụ thể, sau sử dụng TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 63 Đào Thị Thúy Quỳnh độ đo cách tiếp cận (1) (2) hoàn thiện phương pháp tra cứu ảnh sử dụng học sâu Trong [7] giới thiệu cách tiếp cận (1) trường hợp cải tiến cách tiếp cận (2) Giả sử, có hai ảnh CSDL 𝐼𝑖 𝐼𝑗 , q trình trích rút đặc trưng sử dụng mơ hình CNN tiền huấn luyện tập liệu lớn, sau sử dụng mơ hình làm khởi tạo để trích rút đặc trưng mức cao Q trình cịn gọi trình học biểu diễn ảnh, tương ứng đặc trưng mức cao 𝑥𝑖 𝑥𝑗 Độ đo tương tự dùng để so sánh hai đặc trưng 𝐿2 : 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑥𝑖 , 𝑥𝑗 ) = ‖𝑥𝑖 − 𝑥𝑗 ‖2 (1) Công thức (1) thể độ tương tự ảnh Ii Ij, độ tương tự lớn ảnh 𝐼𝑖 𝐼𝑗 tương tự Độ đo tương tự theo cách tiếp cận thứ (2) để so sánh hai véc tơ đặc trưng ảnh tính cơng thức 𝐿𝐴 : 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑥𝑖 , 𝑥𝑗 ) = ‖𝑥𝑖 − 𝑥𝑗 ‖𝐴 = (𝑥𝑖 − 𝑥𝑗 )𝑇 𝐴(𝑥𝑖 − 𝑥𝑗 ) (2) Với ma trận A học từ trình học độ đo tương tự với điều kiện M ma trận xác định dương, độ tương tự phải dương, độ tương tự đạt giá trị nhỏ 𝑥𝑖 = 𝑥𝑗 Độ đo tương tự cách tiếp cận cách tiếp cận (1) ma trận A ma trận đơn vị 𝐴 = 𝐼 Một cách khác, trường hợp đặc biệt xem xét đến tương quan thành phần đặc trưng cách tiếp cận (1) Hơn nữa, thành phần đặc trưng lại có độ tương tự khác nên thường độ đo tương tự cách tiếp cận (2) đem lại hiệu Phương pháp đề xuất thực xây dựng đặc trưng dựa vào học sâu, từ k-NN lấy được, phương pháp thực huấn luyện với mơ hình LDA Sau đó, phương pháp xây dựng độ đo tương tự cải tiến cách tận dụng tập mẫu dương lấy ý tưởng từ cách tiếp cận (2) để xây dựng nên ma trận A công thức độ đo tương tự (2), ma trận M ma trận đầy đủ phản ánh tương quan liệu đặc trưng đặc trưng Thuật toán học biểu diễn đặc trưng ảnh (Representation image learning) thực học biểu diễn ảnh dựa vào tiền huấn luyện mạng học sâu CNN thu tập đặc trưng mức cao Thuật toán nhận đầu vào tập ảnh mơ hình tiền huấn luyện CNN ảnh ImageNet Thuật toán 1.1 Thuật toán RIL (Representation image learning) Input: - Tập ảnh X = {x1,x2,…,xn} với xi Rm - Mơ hình tiền huấn luyện M Output: - Tập biểu diễn ảnh S = {s1,s2,…,sn} với si R 𝑆∅ for i = 1,…,n 3.1 siExtractFeature(xi,Model); 3.2 𝑆𝑆 ∪ 𝑠𝑖 SOÁ 03 (CS.01) 2020 C Một độ đo khoảng cách cải tiến Cho đến nay, có số cách tiếp cận học khoảng cách khác mà khai thác tính chất tập phản hồi từ phía người dùng q trình tra cứu ảnh Tuy nhiên, phương pháp có thường xem xét tới tập mẫu dương (positive samples) mà chưa xem xét tới tập mẫu âm Ý tưởng phân tích thành phần phân biệt (DCA-Discriminative Component analysis) tìm phép biến đổi tối ưu dẫn tới hàm khoảng cách tối ưu cách cực đại hóa tổng phương sai phần tử khác tập mẫu (âm dương) cực tiểu hóa phương sai liệu tập mẫu (âm dương) Giả sử tập ảnh kết khởi tạo gồm N ảnh: 𝑋 = {𝑥𝑖 }𝑁 số ràng buộc Tập ảnh kết khởi 𝑖=1 tạo trả cho người dùng phản hồi liên quan chia thành hai tập phân biệt tập mẫu dương (positive samples) mẫu âm (negative samples) Để đạt mục tiêu DCA, cần xác định hai ma trận phương sai 𝐶̂𝑏 𝐶̂𝑤 khoảng cách kỳ vọng lớp khác khoảng cách kỳ vọng mẫu lớp Được tính theo cơng thức sau: 𝐶̂𝑏 = 𝐶̂𝑤 = ∑2 ∑ (𝑚𝑗 𝑛𝑏 𝑗=1 𝑖∈𝐷𝑗 𝑛𝑗 ∑ ∑ (𝑥 𝑛 𝑗=1 𝑛𝑗 𝑖=1 𝑗𝑖 − 𝑚𝑖 )(𝑚𝑗 − 𝑚𝑖 )𝑇 (3) − 𝑚𝑖 )(𝑥𝑗𝑖 − 𝑚𝑖 )𝑇 (4) Với 𝑛𝑏 tổng số lượng phần tử hai tập, 𝑚𝑗 𝑛𝑗 tâm lớp j với 𝑚𝑗 = ∑𝑖=1 𝑥𝑗𝑖 , với 𝑥𝑗𝑖 véc tơ i 𝑛𝑗 lớp j, 𝐷𝑗 lớp toán có lớp gồm tập mẫu dương tập mẫu âm Ý tưởng DCA tìm phép biến đổi tuyến tính mà đưa hàm khoảng cách tối ưu việc cực đại hóa tổng khoảng cách kỳ vọng lớp khác cực tiểu hóa tổng khoảng cách kỳ vọng lớp Quá trình DCA đưa toán tối ưu sau: 𝐽(𝐴) = 𝑎𝑟𝑔𝑚𝑎𝑥𝐴 |𝐴𝑇 𝐶̂𝑏 𝐴| |𝐴𝑇 𝐶̂𝑤 𝐴| (5) Ma trận A ma trận biến đổi tối ưu mà cần tìm Khi tìm phép biến đổi tối ưu A, có trọng số tối ưu hàm khoảng cách Mahalanobis: 𝑀 = 𝐴𝑇 𝐴 Theo lý thuyết Fisher [11,12], toán tối ưu (5) tương ứng với việc cực đại hóa tổng khoảng cách kỳ vọng lớp khác cực tiểu hóa tổng khoảng cách kỳ vọng lớp, tương ứng 𝐶̂𝑏 𝐶̂𝑤 [10] Để tìm lời giải cho toán (5), báo đề xuất thuật giải sau, thuật giải dùng để giải nghiên cứu trước LDA [22] Thuật toán 1.2 Discriminative Component Analysis d Model  LoadModel(M); Return S Input: 𝑁 - Tập ảnh 𝑋 = {𝑥𝑖 }𝑖=1 - Tập mẫu (liên quan, không liên quan) Dj = {𝑥1 , 𝑥2 , … , 𝑥𝑛𝑗 } , j =1,2 Output: - Ma trận biến đổi tối ưu A TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 64 CẢI TIẾN ĐỘ CHÍNH XÁC TRA CỨU ẢNH THÔNG QUA HỌC SÂU VÀ HỌC ĐỘ ĐO KHOẢNG CÁCH TỐI ƯU - Ma trận tối ưu Mahalanobis Mo RResultInitial(Q); Tính ma trận 𝐶̂𝑏 𝐶̂𝑤 theo cơng thức (1.1) (1.2) Repeat Chéo hóa ma trận 𝐶̂𝑏 sử dụng eigen analysis: + − 5.1 < 𝐹𝑓𝑒𝑎𝑡𝑢𝑟𝑒 , 𝐹𝑙𝑎𝑏𝑒𝑙 , 𝐹𝑙𝑎𝑏𝑒𝑙 >)Feedback (𝑅); Phản hồi liên quan 2.1 Tìm U cho: 𝑈 𝑇 𝐶̂𝑏 𝑈 = ∧𝑏 ; 𝑈 𝑇 𝑈 = 𝐼, ∧𝑏 ma trận đường chéo thành phần trị riêng U; ̂ k thành phần 𝑈 với thành phần 2.2 Tìm 𝑈 trị riêng khác ̂ 𝑇 𝐶̂𝑏 𝑈 ̂ ma trận vuông cấp k ma 2.3 Tìm 𝐷𝑏 = 𝑈 trận ma trận ∧𝑏 2.4 Tìm 𝑍 = ̂𝐷𝑏−1/2 𝑈 𝐶𝑧 = 𝑍 𝑇 𝐶̂𝑤 𝑍; Chéo hóa ma trận 𝐶̂𝑧 sử dụng eigeinanalysis: 3.2 Nếu cần giảm chiều, giả sử số chiều mong muốn r 𝑉̂ r véc tơ cột ma trận V mà cột véc tơ riêng tương ứng với giá trị riêng nhỏ Tìm 𝐷𝑤 = 𝑉̂ 𝑇 𝐶𝑧 𝑉̂ ; với 𝑉̂ = 𝑉 𝐷𝑤 =∧𝑤 −1/2 𝑀𝑜 = 𝐴𝑇 𝐴 Thuật toán 1.2 thực sau, ma trận U ma trận chéo hóa ma trận phương sai 𝐶̂𝑏 thể tách biệt hai tập mẫu liên quan không liên quan Sau bỏ véc tơ với trị riêng 0, có ma trận vng cấp k 𝐷𝑏 ma trận đường chéo với thành phần ̂ Sau đường chéo trị riêng khác ma trận 𝑈 đó, thuật tốn thực việc tìm phép chiếu 𝑍 = ̂𝐷𝑏−1/2 , phép chiếu làm cho lớp khác có 𝑈 phân biệt lớn Tiếp theo, tính 𝐶𝑧 = 𝑍 𝑇 𝐶̂𝑤 𝑍 tìm ma trận V để chéo hóa ma trận 𝐶𝑧 Nếu muốn giảm chiều, giả sử số chiều mong muốn r 𝑉̂ r véc tơ cột ma trận V mà cột véc tơ riêng tương ứng với giá trị riêng nhỏ Từ đó, cho ma trận đường chéo 𝐷𝑤 = 𝑉̂ 𝑇 𝐶𝑧 𝑉̂ Cuối cùng, có ma trận biến đổi tối ưu A ma trận tối ưu −1/2 Mahalanobis M: A = 𝑍𝑉̂ 𝐷𝑤 𝑀𝑜 = 𝐴𝑇 𝐴 3.4 Thuật toán tra cứu Thuật toán 1.3 mơ tả thuật tốn tra cứu ảnh hiệu sử dụng với học biểu diễn ảnh dựa vào học sâu kết hợp với hàm khoảng cách cải tiến Mahalanobis IRDLoM (Image Retrieval using Deep learning and optimal distance metric) Thuật toán 1.3 Thuật toán tra cứu ảnh IRDLoM Input: 5.3 𝑀𝑜 = 𝐴𝑇 𝐴; Trọng số tối ưu hàm khoảng cách mahalanobis 5.4 𝑅Ranking (𝑆, 𝑀𝑜 , 𝑁); Phân hạng lại tập ảnh theo hàm khoảng cách Mahalanobis với trọng số tối ưu until (User dừng phản hồi); 3.1 Tìm V cho: 𝑉 𝑇 𝐶̂𝑧 𝑉 = ∧𝑤 ; 𝑉 𝑇 𝑉 = 𝐼, ∧𝑤 ma trận đường chéo thành phần trị riêng U; Ta có: A = 𝑍𝑉̂ 𝐷𝑤 + − 5.2 𝐴 = 𝑫𝑪𝑨(𝐹𝑓𝑒𝑎𝑡𝑢𝑟𝑒 , 𝐹𝑙𝑎𝑏𝑒𝑙 , 𝐹𝑙𝑎𝑏𝑒𝑙 ); Tìm phép biến đổi tối ưu A Return R; Thuật toán tra cứu ảnh hiệu sử dụng với học biểu diễn ảnh kết hợp với hàm khoảng cách cải tiến Mahalanobis thực sau: Mỗi ảnh tập ảnh DB học biểu diễn (bước 1) biểu diễn véc tơ đặc trưng không gian đặc trưng nhiều chiều Khi người dùng đưa vào ảnh truy vấn khởi tạo Q, thuật toán sử dụng thủ tục để biểu diễn ảnh truy vấn cách với sở liệu ảnh để biểu diễn thành véc tơ đặc trưng ảnh truy vấn Sq (bước 2) Truy vấn khởi tạo thực bước ResultInitial(Q)RetrievalInitial(Sq, 𝑆, 𝑁), Sq biểu diễn ảnh truy vấn, S tập biểu diễn tập ảnh sở liệu N số ảnh tra cứu tập S sau lặp Kết thực tra cứu với truy vấn khởi tạo ResultInitial(Q) gán cho R (bước 4) Trên tập ResultInitial(Q); trả truy vấn khởi tạo, người dùng thực lựa chọn ảnh phù hợp với mong muốn họ thông qua hàm Feedback(𝑅) để + − tập đặc trưng 𝐹𝑓𝑒𝑎𝑡𝑢𝑟𝑒 tập nhãn 𝐹𝐿𝑎𝑏𝑒𝑙 = {𝐹𝑙𝑎𝑏𝑒𝑙 , 𝐹𝑙𝑎𝑏𝑒𝑙 } (bước 5.1) Sau đó, thơng tin phải hồi gồm tập phản hồi liên quan không liên quan đưa vào học DCA (bước 5.2) để tìm phép chiếu A cách giải toán tối ưu (5) Kết ma trận chiếu đưa vào để xây dựng ma trận trọng số tối ưu để cải tiến trọng số M hàm khoảng cách Mahalanobis (bước 5.3) Lúc này, có hàm khoảng cách Mahalanobis cải tiến: 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝐹𝑖 , 𝐹𝑗 ) = (𝐹𝑖 − 𝐹𝑗 )𝑇 𝑀(𝐹𝑖 − 𝐹𝑗 ) Quá trình tra cứu thực phân hạng lại toàn tập ảnh sở liệu ảnh hàm Ranking (𝑆, 𝑀, 𝑁) lấy N ảnh làm tập kết trả cho người dùng (bước 5.4) IV ĐÁNH GIÁ THỰC NGHIỆM Tập ảnh: DB Ảnh truy vấn khởi tạo: Q Số ảnh trả lần lặp: N Output: Tập kết tra cứu: R S RIL; Sq RIL; A Cơ sở liệu ảnh Để chứng minh hiệu phương pháp đề xuất, thực nghiệm tiến hành sở liệu ảnh COREL gồm 10.800 ảnh Một số hình Trong tập sở liệu ảnh COREL, thư mục gồm 100 ảnh tập tin cậy gồm 80 khái niệm khác hoa, hồng hơn, tàu hỏa, xe hơi, xe buýt, bầu trời, biển Tất ảnh tập ảnh có tính chất chứa đối tượng bật ResultInitial(Q)Retrieval Initial (Sq, 𝑆, 𝑁) SỐ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 65 Đào Thị Thúy Quỳnh mạng xác suất cuối lấy từ lớp cuối mạng Tuy nhiên, trình học biểu diễn, thay cho phép hình ảnh lan truyền qua tồn mạng, dừng việc truyền lớp tùy ý, chẳng hạn lớp kết nối đầy đủ cuối trích rút giá trị từ mạng thời điểm này, sau sử dụng chúng vectơ đặc trưng B Thực truy vấn đánh giá Trong phần thực nghiệm, tham số lựa chọn sau: Hình 2.Các mẫu sở liệu ảnh gán nhãn Chúng kết hợp đặc trưng màu 102 chiều kết cấu 88 chiều để biểu diễn ảnh Đặc trưng màu cấu tạo mô men màu chiều, lược đồ màu 32 chiều tương quan màu 64 chiều Mơ men màu có chiều kênh màu H, S V khơng gian màu HSV, chúng tơi trích rút hai mô men color mean, color Standard Deviation Cũng khơng gian màu HSV, lược đồ màu tính toán sử dụng 8*2*2 bins Tương quan màu tạo sử dụng bin cho kênh (R, G B) không gian RGB Đặc trưng kết cấu tích hợp đặc trưng Gabor đặc trưng wavelet Đặc trưng Gabor gồm Mean-squared energy meanAmplitude cho scale hướng cho ảnh đa cấp xám đặc trưng wavalet 40 chiều gồm hai mô men wavelet trung bình, độ lệch chuẩn Tóm lại, đặc trưng tổ hợp thành véc tơ đặc trưng có 190 giá trị (tức 6+32+64+40+48=190) Sau đó, tất thành phần đặc trưng chuẩn hóa thành phân bố chuẩn với trung bình khơng độ lệch chuẩn để biểu diễn ảnh Các khoảng cách Euclid đặc trưng 190 chiều ảnh truy vấn ảnh sở liệu tính tốn mà khơng sử dụng biến đổi Các kết tra cứu gọi “Baseline” cho so sánh Bên cạnh đó, trình bày phần trước, hầu hết hệ thống CBIR phụ thuộc chủ yếu vào cách biểu diễn đặc trưng hình ảnh Tuy nhiên với hệ thống CBIR thông thường quan tâm đến cách biểu diễn ảnh cách trích rút đặc trưng tồn cục cục cách thủ công dẫn đến hiệu hệ thống nghèo nàn Do đó, chúng tơi sử dụng kỹ thuật học sâu học biểu diễn ảnh sử dụng mạng học sâu CNN tạo đặc trưng mức cao từ hình ảnh Trong phương pháp đề xuất, chúng tơi sử dụng mơ hình CNN, có tên AlexNet [26], tiền huấn luyện tập liệu lớn tập ImageNet, sau sử dụng mơ hình làm khởi tạo để trích rút đặc trưng mức cao, gọi học biểu diễn ảnh Mạng AlexNet có cấu trúc tương đối đơn giản, bao gồm lớp tích chập lớp kết nối đầy đủ với lớp lớp lấy mẫu ReLU, huấn luyện song song hai card đồ họa GPU Để phù hợp với tốn tra cứu ảnh, chúng tơi chọn lớp FC để trích rút véc tơ véc tơ đặc trưng có số chiều 1000 Lý chúng tơi chọn cách tương đối có liệu đủ lớn để huấn luyện toàn CNN từ đầu; ra, huấn luyện mơ hình CNN từ đầu nhiều thời gian Các CNN thông thường dùng cho tốn mang nhiệm vụ phân loại hình ảnh hình ảnh lan truyền qua SOÁ 03 (CS.01) 2020 Hiệu tra cứu đánh giá sở liệu ảnh COREL gồm 10.800 ảnh, tất ảnh sở liệu sử dụng để thực truy vấn Thực nghiệm thực đánh giá độ xác phương pháp đề xuất dựa độ xác trung bình 10.800 ảnh truy vấn Mỗi truy vấn thực trả 100 ảnh, lý chọn 100 ảnh người dùng thường xem xét trang hình trang hình chứa 50 ảnh để lựa chọn ảnh phản hồi Nhằm mục đích đánh giá, báo sử dụng độ xác trung bình để đánh giá hiệu so sánh với phương pháp khác Độ xác trung bình tỷ lệ số ảnh liên quan danh sách trả cho người dùng tính tốn trung bình tất truy vấn Độ xác trung bình tiêu chí đánh giá dùng để đánh giá độ xác so với phương pháp khác Độ lệch chuẩn dùng để đo lường độ biến thiên độ xác trung bình C So sánh độ xác trung bình phương pháp đề xuất Trong thực nghiệm, phương pháp đề xuất so sánh với năm phương pháp tra cứu ảnh sử dụng độ đo khoảng cách khác nhau: (1) Euclid: thực tra cứu ảnh dựa vào độ đo khoảng cách Euclid (2) Euclid cải tiến: thực tra cứu ảnh dựa vào độ đo khoảng cách Euclid có cải tiến trọng số chiều đặc trưng; (3) RCA: thực tra cứu với độ đo khoảng cách RCA cải tiến từ độ đo khoảng cách Mahalanobis [8]; (4) MCML: thực tra cứu ảnh với độ đo khoảng cách MCML cải tiến từ độ đo khoảng cách Mahalanobis mà số kết việc biến đổi liệu với ràng buộc nhãn (5) phương pháp đề xuất IRDLoM thực tra cứu đặc trưng học sâu kết hợp với hàm khoảng cách mahalanobis tối ưu Bảng I So sánh độ xác trung bình phương pháp mức Top-50, Top-100 sau lần lặp phản hồi Average prec Eucli d Eclid cải tiến RCA MCM L IRDLo M Top 50 prec 18.87 % 26.01 % 62.32 % 64.02% 66.32 % Top 100 prec 19.01 % 26.08 % 63% 64.05% 66.89 % Như Bảng I, phương pháp chúng tơi cho độ xác cao gơn hẳn phương pháp cịn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 66 CẢI TIẾN ĐỘ CHÍNH XÁC TRA CỨU ẢNH THƠNG QUA HỌC SÂU VÀ HỌC ĐỘ ĐO KHOẢNG CÁCH TỐI ƯU lại Lý điều đặc trưng sâu phương pháp đề xuất bao gồm tính ngữ nghĩa của ảnh hàm khoảng cách phương pháp đề xuất phản ảnh khoảng cách thích hợp ảnh có chung chủ đề V KẾT LUẬN Bài báo trình bày phương pháp IRDLoM, kỹ thuật tra cứu ảnh hiệu cho cải tiến hiệu hệ thống tra cứu ảnh đa điểm IRDLoM tận dụng tốt thông tin người dùng thông qua tập mẫu phản hồi liên quan không liên quan thực học phép chiếu tối ưu nhằm mục đích phân tách ảnh khơng liên quan ảnh liên quan gần Từ đó, tìm ma trận trọng số tối ưu hàm khoảng cách Mahalanobis sử dụng hàm khoảng cách cải tiến thực phân hạng toàn tập ảnh sở liệu trả tập ảnh kết cho người dùng Thực thực nghiệm IRDLoM vào sở liệu gồm 10800 ảnh minh chứng IRDLoM cung cấp độ xác cao hẳn so với phương pháp Euclid, phương pháp Euclid cải tiến, phương pháp RCA [8] phương pháp MCML [4] [12] S Mika, G Ratsch, J Weston, B Scholkopf, and K Muller Fisher discriminant analysis with kernels In Proc IEEE NN for Signal Processing Workshop, pages 41–48, 1999 [13] M Guillaumin, J J Verbeek, and C Schmid Is that you? metric learning approaches for face identification In ICCV, pages 498–505, 2009 [14] J.-E Lee, R Jin, and A K Jain Rank-based distance metric learning: An application to image retrieval In CVPR, 2008 [15] A S Mian, Y Hu, R Hartley, and R A Owens Image set based face recognition using self-regularized non-negative coding and adaptive distance metric learning IEEE Transactions on Image Processing, 22(12):5252–5262, 2013 [16] Z Wang, Y Hu, and L.-T Chia Learning image-to-class distance metric for image classification ACM TIST, 4(2):34, 2013 [17] K Q Weinberger, J Blitzer, and L K Saul Distance metric learning for large margin nearest neighbor classification In NIPS, 2005 [18] G Chechik, V Sharma, U Shalit, and S Bengio Large scale online learning of image similarity through ranking Journal of Machine Learning Research, 11:1109–1135, 2010 TÀI LIỆU THAM KHẢO [1] Andre B, Vercauteren T, Buchner AM, Wallace MB, Ayache N (2012) Learning semantic and visual similarity for endomicroscopy video retrieval IEEE Transactions on Medical Imaging 31(6):1276–88 [2] Ruigang Fu, Biao Li, Yinghui Gao, Ping Wang, (2016) Content-Based Image Retrieval Based on CNN and SVM, 2nd IEEE International Conference on Computer and Communications, 638-642 [3] Monique Laurent, Franz Rendl, "Semidefinite Programming and Integer Programming", Report PNA-R0210, CWI, Amsterdam, April 2002 [4] A Globerson and S Roweis Metric learning by collapsing classes Advances in Neural Information Processing Systems, 18:451, 2006 [5] K Weinberger, J Blitzer, and L Saul Distance metric learning for large margin nearest neighbor classification Advances in Neural Information Processing Systems, 18:1473, 2006 [6] A Bar-Hillel, T Hertz, N Shental, and D Weinshall Learning distance functions using equivalence relations In ICML, pages 11–18, 2003 [7] J Wan,D Wang,S C H Hoi, and et al,"Deep learning for contentbased image retrieval: A comprehensive study," ACM International Conference on Multimedia,pp 157166,2014 [8] A Bar-Hillel, T Hertz, N Shental, and D Weinshall, Learning a Mahalanobis Metric from Equivalence Constraints, in Journal of Machine Learning Research (JMLR), 2005 [9] C Domeniconi, J Peng, and D Gunopulos Locally adaptive metric nearest-neighbor classification IEEE Trans Pattern Anal Mach Intell., 24(9):1281–1285, 2002 [10] Q Liu, H Lu, and S Ma Improving kernel fisher discriminant analysis for face recognition IEEE Trans on Circuits and Systems for Video Technology, 14(1):42–49, 2004 [19] D T T Quynh, N H Quynh, PV Canh, NQ Tao, An efficient semantic – Related image retrieval method, Expert Systems with Applications, Volume 72, pp 30-41, 2017 [20] E Xing, A Ng, and M Jordan Distancemetric learning with application to clustering with side-information In NIPS, 2002 [21] Flickner, M., Sawhney, H., Niblack, W., et al., (1995) Query by image and video content: The QBIC system IEEE Computer Magazine 28 (9), 23–32 [22] A Pentland, R W Picard, and S Sclaroff (1996) Photobook: content-based manipulation for image databases.International Journal of Computer Vision, 18(3):233–254 [23] M Ortega-Binderberger and S Mehrotra (2004) Relevance feedback techniques in the MARS image retrieval systems Multimedia Systems, 9(6):535–547 [24] I J Cox, M L Miller, T P Minka, T V Papathomas, and P N.Yianilos (2000) The Bayesian image retrieval system, PicHunter: theory, implementation, and psychophysical experiments IEEE Transactions on Image Processing, 9(1):20–37 [25] C Carson, S Belongie, H Greenspan, and J Malik (2002) Blobworld: image segmentation using expectationmaximization and its application to image querying IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(8):1026–1038, 2002 [26] Krizhevsky, A., Sutskever, I., & Geoffrey E., H (2012) ImageNet Classification with Deep Convolutional Neural Networks Advances in Neural Information Processing Systems 25 (NIPS2012), 1–9 [26] J Z Wang, J Li, and G Wiederhold, ( 2001) “SIMPLIcity: Semantics-Sensitive Integrated Matching for Picture Libraries,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol 23, no 9, pp 947963 [11] G McLachlan Discriminant Analysis and Statistical Pattern Recognition John Wiley, 1992 SOÁ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 67 Đào Thị Thúy Quỳnh IMPROVE THE EFFECTIVENESS OF CONTENTBASED IMAGE RETRIEVAL BY COMBINING DEEP LEARNING AND THE OPTIMAL DISTANCE FUNCTION Abstract: Effective image representation and similarity measurement between two images are two important issues in improving the performance of a content-based image retrieval system Deep learning has attracted the attention of researchers in the issue of effective image representation Meanwhile, the problem of measuring the effective similarity towards learning distance measurement has an advantage In this paper, we propose an image retrieval method, called IRDLoM (Image Retrieval using Deep learning and optimal distance metric) Method of representing images by deep features and measuring the similarity between two images by learning a measure of distance The experimental results on the Corel photobook have proved the accuracy of the proposed method Đào Thị Thúy Quỳnh nhận học vị tiến sĩ Máy tính, chuyên ngành Khoa học máy tính Học viện Khoa học Cơng nghệ, Viện hàn lâm Khoa học Công nghệ Việt Nam Hiện nay, giảng viên Khoa Công nghệ thông tin 1, Học viện Cơng nghệ Bưu Viễn thơng Lĩnh vực nghiên cứu: Trí tuệ nhân tạo, học máy, xử lý ảnh, tra cứu ảnh dựa vào nội dung Email: quynhdao.ptit@gmail.com SỐ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 68 ... pháp tra cứu ảnh sử dụng độ đo khoảng cách khác nhau: (1) Euclid: thực tra cứu ảnh dựa vào độ đo khoảng cách Euclid (2) Euclid cải tiến: thực tra cứu ảnh dựa vào độ đo khoảng cách Euclid có cải tiến. .. chúng tơi cho độ xác cao gơn hẳn phương pháp cịn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 66 CẢI TIẾN ĐỘ CHÍNH XÁC TRA CỨU ẢNH THÔNG QUA HỌC SÂU VÀ HỌC ĐỘ ĐO KHOẢNG CÁCH TỐI ƯU lại Lý... trưng; (3) RCA: thực tra cứu với độ đo khoảng cách RCA cải tiến từ độ đo khoảng cách Mahalanobis [8]; (4) MCML: thực tra cứu ảnh với độ đo khoảng cách MCML cải tiến từ độ đo khoảng cách Mahalanobis

Ngày đăng: 04/08/2021, 15:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w