1. Trang chủ
  2. » Công Nghệ Thông Tin

Cải tiến tra cứu ảnh thông qua kết hợp các bộ phân lớp không gian con ngẫu nhiên

7 9 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết đề xuất một phương pháp tra cứu ảnh phản hồi liên quan hiệu quả gọi là RFRS (Image retrieval using relevance feedback with random subspace), cho phép nâng cao hiệu năng của hệ thống tra cứu ảnh thông qua việc giải quyết vấn đề quá khớp.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00010 CẢI TIẾN TRA CỨU ẢNH THÔNG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN Cù Việt Dũng1, Nguyễn Hữu Quỳnh1, An Hồng Sơn2, Đào Thị Thúy Quỳnh3 Khoa Công nghệ thông tin, Trường Đại học Điện lực, Trường Đại học Công nghiệp Việt Hung, Khoa Cơng nghệ thơng tin, Trường Bưu Viễn thơng dungcv@epu.edu.vn, nhquynh@epu.edu.vn, sonanhongvh@gmail.com, thuyquynhtn90@gmail.com TĨM TẮT: Đã có nhiều phương pháp tra cứu ảnh phản hồi liên quan dựa vào phân lớp sử dụng máy véc tơ hỗ trợ (SVM) Tuy nhiên, phương pháp chưa đề cập tới vấn đề khớp với mẫu phản hồi dẫn đến độ xác thấp Trong báo này, chúng tơi đề xuất phương pháp tra cứu ảnh phản hồi liên quan hiệu gọi RFRS(Image retrieval using relevance feedback with random subspace), cho phép nâng cao hiệu hệ thống tra cứu ảnh thông qua việc giải vấn đề khớp Phương pháp xây dựng nhiều phân lớp máy véc tơ hỗ trợ dùng khơng gian ngẫu nhiên thay tổ hợp chúng thành luật định mạnh Chúng cung cấp kết thực nghiệm sở liệu đặc trưng 10800 ảnh để độ xác phương pháp Từ khóa: Tra cứu ảnh dựa vào nội dung, khơng gian con, máy véc tơ hỗ trợ, phản hồi liên quan, khớp I GIỚI THIỆU Trong thập kỷ vừa qua, tra cứu ảnh dựa vào nội dung (CBIR) thu hút nhiều quan tâm nhiều nhà nghiên cứu [1, 2, 6, 7] Các hệ thống CBIR truyền thống thường đo độ tương tự ảnh truy vấn ảnh sở liệu cách đo độ đo khoảng cách không gian nhiều chiều [1, 2, 6, 7] Tuy nhiên, cách đo độ đo khoảng cách không gian nhiều chiều thường không hiệu khoảng trống đặc trưng mức thấp khái niệm ngữ nghĩa mức cao Để thu hẹp khoảng trống ngữ nghĩa, máy tính phải có khả học đặc trưng mà mô tả tốt ảnh suy nghĩ người dùng trực tuyến; kỹ thuật phản hồi liên quan giới thiệu công cụ mạnh để tăng cường hiệu CBIR [10, 13] Huang cộng giới thiệu hai kỹ thuật đánh lại trọng số dịch chuyển điểm truy vấn [8, 12] Một ánh xạ tự tổ chức sử dụng để xây dựng thuật toán RF [4] Trong [11], máy véc tơ hỗ trợ (SVM) lớp đánh giá mật độ mẫu phản hồi tích cực Tuy nhiên, tất phương pháp có số giới hạn Chẳng hạn, phương pháp [8] [12] dựa vào kinh nghiệm, phương pháp ước lượng mật độ [11] bỏ qua thông tin chứa mẫu phản hồi tiêu cực Tuy nhiên, RF khác so với toán phân lớp truyền thống phản hồi cung cấp người dùng thường bị giới hạn hệ thống tra cứu ảnh thực Do đó, phương pháp học mẫu nhỏ hứa hẹn cho RF Khi liệu có chiều cao cỡ mẫu huấn luyện nhỏ so với chiều liệu, khó xây dựng phân lớp tốt Thông thường, phân lớp xây dựng tập liệu huấn luyện nhỏ bị lệch có có sai số lớn tham số phân lớp bị ước lượng nghèo nàn Do đó, phân lớp yếu, có hiệu nghèo [9] Hơn nữa, thường khơng ổn định: thay đổi nhỏ tập huấn luyện gây thay đổi lớn phân lớp Nói chung, hiệu thấp phân lớp nhân tố khác nhau: giả thiết mơ hình khơng xác xây dựng phân lớp; thiết lập cho tham số phân lớp khơng xác; khơng ổn định phân lớp; phân lớp phụ thuộc vào mơ hình giả thiết khơng ln Tuy nhiên, tất trường hợp có ý định cải tiến “bộ phân lớp yếu”, người ta thường cải tiến hiệu Do đó, mơ tả “bộ phân lớp yếu” phân lớp mà có hiệu nghèo nàn dường định nghĩa chung Để cải tiến phân lớp yếu (một phân lớp mà có hiệu nghèo), người ta sử dụng cách tiếp cận khác Một cách ổn định định phân lớp yếu (do phân lớp yếu thường không ổn định) theo quy tắc (regularisation) [5] tiêm nhiều (noise injection) [3] Cách tiếp cận khác xây dựng nhiều phân lớp yếu thay tổ hợp chúng thành luật định mạnh Chúng tơi trình bày phương pháp tra cứu ảnh mà kết hợp không gian ngẫu nhiên máy véc tơ hỗ trợ tạo nhiều phân lớp yếu luật định mạnh cho phép nâng cao độ xác hệ thống tra cứu ảnh Phần lại báo tổ chức sau: Trong phần II, chúng tơi trình bày phương pháp tra cứu ảnh đề xuất Phần III mơ tả thực nghiệm độ xác thảo luận kết Cuối cùng, đưa kết luận phần IV Cù Việt Dũng, Nguyễn Hữu Quỳnh, An Hồng Sơn, Đào Thị Thúy Quỳnh 73 II PHƢƠNG PHÁP TRA CỨU ẢNH ĐỀ XUẤT Trong phần này, chúng tơi trình bày cách đo độ khác mẫu cho ảnh truy vấn phản hồi liên quan dựa vào máy véc tơ hỗ trợ truyền thống Sau đó, trình bày chi tiết phương pháp đề xuất kết hợp phân lớp với không gian ngẫu nhiên sơ đồ phương pháp Máy véc tơ hỗ trợ Đối với tập liệu huấn luyện D ={ }, véc tơ đặc trưng không gian , m số chiều không gian, nhãn tương ứng chúng , Khoảng cách từ điểm tới siêu mặt phẳng Trong không gian chiều, ta biết khoảng cách từ điểm có toạ độ tới đường thẳng có phương trình xác định bởi: Việc tổng quát lên không gian nhiều chiều: Khoảng cách từ điểm (vector) tới siêu mặt phẳng (hyperplane) có phương trình xác định bởi: SVM (Support Vector Machines) [2, 4] thuật toán phân lớp nhị phân hiệu Xét tốn phân lớp nhị phân tách tuyến tính (như Hình 1): Hình SVM cho tốn phân lớp nhị phân tách tuyến tính véc tơ n chiều (1) nhãn lớp mà véc tơ thuộc SVM tách hai lớp siêu phẳng, (2) x véc tơ đầu vào, w véc tơ trọng số thích nghi, b độ lệch SVM tìm tham số w b cho siêu phẳng tối ưu để cực đại lề hình học , thỏa mãn (3) Nghiệm tìm thơng qua toán đối ngẫu Lagrangian: (4) S.t , Trong dạng đối ngẫu, điểm liệu xuất dạng tích vơ hướng Để nhận biểu diễn liệu tốt hơn, điểm liệu ánh xạ sang khơng gian tích vơ hướng Hilbert thơng qua phép thế: (5) K(.) hàm nhân Sau nhận phiên nhân tốn đối ngẫu Wolfe: (6) Do đó, với hàm nhân cho, phân lớp SVM cho CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN 74 (7) hàm định siêu phẳng đầu SVM Nhìn chung, với mẫu cho cao, giá trị dự đoán tương ứng cao Trong khi, một mẫu cho thấp có nghĩa mẫu gần với biên định giá trị dự đốn tương ứng thấp Do đó, đầu SVM, , sử dụng để đo độ khác [3,5] mẫu cho ảnh truy vấn, phản hồi liên quan dựa vào SVM truyền thống Điều làm cho SVM giúp sinh trọng số ưa thích tự động cho ảnh liên quan Các mẫu tích cực xa siêu phẳng tách, phân biệt so với mẫu tiêu cực Do đó, ảnh người dùng ưa thích gán trọng số lớn Thuật toán kết hợp phân lớp với không gian ngẫu nhiên Phương pháp không gian ngẫu nhiên kỹ thuật kết hợp đề xuất Ho [9] Phương không gian ngẫu nhiên điều chỉnh liệu huấn luyện khơng gian đặc trưng Giả sử ví dụ huấn luyện tập ví dụ huấn luyện véc tơ gồm p chiều, tức Phương pháp lựa chọn ngẫu nhiên r đặc trưng (r ← ClassificationUseRandomSubspace (X, X label, label D ← Ranking(DB , DBweight, NTopL); } while (thỏa mãn nhu cầu người dùng); , r, K); Hình Thuật toán tra cứu ảnh RFRS Thuật toán RFRS Hình đƣợc thực nhƣ sau: Đầu tiên, người dùng gửi vào truy vấn giao diện truy vấn mẫu, thuật toán lấy tập ảnh D gồm NTopL ảnh phân hạng toàn sở liệu DB thông qua hàm RetrievalTop() Bước tiếp lặp lại người dùng thu tập D thỏa mãn nhu cầu Nếu chưa thỏa mãn, ảnh tập D người dùng gán nhãn lựa chọn ảnh liên quan mang nhãn +1, không liên quan mang nhãn -1 thông qua hàm MarkRelevance, MarkIrrelevance SetLabel Thuật toán gộp hai tập liên quan không liên quan thu tập huấn luyện X nhãn tương ứng Xlabel Đến lúc thuật toán kết hợp nhiều phân lớp sử dụng K không gian ngẫu nhiên với r chiều tập mẫu huấn luyện X để dự đoán nhãn tính tốn trọng số ảnh sở liệu DB Các ảnh sở liệu sau phân hạng dựa vào nhãn trọng số tính tốn trước thơng qua hàm ClassificationUseRandomSubspace để lấy NTopL ảnh sau phân hạng Quá trình tra cứu ảnh đề xuất mơ hình hóa sơ đồ Hình Tra cứu khởi tạo Tập kết tra cứu khởi tạo Tập phản hồi Tập huấn luyện phản hồi Không gian ngẫu nhiên Không gian ngẫu nhiên Không gian ngẫu nhiên K Bộ phân lớp SVM Bộ phân lớp SVM Bộ phân lớp SVM K Tổ hợp phân lớp thành luật định Tra cứu ảnh theo luật định mạnh Tập kết Tập kết cuối Hình Sơ đồ phương pháp tra cứu ảnh kết hợp không gian ngẫu nhiên với SVM Sơ đồ Hình hoạt động sau: Đầu tiên người dùng đưa vào ảnh truy vấn, hệ thống so sánh đặc trưng ảnh truy vấn với đặc trưng tương ứng ảnh sở liệu để trả lại tập ảnh kết (gọi 76 CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN tập kết tra cứu khởi tạo) Trên tập kết khởi tạo, người dùng gán nhãn ảnh tích cực hay tiêu cực Sau phản hồi người dùng, có tập ví dụ huấn luyện Để khắc phục khớp, dùng K không gian ngẫu nhiên Với không gian K không gian ngẫu nhiên, xây dựng phân lớp Tiếp theo, dựa phân lớp có, có tổ hợp phân lớp Sau đó, thực tra cứu ảnh với tổ hợp phân lớp theo nguyên tắc bầu cử để tập kết Quá trình lặp lại người dùng dừng phản hồi Chúng ta có tập ảnh kết cuối III ĐÁNH GIÁ THỰC NGHIỆM A Môi trường thực nghiệm Cơ sở liệu ảnh: Trong thực nghiệm, sử dụng tập liệu ảnh màu tập tập Corel gồm 10800 ảnh để đánh giá độ xác phương pháp đề xuất Các ảnh chia làm 80 chủ đề khác ngựa, hoa, hồng hơn, tàu hỏa, xe hơi, xe buýt Tất ảnh tập ảnh có tính chất chứa đối tượng tiền cảnh bật Đa số nhóm gồm 100 ảnh, có vài nhóm có 100 hình ảnh Cỡ ảnh có max (chiều rộng, chiều cao)=120 (chiều rộng, chiều cao)=80 Véc tơ đặc trưng: Đặc trưng sử dụng gồm hai loại đặc trưng: đặc trưng màu kết cấu (xem chi tiết Bảng 1) Bảng Các loại đặc trưng Các loại đặc trƣng Loại đặc trưng màu Loại đặc trưng kết cấu Lược đồ màu Tương quan màu Mô men màu Biến đổi wavelet gabor Wavelet Tên đặc trƣng hsvHistogram color auto correlogram colorMoments waveletTransform gaborWavelet Độ dài 32 64 40 48 Đối với đặc trưng màu chúng tơi trích rút 03 loại đặc trưng màu: đặc trưng màu đặc trưng lược đồ màu HSV tính, kênh hue lượng hóa thành bin, hai kênh S V lượng hóa thành bin đặc trưng có độ dài 32 chiều (8x2x2) Đặc trưng chúng tơi trích rút đặc trưng tương quan màu có độ dài 64 chiều (4x4x4) không gian RGB Đặc trưng cuối đặc trưng mơ men màu khơng gian RGB, gồm mơ men: trung bình màu, độ lệch chuẩn kênh màu, có độ dài chiều (2x3) Đặc trưng kết cấu chúng tơi trích rút hai loại đặc trưng gồm: đặc trưng Gabor đặc trưng biến đổi wavelet Đầu tiên, đặc trưng biến đổi wavelet có độ dài 40 chiều (2x20) gồm hai gắn kết trung bình, độ lệch chuẩn Cuối cùng, đặc trưng kết cấu Gabor với độ dài 48 chiều (2x4x6) trích rút gồm tỷ lệ, hướng với Mean-squared energy meanAmplitude sau chuyển ảnh thành ảnh đa cấp xám Kết hợp loại đặc trưng thành véc tơ đặc trưng có độ dài 190 chiều (tức 32+64+6+48+40 = 190) Biểu diễn ảnh: Mỗi ảnh sử dụng biểu diễn năm đặc trưng trực quan gồm ba đặc trưng màu hai đặc trưng kết cấu Các véc tơ đặc trưng tương ứng với kênh bảng hai chiều gồm 10800 dòng (mỗi dòng chứa véc tơ đặc trưng ảnh) 190 cột (độ dài tổng véc tơ đặc trưng) Tập tin cậy (ground truth): Tập tin cậy Corel sử dụng rộng rãi đánh giá CBIR, chúng tơi sử dụng phân loại Corel làm tin cậy nền, tức xem tất ảnh loại Corel liên quan Tập tin cậy gồm cột (có tiêu đề: ID ảnh truy vấn, ID ảnh Sự liên quan) gồm 1981320 dòng B Chiến lược mô phản hồi liên quan Để bắt chước hành vi người, thực mô phản hồi liên quan thử nghiệm Đầu tiên, truy vấn khởi tạo thực để tạo kết truy vấn khởi tạo đồng thời tính tốn độ xác thu với phương thức tra cứu ảnh truyền thống Basic IR Tiếp theo mô tương tác người dùng việc chọn 100 ảnh liên quan từ kết tra cứu khởi tạo dựa vào tập tin cậy Lúc chúng tơi chọn ảnh liên quan 100 ảnh dựa vào tập tin cậy nghĩa chúng có khái niệm ngữ nghĩa với ảnh truy vấn hay khơng? Sau hai tập ảnh liên quan không liên quan tạo ra: ảnh chọn mang nhãn +1 ảnh lại gán nhãn -1 Hai tập ảnh sử dụng làm tập huấn luyện Số không gian ngẫu nhiên sử dụng tập mẫu huấn luyện thực nghiệm 15 (K = 15) với 143 chiều (r = 143) Cù Việt Dũng, Nguyễn Hữu Quỳnh, An Hồng Sơn, Đào Thị Thúy Quỳnh 77 Tập ảnh kết thu sau lấy 100 ảnh phân hạng theo nhãn trọng số ảnh sở liệu tính tốn thơng quan kết hợp 15 phân lớp sử dụng không gian ngẫu nhiên với 143 chiều theo luật định mạnh Chúng tơi tính tốn kết độ xác tra cứu ảnh với phương pháp đề xuất RFRS, đồng thời độ xác phương pháp RFSVM tính tốn thực huấn luyện tập mẫu huấn luyện ban đầu thông qua phân lớp SVM hai lớp phân hạng ảnh sở liệu theo biên định thi sau huấn luyện Tất 10800 ảnh tập ảnh dùng làm truy vấn Độ xác trung bình mức 100 ảnh trả sử dụng để đánh giá Ba phương pháp khác sử dụng để so sánh bao gồm Basic IR (hệ thống CBIR truyền thống), RFSVM, với hệ thống RFRS mà chúng tơi đề xuất Có nhiều số đánh giá khác đề xuất để đánh giá hiệu hệ thống CBIR, sử dụng độ đo độ xác (thực nghiệm 100 ảnh trả về) Các kết quả, độ xác trung bình 10800 truy vấn, thể số liệu Bảng đồ thị Hình Do giới hạn không gian báo, chúng tơi trình bày báo độ xác trung bình phương pháp cịn chi tiết độ xác trung bình 80 loại truy vấn xem địa http://117.6.134.238:368/results/RFRS.html Bảng Bảng kết phương pháp Phƣơng pháp Basic IR RFSVM Precision (%) 18.87 32.59 RFRS 32.97 Hình So sánh độ xác Nhìn vào kết thực nghiệm Hình chúng tơi đưa kết luận: Độ xác phương pháp đề xuất tăng thêm 14.1% so với phương pháp tra cứu truyền thống Độ xác phương pháp chúng tơi tăng đáng kể 0.38% so với độ xác phân lớp kết tra cứu truyền thống IV KẾT LUẬN Chúng đề xuất phương pháp tra cứu ảnh dựa vào nội dung cho cải tiến độ xác tra cứu hệ thống tra cứu phản hồi liên quan sử dụng SVM truyền thống Phương pháp quan tâm đến việc khớp trình huấn luyện làm cho hiệu hệ thống thấp Để giải vấn đề này, tạo nhiều phân lớp sử dụng không gian ngẫu nhiên khác để huấn luyện với tập mẫu thu từ thông tin phản hồi người dùng lần lặp Trên sở giải vấn đề khớp, phương pháp tổ hợp kết phân lớp yếu thành luật định mạnh thu tập ảnh kết có liên quan ngữ nghĩa với ảnh truy vấn Kết thực nghiệm sở liệu đặc trưng gồm 10800 ảnh phương pháp đề xuất RFRS cung cấp độ xác cao hẳn so với phương pháp Basic IR (hệ thống CBIR truyền thống), RFSVM V TÀI LIỆU THAM KHẢO [1] A W M Smeulders, M Worring, S Santini, A Gupta, and R Jain, “Content-based image retrieval at the end of the early years,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 22, no 12, pp 1349 -1380, Dec 2000 78 CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN [2] D Tao, X Tang, X Li, and Y Rui, “Direct kernel biased discriminant analysis: a new content-based image retrieval relevance feedback algorithm,” IEEE Transactions on Multimedia, vol 8, no 4, pp 716 -727, 2006 [3] G An, “The effects of adding noise during backpropagation training on a generalization performance”, Neural Computation 1996; 8: 643-674 [4] J Laaksonen, M Koskela, and E Oja, “PicSOM: Self-organizing maps for content-based image retrieval”, inProc IJCNN, Washington, DC, 1999, pp 2470-2473 [5] JH Friedman, “Regularized discriminant analysis” J Am Statistical Assoc 1989; 84: 165-175 [6] L Shao, F Zhu, and X Li, “Transfer learning for visual categorization: A survey,” IEEE Transactions on Neural Networks and Learning Systems, vol 26, no 5, pp 1019-1034, May 2015 [7] R Datta, D Joshi, J Li, and J Z Wang, “Image retrieval: ideas, influences, and trends of the new age,” ACM Computing Surveys, vol 40, no 2, pp 1-60, May 2008 [8] T S Huang and X S Zhou, “Image retrieval by relevance feedback: From heuristic weight adjustment to optimal learning methods,” in Proc IEEE ICIP, Thessaloniki, Greece, Oct 2001, pp 2-5 [9] T K Ho, “The Random subspace method for constructing decision forests”, IEEE Trans Pattern Analysis and Machine Intelligence 1998; 20(8): 832-844 [10] X Zhou and T Huang, “Relevance feedback for image retrieval: A comprehensive review,”Multimedia Syst., vol 8, no 6, pp 536-544, Apr 2003 [11] Y Chen, X.-S Zhou, and T.-S Huang, “One-class SVM for learning in image retrieval,” inProc IEEE ICIP, 2001, pp 815-818 [12] Y Rui, T S Huang, and S Mehrotra, “Content-based image retrieval with relevance feedback in MARS”, inProc IEEE Int Conf Image Process, 1997, vol 2, pp 815-818 [13] Y Rui, T.S Huang, Ortega M and Mehrotra S "Relevance feedback: A power tool in interactive contentbased image retrieval" IEEE Tran Circuits and Systems for Video Tech 8(5): 644-655, Sep 1998 IMPROVED IMAGE RETRIEVAL THROUGH A COMBINATION OF RANDOM SUBSPACE CLASSIFIERS Cu Viet Dung, Nguyen Huu Quynh, An Hong Son, Dao Thi Thuy Quynh ABSTRACT: There have been many methods image retrieval with relevance feedback using Support Vector Machines SVM However, these methods have not interested to overfitting with feedback examples so low accuracy In this paper, we propose an effective image retrieval with relevance feedback method, called RFRS(Image retrieval using relevance feedback with random subspace), which improves the accuracy of image retrieval systems through solving the problem overfitting Our method is to build multiple SVM classifiers use of random space instead of one, and combine them into a strong decision rule We also provided empirical results on a database of 10,800 images to show the accuracy of the method Keywords: Content based image retrieval, subspace, Support Vector Machines, relevance feedback, overfitting ... Hình Tra cứu khởi tạo Tập kết tra cứu khởi tạo Tập phản hồi Tập huấn luyện phản hồi Không gian ngẫu nhiên Không gian ngẫu nhiên Không gian ngẫu nhiên K Bộ phân lớp SVM Bộ phân lớp SVM Bộ phân lớp. .. dùng K không gian ngẫu nhiên Với không gian K không gian ngẫu nhiên, xây dựng phân lớp Tiếp theo, dựa phân lớp có, có tổ hợp phân lớp Sau đó, thực tra cứu ảnh với tổ hợp phân lớp theo nguyên tắc... vào ảnh truy vấn, hệ thống so sánh đặc trưng ảnh truy vấn với đặc trưng tương ứng ảnh sở liệu để trả lại tập ảnh kết (gọi 76 CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON

Ngày đăng: 30/09/2021, 15:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w