Bài viết đề xuất một phương pháp tra cứu ảnh RMLIR hiệu quả cho phép cải thiện kết quả độ chính xác. Phương pháp của chúng tôi khai thác việc học biểu diễn ảnh bằng cách tận dụng một mô hình học sâu đã huấn luyện với tập dữ liệu lớn và tận dụng thông tin phản hồi của người dùng giải quyết vấn đề chiều đặc trưng lớn so với số mẫu phản hồi thông qua học đa tạp cho giảm chiều
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00039 MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HỌC BIỂU DIỄN VÀ HỌC ĐA TẠP CHO GIẢM CHIỀU VỚI THÔNG TIN TỪ NGƯỜI DÙNG Cù Việt Dũng1, Nguyễn Hữu Quỳnh1, Ngô Quốc Tạo2, Trần Thị Minh Thu1 Khoa Công nghệ thông tin, Trƣờng Đại học Điện lực, Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam dungcv@epu.edu.vn, nhquynh@epu.edu.vn, thuttm@epu.edu.vn TÓM TẮT: Trong năm gần đây, có nhiều phương pháp tra cứu ảnh đơng đảo nhóm tác giả nghiên cứu đề xuất Tuy nhiên, phương pháp thường dùng số đặc trưng thủ công phản hồi tập mẫu có số lượng hạn chế số chiều đặc trưng mức lớn (the curse of dimensionality) không gian đặc trưng dẫn đến kết độ xác Trong báo này, đề xuất phương pháp tra cứu ảnh RMLIR hiệu cho phép cải thiện kết độ xác Phương pháp chúng tơi khai thác việc học biểu diễn ảnh cách tận dụng mơ hình học sâu huấn luyện với tập liệu lớn tận dụng thông tin phản hồi người dùng giải vấn đề chiều đặc trưng lớn so với số mẫu phản hồi thông qua học đa tạp cho giảm chiều Chúng cung cấp kết đánh giá thực nghiệm sở liệu đặc trưng 10800 ảnh để độ xác phương pháp đề xuất Từ khóa: Tra cứu ảnh dựa vào nội dung, tiền huấn luyện, học biểu diễn, mạng nơron tích chập, học đa tạp, giảm chiều I GIỚI THIỆU Hiệu tra cứu hệ thống tra cứu ảnh dựa vào nội dung chủ yếu phụ thuộc vào biểu diễn đặc trƣng độ đo tƣơng tự, điều đƣợc nghiên cứu rộng rãi nhà nghiên cứu đa phƣơng tiện nhiều thập kỷ qua Mặc dù loạt kỹ thuật đƣợc đề xuất nhƣng thách thức to lớn nghiên cứu tra cứu ảnh dựa vào nội dung (CBIR) Về cốt lõi, đặc trƣng hình ảnh ảnh hƣởng đến khía cạnh ứng dụng thị giác máy tính bao gồm CBIR Sự hiệu hệ thống CBIR chủ yếu phụ thuộc vào biểu diễn đặc trƣng hình ảnh đƣợc trích rút cách áp dụng mơ tả hình ảnh Mặc dù nhiều thập kỷ qua, loạt kỹ thuật trích rút đặc trƣng đƣợc đƣa để tìm biểu diễn hình ảnh phong phú đầy đủ mặt ngữ nghĩa, nhƣng thách thức to lớn ứng dụng CBIR Các đặc trƣng thủ công đƣợc sử dụng nhiều ứng dụng CBIR thông thƣờng để định lƣợng, biểu diễn nội dung ảnh Các ứng dụng trƣớc chủ yếu tập trung vào đặc trƣng ngun thủy (đặc trƣng tồn cục) mơ tả toàn ảnh dƣới dạng véctơ nhất, chẳng hạn nhữ biểu diễn màu, kết cấu đặc trƣng hình dạng Trong hệ thống, ảnh đƣợc biểu diễn ba đặc trƣng chính: màu [1; 10; 16], kết cấu [5] hình dạng [1; 16] Đặc trƣng màu đặc trƣng quan trọng cho tra cứu ảnh đặc trƣng khơng nhạy cảm với tỉ lệ, xoay, cảnh trông xa che lấp ảnh [10] Đặc trƣng kết cấu tín hiệu quan trọng khác cho tra cứu ảnh Các nghiên cứu trƣớc thông tin kết cấu theo cấu trúc hƣớng phù hợp tốt với mơ hình nhận thức ngƣời thơng tin hình dạng Trong kỹ thuật tập trung vào đặc trƣng tồn cục kỹ thuật sau cải thiện để tìm biểu diễn ảnh cách trích rút tập đặc trƣng bất biến cục đặc trƣng riêng lẻ đƣợc khớp với sở liệu lớn đối tƣợng Một kỹ thuật hiệu nhát kỹ thuật bag of visual words (BOVW), sử dụng mô tả cục mạnh mẽ nhƣ Scale Invariant Feature Transform (SIFT) [ 9], Speeded Up Robust Features (SURF) [2], and Binary Robust Invariant Scalable Keypoints (BRISK) [8] Tuy nhiên nhƣợc điểm BOVW để biểu diễn ảnh cần có véctơ có số chiều lớn, véctơ với số chiều lớn thƣờng cung cấp cho kết tốt so với chiều thấp nhƣng lại gây khó khăn việc lập mục, tốc độ tính tốn tra cứu lâu Sau véctơ nhƣ Fisher Vector (FV) [ 12] Vector of Locally Aggregated Descriptors (VLAD) [7] nhằm giải vấn đề cách mã hóa ảnh thành véctơ giảm kích thƣớc mà khơng ảnh hƣởng đáng kể đến độ xác Tuy nhiên, hiệu biểu diễn đặc trƣng thủ công CBIR vốn bị hạn chế, cách tiếp cận chủ yếu thƣờng sử dụng kiến trúc mạng nông dựa vào đặc trƣng tồn cục, cục thơng thƣờng khơng thể mơ tả ngữ nghĩa tồn ảnh Các mơ hình CNN cố gắng để mơ hình trừu tƣợng hóa mức cao hình ảnh cách sử dụng kiến trúc sâu bao gồm nhiều biến đổi phi tuyến tính [15] Trong CNN, đặc trƣng đƣợc trích rút nhiều cấp độ tóm tắt cho phép hệ thống học hàm phức tạp, ánh xạ trực tiếp liệu đầu vào thô thành đầu ra, mà không cần dựa vào đặc trƣng đƣợc thiết kế thủ công sử dụng tri thức miền Hiện vấn đề khó khăn vấn đề khoảng cách ngữ nghĩa điểm ảnh mức thấp đƣợc thu máy móc khái niệm ngữ nghĩa mức cao đƣợc ngƣời cảm nhận Thách thức nhƣ bắt nguồn từ thách thức trí tuệ nhân tạo, cách xây dựng huấn luyện máy tính thơng minh nhƣ ngƣời để giải vấn đề giới thực Học máy kỹ thuật đầy hứa hẹn giải đƣợc khó khăn, thách thức Để giảm khoảng cách đặc trƣng trực quan mức thấp khái niệm ngữ nghĩa mức cao, 308 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH KHAI THÁC HIỆU QUẢ THÔNG TIN PHẢN HỒI TỪ NGƢỜI DÙNG cách tiếp cận phản hồi liên quan (RF) đƣợc ƣu tiên lựa chọn phƣơng pháp đề xuất [6, 17, 18] Trong RF, tƣơng tác ngƣời dùng hệ thống tra cứu ảnh đƣợc cho phép mục đích RF thu đƣợc mẫu âm dƣơng từ ngƣời dùng Trong phản hồi liên quan, mẫu ngƣời dùng cung cấp thƣờng nhỏ so với chiều đặc trƣng Điều làm cho thuật tốn hiệu khơng gian chiều thấp trở nên khơng cịn ý nghĩa, phải giải toán gọi “curse of dimensionality” Trong báo này, đề xuất phƣơng pháp tra cứu ảnh RMLIR (representations learning and manifold learning for dimensionality reduction in image retrieval) học biểu diễn ảnh học đa tạp cho giảm chiều với phản hồi liên quan dựa vào SVM RMLIR dựa vào quan sát 1) thu đƣợc đặc trƣng mức cao ảnh việc học biểu diễn ảnh sử dụng mơ hình tiền huấn luyện CNN 2) giải vấn đề khớp “curse of dimensionality” cho pha phản hồi liên quan thuật toán học manifold cho giảm chiều khai thác tính chất hình học liệu đa tạp Phần lại báo đƣợc tổ chức nhƣ sau: Trong phần 2, chúng tơi trình bày phƣơng pháp tra cứu ảnh đề xuất Phần mô tả thực nghiệm độ xác chúng tơi thảo luận kết Cuối cùng, đƣa kết luận phần II PHƢƠNG PHÁP TRA CỨU ẢNH ĐỀ XUẤT Trong phần giới thiệu đề xuất phƣơng pháp cứu ảnh dựa vào nội dung bao gồm hai giai đoạn: (1) học biểu diễn ảnh dựa tiền huấn luyện mơ hình học sâu với tập liệu huấn luyện lớn cho trƣớc ImageNet; (2) giải vấn đề khớp phƣơng pháp học manifold cho giảm chiều cho tập đặc trƣng có số chiều lớn phản hồi Học biểu diễn ảnh Nhƣ đƣợc trình bày phần trƣớc, hầu hết hệ thống CBIR phụ thuộc chủ yếu vào cách biểu diễn đặc trƣng hình ảnh Tuy nhiên với hệ thống CBIR thông thƣờng quan tâm đến cách biểu diễn ảnh cách trích rút đặc trƣng toàn cục cục cách thủ công dẫn đến hiệu hệ thống nghèo nàn Do đó, phần này, chúng tơi đề xuất kỹ thuật dựa học biểu diễn ảnh sử dụng mạng sâu CNN tạo đặc trƣng mức cao từ hình ảnh Trong phƣơng pháp đề xuất, chúng tơi sử dụng mơ hình CNN đƣợc tiền huấn luyện tập liệu lớn, sau sử dụng mơ hình làm khởi tạo để trích rút đặc trƣng mức cao, đƣợc gọi học biểu diễn ảnh Lý chúng tơi chọn cách tƣơng đối có liệu đủ lớn để huấn luyện toàn CNN từ đầu; ngồi ra, huấn luyện mơ hình CNN từ đầu nhiều thời gian Các CNN thơng thƣờng đƣợc dùng cho tốn mang nhiệm vụ phân loại hình ảnh hình ảnh đƣợc lan truyền qua mạng xác suất cuối đƣợc lấy từ lớp cuối mạng Tuy nhiên, trình học biểu diễn, thay cho phép hình ảnh lan truyền qua tồn mạng, dừng việc truyền lớp tùy ý, chẳng hạn nhƣ lớp đƣợc kết nối đầy đủ cuối trích rút giá trị từ mạng thời điểm này, sau sử dụng chúng nhƣ vectơ đặc trƣng Hình Kiến trúc mơ hình CNN Trong phƣơng pháp đề xuất, sử dụng đơn lớp chập để trích rút đặc trƣng Mục đích để khái quát CNN huấn luyện việc học đặc trƣng riêng biệt biểu diễn cho ảnh tập liệu Mô hình huấn luyện đƣợc sử dụng để lấy véctơ đặc trƣng mạnh so với lấy số thuật toán thiết kế tay nhƣ SIFT, GIST, HOG,… Chúng khai thác khả mô hình khung mạng nơron tích chập đƣợc biết đến rộng rãi ImageNet huấn luyện trƣớc ILSVRC 2012 với 1,2 triệu hình ảnh 1000 khái niệm để nắm bắt đặc trƣng bật hình ảnh Nó bao gồm lớp chập, lớp pooling lớp kết nối đầy đủ Các lớp phía trƣớc thƣờng Convolutional layers kết hợp với nonlinear activation functions pooling layers (và đƣợc gọi chung ConvNet) Layer cuối Fully Connected Layer thƣờng Softmax Regression (Hình 1) Số lƣợng đơn vị lớp cuối với số lƣợng lớp (với ImageNet 1000) Vì đầu lớp gần cuối đƣợc coi véctơ đặc trƣng hữu ích Softmax Regression phân lớp đƣợc sử dụng Mơ hình sử dụng đầu vào có kích thƣớc cố định 256x256, tập liệu sử dụng phƣơng pháp đề xuất có kích thƣớc Cù Việt Dũng, Nguyễn Hữu Quỳnh, Trần Thị Minh Thu 309 ảnh khơng cố định, nên ảnh đƣợc tiền xử lý cách biến đổi ảnh kích thƣớc 256x256 Khi coi mạng để trích rút đặc trƣng cố định, chúng tơi cắt mạng điểm trƣớc lớp kết nối đầy đủ cuối tất hình ảnh đƣợc trích rút từ kích hoạt ánh xạ đặc trƣng tích chập trực tiếp Do cho ta véctơ đặc trƣng 1000 chiều cho ảnh Hình Kiến trúc học biểu diễn dựa tiền huấn luyện mơ hình CNN Hình trình bày thuật toán học biểu diễn ảnh RIL dựa vào tiền huấn luyện mạng học sâu CNN thu đƣợc tập đặc trƣng mức cao Thuật toán nhận đầu vào tập ảnh mơ hình tiền huấn luyện CNN ImageNet Thuật toán RIL Input: - Tập ảnh cần học - Mơ hình tiền huấn luyện M Output: - Tập biểu diễn ảnh Model ← LoadModel (M); S← ; for i=1, , n 3.1 si ← ExtractFeature (xi, Model); 3.2 S = S si Return S Hình Thuật tốn học biểu diễn RIL Học đa tạp cho giảm chiều Đặc trƣng mà chúng tơi thu đƣợc qua thuật tốn RIL có số chiều lớn, cần phải khám phá cấu trúc hình học đa tạp để biểu diễn đặc trƣng không gian số chiều thấp Đầu tiên, xây dựng đồ thị vô hƣớng kết hợp thông tin láng giềng tập liệu Sử dụng Laplacian đồ thị, chúng tơi tính toán ma trận biến đổi để ánh xạ điểm liệu vào không gian Sự biến đổi tuyến tính tối ƣu bảo tồn đƣợc thơng tin láng giềng địa phƣơng ý nghĩa định Biểu diễn ánh xạ đƣợc tạo thuật tốn đƣợc xem nhƣ xấp xỉ rời rạc tuyến tính với ánh xạ liên tục tự nhiên từ hình học đa tạp Cho đồ thị vô hƣớng với tập đỉnh điểm đƣợc lấy mẫu từ submanifold M điểm đƣợc gán nhãn Chúng xây dựng đồ thị lân cận G để mơ hình tính chất hình học cục submanifold Trong thực hành, chiều đặc trƣng n thƣờng cao Mục tiêu giảm chiều tìm phép chiếu mà biến đổi liệu X từ không gian chiều cao gốc thành không gian chiều thấp d [3; 14] (1) với , 310 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH KHAI THÁC HIỆU QUẢ THÔNG TIN PHẢN HỒI TỪ NGƢỜI DÙNG Hình Minh họa giảm chiều từ không gian Rd Rk (k