Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân

10 7 0
Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân

Đang tải... (xem toàn văn)

Thông tin tài liệu

Mục tiêu của nghiên cứu này là giải bài toán tìm kiếm ảnh theo nội dung và phương pháp để giảm thời gian truy vấn ảnh sử dụng mạng nơtron tích chập. Đồng thời, chúng tôi kết hợp phương pháp này với phương pháp sinh mã nhị phân để cải thiện thời gian truy vấn ảnh.

Vietnam J Agri Sci 2021, Vol 19, No 4: 497-506 Tạp chí Khoa học Nơng nghiệp Việt Nam 2021, 19(4): 497-506 www.vnua.edu.vn TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN MẠNG NƠRON TÍCH CHẬP VÀ PHƯƠNG PHÁP SINH MÃ NHỊ PHÂN Nguyễn Thị Huyền*, Trần Thị Thu Huyền, Vũ Thị Lưu Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam * Tác giả liên hệ: nthuyen@vnua.edu.vn Ngày nhận bài: 20.07.2020 Ngày chấp nhận đăng: 02.09.2020 TĨM TẮT Tìm kiếm ảnh theo nội dung hướng nghiên cứu quan tâm năm gần phương pháp tìm kiếm khắc phục nhược điểm phương pháp tìm kiếm dựa văn mơ tả không bị ảnh hưởng thiếu sai văn kèm theo ảnh Bên cạnh đó, phương pháp học sâu mạng nơron tích chập chứng minh khả xử lý liệu lớn đặc biệt lĩnh vực thị giác máy tính xử lý ảnh Mục tiêu nghiên cứu giải tốn tìm kiếm ảnh theo nội dung phương pháp để giảm thời gian truy vấn ảnh sử dụng mạng nơtron tích chập Đồng thời, chúng tơi kết hợp phương pháp với phương pháp sinh mã nhị phân để cải thiện thời gian truy vấn ảnh Kết thực nghiệm hai liệu cifar-10 mnist cho thấy việc sử dụng mạng nơron tích chập kết hợp phương pháp sinh mã nhị phân tìm kiếm ảnh đạt độ xác xấp xỉ 89% 98% cải thiện đáng kể thời gian truy vấn ảnh Từ khóa: Tìm kiếm ảnh theo nội dung, mạng nơron tích chập, sinh mã nhị phân Content-based Image Retrieval with Convolutional Neural Networks and Binary Hashing Method ABSTRACT Content-based image retrieval has received great attention in recent years because this method overcomes the disadvantages of the text-based image retrieval that is not affected by the lack of or wrong of the text attached to the image In addition, deep learning methods such as convolutional neural networks have demonstrated their ability to process large-sized data, especially computer vision and image processing The aims of this study was develop a content-based image retrieval program and method to reduce image query time using the convolutional neural network (CNN) Also, we combined CNN with a binary hashing method to improve image retrieval time The experimental results on CIFAR-10 and MNIST data sets showed that combining CNN with the binary hashing method for content-based image retrieval achieved an accuracy of approximately 89% on CIFAR-10, 98% on MNIST and significantly improved retrieval time Keywords: Content-based image retrieval, CBIR, convolutional neural networks, CNN, binary hashing ĐẶT VẤN ĐỀ Ngày nay, với phát triển vượt trội công nghệ kỹ thuật số phổ biến rộng rãi thiết bị quay phim, chụp ảnh dẫn đến kho liệu hình ảnh nhiều lĩnh vực khác như: y khoa, hệ thống thông tin địa lý, thư viện số, giáo dục đào tạo, giải trí, mạng xã hội„ tăng theo cách nhanh chóng Theo báo cáo Tập đồn liệu giới IDC năm 2016, giới tạo 1.138 nghìn tỷ hình ảnh, gấp 700 lần so với năm 2015 (PhotoindustrieVerband e.V, 2016) Theo báo cáo chia sẻ ảnh tồn cầu, Brandwatch tính tốn ngày có 350 triệu hình ảnh chia sẻ qua Facebook, 95 triệu hình ảnh chia sẻ qua Instagram, 400 triệu Snapchat 1,6 tỷ hình ảnh WhatsApp (Văn Thế Thành & Lê Mạnh Thạnh, 2016) 497 Tìm kiếm ảnh theo nội dung dựa mạng nơron tích chập phương pháp sinh mã nhị phân Vì vậy, nhu cầu tìm kiếm ảnh hay truy xuất liệu ảnh nhu cầu tất yếu, lĩnh vực nghiên cứu thu hút quan tâm Tìm kiếm ảnh hiểu cách tìm ảnh sở liệu ảnh có liên quan đến ảnh truy vấn (query) cụ thể Hình mơ tả sơ lược q trình tìm kiếm ảnh Bài tốn tìm kiếm ảnh chia thành hai lớp (Văn Thế Thành, 2017): Thứ tìm kiếm ảnh dựa văn TBIR (Text-Based Image Retrieval) Phương pháp nhiều thời gian để mơ tả mục hình ảnh dạng văn bản, có nhiều hạn chế tính chủ quan người kết tìm kiếm khơng xác mơ tả bị sai sót khơng tồn Ví dụ, Google Images Search cơng cụ tìm kiếm ảnh sử dụng phổ biến Công cụ cho phép người sử dụng nhập từ khóa liên quan đến ảnh cần tìm thực việc tìm kiếm thơng qua việc phân tích meta-data văn kèm với ảnh Phương pháp cho kết tương đối tốt, đáp ứng nhu cầu người sử dụng Tuy nhiên, kết trả không với yêu cầu đặt meta-data kèm với ảnh bị thiếu sai sót từ khóa truy vấn mang ý nghĩa nhập nhằng (Lê Minh Phúc & Trần Cơng Án, 2017) Thứ hai tìm kiếm ảnh dựa nội dung CBIR (Content-Based Image Retrieval), tức tìm tập hình ảnh có nội dung tương tự với hình ảnh cho trước Phương pháp CBIR thực tìm kiếm dựa đặc trưng thị giác hình ảnh, vượt qua hạn chế phương pháp tìm kiếm TBIR Với phương pháp CBIR, hai vấn đề trích xuất tự động đặc trưng thị giác phương pháp đánh giá độ tương tự hai ảnh đóng vai trị quan trọng, định hiệu tìm kiếm Về vấn đề thứ nhất, phương pháp tìm kiếm ảnh theo nội dung “truyền thống” thường dựa vào đặc trưng trực quan màu sắc, kết cấu, hình dạng, đặc trưng cục rút trích từ ảnh; nhiều hệ thống truy vấn ảnh dựa nội dung đời như: QBIC, VisualSeek, WebSeek BlobWorld (Văn Thế Thành, 2017) Phương pháp có hạn chế khó xác 498 định chọn đặc trưng đại diện cho ảnh để việc tìm kiếm đạt kết tốt Những năm gần đây, phương pháp học sâu (Deep Learning) có mạng nơron tích chập (CNN) đạt thành cơng to lớn xử lý liệu kích thước lớn Nó chứng minh hiệu lĩnh vực thị giác máy tính xử lý ảnh như: phát người (Luo cộng sự, 2014), phát khuôn mặt (Li & cs., 2015), phân loại hình ảnh (Ciressan & cs., 2012), tự động tơ màu hình ảnh (Cheng, 2015)„ gần phương pháp dựa Deep Learning CNN áp dụng vào tốn tìm kiếm ảnh Lecun & cs (1998) đề xuất mạng nơron tích chập LeNet5 sử dụng để nhận biết chữ viết tay, cho thấy thuật tốn thành cơng Sau đó, Krizhevsky & cs (2012) cải thiện thuật tốn mạng nơron tích chập, sử dụng đầu lớp thứ làm đặc trưng để truy vấn hình ảnh đạt kết tốt tập liệu ImageNet Babenko & cs (2014) nghiên cứu phương pháp cải thiện hiệu suất truy vấn ảnh cách sử dụng PCA để nén đặc trưng trích chọn nhờ CNN Mặc dù cơng trình Krizhevsky & cs (2012) Babenko & cs (2014) cho thấy sử dụng CNN vào việc truy vấn ảnh cho độ xác cao việc đối sánh ảnh thực không gian Euclide dẫn đến chưa hiệu thời gian tính toán, yêu cầu đặt với hệ thống tìm kiếm ảnh phải đưa kết nhanh chóng Xuất phát từ vấn đề nêu trên, báo này, giới thiệu mạng nơron tích chập (CNN) phương pháp dựa mạng nơron tích chập để trích chọn đặc trưng ảnh (gọi đặc trưng CNN) sau tiếp tục thực việc sinh mã nhị phân (binary hashing) để biến đặc trưng thành véctơ nhị phân có độ dài nhỏ, véctơ gọi mã nhị phân (hash code) Sau có mã nhị phân cho ảnh, việc tính tốn tương đồng ảnh trở nên đơn giản số chiều thấp phải làm việc với tốn tử nhị phân đơn giản, từ cải thiện tốc độ tìm kiếm Nguyễn Thị Huyền, Trần Thị Thu Huyền, Vũ Thị Lưu Lấy ảnh tra cứu tương ứng từ CSDL ảnh CSDL ảnh Sắp xếp độ tương tự theo chiều giảm dần Trích chọn đặc trung Xác định độ tương tự ảnh truy vấn ảnh CSDL dựa đặc trưng ảnh CSDL đặc trưng ảnh Ảnh truy vấn Trích chọn đặc trung Ghi chú: CSDL: Cơ sở liệu Hình Quá trình tìm kiếm ảnh Hình Hình ảnh minh họa liệu CIFAR-10 2.1.1 Dữ liệu ảnh lại dùng cho kiểm tra (test) Đây sở liệu tương đối khó ảnh nhỏ đối tượng lớp biến đổi nhiều màu sắc, hình dáng, kích thước Bộ liệu CIFAR-10 Krizhevsky & cs (2009) thu thập gồm 10 lớp đối tượng: plane, car, bird, cat, deer, dog, frog, horse, ship truck, lớp gồm 6.000 ảnh màu có kích thước 32 × 32 pixel Tổng số có 60.000 ảnh 50.000 ảnh sử dụng cho huấn luyện (train), 10.000 ảnh Bộ liệu MNIST Lecun & cs (1998) xây dựng sở liệu bao gồm ảnh đa mức xám 10 chữ số viết tay từ đến chuẩn hóa kích thước 28 × 28 pixel Bộ ảnh gồm 60.000 ảnh dùng để huấn luyện (train), 10.000 ảnh lại dùng cho kiểm tra (test) PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Vật liệu 499 Tìm kiếm ảnh theo nội dung dựa mạng nơron tích chập phương pháp sinh mã nhị phân Hình Hình ảnh minh họa liệu MNIST 2.1.2 Công cụ Chúng sử dụng máy tính cài hệ điều hành Windows 64-bit, Intel, Core™ i5-5200U, CPU@2.20GHz, ngơn ngữ lập trình Matlab2016a, thư viện Caffe CNN (Jia, 2014) 2.2 Phương pháp nghiên cứu 2.2.1 Mạng nơron tích chập Với mạng nơron truyền thẳng (ANN) thơng thường: nhận đầu vào véctơ chuyển đổi thơng qua loạt lớp ẩn Mỗi lớp ẩn bao gồm tập nơ-ron, nơron kết nối đầy đủ với tất nơron lớp trước nơron lớp khơng có kết nối với Lớp kết nối đầy đủ cuối gọi lớp đầu Như vậy, với tập liệu gồm hình ảnh có kích thước [200 × 200 × 3], nơron lớp ẩn mạng có 200 × 200 × = 120.000 trọng số kết nối Điều gây khó khăn cho việc huấn luyện ANN hai yếu tố: chi phí để xây dựng liệu huấn luyện lớn thời gian huấn luyện lâu Từ thực tế đó, mạng CNN đời với ý tưởng nơron cần kết nối tới vùng cục ảnh thay tồn ảnh Về CNN kiểu mạng ANN truyền thẳng, kiến trúc gồm nhiều thành phần ghép nối với theo cấu trúc nhiều lớp là: Convolution, ReLU, Pooling liên kết đầy 500 đủ (Fully connected) Sự xếp số lượng thứ tự lớp tạo mơ hình khác phù hợp cho toán khác a Lớp Convolution Lớp Convolution (Conv) lớp quan trọng cấu trúc CNN Hình mơ tả lý thuyết cách thức Conv hoạt động liệu đầu vào biểu diễn ma trận hai chiều Phép tính thực cách dịch chuyển cửa sổ mà ta gọi lọc (hay kernel) ma trận đầu vào, kết lần dịch chuyển tính tổng tích chập (tích giá trị ma trận vị trí tương ứng), hình giá trị đầu dịch chuyển lọc có kích thước [3 × 3] tồn ma trận đầu vào có kích thước [7 × 7] Trong trường hợp tổng qt, hình ảnh có kích thước [W1 × H1 × D1], sử dụng K lọc có kích thước [F × F], q trình xử lý dịch chuyển lọc toàn ảnh với bước dịch chuyển (stride) S (S tính pixel) Trong số trường hợp để cân số bước dịch chuyển kích thước ảnh người ta chèn thêm P pixel với giá trị cho trước (thường 0) xung quanh viền ảnh ta ma trận đầu (feature map) [W2 × H2 × D2] đó: W2 = (W1 – F + 2P)/S + H2 = (H1 – F + 2P)/S + D2 = K Nguyễn Thị Huyền, Trần Thị Thu Huyền, Vũ Thị Lưu Hình Minh hoa phép nhân chập Hình Lớp nhân chập thực nhân chập ảnh đầu vào có kích thước [227×227×3] với 96 lọc có kích thước [11×11×3], bước dịch chuyển S = pixel P = Tương ứng với lọc cho feature map có kích thước W2 = H2 = (227 – 11)/4 +1 = 55 kết đầu Lược đồ chia sẻ tham số sử dụng lớp tích chập để kiểm sốt số lượng tham số Ví dụ lớp tích chập hình 3, có 55 × 55 × 96 = 290.400 nơron, nơron có 11 × 11 × = 363 trọng số kết nối bias Như có 290.400 × 364 = 105.705.600 tham số Rõ ràng, số lớn Chúng ta giảm đáng kể số lượng tham số cách sử dụng trọng số bias cho nơron feature map Với lược đồ chia sẻ tham số này, lớp Conv ví dụ có 96 trọng số, với tổng số 96 × 11 × 11 × = 34,848 34.944 tham số (96 bias) b Lớp ReLU Lớp ReLU thường cài đặt sau lớp Conv Lớp sử dụng hàm kích hoạt f(x) = max(0,x) Nói cách đơn giản, lớp có nhiệm vụ chuyển tồn giá trị âm kết lấy từ lớp Conv thành giá trị Ý nghĩa 501 Tìm kiếm ảnh theo nội dung dựa mạng nơron tích chập phương pháp sinh mã nhị phân cách cài đặt tạo nên tính phi tuyến cho mơ hình Có nhiều cách để khiến mơ hình trở nên phi tuyến sử dụng hàm kích hoạt sigmoid, tanh,„ hàm f(x) = max(0,x) dễ cài đặt, tính toán nhanh mà hiệu (Krizhevsky & cs., 2012) c Lớp Pooling Lớp sử dụng cửa sổ trượt quét qua toàn ảnh, lần trượt theo bước dịch chuyển cho trước Khác với lớp Conv, lớp Pooling khơng tính tích chập mà thực lấy mẫu Khi cửa sổ trượt ảnh, có giá trị xem giá trị đại diện cho thơng tin ảnh vùng (giá trị mẫu) giữ lại Các phương thức lấy mẫu phổ biến lớp Pooling MaxPooling (lấy giá trị lớn nhất), MinPooling (lấy giá trị nhỏ nhất) AveragePooling (lấy giá trị trung bình) Với ma trận đầu vào có kích thước [W1 × H1 × D1], thực tốn tử pooling cửa sổ có kích thước [F×F] với bước dịch chuyển S pixel ta ma trận đầu [W2 × H2 × D2] đó: W2 = (W1– F)/S + H2 = (H1 – F)/S + D2 = D1 Hình ví dụ minh họa sử dụng tốn tử pooling Trong đó, hình 6(a) phía bên trái cách thức lớp pooling xử lý đầu vào có kích [224 × 224 × 64], cửa sổ có kích thước [2 × 2], bước dịch chuyển S = đầu thu có kích thước [112 × 112 × 64] Hình 6(b) phía bên phải mơ tả chi tiết cách thức hoạt động max-pooling với F = 2, S = d Lớp liên kết đầy đủ Liên kết đầy đủ cách kết nối nơron hai lớp với lớp phía sau kết nối đầy đủ với nơron lớp phía trước Đây dạng kết nối thường thấy ANN, CNN lớp thường sử dụng lớp phía cuối kiến trúc mạng 2.2.2 Ứng dụng mạng nơron tích chập vào tốn tìm kiếm ảnh Như đề cập trên, phương pháp tìm kiếm ảnh theo nội dung “truyền thống” thường dựa vào đặc trưng trực quan màu sắc, kết cấu, hình dạng, đặc trưng cục rút trích từ ảnh thường khơng hiệu số trường hợp Ví dụ, lược đồ màu dùng để miêu tả đặc trưng màu ảnh Tuy nhiên, hạn chế lược đồ màu chưa tận dụng thông tin không gian vùng ảnh Điều dẫn đến sai số khơng mong muốn minh họa hình 7, hai ảnh có cấu trúc khác có lược đồ màu giống nhau, trường hợp ảnh bị lệch minh họa hình Trong sử dụng đặc trưng trích chọn CNN khắc phục hạn chế nêu sử dụng lọc với kích thước khác trượt ảnh, tạo nhiều liệu a Kiến trúc mạng CNN Chúng tơi sử dụng mơ hình CNN Krizhevsky & cs (2012) đề xuất, mơ hình cung cấp sẵn thư viện Caffe CNN (Jia, 2014) Hình Ví dụ sử dụng tốn tử pooling 502 Nguyễn Thị Huyền, Trần Thị Thu Huyền, Vũ Thị Lưu Nguồn: Văn Thế Thành, 2017 Hình Hai ảnh khác có lược đồ màu Hình Số vị trí khác ảnh Hình Mơ hình mạng CNN Krizhevsky cộng (2012) đề xuất Trong kiến trúc trên, lớp nhân chập thứ thực lọc ảnh đầu vào có kích thước [227 × 227 × 3] 96 lọc có kích thước [11 × 11 × 3] với bước dịch chuyển S = pixel, P = kết thu đầu có kích thước [55 × 55 × 96] Lớp nhân chập thứ hai thực lọc đầu vào có kích thước [55 × 55 × 96] 256 lọc có kích thước [5 × × 96] với bước dịch chuyển S = pixel, P = thu đầu có kích thước [27 × 27 × 256] Tương tự với lớp nhân chập khác Các lớp pooling sử dụng toán tử maxpooling với cửa sổ có kích thước [3 × 3] bước dịch chuyển S = Sau mạng huấn luyện, đầu lớp FC7 sử dụng véctơ đặc trưng ảnh sử dụng cho toán tìm kiếm ảnh Với ảnh truy vấn Iq ivà tập sở liệu ảnh P, gọi Vq ViP tương ứng véctơ đặc trưng ảnh truy vấn Iq ảnh Ii tập P Chúng xác định mức độ tương tự Iq Ii khoảng cách Euclidean hai véctơ đặc trưng tương ứng chúng Si  Vq  ViP (1) Khoảng cách Euclidean nhỏ mức độ giống hai ảnh cao Dựa vào khoảng cách xác định top k hình ảnh giống với ảnh truy vấn b Nâng cao hiệu tìm kiếm ảnh Việc sử dụng đầu lớp FC7 làm véctơ đặc trưng cho thấy kết tìm kiếm ảnh tốt Tuy nhiên, khơng hiệu hệ thống tìm kiếm ảnh với sở liệu lớn việc tính khoảng cách Euclidean véctơ chiều cao nhiều thời gian Để cải thiện thời gian truy xuất hình ảnh, cách đơn giản chuyển đổi vectơ đặc trưng ảnh thành dạng nhị phân Khi việc so sánh độ giống hai hình ảnh thực nhanh chóng cách sử dụng khoảng cách Hamming 503 Tìm kiếm ảnh theo nội dung dựa mạng nơron tích chập phương pháp sinh mã nhị phân Hình 10 Mơ hình mạng CNN sau chèn lớp ẩn H Để thực ý tưởng này, chèn thêm lớp ẩn H sau lớp FC7 lớp FC8 phân loại softmax ứng với 10 lớp liệu để phù hợp với liệu mà sử dụng để thực nghiệm Các nơron lớp H kết nối đầy đủ với nơron lớp trước lớp sau kích hoạt hàm truyền sigmoid Các trọng số liên kết từ lớp thứ đến lớp FC7 lấy từ mạng CNN huấn luyện trước đó, trọng số kết nối từ lớp FC7 tới lớp H từ lớp H đến lớp FC8 ban đầu khởi tạo ngẫu nhiên cập nhật trình huấn luyện mạng Do nơron lớp H sử dụng hàm truyền sigmoid nên đầu lớp H ký hiệu O(H) giá trị khoảng {0,1}, để đưa dạng mã nhị phân thực phân ngưỡng cho bit j = 1,„, h (với h số nơron lớp H) sau: 1 O (H)  0,5 Hj   0 ngược lại j (2) Gọi P = {I 1, I 2, , In} l tập sở liệu ảnh bao gồm n ảnh, mã nhị phân tương ứng tập ảnh ký hiệu PH = {H 1, H 2,„, Hn} với Hi  {0, 1}h Cho hình ảnh truy vấn Iq với mã nhị phân tương ứng H q Chúng xác định mức độ tương tự Iq Ij khoảng cách Haming Hq Hj 2.3 Kết thực nghiệm 2.3.1 Phương pháp đánh giá Với liệu, sử dụng 10.000 ảnh tập test làm ảnh truy vấn Với ảnh truy vấn q phép đo độ tương tự, chúng tơi tính độ đo tương tự ảnh truy vấn 504 ảnh tập train, sau lấy 1.000 ảnh có độ đo tương tự cao để đánh giá độ xác việc tìm kiếm độ đo Precision sau: 1.000 Pr ecision   Re l  i  i 1 1.000 (3) Trong Rel(i) biểu thị liên quan ảnh truy vấn q ảnh xếp thứ hạng i số 1.000 ảnh lấy Ở đây, sử dụng nhãn lớp ảnh để đo mức độ liên quan Rel(i) = ảnh truy vấn q ảnh thứ i thuộc lớp ngược lại Thời gian truy vấn thời gian trung bình để tính độ đo tương tự ảnh truy vấn ảnh tập train 2.3.2 Kết thực nghiệm Chúng thực nghiệm trường hợp: (1) Sử dụng đầu lớp FC7 làm đặc trưng ảnh, đó, ảnh biểu diễn véctơ có độ dài 4096 sử dụng khoảng cách Euclidean để đo độ tương tự hai ảnh; (2) sử dụng phương pháp sinh mã nhị phân với số nơron lớp ẩn H 16, 32, 48, 64 128 độ dài vec-tơ đặc trưng (hash code), trường hợp này, sử dụng khoảng cách Hamming để đo độ tương tự hai ảnh Kết thực nghiệm cho bảng Kết thực nghiệm cho thấy việc sử dụng mạng CNN vào tốn tìm kiếm ảnh theo nội dung cho kết tìm kiếm với độ xác cao, nhiên thời gian truy vấn lâu Việc áp dụng mạng CNN kết hợp với phương pháp sinh mã nhị phân làm tăng hiệu suất tìm kiếm mà cịn cải thiện nhiều thời gian truy vấn ảnh Nguyễn Thị Huyền, Trần Thị Thu Huyền, Vũ Thị Lưu Bảng Kết thực nghiệm Bộ liệu CIFAR-10 MNIST Độ dài véctơ đặc trưng Độ đo Độ xác (%) Thời gian truy vấn (giây) 4096 Euclidean 87,48 17,43 16 (bit) Hamming 89,77 0,02 32 (bit) Hamming 89,72 0,04 48 (bit) Hamming 89,74 0,06 64 (bit) Hamming 89,79 0,07 128 (bit) Hamming 89,79 0,13 4096 Euclidean 98,12 15,32 48 (bit) Hamming 98,31 0,05 128 (bit) Hamming 98,43 0,11 128 bit 64 bit 48 bit 32 bit 16 bit 4096 Ảnh truy vấn Hình 11 Top 10 ảnh kết tìm kiếm ảnh liệu CIFAR-10 Hình 12 Top 10 ảnh kết tìm kiếm ảnh liệu MNIST 505 Tìm kiếm ảnh theo nội dung dựa mạng nơron tích chập phương pháp sinh mã nhị phân KẾT LUẬN Khi sử dụng mạng CNN tập hai tập liệu CIFAR-10 MNIST cho kết tìm kiếm với độ xác cao (~ 87% liệu CIFAR-10 (~ 98% liệu MNIST) thời gian truy vấn lâu (trên 10 giây) Thực sinh mã nhị phân cách chèn thêm lớp ẩn vào mạng CNN cho thấy thời gian truy vấn giảm đáng kể chưa đến giây Nghiên cứu cho thấy việc áp dụng mạng CNN phương pháp sinh mã nhị phân đáng quan tâm để góp phần nâng cao hiệu cho hệ thống tìm kiếm ảnh TÀI LIỆU THAM KHẢO Babenko A., Slesarev A., Chigorin A & Lempitsky V (2014) Neural codes for image retrieval Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 8689 LNCS(PART 1) pp 584-599 Cheng Z., Yang Q & Sheng B (2015) Deep Colorization Proceedings of the IEEE International Conference on Computer Vision pp 415-423 Ciressan D., Meier U & Schmidhuber J (2012) Multicolumn Deep Neural Networks for Image Classification Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Jia Y., Shelhamer E., Donahue J., Karayev S., Long J., Girshick R., Guadarame S & Darrell T (2014) Caffe: Convolutional Architecture for Fast Feature Embedding UC Berkeley EECS, Berkeley, CA 94702 506 Krizhevsky A., Nair V., & Hinton G (2009) CIFAR10 and CIFAR-100 dataset Retrieved from https://www.cs.toronto.edu/~kriz/cifar.html on May 12, 2018 Krizhevsky A., Sutskever I & E Hinton G (2012) ImageNet Classification with Deep Convolutional Neural Networks In Proc NIPS Lecun Y., Cortes C., Burges C (1998) MNIST handwritten digit database Retrieved from http://yann.lecun.com/exdb/mnist/ on May 12, 2018 Lecun Y., Bottou L., Bengio Y & Haffner P (1998) Gradient-based learning applied to document recognition Proceedings of the IEEE Li H., Lin Z., Shen X., Brandt J & Hua G (2015) A Convolutional Neural Network Cascade for Face Detection Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition pp 5325-5334 Luo P., Tian, Y., Wang X & Tang X (2014) Switchable Deep Network for Pedestrian Detection Ping Computer Vision Fundation Lê Minh Phúc & Trần Cơng Án (2017) Tìm kiếm ảnh theo nội dung ngữ nghĩa Tạp chí Khoa học, Trường Đại học Cần Thơ Số chuyên đề: Công nghệ thông tin tr 58-64 Photoindustrie-Verband e.V (2016) Photo and imaging market: Trend report p 63 Văn Thế Thành (2017) Tìm kiếm ảnh dựa đồ thị chữ ký nhị phân Luận án tiến sĩ khoa học máy tính Đại học Huế Văn Thế Thành & Lê Mạnh Thạnh (2016) Một số cải tiến cho hệ truy vấn ảnh dựa S-Tree Kỷ yếu hội nghị khoa học quốc gia lần thứ IX Nghiên cứu ứng dụng công nghệ thông tin (FAIR’9) ... Ảnh truy vấn Hình 11 Top 10 ảnh kết tìm kiếm ảnh liệu CIFAR-10 Hình 12 Top 10 ảnh kết tìm kiếm ảnh liệu MNIST 505 Tìm kiếm ảnh theo nội dung dựa mạng nơron tích chập phương pháp sinh mã nhị phân. . .Tìm kiếm ảnh theo nội dung dựa mạng nơron tích chập phương pháp sinh mã nhị phân Vì vậy, nhu cầu tìm kiếm ảnh hay truy xuất liệu ảnh nhu cầu tất yếu, lĩnh vực nghiên cứu thu hút quan tâm Tìm. .. thành dạng nhị phân Khi việc so sánh độ giống hai hình ảnh thực nhanh chóng cách sử dụng khoảng cách Hamming 503 Tìm kiếm ảnh theo nội dung dựa mạng nơron tích chập phương pháp sinh mã nhị phân Hình

Ngày đăng: 26/05/2021, 14:41

Tài liệu cùng người dùng

Tài liệu liên quan