1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Truy vấn ảnh hiệu quả dựa trên phương pháp khuếch tán

67 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Truy vấn ảnh hiệu quả dựa trên phương pháp khuếch tán
Tác giả Vu Minh Luan, Le Doan Nhat Minh
Người hướng dẫn TS. Nguyen Vinh Tiep
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 67
Dung lượng 33,78 MB

Nội dung

Tuy nhiên vẫn còn rất nhiều tính hạn chế về hiệu suất truy vấn.Gần đây, việc áp dụng phương pháp truy vấn dựa trên khếch tán đã đạt được độ chínhxác cao nhất trong bài toán truy van hình

Trang 1

VU MINH LUAN - LE DOAN NHAT MINH

KHOA LUAN TOT NGHIEP

TRUY VAN ANH HIỆU QUA DỰA TREN PHƯƠNG

PHAP KHUECH TAN

EFFICIENT IMAGE RETRIEVAL BASED ON DIFFUSION METHOD

CU NHAN NGANH KHOA HOC MAY TINH

TP HO CHÍ MINH, 2021

Trang 2

_ VU MINH LUAN - 18521067

LE DOAN NHAT MINH - 18521101

KHOA LUAN TOT NGHIEP

TRUY VAN ANH HIỆU QUA DỰA TREN PHƯƠNG

PHAP KHUECH TAN

EFFICIENT IMAGE RETRIEVAL BASED ON DIFFUSION METHOD

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN

TS NGUYEN VINH TIEP

TP HO CHi MINH, 2021

Trang 3

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 512/QD-DHCNTT

ngày tháng 1 năm 2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 Chủ tịch:

2 Thư ký:

3 Ủy viên:

Trang 4

LOI CAM ON

Trong quá trình học tập va thực hiện luận văn, chúng tôi da được các thay cô trường Đại học Công nghệ thông tin — Dai học Quốc gia TPHCM tạo mọi điều kiện thuận lợi,

các anh chị đi trước và bạn bè thường xuyên động viên Chúng tôi xin bày tỏ sự cảm

ơn chân thành với những sự hỗ trợ và giúp đỡ này.

Luận văn sẽ không thể hoàn thành nếu không có sự hướng dẫn tận hình của Thầyhướng dẫn TS Nguyễn Vinh Tiệp Thay là người chỉ dẫn trực tiếp và đưa ra những góp

ý quan trọng trong hành trình viết luận văn của chúng tôi, là người thầy mà chúng tôi

muốn bày tỏ lòng biết ơn sâu sắc nhất

Xin chân thành cảm ơn anh Nguyễn Thành Danh, anh Nguyễn Vũ Anh Khoa và

anh Lưu Đức Tuấn đã có nhiều ý kiến đóng góp, giúp đỡ quan trọng trong quá trình

nghiên cứu thực hiện luận văn.

Xin chân thành cảm ơn ban giám hiệu, và toàn thể thầy cô trong khoa Khoa học

máy tính — Trường Dai học Công nghệ thông tin đã quan tâm, tạo môi trường thuận lợi

để chúng tôi học tập và phát triển trong lĩnh vực Công nghệ thông tin.

Xin cảm ơn tất cả những người bạn, người đã đồng hành cùng chúng tôi từ nhữngnăm đầu tiên của đại học Cuối cùng là lời cảm ơn đến gia đình - những người luônủng hộ chúng tôi từ những bước đi đầu tiên.

Trang 5

TÓM TẮT

Truy xuất hình ảnh dựa trên nội dung (CBIR) là một bài toán xuất hiện khá sớm tronglĩnh vực thị giác may tính Với sự sẵn có của công nghệ internet va chi phí thấp của cảm biến hình ảnh kỹ thuật số, rất nhiều cơ sở dif liệu hình ảnh đã được tạo ra trongcác loại ứng dụng khác nhau Các cơ sở dữ liệu hình ảnh này làm tăng nhu cầu pháttriển các phương pháp tìm kiếm truy xuất hình ảnh hiệu quả đáp ứng yêu cầu của ngườidùng Sự chú ý và nỗ lực lớn đã được dành để cải thiện phương pháp truy xuất hình

ảnh dựa trên nội dung, đặc biệt tập trung vào việc giảm khoảng cách ngữ nghĩa giữa

các tính năng cấp thấp và nhận thức thị giác của con người

Những công trình nghiên cứu gần đây về phát triển hệ thống truy vấn hình ảnh chokết quả đầy hứa hẹn Tuy nhiên vẫn còn rất nhiều tính hạn chế về hiệu suất truy vấn.Gần đây, việc áp dụng phương pháp truy vấn dựa trên khếch tán đã đạt được độ chínhxác cao nhất trong bài toán truy van hình ảnh dựa trên nội dung với độ chính xác trên

tập Oxford5k là 96.2 trên thang đo mAP Trong khóa luận này chúng tôi sẽ tìm hiểu

tổng quan về bài toán truy vấn hình ảnh dựa trên nội dung, các ứng dụng vào đời sống

và các công trình nghiên cứu khác Thách thức, khó khăn về việc xây dựng hệ thốngtruy van Khóa luận này tập trung vào bài toán xây dựng hệ thống truy van dựa trênphương pháp khéch tán, chúng tôi đã tiến hành cài đặt lại phương pháp này Cùngvới đó, để cải thiện tốc độ truy vấn - một trong những khó khăn phải đối mặt khi xâydựng hệ thống truy van ảnh - chúng tôi dé xuất sử dụng giảm chiều dữ liệu kết hợpvới phương pháp khuếch tán Phương pháp của chúng tôi đã đạt được tốc độ truy vấnnhanh hơn so với hệ thống ban đầu, đổi lại, độ chính xác sẽ giảm đi.Tuy nhiên, trên tập

dữ liệu Paris106k, chúng tôi đã nhận ra một điều đặc biệt Dù chiều dữ liệu giảm đinhiều nhưng mAP lại giảm khá ít và có thể coi là không đáng kể.

Trang 6

16

Trang 7

2.3.1.1 Xâydựngđồthị 18

2.3.1.2 Bướcđingẫunhiên 19

23.13 Sựphânrã ẶẶ Ặ 19 2.3.2 Cắtgiảm dữ liệu 20

3 Đề xuất kết hợp khuếch tán và giảm chiều dữ liệu 21 3.1 Tổngquan ee 21 3.2 Chuyển đổi xử ly trực tuyến thành ngoại tuyến 22

3.2.1 Phân tích độ phức tap của phương pháp xử lý trực tuyển 22

3.2.2 Áp dụng chuyển đổi trực tuyến thành ngoại tuyến cho một số bước tinhtoan 2 VỤ 23 3.2.3 Phương pháp cắt giảm cơ sở dữ liệu sau bước chuẩn hóa dữ liệu và bước đi ngẫu nhiên 24

3.2.4 Phuong pháp tìm kiếm trựctuyến 26

3.3 Giảm chiều đữliệu Ặ VỤ 26 33.1 ôn ie SY MM ee 28 3.3.2 Hàmmấtmát 31

3.3.3 Tốiưuhàmmấtmát 32

3.3.4 Các bước giảm chiều dữliệu 34

3.4 Đề xuất kết hợp khuếch tán và giảm chiều dữ liệu 35

3.4.1 Chon số chiều của kiểu dữ lệumới 35

3.4.2 Áp dụng giảm chiều dữliệu 36

4 Thực nghiệm 38 41 Tổngquan Q TQ ee 38 T5 8 ˆ aaa 38

1H

Trang 8

42.1 OxfordSK es 38 4.2.2 Oxfordl05K Q Q Q Q Q Q Q va 41 4.2.3 Paris6k va Paris106k 20 41

43 Phương phapdanhgia 2 2.- 200004 42

44 Cài đặt thực nghiệm 0000022 eee eee 44

4.5 Kétquathucnghiém 45

4.5.1 Đánh giá các bộ mô tả trên tập dữ liệu Oxford5k 45

4.5.2 Áp dụng thuật toán giảm chiều dữ liệu trên tập dữ liệu

Ox-ford105k và Parisl06k 47

4.6 So sánh kết quả ban đầu và kết quả dựa trên phương pháp dé xuất 49

5 Kếtluận 51

5.1 Những kết quả đã đạtđược 515.2 Một số hướng phát triển của đểtài - 52

Tài liệu tham khảo 33

1V

Trang 9

Danh sách hình ve

1.1 1.2

Cấu trúc dữ liệu của ma trận thưa thot Zr! [2] 2 2

Phân loại các kỹ thuật giảm chiều dữ liệu dựa trên cách tiếp cận tuyếntính và phi tuyến tính (hình 3.2) -

Phân loại các kỹ thuật giảm chiều dif liệu dựa trên chọn đặc tính va

trích trọn đặc trưng Q2

Vi dụ về phương sai của dif liệu trong không gian hai chiều (a) Chiều

thứ hai có phương sai (tỉ lệ với động rộng của đường hình chuông) nhỏ

hơn chiều thứ nhất (b) Cả hai chiều có phương sai đáng kể Phươngsai của mỗi chiều là phương sai của thành phần tương ứng được lấy

trên toàn bộ dữ liệu Phương sai tỉ lệ thuận với độ phân toán của dữ liệu 28

Trang 10

Y tưởng chính của PCA: Tim một hệ trực chuẩn mới sao cho trong hệ

này các thành phan quan trọng nhất nằm trong K thành phan đầu tiên 29

PCA có thể được coi là phương pháp đi tìm một hệ cơ sở trực chuẩn

đóng vai trò một phép xoay, sao cho trong hệ cơ sở mới này, phương

sai theo một số chiều nào đó là rất nhỏ và ta có thể bỏ qua 33

Minh họa các bước thực hiện PCA 35

Mô tả hệ thống kết hợp phương pháp khuếch tán và giảm chiều dữ liệu 37

55 truy van được sử dụng để đánh giá hiệu suất trên ground truth 39Hình ảnh minh họa kết quả trả về khi thực hiện truy vấn 42

Biểu đồ so sánh kết quả khi sử dụng phương pháp PCA trên tập dữ

liệu Oxfordl05k Ặ Q Q Q QQ Q VO 49

Biểu đồ so sánh kết quả khi sử dụng phương pháp PCA trên tập dữ

liệu ParislO6k 2 Quy 49

VI

Trang 11

So sánh định lượng về thời gian thực thi và độ đo mAP các bộ mô tả

theo đánh giá trên tập dữ liệu Oxford5k

So sánh định lượng về thời gian thực thi các bước tính toán và độ đomAP của các cấu hình giảm chiều dữ liệu trên tập Oxford105k

So sánh định lượng về thời gian thực thi các bước tính toán và độ đomAP của các cấu hình giảm chiều dữ liệu trên tập Parisl06k_

vil

47

Trang 12

Principal Components Analysis

Convolutional Neural Network Long Short Term Memory

Graphics Processing Unit

Facebook AI Similarity Search

Viii

Trang 13

Chương 1

Giới thiêu

Trong chương này, chúng tôi sẽ trình bày tổng quan về thị giác máy tính, một vài chủ

dé nổi tiếng trong lĩnh vực nghiên cứu này và định nghĩa bài toán truy vấn hình ảnh.Hon thé nữa, chúng tôi cũng chỉ ta động lực của chúng tôi để giải quyết van dé thách thức trong truy van hình ảnh cũng như mục tiêu của chúng tôi trong luận án này Phancuối cùng trong chương này sẽ cung cấp nội dung cầu trúc luận án của chúng tôi

Các thí nghiệm về thị giác máy tính bắt đầu khá sớm, các nhà khoa học và kỹ sư đã

cố gắng phát triển các cách để máy móc có thể nhìn và hiểu dữ liệu trực quan trong

khoảng năm 60 của thế kỷ XX Thí nghiệm bắt đầu vào năm 1959 khi các nhà sinh lý

học thần kinh cho một con mèo xem một loạt hình ảnh, cỗ gắng tương quan với phanứng trong não của nó Họ phát hiện ra rằng nó phản ứng trước với các cạnh hoặc đường

cứng, và về mặt khoa học, điều này có nghĩa là quá trình xử lý hình ảnh bắt đầu với

các hình dạng đơn giản như các cạnh thẳng

Trang 14

Vào những năm 1970, các ứng dụng của thị giác máy tính đã được đưa vào sử dụng

thương mại như diễn giải văn bản được đánh máy hoặc viết tay bằng cách sử dụng

nhận dạng ký tự quang học Tiến bộ này được sử dụng để giải thích văn bản viết cho

người mù.

Khi internet phát triển vào những năm 1990, làm cho một lượng lớn hình ảnh có

sẵn trực tuyên để phân tích, các chương trình nhận dạng khuôn mặt đã phát triển mạnh

mẽ Những tập dữ liệu ngày càng tăng này đã giúp máy móc có thể xác định những gì

cụ thể có trong ảnh và video.

Dưới đây là một số ví dụ về các nhiệm vụ thị giác máy tính đã và đang giải quyết:

¢ Phân loại hình anh: xem một hình ảnh và có thể phân loại hình ảnh đó (một con chó, một quả táo, khuôn mặt của một người) Chính xác hơn, nó có thể dự đoán

chính xác rằng một hình ảnh nhất định thuộc về một lớp nào đó Ví dụ: một công

ty truyền thông xã hội có thể muốn sử dụng nó để tự động xác định và tách biệt

các hình ảnh phản cảm do người dùng tải lên.

» Phát hiện đối tượng: có thể sử dụng phân loại hình ảnh để xác định một lớp hình

ảnh nhất định, sau đó phát hiện và lập bảng biểu cho sự xuất hiện của chúng trongmột hình ảnh hoặc video Vi dụ như phát hiện hư hỏng trên dây chuyén lắp ráphoặc xác định máy móc cần bảo trì

- Theo dõi đối tượng: theo dõi một đối tượng sau khi nó được phát hiện Tác vụ

này thường được thực hiện với các hình ảnh được chụp theo trình tự hoặc nguồncấp dữ liệu video thời gian thực Ví dụ, các phương tiện tự hành không chỉ cầnphân loại và phát hiện các đối tượng như người đi bộ, ô tô khác và cơ sở hạ tầngđường bộ mà còn cần theo dõi chuyển động của chúng để tránh va chạm và tuân

thủ luật giao thông.

s Truy xuất hình ảnh dựa trên nội dung: sử dụng thị giác máy tính để duyệt, tìm

kiếm và truy xuất hình ảnh từ các kho dữ liệu lớn, dựa trên nội dung của hình ảnhchứ không phải các thẻ siêu dữ liệu được liên kết với chúng Tác vụ này có thể kết

hợp chú thích hình ảnh tự động thay thế việc gắn thẻ hình ảnh thủ công

Trong dé tài này, chúng tôi sé tìm hiểu về một phương pháp truy vấn hình ảnh và déxuất phương pháp giúp truy vấn hiệu quả hơn

Trang 15

1.2 Tong quan bài toán

Với sự sẵn có của công nghệ internet và chi phí thấp của cảm biến hình ảnh kỹ thuật

số, rất nhiều cơ sở dữ liệu hình ảnh đã được tạo ra trong các loại ứng dụng khác nhau.Các cơ sở dữ liệu hình ảnh này làm tăng nhu cầu phát triển các phương pháp tìm kiếmtruy xuất hình ảnh hiệu quả đáp ứng yêu cầu của người dùng Sự chú ý và nỗ lực lớn

đã được dành để cải thiện phương pháp truy xuất hình ảnh dựa trên nội dung, đặc biệttập trung vào việc giảm khoảng cách ngữ nghĩa giữa các tính năng cấp thấp và nhận

Hình 1.1: Một ứng dụng của tìm kiếm hình ảnh bằng hình ảnh!

Nguồn: Internet

Trang 16

1.2.1 Dinh nghĩa bài toán

Truy xuất hình ảnh dựa trên nội dung (CBIR) hay còn được gọi là truy vấn theo nộidung hình ảnh và truy xuất thông tin trực quan trên nội dung là ứng dụng của kỹ thuậtthị giác máy tính vào bài toán truy xuất hình ảnh, tức là bài toán tìm kiếm ảnh số trong

- Kết quả xếp han,

0.070.150.21 - = eee

Hình 1.2: Hình ảnh mô tả hệ thống truy van hình ảnh

Trong các hệ thông truy vấn hình ảnh, các thuật toán xử lý ảnh (thường là tự động)được sử dụng để trích xuất các vectơ đặc trưng đại diện cho các thuộc tính của ảnh như

màu sắc, kết cấu và hình dạng Trích xuất tính năng là quy trình đầu tiên trong CBIR

nhằm chuyển đổi nhận thức của con người thành một mô tả số có thể được thao tác bởimáy móc Độ chính xác của hình ảnh được truy xuất bị ảnh hưởng rất nhiều bởi cáctính năng được trích xuất Cách tiếp cận này có thể truy xuất hình ảnh tương tự nhưhình ảnh do người dùng chọn (truy vấn theo ví dụ) Một trong những ưu điểm chínhcủa cách tiếp cận này là khả năng có quy trình truy xuất tự động, tương phản với nỗlực cần thiết để chú thích hình ảnh

Trang 17

(a) (b)

Hình 1.3: Ví du về truy van hình anh dựa trên nội dung Hình (a) thể hiện dau vào Hình (b) thể hiện kết quả của truy van , với đường viền màu xanh là kết quả truy vanđúng với ảnh đầu vào, ngược lại màu đỏ là hình ảnh kết quả sai

1.2.2 Thách thức

Bên cạnh những ứng dụng thú vị của bài toán truy vấn hình ảnh dựa trên nội dung thìkhi xây dựng một hệ thống truy van hình ảnh cũng có nhiều thách thức cần phải đối

mặt:

- Hiểu nhu cầu của người dùng hình ảnh và hành vi tìm kiếm thông tin: việc

hiểu nhu cầu và hành vi của người tìm kiếm thông tin sẽ đưa ra kết quả một cáchchính xác và gần với mong muốn của người dùng hơn.

* Tạo bộ mô tả phong phú hơn về mặt ngữ nghĩa: có thể nói khoảng cách về mặtngữ nghĩa của hình ảnh ngày càng thu hẹp theo thời gian, tuy nhiên, chúng ta vẫn

có thể làm tốt hơn để cải thiện hiệu suất truy vấn

* Cung cấp bộ nhớ nhỏ gọn cho cơ sở dữ liệu hình ảnh lớn: với việc hình ảnh

ngày càng gia tăng với tốc độ chóng mặt thì phương pháp lưu trữ cũng chính làvan dé đáng quan tâm

¢ Truy cập hiệu quả các hình ảnh được lưu trữ theo nội dung: cùng với thời

gian truy van thì đây chính là một trong những yếu tổ quan trọng nhất để xây dungmột hệ thống truy vấn tốt Các hệ thống truy van hình ảnh dựa trên nội dung gầnđây đã cho kết quả rất tốt, tuy nhiên vẫn có một số trường hợp kết quả truy vấnkhác so với kết quả mong đợi

Trang 18

* Cung cấp giao diện để con người có thể sử dụng cho hệ thông CBIR: mặc dù

công nghệ thông tin đã và đang trở nên phổ biến, nhưng không đồng nghĩa mọingười đều có thể dễ dàng biết cách sử dụng một sàn phẩm công nghệ Một hệthống truy vấn tốt là một hệ thống thân thiện với người dùng và dễ sử dụng

+ Kết hợp các chiến lược phân loại vào tìm kiếm hình ảnh: hình ảnh trong cuộc

sống bao gồm rất nhiều thể loại khác nhau như cảnh, người, Nếu chúng đượcphân loại trước khi tìm kiếm sẽ giúp tối ưu hóa khả năng tìm kiếm

1.3 Dong lực

Tra cứu anh dựa trên nội dung có rat nhiều ứng dung trong đời sống xã hội, phục vu

cho nhiều mục đích khác nhau, nhằm xác nhận, tra cứu thông tin Nhờ đó mà giảm bớt

công việc của con người, nâng cao hiệu suất làm việc, ví dụ như: Album ảnh số củangười dùng, ảnh y khoa, bảo tàng ảnh, tìm kiếm nhãn hiệu, mô tả nội dung video, truytìm ảnh tội phạm, hệ thống tự nhận biết điều khiển luồng giao thông Một vài hệthống lớn đại diện cho các lĩnh vực bao gồm :

- Hệ thống truy vẫn ảnh theo nội dung (Query By Image Content) được nghiêncứu và phát triển bởi nhóm nghiên cứu Visual Media Management thuộc công tyIBM, đây là một hệ thống tra cứu ảnh thương mại được phát triển từ rất sớm Hiện

nay, hệ thống này hỗ trợ một vài đo độ tương tự cho ảnh như: trung bình màu sắc,lược đồ màu sắc và kết câu Công nghệ sử dụng trong hệ thống bao gồm 2 phần

chính là: đánh chỉ số và tìm kiếm Hơn nữa, hệ thống này còn cung cấp vài cáchtiếp cận truy vấn theo đơn đặc trưng, đa đặc trưng và đa giai đoạn

» Hệ thong Visual SEEK tại trường đại hoc Columbia Hệ thống cho phép người

dùng nhập vào truy vấn, sử dụng các đặc trưng mức thấp của hình ảnh như: màu

sắc, bố cục không gian và kết cấu Các đặc trưng đó được mô tả theo màu sắc và

biến đổi Wavelet dựa trên đặc trưng kết cấu

+ Hệ thông NeTra sử dụng các đặc trưng của ảnh: Màu sắc, hình dang, kết cấu,

vị trí không gian.

+ Ngoài ra, còn một số hệ thong khác như: Virage system, Stanford SIMPLICity

system, NEC PicHunter system, v.v

Trang 19

Từ những ứng dụng thú vị và hạn chế trong việc trong việc giải quyết bài toán được décập ở Phần trên Chúng tôi thực hiện đề tài này với hai lý do chính:

» Thu thập kiến thức tổng quan về bài toán truy van ảnh dựa trên nội dung Mộtbài toán thách thức trong thị giác máy tính ngay từ khi còn rất sớm, có nhiều ứngdụng giúp nâng cao chất lượng cuộc sống của con người

* Tìm hiểu và xây dựng một hệ thống truy van hiệu quả dựa trên phương pháp khuếch tán.

1.4 Mục tiêu của đề tài

Trong những phần trên, một số thách thức đã được nêu ra nhưng trong dé tai này chúngtôi chỉ tập trung vào việc tăng tốc độ truy vấn cho hệ thống tìm kiếm hình ảnh dựa trên

nội dung.Chúng tôi có ba mục tiêu chính trong đề tài này:

(i) Tìm hiểu tổng quan bài toán truy van hình ảnh dựa trên nội dung Có thể

nói truy vấn hình ảnh là một trong những bài toán lâu đời và ứng dụng của bài toánnày đã trở nên quen thuộc với hầu hết mọi người Nó phục vụ nhiều mục đích trongcuộc sống của con người như tìm kiếm ảnh tội phạm, so sánh dấu vân tay

(ii) Chọn hướng tiếp cận Các phương pháp truyền thống như rút trích đặc trưng

thủ công (Hand Crafted Features) như màu sắc, hình dạng sẽ tốn rát nhiều thời gian và

khoảng cách ngữ nghĩa giữa hình ảnh rất lớn Việc sử dụng Deep Learning để rút tríchđặc trưng và xây dựng hệ thống truy vấn khuếch tán mang lại hiệu quả cao

(iii) Thiết lập thực nghiệm Khuếch tán là một phương pháp không hề mới, nó

được sử dụng rộng rãi trong xếp hạng và xếp hạng lại cho bài toán truy vấn hình ảnh.Trong những năm gan day, khéch tán da được hiệu xuất truy van tốt nhất và được chú ýđến rất nhiều Việc tìm hiểu và thiết lập thực nghiệm với phương pháp khếch tán cùngvới áp dụng giảm chiều dif liệu sẽ giúp chúng tôi chứng minh được giả thuyết

Trang 20

1.5 Đóng góp chính của đề tài

Tổng quan bài toán truy vấn hình ảnh dựa trên nội dung, tìm hiểu phương pháp truyvấn hình ảnh dựa trên khuếch tán và áp dụng giảm chiều dữ liệu kết hợp với phương

pháp này:

* Nghiên cứu tổng quan về bài toán truy vấn hình ảnh dựa trên nội dung Tìm hiểu

những khó khăn, thách thức của bài toán Những ứng dụng của bài toán trong

thực tế và chọn cách tiếp cận tiên tiến cho bài toán

« Đề xuất một phương pháp giải quyết bài toán truy vấn ảnh hiệu quả là dựa trênkhuếch tán và kết hợp giảm chiều dữ liệu để giảm thời gian truy vấn

* Tài liệu chi tiết về phương pháp, cách cài đặt, thực nghiệm và kết quả thực nghiệm

1.6 Bồ cục của đề tài

Khóa luận của chúng tôi bao gồm 5 chương chính

« Chương 1: Giới thiệu Trong chương này, chúng tôi sẽ trình bày tổng quan vềthị giác máy tính, một vài chủ đề nổi tiếng trong lĩnh vực nghiên cứu này và địnhnghĩa bài toán truy van hình ảnh Hơn thế nữa, chúng tôi cũng chỉ ta động lực củachúng tôi để giải quyết vấn đề thách thức trong truy vấn hình ảnh cũng như mụctiêu của chúng tôi trong luận án này Phần cuối cùng trong chương này sé cungcấp nội dung cấu trúc luận án của chúng tôi

» Chương 2: Các công trình liên quan Trong chương này, chúng tôi sẽ giới thiệu

một số kiến thức căn bản như mạng ResNet, GEM pooling, MAC pooling, Cáckiến thức này được kế thừa và kết hợp tạo trở thành tiền đề của bài toán Tiếpbước những kiến thức nén tang, chúng tôi cũng sẽ giới thiệu về phương pháp truyvấn hình ảnh dựa trên sự khuếch tán — Một trong những phương pháp truy vanhình ảnh tốt nhất hiện nay

* Chương 3: Đề xuất kết hợp khuếch tán và giảm chiều dữ liệu Với mục dich là

giảm thời gian truy vấn hình ảnh trên những bộ dữ liệu lớn mà vẫn giữ được hiệuquả tốt, trong chương này chúng tôi trình bày ý tưởng trong quá trình nghiên cứu

8

Trang 21

phương pháp truy van hiệu qua Phương pháp chúng tôi đề xuất là sử dụng giảmchiều dữ liệu Việc áp dụng giảm chiều đữ liệu được thực hiện ngay sau khi rúttrích đặc trưng và trước khi tiến hành thực hiện tính toán ma trận ái lực.

Chương 4: Thực nghiệm Trong chương này, chúng tôi sẽ giới thiệu các bộ dữ

liệu mà chúng tôi đã sử dụng để áp dụng phương pháp ở phần 3.4 Cùng với đó lànhững cài đặt khi tiến hành thực nghiệm Cuối cùng chúng tôi sẽ trực quan hóakết quả của phương pháp kết hợp giảm chiều dữ liệu và truy vấn ảnh dựa trênkhuếch tán.

Chương 5: Kết luận Trong chương này, chúng tôi sẽ kết luận những đóng góp

của chúng tôi trong việc xây dựng hệ thống truy van ảnh hiệu quả trong luận áncủa chúng tôi Chúng tôi cũng sẽ thảo luận về định hướng tương lai của các nghiêncứu hiện tại của chúng tôi và những thách thức mà chúng tôi cần giải quyết trongviệc xây dựng một hệ thống truy vấn hình ảnh hiệu quả hơn

Trang 22

về phương pháp truy van hình ảnh dựa trên sự khuếch tán — Một trong những phương pháp truy van hình ảnh tốt nhất hiện nay.

2.2_ Kiến thức nên tang

Chúng tôi sẽ bắt đầu bằng việc tìm hiểu về mạng Residual Network hay còn có tên gọitắt là ResNet

2.2.1 Mo hình ResNet

Khi xây dựng mạng than kinh tích chập (Convolutional Neural Network - CNN) vớinhiều lớp chập sẽ xảy ra hiện tượng Vanishing Gradient dẫn tới quá trình học tập khôngtốt Mạng ResNet sinh ra với một sứ mệnh là giải quyết được vấn đề nan giải này

10

Trang 23

* Vanishing Gradient

Nam 2012, Krizhevsky và cộng sự [3] đã trải thảm đỏ cho mạng no-ron hoc sâu.

Đây là lần đầu tiên kiến trúc này thành công hơn phương pháp học truyền thống trên

ImageNet Mạng nơ-ron của họ được đặt tên là AlexNet, chứa 8 lớp mạng nơ-ron, 5

lớp phức hợp (convolutional) và 3 lớp kết nối đầy đủ (fully-connected) Điều này đặtnền tảng cho mang thần kinh tích chập truyền thống, một lớp phức hợp theo sau là hàm

kích hoạt (activation function), sau đó là một lớp pooling, (đôi khi lớp pooling bị bỏ

qua để bảo toàn độ phân giải không gian của hình ảnh) Chức năng của chúng là cáclớp này dần dần học các tính năng phức tạp hơn Lớp đầu tiên học các cạnh, lớp thứhai học hình dạng, lớp thứ ba học vật thể, lớp thứ tư học mắt, v.v Mặc dù meme phổ

biến được chia sẻ trong các cộng đồng AI từ bộ phim Inception nói rằng “Chúng tacần phải đi sâu hơn”, He và cộng sự [1] thực nghiệm cho thấy rằng có một ngưỡng tối

đa về độ sâu với mô hình CNN truyền thống

56-layer

20-layer

training error (%) test error (%b}

a

iter (le4) iter (le4)

Hình 2.1: Hiện tượng Vanishing Gradient [1].

He và cộng su của ông [1] đã vẽ biểu đồ lỗi trên tập huấn luyện và tập kiểm tra củaCNN 20 lớp so với CNN 56 lớp Âm mưu này bất chấp niềm tin của chúng ta rằng việcthêm nhiều lớp sẽ tạo ra một hàm tính toán phức tạp hơn, do đó lỗi sẽ được cho là dooverfitting Nếu trường hợp này xảy ra, những kỹ thuật như regularization, dropout sẽ

là một cách tiếp cận thành công để sửa lỗi này Tuy nhiên, biểu đồ cho thấy lỗi trên tậphuấn luyện của mạng 56 lớp cao hơn mạng 20 lớp làm nổi bật một hiện tượng khác

giải thích cho lỗi đó, bằng chứng cho thấy rằng các mô hình ImageNet tốt nhất sử dụng

các lớp tích hợp và kết nối đầy đủ thường chứa từ 16 đến 30 lớp

Để lý giải cho điều này thì trước hết Backpropagation Algorithm là một kỹ thuật

thường được sử dụng trong quá trình tranining Ý tưởng chung của thuật toán lá sẽ đi

11

Trang 24

từ output layer đến input layer và tính toán gradient của cost function tương ứng cho

từng parameter (weight) của mạng Gradient Descent sau đó được sử dụng để cập nhật

các parameter đó.

Toàn bộ quá trình trên sẽ được lặp đi lặp lại cho tới khi mà các parameter của mạng

được hội tụ Thông thường chúng ta sẽ có một hyperparamter (số Epoch - số lần màtraining set được duyệt qua một lần và weights được cập nhật) định nghĩa cho số lượngvòng lặp để thực hiện quá trình này Nếu số lượng vòng lặp quá nhỏ thì ta gặp phảitrường hợp mạng có thể sẽ không cho ra kết quả tốt và ngược lại thời gian huấn luyện

sẽ lâu nếu số lượng vòng lặp quá lớn Tuy nhiên, trong thực tế đạo hàm thường sẽ cógiá trị nhỏ dần khi đi xuống các lớp thấp hơn Dẫn đến kết quả là các cập nhật thựchiện bởi Gradients Descent không làm thay đổi nhiều weights của các lớp đó và làm chúng không thể hội tụ và mạng sẽ không thu được kết quả tốt Hiện tượng như vậygọi là Vanishing Gradients Trước ResNet, đã có một số cách để giải quyết van dé

Vanishing Gradients, chẳng hạn ở [4] thêm một mat mát bổ trợ ở lớp giữa như là sự

giám sát bổ sung, nhưng dường như không có cách nào thực sự giải quyết được vấn démột lần và mãi mãi

* Kiến trúc mạng ResNet

ResNet (Residual Network) được giới thiệu đến công chúng vào năm 2015 và thậm

chí đã giành được vi trí thứ 1 trong cuộc thi ILSVRC 2015 với tỉ lệ lỗi top 5 chỉ 3.57%.

Không những thé nó còn đứng vị trí đầu tiên trong cuộc thi ILSVRC and COCO 2015

với ImageNet Detection, ImageNet localization, Coco detection và Coco segmentation.

Hiện tại thì có rất nhiều biến thể của kiến trúc ResNet với số lớp khác nhau như

ResNet-18, ResNet-34, ResNet-50, ResNet-101, ResNet-152, Với tên là ResNet theo

sau là một số chỉ kiến trúc ResNet với số lớp nhất định ResNet cũng tương tự với cácmạng khác, gồm có convolutional, pooling, activation và fully-connected layer Điềuđặc biệt của ResNet là sử dụng kết nói tắt (Skip Connection) đồng nhất để xuyên quamột hay nhiều lớp Mỗi khối như vậy sẽ được gọi là một Residual Block (hình 2.2)

12

Trang 25

weight layer

*

identity

Chúng ta giả sử đầu ra của các lớp nông là x, trong quá trình biến đổi của mạng, đầu

ra của các lớp sâu hơn sẽ là F(x) Kết nối tắt giữa các lớp là cộng đầu ra của lớp trước

(lớp nông) với đầu ra của lớp sâu hơn, việc này sẽ chống lại đạo hàm bằng không, tức

F(x) = 0, do vẫn cộng thêm x Việc thêm vào các residual block vào trong kiến trúcmạng học sâu có hai cách tuỳ thuộc vào từng trường hợp cụ thể.

» Identity Mapping: trong trường hợp này đơn giản là việc cộng trực tiếp x vàođầu ra của các lớp sâu hơn F(x) Đây là một cách sử dụng khá phổ biến trong thiết

kế mạng ResNet nếu như đầu vào có cùng số chiều với đầu ra Chúng ta có thể

minh hoa nó trong hình sau

Trang 26

được thực hiện trong trường hợp đầu vào và đầu ra có số chiều khác nhau Lúcnày đầu ra được xác định như sau y = F(x) + Conv(x) Chúng ta có thể xem hình

minh hoạ dưới đây

các cổng của ResNet là luôn luôn mở Thực nghiệm cho thấy rằng mức độ chính xác

đạt được trên mạng ResNet cao hơn so với mạng Highway.

2.2.2 Generalized-mean pooling (GeM pooling)

Cho một hình anh đầu vào, dau ra từ CNN là một tensor 3D có hình dạng K x Hx Wtrong đó, K là số kênh, H là chiều cao bản đồ đối tượng và W là chiều rộng bản đồ đốitượng Nếu x; đại diện cho kích hoạt bản đồ đối tượng địa lý không gian H x W, thimạng bao gồm K bản đồ đối tượng địa lý như vậy

- Với Max Pooling:

Trang 27

Nói cách khác, đối với mỗi ban đồ đặc trưng x¿, chúng ta lấy giá trị lớn nhất để cóđược biểu diễn vectơ dài K độ dài của hình ảnh.

-Với Average Pooling:

|

f2 = ff ff] PO = 1 k K k mal 2 _ sp =x

Nói cách khác, đối với mỗi ban đồ đặc trưng x,, chúng ta lấy giá trị trung bình để

có được biểu diễn vectơ đài K độ dài của hình ảnh.

- Cuối cùng, với GeM Pooling:

1

T 1 Pk

"an lở 3 =)

xe.

Max Pooling và Average Pooling là các trường hợp đặc biệt của GeM Pooling được

đưa ra ở phía trên, tức là Max Pooling khi P, — o và Average Pooling khi PR, = 1.

Vectơ đặc trưng cuối cùng bao gồm một giá trị duy nhất trên mỗi bản đồ đối tượng, tức

là kích hoạt trung bình tổng quát và kích thước của nó bằng K Đối với nhiều mạng phổ

biến, giá trị này bằng 256, 512 hoặc 2048, làm cho nó trở thành một đại diện hình ảnh

nhỏ gọn Tham số gộp ?, có thể được đặt hoặc học theo cách thủ công vì thao tác này

có thể phân biệt được và có thể là một phần của back-propagation (lan truyền ngược)

Do đó, lớp GeM Pooling có thể đào tạo được Người ta có thể sửa siêu tham số P;

hoặc huấn luyện nó bằng cách sử dụng lan truyền ngược như một phần của quá trình

đào tạo mô hình tiêu chuẩn.

2.2.3 Whitening Transformation

Whitening transformation là một phép biến đổi tuyến tính biến một vectơ của các biếnngẫu nhiên có ma trận hiệp phương sai đã biết thành một tập hợp các biến mới có hiệpphương sai là ma trận nhận dạng, nghĩa là chúng không tương quan và mỗi biến cóphương sai 1 Phép biến đổi được gọi là "làm trắng" vì nó thay đổi vectơ đầu vào thành

vectơ nhiễu trắng

15

Trang 28

Định nghĩa: Giả sử X là vectơ (cột) ngẫu nhiên với ma trận hiệp phương sai ã và

giá trị trung bình bằng 0 Khi đó phép biến đổi Y = WX với ma trận làm trắng W thỏamãn điều kiện WTW = ã

2.3 Tổng quan về phương pháp truy vẫn hình ảnh dựa

trên sự khuếch tán

Mặc dù ban đầu được phát triển để xếp hạng trên không gian đa tạp (Page và cộng sự[5]: Zhou [6]; Donoser va Bischof 2013 [7]), sự khuếch tán đã sớm được áp dụng để phân loại (Zhou 2004a [8]), và phân đoạn hình ảnh (Grady 2006) [9] Gần đây, một

số biến thể của khuếch tán (Bai và cộng sự 2017a [10]; 2017b [11]; 2018 [12]; 2019[13]) thường được sử dụng như một phương pháp xếp hạng hoặc xếp hạng lại trongcác nhiệm vụ truy xuất để đạt được hiệu suất truy xuất cao hơn và đã thu hút rất nhiều

sự chú ý trong những năm gần đây

Mở rộng truy vấn, một kỹ thuật phổ biến trong truy xuất hình ảnh, có thể cải thiệnhiệu suất truy xuất trong thời gian truy vấn Mở rộng truy vấn trung bình (AQE) (Chum

và cộng sự 2007 [14]; Iscen và cộng sự 2017 [15]), một loại mở rộng truy van phổ biến

vì tính đơn giản của nó, tính trung bình các tính năng của các láng giềng gần nhất củatruy van để tạo thành một truy van mới để chạy lai tìm kiếm Khi AQE được áp dụnglặp đi lặp lại, việc tính toán lại truy vẫn giống như đi dọc theo các đa tạp của khônggian đặc trưng Mặc dù truyền tải này tương tự như khuếch tán, AQE chỉ sử dụng cácmối quan hệ giữa truy vấn và hình ảnh cơ sở dữ liệu, chứ không phải giữa từng hìnhảnh cơ sở dữ liệu với nhau Với kiến thức trước đó về các mối quan hệ giữa tất cả các hình ảnh cơ sở dữ liệu, do đó, sự khuếch tán có thể khai thác các đa tạp trong khônggian đặc trưng tốt hơn so với việc mở rộng truy vấn có thể

Trong các công trình phổ biến trước đây, truy van được cung cấp như một phần của

cơ sở dữ liệu Tuy nhiên, trong thé giới thực, các truy van không có sẵn cho đến khichúng được người dùng đưa ra Để giải quyết van dé này mà không cần thực hiện bat

kỳ chi phí tính toán nào, (Iscen và cộng sự 2017) sử dụng danh sách rút gọn các kết quả tim kiếm k-NN để tạo vectơ trạng thái ban đầu thưa thót, thay vì sử dụng one-hotvectơ làm trạng thái ban đầu Do đó, các truy vẫn không được đưa vào biểu đồ lân cận.Nhược điểm của điều này là biểu đồ cần được lưu trữ và tải trong giai đoạn tìm kiếmcho một bước đi ngẫu nhiên, điều này vừa tốn bộ nhớ vừa không hiệu quả về mặt tính

16

Trang 29

toán Vì các phương pháp trước được đánh giá trên bộ dữ liệu Oxford (Philbin và cộng

sự 2007) [16] và Paris (Philbin và cộng sự 2008) [17], các bộ dữ liệu nhỏ hơn chỉ chứa

55 truy vấn, nên tính kém hiệu quả của các phương pháp đó không ảnh hưởng nhiềuđến tổng thời gian tính toán Khi các phương pháp này được sử dụng trên các tập dữliệu quy mô lớn với nhiều truy vấn, sự kém hiệu quả trong quá trình tìm kiếm trựctuyến trở nên lớn hơn và khó chữa

Để giải quyết sự kém hiệu quả này, những nỗ lực trong quá khứ đã được thực hiện

để tăng quy mô khuếch tán để xử lý các bộ dữ liệu lớn hơn (Dong, Moses và Li 2011)[18] đề xuất đẩy nhanh việc xây dựng ma trận ái lực biểu thị đồ thị Iscen và cộng sự

đã báo cáo rằng phương pháp của Dong là các đơn đặt hàng có mức độ nhanh hơn so

với tìm kiếm toàn diện với hiệu suất chỉ bị giảm hạn chế (Iscen và cộng sự 2017) Mộtcách tiếp cận khác để cải thiện tính hiệu quả là sử dụng approximate nearest neighbor

search (ANN) So với việc xây dựng biểu đồ bằng tìm kiếm k-NN toàn diện, tìm kiếm

ANN nhanh hơn và cung cấp độ chính xác có thể so sánh được (Jegou, Douze vàSchmid 2011 [19]; Ge et al 2014 [20]) Gần đây nhất, (Iscen và cộng sự 2018a [21])

đã tính gan đúng ma trận ái luc bằng cách sử dung phân rã phổ cấp thấp dé giảm chi

phí tính toán trực tuyến Tuy nhiên, phương pháp này không cải thiện nhiều về hiệusuất truy xuất.

Để khắc phục điểm yếu này, Fan Yang [2] đề xuất một kỹ thuật khuếch tán mới.Trong công việc của Fan Yang, thay vì áp dụng khuếch tán cho truy vấn, họ tính toántrước các kết quả khuếch tán của từng phần tử trong cơ sở dữ liệu, làm cho tìm kiếmtrực tuyến trở thành một tổ hợp tuyến tính đơn giản ở trên cùng của quy trình tìm kiếmk-NN Phương pháp đề xuất của Fan Yang trở nên nhanh hơn gấp 10 lần về tốc độ tìmkiếm trực tuyến Hơn nữa, họ cũng đề xuất sử dung cắt bỏ muộn thay vi cắt bỏ sớmtrong các tác phẩm trước để đạt được hiệu suất truy xuất tốt hơn

2.3.1 Sơ bộ về sự khuếch tan

Có hai cách tiếp cận chính để tiền hành khuếch tán: thông qua cập nhật lặp di lặp lạihoặc giải quyết trực tiếp dạng đóng Cả Zhou et al và Donoser et al mô tả sự khuếchtán như một cơ chế để lan truyền các điểm tương đồng truy van qua các đa tạp (Zhou

và cộng sự 2004b; Donoser và Bischof 2013), trong khi Iscen và cộng sự sử dụng định

lý dạng đóng trong (Zhou và cộng sự 2004b) va dé xuất một giải pháp hiệu quả (Iscen

và cộng sự 2017) [6] chủ yếu thực hiện theo các bước từ (Zhou và cộng sự 2004a) và(Iscen và cộng sự 2017) ở các phần từ 2.3.1.1 đến 2.3.1.3

17

Trang 30

Thiết lập vấn dé: Đối với truy suất hình ảnh, chúng ta định nghĩa một cơ sở dif liệu

là x = {x1, ,X,} C IR“, trong đó mỗi xi là một vector đặc trưng Hình ảnh có thểđược biểu thị bằng một dối tượng địa lý chung tương ứng với toàn bộ ảnh hoặc nhiềuđối tượng địa lý vùng tương ứng với các vùng khác nhau của ảnh Trong các phương

trình sau này, x; có thể là đại diện cho một trong hai cách biểu diễn này.

Đối với hầu hết các bộ dữ liệu công khai trong trường truy xuất, cả hình ảnhtruy vấn và cơ sở dữ liệu đều có sẵn Trong ví dụ sau đây, chúng ta không nhìnthấy các truy van cho đến khi người dùng cung cấp Chúng tôi ký hiệu truy vấn là

2 = {qi, ,q„} C R', trong đó m = | khi truy vấn được mô tả bởi một đối tượng

địa lý toàn cục và m > 1 khi truy vấn chứa các đối tượng địa lý khu vực

2.3.1.1 Xây dựng đồ thị

Để đơn giản, chúng ta xem xét một ví dụ trong đó chúng tôi chỉ xử lý một hình ảnh

truy van Q va đưa nó vào cơ sở dữ liệu Toàn bộ tập hợp được định nghĩa là ÿ ={qi, , đ„,XỊ, , Xạ}, và chúng tôi biểu thị phan tử thứ i trong Z là #; Ngoài ra, mộtràng buộc cục bộ được thông qua để biểu đồ chỉ chứa các điểm tương đồng giữa cáccặp phần tử là hàng xóm gần nhau nhất theo (Iscen và cộng sự 2017) Ma trận ái lực

được định nghĩa là A = (a;;) € IRứrt")Xít+”), trong đó mỗi phan tử được lấy bởi:

S(XiXi) L# THC NN,(Z;).X; © NN¿ (Xi)

Qij =

0 otherwise

Vi,j € {1, ,2 +m}, ký hiệu NN¿(x) là kK-NNs của x Vi similarity metric s thương

là đối xứng và dương nên A là ma trận đối xứng Phương trình (1) cho phép A thưathớt, cung cấp bộ nhớ và hiệu quả tính toán Ma trận bậc D là ma trận đường chéo vàmỗi phan tử đường chéo là tổng theo hàng tương ứng của A, tức là: Phần tử đ; trong Dđược xác định bởi };`ƒ'z;; Sau này nó được sử dụng để chuẩn hóa đôi xứng A thành

ma trận ngau nhiên S:

S—=D-!⁄2Ap-1⁄2

S là một biến thể của ma trận chuyển tiếp điển hình D~! A, và cả hai đều có cùng giá

trị riêng và hiệu riêng (Donoser và Bischof 2013).

18

Trang 31

2.3.1.2 Bước đi ngẫu nhiên

Sau khi xây dựng biểu đồ, bước đi ngẫu nhiên được thực hiện cho đến khi nó đạtđến trạng thái hội tụ, dẫn đến điểm xếp hạng cuối cùng cho mỗi hình ảnh trong thưviện Đối với bước thứ t của bước đi ngẫu nhiên, trạng thái được ghi lại trong một

T

T T ae , A ° ve x

vecto ff = b ff | c€R"'”, với f, € R”",f, € R” Chúng tôt dat trạng thái ban dau

là m-hot vector, trong đó fp =1n, f = 0, Bước đi ngẫu nhiên lặp lại các bước sau:

f?! = œSf+(I—œ)f, œec (0,1)

Về cơ bản, có xác suất œ để đi bộ ngẫu nhiên từ trạng thái hiện tại f or 1 — a để

khởi động lại từ trạng thái ban đầu f° Với thực tế là œ € (0, 1) và các giá trị riêng trừu

tượng của Š không lớn hơn | theo định lý Perron-Frobenius, phép lặp này hội tụ thành

một nghiệm dang đóng (Zhou et al 2004b):

f* = (1— ø)(I— aS) “'f°

Sau khi hội tu, các giá trị trong f* chứa các điểm tương đồng của từng phan tử cơ sở

dữ liệu với truy vấn, sẽ được sử dụng làm điểm xếp hạng để xếp hạng lại

2.3.1.3 Sự phân ra

Các bước trên kết hợp truy vấn vào biểu đồ trong quá trình khuếch tán Grady đề xuấtphân tách các truy vấn từ các hoạt động trên (Grady 2006), và kỹ thuật của ông gần

đây đã được theo sau (Iscen et al 2017).

Lưu ý, nghiệm dang đóng f* € R’*” chứa điểm xếp hạng trên cả phan tử truy van

và cơ sở dữ liệu, nhưng đối với nhiệm vụ truy xuất ảnh, chúng ta chỉ quan tâm đếnđiểm xếp hạng cho các phần tử cơ sở dữ liệu Điều này dẫn đến sự phân rã của điểmxếp hạng truy van và cơ sở dif liệu, do đó ma trận Š được chia thành 4 khối:

s— Saq Sad

Sag Sad

19

Trang 32

VớI Saq = R"*” Sod € R”*" Sag € R”*”, va Sgq € R"*" Giải pháp phân hủy sau đó trở thành:

f; = q — a) (I — aSaa)' Su, cR“

Trong đó S„„ có thể được xem như là ma trận chuyển tiếp cho bước đi ngẫu nhiên

trên phía cơ sở dữ liệu và S¿„ = Sâu bao gồm các điểm tương đồng được chuẩn hóa

giữa truy van và các hàng xóm gan nhất của nó Sau đó, chúng ta có thể có được biểu

bộ hình ảnh (Iscen et al 2017) Với vectơ đặc trưng toàn cục q của một truy vấn

méi(m = 1,q = q¡), the indexes Z = NNƑP(q) của các tinh năng tương ứng với các

hình ảnh được xếp hạng hàng đầu được truy xuất bằng tìm kiếm L-NN, trong đó L là

hằng số giới hạn xác định kích thước tối đa của đồ thị con (đồ thị cắt ngắn) Ma trận ái

lực biểu thị đồ thị con được định nghĩa là A € R’*” và mỗi phần tử â;; trong A thỏa

Trang 33

và sử dụng giảm chiêu dữ liệu kết hợp với phương pháp khuéch tán Việc áp dụng giảmchiêu dữ liệu được thực hiện ngay sau khi rút trích đặc trưng và trưóc khi tiến hành

thực hiện tính toán ma trận ái lực.

21

Ngày đăng: 23/10/2024, 02:07

w