Tuy nhiên vẫn còn rất nhiều tính hạn chế về hiệu suất truy vấn.Gần đây, việc áp dụng phương pháp truy vấn dựa trên khếch tán đã đạt được độ chínhxác cao nhất trong bài toán truy van hình
Trang 1VU MINH LUAN - LE DOAN NHAT MINH
KHOA LUAN TOT NGHIEP
TRUY VAN ANH HIỆU QUA DỰA TREN PHƯƠNG
PHAP KHUECH TAN
EFFICIENT IMAGE RETRIEVAL BASED ON DIFFUSION METHOD
CU NHAN NGANH KHOA HOC MAY TINH
TP HO CHÍ MINH, 2021
Trang 2_ VU MINH LUAN - 18521067
LE DOAN NHAT MINH - 18521101
KHOA LUAN TOT NGHIEP
TRUY VAN ANH HIỆU QUA DỰA TREN PHƯƠNG
PHAP KHUECH TAN
EFFICIENT IMAGE RETRIEVAL BASED ON DIFFUSION METHOD
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN
TS NGUYEN VINH TIEP
TP HO CHi MINH, 2021
Trang 3DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 512/QD-DHCNTT
ngày tháng 1 năm 2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 Chủ tịch:
2 Thư ký:
3 Ủy viên:
Trang 4LOI CAM ON
Trong quá trình học tập va thực hiện luận văn, chúng tôi da được các thay cô trường Đại học Công nghệ thông tin — Dai học Quốc gia TPHCM tạo mọi điều kiện thuận lợi,
các anh chị đi trước và bạn bè thường xuyên động viên Chúng tôi xin bày tỏ sự cảm
ơn chân thành với những sự hỗ trợ và giúp đỡ này.
Luận văn sẽ không thể hoàn thành nếu không có sự hướng dẫn tận hình của Thầyhướng dẫn TS Nguyễn Vinh Tiệp Thay là người chỉ dẫn trực tiếp và đưa ra những góp
ý quan trọng trong hành trình viết luận văn của chúng tôi, là người thầy mà chúng tôi
muốn bày tỏ lòng biết ơn sâu sắc nhất
Xin chân thành cảm ơn anh Nguyễn Thành Danh, anh Nguyễn Vũ Anh Khoa và
anh Lưu Đức Tuấn đã có nhiều ý kiến đóng góp, giúp đỡ quan trọng trong quá trình
nghiên cứu thực hiện luận văn.
Xin chân thành cảm ơn ban giám hiệu, và toàn thể thầy cô trong khoa Khoa học
máy tính — Trường Dai học Công nghệ thông tin đã quan tâm, tạo môi trường thuận lợi
để chúng tôi học tập và phát triển trong lĩnh vực Công nghệ thông tin.
Xin cảm ơn tất cả những người bạn, người đã đồng hành cùng chúng tôi từ nhữngnăm đầu tiên của đại học Cuối cùng là lời cảm ơn đến gia đình - những người luônủng hộ chúng tôi từ những bước đi đầu tiên.
Trang 5TÓM TẮT
Truy xuất hình ảnh dựa trên nội dung (CBIR) là một bài toán xuất hiện khá sớm tronglĩnh vực thị giác may tính Với sự sẵn có của công nghệ internet va chi phí thấp của cảm biến hình ảnh kỹ thuật số, rất nhiều cơ sở dif liệu hình ảnh đã được tạo ra trongcác loại ứng dụng khác nhau Các cơ sở dữ liệu hình ảnh này làm tăng nhu cầu pháttriển các phương pháp tìm kiếm truy xuất hình ảnh hiệu quả đáp ứng yêu cầu của ngườidùng Sự chú ý và nỗ lực lớn đã được dành để cải thiện phương pháp truy xuất hình
ảnh dựa trên nội dung, đặc biệt tập trung vào việc giảm khoảng cách ngữ nghĩa giữa
các tính năng cấp thấp và nhận thức thị giác của con người
Những công trình nghiên cứu gần đây về phát triển hệ thống truy vấn hình ảnh chokết quả đầy hứa hẹn Tuy nhiên vẫn còn rất nhiều tính hạn chế về hiệu suất truy vấn.Gần đây, việc áp dụng phương pháp truy vấn dựa trên khếch tán đã đạt được độ chínhxác cao nhất trong bài toán truy van hình ảnh dựa trên nội dung với độ chính xác trên
tập Oxford5k là 96.2 trên thang đo mAP Trong khóa luận này chúng tôi sẽ tìm hiểu
tổng quan về bài toán truy vấn hình ảnh dựa trên nội dung, các ứng dụng vào đời sống
và các công trình nghiên cứu khác Thách thức, khó khăn về việc xây dựng hệ thốngtruy van Khóa luận này tập trung vào bài toán xây dựng hệ thống truy van dựa trênphương pháp khéch tán, chúng tôi đã tiến hành cài đặt lại phương pháp này Cùngvới đó, để cải thiện tốc độ truy vấn - một trong những khó khăn phải đối mặt khi xâydựng hệ thống truy van ảnh - chúng tôi dé xuất sử dụng giảm chiều dữ liệu kết hợpvới phương pháp khuếch tán Phương pháp của chúng tôi đã đạt được tốc độ truy vấnnhanh hơn so với hệ thống ban đầu, đổi lại, độ chính xác sẽ giảm đi.Tuy nhiên, trên tập
dữ liệu Paris106k, chúng tôi đã nhận ra một điều đặc biệt Dù chiều dữ liệu giảm đinhiều nhưng mAP lại giảm khá ít và có thể coi là không đáng kể.
Trang 616
Trang 72.3.1.1 Xâydựngđồthị 18
2.3.1.2 Bướcđingẫunhiên 19
23.13 Sựphânrã ẶẶ Ặ 19 2.3.2 Cắtgiảm dữ liệu 20
3 Đề xuất kết hợp khuếch tán và giảm chiều dữ liệu 21 3.1 Tổngquan ee 21 3.2 Chuyển đổi xử ly trực tuyến thành ngoại tuyến 22
3.2.1 Phân tích độ phức tap của phương pháp xử lý trực tuyển 22
3.2.2 Áp dụng chuyển đổi trực tuyến thành ngoại tuyến cho một số bước tinhtoan 2 VỤ 23 3.2.3 Phương pháp cắt giảm cơ sở dữ liệu sau bước chuẩn hóa dữ liệu và bước đi ngẫu nhiên 24
3.2.4 Phuong pháp tìm kiếm trựctuyến 26
3.3 Giảm chiều đữliệu Ặ VỤ 26 33.1 ôn ie SY MM ee 28 3.3.2 Hàmmấtmát 31
3.3.3 Tốiưuhàmmấtmát 32
3.3.4 Các bước giảm chiều dữliệu 34
3.4 Đề xuất kết hợp khuếch tán và giảm chiều dữ liệu 35
3.4.1 Chon số chiều của kiểu dữ lệumới 35
3.4.2 Áp dụng giảm chiều dữliệu 36
4 Thực nghiệm 38 41 Tổngquan Q TQ ee 38 T5 8 ˆ aaa 38
1H
Trang 842.1 OxfordSK es 38 4.2.2 Oxfordl05K Q Q Q Q Q Q Q va 41 4.2.3 Paris6k va Paris106k 20 41
43 Phương phapdanhgia 2 2.- 200004 42
44 Cài đặt thực nghiệm 0000022 eee eee 44
4.5 Kétquathucnghiém 45
4.5.1 Đánh giá các bộ mô tả trên tập dữ liệu Oxford5k 45
4.5.2 Áp dụng thuật toán giảm chiều dữ liệu trên tập dữ liệu
Ox-ford105k và Parisl06k 47
4.6 So sánh kết quả ban đầu và kết quả dựa trên phương pháp dé xuất 49
5 Kếtluận 51
5.1 Những kết quả đã đạtđược 515.2 Một số hướng phát triển của đểtài - 52
Tài liệu tham khảo 33
1V
Trang 9Danh sách hình ve
1.1 1.2
Cấu trúc dữ liệu của ma trận thưa thot Zr! [2] 2 2
Phân loại các kỹ thuật giảm chiều dữ liệu dựa trên cách tiếp cận tuyếntính và phi tuyến tính (hình 3.2) -
Phân loại các kỹ thuật giảm chiều dif liệu dựa trên chọn đặc tính va
trích trọn đặc trưng Q2
Vi dụ về phương sai của dif liệu trong không gian hai chiều (a) Chiều
thứ hai có phương sai (tỉ lệ với động rộng của đường hình chuông) nhỏ
hơn chiều thứ nhất (b) Cả hai chiều có phương sai đáng kể Phươngsai của mỗi chiều là phương sai của thành phần tương ứng được lấy
trên toàn bộ dữ liệu Phương sai tỉ lệ thuận với độ phân toán của dữ liệu 28
Trang 10Y tưởng chính của PCA: Tim một hệ trực chuẩn mới sao cho trong hệ
này các thành phan quan trọng nhất nằm trong K thành phan đầu tiên 29
PCA có thể được coi là phương pháp đi tìm một hệ cơ sở trực chuẩn
đóng vai trò một phép xoay, sao cho trong hệ cơ sở mới này, phương
sai theo một số chiều nào đó là rất nhỏ và ta có thể bỏ qua 33
Minh họa các bước thực hiện PCA 35
Mô tả hệ thống kết hợp phương pháp khuếch tán và giảm chiều dữ liệu 37
55 truy van được sử dụng để đánh giá hiệu suất trên ground truth 39Hình ảnh minh họa kết quả trả về khi thực hiện truy vấn 42
Biểu đồ so sánh kết quả khi sử dụng phương pháp PCA trên tập dữ
liệu Oxfordl05k Ặ Q Q Q QQ Q VO 49
Biểu đồ so sánh kết quả khi sử dụng phương pháp PCA trên tập dữ
liệu ParislO6k 2 Quy 49
VI
Trang 11So sánh định lượng về thời gian thực thi và độ đo mAP các bộ mô tả
theo đánh giá trên tập dữ liệu Oxford5k
So sánh định lượng về thời gian thực thi các bước tính toán và độ đomAP của các cấu hình giảm chiều dữ liệu trên tập Oxford105k
So sánh định lượng về thời gian thực thi các bước tính toán và độ đomAP của các cấu hình giảm chiều dữ liệu trên tập Parisl06k_
vil
47
Trang 12Principal Components Analysis
Convolutional Neural Network Long Short Term Memory
Graphics Processing Unit
Facebook AI Similarity Search
Viii
Trang 13Chương 1
Giới thiêu
Trong chương này, chúng tôi sẽ trình bày tổng quan về thị giác máy tính, một vài chủ
dé nổi tiếng trong lĩnh vực nghiên cứu này và định nghĩa bài toán truy vấn hình ảnh.Hon thé nữa, chúng tôi cũng chỉ ta động lực của chúng tôi để giải quyết van dé thách thức trong truy van hình ảnh cũng như mục tiêu của chúng tôi trong luận án này Phancuối cùng trong chương này sẽ cung cấp nội dung cầu trúc luận án của chúng tôi
Các thí nghiệm về thị giác máy tính bắt đầu khá sớm, các nhà khoa học và kỹ sư đã
cố gắng phát triển các cách để máy móc có thể nhìn và hiểu dữ liệu trực quan trong
khoảng năm 60 của thế kỷ XX Thí nghiệm bắt đầu vào năm 1959 khi các nhà sinh lý
học thần kinh cho một con mèo xem một loạt hình ảnh, cỗ gắng tương quan với phanứng trong não của nó Họ phát hiện ra rằng nó phản ứng trước với các cạnh hoặc đường
cứng, và về mặt khoa học, điều này có nghĩa là quá trình xử lý hình ảnh bắt đầu với
các hình dạng đơn giản như các cạnh thẳng
Trang 14Vào những năm 1970, các ứng dụng của thị giác máy tính đã được đưa vào sử dụng
thương mại như diễn giải văn bản được đánh máy hoặc viết tay bằng cách sử dụng
nhận dạng ký tự quang học Tiến bộ này được sử dụng để giải thích văn bản viết cho
người mù.
Khi internet phát triển vào những năm 1990, làm cho một lượng lớn hình ảnh có
sẵn trực tuyên để phân tích, các chương trình nhận dạng khuôn mặt đã phát triển mạnh
mẽ Những tập dữ liệu ngày càng tăng này đã giúp máy móc có thể xác định những gì
cụ thể có trong ảnh và video.
Dưới đây là một số ví dụ về các nhiệm vụ thị giác máy tính đã và đang giải quyết:
¢ Phân loại hình anh: xem một hình ảnh và có thể phân loại hình ảnh đó (một con chó, một quả táo, khuôn mặt của một người) Chính xác hơn, nó có thể dự đoán
chính xác rằng một hình ảnh nhất định thuộc về một lớp nào đó Ví dụ: một công
ty truyền thông xã hội có thể muốn sử dụng nó để tự động xác định và tách biệt
các hình ảnh phản cảm do người dùng tải lên.
» Phát hiện đối tượng: có thể sử dụng phân loại hình ảnh để xác định một lớp hình
ảnh nhất định, sau đó phát hiện và lập bảng biểu cho sự xuất hiện của chúng trongmột hình ảnh hoặc video Vi dụ như phát hiện hư hỏng trên dây chuyén lắp ráphoặc xác định máy móc cần bảo trì
- Theo dõi đối tượng: theo dõi một đối tượng sau khi nó được phát hiện Tác vụ
này thường được thực hiện với các hình ảnh được chụp theo trình tự hoặc nguồncấp dữ liệu video thời gian thực Ví dụ, các phương tiện tự hành không chỉ cầnphân loại và phát hiện các đối tượng như người đi bộ, ô tô khác và cơ sở hạ tầngđường bộ mà còn cần theo dõi chuyển động của chúng để tránh va chạm và tuân
thủ luật giao thông.
s Truy xuất hình ảnh dựa trên nội dung: sử dụng thị giác máy tính để duyệt, tìm
kiếm và truy xuất hình ảnh từ các kho dữ liệu lớn, dựa trên nội dung của hình ảnhchứ không phải các thẻ siêu dữ liệu được liên kết với chúng Tác vụ này có thể kết
hợp chú thích hình ảnh tự động thay thế việc gắn thẻ hình ảnh thủ công
Trong dé tài này, chúng tôi sé tìm hiểu về một phương pháp truy vấn hình ảnh và déxuất phương pháp giúp truy vấn hiệu quả hơn
Trang 151.2 Tong quan bài toán
Với sự sẵn có của công nghệ internet và chi phí thấp của cảm biến hình ảnh kỹ thuật
số, rất nhiều cơ sở dữ liệu hình ảnh đã được tạo ra trong các loại ứng dụng khác nhau.Các cơ sở dữ liệu hình ảnh này làm tăng nhu cầu phát triển các phương pháp tìm kiếmtruy xuất hình ảnh hiệu quả đáp ứng yêu cầu của người dùng Sự chú ý và nỗ lực lớn
đã được dành để cải thiện phương pháp truy xuất hình ảnh dựa trên nội dung, đặc biệttập trung vào việc giảm khoảng cách ngữ nghĩa giữa các tính năng cấp thấp và nhận
Hình 1.1: Một ứng dụng của tìm kiếm hình ảnh bằng hình ảnh!
Nguồn: Internet
Trang 161.2.1 Dinh nghĩa bài toán
Truy xuất hình ảnh dựa trên nội dung (CBIR) hay còn được gọi là truy vấn theo nộidung hình ảnh và truy xuất thông tin trực quan trên nội dung là ứng dụng của kỹ thuậtthị giác máy tính vào bài toán truy xuất hình ảnh, tức là bài toán tìm kiếm ảnh số trong
- Kết quả xếp han,
0.070.150.21 - = eee
Hình 1.2: Hình ảnh mô tả hệ thống truy van hình ảnh
Trong các hệ thông truy vấn hình ảnh, các thuật toán xử lý ảnh (thường là tự động)được sử dụng để trích xuất các vectơ đặc trưng đại diện cho các thuộc tính của ảnh như
màu sắc, kết cấu và hình dạng Trích xuất tính năng là quy trình đầu tiên trong CBIR
nhằm chuyển đổi nhận thức của con người thành một mô tả số có thể được thao tác bởimáy móc Độ chính xác của hình ảnh được truy xuất bị ảnh hưởng rất nhiều bởi cáctính năng được trích xuất Cách tiếp cận này có thể truy xuất hình ảnh tương tự nhưhình ảnh do người dùng chọn (truy vấn theo ví dụ) Một trong những ưu điểm chínhcủa cách tiếp cận này là khả năng có quy trình truy xuất tự động, tương phản với nỗlực cần thiết để chú thích hình ảnh
Trang 17(a) (b)
Hình 1.3: Ví du về truy van hình anh dựa trên nội dung Hình (a) thể hiện dau vào Hình (b) thể hiện kết quả của truy van , với đường viền màu xanh là kết quả truy vanđúng với ảnh đầu vào, ngược lại màu đỏ là hình ảnh kết quả sai
1.2.2 Thách thức
Bên cạnh những ứng dụng thú vị của bài toán truy vấn hình ảnh dựa trên nội dung thìkhi xây dựng một hệ thống truy van hình ảnh cũng có nhiều thách thức cần phải đối
mặt:
- Hiểu nhu cầu của người dùng hình ảnh và hành vi tìm kiếm thông tin: việc
hiểu nhu cầu và hành vi của người tìm kiếm thông tin sẽ đưa ra kết quả một cáchchính xác và gần với mong muốn của người dùng hơn.
* Tạo bộ mô tả phong phú hơn về mặt ngữ nghĩa: có thể nói khoảng cách về mặtngữ nghĩa của hình ảnh ngày càng thu hẹp theo thời gian, tuy nhiên, chúng ta vẫn
có thể làm tốt hơn để cải thiện hiệu suất truy vấn
* Cung cấp bộ nhớ nhỏ gọn cho cơ sở dữ liệu hình ảnh lớn: với việc hình ảnh
ngày càng gia tăng với tốc độ chóng mặt thì phương pháp lưu trữ cũng chính làvan dé đáng quan tâm
¢ Truy cập hiệu quả các hình ảnh được lưu trữ theo nội dung: cùng với thời
gian truy van thì đây chính là một trong những yếu tổ quan trọng nhất để xây dungmột hệ thống truy vấn tốt Các hệ thống truy van hình ảnh dựa trên nội dung gầnđây đã cho kết quả rất tốt, tuy nhiên vẫn có một số trường hợp kết quả truy vấnkhác so với kết quả mong đợi
Trang 18* Cung cấp giao diện để con người có thể sử dụng cho hệ thông CBIR: mặc dù
công nghệ thông tin đã và đang trở nên phổ biến, nhưng không đồng nghĩa mọingười đều có thể dễ dàng biết cách sử dụng một sàn phẩm công nghệ Một hệthống truy vấn tốt là một hệ thống thân thiện với người dùng và dễ sử dụng
+ Kết hợp các chiến lược phân loại vào tìm kiếm hình ảnh: hình ảnh trong cuộc
sống bao gồm rất nhiều thể loại khác nhau như cảnh, người, Nếu chúng đượcphân loại trước khi tìm kiếm sẽ giúp tối ưu hóa khả năng tìm kiếm
1.3 Dong lực
Tra cứu anh dựa trên nội dung có rat nhiều ứng dung trong đời sống xã hội, phục vu
cho nhiều mục đích khác nhau, nhằm xác nhận, tra cứu thông tin Nhờ đó mà giảm bớt
công việc của con người, nâng cao hiệu suất làm việc, ví dụ như: Album ảnh số củangười dùng, ảnh y khoa, bảo tàng ảnh, tìm kiếm nhãn hiệu, mô tả nội dung video, truytìm ảnh tội phạm, hệ thống tự nhận biết điều khiển luồng giao thông Một vài hệthống lớn đại diện cho các lĩnh vực bao gồm :
- Hệ thống truy vẫn ảnh theo nội dung (Query By Image Content) được nghiêncứu và phát triển bởi nhóm nghiên cứu Visual Media Management thuộc công tyIBM, đây là một hệ thống tra cứu ảnh thương mại được phát triển từ rất sớm Hiện
nay, hệ thống này hỗ trợ một vài đo độ tương tự cho ảnh như: trung bình màu sắc,lược đồ màu sắc và kết câu Công nghệ sử dụng trong hệ thống bao gồm 2 phần
chính là: đánh chỉ số và tìm kiếm Hơn nữa, hệ thống này còn cung cấp vài cáchtiếp cận truy vấn theo đơn đặc trưng, đa đặc trưng và đa giai đoạn
» Hệ thong Visual SEEK tại trường đại hoc Columbia Hệ thống cho phép người
dùng nhập vào truy vấn, sử dụng các đặc trưng mức thấp của hình ảnh như: màu
sắc, bố cục không gian và kết cấu Các đặc trưng đó được mô tả theo màu sắc và
biến đổi Wavelet dựa trên đặc trưng kết cấu
+ Hệ thông NeTra sử dụng các đặc trưng của ảnh: Màu sắc, hình dang, kết cấu,
vị trí không gian.
+ Ngoài ra, còn một số hệ thong khác như: Virage system, Stanford SIMPLICity
system, NEC PicHunter system, v.v
Trang 19Từ những ứng dụng thú vị và hạn chế trong việc trong việc giải quyết bài toán được décập ở Phần trên Chúng tôi thực hiện đề tài này với hai lý do chính:
» Thu thập kiến thức tổng quan về bài toán truy van ảnh dựa trên nội dung Mộtbài toán thách thức trong thị giác máy tính ngay từ khi còn rất sớm, có nhiều ứngdụng giúp nâng cao chất lượng cuộc sống của con người
* Tìm hiểu và xây dựng một hệ thống truy van hiệu quả dựa trên phương pháp khuếch tán.
1.4 Mục tiêu của đề tài
Trong những phần trên, một số thách thức đã được nêu ra nhưng trong dé tai này chúngtôi chỉ tập trung vào việc tăng tốc độ truy vấn cho hệ thống tìm kiếm hình ảnh dựa trên
nội dung.Chúng tôi có ba mục tiêu chính trong đề tài này:
(i) Tìm hiểu tổng quan bài toán truy van hình ảnh dựa trên nội dung Có thể
nói truy vấn hình ảnh là một trong những bài toán lâu đời và ứng dụng của bài toánnày đã trở nên quen thuộc với hầu hết mọi người Nó phục vụ nhiều mục đích trongcuộc sống của con người như tìm kiếm ảnh tội phạm, so sánh dấu vân tay
(ii) Chọn hướng tiếp cận Các phương pháp truyền thống như rút trích đặc trưng
thủ công (Hand Crafted Features) như màu sắc, hình dạng sẽ tốn rát nhiều thời gian và
khoảng cách ngữ nghĩa giữa hình ảnh rất lớn Việc sử dụng Deep Learning để rút tríchđặc trưng và xây dựng hệ thống truy vấn khuếch tán mang lại hiệu quả cao
(iii) Thiết lập thực nghiệm Khuếch tán là một phương pháp không hề mới, nó
được sử dụng rộng rãi trong xếp hạng và xếp hạng lại cho bài toán truy vấn hình ảnh.Trong những năm gan day, khéch tán da được hiệu xuất truy van tốt nhất và được chú ýđến rất nhiều Việc tìm hiểu và thiết lập thực nghiệm với phương pháp khếch tán cùngvới áp dụng giảm chiều dif liệu sẽ giúp chúng tôi chứng minh được giả thuyết
Trang 201.5 Đóng góp chính của đề tài
Tổng quan bài toán truy vấn hình ảnh dựa trên nội dung, tìm hiểu phương pháp truyvấn hình ảnh dựa trên khuếch tán và áp dụng giảm chiều dữ liệu kết hợp với phương
pháp này:
* Nghiên cứu tổng quan về bài toán truy vấn hình ảnh dựa trên nội dung Tìm hiểu
những khó khăn, thách thức của bài toán Những ứng dụng của bài toán trong
thực tế và chọn cách tiếp cận tiên tiến cho bài toán
« Đề xuất một phương pháp giải quyết bài toán truy vấn ảnh hiệu quả là dựa trênkhuếch tán và kết hợp giảm chiều dữ liệu để giảm thời gian truy vấn
* Tài liệu chi tiết về phương pháp, cách cài đặt, thực nghiệm và kết quả thực nghiệm
1.6 Bồ cục của đề tài
Khóa luận của chúng tôi bao gồm 5 chương chính
« Chương 1: Giới thiệu Trong chương này, chúng tôi sẽ trình bày tổng quan vềthị giác máy tính, một vài chủ đề nổi tiếng trong lĩnh vực nghiên cứu này và địnhnghĩa bài toán truy van hình ảnh Hơn thế nữa, chúng tôi cũng chỉ ta động lực củachúng tôi để giải quyết vấn đề thách thức trong truy vấn hình ảnh cũng như mụctiêu của chúng tôi trong luận án này Phần cuối cùng trong chương này sé cungcấp nội dung cấu trúc luận án của chúng tôi
» Chương 2: Các công trình liên quan Trong chương này, chúng tôi sẽ giới thiệu
một số kiến thức căn bản như mạng ResNet, GEM pooling, MAC pooling, Cáckiến thức này được kế thừa và kết hợp tạo trở thành tiền đề của bài toán Tiếpbước những kiến thức nén tang, chúng tôi cũng sẽ giới thiệu về phương pháp truyvấn hình ảnh dựa trên sự khuếch tán — Một trong những phương pháp truy vanhình ảnh tốt nhất hiện nay
* Chương 3: Đề xuất kết hợp khuếch tán và giảm chiều dữ liệu Với mục dich là
giảm thời gian truy vấn hình ảnh trên những bộ dữ liệu lớn mà vẫn giữ được hiệuquả tốt, trong chương này chúng tôi trình bày ý tưởng trong quá trình nghiên cứu
8
Trang 21phương pháp truy van hiệu qua Phương pháp chúng tôi đề xuất là sử dụng giảmchiều dữ liệu Việc áp dụng giảm chiều đữ liệu được thực hiện ngay sau khi rúttrích đặc trưng và trước khi tiến hành thực hiện tính toán ma trận ái lực.
Chương 4: Thực nghiệm Trong chương này, chúng tôi sẽ giới thiệu các bộ dữ
liệu mà chúng tôi đã sử dụng để áp dụng phương pháp ở phần 3.4 Cùng với đó lànhững cài đặt khi tiến hành thực nghiệm Cuối cùng chúng tôi sẽ trực quan hóakết quả của phương pháp kết hợp giảm chiều dữ liệu và truy vấn ảnh dựa trênkhuếch tán.
Chương 5: Kết luận Trong chương này, chúng tôi sẽ kết luận những đóng góp
của chúng tôi trong việc xây dựng hệ thống truy van ảnh hiệu quả trong luận áncủa chúng tôi Chúng tôi cũng sẽ thảo luận về định hướng tương lai của các nghiêncứu hiện tại của chúng tôi và những thách thức mà chúng tôi cần giải quyết trongviệc xây dựng một hệ thống truy vấn hình ảnh hiệu quả hơn
Trang 22về phương pháp truy van hình ảnh dựa trên sự khuếch tán — Một trong những phương pháp truy van hình ảnh tốt nhất hiện nay.
2.2_ Kiến thức nên tang
Chúng tôi sẽ bắt đầu bằng việc tìm hiểu về mạng Residual Network hay còn có tên gọitắt là ResNet
2.2.1 Mo hình ResNet
Khi xây dựng mạng than kinh tích chập (Convolutional Neural Network - CNN) vớinhiều lớp chập sẽ xảy ra hiện tượng Vanishing Gradient dẫn tới quá trình học tập khôngtốt Mạng ResNet sinh ra với một sứ mệnh là giải quyết được vấn đề nan giải này
10
Trang 23* Vanishing Gradient
Nam 2012, Krizhevsky và cộng sự [3] đã trải thảm đỏ cho mạng no-ron hoc sâu.
Đây là lần đầu tiên kiến trúc này thành công hơn phương pháp học truyền thống trên
ImageNet Mạng nơ-ron của họ được đặt tên là AlexNet, chứa 8 lớp mạng nơ-ron, 5
lớp phức hợp (convolutional) và 3 lớp kết nối đầy đủ (fully-connected) Điều này đặtnền tảng cho mang thần kinh tích chập truyền thống, một lớp phức hợp theo sau là hàm
kích hoạt (activation function), sau đó là một lớp pooling, (đôi khi lớp pooling bị bỏ
qua để bảo toàn độ phân giải không gian của hình ảnh) Chức năng của chúng là cáclớp này dần dần học các tính năng phức tạp hơn Lớp đầu tiên học các cạnh, lớp thứhai học hình dạng, lớp thứ ba học vật thể, lớp thứ tư học mắt, v.v Mặc dù meme phổ
biến được chia sẻ trong các cộng đồng AI từ bộ phim Inception nói rằng “Chúng tacần phải đi sâu hơn”, He và cộng sự [1] thực nghiệm cho thấy rằng có một ngưỡng tối
đa về độ sâu với mô hình CNN truyền thống
56-layer
20-layer
training error (%) test error (%b}
a
iter (le4) iter (le4)
Hình 2.1: Hiện tượng Vanishing Gradient [1].
He và cộng su của ông [1] đã vẽ biểu đồ lỗi trên tập huấn luyện và tập kiểm tra củaCNN 20 lớp so với CNN 56 lớp Âm mưu này bất chấp niềm tin của chúng ta rằng việcthêm nhiều lớp sẽ tạo ra một hàm tính toán phức tạp hơn, do đó lỗi sẽ được cho là dooverfitting Nếu trường hợp này xảy ra, những kỹ thuật như regularization, dropout sẽ
là một cách tiếp cận thành công để sửa lỗi này Tuy nhiên, biểu đồ cho thấy lỗi trên tậphuấn luyện của mạng 56 lớp cao hơn mạng 20 lớp làm nổi bật một hiện tượng khác
giải thích cho lỗi đó, bằng chứng cho thấy rằng các mô hình ImageNet tốt nhất sử dụng
các lớp tích hợp và kết nối đầy đủ thường chứa từ 16 đến 30 lớp
Để lý giải cho điều này thì trước hết Backpropagation Algorithm là một kỹ thuật
thường được sử dụng trong quá trình tranining Ý tưởng chung của thuật toán lá sẽ đi
11
Trang 24từ output layer đến input layer và tính toán gradient của cost function tương ứng cho
từng parameter (weight) của mạng Gradient Descent sau đó được sử dụng để cập nhật
các parameter đó.
Toàn bộ quá trình trên sẽ được lặp đi lặp lại cho tới khi mà các parameter của mạng
được hội tụ Thông thường chúng ta sẽ có một hyperparamter (số Epoch - số lần màtraining set được duyệt qua một lần và weights được cập nhật) định nghĩa cho số lượngvòng lặp để thực hiện quá trình này Nếu số lượng vòng lặp quá nhỏ thì ta gặp phảitrường hợp mạng có thể sẽ không cho ra kết quả tốt và ngược lại thời gian huấn luyện
sẽ lâu nếu số lượng vòng lặp quá lớn Tuy nhiên, trong thực tế đạo hàm thường sẽ cógiá trị nhỏ dần khi đi xuống các lớp thấp hơn Dẫn đến kết quả là các cập nhật thựchiện bởi Gradients Descent không làm thay đổi nhiều weights của các lớp đó và làm chúng không thể hội tụ và mạng sẽ không thu được kết quả tốt Hiện tượng như vậygọi là Vanishing Gradients Trước ResNet, đã có một số cách để giải quyết van dé
Vanishing Gradients, chẳng hạn ở [4] thêm một mat mát bổ trợ ở lớp giữa như là sự
giám sát bổ sung, nhưng dường như không có cách nào thực sự giải quyết được vấn démột lần và mãi mãi
* Kiến trúc mạng ResNet
ResNet (Residual Network) được giới thiệu đến công chúng vào năm 2015 và thậm
chí đã giành được vi trí thứ 1 trong cuộc thi ILSVRC 2015 với tỉ lệ lỗi top 5 chỉ 3.57%.
Không những thé nó còn đứng vị trí đầu tiên trong cuộc thi ILSVRC and COCO 2015
với ImageNet Detection, ImageNet localization, Coco detection và Coco segmentation.
Hiện tại thì có rất nhiều biến thể của kiến trúc ResNet với số lớp khác nhau như
ResNet-18, ResNet-34, ResNet-50, ResNet-101, ResNet-152, Với tên là ResNet theo
sau là một số chỉ kiến trúc ResNet với số lớp nhất định ResNet cũng tương tự với cácmạng khác, gồm có convolutional, pooling, activation và fully-connected layer Điềuđặc biệt của ResNet là sử dụng kết nói tắt (Skip Connection) đồng nhất để xuyên quamột hay nhiều lớp Mỗi khối như vậy sẽ được gọi là một Residual Block (hình 2.2)
12
Trang 25weight layer
*
identity
Chúng ta giả sử đầu ra của các lớp nông là x, trong quá trình biến đổi của mạng, đầu
ra của các lớp sâu hơn sẽ là F(x) Kết nối tắt giữa các lớp là cộng đầu ra của lớp trước
(lớp nông) với đầu ra của lớp sâu hơn, việc này sẽ chống lại đạo hàm bằng không, tức
F(x) = 0, do vẫn cộng thêm x Việc thêm vào các residual block vào trong kiến trúcmạng học sâu có hai cách tuỳ thuộc vào từng trường hợp cụ thể.
» Identity Mapping: trong trường hợp này đơn giản là việc cộng trực tiếp x vàođầu ra của các lớp sâu hơn F(x) Đây là một cách sử dụng khá phổ biến trong thiết
kế mạng ResNet nếu như đầu vào có cùng số chiều với đầu ra Chúng ta có thể
minh hoa nó trong hình sau
Trang 26được thực hiện trong trường hợp đầu vào và đầu ra có số chiều khác nhau Lúcnày đầu ra được xác định như sau y = F(x) + Conv(x) Chúng ta có thể xem hình
minh hoạ dưới đây
các cổng của ResNet là luôn luôn mở Thực nghiệm cho thấy rằng mức độ chính xác
đạt được trên mạng ResNet cao hơn so với mạng Highway.
2.2.2 Generalized-mean pooling (GeM pooling)
Cho một hình anh đầu vào, dau ra từ CNN là một tensor 3D có hình dạng K x Hx Wtrong đó, K là số kênh, H là chiều cao bản đồ đối tượng và W là chiều rộng bản đồ đốitượng Nếu x; đại diện cho kích hoạt bản đồ đối tượng địa lý không gian H x W, thimạng bao gồm K bản đồ đối tượng địa lý như vậy
- Với Max Pooling:
Trang 27Nói cách khác, đối với mỗi ban đồ đặc trưng x¿, chúng ta lấy giá trị lớn nhất để cóđược biểu diễn vectơ dài K độ dài của hình ảnh.
-Với Average Pooling:
|
f2 = ff ff] PO = 1 k K k mal 2 _ sp =x
Nói cách khác, đối với mỗi ban đồ đặc trưng x,, chúng ta lấy giá trị trung bình để
có được biểu diễn vectơ đài K độ dài của hình ảnh.
- Cuối cùng, với GeM Pooling:
1
T 1 Pk
"an lở 3 =)
xe.
Max Pooling và Average Pooling là các trường hợp đặc biệt của GeM Pooling được
đưa ra ở phía trên, tức là Max Pooling khi P, — o và Average Pooling khi PR, = 1.
Vectơ đặc trưng cuối cùng bao gồm một giá trị duy nhất trên mỗi bản đồ đối tượng, tức
là kích hoạt trung bình tổng quát và kích thước của nó bằng K Đối với nhiều mạng phổ
biến, giá trị này bằng 256, 512 hoặc 2048, làm cho nó trở thành một đại diện hình ảnh
nhỏ gọn Tham số gộp ?, có thể được đặt hoặc học theo cách thủ công vì thao tác này
có thể phân biệt được và có thể là một phần của back-propagation (lan truyền ngược)
Do đó, lớp GeM Pooling có thể đào tạo được Người ta có thể sửa siêu tham số P;
hoặc huấn luyện nó bằng cách sử dụng lan truyền ngược như một phần của quá trình
đào tạo mô hình tiêu chuẩn.
2.2.3 Whitening Transformation
Whitening transformation là một phép biến đổi tuyến tính biến một vectơ của các biếnngẫu nhiên có ma trận hiệp phương sai đã biết thành một tập hợp các biến mới có hiệpphương sai là ma trận nhận dạng, nghĩa là chúng không tương quan và mỗi biến cóphương sai 1 Phép biến đổi được gọi là "làm trắng" vì nó thay đổi vectơ đầu vào thành
vectơ nhiễu trắng
15
Trang 28Định nghĩa: Giả sử X là vectơ (cột) ngẫu nhiên với ma trận hiệp phương sai ã và
giá trị trung bình bằng 0 Khi đó phép biến đổi Y = WX với ma trận làm trắng W thỏamãn điều kiện WTW = ã
2.3 Tổng quan về phương pháp truy vẫn hình ảnh dựa
trên sự khuếch tán
Mặc dù ban đầu được phát triển để xếp hạng trên không gian đa tạp (Page và cộng sự[5]: Zhou [6]; Donoser va Bischof 2013 [7]), sự khuếch tán đã sớm được áp dụng để phân loại (Zhou 2004a [8]), và phân đoạn hình ảnh (Grady 2006) [9] Gần đây, một
số biến thể của khuếch tán (Bai và cộng sự 2017a [10]; 2017b [11]; 2018 [12]; 2019[13]) thường được sử dụng như một phương pháp xếp hạng hoặc xếp hạng lại trongcác nhiệm vụ truy xuất để đạt được hiệu suất truy xuất cao hơn và đã thu hút rất nhiều
sự chú ý trong những năm gần đây
Mở rộng truy vấn, một kỹ thuật phổ biến trong truy xuất hình ảnh, có thể cải thiệnhiệu suất truy xuất trong thời gian truy vấn Mở rộng truy vấn trung bình (AQE) (Chum
và cộng sự 2007 [14]; Iscen và cộng sự 2017 [15]), một loại mở rộng truy van phổ biến
vì tính đơn giản của nó, tính trung bình các tính năng của các láng giềng gần nhất củatruy van để tạo thành một truy van mới để chạy lai tìm kiếm Khi AQE được áp dụnglặp đi lặp lại, việc tính toán lại truy vẫn giống như đi dọc theo các đa tạp của khônggian đặc trưng Mặc dù truyền tải này tương tự như khuếch tán, AQE chỉ sử dụng cácmối quan hệ giữa truy vấn và hình ảnh cơ sở dữ liệu, chứ không phải giữa từng hìnhảnh cơ sở dữ liệu với nhau Với kiến thức trước đó về các mối quan hệ giữa tất cả các hình ảnh cơ sở dữ liệu, do đó, sự khuếch tán có thể khai thác các đa tạp trong khônggian đặc trưng tốt hơn so với việc mở rộng truy vấn có thể
Trong các công trình phổ biến trước đây, truy van được cung cấp như một phần của
cơ sở dữ liệu Tuy nhiên, trong thé giới thực, các truy van không có sẵn cho đến khichúng được người dùng đưa ra Để giải quyết van dé này mà không cần thực hiện bat
kỳ chi phí tính toán nào, (Iscen và cộng sự 2017) sử dụng danh sách rút gọn các kết quả tim kiếm k-NN để tạo vectơ trạng thái ban đầu thưa thót, thay vì sử dụng one-hotvectơ làm trạng thái ban đầu Do đó, các truy vẫn không được đưa vào biểu đồ lân cận.Nhược điểm của điều này là biểu đồ cần được lưu trữ và tải trong giai đoạn tìm kiếmcho một bước đi ngẫu nhiên, điều này vừa tốn bộ nhớ vừa không hiệu quả về mặt tính
16
Trang 29toán Vì các phương pháp trước được đánh giá trên bộ dữ liệu Oxford (Philbin và cộng
sự 2007) [16] và Paris (Philbin và cộng sự 2008) [17], các bộ dữ liệu nhỏ hơn chỉ chứa
55 truy vấn, nên tính kém hiệu quả của các phương pháp đó không ảnh hưởng nhiềuđến tổng thời gian tính toán Khi các phương pháp này được sử dụng trên các tập dữliệu quy mô lớn với nhiều truy vấn, sự kém hiệu quả trong quá trình tìm kiếm trựctuyến trở nên lớn hơn và khó chữa
Để giải quyết sự kém hiệu quả này, những nỗ lực trong quá khứ đã được thực hiện
để tăng quy mô khuếch tán để xử lý các bộ dữ liệu lớn hơn (Dong, Moses và Li 2011)[18] đề xuất đẩy nhanh việc xây dựng ma trận ái lực biểu thị đồ thị Iscen và cộng sự
đã báo cáo rằng phương pháp của Dong là các đơn đặt hàng có mức độ nhanh hơn so
với tìm kiếm toàn diện với hiệu suất chỉ bị giảm hạn chế (Iscen và cộng sự 2017) Mộtcách tiếp cận khác để cải thiện tính hiệu quả là sử dụng approximate nearest neighbor
search (ANN) So với việc xây dựng biểu đồ bằng tìm kiếm k-NN toàn diện, tìm kiếm
ANN nhanh hơn và cung cấp độ chính xác có thể so sánh được (Jegou, Douze vàSchmid 2011 [19]; Ge et al 2014 [20]) Gần đây nhất, (Iscen và cộng sự 2018a [21])
đã tính gan đúng ma trận ái luc bằng cách sử dung phân rã phổ cấp thấp dé giảm chi
phí tính toán trực tuyến Tuy nhiên, phương pháp này không cải thiện nhiều về hiệusuất truy xuất.
Để khắc phục điểm yếu này, Fan Yang [2] đề xuất một kỹ thuật khuếch tán mới.Trong công việc của Fan Yang, thay vì áp dụng khuếch tán cho truy vấn, họ tính toántrước các kết quả khuếch tán của từng phần tử trong cơ sở dữ liệu, làm cho tìm kiếmtrực tuyến trở thành một tổ hợp tuyến tính đơn giản ở trên cùng của quy trình tìm kiếmk-NN Phương pháp đề xuất của Fan Yang trở nên nhanh hơn gấp 10 lần về tốc độ tìmkiếm trực tuyến Hơn nữa, họ cũng đề xuất sử dung cắt bỏ muộn thay vi cắt bỏ sớmtrong các tác phẩm trước để đạt được hiệu suất truy xuất tốt hơn
2.3.1 Sơ bộ về sự khuếch tan
Có hai cách tiếp cận chính để tiền hành khuếch tán: thông qua cập nhật lặp di lặp lạihoặc giải quyết trực tiếp dạng đóng Cả Zhou et al và Donoser et al mô tả sự khuếchtán như một cơ chế để lan truyền các điểm tương đồng truy van qua các đa tạp (Zhou
và cộng sự 2004b; Donoser và Bischof 2013), trong khi Iscen và cộng sự sử dụng định
lý dạng đóng trong (Zhou và cộng sự 2004b) va dé xuất một giải pháp hiệu quả (Iscen
và cộng sự 2017) [6] chủ yếu thực hiện theo các bước từ (Zhou và cộng sự 2004a) và(Iscen và cộng sự 2017) ở các phần từ 2.3.1.1 đến 2.3.1.3
17
Trang 30Thiết lập vấn dé: Đối với truy suất hình ảnh, chúng ta định nghĩa một cơ sở dif liệu
là x = {x1, ,X,} C IR“, trong đó mỗi xi là một vector đặc trưng Hình ảnh có thểđược biểu thị bằng một dối tượng địa lý chung tương ứng với toàn bộ ảnh hoặc nhiềuđối tượng địa lý vùng tương ứng với các vùng khác nhau của ảnh Trong các phương
trình sau này, x; có thể là đại diện cho một trong hai cách biểu diễn này.
Đối với hầu hết các bộ dữ liệu công khai trong trường truy xuất, cả hình ảnhtruy vấn và cơ sở dữ liệu đều có sẵn Trong ví dụ sau đây, chúng ta không nhìnthấy các truy van cho đến khi người dùng cung cấp Chúng tôi ký hiệu truy vấn là
2 = {qi, ,q„} C R', trong đó m = | khi truy vấn được mô tả bởi một đối tượng
địa lý toàn cục và m > 1 khi truy vấn chứa các đối tượng địa lý khu vực
2.3.1.1 Xây dựng đồ thị
Để đơn giản, chúng ta xem xét một ví dụ trong đó chúng tôi chỉ xử lý một hình ảnh
truy van Q va đưa nó vào cơ sở dữ liệu Toàn bộ tập hợp được định nghĩa là ÿ ={qi, , đ„,XỊ, , Xạ}, và chúng tôi biểu thị phan tử thứ i trong Z là #; Ngoài ra, mộtràng buộc cục bộ được thông qua để biểu đồ chỉ chứa các điểm tương đồng giữa cáccặp phần tử là hàng xóm gần nhau nhất theo (Iscen và cộng sự 2017) Ma trận ái lực
được định nghĩa là A = (a;;) € IRứrt")Xít+”), trong đó mỗi phan tử được lấy bởi:
S(XiXi) L# THC NN,(Z;).X; © NN¿ (Xi)
Qij =
0 otherwise
Vi,j € {1, ,2 +m}, ký hiệu NN¿(x) là kK-NNs của x Vi similarity metric s thương
là đối xứng và dương nên A là ma trận đối xứng Phương trình (1) cho phép A thưathớt, cung cấp bộ nhớ và hiệu quả tính toán Ma trận bậc D là ma trận đường chéo vàmỗi phan tử đường chéo là tổng theo hàng tương ứng của A, tức là: Phần tử đ; trong Dđược xác định bởi };`ƒ'z;; Sau này nó được sử dụng để chuẩn hóa đôi xứng A thành
ma trận ngau nhiên S:
S—=D-!⁄2Ap-1⁄2
S là một biến thể của ma trận chuyển tiếp điển hình D~! A, và cả hai đều có cùng giá
trị riêng và hiệu riêng (Donoser và Bischof 2013).
18
Trang 312.3.1.2 Bước đi ngẫu nhiên
Sau khi xây dựng biểu đồ, bước đi ngẫu nhiên được thực hiện cho đến khi nó đạtđến trạng thái hội tụ, dẫn đến điểm xếp hạng cuối cùng cho mỗi hình ảnh trong thưviện Đối với bước thứ t của bước đi ngẫu nhiên, trạng thái được ghi lại trong một
T
T T ae , A ° ve x
vecto ff = b ff | c€R"'”, với f, € R”",f, € R” Chúng tôt dat trạng thái ban dau
là m-hot vector, trong đó fp =1n, f = 0, Bước đi ngẫu nhiên lặp lại các bước sau:
f?! = œSf+(I—œ)f, œec (0,1)
Về cơ bản, có xác suất œ để đi bộ ngẫu nhiên từ trạng thái hiện tại f or 1 — a để
khởi động lại từ trạng thái ban đầu f° Với thực tế là œ € (0, 1) và các giá trị riêng trừu
tượng của Š không lớn hơn | theo định lý Perron-Frobenius, phép lặp này hội tụ thành
một nghiệm dang đóng (Zhou et al 2004b):
f* = (1— ø)(I— aS) “'f°
Sau khi hội tu, các giá trị trong f* chứa các điểm tương đồng của từng phan tử cơ sở
dữ liệu với truy vấn, sẽ được sử dụng làm điểm xếp hạng để xếp hạng lại
2.3.1.3 Sự phân ra
Các bước trên kết hợp truy vấn vào biểu đồ trong quá trình khuếch tán Grady đề xuấtphân tách các truy vấn từ các hoạt động trên (Grady 2006), và kỹ thuật của ông gần
đây đã được theo sau (Iscen et al 2017).
Lưu ý, nghiệm dang đóng f* € R’*” chứa điểm xếp hạng trên cả phan tử truy van
và cơ sở dữ liệu, nhưng đối với nhiệm vụ truy xuất ảnh, chúng ta chỉ quan tâm đếnđiểm xếp hạng cho các phần tử cơ sở dữ liệu Điều này dẫn đến sự phân rã của điểmxếp hạng truy van và cơ sở dif liệu, do đó ma trận Š được chia thành 4 khối:
s— Saq Sad
Sag Sad
19
Trang 32VớI Saq = R"*” Sod € R”*" Sag € R”*”, va Sgq € R"*" Giải pháp phân hủy sau đó trở thành:
f; = q — a) (I — aSaa)' Su, cR“
Trong đó S„„ có thể được xem như là ma trận chuyển tiếp cho bước đi ngẫu nhiên
trên phía cơ sở dữ liệu và S¿„ = Sâu bao gồm các điểm tương đồng được chuẩn hóa
giữa truy van và các hàng xóm gan nhất của nó Sau đó, chúng ta có thể có được biểu
bộ hình ảnh (Iscen et al 2017) Với vectơ đặc trưng toàn cục q của một truy vấn
méi(m = 1,q = q¡), the indexes Z = NNƑP(q) của các tinh năng tương ứng với các
hình ảnh được xếp hạng hàng đầu được truy xuất bằng tìm kiếm L-NN, trong đó L là
hằng số giới hạn xác định kích thước tối đa của đồ thị con (đồ thị cắt ngắn) Ma trận ái
lực biểu thị đồ thị con được định nghĩa là A € R’*” và mỗi phần tử â;; trong A thỏa
Trang 33và sử dụng giảm chiêu dữ liệu kết hợp với phương pháp khuéch tán Việc áp dụng giảmchiêu dữ liệu được thực hiện ngay sau khi rút trích đặc trưng và trưóc khi tiến hành
thực hiện tính toán ma trận ái lực.
21