và kết hợp da dang các mô hình toán học trong thiết kế hệ thống CBIR.Do đó, Luận án tập trung nghiên cứu ứng dụng biến đổi wavelets vào thiết kế hệ thongCBIR mà cụ thé là xây dựng các th
Trang 1ĐẠI HỌC QUOC GIA TP HO CHI MINHTRUONG DAI HOC BACH KHOA
NGUYEN DUC HOANG
TRUY VAN ANH THEO NOI DUNG SU DUNGTRICH DAC TRUNG TREN NEN WAVELETS
LUAN AN TIEN SI KY THUAT
TP HO CHI MINH NAM 2013
Trang 2ĐẠI HỌC QUOC GIA TP HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA
Phản biện độc lập 1: PGS TS Nguyễn Văn Khang
Phản biện độc lập 2: PGS TS Dương Anh Đức
Phản biện 1: PGS TS Ngô Quốc Tạo
Phản biện 2: TS Nguyễn Thanh Hải
Phản biện 3: TS Lê Thành Sách
NGƯỜI HUONG DAN KHOA HOC1 PGS TS Lê Tiến Thường
2 TS Đỗ Hồng Tuan
Trang 3LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả Các kếtquả nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từbat kỳ một nguồn nào và dưới bat kỳ hình thức nào Việc tham khảo các nguôn tài liệu(nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng theo yêu
câu.
Tác giả luận án
Nguyễn Đức Hoàng
Trang 4TOM TAT LUẬN AN
Mặc dù, các nhà nghiên cứu đã có nhiều nỗ lực trong những năm gan đây trongviệc nghiên cứu hệ thống truy van ảnh, nhưng vẫn chưa có giải thuật thuyết phục đượcchấp nhận pho biến có thé biểu diễn được các đặc điểm nhìn của con người (humanvision), đặc biệt là có thé mô tả ảnh đạt độ chính xác cao theo nội dung cần quan tâm,và điều này luôn là thách thức lớn với tất cả các nhà nghiên cứu
So sánh với các nghiên cứu hệ thống CBIR (Content-based Image Retrieval)công bố trước năm 2000, sự khác biệt có thể thấy trong các nghiên cứu 10 năm gầnđây là việc gia tăng của đa dạng các đặc trưng mô tả ảnh Các dé xuất bắt nguồn từ cảitiến những đặc trưng ảnh cơ bản (như: histogram mau, texture, shape, ) đến pháttriển những đặc trưng ảnh mới dựa trên những phép biến đối như wavelets,contourlets và kết hợp da dang các mô hình toán học trong thiết kế hệ thống CBIR.Do đó, Luận án tập trung nghiên cứu ứng dụng biến đổi wavelets vào thiết kế hệ thongCBIR mà cụ thé là xây dựng các thuật toán trích đặc trưng anh đùng biến doi waveletsvà giải thuật truy vấn phù hợp, cùng khả năng ứng dụng mở rộng của các đặc trưngdé xudt
Trong Luan án này, việc chọn lua hướng nghiên cứu lay biến đôi wavelets làmcơ sở nghiên cứu sâu về thiết kế đặc trưng anh và ứng dụng vào truy van ảnh đã đạtđược kết quả nhất định Theo đó, các bộ mô tả đặc trưng ảnh dựa trên biến đổiwavelets đã được đề xuất kết hợp với thiết kế giải thuật truy vấn Cụ thể, Luận án đãdé xuất ba đặc trưng ảnh mới là: đặc trung ảnh contourlet cooccurrence, đặc trưngảnh phase-based LBP, đặc trưng ảnh contourlet Harris và 4 giải thuật truy vẫn ảnh là:Giải thuật phối hợp các đặc trưng dé truy vấn ảnh (matching) , Giải thuật truy vấn ảnhdùng đặc trưng contourlet cooccurrence (CC), Giải thuật truy vấn ảnh dùng đặc trưngphase-based LBP (pbLBP), Giải thuật truy van anh dùng đặc trưng contourlet Harris
(CH).
Để có thé đánh giá được mức độ hiệu quả của một giải thuật truy van ảnh cầnphải có các phương pháp, tiêu chuẩn đánh giá thích hợp và đặc thù cho lĩnh vực truyvan ảnh Luận án đã chon lựa, giới thiệu bộ các phương pháp, các thông số đánh giá désử dụng cho các thực nghiệm của Luận án Đây là những phương pháp và thông sốđánh giá đã được nhiều nhà nghiên cứu trong lĩnh vực truy vẫn ảnh, truy vẫn thông tin
Trang 5sử dụng nên có giá trị cao trong việc tham chiếu hiệu quả các kết quả thực nghiệm củagiải thuật đề xuất so với các giải thuật đã công bố Ngoài ra, Luận án đã khảo sát khảnăng sử dụng đặc trưng dé xuất vào ứng dụng phân loại anh (image classification) làmột hướng nghiên cứu có liên quan chặt chẽ với truy vấn ảnh Các đề xuất gồmphương pháp MKL (Multiple Kernel Learning) kết hợp các kernel, integrate methodchọn những class có độ chính xác cao dé gia tăng độ chính xác phân loại cho thay mứcđộ hiệu qua so sánh được với những phương pháp đã công bố gan đây.
Nhìn chung, Luận án này đã giới thiệu được tổng hợp các công trình công bốquan trọng có liên quan đến hướng nghiên cứu và có những đề xuất về các bộ trích đặctrưng ảnh, thiết kế các giải thuật truy van anh, va đã kiếm chứng hiệu quả truy van déxuất thông qua thực nghiệm cho kết quả truy vấn cải tiễn hơn Luận án cũng đã nghiêncứu ứng dụng mở rộng của đặc trưng đề xuất trong hướng nghiên cứu phân loại ảnh.Tất cả các công trình giới thiệu và nghiên cứu đề xuất trong Luận án này đáp ứng mục
tiêu nghiên cứu theo những “thang độ” khác nhau Các thực nghiệm đóng vai trò minh
chứng để đưa ra các nhận định, kết luận và có giá trị tham khảo cho các nghiên cứu
Sau này.
Trên cơ sở các mục tiêu đã đề ra, Luận án đã đề xuất được các bộ trích đặc trưngảnh mới dựa trên biến đôi wavelets, và thiết kế các giải thuật truy vấn, đề xuất các giải
pháp ứng dụng trong phân loại ảnh Các thực nghiệm đã chứng minh được hiệu quả cải
tiễn của các giải thuật đề xuất Tóm lại, Luận án với kết quả nghiên cứu đạt được là
thiệt thực, có đóng góp cụ thê, và đáp ứng được các mục tiêu dé ra cho Luận án.
Trang 6ABSTRACTAlthough researchers have made great efforts in recent years for the study ofimage retrieval systems, but no algorithm is accepted widely that can extract imagefeatures like human visions This is always the challenge to all researchers.
Compared to the previous researches of Content-based Image Retrieval (CBIR)systems published before the year 2000, the differences viewed in the recent decadesof studies are the increasing of many image features The improvements are based onbasic image features (such as color histogram, texture, shape ), to develop newimage features based on the transformations such as the wavelets, the contourlets and combine many mathematical operators to design CBIR systems Therefore, thethesis is focused into researches based on the wavelet transform to extract imagefeatures then using these features to design CBIR systems and the extended applicationof the proposed features.
In the thesis, the choice of using the wavelet transform to extract image featuresand design CBIR systems have achieved certain results Accordingly, the wavelet-based feature extractors have been proposed and used to design the image retrievalalgorithms Three new image features has been proposed as follows: contourletcooccurrence, phase-based LBP, contourlet Harris; and four image retrieval algorithmsas follows: global features matching (matching), using the contourlet cooccurrencefeature (CC), using the phase-based LBP feature (pbLBP), using the contourlet Harrisfeature (CH).
To evaluate retrieval effectiveness of an image retrieval algorithm must haveevaluation methods, evaluation criteria appropriate to image retrieval algorithms Thethesis presents the evaluation methods based on the experimental parameters Thesemethods and parameters have been used commonly in the performance evaluation ofinformation retrieval and image retrieval by many researchers So that, achievedexperimental results have high values to compare between proposed algorithms withother related algorithms Furthermore, the thesis also examine the possibility of usingthe proposed features in image classification that is closely to the relation of CBIR Inthis extended application, the proposed methods consists of Multiple Kernel Learning
Trang 7(MKL) and integrated methods to increase the classification accuracy The experimentresults show the efficient perfomance compared with the state-of-the-art methods.
Overall, the thesis has introduced a combined research has proposed 3 new imagefeatures, 4 new image retrieval algorithms They have been verified the retrievaleffectiveness through the experimental simulations that have improved the queryresults The thesis also research an extended application of the proposed featuresapplied to the image classification All of the introduced and proposed works in thethesis have achieved the research objectives by different levels The empiricalevidences have been used to make remarks, conclusions and maybe referenced tofurther researches.
Based on the research objectives, the thesis has proposed image retrievalalgorithms using the wavelet-based feature extraction The experiments havedemonstrated the improved retrieval effectiveness of the proposed algorithms in CBIRand image classification In summary, the contributions of the thesis are practical andspecific, fulfill all research objectives.
Trang 8LOI CAM ON
Trong quá trình thực hiện Luan án, tôi được Trường Dai hoc Bach Khoa Tp HồChí Minh và Trung tâm Nghiên cứu Ứng Dụng Khoa học Kỹ thuật Truyền hình(BRAC), là don vị nơi tôi công tac, đã hỗ tro và tao mọi điều kiện thuận lợi, tôi xinbày tỏ sự cảm ơn chân thành đến các đơn vị này
Luận án nảy sẽ không thể hoàn thành nếu không có sự hướng dẫn tận tình vàgiúp đỡ quý báu của PGS.TS Lê Tiến Thường, TS Đỗ Hồng Tuấn là những ngườiThay ma tôi muốn bảy tỏ lòng biết ơn sâu sắc nhất
Xin được bày tỏ sự trân trọng với những góp ý có giá trị khoa học sâu sắc và hếtsức quý báu của PGS.TS Dương Anh Đức, PGS.TS Nguyễn Văn Khang đã có những
phân tích xác đáng giúp tôi hoàn thiện các nội dung trong Luận án này.
Tôi cũng xin cảm ơn tập thể các thay cô trong Khoa Điện-Điện tử, đặc biệt là cácThây cô trong Bộ môn Viễn Thông đã có những ý kiến đóng góp và phản biện trongsuốt quá trình nghiên cứu và hoàn chỉnh Luận án, cảm ơn Phòng Đào tạo sau đại họcđã hỗ trợ các thủ tục trong quá trình hoàn thành khóa học Nghiên cứu sinh
Tôi xin tỏ lòng cảm ơn đến PGS.TS Đặng Thành Tín, PGS.TS Hoàng ĐìnhChiến, TS Trịnh Hoàng Hơn, TS Nguyễn Thanh Hải, TS Nguyễn Thanh Hùng đã có
những góp ý quan trọng trong quá trình thực hiện nội dung Luận án.
Xin cảm ơn Ban giám đốc Trung tâm Nghiên cứu Ứng Dụng Khoa học Kỹ thuậtTruyền hình (BRAC) — Đài Truyền hình Việt Nam nhất là TS Trần Dũng Trình,nguyên Giám đốc đơn vị đã có nhiều hỗ trợ về chuyên môn, thời gian, cũng như kinhphí để tôi có thể hoàn thành Luận án này
Tôi cũng xin bày tỏ lòng cảm ơn đến cố PGS.TSKH Nguyễn Kim Sách, nguyênGiám đốc Trung tâm Nghiên cứu Ứng Dụng Khoa học Kỹ thuật Truyền hình (BRAC)đã có những dìu dắt, khích lệ tôi trong quá trình nghiên cứu khoa học
Cuối cùng, tôi cảm ơn tất cả những sự giúp đỡ của người thân, đồng nghiệp, bạnbè đã đóng góp ý kiến, động viên khích lệ, tạo nguồn lực tinh thần to lớn dé tôi có thé
thực hiện và hoàn thành được các công trình trong Luận án này.
TRAN TRONG - Tháng 12 năm 2013
Trang 9MỤC LỤC
1 CHƯƠNGI-_ GIỚI THIỆU G- 6k SE E2 E 3E ve gen rkei |LL Dat Van db oe cc ccececescscecscscecesssvecscscecevevecsceceesacacecsesevavscaceceeevavacecesevavacees |1.1.1 Phương pháp xử lý truy Van -. - ¿555 SE SE 2E 1E E1 12111111 cke, |1.1.2 Sự cần thiết của nghiên cứu - ¿2-5 5E+++EEEEE+E£ESESEEEEEEEEEErrkrkrkrree 3
1.1.3 Hướng nghiên CỨU . - Ăn re 41.2 Mục tiêu và nội dung nghiÊn CỨU (<< << 11990 1 1 re 101.3 Những đóng góp của Luận áñ - - << -G S101 ng re 10
1.3.1 Nghiên cứu phối hợp các đặc trưng toàn cục dé truy van ảnh 1013.2 Nghiên cứu kết hợp biến đổi contourlets và ma trận GLCM để dé xuất
một bộ mô tả đặc trưng ảnh mới contourlet COOCCUITENCE <<<<<++ 10
1.3.3 Nghiên cứu kết hợp biến đổi wavelets phức và toán tử LBP để truy van
ảnh Ầ€XẦUT€ Q00 000000111111111 1111111111111 11 08888885: 1]
1.3.4 Nghiên cứu kết hợp biến đối Nonsubsampled Contourlet (N SCT) va bộ
đò góc Harris đê hình thành bộ trích đặc trưng contourlet Harris va thiệt kê giải
thuật truy VẤn - 55+ S1 1 15 1 121115151111 11 111511111111 11 111011111 0.11 111111 0111101 gr 1]1.3.5 Thực nghiệm khảo sát đánh giá mở rộng các giải thuật dé xuất và so sánh
hiệu quả truy van với một sô giải thuật đã công bô khác -«««- 12
1.3.6 Ứng dụng mở rộng của các đặc trưng dé xuất - 2-5 scscscsceced 121⁄4 Cấu trúc Luận án -G-G s11 SE 919191 1 101111111 110111111 H111 gu nen 132 CHƯƠNG2- CÁC KỸ THUẬT THIET KE, ĐÁNH GIA HE THONG TRUY
VAN ANH VÀ CAC MÔ HINH NGHIÊN CUU - 2 2 2 555+£+£+£z£s+ezescee 14
2.1 Các kỹ thuật trích đặc trưng ảnhh - - c9 ng re, 14
2.1.1 Biểu diễn và mô tả ảnh - + 25252 2E+E+EEEEEEEEE#EEEEEEEEEEEEEEEEEErkrkrree 14
2.1.2 Các đặc trưng cơ bản - Gv, 152.1.3 Các đặc trưng dựa trên wavelets -c c SH 1 1 kg 182.2 Kỹ thuật đo đạc sự tương tự giữa các đặc trưng «<2 19
2.3 Đánh giá hiệu quả giải thuật truy vấn - 5-52 +52 SeSEctEEErkrkrrerrrsred 19
24 Xây dựng mô hình nghién CỨU -Ă G0011 199999 1 ng re 202.4.1 Các mô hình nghiên cứu trích đặc trưng ảnh - «55555 +<<<<<+2 212A2 Nhận Xet eceecccccccecececscscscsssscscscscscscecsssesssessssssstsesesssssscscavevevsvstseseseses 30
2.5 Kết chương - 5 5< S21 1 E2 1 1 1115131111111 1111111111111 11 11111 rk 313 CHUONG 3- ĐÈ XUẤT CÁC PHƯƠNG PHÁP TRÍCH ĐẶC TRUNG ANH
VÀ GIẢI THUẬT TRUY VẤẨN c1 t2 1 1 11151111 11111111 1101011111111 11 1 xe 32
Trang 103.1 Phối hợp các đặc trưng để truy vẫn ảnh - - + 255 52+s+E+Es££zererrerrered 32
3.1.1 Chọn các đặc trưng ảnh vn ng 11111 kg 34
3.1.2 Thiết kế giải thuật truy vấẫn + + +52 SE E2 SE AE EEEEErErrkrkred 36
3.1.3 Độ phức tạp giải thuậtt - << HH ng 393.1.4 Thực nghiệm đánh giá - (<< G S900 0n re 39
3.1.5 KẾT luận L SH TH HT HH1 H TT ng TT ng ri443.2 Truy vấn ảnh dùng đặc trưng ảnh contourlet COOCCHFF€HC€ - 55555: 443.2.1 Phương pháp để xuất ¿+2 + SE S323 E9 E1 1211515112511 1 11 1e xe.45
3.2.2 Dac trưng anh contourlet COOCCUTT€TCC 3333555535355 463.2.3 Lựa chọn phép do sự tương tự mặc định + ssss2 50
3.2.4 Kết quả thực nghiệm - ¿©- + SE SE2E£E9EEEEEE E11 125 11111 rk 513.2.5 KẾT luận LG HQ HH1 HT HH1 g TT ng T TH ng ngư 533.3 Truy vẫn anh dùng đặc trưng ảnh phase-based LBP -5555cccscscscs¿ 53
3.3.1 Đặc trưng anh Phased-Based LBP uo ccceesseneeeceeeeeeeesneeeeeeeeseeanees 55
3.3.2 Kết quả thực nghi@m ccccccccescccscsssscsescscsssscscscscsssscsessscssssssescssesseesees 573.3.3 K@tuann occccccccceccssscscsccessscsvscscecesssvevacscecesssvsceceseesevacaceceeevavacaceceeeeeas 6134 Truy vấn anh dùng đặc trưng ảnh contourlet HarFiS - 5+ scscscscec: 62
3.4.1 Phương pháp để xuất + ¿6 + SE SE2EEE5E5 111217151511 15 11111 exce 62
3.4.2 Bộ dò contourlet Harr1S - << - S22 2333111111 3 E552 64
3.4.3 Dé xuất giải thuật truy vấn - 5< Sẻ S2 SE S3 1 E9 1 1 1115111111111 re 67344 Kết quả thực nghi@m o cccccceccccscscsssscscscscsssscsescscsssscsescssssessesescsssseeees 68BAS KẾT luận TQ HH TH TT TH ng ng ri713.5 Đánh giá MAP của các dé xuất với các kết quả trong [8] eee 723.6 KẾt chương -c< c1 1 E3 11111111111 1111 11111111 111111 01101111101 rkg 734 CHƯƠNG 4- THỰC NGHIEM KHAO SÁT MỨC ĐỘ HIỆU QUA CUA CAC
GIAI THUAT TRUY VAN DE XUATT” - Q G Gv kg 744.1 Các hướng khảo sát thực nghiỆm - G019 ng vn 74
42 Khảo sát hiệu quả của 4 giải thuật dé xuất so với các giải thuật truy van anh
khác 744.2.1 Khảo sát với cơ sở dữ liệu ảnh: UIUC + «<< «<< <<<<<eeeeeeesss 754.2.2 Khảo sát với cơ sở dit liệu ảnh: Brodatz - -<<<<<<<<<<<c<ccesss 81
A3 Kết CHONG eecccccccccccscssccsescscsssscscscscsssscscscsvssscsescscsssvsssscscsssssssscsesssssessseens 875 CHƯƠNG 5 - UNG DUNG MO RỘNG 052cc 90
5.] Phar loại anh ee ecscccccccccccccccccessssseeccccccceeececaeaeseecccceeeesesseaugaeseeeeececeeeeeas 915.1.1 Cac bước xu lý của mô hình Bo ŸW HH, 91
Trang 115.1.2 Mô hình Bags of Multi-Í€afUT©S - ch k, 97
5.1.3 Dùng nhiều bộ phân loại SVM cho multi-kernels và phương pháp chọn độ
chính xác trung bình đạt hiệu quả cao cho các €ÌaSs .-« «<< «<< << <ss2 100
5.2 Kết quả thực nghiệm - 5< 2+2 1E E323 E91 5 1112111111111 exrk 102
5.2.1 Thực nghiệm 1: đánh giá hiệu quả phân loại của đặc trưng denseSBP 1025.2.2 Thực nghiệm 2: so sánh phương pháp MKL và integrated method với cácphương pháp khác - << - + 119000101199 00000 104
5.3 Kết chương 5-5 St t1 S3 1 1512111111 01111111 11111111 11 11 rk 1066 CHƯƠNG6- TONG KẾT Ă.ccc ctisrierrirrrrrrirrrirrirrrrrirrrrie 1086.1 Tóm tat các kết quả đạt ƯỢC Gv n 1086.2 Hướng phat triỂn - 5-5252 1E E323 E51 5 5112111111111 111 rk 1096.3 KẾT luận SG T TH H112 TH T111 T HT TH ng rkt 1107 CAC TAI LIEU CONG BO CUA TAC GIA s5 62s sex £eEseseeees 111
7.1 Cac công trình chính của Luận áắn G199 1 ng ke III
7.1.1 Các công trình công bố trên tạp chí tại Việt Nam - - 5c: III7.1.2 Các công trình công bố tại các hội nghị quốc tẾ - - 2 5c: III7.2 Một số công trình có liên quan đến lĩnh vực xử lý ảnh, video 1127.3 Các dé tài cấp ngành «5-56 tt S11 1115111111111 1111 110111111111 xe 1138 TÀI LIEU THAM KHHẢO - tt 3111 SE 1111 111 E12 vn ng ree 115
5108089 54 127
Trang 12DANH MỤC CÁC HÌNH ẢNH
Hình 1.1 Trích đặc trưng trong miễn không gian và miền wavelets -. - 8
Hình 2.1 4 hướng (@) và các khoảng cách (ở) trong ma trận Cooccurrence 23
Hình 2.2 Cac pixel lân cận trên một đường tròn với tâm là pixel khảo sát Cac pixel lâncận không rơi chính xác vào lưới pixel được nỘi SUY . «<< << ++<<«2 27Hình 2.3 36 pattern nhị phân bat bién xoay có thé xảy ra trong tập các pixel lân cận đốixứng vòng (LBP: ri, P = 8) Các vòng tròn nhỏ đen và trang ứng với giá trị bit 0 va 1của 8 bit ngõ ra toán tử Hàng đầu tiên là 9 pattern “uniform” và số bên trong tươngứng với code (LBP: riu2, P = 8) {Hình tham khảo từ [6T |} . -<<5 27Hình 2.4 Các vùng ảnh hưởng của các pixel lấy mẫu khi dùng bộ lọc trong toán tửLBP Bên trái: Toán tử LBP với P = 8 và 3 bán kính R; Bên phải: Cac bộ lọc thôngthấp Gauss với các scale 2, 3, và 4 (tương ứng cho các bán kính R: R nhỏ ứng với lọcGauss có ø nhỏ (nhọn) và R lớn ứng với loc Gauss có ø lớn (rộng hơn)) {Hình tham[sim 29
Hình 2.5 Thiết kế vector đặc trưng dùng multiresolution LBP {Hinh tham khảo từ— 29
Hình 3.1 Anh minh họa từ cơ sở dir liệu WANG (a) ảnh truy van bên trái; (b) ảnh trảvề bên phải ¿- - - 525626 E9E9 E3 1919 5 1211151151511 11115 1111111511111 1051110111110 0e TT 36Hình 3.2 Khảo sát kết quả truy vẫn trên 5 thé loại anh: Beaches, Buses, Dinosaurs,FLOWS, HOSES viccccccccccscccsscccsscccscccusccscccusccscceusceuscccssceusccesccesceuseceusceusscessceusscusceusseenecs 43Hinh 3.3 Kết quả trả về của 30 ảnh có gia tri đo đạc sự tương tự tốt nhất so với ảnhtruy vẫn dùng đặc trưng phối hợp đề xuất (ảnh truy vẫn ở góc trên trái của hinh) 43
Hinh 3.4 Kết qua trả về của cùng anh truy van trong Hình 3.3 khi dùng hệ thống truyVAIL SIMPLY City 077777 44
Hình 3.5 Minh họa biến đổi contourlets của một ảnh với các thông số đã xác định 47
Hình 3.6 Các mức lượng tử dùng tương ứng cho mức | (a) và mức 2 (b) 47
Hình 3.7 Các hướng băng con được sử dụng dé tính toán các ma trận GLCM 48
Hình 3.8 Trích vector đặc trưng theo contourlet COOCCHFF€HC© ĂĂẶ S5 ssse 50Hình 3.9 Kết quả truy van với ảnh truy van là 600.iJ0g - + 2525252 5s+c+cscscsced 51Hình 3.10 Kết quả truy van của 3 phương pháp (dùng các đặc trưng contourlet,cooccurrence, va contourlet cooccurrence) khảo sát trên cơ sở dir liệu ảnh WANG 52
Hình 3.11 Vector đặc trưng được trích bởi phương pháp Phase-based LBP 56
Hình 3.12 Kết quả truy van của các phương pháp Phase Steerable Pyramid,Magnitude Steerable Pyramid, Phase Gabor Wavelet, Magnitude Gabor Wavelet -Dataset 0807277575757 e 44 -3-3 59
Hình 3.13 Kết quả truy van của các phương pháp Phase Steerable Pyramid,Magnitude Steerable Pyramid, Phase Gabor Wavelet, Magnitude Gabor Wavelet -TD(ÍASCÍ Q1 007777777770 59Hình 3.14 So sánh Phase Steerable Pyramid với các phương pháp khác - Dataset T 60
Hình 3.15 So sánh Phase Steerable Pyramid với các phương pháp khác - 61
Hình 3.16 Minh hoa biến đổi NSCT với các thông số đã xác định - 64
Hình 3.17 Phân loại các điểm trong ảnh dùng các giá trị riêng của ma trận M 65
Hình 3.18 Các điểm đặc trưng dò được khi dùng bộ dò góc Harris cho ảnh 66
Hình 3.19 Bộ dò contourlet Harris với các mức phân tích NSCT là [0, 1, 3Ƒ 66
Hinh 3.20 Minh hoa cac tap diém dùng bộ dò contourlet HATITIS «+ 68
Trang 13Hình 3.21 Minh họa cách tính 3 moment (a) và do Euclidean của 8 băng con mức 4 (b)
Hình 3.22 Kết quả truy van với ảnh truy van là 450.ipg - 5 ¿5555 5sccscsccscei 70
Hình 3.23 Kết quả truy vân của 4 phương pháp truy van (dùng các đặc trưngcontourlet, NSCT, coocurrence, và contourlet Harris) khảo sát trên cơ sở dir liệu anh0/6 “-cỎd d+ 55 70
Hình 3-24 So sánh MAP của 4 giải thuật đề xuất với các kết quả trong [8] 72Hình 4.1 Các biểu đồ stairstep các thông số đánh giá của giải thuật: matching, CC,
pbLBP, CH, GGD&KLD, Gabor, contourlet, HMT, curvelet (UIUC) 77
Hình 4.2 Các biểu đồ cột đánh giá Rank của giải thuật: matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT, curvelet (UIŨC) << << << <<<ssss<+ 77
Hình 4.3 Các biểu đồ cột đánh giá MAP của giải thuật: matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT, curvelet (UIŨC) << << << <<<ssss<+ 78
Hình 4.4 Các biểu đồ cột so sánh R-precision A/B của giải thuật matching với các giải
thuật GGD&KLD, Gabor, contourlet, HMT, curvelet (UIŨC) - -<<<<=s78
Hình 4.5 Các biểu đồ cột so sánh R-precision A/B của giải thuật CC với các giải thuật
GGD&KLD, Gabor, contourlet, HMT, curvelet (UIŨC) << << << <<<ssss<+ 70
Hình 4.6 Các biểu đồ cột so sánh R-precision A/B của giải thuật pbLBP với các giải
thuật GGD&KLD, Gabor, contourlet, HMT, curvelet (UIŨC) - -<<<<=s79
Hình 4.7 Các biểu đồ cột so sánh R-precision A/B cua giải thuật CH với các giải thuật
GGD&KLD, Gabor, contourlet, HMT, curvelet (UIŨC) - << << << s2 S0Hình 4.8 Các đường cong PR của các giải thuật matching, CC, pbLBP, CH,GGD&KLD, Gabor, contourlet, H MT ( UIC) << s13 ssssssss S0Hình 4.9 P(10), P(30), P(N/2), P(N) - BrodÌQfZ sSS S1 hheeve 32Hình 4.10 P(Best, 10), P(Best, 30), P(Bests, 10), P(Bests, 30) — Brodatz 82Hình 4.11 R(N), R(N/2), R(Best, N), R(Best, N/2 — BrOdlQFfZ «<2 82
Hình 4.12 Các biểu đồ cột đánh giá Rank của giải thuật: matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT, curvelet — BrOdÌfZ - << << < c5 <2 S3
Hình 4.13 Các biểu đồ cột đánh giá MAP của giải thuật: matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT, curvelet — BrOdÌfZ - << << < c5 <2 84
Hình 4.14 Các biểu đồ cột so sánh R-precision A/B của giải thuật matching với các giải
thuật GGD&KLD, Gabor, contourlet, HMT, curvelet - Brodatz - 85
Hình 4.15 Các biểu đồ cột so sánh R-precision A/B của giải thuật CC với các giải thuật
GGD&KLD, Gabor, contourlet, HMT, curvelet — BrOdÌQfZ, - << «<< <5 << + S5
Hình 4.16 Các biểu đồ cột so sánh R-precision A/B của giải thuật pbLBP với các giải
thuật GGD&KLD, Gabor, contourlet, HMT, curvelet - Brodatz - 86
Hình 4.17 Các biểu đồ cột so sánh R-precision A/B của giải thuật CH với các giải thuật
GGD&KLD, Gabor, contourlet, HMT, curvelet — BrOdÌQfZ, - << «<< <5 << + 86Hinh 4.18 Cac duong cong PR cua cac giai thuat matching, CC, pbLBP, CH,GGD&KLD, Gabor, contourlet, HMT, curvelet — BrOdÌQfZ, - << «<< <5 << + 87Hình 5.1 Qui trình xử lý phan loại dùng mô hình BOW ee eesseeeceeeceeeeeneeeeeees 9]Hình 5.2 Minh họa cho các phương pháp chia lưới trong ảnh - «555 <<<5 92
Hình 5.3 Minh họa SPM từ [112]: 3 loại đặc trưng biểu diễn bởi cham tròn, hình thoi,và dau cộng Ảnh được chia thành 3 mức khác nhau, mức 1 tính được 1 histogram,
mức 2 tính được 4 histogram ứng voi 4 vùng, và mức 3 tinh được 16 histogram ứngvới 16 vùng đưỢC ChIUa 91 1 0000110 kh 97
Trang 14Hình 5.4 Ma trận Hdes biểu diễn các hàm mã hóa và tổng hợp cho bộ mô tả đes (hìnhđược thay đối dự trên mô hình [ 1 1 7] ) - - - <2 2 + 2£ EE£E+E+E£E+E£E£E£EeEeEeEererererees 98
Hình 5.5 Độ chính xác trung bình của các class dùng ham kernel +2 (kchi2) ứng với
30 ảnh huấn luyện va 30 ảnh kiểm tra mỗi œÌaSS - 5-5 2 S+E+E+E+E+EzEeEerereei 103
Hình 5.6 Độ chính xác trung bình của các class dùng hàm kernel Intersection
(histintersection) ứng với 30 ảnh huấn luyện và 30 ảnh kiểm tra mỗi class 103
Hình 5.7 Độ chính xác trung bình của các class dùng ham kernel L, (L/jame) ứng với
30 ảnh huấn luyện va 30 ảnh kiểm tra mỗi œÌaSS - 5-5 2 S+E+E+E+E+EzEeEerereei 104
Trang 15DANH MỤC BANG BIEU
Bang 2.1 Các hướng - cọ 23Bang 2.2 Các đặc trưng texture từ ma trận CC ÏMÍ c3 sseeseeeesse 23Bang 2.3 Hướng Ø tương ứng với các băng con của Haar wavelets - 25
Bảng 3.1 Thứ tự kết quả truy vẫn của ảnh đối tượng - 5-5 + cs+x+esEsrsrsrrees 41
Bang 3.2 Trích các đặc trưng texture từ ma trận ŒLCÍ - << s2 48
Bảng 3.3 So sánh độ chính xác trung bình của các phương pháp truy van dùng wavelet
Ccorrelogram Và COH†OHFÏ€f COOCCHYTHCÔ và 52Bảng 3.4 So sánh độ chính xác trung bình của các phương pháp Phase-Based LBP vớicác phương pháp Magnitude-Based LBP c che 59Bảng 3.5 So sánh độ chính xác trung bình của phương pháp Phase Steerable Pyramidvới các phương pháp khác - - - - «+ + 1111100133333 9911110111 1 ng vn 61
Bang 3.6 Tham chiếu độ chính xác trung bình của phương pháp dé xuất với các hệthống truy vấn khác - + +56 1 123 15151511 1121115 1111111111511 1111111111111 rk.71Bang 3.7 Thứ hang MAP của 4 giải thuật dé xuất occ ccseeseseececseeeseseeeseenens 72Bang 4.1 Tổng hợp các thông số khảo sát 9 giải thuật trên UJUC 5-5 76Bảng 4.2 Tổng hợp các thông số khảo sát 9 giải thuật trên Brodaz -. - 81Bảng 4.3 Kết quả khảo sát thông số trong các giải thuật để xuất (tập ảnh khảo sát
WANG) trong thực nghiệm Mục ÌD.Ì << 001k rrh 88
Bang 4.4 Kết quả khảo sát mức độ hiệu qua giữa các giải thuật truy van dé xuất thực
0340119108)/0)198902ã000787Ẻ a - 88
Bang 4.5 Kết quả khảo sát hiệu qua của 4 giải thuật dé xuất so với các giải thuật truyvấn ảnh khác trong thực nghiệm Mục 4.2 Ăc S111 1111111 111 1 1v ve, 89
Bang 5.1 Giải thuật cho integrated Method cccccccccesesseccceeeseeessnneeeeeeesesneeeeeeeeesaaeees 101
Bang 5.2 So sánh các dé xuất với các phương pháp khác trên 15 Scenes 105Bảng 5.3 So sánh các dé xuất với các phương pháp khác trên Caltech 101 106
Trang 16DANH MỤC CÁC TU VIET TAT
Từ viết tắt | Diễn giải tiếng Anh Chú thích nghĩa tiếng ViệtALIP Automatic Linguistic Indexing of | (Hệ thong) truy van anh ALIP
PicturesAP Average Precision Độ chính xác trung bìnhASIFT Affine-SIFT (Dac trung) Affine-SIFTBoW Bag-of-words Mô hình túi các từ mã - BoW
CBIR Content-based Image Retrieval Truy van anh dựa trên nội dungCC Contourlet Cooccurrence (Giai thuat) truy vân/đặc trưng
ảnh CCCCV Color Coherence Vector Vector đặc trưng mau CCVCDFB Complex Directional Filter Bank Bộ loc băng hướng phức
CH Contourlet Harris (Giai thuat) truy van/dac trung
DoH Determinant of Hessian Bo do DoHDS Dominant Scale Scale trội (cua bang con)
DWT Discrete Wavelet Transform Biên đôi wavelets rời rac
EM Expectation Maximization Ưóc lượng Expectation
MaximizationEMI) Earth Moverˆs Distance Phép đo EMD
ES Evolutionary Society (Thuật toán) tiên hóa
FB Filter Bank Dãy bộ lọc
FIRE Flexible Image Retrieval Engine (Hệ thông) truy van ảnh FIREGA Genetic Algorithm Giai thuat di truyén
GGD Gereralized Gaussian Density Ham mật độ Gauss chung/tông
quátGIF Graphics Interchange Format Dinh dang ảnh gifGLCM Grey Level Cooccurrence Matrix Ma tran GLCM (cooccurrence)GMM Gaussian Mixture Model Mo hinh Gauss tron
HMC Hidden Markov Chain Chuỗi Markov anHMM Hidden Markov Model Mô hình Markov ânHMT Hidden Markov Tree Mô hình cây Markov an
HOG Histogram of oriented gradients Dac trung anh HOGHSV Hue, Saturation, Value Khong gian mau HSV
HVS Human Visual System Hệ thông thị giác của người
KLD Kullback-Leibler Distance Phép do Kullback-LeiblerIM Independent Mixture Mô hình trộn độc lậpIRM Intergrated Region Matching Phép đo vùng tích hợp
Trang 17JPEG Joint Photographic Experts Group | Dinh dang anh jpgLBP Local Binary Pattern (Toan tu) LBPLBP-HF LBP - Histogram Fourier (Toán tử )LBP-HFLGPDP Local Gabor Phase Difference (Toan tu) LGPDP
Pattern
LoG Laplacian of Gaussian (Bo do) LoGLP Laplacian Pyramid (Toan tu) LPMAP Mean Average Orecision Trung binh cua AP
matching (Giải thuật) truy van phối hợp
các đặc trưng
MHMM Multiresolution Hidden Markov Mô hình Markov ân đa phân giải
Model
MKL Multiple Kernel Learing Giải thuật học kết hợp các kernel
ML Likelihood Ước lượng
Maximum-LikelihoodMP Matching Pursuit Phuong phap MP
MPE Multivariate Power Exponential Ham mii da biénMPEG-7 Moving Picture Experts Group —7 | Chuan MPEG-7
MRF Markov Random FiledMSRC Microsoft Research Cambridge Tap anh thuc cua MSRC
Object Recognition ImageDatabase
MUVIS CBIR System at TUT- Tampere Hệ thông truy van multimedia
University of Technology MUVIS
NIST National Institute Standard and Vién tiéu chuan va céng nghé
Technology quốc gia (Mỹ)NSCT Nonsubsample Contourlet Biến đối NSCT (contourlet
Transform không giảm mẫu)
NSDFB Nonsubsample DFB Bộ lọc băng hướng không giảm
mẫuNSP Nonsubsample Pyramid Pyramid không giảm mẫu
OQWC Optimal Quantized Wavelet (Giai thuat) truy van anh OQWC
Correlogram
pbLBP Phase-based LBP (Giai thuat) truy van pbLBPPCA Principle Component Analysis Phan tich thanh phan chinhPDF Probability Density Function Hàm mật độ xác suatpmf Probability mass function Hàm khối xác suat
PNG Portable Network Graphics Dinh dang anh pngPPM Portable PixelMap Dinh dang anh ppm
RANK Normalized Average Rank Thứ hang trung bình chuan
RGB Red, Green, Blue Không gian màu RGBRP R-precision Độ chính xác với R = R,
SD Standard Deviation Độ lệch chuan (variance —
moment bac 2)
SIFT Scale-Invariant Feature Transform | Biến đổi đặc trưng bất bién scale
Trang 18SIMPLIcity | Semantic-Sensitive Integrated (Hệ thông) truy van ảnh
Matching for Picture Libraries SIMPLIcity
SPM Spatial Pyramid Matching Cơ chê pyramid trong không
gian ảnh
SQL Structural Query Language Ngôn ngữ truy van theo câu trúc
SUSAN Smallest Univalue Segment (Bộ dò) góc SUSAN
Assimilating NucleusSVM Support vector machines (Giai thuat) phan loai SVMTIFF Tagged Image File Format Dinh dang anh tiff
TREC Text REtrieval Conference Hội nghị truy van TRECW3C Wavelet CCV-Correlogram (Giai thuat) truy van anh W3C
UIUC UIUC Texture Image Database Tap anh texture tr UIUC
WBIIS Wavelet-Based Image Indexing (Hệ thông) truy van ảnh WBIIS
and SearchingWC Wavelet Correlogram Dac trung wavelet correlogram
WD-HMM | Wavelet Domain Hidden Markov | Mô hình Markov ân trong miễn
Model wavelets
XML eXtensible Markup Language Ngôn ngữ Đánh dâu Mở rộng
Trang 191 CHUONG1- GIỚI THIEU
1.1 Dat van đềNgày nay, việc mỗi cá nhân, tổ chức có những bộ sưu tập ảnh riêng rất pho biến.Riêng với những bộ sưu tập ảnh đặc thu về các chủ đề như: thiên văn, y khoa, khoahọc tự nhién, còn là tài sản vô giá do công sức đóng góp của nhiều nhà nghiên cứu,nhà khoa học trong nhiều năm Cảng ngày, những bộ sưu tập ảnh nảy cảng lớn vàVIỆC truy van một ảnh theo một nội dung nào đó sẽ rất mat thời gian nếu bộ sưu tậpkhông được tô chức tốt Mặt khác, chi phí lưu trữ hiện nay cũng giảm di rất nhiều, cácWeb hosting đã nâng cấp người sử dụng từ vai trò của khách hàng tiếp nhận thụ độnghình ảnh trở thành người sản xuất và cung cấp hình ảnh Hiện nay, dữ liệu ảnh có thểtruy van không bị giới hạn vẻ địa lý và mỗi ngày một phát triển Những nhân tô nàytạo nên vô số nhu cau, từ đó thu hút sự quan tâm thiết kế các hệ thống truy van ảnh củanhiều nhà nghiên cứu
Dé thiết kế một công cụ truy van ảnh có khả năng phục vụ da dạng các yêu cầucủa người sử dụng cần khảo sát dưới các góc nhìn khác nhau của các thành phan thamgia vào hệ thống Cốt lõi của các hệ thống ứng dụng multimedia là phải hướng đến đốitượng trung tâm là con người (human-centered), các hệ thông truy van ảnh khi thiết kếđều phải chú trọng đến yếu tổ này Ngoài ra, những đặc điểm về cơ sở dữ liệu ảnh,phương pháp xử lý truy van, cau trúc hiến thị, hoặc dựa trên những thuộc tinh, môitrường đặc thù khác cũng phải được xét đến [1] Trong đó, việc lựa chọn phương phápxử lý truy vẫn có ảnh hưởng lớn đến hướng nghiên cứu của Luận án
1.1.1 Phương pháp xử lý truy vanMột yếu tố quan trọng dé đo đạc mức độ tương tác người dùng - hệ thống là mứcđộ phức tạp của các yêu cau truy van mà công cụ tìm kiếm có thé hỗ trợ Trên quanđiểm người dùng, điều này có nghĩa họ được hỗ trợ đa dạng các phương thức dé có théyêu câu hệ thống phục vụ Các phương thức truy vấn sau thường được sử dụng trongcác hệ thống truy vấn:
Trang 20e Tir khóa: người sử dụng dé xuất yêu câu đơn giản bằng 1 hoặc 2 từ Đây hiệnlà cách phố biến nhất để truy van ảnh, ví dụ: các công cụ truy van ảnh của
e Anh đô họa: dùng hình vẽ tay hoặc công cụ đồ họa máy tính tạo ra một hìnhanh mong muốn và yêu cau hệ thống truy van ảnh tương tự
e Téng hợp: gồm kết hợp một hoặc nhiều phương thức truy vấn giới thiệu ởtrên, và có thé bao gồm khả năng tương tác như trong các hệ thống hỏi tiếp
(relevance feedback systems).
Từ các phương thức truy van trên, các hệ thống truy van sẽ được thiết kế va phan
loại dựa trên thong tin đặc trưng mà nó xử lý Theo đó, các thông tin sử dụng thườngdựa trên:
e Dựa trên text (Text-based): xử lý yêu cầu truy van dựa trên text thường thựchiện trên một hoặc nhiều từ khóa (keyword), hay nhóm từ nhập từ người dùng
và so sánh với thông tin metadata của các ảnh trong cơ sở dữ liệu Khi xử ly
một nhóm từ dùng để truy vấn, quá trình xử lý có thể bao gồm việc phân tích,xử lý dé hệ thống có thé “hiểu” được yêu cầu của người dùng (có thé hiểu nhưdịch ngôn ngữ của người dùng sang ngôn ngữ mà hệ thống hiểu được) Điềunày sẽ cần kết hợp với một số quá trình xử lý ngôn ngữ tự nhiên
e Dựa trên nội dung (Content-based): việc xử lý yêu cầu truy van dựa trên nộidung là trọng tâm của tất cả các hệ thống CBIR (Content-Based ImageRetrieval) Bước dau, hệ thống phải trích các đặc trưng của ảnh truy vấn (làảnh mẫu hay anh đồ họa do người dùng yêu cau), sau đó các đặc trưng ảnh
này sẽ được so sánh với tập các đặc trưng ảnh của cơ sở dữ liệu ảnh trong hệ
thống Hệ thống sẽ trả về kết quả là những ảnh trong cơ sở dit liệu có các giátrị đo đạc sự khác biệt (về đặc trưng ảnh) nhỏ nhất so với ảnh truy vẫn Đâycũng là hệ thong được nghiên cứu trong Luận án này
Trang 21e Dựa trên tong hợp nội dung và text: sẽ sử dụng kết hop cả text và nội dung déthực hiện truy van ảnh Hệ thống minh họa cho xử lý này xem trong [2] [3].e Dựa trên phản hồi của hệ thong (mức đơn giản): hệ thông hỗ trợ tương tác với
người sử dụng chỉ theo một tiêu chí nào đó Ví dụ: các hệ thống truy van ảnhtrên cơ sở hồi tiếp dựa trên nội dung
e Dựa trên phản hôi của hệ thong (mức tong hợp): người sử dung có thé tươngtác bang nhiều cách thức (vi dụ bang text và image) theo nhiều mức độ khác
nhau.
Với truy van dựa trên text, điều kiện tiên quyết cho việc hỗ trợ quá trình truy vanlà phải có các thông tin metadata về bức anh (thông tin này có thé lưu kèm với dữ liệumỗi ảnh hoặc lưu trên cơ sở dữ liệu metadata chung của tập ảnh) Tuy nhiên, các bứcảnh trước đây hiếm khi có được đây đủ các thông tin này (các human tag — dang thẻghi theo mong muốn của người dùng), hay thông tin text có thé theo một ngôn ngữkhông tương thích với người dùng (ví dụ, ghi chú bang tiếng Nhật nhưng người dùnglại sử dụng tiếng Anh) nên việc truy van dựa trên text có nhiều hạn chế Hiện nay, VIỆCsưu tập các thẻ ghi (tag) của bức anh đã được quan tâm với các kỹ thuật cải tiến như:(1) cải tiễn các yêu cầu dựa trên text, (2) xây dựng tập huấn luyện tin cậy cho việc
phân tích nội dung ảnh và dùng các giải thuật ghi chú tự động.
Với truy van dựa trên nội dung, ưu điểm nổi bật là không yêu cầu các thông tinvề từ khóa hoặc thông tin metadata của ảnh Tuy nhiên, hệ thống truy van dựa trên nộidung lại gặp nhiều thách thức lớn khác như: phải xây dựng giải thuật trích đặc trưngảnh diễn tả được nội dung mong muốn của người dùng, yêu cau tốc độ xử lý nhanh đốivới hệ thống lớn
1.1.2 Sw can thiết của nghiên cứuVề ban chất, kỹ thuật CBIR tập trung vào hai van dé: (a) làm thé nao dé mô tảtoán học một ảnh (biểu diễn dưới dạng các đặc tring ảnh), (b) làm thé nào dé nhậnbiết sự tương tự giữa một cặp ảnh dựa trên những thông tin mô tả toán học của chúng.Việc rút trích đặc trưng ảnh đóng vai trò diễn dịch nội dung của ảnh thành ngôn ngữhệ thông có ảnh hưởng quan trọng đến hiệu quả truy van Đây cũng là phần nội dung
trọng tâm được nghiên cứu trong Luận án này.
Trang 22Dĩ nhiên, hệ thống CBIR còn gồm các thành phân khác cũng rất quan trọng nhưphép đo đạc sự tương tự giữa các đặc trưng ảnh, cầu trúc cơ sở dữ liệu ảnh và đặctrưng ảnh, sức mạnh phan cứng, giải thuật phần mềm cho toàn hệ thống khi quantâm đến việc triển khai theo hướng thương mại hệ thống.
Trong hơn một thập kỷ vừa qua, công cụ toán học wavelets đã nhận được sự
quan tâm đặc biệt của nhiều nhà nghiên cứu trong việc ứng dụng vào các lĩnh vực tài
chính, công nghệ thông tin, điện tử-viễn thông Hiệu quả của công cụ này đã được
thừa nhận qua rất nhiều những công trình đã được công bố Xét trong phạm vi hẹp củalĩnh vực xử lý ảnh và ứng dụng trong hệ thống CBIR cũng có nhiều công trình ứngdụng công cụ này đã được giới thiệu Bản thân của biến đổi wavelets cũng có nhữngbước phát triển sang các thế hệ wavelets kế tiếp với nhiều khả năng biểu diễn dữ liệu
(ví du: dữ liệu âm thanh, hình ảnh, video, ) đạt hiệu quả hơn.
Cụ thể, một số công trình được công bố như [4] dùng biến đối waveletsDaubechies để trích đặc trưng ảnh và thiết kế hệ thống truy vấn Tuy nhiên, hệ thôngnày sử dụng biến đối Daubechies wavelets chưa vận dụng được những ưu điểm củacác biến đối wavelets cải tiến sau này Các nghiên cứu khác [5] [6] cũng sử dụng biếnđối wavelets kết hợp các mô hình toán học khác dé trích đặc trưng ảnh
Như vậy, việc xây dựng các hệ thống CBIR là van dé đang nhận được quan tâmphát triển của nhiều nha nghiên cứu Những công trình đã công bé rải rác từ năm 2000cho đến nay cho thay kha năng ứng dụng wavelets dé trích đặc trưng ảnh và thiết kế hệthống CBIR có thé mang lại hiệu quả truy van cao Rõ ràng, hướng nghiên cứu nayvẫn còn nhiều “vùng” cần được khảo sát, và luôn có những kết quả mới trong các côngtrình công bố gần đây Vi thế, cần một nghiên cứu chỉ tiết, sâu hơn vé van dé “Truyvan ảnh theo nội dung sử dụng trích đặc trưng trên nên wavelets” và đó cũng chính là
nội dung nghiên cứu của Luận án này.113 Hướng nghiên cứu
1.1.3.1 Một số công trình có liên quanCó nhiều hệ thống CBIR thương mai (ví du: Yahoo! Image Search, Bing Image
Search, Elastic Vision, Gazopa Image Search, Google Image Search, eBay Image
Search, ), cũng như các hệ thống được phát triển dưới dang thử nghiệm (demo), mã
Trang 23nguồn mở (vi dụ: ALIPR, FIRE, imgSeek, MUVIS, Retrievr, ) Các hệ thống này sửdụng nhiều giải pháp khác nhau để trích đặc trưng ảnh và thiết kế hệ thống.
Theo đó, các đặc trưng ảnh mô tả nội dung ảnh có thé phan loai nhu sau:e Đặc trưng mức thấp (low-level features) thường là các đặc trưng cơ bản (mau,
texture, shape, );
e Đặc trưng mức cao (high-level features) là các đặc trưng có thể mô tả nộidung ảnh theo ngữ cảnh (nghĩa là có thể mô tả ảnh ở mức cao hơn như: cảnhtrong ảnh thuộc thé loại nào, ví dụ: cảnh trong nhà, cảnh ngoài trời, ảnh thựcvật, ; đối tượng trong anh, ví dụ: tòa nhà, xe hoi, chim cánh cụt, )
Đề mô tả được đặc trưng mức cao, cũng có nghĩa là mô tả được ngữ cảnh củahình ảnh (visual context) thì cần phải sử dụng các giải thuật dò/nhận dạng đối tượng
(object detection/recognition), dd/nhan dạng khái niệm hình anh (visual concept
detection/regconition) Khi đã mô ta được đặc trưng mức cao thì cũng có thé ghi chú(annotation) được đỗi với ảnh không có thông tin metadata mô tả hoặc có thông tinnày nhưng mô tả với ngôn ngữ không phù hợp Khi đó, có thé truy van ảnh dựa trên
text, tuy nhiên như đã nói, đây không phải là hướng nghiên cứu của Luận án.
Xuất ban gần đây của ImageCLEF [7] đã tóm lược khái quát các công trình dòđối tượng và khái niệm hình ảnh (visual object and concept detection) ứng dụng chotruy van ảnh Chi tiết các công trình có thể xem trong Chương 11, mục 11.3 của [7].Nhìn chung, có một số yếu tô cần xét đến khi dò đối tượng/khái niệm trong ảnh gồm:
bộ mô tả đặc trưng hình ảnh (visual descriptor), tạo codebook, các phương pháp phân
loại (classification), và các bước hậu xử ly (post-processing) Cụ thé:© Bộ mô tá: Có một số lượng lớn bộ mô tả đặc trưng hình ảnh được phân vào hai
dạng là: đặc trưng toàn cục (mô tả trên toàn ảnh) và đặc trưng cục bộ (mô tảtrên một vùng của ảnh) Với đặc trưng cục bộ, kích thước khác nhau của vùng
ảnh mô tả được xét đến: một số bộ mô tả chỉ dùng các vùng ảnh vuông nhỏtrong khi một số khác quan tâm đến một phần lớn của ảnh (như các vùng phânđoạn của ảnh) Vị trí dé trích đặc trưng cục bộ cũng rất đa dạng (như: dựa trêncác điểm chia theo dạng lưới hoặc dựa trên các điểm đặc thù dò được ).e Tao codebook: Khi sử dụng các đặc trưng cục bộ cần có một mô hình biểu
diễn giúp phân loại, nhận diện được ảnh Một mô hình được sử dụng nhiều là
Trang 24mô hình bag-of-words (BoW - nghĩa là các đặc trưng của ảnh có thé biểu diễntheo một bộ từ điển các “words” xác định), đây là quá trình tạo ra cáccodebook hay còn gọi là bộ từ điển Ví dụ, một phương pháp pho biến là phân
cluster tập các đặc trưng mô tả cục bộ sử dụng k-mean (thường là từ 500-2000
clusters), sau đó mỗi ảnh được biểu diễn bởi một histogram theo sỐ lượng đặctrưng cục bộ được phân vào các cluster Chương 5 sẽ giới thiệu chi tiết hơn về
mô hình BoW cho ứng dụng mở rộng của Luận án.e Phương pháp phán loại: Với một bộ mô tả đặc trưng anh, quá trình phân loại
được sử dụng để dự đoán thể loại của ảnh khảo sát Các thông số trong quátrình phân loại được xác định dựa trên dữ liệu huấn luyện và có thé tinh chỉnhtrong quá trình xác nhận dữ liệu Một số phương pháp được sử dung là ướctính mô hình phân bố xác suất của các dữ liệu quan sát (dữ liệu mẫu) cho mỗilớp (class) và dùng mô hình này để dự đoán lớp, thé loại của ảnh khảo sát e Bước hậu xử ly: Sau bước phân loại, có thé sử dụng thêm các bước xử lý dé
tinh chỉnh kết quả Cách tiếp cận phố biến là phân tích mối tương quan
(co-occurrence hoặc correlation) của ngữ cảnh khái niệm (concept context) trong
dữ liệu huan luyện.Ví dụ trong [8], Thomas Deselaers phân các đặc trưng anh theo: (a) biểu diễn đặctrưng màu; (b) biểu diễn đặc trưng texture; (c) các đặc trưng cục bộ: (d) các đặc trưng
shape (loại đặc trưng này theo cách ứng dụng trong thực nghiệm của tác giả thực ra
không biểu diễn hoàn toàn được shape trong ảnh do các yêu cầu liên quan đến giải
thuật phân đoạn anh) Các đặc trưng cục bộ (LF — local feature) cua Thomas Deselaer
được dựa trên các image patch Cac image patch được trích dựa trên: (a) các điểm đặc
thù (salient point) của ảnh và dùng phương pháp giảm kích thước như PCA; (b) dùng
bộ mô tả SIFT trích đặc trưng ở các điểm đò được Các đặc trưng ảnh được xây dựngtừ các image patch của toàn co sở đữ liệu ảnh và được phân vào các cluster dé ứngdụng cho mục đích truy vẫn sau này
Xét trong một mảng nhỏ hơn đối với các hệ thống CBIR sử dụng các đặc trưngảnh được xây dựng dựa trên biến đổi wavelets và thiết kế giải thuật truy van tươngứng Phụ lục B giới thiệu tóm lược một số hệ thống được nhiều trích dẫn là:
e WBIIS (Wavelet-Based Image Indexing and Searching) [4],
Trang 25e SIMPLIcity (Semantic-Sensitive Integrated Matching for Picture LIbraries)
[5]
e ALIP (Automatic Linguistic Indexing of Pictures) [6],
e Hệ thống truy van dùng wavelet correlogram [9] [10],Các hệ thống CBIR giới thiệu ở đây chủ yếu sử dung biến đôi wavelets cơ bản détrích đặc trưng ảnh Từ các đặc trưng này, các tác giả kết hợp với những công cụ toánhọc, các đặc trưng khác để hình thành nên đặc trưng chung của ảnh Ví dụ, với hệthống SIMPLYcity là sử dụng phân đoạn ảnh dé hình thành các vùng anh, trích đặctrưng từng vùng và so sánh các vùng với nhau; với hệ thống ALIP, trích đặc trưng anhvà sử dụng các mô hình thống kê để hình thành các “khái niệm ảnh” Hệ thống dựatrên wavelet correlogram lại ứng dụng bién đối wavelets và việc khảo sát sự tươngquan (giữa giá trị lượng tử thanh xám) của các pixel ở mỗi băng con dé hình thành nên
các đặc trưng ảnh.
Có thể thấy, việc xây dựng các hệ thống CBIR dựa trên bién đổi wavelets (chủ
yếu là xây dựng các đặc trưng ảnh từ các hệ số wavelets) đã nhận được sự quan tâmcủa nhiều nhà nghiên cứu Bản thân biến đổi wavelets là công cụ toán học hiệu quảtrong biéu diễn anh, nhung dé có thé thiết kế được hệ thống CBIR đạt yêu cầu cần cócác công cụ toán học, giải thuật linh hoạt kết hợp với biến đối wavelets
1.1.3.2 Lua chọn hướng nghiên cứu
Một lý do quan trọng để Luận án chọn hướng nghiên cứu dựa trên các biến đổiwavelets là sự phát triển rất nhanh từ biến đối wavelets co bản đến các biến đổiwavelets phiên bản khác, cải tiễn hơn như: steerable pyramid, curvelets, contourlets,bandelets, surfacelets, Mặt khác, nhiều giải pháp trích đặc trưng ảnh trong miềnwavelets đã được công bố mở ra đa dạng hướng nghiên cứu trong việc xây dựng cácđặc trưng ảnh Nhìn chung, biến đối wavelets và các cải tiến của nó cho phép biểu diễnảnh theo các scale, hướng khác nhau So với ảnh trong miền không gian, ảnh qua biếnđổi wavelets được biểu diễn bởi nhiều băng con Thông qua phân tích đa phân giải,mỗi băng con sẽ biểu diễn tính chất đặc thù về mức phân giải và hướng của ảnh Theođó, các thông tin ảnh như contour, edge, điểm đặc thù, được mô tả kết hợp với mỗi
băng con Điêu này đông nghĩa việc trích đặc trưng của ảnh có thê thực hiện trên nhiêu
Trang 26băng con (thực hiện trên mỗi băng con hoặc đồng thời xét đến mối tương quan giữacác băng con trên cùng một scale, hoặc giữa các scale như một số công trình đã thực
hiện được giới thiệu trong Phu lục A) Hinh 1.1 minh họa việc trích đặc trưng ảnhtrong miên không gian và miễn wavelets.
Băng con “ Băng conScale 1, Scale 1,hướng 1 hướng k5 xã ‘ 9R Biên đỗi 9 H
Đặc trưng trong mien wavelet (waveletkhéng gian (spatial domain):
domain): - Momnent của băng con
- Texture - Mô hình thống kê
- Shape - Salien point
_ p - Đặc trưng từ bang con
Hình 1.1 Trích đặc trưng trong miền không gian và miền waveletsDo đó, trong miền wavelets các giải pháp trích đặc trưng sẽ được mở rộng chonhiều băng con, nên các đặc trưng trích được có khả năng mô tả thông tin ảnh tốt hơnso với chỉ dùng một ảnh gốc trong miền không gian
Trên cơ sở các công trình nghiên cứu đã công bố, một số hướng nghiên cứu cóthể khái quát như sau:
e Phát triển, cải tiễn các biến đối wavelets: nghĩa là thiết kế các wavelets mớiứng dụng cho hệ thống CBIR Hướng nghiên cứu nảy đã được nhiều nhànghiên cứu quan tâm và đã giới thiệu rất nhiều wavelets khác nhau Việc ứngdụng các wavelets này vẫn chưa được khảo sát đầy đủ Các giải thuật truy vancó thể thiết kế dùng các đặc trưng ảnh trích được nhờ ứng dụng các waveletsnày Vì thé, Luận án không tập trung vào việc phát triển các wavelets cải tiến(thiên về nghiên cứu lý thuyết toán) mà hướng đến ứng dụng các wavelets đãcông bố dé dé xuất các giải thuật trích đặc trưng (thién về nghiên cứu ứngdụng cụ thê)
Trang 27e Phát triển, cải tiến các mô hình thống kê các hệ số wavelets theo từng băng
con (dùng các mô hình như: Gauss trộn, Cauchy, MPE — Multivariate Power
Exponential cho wavelets cô điển; Weibull, Gamma, Copula Modeling
cho wavelets phức) [11]; hoặc mô hình multiscale (Binary Tree, Quad Tree),mô hình MRF — Markov Random Field khảo sat sự tương quan giữa các scale
[12] Hai luận án tiễn sĩ gần đây [11], [12] đã giới thiệu các nghiên cứu sâu vềhướng nảy Tuy nhiên, việc ước tính các mô hình thống kê thường sử dụng cácước tính thống kê (ví dụ: ML — Maximum Likelihood, EM - Expectation
Maximization) thường dùng các vòng lặp nên có độ phức tạp tính toán cao góp
phan làm chậm tốc độ truy van Hơn nữa, chỉ những ảnh thuần texture là phùhợp cho sử dụng mô hình thống kê, với ảnh thực cần có các bước trích riêngcác vùng texture (như phân đoạn, dựa trên những điểm đặc thù để trích cácvùng (patch), ) như hệ thống SIMPLYcity Vi vậy, Luận án nay sẽ khônghướng đến nghiên cứu trích đặc trưng ảnh dựa trên mô hình thống kê (đâycũng là hướng nghiên cứu đã có khá nhiều công trình được công bô)
e Với những biến đổi wavelets đã được công bố, nhiều đặc trưng ảnh đã đượcrút trích và ứng dụng vào thiết kế giải thuật truy vẫn Tuy nhiên, với nhiều cơsở dữ liệu ảnh nếu chỉ dùng một đặc trưng ảnh trích dựa trên miền wavelets thìkhông đạt hiệu quả như mong muốn Việc phối hợp một hoặc nhiều hơn các
đặc trưng ảnh dựa trên wavelets và các đặc trưng ảnh khác (không dựa trên
wavelets) dé cho kết quả truy van tốt hơn là cần thiết Hướng nghiên cứu nàyđã được một số nhà nghiên cứu quan tâm Tuy nhiên, với số lượng lớn các đặctrưng anh đã được công bồ thì giải pháp phối hợp giữa chúng để đạt kết quatruy van cao cho một cơ sở dữ liệu là tô hợp rất lớn các giải pháp có thé Daylà hướng nghiên cứu dựa trên thực nghiệm, nên cần thời gian để thực hiện cáckhảo sát Luận án sẽ nỗ lực dé xuất một giải pháp khả thi theo hướng này.e Trong miền wavelets, các băng con của ảnh biéu diễn được các đặc tính hình
học của ảnh theo scale, hướng Việc khảo sát những đặc tính hình học này đã
được sử dụng trong nén ảnh [13], dựa trên các điểm đặc thù [14], kết hợp vớinhững công cụ toán học khác để có thể trích các đặc trưng từ các hệ số
wavelets (như dùng cooccurrence, LBP - Local Binary Pattern, ) Day là
Trang 28hướng nghiên cứu ấn chứa nhiều khả năng phát triển Do đó, Luận án này sẽ
tập trung nghiên cứu sáu theo hướng này.1.2 Mục tiêu và nội dung nghiên cứu
Từ các phân tích ở trên, Luận án này xây dựng mục tiêu nghiên cứu tập trung vào
việc ứng dụng biến đối wavelets vào thiết kế hệ thống CBIR mà cụ thé là: xây đựngcác thuật toán rút trích đặc trưng ảnh dùng biến đổi wavelets và giải thuật truy vanphù hợp, cùng khả năng ứng dụng mở rộng của các đặc trưng đề xuất
Các nội dung được triển khai nghiên cứu gồm:1 Nghiên cứu khả năng kết hợp của các đặc trưng ảnh được tạo ra dựa trên biến
đổi wavelets và các đặc trưng phổ biến khác như đặc trưng mau, đặc trưng
e Nguyễn Đức Hoang, Lê Tiến Thường, Dé Hồng Tuấn, Bùi Thư Cao, NguyễnXuân Tý, “M6t phương pháp phối hợp các đặc trưng toàn cục để truy vananh”, Chuyên san BCVT, Táp V-1, Số 2 (22), trang 67-79, tháng 12/2009.1.3.2 Nghiên cứu kết hợp biến doi contourlets và ma trận GLCM để dé xuất một bộ
mo tả đặc trưng anh moi contourlet cooccurrence
Trang 29Tác giả giới thiệu một bộ mô tả mới dùng để trích đặc trưng của các ảnh trong cơsở dữ liệu ảnh Bộ mô tả mới này, gọi là confourlef cooccurrence, được thiết kế dựatrên sự kết hợp của biến đổi contourlets và ma trận cooccurrence của mức xám (GLCM- Grey Level Cooccurrence Matrix) Dé đánh giá hiệu qua của bộ mô tả dé xuất, tácgiả thực hiện các so sánh giữa phương pháp dùng các bộ mô tả đặc trưng đã công bố
như contourlet, GLCM với bộ mô tả đặc trưng contourlet cooccurrence trong ứng
dụng truy van ảnh Kết qua thực nghiệm đã chứng minh phương pháp dé xuất có hiệuquả truy vẫn được cải thiện tốt hơn Xem:
e Hoang Nguyen-Duc, Thuong Le-Tien, Tuan Do-Hong, Cao Bui-Thu, “A Newdescriptor for image retrieval using contourlet cooccurrence”, Tap chi Phat
triển Khoa hoc va Công nghệ, DH Quốc gia TP HCM, pp 5-16, Tập 15, Số
K2-2012.
1.3.3 Nghiên cứu kết hop biến doi wavelets phức và toán tử LBP để truy van ảnh
texture.
Một phương pháp trích đặc trưng anh gọi là phương pháp Phase-based LBP được
dé xuất Phương pháp này dựa trên sự kết hợp giữa thông tin pha của các hệ sốwavelets phức và toán tử LBP Tác giả cũng thực hiện các phân tích so sánh về hiệuquả truy vẫn đối với thông tin pha từ một số biến đối wavelets phức sử dung trongphương pháp Phase-based LBP Các kết quả thực nghiệm, được thực hiện trên tập ảnhBrodatz xoay chuẩn, cho thay các kết quả thú vị của phương pháp dé xuất so với cácphương pháp chỉ sử dụng phần thực hoặc thông tin biên độ của các hệ số waveletstrong ứng dụng truy van ảnh texture Xem:
e Hoang Nguyen-Duc, Thuong Le-Tien, Tuan Do-Hong, Cao Bui-Thu,“Texture Image Retrieval using Phase-Based Features in the ComplexWavelet Domain”, The 2010 International Conference on AdvancedTechnologies for Communication (ATC 2010), pp 179-184, Ho Chi Minh,Vietnam, August 20-22, 2010.
13.4 Nghiên cứu kết hợp biến đổi Nonsubsampled Contourlet (NSCT) và bộ do
góc Harris để hình thành bộ trích đặc trưng contourlet Harris và thiết kế giải
thuật truy van
Ở đây, phương pháp truy van ảnh dựa trên biến đổi NSCT và bộ dò góc Harris
Trang 30được giới thiệu NSCT rất hiệu quả trong biểu diễn thông tin hình hoc của ảnh và dođó nó có thể khu biệt tốt các đặc trưng ảnh Bộ dò góc Harris là một trong những giảithuật dò điểm được sử dụng rộng rãi do nó hiệu quả trong ghi nhận các thay đổi về:góc xoay (rotation), scale, độ sáng của ảnh Bộ dò điểm đặc trưng dựa trên NTSCđược đề xuất bởi sự kết hợp của NTSC và bộ dò góc Harris và gọi là bộ trích đặc trưng
confourlet Harris Các thực nghiệm được thực hiện trên cơ sở dữ liệu ảnh WANG
nhăm mục dich so sánh hiệu quả truy vẫn của phương pháp dé xuất so với một sốphương pháp đã được công bố Xem:
e Hoang Nguyen-Duc, Thuong Le-Tien, Tuan Do-Hong, Cao Bui-Thu, Ty Xuan, “Image Retrieval Using Contourlet Based Interest Points”, 10thInternational Conference on Information Science, Signal Processing and theirApplications USSPA 2010), pp 93-96, Kuala Lumpur, Malaysia, May 10-13,2010.
Ng-13.5 Thue nghiệm khảo sát đánh giá mở rộng các giải thuật đề xuất và so sánh
hiệu quả truy van vớt mot số giải thuật đã công bô khác
Các kết quả đánh giá bước đầu trong dé xuất các bộ trích đặc trưng và giải thuậttruy van đã cho kết quả tốt Dé có một đánh giá tổng quan hơn về các giải thuật déxuất thì cần có các khảo sát chỉ tiết hơn về các thông số chọn lựa, thực nghiệm trênnhiều tập ảnh hơn, và có các đánh giá mức độ hiệu quả của giải thuật đề xuất so vớicác giải thuật khác Các diễn giải, nhận xét dựa trên các kết quả thu được sẽ là cơ sởcho các đánh giá, kết luận trong phan tong kết cũng như đưa ra các hướng nghiên cứuphát triển trong tương lai Xem:
e Hoang Nguyen-Duc, Thuong Le-Tien, Tuan Do-Hong, Cao Bui-Thu,“Performance evaluation of image retrieval algorithms using wavelet-basedfeature extraction: an experimental study”, The 10th IASTED InternationalConference on Visualization, Imaging, and Image Processing (VIIP2012),Banff, Canada, July 3-5, 2012.
1.3.6 Ung dụng mở rộng của các đặc trưng dé xuấtTrong phan này, tác giả sử dụng một đặc trưng dé xuất dé ứng dụng trong phânloại ảnh Dựa trên mô hình BoW, các dé xuất về phương pháp phân loại cũng được
Trang 31giới thiệu va qua thực nghiệm cho thay độ chính xác phân loại có thé so sánh được vớicác phương pháp khác công bố gần đây Xem:
e Nguyễn Đức Hoang, Lê Tiến Thường, Đỗ Hồng Tuấn, Bùi Thư Cao, “A
Survey of Classification Accuracy Using Multi-features and Multi-kernels”,The 2013 International Conference on Advanced Technologies forCommunication (ATC 2013), pp 661-666, Ho Chi Minh, Vietnam, October
16-18, 2013.1.4 Cau trúc Luan án
Chương 1 mô ta khái quát và các công trình liên quan đến nghiên cứu nay Mục
tiêu và nội dung nghiên cứu cũng được trinh bày trong chương này Cac đóng góp củanghiên cứu này cũng được giới thiệu tóm lược.
Chương 2 giới thiệu các thành phan cau trúc chính của một hệ thống CBIR.Phan tiếp theo của chương chọn một số các kỹ thuật đánh giá hiệu quả truy van Phancuối chương sẽ đưa ra các mô hình nghiên cứu của Luận án Hỗ trợ cho chương naycòn có Phụ lục A, riêng Phụ lục C sẽ thiết kế một hệ thống CBIR có tinh mở, dé dùngcho quá trình thực nghiệm trình bày trong các chương kế tiếp, và giới thiệu các tập ảnh
sử dụng trong khảo sát các thực nghiệm.
Chương 3 trình bày các nghiên cứu đề xuất 3 bộ trích đặc trưng ảnh mới, thiết kếvà xây dựng 4 giải thuật truy vẫn tương ứng Các thực nghiệm đánh giá hiệu quả bướcđầu của các giải thuật đề xuất cũng được giới thiệu
Chương 4 mô tả một số khảo sát thực nghiệm đánh giá các giải thuật đề xuấttheo nhiều mục tiêu khác nhau Phụ lục D sẽ trình bày bé sung mot số khảo sát thựcnghiệm chỉ tiết khác Các nhận xét đánh giá cũng sẽ được đưa ra trong chương nay
Chương 5 ứng dụng mở rộng của một đặc trưng đề xuất cho phân loại ảnh.Chương 6 đưa ra các đánh giá chung, hướng nghiên cứu phát triển và kết luận.Như đã nói ngoài các Chương, Luận án còn gồm các Phụ lục A, B, C, D có vaitrò hỗ trợ, cung cấp b6 sung thông tin cho các nội dung (chủ yếu là các nội dung trongChương 2, riêng Phụ lục C, D còn cung cấp thông tin bố sung cho các thực nghiệm
trong Chương 3, 4).
Trang 322_ CHƯƠNG2- CÁC KỸ THUẬT THIẾT KE, ĐÁNH GIÁ HE THONG
TRUY VAN ANH VÀ CÁC MÔ HÌNH NGHIÊN CUU
Nhìn chung, để mô tả được ảnh đạt độ chính xác cao theo ý nghĩa nao đó thì giảithuật trích đặc trưng ảnh phải biểu diễn được ảnh theo ý nghĩa đó, và hiệu quả truy vanđạt được phụ thuộc cốt yếu vào đặc trưng ảnh được biéu diễn Đã có nhiều công trìnhcông bố và chứng minh mức độ hiệu quả truy vẫn dựa trên các đặc trưng ảnh đề xuấtnhư: [4] [5] [6] [15] [16] và các kết quả đạt được đối với các cơ sở dữ liệu ảnh thựcnghiệm vẫn còn để ngõ nhiều hướng khai thác khác nhau Do đó, không ngạc nhiên đểthấy có nhiều nỗ lực nghiên cứu cải tiễn theo hướng phát triển các đặc trưng ảnh và sửdụng phép đo đạc sự tương tự giữa các đặc trưng ảnh phù hợp để thiết kế hệ thống
CBIR.
Tùy theo cấu trúc của đặc trưng ảnh sử dung ma một phép đo hoặc một nhómphép đo có thể được chọn để đo sự tương tự giữa các đặc trưng Đề có thể đánh giáđược mức độ hiệu quả của một giải thuật truy vẫn ảnh cũng cần phải có các phươngpháp, tiêu chuẩn đánh giá thích hợp và đặc thù cho lĩnh vực truy vấn ảnh Chương nàygiới thiệu về cơ sở lý thuyết, các phân tích vẻ hệ thống truy vẫn ảnh và có vai trò nhưmột chương tổng quan phục vụ cho các nghiên cứu trong chương sau Các nội dungtrong Chương nảy được trình bày cô đọng, ngắn gọn Các mô tả chỉ tiết hơn của mộtsố nội dung sẽ được trình bày bồ sung trong các Phụ lục
2.1 Các kỹ thuật trích đặc trưng anh
2.1.1 Biểu diễn và mô tả ảnhTùy theo ứng dụng, quá trình xử lý ảnh có thể thực hiện thông qua nhiều bước xửlý như: nâng cao chất lượng (enhancement), phân đoạn (segmentation) hay phân vùngảnh, biểu diễn ảnh (trích chọn các đặc trưng ảnh như chọn các tính chất thé hiện đặc
tính của ảnh dưới dạng các thông tin định lượng), nhận dạng và nội suy ảnh(recognition và Inferpretation)
Trong ứng dụng truy van anh, quá trình mô tả (biểu diễn ảnh) nhằm đặc tả (biểudiễn) lại theo các đặc trưng ảnh (như: đặc trưng mau, texture, shape, ) có vai trò đặcbiệt quan trọng Việc biểu diễn ảnh có thé thực hiện trong miền không gian hoặc trong
miền biên đôi của anh và môi phương pháp có những ưu nhược điêm riêng tùy theo
Trang 33ứng dụng Các phép biến đồi thường được sử dụng như: biến đổi Fourier (FFT), biénđôi rời rac cosine (DCT), biến đổi wavelets,
Wavelets và các bộ lọc băng (FB — Filter Banks) là một chủ đề nghiên cứu nhậnđược sự quan tâm của rất nhiều nhà nghiên cứu trong nhiều năm Biến đổi wavelets rờirac (DWT — Discrete Wavelet Transform) đã được chứng minh là có thé biểu diễn tốiưu các đoạn trơn (piecewise smooth) của tín hiệu một chiều (1-D) [17], và được mởrộng trong nhiều tín hiệu nhiều chiều gdm các ứng dụng xử lý ảnh Tuy nhiên, DWTphân tách được (separable) cũng có những giới hạn đã được nhiều nhà nghiên cứu chỉra [18], [19], [20], [21], trong đó hai tinh chat quan trong con han chế là không thỏatính chat bat biến dich (shift invariance) và không linh hoạt về hướng
Với dữ liệu 2D, các wavelets chỉ biểu diễn tốt đặc tính không liên tục ở các điểmbiên, nhưng không biểu diễn tốt đặc tính tron (smoothness) của các đường biên ảnh Vidụ, ảnh là đữ liệu hai chiều thường chứa các chuyển dịch sắc cạnh như các cạnh biên(edge), và thông tin này được trải rộng trên các thành phan của co sở wavelets Kếtquả là cần nhiều cơ sở wavelets để biểu diễn chính xác các đối tượng trong ảnh Dođó, các nhà nghiên cứu đã phát triển các bién đổi wavelets cải tiến kế thừa những ưuđiểm của wavelets cơ bản và khắc phục các hạn chế (như: không nhạy, linh hoạt vềhướng, ) của nó để có thé biểu diễn dữ liệu 2-D hiệu qua và linh hoạt hơn Một sốphát triển từ bién đổi wavelets co bản đã được công bố như: Gabor wavelets [22],
contourlets [23], [24], complex wavelets [20] ridgelets [25], curvelets [26], bandelets
[27], và một số giải pháp cải tiến hướng như “directional wavelets” [28], [29], [30] Mỗi phương pháp biến đổi wavelets đề xuất có những ưu điểm riêng trong biểu diễn
ảnh so với wavelets cơ bản.
Như trình bày trong phần mục tiêu và nội dung nghiên cứu, các chương sau sẽtrình bày cụ thé các khảo sát, nghiên cứu, đề xuất rút trích các đặc trưng ảnh dựa trênbiểu diễn ảnh trong miền wavelets va các kết quả thực nghiệm
2.1.2 Các dac trưng cơ bảnPhân này sẽ trình bày một sô đặc trưng ảnh cơ bản và phân loại một sô đặc trưngảnh có sử dụng biên đôi wavelets như xác định trong mục tiêu và nội dung nghiên cứu.
s* Đặc trưng mau (Color).
Trang 34Hình ảnh bao gồm một mảng các pixel, và mỗi pixel thể hiện một màu sắc Cónhiều không gian màu được sử dụng để tính toán các giá trị màu của pixel như: khônggian chuan RGB, không gian trực giác HSV, không gian đều cảm quan L*a*b, hoặc tậpbat biến của các không gian mau như giới thiệu trong [31], [32] Việc nghiên cứu các
đặc trưng màu được tập trung theo hướng xây dựng các vector đặc trưng từ ba thành
phan mau Một tập các mô tả đặc trưng mau, texture cua anh va video đã duoc dé xuatvà chap nhận trong chuẩn MPEG-7 [33] Tập này gồm các mô ta dựa trên histogram
(histogram-based descriptor), mô ta không gian mau (spatial color descriptor), mô ta
texture (texture descriptor) rat phù hop với ứng dung truy van ảnh Các đặc trưngđược lưu giữ dưới dạng các vector biểu diễn cho các thông tin mô tả nội dung ảnh
** Đặc trưng texture.Các đặc trưng texture có xu hướng ghi nhận các “hoa văn” dạng hạt, vân, của
những vùng cục bộ (local pattern) trong ảnh Vi dụ, mặt sân cỏ, tường gach, vân gỗ,
vân đá, là những dạng texture khác nhau Tùy theo cơ sở dữ liệu ảnh như: ảnh
không gian, ảnh y tế, hệ thống truy van sử dụng các đặc trưng texture có tinh chất,đặc thù riêng để đạt hiệu quả truy vẫn cao nhất xét về độ chính xác, thời gian xử lý
Các đặc trưng texture đã được nghiên cứu một thời gian dài trong các lĩnh vực như: xử
lý anh, computer vision, đồ họa máy tính (computer graphic) Có rất nhiều giải pháptrích đặc trưng texture của ảnh đã được công bố và có thể phân loại thành hai dạngtrích đặc trưng texture: trong miền không gian và trong miền biến đổi của ảnh Trongmiền không gian ảnh, một giải pháp rất nổi tiếng của [34] đề xuất dùng ma trận
GLCM (Grey Level Cooccurrence Matrix - còn được gọi là Grey Tone Spatial
Dependency Matrix) là ma trận thé hiện sự tương quan về không gian theo thang xám
(giá tri mức xám) cua hai pixel lân cận, sau đó các đặc trưng texture được tính toán
dựa trên đặc trưng thống kê có tính bất biến dịch (shift invariant) Trong miền biếnđối, thông thường, các ảnh được biến đối dùng các phép biến đối (như: Fourier,wavelets, ), dựa trên tính chất đặc thù của phép biến đổi, đặc trưng texture sẽ đượctrích từ các hệ số biến đổi (ví dụ: dùng trị trung bình, variance, mô hình thống ké, )
Một trong những đặc trưng texture đi tiên phong cho xu hướng nay là [35] sử dụng
thông tin thống kê (trung bình và variance) từ các băng con của ảnh sau biến đổiGabor wavelets để xây dựng vector đặc trưng Các bộ mô tả texture, sử dụng trong
Trang 35MPEG-7, được trình bay trong [33], các đặc trưng texture dùng biến đổi wavelets vàbiến đổi cosine rời rac có thé xem trong [36], [37], hoặc dùng các mô ta thống kêMarkov dựa trên các cặp hệ số wavelets ở các scale (tỉ lệ)/orientation (hướng)/location(vị tri) kể nhau trong ảnh được giới thiệu trong [38] Nhìn chung, hướng trích đặctrưng texture ảnh trong miền biến đổi là hướng nhận được sự quan tâm của rất nhiều
nhà nghiên cứu Day cũng là đặc trưng được quan tâm nghiên cứu của Luận an.s* Đặc trưng shape.
Phan đoạn anh là quá trình phần nhóm các pixel trong ảnh dựa trên các tiêu
chuẩn tương đồng về màu, về texture, hoặc dựa trên các đường biên kết nối, Khi đó,
shape (dạng) là thuộc tính chính của các vùng ảnh phân đoạn, và đặc trưng shape có
thể dùng để biểu diễn cho vùng phân đoạn Đặc trưng shape cũng đóng vai trò quantrọng trong nhiều hệ thống truy van ảnh Trong [15], các kỹ thuật biểu diễn shape được
phân thành hai phương pháp: contour-based và region-based Hai phương pháp này
biểu diễn các đặc trưng shape được trích từ contour (đường bao) của hình dạng đốitượng trong ảnh hoặc từ thông tin của toan region (vùng) biểu diễn cho đối tượngtrong ảnh Có thé biểu diễn shape bằng phương pháp phát triển đường cong (curveevolution), nghĩa là phát triển các đường cong từ rời rac đến các kết nối thành contour[39] Quá trình contour hóa này giúp loại bỏ nhiễu va các đặc điểm shape không phùhợp (đây là một phương pháp contour-based) Hoặc, đề xuất bộ mô tả shape mới choviệc phối hợp tương tự, như shape context, được đề xuất dựa trên một số biến đối hình
học (geometric transformation) như trong [40] Phương pháp dựa trên vùng thườngkhảo sát những vùng cục bộ, vùng trọng tâm, hướng cua vung, và thường sử dụng
các moment để biểu diễn các đặc trưng bất biến của đối tượng trong ảnh (khi các đốitượng này có những thay đổi hay biến dạng do góc nhìn thay đổi, cường độ sáng thayđối, thay đổi góc xoay, thay đổi tỉ lệ, thay đối theo biến đổi affine, thì các momentbất biến vẫn bảo toàn hoặc gân tương tự nhau) [41], [42], [43] Đối với ảnh thực tế,phương pháp trích đặc trưng shape thường yêu câu quá trình phân đoạn Quá trình xử
lý phân đoạn sẽ gia tăng độ phức tạp và thời gian tính toán Do đó, nghiên cứu nàykhông khảo sát đặc trưng shape.
% Đặc trưng dựa trên các điểm đặc thù: corner point, interest point, salient
point, keypoint
Trang 36Các đặc trưng dựa trên các bất biến cục bộ như corner points va interest pointsthường duoc sử dung trong phối hợp stereo (stereo matching) cũng được ứng dung rấttốt trong truy van ảnh Cac interest point bat bién scale và bất biến affine, bất biến khiđộ chói thay đổi có thé ứng dụng hiệu quả trong các giải thuật truy van anh [44].Tương tự, các salient point dựa trên wavelets cũng được dùng để truy van ảnh [45].Trong các nghiên cứu gan đây, phép do EMD (Earth Mover’s Distance) [46] đã đượcdùng dé phối hợp các đặc trưng bat biến cục bộ trong [47] cho ứng dụng đối sánh ảnh(image matching) Ý nghĩa quan trong của các điểm đặc thù nay thé hiện ở chỗ chúngbiểu diễn các “điểm neo” cho các vùng ảnh quan trọng, giúp cho việc gán chỉ mục(indexing) hiệu quả và biểu diễn được sự đột biến về năng lượng, đạt hiệu qua caotrong truy van anh dựa trên đối tượng (object-based retrieval) Lowe [48] đã đề xuất
bộ mô tả SIFT (Scale-Invariant Feature Transform) do đạc vùng xung quanh các
keypoint và mô tả mỗi vùng dùng histogram theo hướng Bộ mô tả nay tỏ ra hiệu quảtrong biéu diễn các tính chất bất biến của ảnh khi thay đôi độ chói, mau, scale, và xoay[49] [50] Với những kết quả đã công bố, hướng nghiên cứu trích đặc trưng dựa trêncác điểm đặc thù thé hiện những ưu thé trong biểu diễn các tính chất bất biến của ảnh.Chương 3 sẽ đề xuất một bộ mô tả đặc trưng dựa trên những điểm đặc thù
2.1.3 Các đặc trưng dựa trên wavelets
Từ các nghiên cứu về hệ thống thị giác của người (HVS — Human Visual System)và kha năng hỗ trợ đối với hình ảnh phân tích da tỉ lệ (multiscale), các nhà nghiên cứunhận thay phan vỏ não thi giác có thé được mô hình như một tập các kênh độc lập, mỗikênh biểu diễn một hướng và vùng tần số không gian riêng Đó là lý do biến đổiwavelets được ứng dụng trong nhiều đề xuất trích các đặc trưng ảnh mới
Có nhiều nghiên cứu ứng dụng wavelets để truy vẫn ảnh theo nhiều hướng khácnhau Vi dụ: các đặc trưng texture dựa trên spline wavelets được trích để truy vấn ảnh[51] Theo đó, các giá tri trung bình, độ lệch chuẩn (variance) của biên độ các hệ sốbăng con trong phân tích wavelet frame được dùng dé thiết kế vector đặc trưng Sửdụng biến đổi curvelets rời rạc có khả năng trích thông tin đường biên (edge) tốt hơnwavelets và các bộ lọc Gabor để trích các đặc trưng của ảnh texture [52] Tương tự,các bộ trích đặc trưng khác cũng được thiết kế dựa trên các biến đôi wavelets như:
Steerable Pyramid [53], contourlet [L6], Dual-Tree Complex Wavelet [54], [55],
Trang 37Xem thêm Phu lục A giới thiệu tóm lược một số wavelets được ứng dụng trongcác giải pháp đề xuất của Luận án và tập trung giới thiệu chỉ tiết một số hướng nghiêncứu trích đặc trưng dựa trên biến đổi wavelets được nhiều nhà nghiên cứu phát triển.
2.2 Kỹ thuật đo đạc sự tương tự giữa các đặc trưng
Như đã trình bày ở trên, các đặc trưng ảnh được trích để biểu diễn ảnh theo mộtsố tinh chất đặc thù của ảnh Thông thường, các đặc trưng ảnh được biểu diễn dướidang vector và gọi là vector đặc trưng Vector đặc trưng thường là vector N - chiều (cóthé xem như một điểm trong không gian N — chiều) Ví dụ: vector histogram của mộtảnh có thé xem là một vector đặc trưng và thường được dùng dé biểu diễn thông tinmàu của ảnh Đề khảo sát sự tương tự giữa hai ảnh, cần có một phép đo sự tương tựgiữa các vector đặc trưng của hai ảnh Có nhiều phép đo sự tương tự được công bố,Phụ lục A.7 giới thiệu một số phép đo sự tương tự thường sử dụng để so sánh các đặc
trưng ảnh.
Đề xác định phương pháp đo nào là phù hop cho quá trình truy van ảnh thì cácảnh hưởng liên quan đến mức độ hiệu quả truy vấn ảnh cần phải được xem xét dướinhiều sóc độ khác nhau Vi dụ, nếu việc truy van được thực hiện trong môi trườngweb, cân có kết quả nhanh thì các phép đo có độ phức tạp thấp có thể được ưu tiên nhưphép do city block (Manhattan) hoặc Euclidean Ngoài ra, câu trúc xây dựng củavector đặc trưng ảnh cũng là yếu tố quan trọng tác động đến việc lựa chọn phương
pháp đo.
Các phép đo trên chỉ áp dụng với các vector đặc trưng có kích thước giống nhau.Dé đo các vector đặc trưng có kích thước khác nhau có thé sử dụng các phép đo khácnhư Hausdorff, EMD [56] Tuy nhiên, mục tiêu đo đạc của hai phép đo này có nhiềukhác biệt so với các phép đo đã trình bày Mặt khác, các đặc trưng ảnh được đề xuấttrong Luận án này có kích thước giống nhau nên hai phép đo này không được sử dụng
Tuy thuộc thực nghiệm ở Chương 4 va Phụ lục D, Luận án sẽ có phan danh giahiệu qua sử dung của các phép do đối với mỗi loại đặc trưng anh cụ thé
2.3 Đánh giá hiệu qua giải thuật truy van
Dé đánh giá mức độ hiệu quả của các giải thuật truy van anh, can có các phương
pháp đo đạc hiệu quả truy vấn ảnh Nhiều phương pháp đo đạc hiệu quả truy vẫn đã
Trang 38được giới thiệu trong [57], [58] Tùy theo mục tiêu, việc đánh giá hiệu quả truy van cóthể sử dụng nhiều phương pháp đo đạc khác nhau Các phương pháp được chọn sửdụng dé đánh giá hiệu quả truy van của các giải thuật dé xuất trong Luận án này gồm:
e Độ phủ (recall rate) và độ chính xác (precision rate) — đường cong PR,e Phép đo F-measure,
e Độ chính xác trung bình AP (Average Precicion) và MAP (Mean AveragePrecision),
e Độ chính xác trung bình với ngưỡng xác định số ảnh truy vấn là Rg:
Mỗi thực nghiệm sẽ sử dụng toàn bộ hoặc chỉ một số các tiêu chí đánh gia này.Với mỗi giải thuật, các kết quả truy van được thực hiện cho từng class ảnh trong mỗitập dữ liệu khảo sát hoặc là trung bình của các class ảnh (biểu diễn mức độ hiệu quảcho toàn tập dữ liệu, thường được dùng để vẽ đường cong PR hoặc F-measure) Cáckết quả tính toán từ bộ các thông số nảy sẽ là căn cứ rõ ràng để đưa ra đánh giá và kết
luận cho các khảo sát thực nghiệm.2.4 Xây dựng mo hình nghiên cứu
Những ưu điểm của biểu diễn anh dùng wavelets va ứng dụng trong truy van ảnhđã được giới thiệu khái quát ở phần trên Phụ lục B giới thiệu cụ thể hơn một số hệthống CBIR thiết kế dựa trên các đặc trưng wavelets có liên quan đến hướng nghiên
Trang 39cứu của Luận án này Mục 1.1.3 cũng đã phân tích và đưa ra một số hướng nghiên cứudé từ đó hình thành mục tiêu va các nội dung nghiên cứu.
Trên cơ sở đó, phần này sẽ dé xuất các mô hình chung cho các hướng nghiên cứu
dựa trên các phân tích trong Mục 1.1.3 Từ các mô hình này, Chương 3 sẽ trình bày chi
tiết các kết quả nghiên cứu đạt được
2.4.1 Cac mô hình nghiên cứu trích đặc trưng anhNhư đã phân tích, Luận án này sẽ tập trung vào ba hướng nghiên cứu chính Các
hướng nghiên cứu được dé xuất theo các mô hình tong quát như sau:2.4.1.1 Mô hình phối hợp các đặc trưng anh
Trong mô hình này, việc phối hợp các đặc trưng ảnh có thể được phối hợp theonhiều giải pháp khác nhau Có thể sử dụng một hoặc nhiều đặc trưng ảnh được tríchdựa trên biến đối wavelets kết hợp với các đặc trưng ảnh khác Việc t6 hợp các đặctrưng rất đa dang, để đơn giản giả sử dùng 3 vector đặc trưng ảnh là F”*, FY”? (các
Fother (là đặc trưng ảnh khác, ví dụ: đặc trưng
đặc trưng trích dựa trên wavelets) và
mau) trích từ ảnh truy van; và tương ứng FM, T73, me được trích từ ảnh thứ jtrong cơ sở dữ liệu Tính tổng quát của mô hình có thé được mở rộng cho nhiều hơncác đặc trưng trích dựa trên wavelets và nhiều hơn cho các đặc trưng khác
Bước đầu tiên của mô hình là ánh xạ các vector đặc trưng đến kết quả đo đạc sựtương tự giữa hai vector (theo mỗi loại đặc trưng) của hai ảnh Cụ thê:
e D⁄1:IRWw: > R, với Nạ¿ là số chiều của vector đặc trưng F”*, theo phép do:
w1 (1, 71)
e D⁄2:IRW⁄z > R, với N+„; là số chiều của vector đặc trưng "2, theo phép do:
Tw (2, Fy?)
e Doether RNother — R, với Norner là số chiều của vector đặc trưng Z°??°“ theo
phép đo: D9ther (Father other)
Các phép đo DY1, DY”, D°"T có thé là một trong các phép do trình bay trongPhu lục A.7 dùng để đo đạc sự tương tự của các vector đặc trưng hoặc phép đo khác
(theo đặc thù của vector đặc trưng).
Bước tiếp theo của mô hình thực hiện ánh xạ Ð'"“tchinø: R3 x R3 — R bởi:
Trang 40qymatching (#1, +W2otherw1 T1, Fy? Fotherw1) =
Matching{a.Dw1 (FY, 1), 8.92 (FY, 72), y Dother (other Fother)) (2.1)
với a, Ø, y là các giá trị trọng số Matching là ham xác định từ thực nghiệm.Thông thường, Matching là phép đo tông các kết quả của các kết quả đo được Tuynhiên, trong nhiều cơ sở dữ liệu ảnh lại có sự phụ thuộc giữa các đặc trưng ảnh Ví dụ,để truy vẫn ảnh các chú ngựa trên đồng cỏ thì thông tin nền của ảnh thường là đồngcỏ Theo đó, thông tin màu của ảnh phải chứa nhiều thông tin về màu xanh của cỏ và
thông tin texture phải mô tả được thông tin texture của cỏ Do đó, có sự liên quan chặt
chẽ giữa đặc trưng màu và texture, nên có thể xem đặc trưng này là hệ số thích nghỉcho đặc trưng kia, nghĩa là có thé ánh xạ hai đặc trưng nay theo một toán tử nào đó (vi
dụ: toán tử cộng, hoặc toán tử nhân).
Từ kết quả tính toán Ð'*“fchi2 của ảnh truy van và các ảnh j trong cơ sở dữ liệu,căn cứ trên sắp xếp theo thứ tự từ nhỏ đến lớn của các giá trị DY đề dura ra cácảnh kết quả tương tự nhất với ảnh truy vấn
2.4.1.2 Mô hình kết hợp các công cụ toán họcs* Kết hop ma trận cooccurrence (GLCM — Gray Level Cooccurrence matrix)
" Ma trận GLCM
GLCM là ma trận mô ta tan suất xuất hiện của một mức xám pIxel theo một mốiliên hệ không gian tuyến tính (thường là theo hướng và theo khoảng cách giữa cácpixel) với các mức xám pixel khác trong một vùng khảo sát (cửa số khảo sát) [59] Dođó, ma trận cooccurrence được tính toán dựa trên hai thông số là: khoảng cách liênquan giữa cặp pixel 6 và hướng 6 của chúng Thông thường, với cửa số khảo sát hình
vuông thì hướng của Ø = {0°, 45°, 90°, 135°}.
Hình 2.1 minh hoa mối liên hệ về không gian của các pixel được định nghĩa bởimột chuỗi các khoảng cách (với 6 là khoảng cách tính từ pixel xét)
" Cooccurrence va waveletsTrong ảnh 7 (kích thước MxN) có L mức thang xám, giả su giá tri thang xám
I(x,y) = i, các giá trị thang xám lân cận I(x, y) và cách một khoảng ở có thé biểu
diễn bởi I(x + ổØạ,y +60,) = j (thỏa 0 < x<M-1,0<y<N-1vaA0<ij<
L — 1) với 69, Ø; là cặp giá trị tương ứng với các hướng Ø như trong Bang 2.1.