Phương pháp đánh giá

Để đánh giá hiệu năng của hệ thống tra cứu, người ta có thể dựa trên các tiêu chí khác nhau. Trong khuôn khổ luận văn thực nghiệm chỉ đánh giá hiệu năng về mật độ chính xác tra cứu trong các kết quả top – k. Các phương pháp sử dụng các tập ảnh và truy vấn như nhau trên cùng một môi trường. Thực nghiệm được tiến hành mô phỏng tương tác phản hồi người dung với các phương pháp, nghĩa là các ảnh cùng chủ đề với các ảnh truy vấn được xem là liên quan và ngược lại. Số lượng các truy vấn trong mỗi tập dữ liệu miêu tả trong mục 3.2. Hai độ đo được thường xuyên sử dụng là độ chính xác và độ triệu hồi để đánh giá hiệu năng.

Chủ đề ảnh của mỗi truy vấn được xem như mục tiêu tra cứu (khái niệm của ảnh truy vấn được xem như một chủ đề ảnh). Mỗi ảnh tương ứng với một

vector 702 chiều miêu tả trong bảng 3.1. Mục đích của các bộ học máy như SVM và AdaBoost là học một khái niệm đã cho qua đánh giá của người dung trong phản hồi liên quan. Trong quá trình này, mỗi vòng phản hồi liên quan có bộ học máy lựa chọn top – k các ảnh để hỏi người dùng cho gán nhãn “liên quan” hoặc “không liên quan” đối với khái niệm của ảnh truy vấn. Các bộ máy học sau đó sử dụng các ảnh được gán nhãn để tinh chỉnh cho phù hợp khái niệm của truy vấn. Kết thúc mỗi vòng phản hồi liên quan, hệ thống đưa ra kết quả top – k các ảnh có thứ hạng xếp hạng cao nhất từ tập ảnh theo khái niệm đã được học. Độ chính xác của mỗi vòng phản hồi liên quan là tỉ số chủ đề ảnh mục tiêu (chủ đề của ảnh truy vấn) trong số top – k và top – k kết quả. Trong quá trình phản hồi liên quan, người dùng lựa kích chọn để gán nhãn đối với ảnh liên quan và không chọn đối với ảnh không liên quan theo khái niệm của ảnh truy vấn.

Hệ thống được xây dựng và biên dịch trên ngôn ngữ lập trình Matlap 2013, cơ sở dữ liệu SQL Server 2008, máy tính cá nhân sử dụng hệ điều hành Window 7 với cấu hình Core i5, 4GB Ram, HDD 500GB.

Bảng 3. 2. Các tham số sử dụng trong thực nghiệm

Phương pháp l NB (top – k) Số ảnh truy vấn Wang Oxford Buiding Caltech Đề xuất 10 20, 40, 60, 80, 100, 120, 140, 160, 180, 200 100 55 100 CBIR - SVM 10 20, 40, 60, 80, 100, 120, 140, 160, 180, 200 100 55 100 CBIR - AdaBoost 10 20, 40, 60, 80, 100, 120, 140, 160, 180, 200 100 55 100 MARS 10 20, 40, 60, 80, 100, 120, 140, 160, 180, 200 100 55 100

Bảng 3.2 là các tham số sử dụng chung cho các phương pháp. Kí hiệu l

là số lần lặp, NB (top – k) là tập ảnh có thứ hạng dự báo (phân lớp) cao nhất trong một lần lặp được trả về bởi hệ thống. Trong nhiều nghiên cứu tập NB liên quan tới kích thước của tập thực nghiệm (thông thường từ 2% tới 5%).

Bảng 3. 3. Số ứng viên Pareto thep top – k đối với Wang (gồm 1000 ảnh)

Top - k Số ứng viên Tỉ lệ số mẫu dữ liệu giảm

20 60 94% 40 80 92% 60 120 88% 80 160 84% 100 300 70% 120 360 64% 140 420 58% 160 480 46% 180 540 46% 200 600 40%

Bảng 3.3, bảng 3.4 và bảng 3.5 thiết lập số ứng viên theo top – k các ảnh kết quả trả về cho ba tập dữ liệu Wang, Oxford Buiding và Caltech.

Bảng 3. 4. Số ứng viên Pareto theo top – k đối với Oxford Buiding (gồm 2560 ảnh)

Top - k Số ứng viên Tỉ lệ số mẫu dữ liệu giảm

20 60 98% 40 80 97% 60 120 95% 80 160 94% 100 300 88% 120 360 86% 140 420 84% 160 480 81% 180 540 79% 200 600 77%

Bảng 3. 5. Số ứng viên Pareto theo top – k đối với Caltech (gồm 590 ảnh)

Top - k Số ứng viên Tỉ lệ số mẫu dữ liệu giảm

20 40 93% 40 120 80% 60 180 69% 80 240 59% 100 300 49% 120 360 39% 140 420 29% 160 480 19% 180 360 39% 200 400 32%

Để nâng cao hiệu năng độ chính xác, kĩ thuật hiệu chỉnh trọng số và dịch chuyển truy vấn được sử dụng, tập ứng viên Pareto kết hợp AdaBoost và kết hợp với SVM trên ba tập dữ liệu khác nhau. Độ chính xác của kĩ thuật đề xuất được xem xét sau mỗi vòng của phản hồi liên quan đến các top-k kết quả.

Để chứng minh tính hiệu quả của độ chính xác, đề xuất sử dụng tập ứng viên Pareto đối với kĩ thuật phân lớp sử dụng SVM ký hiệu là Pareto-SVM và đề xuất sử dụng tập ứng viên Pareto với kĩ thuật phân lớp sử dụng AdaBoost ký hiệu là Pareto-AdaBoost.

Hình 3.10 và các Bảng 3.6, 3.7, 3.8 cho biết trung bình độ chính xác theo top-k trên ba tập dữ liệu khác nhau của đề xuất Pareto-AdaBoost.

Hình 3. 10. Trung bình độ chính xác trên kết quả top-k của đề xuất Pareto-AdaBoost trên ba tập dữ liệu Wang, Oxford Buiding,

Bảng 3. 6. Trung bình độ chính xác top - k kết quả của đề xuất Pareto- AdaBoost trên năm vòng phản hồi liên quan đối với tập dữ liệu Wang

Vòng 20 40 60 80 100 120 140 160 180 200 1 0.681 0.679 0.567 0.622 0.588 0.534 0.489 0.451 0.415 0.389 2 0.71 0.724 0.631 0.63 0.61 0.56 0.51 0.46 0.445 0.405 3 0.789 0.785 0.709 0.68 0.639 0.598 0.542 0.52 0.456 0.425 4 0.839 0.798 0.763 0.719 0.677 0.614 0.546 0.498 0.463 0.422 5 0.865 0.834 0.781 0.741 0.679 0.609 0.547 0.498 0.458 0.424

Bảng 3. 7. Trung bình độ chính xác top-k kết quả của đề xuất Pareto- AdaBoost trên năm vòng phản hồi liên quan đối với tập dữ liệu

Oxford Buiding Vòng 20 40 60 80 100 120 140 160 180 200 1 0.246 0.331 0.345 0.312 0.284 0.264 0.248 0.235 0.224 0.217 2 0.297 0.356 0.365 0.34 0.311 0.29 0.277 0.264 0.254 0.246 3 0.371 0.418 0.385 0.353 0.326 0.298 0.278 0.266 0.259 0.247 4 0.411 0.461 0.414 0.366 0.332 0.303 0.285 0.274 0.262 0.248 5 0.442 0.48 0.418 0.365 0.338 0.309 0.285 0.273 0.265 0.246

Bảng 3. 8. Trung bình độ chính xác top-k kết quả của đề xuất Pareto- AdaBoost trên năm vòng phản hồi liên quan đối với tập dữ liệu Caltech.

Vòng 20 40 60 80 100 120 140 160 180 200 1 0.341 0.312 0.265 0.249 0.231 0.21 0.202 0.191 0.171 0.161 2 0.43 0.416 0.355 0.316 0.284 0.249 0.229 0.21 0.185 0.169 3 0.495 0.479 0.403 0.359 0.313 0.277 0.254 0.229 0.189 0.177 4 0.544 0.495 0.422 0.358 0.311 0.275 0.254 0.222 0.189 0.179 5 0.566 0.506 0.423 0.368 0.323 0.282 0.255 0.229 0.191 0.182

Hình 3.11 và các Bảng 3.9, 3.10, 3.11 cho biết trung bình độ chính xác theo top-k trên ba tập dữ liệu khác nhau của đề xuất Pareto-SVM.

Hiệu năng của độ chính xác các kỹ thuật đề xuất sau mỗi vòng của phản hồi liên quan tang rõ rệt. Trên đồ thị ta cũng thấy hiệu năng của thuật toán giảm khi cỡ và độ phức tạp của tập dữ liệu tang lên. Kết quả tra cứu được xem xét không chỉ trên top một vài ảnh kết quả trả về có độ chính xác cao mà còn được xem xét một số lớn ảnh kết quả trả về. Độ phức tạp của dữ liệu cũng ảnh hưởng lớn đến kết quả tra cứu, như các tập dữ liệu Oxford Building, Caltech là các tập dữ liệu phức tạp, các chủ đề khó nhận dạng.

Hình 3. 11. Trung bình độ chính xác trên kết quả top-k của đề xuất Pareto-SVM trên ba tập dữ liệu Wang, Oxford Building, Caltech

Hiệu năng độ chính xác của kỹ thuật đề xuất được so sánh với các kỹ thuật cơ sở trên các kết quả trả về (top-k) khác nhau. Các đề xuất sử dụng tập ứng viên Pareto, sau mỗi vòng phản hồi liên quan truy vấn được dịch chuyển và độ tương tự đước tính. Các kỹ thuật cơ sở như CBIR-SVM, CBIR-AdaBoost, MARS sử dụng toàn bộ các mẫu trong cơ sở dữ liệu để phân lớp.

Bảng 3. 9. Trung bình độ chính xác top-k kết quả của đề xuất Pareto- SVM trên năm vòng phản hồi liên quan đối với tập dữ liệu Wang.

Vòng 20 40 60 80 100 120 140 160 180 200 1 0.704 0.619 0.553 0.541 0.516 0.491 0.457 0.423 0.394 0.372 2 0.801 0.788 0.754 0.706 0.647 0.592 0.537 0.487 0.44 0.408 3 0.854 0.809 0.773 0.713 0.669 0.605 0.541 0.488 0.442 0.413 4 0.883 0.813 0.781 0.723 0.674 0.608 0.549 0.498 0.45 0.414 5 0.896 0.823 0.79 0.724 0.679 0.611 0.546 0.496 0.453 0.412

Bảng 3. 10. Trung bình độ chính xác top-k kết quả của đề xuất Pareto-SVM trên năm vòng phản hồi liên quan đối với tập dữ liệu

Oxford Building Vòng 20 40 60 80 100 120 140 160 180 200 1 0.222 0.292 0.313 0.283 0.265 0.248 0.235 0.231 0.221 0.211 2 0.312 0.353 0.369 0.341 0.313 0.29 0.277 0.26 0.249 0.24 3 0.378 0.401 0.383 0.359 0.341 0.311 0.288 0.276 0.262 0.248 4 0.411 0.418 0.389 0.37 0.343 0.313 0.296 0.277 0.263 0.248 5 0.436 0.428 0.385 0.371 0.348 0.315 0.296 0.281 0.266 0.249

Bảng 3. 11. Trung bình độ chính xác top-k kết quả của đề xuất Pareto-SVM trên năm vòng phản hồi liên quan đối với tập dữ liệu

Caltech Vòng 20 40 60 80 100 120 140 160 180 200 1 0.295 0.291 0.233 0.228 0.198 0.187 0.176 0.17 0.162 0.154 2 0.405 0.388 0.316 0.28 0.252 0.23 0.21 0.188 0.174 0.162 3 0.498 0.428 0.331 0.304 0.277 0.252 0.22 0.197 0.176 0.163 4 0.533 0.443 0.341 0.305 0.275 0.255 0.226 0.199 0.179 0.167 5 0.531 0.457 0.348 0.308 0.279 0.255 0.227 0.2 0.179 0.167

Các Hình 3.12, 3.13 so sánh hiệu năng độ chính xác của các kỹ thuậ đề xuất đối với các kỹ thuật cơ sở trên ba tập dữ liệu khác nhau. Ta có thể thấy rõ ràng các kỹ thuật đề xuất có hiệu năng về độ chính xác luôn cao hơn sau vòng phản hồi liên quan. Sau vòng phản hồi liên quan, truy vấn được dịch chuyển, độ tương tự được tính lại phù hợp hơn với khái niệm truy vấn, tập ứng viên Pareto cũng được điều chỉnh phù hợp hơn với chủ đề của ảnh truy vấn. Các kỹ thuật cơ sở hiệu năng độ chính xác thấp hơn do tập dữ liệu lớn và không được hiệu chỉnh độ tương tự cho phù hợp với khái niệm truy vấn.

Hình 3. 12. So sánh độ chính xác trên các kết quả top-k của kỹ thuật đề xuất Pareto-AdaBoost với các kỹ thuật cơ sở tren ba tập dữ liệu

Hình 3. 13. So sánh độ chính xác trên các kết quả top-k của kỹ thuật đề xuất Pareto-SVM với các kỹ thuật cơ sở trên ba tập dữ liệu

Wang, Oxford Building, Caltech

Thông thường trong các ứng dụng tra cứu, kết quả tra cứu thường hiển thị 20 ảnh liên quan nhất phù hợp với một màn hình hiển thị. Đề xuất cũng đã so sánh với các phương pháp cơ sở bao gồm: Tra cứu phân lớp ảnh sử dụng SVM và AdaBoost, tra cứu theo hiệu chỉnh trọng số (MARS). Trong thực nghiệm này 20 ảnh liên quan nhất được hiển thị trong cả sáu vòng của phản hồi liên quan.

Hình 3.14 cho thấy đề xuất Pareto-AdaBoost đạt 90%, gần 50%, gần 60% đối với các tập dữ liệu Wang, Oxford Building và Caltech tương ứng.

Hình 3. 14. Đồ thị độ chính xác của các phương pháp Pareto- AdaBoost, SVM, AdaBoost và MARS trên các tập dữ liệu

Hình 3.15 cho thấy đề xuất Pareto-SVM đạt 90.08%, gần 42.7%, gần 56.2% đối với tập dữ liệu Wang, Oxford Building và Caltech tương ứng. Trong khi các phương pháp cơ sở, trên tập dữ liệu Wang, SVM và AdaBoost đạt tới 70.6% và 74.2%, MARS đạt 83.2%.Trên tập dữ liệu Oxford Building, CBIR- SVM và CBIR-AdaBoost đạt tới 22.9% và 27.8%, MARS đạt 40.1%. Trên tập dữ liệu Caltech, CBIR-SVM, CBIR-AdaBoost đạt tới 29.8% và 38.1%, MARS đạt 42.5%.

Hình 3. 15. Đồ thị độ chính xác của các phương pháp Pareto- SVM, SVM, AdaBoost và MARS trên tập dữ liệu Wang,

Oxford Building và Caltech.

Hệ thống đề xuất được phát triển thành một ứng dụng tra cứu ảnh dựa vào nội dung hoàn chỉnh gồm hai pha:

- Pha một (off-line): Pha này gồm các công cụ trích rút đặc trưng, chuẩn hóa đặc trưng và lưu trữ cơ sở dữ liệu đặc trưng để dùng cho quá trình tra cứu. - Pha hai (on-line): Người dùng đưa vào một ảnh truy vấn, ảnh truy vấn này được trích rút đặc trưng với phương pháp tương tự như đã làm ở pha một. Quá trình tra cứu khởi được thực hiện sau đó. Sau khi hiển thị tra cứu khởi tạo, người dùng tương tác với hệ thống qua việc lựa chọn các ảnh bằng cả khái niệm “liên quan” và “không liên quan” bằng việc lựa chọn đánh dấu bên dưới các ảnh tương ứng.

KẾT LUẬN

Trong khuôn khổ của luận văn này tác giả tập trung tìm hiểu, nghiên cứu một số nội dung cơ bản của CBIR.

Các kết quả chính đạt được:

- Đã nắm được một số phương pháp trích chọn đặc trưng hình ảnh, một số phương pháp phản hồi liên quan trong tra cứu ảnh dựa vào nội dung.

- Trình bày được phương pháp tìm kiếm hình ảnh theo đặc trưng mầu sắc, kết cấu, hình dạng và phương pháp kết hợp các đặc trưng trên áp dụng trong tra cứu ảnh theo nội dung sử dụng SVM và phản hồi liên quan.

- Đưa bài toán tra cứu ảnh sử dụng tổ hợp đặc trưng theo tiếp cận tối ưu Pareto bằng cách tìm tập ứng viên Pareto dựa vào các tiêu chí là khoảng cách theo thành phần đặc trưng. Tập này được sử dụng làm tập kiểm tra cho máy phân lớp. Luận văn đã xây dựng tính chất hình thức trên không gian tìm kiếm của ảnh truy vấn theo tiếp cận tối ưu Pareto. Các tính chất đã được khái quát hóa cho bài toán CBIR như Pareto front đa mức sâu, hợp Pareto theo độ sâu. Các thực nghiệm làm sáng tỏ tính chất rút gọn không gian tìm kiếm, có thể xem như sơ lọc trên cơ sở dữ liệu lớn và giảm được số mẫu dữ liệu, cải thiện độ chính xác phân lớp.

- Luận văn xây dựng được chương trình thực nghiệm, thực hiện tìm kiếm ảnh sử dụng tổ hợp đặc trưng và rút gọn không gian tìm kiếm thông qua tìm tập ứng viên và áp dụng cho kĩ thuật học máy trong việc phân lớp ảnh theo truy vấn. Chương trình được chạy thực nghiệm trên 3 CSDL Wang, Oxford Building, Caltech và đã so sánh, đánh giá được hiệu năng thực hiện tìm kiếm ảnh của các phương pháp trên.

Hạn chế:

- Tra cứu ảnh dựa vào nội dung vẫn còn nhiều vấn đề cần tiếp tục nghiên cứu. Trong giới hạn của một luận văn chưa giải quyết hết mọi vấn đề, luận văn chỉ giải quyết một phần trong các vấn đề rút gọn không gian tìm kiếm.

- Đóng góp của luận văn vẫn còn hạn chế: Thực nghiệm trên các cơ sở dữ liệu chưa đủ lớn, chưa đánh giá hiệu năng về thời gian đối với các đề xuất. Trong các nghiên cứu tương lai sẽ tiếp tục nghiên cứu để bổ sung cho những hạn chế này.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Nguyễn Thanh Thuỷ - Lương Mạnh Bá (1998), Nhập môn xử lý ảnh số, NXB Khoa học và kỹ thuật, Hà Nội.

[2] Đỗ Năng Toàn - Phạm Việt Bình (2007), Xử lý ảnh.

[3] Phạm Xuân Hinh (2016), Tra cứu ảnh dựa trên nội dung sử dụng nhiều đặc trưng và phản hồi liên quan, Luận văn thạc sĩ công nghệ thông tin, Trường ĐH Dân lập Hải Phòng.

[4] Vũ Văn Hiệu (2017), Nghiên cứu một số kỹ thuật phân hạng trong tra cứu ảnh dựa vào nội dung, Luận án tiến sĩ toán học, Học viện Khoa học Công nghệ - Viện hàn lâm khoa học và công nghệ Việt Nam.

[5] Vũ Văn Hiệu, Ngô Huy Hoàng, Ngô Quốc Tạo, Nguyễn Hữu Quỳnh (2016), “Một phương pháp mới chuẩn hoá dữ liệu và hiệu chỉnh trọng số cho tổ hợp đặc trưng trong tra cứu ảnh theo nội dung” , Chuyên san Các công trình nghiên cứu, phát triển và ứng dụng Công nghệ thông tin và Truyền thông, Tập V-1 (Số 35).

[6] Vũ Văn Hiệu, Nguyễn Trường Thắng, Nguyễn Hữu Quỳnh, Ngô Quốc Tạo (2016), “Tra cứu ảnh theo nội dung sử dụng tập Pareto và mô hình học thống kê CART”, Chuyên san các công trình nghiên cứu phát triển

Bài toán tra cứu ảnh theo nội dung

Nâng hiệu quả phân lớp ảnh