Chương 3 ỨNG DỤNG VÀ CHƯƠNG TRÌNH THỬ NGHIỆM
3.4. Đánh giá kết quả đạt được và so sánh với phương pháp khác
3.4.2 Phương pháp đánh giá
Để đánh giá hiệu năng của hệ thống tra cứu, người ta có thể dựa trên các tiêu chí khác nhau. Trong khuôn khổ luận văn thực nghiệm chỉ đánh giá hiệu năng về mật độ chính xác tra cứu trong các kết quả top – k. Các phương pháp sử dụng các tập ảnh và truy vấn như nhau trên cùng một môi trường. Thực nghiệm được tiến hành mô phỏng tương tác phản hồi người dung với các phương pháp, nghĩa là các ảnh cùng chủ đề với các ảnh truy vấn được xem là liên quan và ngược lại. Số lượng các truy vấn trong mỗi tập dữ liệu miêu tả trong mục 3.2. Hai độ đo được thường xuyên sử dụng là độ chính xác và độ triệu hồi để đánh giá hiệu năng.
Chủ đề ảnh của mỗi truy vấn được xem như mục tiêu tra cứu (khái niệm của ảnh truy vấn được xem như một chủ đề ảnh). Mỗi ảnh tương ứng với một
vector 702 chiều miêu tả trong bảng 3.1. Mục đích của các bộ học máy như SVM và AdaBoost là học một khái niệm đã cho qua đánh giá của người dung trong phản hồi liên quan. Trong quá trình này, mỗi vòng phản hồi liên quan có bộ học máy lựa chọn top – k các ảnh để hỏi người dùng cho gán nhãn “liên quan” hoặc “không liên quan” đối với khái niệm của ảnh truy vấn. Các bộ máy học sau đó sử dụng các ảnh được gán nhãn để tinh chỉnh cho phù hợp khái niệm của truy vấn. Kết thúc mỗi vòng phản hồi liên quan, hệ thống đưa ra kết quả top – k các ảnh có thứ hạng xếp hạng cao nhất từ tập ảnh theo khái niệm đã được học. Độ chính xác của mỗi vòng phản hồi liên quan là tỉ số chủ đề ảnh mục tiêu (chủ đề của ảnh truy vấn) trong số top – k và top – k kết quả.
Trong quá trình phản hồi liên quan, người dùng lựa kích chọn để gán nhãn đối với ảnh liên quan và không chọn đối với ảnh không liên quan theo khái niệm của ảnh truy vấn.
Hệ thống được xây dựng và biên dịch trên ngôn ngữ lập trình Matlap 2013, cơ sở dữ liệu SQL Server 2008, máy tính cá nhân sử dụng hệ điều hành Window 7 với cấu hình Core i5, 4GB Ram, HDD 500GB.
Bảng 3. 2. Các tham số sử dụng trong thực nghiệm
Phương pháp l NB (top – k) Số ảnh truy vấn
Wang Oxford Buiding
Caltech Đề xuất 10 20, 40, 60, 80, 100, 120,
140, 160, 180, 200
100 55 100
CBIR - SVM 10 20, 40, 60, 80, 100, 120, 140, 160, 180, 200
100 55 100
CBIR - AdaBoost 10 20, 40, 60, 80, 100, 120, 140, 160, 180, 200
100 55 100
MARS 10 20, 40, 60, 80, 100, 120, 140, 160, 180, 200
100 55 100
Bảng 3.2 là các tham số sử dụng chung cho các phương pháp. Kí hiệu l là số lần lặp, NB (top – k) là tập ảnh có thứ hạng dự báo (phân lớp) cao nhất trong một lần lặp được trả về bởi hệ thống. Trong nhiều nghiên cứu tập NB liên quan tới kích thước của tập thực nghiệm (thông thường từ 2% tới 5%).
Bảng 3. 3. Số ứng viên Pareto thep top – k đối với Wang (gồm 1000 ảnh)
Top - k Số ứng viên Tỉ lệ số mẫu dữ liệu giảm
20 60 94%
40 80 92%
60 120 88%
80 160 84%
100 300 70%
120 360 64%
140 420 58%
160 480 46%
180 540 46%
200 600 40%
Bảng 3.3, bảng 3.4 và bảng 3.5 thiết lập số ứng viên theo top – k các ảnh kết quả trả về cho ba tập dữ liệu Wang, Oxford Buiding và Caltech.
Bảng 3. 4. Số ứng viên Pareto theo top – k đối với Oxford Buiding (gồm 2560 ảnh)
Top - k Số ứng viên Tỉ lệ số mẫu dữ liệu giảm
20 60 98%
40 80 97%
60 120 95%
80 160 94%
100 300 88%
120 360 86%
140 420 84%
160 480 81%
180 540 79%
200 600 77%
Bảng 3. 5. Số ứng viên Pareto theo top – k đối với Caltech (gồm 590 ảnh)
Top - k Số ứng viên Tỉ lệ số mẫu dữ liệu giảm
20 40 93%
40 120 80%
60 180 69%
80 240 59%
100 300 49%
120 360 39%
140 420 29%
160 480 19%
180 360 39%
200 400 32%
Để nâng cao hiệu năng độ chính xác, kĩ thuật hiệu chỉnh trọng số và dịch chuyển truy vấn được sử dụng, tập ứng viên Pareto kết hợp AdaBoost và kết hợp với SVM trên ba tập dữ liệu khác nhau. Độ chính xác của kĩ thuật đề xuất được xem xét sau mỗi vòng của phản hồi liên quan đến các top-k kết quả.
Để chứng minh tính hiệu quả của độ chính xác, đề xuất sử dụng tập ứng viên Pareto đối với kĩ thuật phân lớp sử dụng SVM ký hiệu là Pareto-SVM và đề xuất sử dụng tập ứng viên Pareto với kĩ thuật phân lớp sử dụng AdaBoost ký hiệu là Pareto-AdaBoost.
Hình 3.10 và các Bảng 3.6, 3.7, 3.8 cho biết trung bình độ chính xác theo top-k trên ba tập dữ liệu khác nhau của đề xuất Pareto-AdaBoost.
Hình 3. 10. Trung bình độ chính xác trên kết quả top-k của đề xuất Pareto-AdaBoost trên ba tập dữ liệu Wang, Oxford Buiding,
Caltech theo năm vòng phản hồi liên quan.
Bảng 3. 6. Trung bình độ chính xác top - k kết quả của đề xuất Pareto- AdaBoost trên năm vòng phản hồi liên quan đối với tập dữ liệu Wang
Vòng 20 40 60 80 100 120 140 160 180 200 1 0.681 0.679 0.567 0.622 0.588 0.534 0.489 0.451 0.415 0.389 2 0.71 0.724 0.631 0.63 0.61 0.56 0.51 0.46 0.445 0.405 3 0.789 0.785 0.709 0.68 0.639 0.598 0.542 0.52 0.456 0.425 4 0.839 0.798 0.763 0.719 0.677 0.614 0.546 0.498 0.463 0.422 5 0.865 0.834 0.781 0.741 0.679 0.609 0.547 0.498 0.458 0.424
Bảng 3. 7. Trung bình độ chính xác top-k kết quả của đề xuất Pareto- AdaBoost trên năm vòng phản hồi liên quan đối với tập dữ liệu
Oxford Buiding
Vòng 20 40 60 80 100 120 140 160 180 200 1 0.246 0.331 0.345 0.312 0.284 0.264 0.248 0.235 0.224 0.217 2 0.297 0.356 0.365 0.34 0.311 0.29 0.277 0.264 0.254 0.246 3 0.371 0.418 0.385 0.353 0.326 0.298 0.278 0.266 0.259 0.247 4 0.411 0.461 0.414 0.366 0.332 0.303 0.285 0.274 0.262 0.248 5 0.442 0.48 0.418 0.365 0.338 0.309 0.285 0.273 0.265 0.246
Bảng 3. 8. Trung bình độ chính xác top-k kết quả của đề xuất Pareto- AdaBoost trên năm vòng phản hồi liên quan đối với tập dữ liệu Caltech.
Vòng 20 40 60 80 100 120 140 160 180 200 1 0.341 0.312 0.265 0.249 0.231 0.21 0.202 0.191 0.171 0.161 2 0.43 0.416 0.355 0.316 0.284 0.249 0.229 0.21 0.185 0.169 3 0.495 0.479 0.403 0.359 0.313 0.277 0.254 0.229 0.189 0.177 4 0.544 0.495 0.422 0.358 0.311 0.275 0.254 0.222 0.189 0.179 5 0.566 0.506 0.423 0.368 0.323 0.282 0.255 0.229 0.191 0.182
Hình 3.11 và các Bảng 3.9, 3.10, 3.11 cho biết trung bình độ chính xác theo top-k trên ba tập dữ liệu khác nhau của đề xuất Pareto-SVM.
Hiệu năng của độ chính xác các kỹ thuật đề xuất sau mỗi vòng của phản hồi liên quan tang rõ rệt. Trên đồ thị ta cũng thấy hiệu năng của thuật toán giảm khi cỡ và độ phức tạp của tập dữ liệu tang lên. Kết quả tra cứu được xem xét không chỉ trên top một vài ảnh kết quả trả về có độ chính xác cao mà còn được xem xét một số lớn ảnh kết quả trả về. Độ phức tạp của dữ liệu cũng ảnh hưởng lớn đến kết quả tra cứu, như các tập dữ liệu Oxford Building, Caltech là các tập dữ liệu phức tạp, các chủ đề khó nhận dạng.
Hình 3. 11. Trung bình độ chính xác trên kết quả top-k của đề xuất Pareto-SVM trên ba tập dữ liệu Wang, Oxford Building, Caltech
theo năm vòng phản hồi liên quan
Hiệu năng độ chính xác của kỹ thuật đề xuất được so sánh với các kỹ thuật cơ sở trên các kết quả trả về (top-k) khác nhau. Các đề xuất sử dụng tập ứng viên Pareto, sau mỗi vòng phản hồi liên quan truy vấn được dịch chuyển và độ tương tự đước tính. Các kỹ thuật cơ sở như CBIR-SVM, CBIR-AdaBoost, MARS sử dụng toàn bộ các mẫu trong cơ sở dữ liệu để phân lớp.
Bảng 3. 9. Trung bình độ chính xác top-k kết quả của đề xuất Pareto- SVM trên năm vòng phản hồi liên quan đối với tập dữ liệu Wang.
Vòng 20 40 60 80 100 120 140 160 180 200 1 0.704 0.619 0.553 0.541 0.516 0.491 0.457 0.423 0.394 0.372 2 0.801 0.788 0.754 0.706 0.647 0.592 0.537 0.487 0.44 0.408 3 0.854 0.809 0.773 0.713 0.669 0.605 0.541 0.488 0.442 0.413 4 0.883 0.813 0.781 0.723 0.674 0.608 0.549 0.498 0.45 0.414 5 0.896 0.823 0.79 0.724 0.679 0.611 0.546 0.496 0.453 0.412
Bảng 3. 10. Trung bình độ chính xác top-k kết quả của đề xuất Pareto-SVM trên năm vòng phản hồi liên quan đối với tập dữ liệu
Oxford Building
Vòng 20 40 60 80 100 120 140 160 180 200 1 0.222 0.292 0.313 0.283 0.265 0.248 0.235 0.231 0.221 0.211 2 0.312 0.353 0.369 0.341 0.313 0.29 0.277 0.26 0.249 0.24 3 0.378 0.401 0.383 0.359 0.341 0.311 0.288 0.276 0.262 0.248 4 0.411 0.418 0.389 0.37 0.343 0.313 0.296 0.277 0.263 0.248 5 0.436 0.428 0.385 0.371 0.348 0.315 0.296 0.281 0.266 0.249
Bảng 3. 11. Trung bình độ chính xác top-k kết quả của đề xuất Pareto-SVM trên năm vòng phản hồi liên quan đối với tập dữ liệu
Caltech
Vòng 20 40 60 80 100 120 140 160 180 200 1 0.295 0.291 0.233 0.228 0.198 0.187 0.176 0.17 0.162 0.154 2 0.405 0.388 0.316 0.28 0.252 0.23 0.21 0.188 0.174 0.162 3 0.498 0.428 0.331 0.304 0.277 0.252 0.22 0.197 0.176 0.163 4 0.533 0.443 0.341 0.305 0.275 0.255 0.226 0.199 0.179 0.167 5 0.531 0.457 0.348 0.308 0.279 0.255 0.227 0.2 0.179 0.167
Các Hình 3.12, 3.13 so sánh hiệu năng độ chính xác của các kỹ thuậ đề xuất đối với các kỹ thuật cơ sở trên ba tập dữ liệu khác nhau. Ta có thể thấy rõ ràng các kỹ thuật đề xuất có hiệu năng về độ chính xác luôn cao hơn sau vòng phản hồi liên quan. Sau vòng phản hồi liên quan, truy vấn được dịch chuyển, độ tương tự được tính lại phù hợp hơn với khái niệm truy vấn, tập ứng viên Pareto cũng được điều chỉnh phù hợp hơn với chủ đề của ảnh truy vấn. Các kỹ thuật cơ sở hiệu năng độ chính xác thấp hơn do tập dữ liệu lớn và không được hiệu chỉnh độ tương tự cho phù hợp với khái niệm truy vấn.
Hình 3. 12. So sánh độ chính xác trên các kết quả top-k của kỹ thuật đề xuất Pareto-AdaBoost với các kỹ thuật cơ sở tren ba tập dữ liệu
Wang, Oxford Building, Caltech
Hình 3. 13. So sánh độ chính xác trên các kết quả top-k của kỹ thuật đề xuất Pareto-SVM với các kỹ thuật cơ sở trên ba tập dữ liệu
Wang, Oxford Building, Caltech
Thông thường trong các ứng dụng tra cứu, kết quả tra cứu thường hiển thị 20 ảnh liên quan nhất phù hợp với một màn hình hiển thị. Đề xuất cũng đã so sánh với các phương pháp cơ sở bao gồm: Tra cứu phân lớp ảnh sử dụng SVM và AdaBoost, tra cứu theo hiệu chỉnh trọng số (MARS). Trong thực nghiệm này 20 ảnh liên quan nhất được hiển thị trong cả sáu vòng của phản hồi liên quan.
Hình 3.14 cho thấy đề xuất Pareto-AdaBoost đạt 90%, gần 50%, gần 60% đối với các tập dữ liệu Wang, Oxford Building và Caltech tương ứng.
Hình 3. 14. Đồ thị độ chính xác của các phương pháp Pareto- AdaBoost, SVM, AdaBoost và MARS trên các tập dữ liệu
Wang, Oxford Building, Caltech
Hình 3.15 cho thấy đề xuất Pareto-SVM đạt 90.08%, gần 42.7%, gần 56.2% đối với tập dữ liệu Wang, Oxford Building và Caltech tương ứng. Trong khi các phương pháp cơ sở, trên tập dữ liệu Wang, SVM và AdaBoost đạt tới 70.6% và 74.2%, MARS đạt 83.2%.Trên tập dữ liệu Oxford Building, CBIR- SVM và CBIR-AdaBoost đạt tới 22.9% và 27.8%, MARS đạt 40.1%. Trên tập dữ liệu Caltech, CBIR-SVM, CBIR-AdaBoost đạt tới 29.8% và 38.1%, MARS đạt 42.5%.
Hình 3. 15. Đồ thị độ chính xác của các phương pháp Pareto- SVM, SVM, AdaBoost và MARS trên tập dữ liệu Wang,
Oxford Building và Caltech.
Hệ thống đề xuất được phát triển thành một ứng dụng tra cứu ảnh dựa vào nội dung hoàn chỉnh gồm hai pha:
- Pha một (off-line): Pha này gồm các công cụ trích rút đặc trưng, chuẩn hóa đặc trưng và lưu trữ cơ sở dữ liệu đặc trưng để dùng cho quá trình tra cứu.
- Pha hai (on-line): Người dùng đưa vào một ảnh truy vấn, ảnh truy vấn này được trích rút đặc trưng với phương pháp tương tự như đã làm ở pha một.
Quá trình tra cứu khởi được thực hiện sau đó. Sau khi hiển thị tra cứu khởi tạo, người dùng tương tác với hệ thống qua việc lựa chọn các ảnh bằng cả khái niệm
“liên quan” và “không liên quan” bằng việc lựa chọn đánh dấu bên dưới các ảnh tương ứng.