Quy trình, các phương án thử nghiệm 53

Một phần của tài liệu ĐỀ TÀI " MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM " pot (Trang 63 - 64)

Quy trình thử nghiệm được tiến hành như sau:

Thc hin truy vn: Lần lượt thực hiện các truy vấn mẫu vào máy tìm kiếm. Mỗi câu truy vấn được thực hiện hai lần để đánh giá chất lượng của hai phương pháp xếp hạng dựa trên văn bản và xếp hạng dựa trên nội dung hiển thị và nội dung văn bản.

Thu thp d liu: Với mỗi truy vấn, hệ thống trích rút 64 ảnh trả về đầu tiên từ máy tìm kiếm ảnh Google1 và 50 ảnh trả về đầu tiên từ máy tìm kiếm ảnh Yahoo2. Sau đó tổng hợp các ảnh này trong một danh sách duy nhất và tiến hành xếp hạng lại cho tập các ảnh này.

1 http://www.google.com/uds/samples/apidocs/image.html

54

Xếp hng: Quá trình xếp hạng được chia thành hai giai đoạn:

Giai đon 1: Đối với truy vấn mới, xếp hạng dựa trên đặc trưng văn bản. Giai đoạn này được thực hiện trực tuyến.

Sử dụng độ đo khoảng cách giữa 2 xâu ký tự để tính độ tương đồng cho các chuỗi văn bản. Các đặc trưng văn bản được sử dụng trong khóa luận này là: tên file ảnh, nhan đề ảnh (title) và vùng văn bản nhỏ đi kèm mô tả ảnh (content). Qua quá trình thực nghiệm, trọng số cho tên file ảnh là 0.3, nhan đề ảnh là 0.1 và trọng số cho vùng văn bản đi kèm ảnh là 0.6 cho kết quả xếp hạng tốt nhất.

Thực hiện thuật toán visualRank cho các độ đo tương đồng dựa trên văn bản với số vòng lặp là 100, hệ số hãm là d = 0.85.

Ngoài ra, qua khảo sát thực tế, tôi nhận thấy rằng thứ hạng của ảnh do máy tìm kiếm nguồn xếp hạng cũng có một tầm quan trọng rất lớn, và hơn nữa chất lượng tìm kiếm của Google tốt hơn hẳn chất lượng tìm kiếm của Yahoo. Vì thế, với mỗi ảnh tôi cộng thêm một điểm số thứ hạng cũ (là thứ hạng do các máy tìm kiếm nguồn tính được) với tỉ lệ là 0.2 cho điểm số thứ hạng cũ và 0.8 cho điểm số mới tính được dựa trên độ đo tương đồng giữa các ảnh. Các hệ số trên có được từ quá trình thực nghiệm.

Giai đon 2: Xếp hạng lại cho tập các ảnh. Giai đoạn này được thực hiện ngoại tuyến.

Tải các ảnh về và loại bỏ các ảnh trùng lặp rồi lưu vào cơ sở dữ liệu.

Sử dụng Lire để trích xuất các đặc trưng hiển thị của ảnh, đánh chỉ mục cho ảnh dựa vào các đặc trưng này. Các đặc trưng hiển thị được sử dụng là: màu sắc và đặc trưng cạnh (edge).

Tính độ tương đồng giữa các ảnh dựa trên các đặc trưng nói trên.

Kết hợp độ đo tương đồng dựa trên đặc trưng văn bản và độ đo tương đồng dựa trên nội dung hiển thị với tỉ lệ: 0.3 cho độ đo dựa trên đặc trưng văn bản và 0.7 cho độ đo dựa trên nội dung hiển thị. Với hệ số tỉ lệ này sẽ cho kết quả xếp hạng tốt nhất.

Thực hiện các tính toán tiếp theo như giai đoạn 1 đối với độ đo tương đồng tổng hợp.

Một phần của tài liệu ĐỀ TÀI " MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM " pot (Trang 63 - 64)