Kết quả thử nghiệm và đánh giá 54

Khóa luận sử dụng độ chính xác trung bình (Average Precision) [4] để đánh giá kết quả xếp hạng của hệ thống so với kết quả xếp hạng của hai máy tìm kiếm nguồn

Google và Yahoo. Khóa luận cũng so sánh kết quả giữa hai lần xếp hạng của cùng một truy vấn. Tôi thử nghiệm với tập 35 truy vấn và sau đó đánh giá độ chính xác cho 50 ảnh trả về đầu tiên.

Giả sử ta có 5 đối tượng là: a, b, c, d, e

Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phù

hợp.

Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e Độ chính xác trung bình được định nghĩa như sau:

∑ ∑@

Trong đó:

n là số đối tượng được xét.

@ @ (Match@K = số các đối tượng phù hợp ở K vị trí đầu tiên)

I(K) = 1 nếu đối tượng ở vị trí K là phù hợp, ngược lại I(K) = 0

Ví dụ: P@1 = 1/1, P@2 = 2/2, P@3 = 2/3, P@4 = 3/4. Thì độ chính xác trung bình là: 1 1 1 22 1 34 1 3 0.92

Giá trị trung bình trên m xếp hạng (với bài tốn tìm kiếm thì đó là giá trị trung bình của AP trên các truy vấn):

∑

Bảng thống kê độ chính xác của 50 ảnh đầu tiên của mỗi truy vấn trên các máy tìm kiếm cho thấy hệ thống có độ chính xác trung bình khá cao (MAP=81.2%). Đặc biệt là đối với các truy vấn về một vật thể có hình dạng, màu sắc xác định như “candle” (AP=100%), “guitar” (AP=90.1%), “iphone” (AP=93.0%)…. Ngồi ra, độ chính xác của hệ thống khi sử dụng thuật toán xếp hạng chỉ dựa trên đặc trưng văn bản

cũng khá cao (MAP=79.7%) trong khi đó MAP của Google là 76.1% và của Yahoo là 66.8%. Điều đó cho thấy rằng hệ thống hoạt động tốt cho cả truy vấn mới và cũ.

Tuy nhiên, đối với các truy vấn mà đối tượng tìm kiếm khơng rõ ràng như truy vấn “cloud”, “wave” thì kết quả xếp hạng của hệ thống chưa thực sự tốt. Đối với “wave”, độ chính xác của hệ thống khi xếp hạng dựa trên nội dung hiển thị là 43.0% trong khi độ chính xác khi xếp hạng dựa trên nội dung văn bản là 60.7% và độ chính xác của Google là 55.5 %.

Bảng 5. Độ chính xác trung bình trên 35 truy vấn

Google Yahoo MS_Text MS_Content

ball 53.8 24.0 71.8 76.0 beach 95.5 40.4 97.4 88.5 bicycle 71.5 68.3 86.0 88.8 bike 53.5 41.1 81.2 79.0 bird 70.0 60.1 66.8 82.8 bridge 91.3 85.5 81.7 91.8 cake 76.8 92.0 84.9 92.3 candle 89.2 84.0 94.9 100 car 92.6 76.9 91.1 94.2 cat 97.2 81.5 86.2 97.1 christmas tree 95.7 91.3 100 96.3 church 69.1 34.7 65.2 76.9 cloud 56.9 49.6 42.5 40.8 cloud gate 86.9 55.4 73.1 70.5 cup 33.1 51.4 39.4 52.0 drums 87.7 70.2 95.5 90.5 duck 70.4 72.8 79.0 82.8 feathers 56.0 57.3 65.0 63.7 guitar 76.2 73.0 80.2 90.1 iphone 95.4 96.6 96.3 93.0 kids 51.2 82.0 70.9 75.1 kitten 83.8 93.9 91.4 82.9 lake 93.1 65.5 95.8 87.7 leaves 84.3 80.1 82.6 95.0 lemon 70.9 38.7 79.4 79.5 monkey 86.2 83.1 89.2 95.6 railway 61.2 92.5 72.4 68.0 river 72.7 66.5 69.7 78.3 road 78.9 81.2 91.3 83.0 snow 87.6 91.7 86.8 80.3 sun 70.1 45.1 70.9 73.6

57 sunrise 85.2 17.6 91.1 78.6 train 92.5 86.5 78.1 85.6 tree 70.6 74.6 84.4 88.4 wave 55.5 34.1 60.7 43.0 MAP 76.1 66.8 79.7 81.2

Hình 16. Biểu đồ so sánh độ chính xác trung bình giữa các hệ thống

Để đánh giá khả năng tìm kiếm và xếp hạng của hệ thống đối với các từ khóa tiếng Việt, tơi thử nghiệm với 5 truy vấn tiếng Việt và đo độ chính xác của 50 kết quả đầu tiên của mỗi truy vấn. Các truy vấn tiếng việt được chọn là: “Bác Hồ”, “quả táo”, “con ong”, “máy bay”, “hoa hồng”.

0% 20% 40% 60% 80% 100%

Sun Guitar Bicycle Cat Car Leaves

Google Yahoo MS_Text MS_Content

Hình 17. Biểu đồ độ chính xác mức K của một số truy vấn tiếng Việt

Biểu đồ trên thể hiện độ chính xác mức K của một số truy vấn tiếng Việt khi được thực hiện trên hệ thống tìm kiếm ảnh lớp trên. Biểu đồ cho thấy hệ thống xếp hạng khá chính xác cho 20 ảnh đầu. Tuy độ chính xác trung bình cho 50 ảnh đầu tiên không thực sự tốt nhưng người dùng thường chỉ quan tâm 10 đến 20 kết quả đầu tiên. Do đó tập 20 ảnh đầu là quan trọng.

Để đánh giá tốc độ thực thi của hệ thống, tôi đo thời gian xếp hạng của các truy vấn thử nghiệm. Thời gian xếp hạng trung bình cho mỗi truy vấn là 40 giây. Khoảng thời gian này bao gồm thời gian trích xuất các thành phần đặc trưng, tìm và xử lý các ảnh trùng lặp, tính ma trận tương đồng dựa trên nội dung hiển thị và nội dung văn bản, tính hạng cho các ảnh và ghi kết quả vào file. Tôi cũng đo thời gian phản hồi của hệ thống đối với các truy vấn mới. Thời gian này được tính từ lúc hệ thống nhận được câu truy vấn đến lúc trả lại kết quả cho người dùng. Thời gian hồi đáp trung bình cho mỗi truy vấn mới là 20 giây. Như vậy, có thể thấy rằng thời gian thực thi của hệ thống là trong mức cho phép đối với một máy tìm kiếm ảnh.

0% 20% 40% 60% 80% 100% P@5 P@10 P@20 P@30 P@40 P@50 Bác Hồ Quả táo Con ong Máy bay Hoa Hồng

Kết luận

Với lượng dữ liệu ảnh đa dạng và phong phú trên Internet, nhu cầu về một hệ thống xếp hạng ảnh là rất cần thiết. Tuy những nghiên cứu về tìm kiếm và xếp hạng ảnh trên Web đã được quan tâm từ lâu, nhưng lĩnh vực này vẫn còn nhiều vấn đề cần phải giải quyết. Nắm bắt được nhu cầu đó, khóa luận đã tíến hành nghiên cứu một thuật toán xếp hạng ảnh dựa trên các văn bản đi kèm ảnh và chính nội dung hiển thị của ảnh và tiến hành áp dụng thử nghiệm trên một mơ hình máy tìm kiếm ảnh lớp trên.

Các kết quả chính đạt được

‐ Tìm hiểu các thuật toán xếp hạng trang Web và các thuật toán xếp hạng ảnh điển hình. Từ đó đề xuất áp dụng thuật toán VisualRank cho cả đặc trưng văn bản và đặc trưng hiển thị của ảnh trong xếp hạng.

‐ Đưa ra mơ hình máy tìm kiếm ảnh lớp trên áp dụng thử nghiệm thuật toán đã đề xuất. Mơ hình máy tìm kiếm này quan tâm đến trạng thái câu hỏi người dùng và hỗ trợ các truy vấn tiếng Việt. Do đó, những nghiên cứu này là rất hữu ích cho người dùng Việt Nam.

‐ Tiến hành thử nghiệm mơ hình với tập 35 câu truy vấn được trích rút từ các thẻ phổ biến trên Flickr. Kết quả của mơ hình là khả quan đối với cả hai phương pháp xếp hạng ảnh được sử dụng. Độ chính xác của phương pháp xếp hạng chỉ dựa trên nội dung văn bản là 79.7% và độ chính xác của phương pháp xếp hạng dựa trên cả nội dung hiển thị và nội dung văn bản là 81.2%, tốt hơn so với độ chính xác của Google (76.1%) và của Yahoo (66.8%). Khóa luận cũng đã thử nghiệm với một số câu truy vấn tiếng Việt. Kết quả thử nghiệm cho thấy mơ hình có thể xếp hạng khá tốt cho tập 20 ảnh đầu tiên. Từ những kết quả ban đầu đó cho thấy tính đúng đắn của mơ hình.

Một số vấn đề cần tiếp tục giải quyết

‐ Tuy mơ hình đã bước đầu đạt được một số kết quả khả quan trên tập dữ liệu thử nghiệm, nhưng đối với các truy vấn về sự kiện hoặc về các đối tượng khơng cụ thể thì thuật tốn xếp hạng chưa giải quyết được tốt.

‐ Hơn nữa, vấn đề thời gian xếp hạng lại và không gian lưu trữ ảnh cũng cần được quan tâm khi cơ sở dữ liệu của hệ thống được mở rộng. Cần có một giải pháp thích hợp để vừa có thể lưu trữ được dữ liệu cho càng nhiều câu truy

vấn càng tốt, vừa có thể thực hiện xếp hạng lại cho tất cả các câu truy vấn này.

‐ Một vấn đề khác là đối với các truy vấn tên riêng (tên người, tên địa danh,…) bằng tiếng Việt thì việc dịch các truy vấn này sang tiếng anh sẽ làm cho kết quả tìm kiếm khơng cịn đúng nữa. Hơn nữa, nếu kết quả dịch của từ điển khơng chính xác thì sẽ dẫn đến nhiều sai lệch trong việc tìm kiếm. Do đó, nếu tìm kiếm trực tiếp bằng tiếng Việt thì có thể sẽ có những kết quả tốt hơn.

Hướng nghiên cứu tiếp theo

Trong thời gian tới, ngoài việc tiếp tục giải quyết các vấn đề cịn tồn tại, tơi định hướng một số nghiên cứu tiếp theo:

‐ Nghiên cứu thêm về các thuật tốn trích xuất các thành phần đặc trưng ảnh để nâng cao hiệu quả trong việc tính độ tương đồng giữa các ảnh.

‐ Nghiên cứu các phương pháp xử lý tiếng Việt để tìm kiếm ảnh trực tiếp bằng tiếng Việt.

Tài liệu tham khảo

Tiếng Việt

[1] Đỗ Thị Diệu Ngọc, Nguyễn Hoài Nam, Nguyễn Thu Trang, Nguyễn Yến Ngọc

(2004). Giải pháp tính hạng trang Modified Adaptive PageRank trong máy tìm kiếm.

Chun san “Các cơng trình nghiên cứu về CNTT và Truyền thơng”, Tạp chí BCVT,

14: 65-71, 4-2005.

[2] Nguyễn Hồi Nam (2004). Thuật tốn tính hạng trang và xây dựng mơ đun thử

nghiệm. Khóa luận đại học, Trường ĐHKHTN, ĐHQGHN.

[3] Nguyễn Thu Trang (2006). Link spam với đồ thị Web và hạng trang Web. Khóa

luận đại học, Trường ĐHCN, ĐHQGHN.

[4] Nguyễn Thu Trang (2009). Học xếp hạng trong tịnh hạng đối tượng và phân cụm tài liệu. Luận văn Thạc sỹ, Trường ĐHCN, ĐHQGHN.

[5] Nguyễn Hoàng Trung (2009). Xây dựng search engine. Luận văn Thạc sỹ, Trường ĐHCN, ĐHQGHN.

Tiếng Anh

[6] Mehmet S. Aktas, Mehmet A. Nacar, Filippo Menczer (2004). Personalizing

PageRank based on domain profiles. WebKDD 2004: 83-90.

[7] Allan Borodin, Gareth O. Roberts, Jeffrey S. Rosenthal, Panayiotis Tsaparas

(2005). Link analysis ranking: algorithms, theory, and experiments. ACM Trans.

Inter. Tech., 5(1):231-297.

[8] Amy N.Langville and Carl D.Meyer (2005). Deeper inside pagerank. Internet

Mathematics Journal, 1(3):335-380.

[9] Amy N.Langville, Carl D. Meyer (2004). A Reodering for the PageRank problem.

SIAM J. Sci. Comput., 27(6): 2112-2120.

[10] Anselm Spoerri (2004). RankSpiral: Toward Enhancing Search Results

Visualizations. IEEE Symposium on Information Visualization: 215.18.

[11] Benitez A.B., Beigi M., Shih-Fu Chang (1998). Using relevance feedback in

[12] B. Uygar Oztekin, George Karypis, Vipin Kumar (2002). Expert agreement

and content based reranking in a meta search environment using Mearf. WWW

2002: 333-344.

[13] Baoning Wu and Brian D. Davison (2005). Identifying link farm spam pages.

WWW (Special interest tracks and posters) 2005: 820-829.

[14] Bo Luo, Xianogang Wang, and Xiaoou Tang (2003). A World Wide Web Based Image Search Engine Using Text and Image Content Features. IS&T/SPIE

Electronic Imaging 2003, Internet Imaging IV, 5018: 123-130.

[15] Chik Ching Yiu, Ip Che Yin (2002). Image Ranking Schemes Using Link-

Structure Analysis Algorithm. WWW2002, http://www2002.org/CDROM/poster/ 114/

[16] Cam-Tu Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Thu-Trang Nguyen, Quang-Thuy Ha (2009). Web Search Clustering and Labeling with Hidden

Topics. ACM Trans. Asian Lang. Inf. Process. 8(3): 1-40.

[17] Eva Horster, Malcolm Slaney, Marc’ Aurelio Ranzato, Kilian Weinberger

(2009). Unsupervised image ranking. LS-MMRM '09: 81-88.

[18] Eric J. Glover (2001). Using Extra-Topical User Preferences To Improve Web-

Based Metasearch. PhD Thesis, The University of Michigan.

[19] G. Park, Y. Baek, and H. Lee (2003). Majority based ranking approach in web image retrieval. CIVR 2003: 111-120.

[20] Hsinchun Chen, Haiyan Fan, Michael Chau, and Daniel Zeng (2001).

MetaSpider: Meta-Searching and Categorization on the Web. JASIST,

52(13):1134–1147.

[21] Hervé Jégou, Matthijs Douze, Cordelia Schmid (2010). Product quantization

for nearest neighbor search. 2010 IEEE TPAMI, http://www.irisa.fr/texmex/ people/jegou/publications.php

[22] Herve Jegou, Matthijs Douze, Cordelia Schmid (2008). Recent Advances in

Large Scale Image Search. ETVC 2008: 305-326.

[23] Jon M. Kleinberg (1999). Authoritative Sources in a Hyperlinked Environment.

[24] Kamarul Hawari Ghazali (2007). Feature Extraction technique using SIFT

keypoints descriptors. The International Conference on Electrical and Engineering

and Informatics Institut technology, Bandung, Indonesia, June 17-19, 2007.

[25] Lowe David (2004). Distinctive image features from scale-invariant keypoints.

Inter. J. Computer Vision 2004, 60(2):91–110.

[26] Liangliang Cao, Andrey Del Pozo, Xin Jin, Jiebo Luo, Jiawei Han and Thomas S. Huang (2010). RankCompete: simultaneous ranking and clustering of

web photos. WWW 2010: 1071-1072.

[27] L.S. Kennedy and M. Naaman (2008). Generating diverse and representative

image search results for landmarks. ACM Multimedia 2008: 349-358.

[28] Manoj M., Elizabeth Jacob (2008). Information retrieval on Internet using metasearch engines: A review. J. Scientific & Industrial Research, 67(10):739-746. [29] Mitsuru Ambai, Yuichi Yoshida (2009). Multiclass VisualRank: Image Ranking

Method in Clustered Subsets Based on Visual Features. SIGIR 2009: 732-733. [30] Page, L., Brin, S., Motwani, R. and Winograd, T. (1998). The PageRank

citation ranking: bringing order to the Web. Technical report, Stanford University. [31] Ritendra Datta, Dhiraj Joshi, Jia Li, and James Z. Wang (2008). Image

Retrieval: Ideas, Influences, and Trends of the New Age. ACM Computing

Surveys, 40(2), April 2008.

[32] Sepandar Kamvar, Taher Haveliwala, and Gene Golub (2003). Adaptive

Methods for the Computation of PageRank. Technical report, Stanford University. [33] Shiliang Zhang, Qi Tian, Gang Hua, Qingming Huang, Shipeng Li (2009).

Descriptive Visual Words and Visual Phrases for Image Applications. ACM

Multimedia 2009: 75-8484.

[34] Shuhui Wang, Quingming Huang, Shuqiang Jiang, Lei Qin, Qi Tian (2009).

Visual ContextRank for web image re-ranking. The First ACM workshop on

Large-scale multimedia retrieval and mining: 121-128.

[35] Taher H. Haveliwala (2002). Topic-sensitive PageRank. Technical report,

[36] T.L. Berg, A.C. Berg (2009). Finding iconic images. The 2nd Internet Vision

Workshop at Conference on Computer Vision and Pattern Recognition (CVPR):1-

[37] Viswanathan, M., Chang, C.-K., Moon, J.-H. Patlolla, A., (2009). Goggle (or

Gist on the Google Phone): A Content-Based Image Retrieval System for the gPhone. CSCI-546 Project. http://ilab.usc.edu/~kai/projects/cs546-Spring2009- Google.pdf

[38] Xinmei Tian, Dacheng Tao (2010). Active Reranking for Web Image Search.

IEEE Transactions on Image Processing, 19(3): 805-820 (2010).

[39] Yushi Jing, Shumeet Baluja (2008). Pagerank for product image search,

WWW08:307-316.

[40] Yushi Jing, Shumeet Baluja (2008). VisualRank: Applying PageRank to Large- Scale Image Search. IEEE Trans. Pattern Anal. Mach. Intell., 30(11): 1877-1890. [41] Z. Gyongyi and H. Garcia-Molina (2005). Web Spam Taxonomy. AIRWeb

2005: 39-47.

[42] Z. Gyongyi, H. Garcia-Molina, and J. Pendersen (2004). Combating Web

Tính hạng định hướng ngữ cảnh 15

Sơ bộ về tính hạng ảnh 18