Kết quả thử nghiệm và đánh giá

Khóa luận sử dụng độ chính xác trung bình (Average Precision) [4] để đánh giá kết quả xếp hạng của hệ thống so với kết quả xếp hạng của hai máy tìm kiếm nguồn Google và Yahoo. Khóa luận cũng so sánh kết quả giữa hai lần xếp hạng của cùng một

truy vấn. Tôi thử nghiệm với tập 35 truy vấn và sau đó đánh giá độ chính xác cho 50 ảnh trả về đầu tiên.

Giả sử ta có 5 đối tượng là: a, b, c, d, e

Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phù

hợp.

Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e Độ chính xác trung bình được định nghĩa như sau:

= ∑ @ × ( )

∑ ( )

Trong đó:

n là số đối tượng được xét.

@ = @ (Match@K = số các đối tượng phù hợp ở K vị trí đầu tiên)

I(K) = 1 nếu đối tượng ở vị trí K là phù hợp, ngược lại I(K) = 0

Ví dụ: P@1 = 1/1, P@2 = 2/2, P@3 = 2/3, P@4 = 3/4. Thì độ chính xác trung bình là: = 1 1× 1 + 2 2× 1 + 3 4× 1 3 = 0.92

Giá trị trung bình trên m xếp hạng (với bài toán tìm kiếm thì đó là giá trị trung bình của AP trên các truy vấn):

=∑

Bảng thống kê độ chính xác của 50 ảnh đầu tiên của mỗi truy vấn trên các máy tìm kiếm cho thấy hệ thống có độ chính xác trung bình khá cao (MAP=81.2%). Đặc biệt là đối với các truy vấn về một vật thể có hình dạng, màu sắc xác định như “candle” (AP=100%), “guitar” (AP=90.1%), “iphone” (AP=93.0%)…. Ngoài ra, độ chính xác của hệ thống khi sử dụng thuật toán xếp hạng chỉ dựa trên đặc trưng văn bản cũng khá cao (MAP=79.7%) trong khi đó MAP của Google là 76.1% và của Yahoo là 66.8%. Điều đó cho thấy rằng hệ thống hoạt động tốt cho cả truy vấn mới và cũ.

Tuy nhiên, đối với các truy vấn mà đối tượng tìm kiếm không rõ ràng như truy vấn “cloud”, “wave” thì kết quả xếp hạng của hệ thống chưa thực sự tốt. Đối với “wave”, độ chính xác của hệ thống khi xếp hạng dựa trên nội dung hiển thị là 43.0% trong khi độ chính xác khi xếp hạng dựa trên nội dung văn bản là 60.7% và độ chính xác của Google là 55.5 %.

Bảng 5. Độ chính xác trung bình trên 35 truy vấn

Google Yahoo MS_Text MS_Content

ball 53.8 24.0 71.8 76.0 beach 95.5 40.4 97.4 88.5 bicycle 71.5 68.3 86.0 88.8 bike 53.5 41.1 81.2 79.0 bird 70.0 60.1 66.8 82.8 bridge 91.3 85.5 81.7 91.8 cake 76.8 92.0 84.9 92.3 candle 89.2 84.0 94.9 100 car 92.6 76.9 91.1 94.2 cat 97.2 81.5 86.2 97.1 christmas tree 95.7 91.3 100 96.3 church 69.1 34.7 65.2 76.9 cloud 56.9 49.6 42.5 40.8 cloud gate 86.9 55.4 73.1 70.5 cup 33.1 51.4 39.4 52.0 drums 87.7 70.2 95.5 90.5 duck 70.4 72.8 79.0 82.8 feathers 56.0 57.3 65.0 63.7 guitar 76.2 73.0 80.2 90.1 iphone 95.4 96.6 96.3 93.0 kids 51.2 82.0 70.9 75.1 kitten 83.8 93.9 91.4 82.9 lake 93.1 65.5 95.8 87.7 leaves 84.3 80.1 82.6 95.0 lemon 70.9 38.7 79.4 79.5 monkey 86.2 83.1 89.2 95.6 railway 61.2 92.5 72.4 68.0 river 72.7 66.5 69.7 78.3 road 78.9 81.2 91.3 83.0 snow 87.6 91.7 86.8 80.3 sun 70.1 45.1 70.9 73.6 sunrise 85.2 17.6 91.1 78.6 train 92.5 86.5 78.1 85.6 tree 70.6 74.6 84.4 88.4

wave 55.5 34.1 60.7 43.0

MAP 76.1 66.8 79.7 81.2

Hình 16. Biểu đồ so sánh độ chính xác trung bình giữa các hệ thống

Để đánh giá khả năng tìm kiếm và xếp hạng của hệ thống đối với các từ khóa tiếng Việt, tôi thử nghiệm với 5 truy vấn tiếng Việt và đo độ chính xác của 50 kết quả đầu tiên của mỗi truy vấn. Các truy vấn tiếng việt được chọn là: “Bác Hồ”, “quả táo”, “con ong”, “máy bay”, “hoa hồng”.

0% 20% 40% 60% 80% 100%

Sun Guitar Bicycle Cat Car Leaves

Google Yahoo MS_Text MS_Content

Hình 17. Biểu đồ độ chính xác mức K của một số truy vấn tiếng Việt

Biểu đồ trên thể hiện độ chính xác mức K của một số truy vấn tiếng Việt khi được thực hiện trên hệ thống tìm kiếm ảnh lớp trên. Biểu đồ cho thấy hệ thống xếp hạng khá chính xác cho 20 ảnh đầu. Tuy độ chính xác trung bình cho 50 ảnh đầu tiên không thực sự tốt nhưng người dùng thường chỉ quan tâm 10 đến 20 kết quả đầu tiên. Do đó tập 20 ảnh đầu là quan trọng.

Để đánh giá tốc độ thực thi của hệ thống, tôi đo thời gian xếp hạng của các truy vấn thử nghiệm. Thời gian xếp hạng trung bình cho mỗi truy vấn là 40 giây. Khoảng thời gian này bao gồm thời gian trích xuất các thành phần đặc trưng, tìm và xử lý các ảnh trùng lặp, tính ma trận tương đồng dựa trên nội dung hiển thị và nội dung văn bản, tính hạng cho các ảnh và ghi kết quả vào file. Tôi cũng đo thời gian phản hồi của hệ thống đối với các truy vấn mới. Thời gian này được tính từ lúc hệ thống nhận được câu truy vấn đến lúc trả lại kết quả cho người dùng. Thời gian hồi đáp trung bình cho mỗi truy vấn mới là 20 giây. Như vậy, có thể thấy rằng thời gian thực thi của hệ thống là trong mức cho phép đối với một máy tìm kiếm ảnh.

0% 20% 40% 60% 80% 100% P@5 P@10 P@20 P@30 P@40 P@50 Bác Hồ Quả táo Con ong Máy bay Hoa Hồng

Kết luận

Với lượng dữ liệu ảnh đa dạng và phong phú trên Internet, nhu cầu về một hệ thống xếp hạng ảnh là rất cần thiết. Tuy những nghiên cứu về tìm kiếm và xếp hạng ảnh trên Web đã được quan tâm từ lâu, nhưng lĩnh vực này vẫn còn nhiều vấn đề cần phải giải quyết. Nắm bắt được nhu cầu đó, khóa luận đã tíến hành nghiên cứu một thuật toán xếp hạng ảnh dựa trên các văn bản đi kèm ảnh và chính nội dung hiển thị của ảnh và tiến hành áp dụng thử nghiệm trên một mô hình máy tìm kiếm ảnh lớp trên.

Các kết quả chính đạt được

Khóa luận đã tìm hiểu các thuật toán xếp hạng trang Web và các thuật toán xếp hạng ảnh điển hình. Từ đó đề xuất áp dụng thuật toán VisualRank cho cả đặc trưng văn bản và đặc trưng hiển thị của ảnh trong xếp hạng.

Đồng thời khóa luận đưa ra mô hình máy tìm kiếm ảnh lớp trên áp dụng thử nghiệm thuật toán đã đề xuất. Mô hình máy tìm kiếm này quan tâm đến trạng thái câu hỏi người dùng và hỗ trợ các truy vấn tiếng Việt. Do đó, những nghiên cứu này là rất hữu ích cho người dùng Việt Nam.

Khóa luận đã tiến hành thử nghiệm mô hình với tập 35 câu truy vấn được trích rút từ các thẻ phổ biến trên Flickr. Kết quả của mô hình là khả quan đối với cả hai phương pháp xếp hạng ảnh được sử dụng. Độ chính xác của phương pháp xếp hạng chỉ dựa trên nội dung văn bản là 79.7% và độ chính xác của phương pháp xếp hạng dựa trên cả nội dung hiển thị và nội dung văn bản là 81.2%, tốt hơn so với độ chính xác của Google (76.1%) và của Yahoo (66.8%). Khóa luận cũng đã thử nghiệm với một số câu truy vấn tiếng Việt. Kết quả thử nghiệm cho thấy mô hình có thể xếp hạng khá tốt cho tập 20 ảnh đầu tiên. Từ những kết quả ban đầu đó cho thấy tính đúng đắn của mô hình.

Một số vấn đề cần tiếp tục giải quyết

Tuy mô hình đã bước đầu đạt được một số kết quả khả quan trên tập dữ liệu thử nghiệm, nhưng đối với các truy vấn về sự kiện hoặc về các đối tượng không cụ thể thì thuật toán xếp hạng chưa giải quyết được tốt.

Hơn nữa, vấn đề thời gian xếp hạng lại và không gian lưu trữ ảnh cũng cần được quan tâm khi cơ sở dữ liệu của hệ thống được mở rộng. Cần có một giải pháp thích

hợp để vừa có thể lưu trữ được dữ liệu cho càng nhiều câu truy vấn càng tốt, vừa có thể thực hiện xếp hạng lại cho tất cả các câu truy vấn này.

Một vấn đề khác là đối với các truy vấn tên riêng (tên người, tên địa danh, …) bằng tiếng Việt thì việc dịch các truy vấn này sang tiếng anh sẽ làm cho kết quả tìm kiếm không còn đúng nữa. Hơn nữa, nếu kết quả dịch của từ điển không chính xác thì sẽ dẫn đến nhiều sai lệch trong việc tìm kiếm. Do đó, nếu tìm kiếm trực tiếp bằng tiếng Việt thì có thể sẽ có những kết quả tốt hơn.

Hướng nghiên cứu tiếp theo

Trong thời gian tới, ngoài việc tiếp tục giải quyết các vấn đề còn tồn tại, tôi định hướng một số nghiên cứu tiếp theo:

- Nghiên cứu thêm về các thuật toán trích xuất các thành phần đặc trưng ảnh để nâng cao hiệu quả trong việc tính độ tương đồng giữa các ảnh.

- Nghiên cứu các phương pháp xử lý tiếng Việt để tìm kiếm ảnh trực tiếp bằng tiếng Việt.

- Cải tiến thêm cho chương trình theo hướng người dùng. Sử dụng chủ đề ẩn để làm giàu thông tin truy vấn.

Tài liệu tham khảo

Tiếng Việt

[1] Đỗ Thị Diệu Ngọc, Nguyễn Hoài Nam, Nguyễn Thu Trang, Nguyễn Yến Ngọc (2004). Giải pháp tính hạng trang Modified Adaptive PageRank trong máy tìm kiếm.

Chuyên san “Các công trình nghiên cứu về CNTT và Truyền thông”, Tạp chí Bưu chính Viễn thông, 14, 4-2005, 65-71.

[2] Nguyễn Hoài Nam (2004). Thuật toán tính hạng trang và xây dựng mô đun thử

nghiệm. Khóa luận đại học, Trường ĐHKHTN.

[3] Nguyễn Thu Trang (2006). Link spam với đồ thị Web và hạng trang Web. Khóa

luận đại học, Trường ĐHCN.

[4] Nguyễn Thu Trang (2009). Học xếp hạng trong tịnh hạng đối tượng và phân cụm tài liệu. Luận văn Thạc sỹ, Trường ĐHCN.

[5] Nguyễn Hoàng Trung (2009). Xây dựng search engine. Luận văn Thạc sỹ, Trường ĐHCN.

Tiếng Anh

[6] Aktas, M., Nacar, M., Menczer, F. (2004). Personalizing PageRank based on

domain profiles. SIGKDD Workshop on Web Mining and Web Usage Analysis: 83-90.

[7] Allan Borodiny, Gareth O. Robertsz, Jeffrey S. Rosenthalx, Panayiotis Tsaparas (2004). Link Analysis Ranking Algorithms, Theory, and Experiments.

ACM Trans. Inter. Tech., 5(1):231-297.

[8] Amy N.Langville and CarlD.Meyer (2003). Deeper inside pagerank. Internet Mathematics Journal, 2003. Submitted in September 2003.

[9] Amy N.Langville, Carl D. Meyer (2006). A Reodering for the PageRank problem.

Siam journal on scientific comuping. 2006, Vol 27; NUMB 6, pages 2112-2120.

[10] Anselm Spoerri (2004). RankSpiral: Toward Enhancing Search Results

[11] Benitez, A.B. Beigi, M. Shih-Fu Chang (2002). Using relevance feedback in content-based image metasearch. Internet Computing, IEEE. 2002.

[12] B. Uygar Oztekin, George Karypis, Vipin Kumar (2002). Expert agreement

and content based reranking in a meta search environment using Mearf. WWW 2002: 333-344, 2002.

[13] Baoning Wu and Brian D. Davison (2005). Identifying Link Farm Spam Pages.

In Proceedings of the 14th International World Wide Web Conference, Industrial Track, May 2005.

[14] Bo Luo, Xianogang Wang, and Xiaoou Tang (2003). World Wide Web Based

Image Search Engine Using Text and Image Content Features. Internet Imaging IV. Edited by Santini, Simone; Schettini, Raimondo. Proceedings of the SPIE, Volume 5018, pp. 123-130 (2003).

[15] Chik Ching Yiu, Ip Che Yin (2002). Image Ranking Schemes Using Link-

Structure Analysis Algorithm. WWW2000,

http://www2002.org/CDROM/poster/114/

[16] Cam-Tu Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Thu-Trang Nguyen,

Quang-Thuy Ha (2009). Web Search Clustering and Labeling with Hidden

Topics. ACM TALIP, 8(3): 1-40.

[17] Eva Horster, Malcolm Slaney, Marc’ Aurelio Ranzato, Kilian Weinberger

(2009). Unsupervised image ranking. International Multimedia Conference,

Proceedings of the First ACM workshop on Large-scale multimedia retrieval and mining, 2009. Pages 81-88.

[18] Eric J. Glover (2001). Using Extra-Topical User Preferences To Improve Web- Based Metasearch,. PhD Thesis, The University of Michigan.

[19] G. Park, Y. Baek, and H. Lee (2003). Majority based ranking approach in web image retrieval. Proceedings of the 2nd international conference on Image and video retrieval, 2003. Pages: 111-120.

[20] Hsinchun Chen, Haiyan Fan, Michael Chau, and Daniel Zeng (2001).

MetaSpider: Meta-Searching and Categorization on the Web. JASIST,

52(13):1134–1147, 2001.

[21] Hervé Jégou, Matthijs Douze, Cordelia Schmid (2010). Product quantization

[22] Herve Jegou, Matthijs Douze, Cordelia Schmid (2008). Recent Advances in

Large Scale Image Search. ETVC 2008: 305-326.

[23] Jon M. Kleinberg (1999). Authoritative Sources in a Hyperlinked Environment.

ACM 46(5): 604-632(1999).

[24] Kamarul Hawari Ghazali (2007). Feature Extraction technique using SIFT

keypoints descriptors. Proceedings of the International Conference on Electrical and Engineering and Informatics Institut technology Bandung, Indonesia, june 17- 19, 2007.

[25] Lowe David (2004). Distinctive image features from scale-invariant keypoints.

International Journal of Computer Vision 2004; 60(2):91–110.

[26] Liangliang Cao, Andrey Del Pozo, Xin Jin, Jiebo Luo, Jiawei Han and Thomas Huang (2010). RankCompete: Simultaneous Ranking and Clustering of

Web Photos. WWW10, http://www.cs.uiuc.edu/homes/hanj/pdf/www10_lcao.pdf

[27] L.S. Kennedy and M. Naaman (2008). Generating diverse and representative

image search results for landmarks. In WWW ’08: Proceeding of the 17th international conference on WorldWideWeb, pages 297 -306, NewYork, NY, USA, 2008. ACM.

[28] Manoj M., Elizabeth Jacob (2008). Information retrieval on Internet using metasearch engines: A review. Journal of Scientific & Industrial Research, 67:739-746.

[29] Mitsuru Ambai, Yuichi Yoshida (2009). Multiclass VisualRank: Image Ranking Method in Clustered Subsets Based on Visual Features. Proceedings of the 32nd

international ACM SIGIR conference on Research and development in information retrieval. 2009. Pages: 732-733.

[30] Page, L., Brin, S., Motwani, R. and Winograd, T. (1998). The PageRank

citation ranking: bringing order to the Web. Technical report, Stanford University. [31] Ritendra Datta, Dhiraj Joshi, Jia Li, and James Z. Wang (2008). Image

Retrieval: Ideas, Influences, and Trends of the New Age. ACM Computing

Surveys, 40 (2), April 2008.

[32] Sepandar Kamvar, Taher Haveliwala, and Gene Golub (2003). Adaptive

[33] Shiliang Zhang, Qi Tian, Gang Hua, Qingming Huang, Shipeng Li (2009).

Descriptive Visual Words and Visual Phrases for Image Applications. Proceedings

of the seventeen ACM international conference on Multimedia. Pages: 75-84. 2009.

[34] Shuhui Wang, Quingming Huang, Shuqiang Jiang, Lei Qin, Qi Tian (2009). Visual ContextRank for web image re-ranking. Proceedings of the First ACM workshop on Large-scale multimedia retrieval and mining. 2009. Pages: 121-128.

[35] Taher H. Haveliwala (2002). Topic-sensitive PageRank. Technical report,

Stanford University. May 7–11, 2002, Honolulu, Hawaii, USA.

[36] T.L. Berg, A.C. Berg (2009). Finding iconic images. cvprw, pp.1-8, 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, 2009.

[37] Viswanathan, M., Chang, C.-K., Moon, J.-H. Patlolla, A., (2009). Goggle (or Gist on the Google Phone): A Content-Based Image Retrieval System for the gPhone. CSCI-546 Project Report, Spring 2009.

[38] Xinmei Tian, Dacheng Tao (2009). Active Reranking for Web Image Search.

Image Processing, IEEE Transaction, Vol 19, 2009. Pages 805 – 820.

[39] Yushi Jing (2008). PageRank for images products search. Reafered Track: Rich

media, April 21-25, 2008. Beijing, China.

[40] Yushi Jing, Shumeet Baluja (2008). VisualRank: Applying PageRank to Large- Scale Image Search. IEEE Trans. Pattern Anal. Mach. Intell., 30(11): 1877-1890

(2008).

[41] Z. Gyongyi and H. Garcia-Molina (2005). Web Spam Taxonomy. Proc. of the Fourteenth International World Wide Web Conference, Chiba, Japan, 2005.

[42] Z. Gyongyi, H. Garcia-Molina, and J. Pendersen (2004). Combating Web

Spam with TrustRank. In Proceedings of the 30th International VLDB Conference,

Tính hạng định hướng ngữ cảnh

Sơ bộ về tính hạng ảnh