Đỏnh giỏ giải thuật LSA-FK

Vỡ thiếu tập tài liệu kiểm thử chuẩn cũng như điều kiện thời gian khụng cho phộp, nờn tụi khụng thể ỏp dụng được cỏc phương phỏp đỏnh giỏ giải thuật ở trờn cho giải thuật của mỡnh. Do vậy, tụi xin được phộp đúng vai trũ là chuyờn gia để đỏnh giỏ và thảo luận giải thuật LSA-FK.

Qua quỏ trỡnh phõn tớch thiết kế giải thuật và xõy dựng thực nghiệm, tụi nhận thấy rằng cỏc tham số sau đõy ảnh hưởng đến chất lượng của giải thuật.

Tất cả cỏc thực nghiệm được thực hiện trờn tập kết quả được trả về từ mỏy tỡm kiếm Yahoo. Hầu hết cỏc vớ dụ đều thiết lập cỏc tham số như sau:

Tham số Giỏ trị

Mỏy truy tỡm Yahoo

Hỡnh 5.1 Giao diện biểu diễn kết quả tỡm kiếm Web theo giải thuật LSA-FK

5.2.1 Giỏ trị k tối ƣu

Để cú thể thu được Ak là ma trận xấp xỉ tốt nhất của ma trận A khi sử dụng kĩ thuật phõn tớch SVD thỡ ta cần phải tớnh được giỏ trị k tối ưu. Theo CT3.6 ta dễ dàng thấy rằng giỏ trị k phụ thuộc vào việc chọn mức độ bảo toàn

thụng tin q. Nếu q càng lớn thỡ k càng lớn, khi q càng dần về 1 thỡ càng cú nhiều khỏi niệm được tạo ra.

Hỡnh 5.2 Hỡnh bờn trỏi với q=0.77 , hỡnh bờn phải với q=0.90

5.2.2 Ngƣỡng tƣơng tự

Việc xỏc định ngưỡng tương tự giữa cỏc tài liệu trong cựng chủ đề rất quan trọng, nú ảnh hưởng đỏng kể đến nội dung bờn trong của từng chủ đề. Khi giỏ trị ngưỡng lớn, cỏc tài liệu trong cựng nhúm cú mối quan hệ chặt chẽ nhau, tuy nhiờn cú khả năng tạo ra nhúm “other” lớn. Cũn giỏ trị ngưỡng thấp thỡ mối quan hệ giữa cỏc tài liệu trong cựng nhúm là rời rạc và khụng nhất quỏn. Qua thực nghiệm, tụi nhận thấy rằng miền giới hạn ngưỡng tương tự 0.2 đến 0.5 dường như là hợp lớ.

Hỡnh 5.3 Hỡnh bờn trỏi với ngưỡng tương tự 0.23 và bờn phải 0.53

5.2.3 Tớnh tổng quỏt cõu hỏi truy vấn

Thực nghiệm này thực hiện với mục đớch khảo sỏt mức độ ảnh hưởng của của việc đặt cõu hỏi truy vấn chung chung vào kết quả phõn cụm. Cặp cõu hỏi truy vấn thường được sử dụng khi đỏnh giỏ giải thuật phõn cụm kết quả tỡm kiếm đú là “clinton” và “hillary rodham clinton” (cõu hỏi này cụ thể hơn) [18, 16]

KẾT LUẬN

Tuy phõn cụm kết quả tỡm kiếm Web là hướng nghiờn cứu khỏ mới mẻ trong lĩnh vực Khoa học mỏy tớnh nhưng nú được nhận định là một cụng cụ đầy hứa hẹn trong tương lai. Hay núi cỏch khỏc, cỏc giải thuật phõn cụm nhanh và đỳng giỳp hiệu quả của việc tỡm kiếm tăng lờn đỏng kể. Ngoài ra, nú cũn kộo theo một vài cải tiến khoa học nhờ ỏp dụng thực thi ý tưởng phõn cụm kết quả tỡm kiếm Web, Vivismo đó chứng minh được điều đú[28].

Vỡ vậy việc nghiờn cứu, hoàn thiện và ỏp dụng cỏc giải thuật phõn cụm kết quả tỡm kiếm Web là việc làm rất cần thiết và cú nhiều ý nghĩa trong khoa học cũng như trong thực tiễn.

Trong luận văn này, tụi xin đúng gúp cho khoa học và thực tiễn một cỏch tiếp cận mới trong việc thực hiện phõn cụm kết quả tỡm kiếm. Cỏch tiếp cận này xuất phỏt từ ý tưởng LSA và Fisher Kernel. Qua phõn tớch, tụi nhận thấy rằng chất lượng cụm do ỏp dụng giải thuật LSA-FK tương đối tốt do giải quyết được cỏc vấn đề thường gặp trong ngụn ngữ tự nhiờn, đú là vấn đề từ đồng nghĩa và từ đa nghĩa.

Mặc dự đó cố gắng hết sức, nhưng do hạn chế về thời gian và trỡnh độ cú hạn nờn vẫn cũn tồn tại một số vấn đề chưa giải quyết được. Dưới đõy là một số hướng nghiờn cứu mà tụi nhận thấy cần thực hiện trong tương lai:

 Trong suốt quỏ trỡnh thực hiện nghiờn cứu và thực thi giải thuật LSA-FK tụi nhận thấy rằng bước tiền xử lớ dữ liệu ảnh hưởng rất nhiều đến chất lượng cụm. Đặc biệt là đối với cỏc kết quả tỡm kiếm web, cỏc phương phỏp lọc đơn giản dựa trờn từ thường khụng hiệu quả. Do vậy, nếu cú kĩ thuật tiền xử lớ tốt hơn thỡ kết quả cao hơn rất nhiều.

 Thực nghiệm chương trỡnh trờn diện rộng để cú kết quả đỏnh giỏ chất lượng chớnh xỏc hơn.

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Mai Kim Chi, Trần Doón Phỳ. Lớ thuyết xỏc suất và Thống kờ toỏn, NXB

Đại học Quốc gia Hà Nội, 2001.

2. Phương Lan. Java tập 1, NXB Lao Động Xó Hội, 2003.

3. Nguyễn Đỡnh Trớ. Toỏn học cao cấp, Tập 1 Đại số và Hỡnh học giải tớch,

NXB Giỏo dục, 2001.

Tiếng Anh

4. Adam Schenker, Mark Last, A. K. Design and implementation of a web mining system for organizing search engine results. In Data Integration over

the Web (DIWeb),First International Workshop, Interlaken, Switzerland, 4 June 2001. (2001), pp. 62-75.

5. April Kontostathis and William Pottenger. A Mathermatical View of Latent

Semantic Indexing: Tracing Term Co-ocurrences.

http://www.cse.lehigh.edu/techreports/2002/LU-CSE-02-006.pdf.

6. Baeza-Yates, R., and Ribeiro-Neto, B. Modern Information Retrieval, 1st

ed. Addison Wesley Longman Publishing Co. Inc., May 1999. 7. Chakrabarti, S. Mining the Web. Morgan Kaufmann, 2003.

8. Cutting, D. R., Karger, D. R., Pedersen, J. O., and Tukey, J. W.

Scatter/gather: a cluster-based approach to browsing large document collections. In Pro-ceedings of the 15th annual international ACM SIGIR conference on Research and de-velopment in information retrieval (1992), pp. 318-329.

9. Dawid Weiss. Carrot2 Developers Guide. http:// www.cs.put.poznan.pl/dweiss/carrot/site/develop

rs/manual/manual.pdf.

10. G.Golub, C.V.Loan. Matrix Computations. Johns-Hopkins, Baltimore,

second ed., 1989.

11. Hearst, M. A., and Pedersen, J. O. Reexamining the cluster hypothesis: Scat-ter/gather on retrieval results. In Proceedings of SIGIR-96, 19th ACM

International Conference on Research and Development in Information Retrieval (ZÄurich, CH, 1996), pp. 76-84.

12. Jerzy Stefanowski và Dawid Weiss. Carrot2 and Language Properties in Web Search Results Clustering. Proceedings of the First International Atlantic

Web Intelligence Conference, Madrit, Span, vol.2663, 2003, pp.240-249. 13. M.W. Berry, S.T. Dumais & G.W. O‟Brien. Using Linear Algebra for Intelligent Information Retriaval. Computer Science Department, CS-94-270,

December 1994.

14. Michael I. Jordan, Fisher Kernels and Semidenite Programming.

281B/Stat241B: Advanced Topics in Learning & Decision Making

15. Mehran Sahami, Timothy D. Heilman. A Web-based Kernel Function for

Measuring the Similarity of Short Text Snippets. WWW 2006, May 23.26, 2006, Edinburgh, Scotland. ACM 1-59593-323-9/06/0005.

16. Ngo Chi Lang, A tolerance rough set approach to clustering web search results. Master's thesis, 2003.

17. Nello Cristianini, John Shawe- Taylor, Huma Lodhi. Latent Semantic Kernels. Journal of Intelligent Information Systems, 18:2/3, 127-152, 2002.

thesis, Poznan University of Technology, Poland, June 2003.

19. Pirolli, P., Schank, P., Hearst, M., and Diehl, C. Scatter/gather browsing communicates the topic structure of a very large text collection. In

Proceedings of the SIGCHI conference on Human factors in computing systems (1996), pp. 213-220.

20. Porter, M. F. An algorithm for suffix stripping. In Readings in Information Retrieval, P. W. Karen Sparck Jones, Ed. Morgan Kaufmann, San Francisco, 1997, pp. 130-137.

21. Salton, G. Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley Longman Publishing

Co., Inc., 1989.

22. Stefanowski, J., and Weiss, D. Carrot2 and language properties in web search results clustering. In Proceedings of AWIC-2003, First International

Atlantic Web Intelligence Conference (Madrid, Spain, 2003), E. M. Ruiz, J. Segovia, and P. S. Szczepaniak, Eds., vol. 2663 of Lecture Notes in Computer Science, Springer, pp. 240-249.

23. Scott Deerwester. Indexing by Latent Semantic Analysis. Graduate Library School University of Chicago.

24. Thomas Hofmann. Learning the Similarity of Documents: An

Information-Geometric Approach to Document Retrival and Categorization. In Advances in Neural Information Processing Systems 12 S.A. Solla, T.K. Leen vaf K.-R. Muller (eds.), pp. 914-920, MIT Press (2000).

25. Thomas Hofmann. Probabilistic Latent Semantic Indexing. Proceedings

of the Twenty-Second Annual Internation SIGIR Conference on Research and Development in Information Retrieval.

Latent Semantic Analysis. Discourse Processes, 25, 259-284, 1998.

27. Thomas Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning, 42, 177-196, 2001.

28. Vivisimo. http://vivisimo.com/faq/technology.html.

29. Van Rijsbergen, C. J. K. Information Retrieval. Butterworths, London,

1979.

30. Zamir, O., and Etzioni, O. Grouper: A dynamic clustering interface to web

search results. Computer Networks (Amsterdam, Netherlands: 1999) 31, 11-

16 (1999), 1361-1374.

31. Wroblewski, M. A hierarchical www pages clustering algorithm based on

the vector space model. Master's thesis, Poznan University of Technology,

Poland, July 2003.

32. Weiss, D. A clustering interface for web search results in polish and english, 2001.

33. Zhao, Y., and Karypis, G. Criterion functions for document clustering:

Experiments and analysis, 2001.

34. Zhang, D. Towards Web Information Clustering. PhD thesis, Southeast

University, Nanjing, China, January 2002.

35. M.K.Murray and J.W.Rice. Diffenrential geometry and Statistics.

Chapman & Hall, London, New York, 1993.

36. Frank A.Smadja. From n_grams to Collocations an Evaluation of Xtract. Department of Computer Science, ColumbiaUniversity, New York, NY10025.

PHỤ LỤC

Tớch vụ hƣớng

V là một khụng gian vectơ, u và v  V. Tớch vụ hướng của u và v là một số thực kớ hiệu là <u, v>, phụ thuộc u và v thoả món 5 tớnh chất dưới đõy gọi là 5 tiờn đề của tớch vụ hướng

<u, v> xỏc định với mọi cặp u, v của V <u, v> = <v, u>

<u, v>  0 và <u, v> = 0  u = 

Khụng gian vectơ V trong đú tồn tại một tớch vụ hướng gọi là khụng gian cú tớch vụ hướng.

Độ dài của vectơ

V là khụng gian cú tớch vụ hướng, v  V thỡ v  v,v

Hai vectơ trực giao

V là một khụng gian cú tớch vụ hướng, u và v  V. Ta núi u và v trực giao nếu <u, v> = 0

Tổ hợp tuyến tớnh

V là một khụng gian vectơ, S là một họ vectơ của V: S = {x1, x2, …, xn } Biểu thức

là một vectơ thuộc V và được gọi là một tổ hợp tuyến tớnh của họ S

Bao tuyến tớnh của cỏc vectơ

Tập tất cả cỏc tổ hợp tuyến tớnh của họ S = {x1, x2, …, xn } gọi là bao tuyến tớnh của họ S, kớ hiệu là span(S).

Độc lập tuyến tớnh

Họ S= {x1, x2, …, xn } gọi là độc lập tuyến tớnh nếu điều kiện c1x1 + c2x2 + … + cnxn = 

chỉ xảy ra khi c1 = 0, c2 = 0, …, cn = 0

Cơ sở của khụng gian vectơ

Một họ gồm n vectơ {x1, x2, …, xn } trong khụng gian vectơ V được gọi là một cơ sở của khụng gian V nếu thoả món hai điều kiện sau đõy:

{x1, x2, …, xn } là độc lập tuyến tớnh V = span{x1, x2, …, xn }

Một cơ sở cú cỏc vectơ trực giao từng đụi một được gọi là cơ sở trực giao. Cơ sở trực giao thoả món điều kiện tất cả độ dài của cỏc vectơ cơ sở đều bằng 1 được gọi là hệ trực chuẩn.

Chiều của khụng gian vectơ

Nếu {x1, x2, …, xn } là một cơ sở của khụng gian vectơ V, khi đú ta núi số chiều của khụng gian V là n và kớ hiệu là dim(V).

Ma trận trực giao

Ma trận vuụng A được gọi là trực giao khi tất cả cỏc cột (dũng) từng đụi một trực giao.

Hạng của ma trận

Hạng của ma trận A là cấp cao nhất của cỏc định thức con khỏc khụng của A, kớ hiệu r(A)

Ma trận con cấp p

Ma trận vuụng cấp p suy ra từ Amxn bằng cỏc bỏ đi m-p hàng và n-p cột gọi là ma trận con cấp p của A

Chuẩn Frobenius của ma trận

Chuẩn Frobenius của ma trận Amxn được định nghĩa như sau:

    n i m j ij F a A 1 1

Phƣơng phỏp lựa chọn tài liệu

- Học hàm f(d, q): D x´D  {0, 1}

-q, hệ thống đưa ra R‟(q) = {d ẻ D | f(d,q) = 1}. - Một số hạn chế:

“cõu hỏi q quỏ phổ dụng” thỡ tập R’(q) thường quỏ lớn và khụng chớnh xỏc.

“cõu hỏi q quỏ chuyờn biệt” thỡ tập R’(q) lại quỏ ớt, thậm chớ là rỗng.

Phƣơng phỏp tớnh hạng tài liệu

- Học hàm tớnh hạng f(d, q): D´D  [0, 1]

- q, đưa ra R‟(q) = {d  D | f(d,q)  với  là số dương}.

- Tiờu chuẩn hàm f(d, q): cần thỏa món tớnh “đơn điệu” nếu như văn bản d1 liờn quan với q nhiều hơn văn bản d2 phải cú f(d1,q)  f(d2,q).

- Khắc phục hạn chế của lựa chọn tài liệu - Đỏnh giỏ

Độ tin cậy , độ chớnh xỏc , độ đo chất lượng f (=1 phổ biến)

R R R '   ' ' R R R            ( 22 1) f      2 1 f

Trong đú, cõu hỏi q khụng cho chớnh xỏc tập R(q) mà là tập R’(q) xấp

Mụ hỡnh khụng gian vectơ

Tớnh tổng quỏt cõu hỏi truy vấn