Sự thật (Ground truth)

Cỏc phương phỏp đỏnh giỏ thuộc phõn loại này ra đời là do yờu cầu của bài toỏn khai thỏc và tỡm kiếm thụng tin. Phương phỏp này dựa trờn tập chõn lớ (ground truth set)[31] - tập tài liệu cú kốm theo nhón phõn loại đỳng hoặc cú kốm theo cỏc thụng tin về lớp của tài liệu. Tập tài liệu này được sử dụng để làm tập kiểm thử kiểm tra tớnh đỳng đắn của giải thuật. Cụ thể là kết quả phõn

lớp của giải thuật được so sỏnh với nhón gốc ban đầu. Như vậy, để cú thể sử dụng phương phỏp này chỉ cần chuẩn bị tập tài liệu kiểm thử và cỏc độ đo đỏnh giỏ chất lượng kết quả đạt được.

Chớnh xỏc-Hồi tƣởng (Precision-Recall)

Precision-Recall là hai độ đo chuẩn thường được sử dụng để đỏnh giỏ

chất lượng cỏc hệ thống khai thỏc và tỡm kiếm thụng tin. Gọi D là tập tài liệu, Q  D tập cỏc tài liệu liờn quan cõu hỏi truy vấn, A tập cỏc tài liệu thu về từ hệ thống và AQ = A  Q tập cỏc tài liệu liờn quan thu về từ hệ thống. Gọi p và r lần lượt là precision và recall, được định nghĩa như sau: [21]

A A p Q CT 5.1 Q A r  Q CT 5.2

Một giải thuật được đỏnh giỏ là lớ tưởng khi nú cú thể tạo ra được cỏc kết quả mà cả hai độ đo precision và recall đều bằng 1. Trong thực tế khụng một giải thuật nào cú thể đạt được precision và recall đều bằng 1, mà chỉ cú thể cố gắng đạt được precision càng cao càng tốt nhưng vẫn đảm bảo recall ở mức hợp lớ. Như vậy chỉ cần thoả món được yờu cầu này thỡ giải thuật sẽ được đỏnh giỏ là hiệu quả, nghĩa là cú thể tạo ra được cỏc nhúm chủ đề tốt giỳp người sử dụng nhanh chúng xỏc định tài liệu mỡnh quan tõm.

Merge-then-cluster

Trong phõn cụm tài liệu, cú một kĩ thuật đỏnh giỏ giải thuật rất hữu ớch đú là tạo tập tài liệu kiểm thử bằng cỏch thu thập cỏc tài liệu từ cỏc nguồn hoặc cỏc lĩnh vực khỏc nhau, khi đú ta cú được một tập với nhiều chủ đề khỏc nhau. Sau đú, thực hiện giải thuật phõn cụm trờn tập tài liệu đú và so sỏnh kết

quả thu được với cỏc lớp tài liệu gốc ban đầu bằng cỏch sử dụng độ đo Entropy. Độ đo này xem xột mức độ phõn bố của cỏc lớp tài liệu khỏc nhau vào trong cỏc nhúm. Độ đo Entropy sử dụng trong giải phỏp phõn cụm được định nghĩa như sau: [21]:

) ( 1 r k r r C E n n E    (CT 5.3) trong đú, r i r q i r i r r n n n n q C E log log 1 ) ( 1     , Cr là nhúm thứ r cú kớch cỡ là nr, q là số lớp tài liệu,

nri là số tài liệu lớp thứ i được xếp vào nhúm Cr.

Nhận xột: cỏc phương phỏp đỏnh giỏ trờn phụ thuộc nhiều vào chất lượng và mức độ sẵn sàng của tập tài liệu kiểm thử. Nghĩa là tập tài liệu kiểm thử phải luụn được phõn loại trước bởi cỏc chuyờn gia, do vậy nú luụn gắn với ý kiến chủ quan của cỏc chuyờn gia. Trong thực tế giải thuật phõn cụm tài liệu cú thể phỏt hiện ra được cỏc tài liệu cú cựng chủ đề mà cỏc chuyờn gia khụng phỏt hiện ra được. Ưu điểm chớnh của phương phỏp Ground-truth đú là chỉ cần một tập tài liệu kiểm thử ta cú thể dễ dàng thực hiện kiểm thử giải thuật với cỏc thiết lập tham số khỏc nhau và so sỏnh với cỏc giải thuật khỏc.

5.1.2 í kiến ngƣời sử dụng

Mục đớch chớnh khi phỏt triển cỏc chương trỡnh ứng dụng phõn cụm tài liệu là tạo thuận lợi cho người sử dụng khi thực hiện cỏc nhiệm vụ khỏc nhau. Do vậy, ý kiến người sử dụng là một phương phỏp đỏnh giỏ tự nhiờn và thiết thực nhất. Phương phỏp này được thực hiện đơn giản bằng cỏch thu thập ý

kiến của người sử dụng qua khảo sỏt phỏng vấn và sau đú lập bỏo cỏo thống kờ hoặc dựa trờn cỏc phõn tớch tự động giữa tương tỏc người sử dụng và hệ thống. (vớ dụ log analysis, khai phỏ web). Cỏc vớ dụ về phương phỏp đỏnh giỏ của người sử dụng được trỡnh bày chi tiết trong [18]. Tuy nhiờn, kết quả đỏnh giỏ này chỉ chớnh xỏc khi thu thập một số đủ lớn cỏc ý kiến người sử dụng. Thực hiện được điều này khụng phải là dễ dàng, nú đũi hỏi phải cú nhiều thời gian và cụng sức.

5.2 Đỏnh giỏ giải thuật LSA-FK

Vỡ thiếu tập tài liệu kiểm thử chuẩn cũng như điều kiện thời gian khụng cho phộp, nờn tụi khụng thể ỏp dụng được cỏc phương phỏp đỏnh giỏ giải thuật ở trờn cho giải thuật của mỡnh. Do vậy, tụi xin được phộp đúng vai trũ là chuyờn gia để đỏnh giỏ và thảo luận giải thuật LSA-FK.

Qua quỏ trỡnh phõn tớch thiết kế giải thuật và xõy dựng thực nghiệm, tụi nhận thấy rằng cỏc tham số sau đõy ảnh hưởng đến chất lượng của giải thuật.

Tất cả cỏc thực nghiệm được thực hiện trờn tập kết quả được trả về từ mỏy tỡm kiếm Yahoo. Hầu hết cỏc vớ dụ đều thiết lập cỏc tham số như sau:

Tham số Giỏ trị

Mỏy truy tỡm Yahoo

Hỡnh 5.1 Giao diện biểu diễn kết quả tỡm kiếm Web theo giải thuật LSA-FK

5.2.1 Giỏ trị k tối ƣu

Để cú thể thu được Ak là ma trận xấp xỉ tốt nhất của ma trận A khi sử dụng kĩ thuật phõn tớch SVD thỡ ta cần phải tớnh được giỏ trị k tối ưu. Theo CT3.6 ta dễ dàng thấy rằng giỏ trị k phụ thuộc vào việc chọn mức độ bảo toàn

thụng tin q. Nếu q càng lớn thỡ k càng lớn, khi q càng dần về 1 thỡ càng cú nhiều khỏi niệm được tạo ra.

Hỡnh 5.2 Hỡnh bờn trỏi với q=0.77 , hỡnh bờn phải với q=0.90

5.2.2 Ngƣỡng tƣơng tự

Việc xỏc định ngưỡng tương tự giữa cỏc tài liệu trong cựng chủ đề rất quan trọng, nú ảnh hưởng đỏng kể đến nội dung bờn trong của từng chủ đề. Khi giỏ trị ngưỡng lớn, cỏc tài liệu trong cựng nhúm cú mối quan hệ chặt chẽ nhau, tuy nhiờn cú khả năng tạo ra nhúm “other” lớn. Cũn giỏ trị ngưỡng thấp thỡ mối quan hệ giữa cỏc tài liệu trong cựng nhúm là rời rạc và khụng nhất quỏn. Qua thực nghiệm, tụi nhận thấy rằng miền giới hạn ngưỡng tương tự 0.2 đến 0.5 dường như là hợp lớ.

Hỡnh 5.3 Hỡnh bờn trỏi với ngưỡng tương tự 0.23 và bờn phải 0.53

5.2.3 Tớnh tổng quỏt cõu hỏi truy vấn

Thực nghiệm này thực hiện với mục đớch khảo sỏt mức độ ảnh hưởng của của việc đặt cõu hỏi truy vấn chung chung vào kết quả phõn cụm. Cặp cõu hỏi truy vấn thường được sử dụng khi đỏnh giỏ giải thuật phõn cụm kết quả tỡm kiếm đú là “clinton” và “hillary rodham clinton” (cõu hỏi này cụ thể hơn) [18, 16]

KẾT LUẬN

Tuy phõn cụm kết quả tỡm kiếm Web là hướng nghiờn cứu khỏ mới mẻ trong lĩnh vực Khoa học mỏy tớnh nhưng nú được nhận định là một cụng cụ đầy hứa hẹn trong tương lai. Hay núi cỏch khỏc, cỏc giải thuật phõn cụm nhanh và đỳng giỳp hiệu quả của việc tỡm kiếm tăng lờn đỏng kể. Ngoài ra, nú cũn kộo theo một vài cải tiến khoa học nhờ ỏp dụng thực thi ý tưởng phõn cụm kết quả tỡm kiếm Web, Vivismo đó chứng minh được điều đú[28].

Vỡ vậy việc nghiờn cứu, hoàn thiện và ỏp dụng cỏc giải thuật phõn cụm kết quả tỡm kiếm Web là việc làm rất cần thiết và cú nhiều ý nghĩa trong khoa học cũng như trong thực tiễn.

Trong luận văn này, tụi xin đúng gúp cho khoa học và thực tiễn một cỏch tiếp cận mới trong việc thực hiện phõn cụm kết quả tỡm kiếm. Cỏch tiếp cận này xuất phỏt từ ý tưởng LSA và Fisher Kernel. Qua phõn tớch, tụi nhận thấy rằng chất lượng cụm do ỏp dụng giải thuật LSA-FK tương đối tốt do giải quyết được cỏc vấn đề thường gặp trong ngụn ngữ tự nhiờn, đú là vấn đề từ đồng nghĩa và từ đa nghĩa.

Mặc dự đó cố gắng hết sức, nhưng do hạn chế về thời gian và trỡnh độ cú hạn nờn vẫn cũn tồn tại một số vấn đề chưa giải quyết được. Dưới đõy là một số hướng nghiờn cứu mà tụi nhận thấy cần thực hiện trong tương lai:

 Trong suốt quỏ trỡnh thực hiện nghiờn cứu và thực thi giải thuật LSA-FK tụi nhận thấy rằng bước tiền xử lớ dữ liệu ảnh hưởng rất nhiều đến chất lượng cụm. Đặc biệt là đối với cỏc kết quả tỡm kiếm web, cỏc phương phỏp lọc đơn giản dựa trờn từ thường khụng hiệu quả. Do vậy, nếu cú kĩ thuật tiền xử lớ tốt hơn thỡ kết quả cao hơn rất nhiều.

 Thực nghiệm chương trỡnh trờn diện rộng để cú kết quả đỏnh giỏ chất lượng chớnh xỏc hơn.

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Mai Kim Chi, Trần Doón Phỳ. Lớ thuyết xỏc suất và Thống kờ toỏn, NXB

Đại học Quốc gia Hà Nội, 2001.

2. Phương Lan. Java tập 1, NXB Lao Động Xó Hội, 2003.

3. Nguyễn Đỡnh Trớ. Toỏn học cao cấp, Tập 1 Đại số và Hỡnh học giải tớch,

NXB Giỏo dục, 2001.

Tiếng Anh

4. Adam Schenker, Mark Last, A. K. Design and implementation of a web mining system for organizing search engine results. In Data Integration over

the Web (DIWeb),First International Workshop, Interlaken, Switzerland, 4 June 2001. (2001), pp. 62-75.

5. April Kontostathis and William Pottenger. A Mathermatical View of Latent

Semantic Indexing: Tracing Term Co-ocurrences.

http://www.cse.lehigh.edu/techreports/2002/LU-CSE-02-006.pdf.

6. Baeza-Yates, R., and Ribeiro-Neto, B. Modern Information Retrieval, 1st

ed. Addison Wesley Longman Publishing Co. Inc., May 1999. 7. Chakrabarti, S. Mining the Web. Morgan Kaufmann, 2003.

8. Cutting, D. R., Karger, D. R., Pedersen, J. O., and Tukey, J. W.

Scatter/gather: a cluster-based approach to browsing large document collections. In Pro-ceedings of the 15th annual international ACM SIGIR conference on Research and de-velopment in information retrieval (1992), pp. 318-329.

9. Dawid Weiss. Carrot2 Developers Guide. http:// www.cs.put.poznan.pl/dweiss/carrot/site/develop

rs/manual/manual.pdf.

10. G.Golub, C.V.Loan. Matrix Computations. Johns-Hopkins, Baltimore,

second ed., 1989.

11. Hearst, M. A., and Pedersen, J. O. Reexamining the cluster hypothesis: Scat-ter/gather on retrieval results. In Proceedings of SIGIR-96, 19th ACM

International Conference on Research and Development in Information Retrieval (ZÄurich, CH, 1996), pp. 76-84.

12. Jerzy Stefanowski và Dawid Weiss. Carrot2 and Language Properties in Web Search Results Clustering. Proceedings of the First International Atlantic

Web Intelligence Conference, Madrit, Span, vol.2663, 2003, pp.240-249. 13. M.W. Berry, S.T. Dumais & G.W. O‟Brien. Using Linear Algebra for Intelligent Information Retriaval. Computer Science Department, CS-94-270,

December 1994.

14. Michael I. Jordan, Fisher Kernels and Semidenite Programming.

281B/Stat241B: Advanced Topics in Learning & Decision Making

15. Mehran Sahami, Timothy D. Heilman. A Web-based Kernel Function for

Measuring the Similarity of Short Text Snippets. WWW 2006, May 23.26, 2006, Edinburgh, Scotland. ACM 1-59593-323-9/06/0005.

16. Ngo Chi Lang, A tolerance rough set approach to clustering web search results. Master's thesis, 2003.

17. Nello Cristianini, John Shawe- Taylor, Huma Lodhi. Latent Semantic Kernels. Journal of Intelligent Information Systems, 18:2/3, 127-152, 2002.

thesis, Poznan University of Technology, Poland, June 2003.

19. Pirolli, P., Schank, P., Hearst, M., and Diehl, C. Scatter/gather browsing communicates the topic structure of a very large text collection. In

Proceedings of the SIGCHI conference on Human factors in computing systems (1996), pp. 213-220.

20. Porter, M. F. An algorithm for suffix stripping. In Readings in Information Retrieval, P. W. Karen Sparck Jones, Ed. Morgan Kaufmann, San Francisco, 1997, pp. 130-137.

21. Salton, G. Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley Longman Publishing

Co., Inc., 1989.

22. Stefanowski, J., and Weiss, D. Carrot2 and language properties in web search results clustering. In Proceedings of AWIC-2003, First International

Atlantic Web Intelligence Conference (Madrid, Spain, 2003), E. M. Ruiz, J. Segovia, and P. S. Szczepaniak, Eds., vol. 2663 of Lecture Notes in Computer Science, Springer, pp. 240-249.

23. Scott Deerwester. Indexing by Latent Semantic Analysis. Graduate Library School University of Chicago.

24. Thomas Hofmann. Learning the Similarity of Documents: An

Information-Geometric Approach to Document Retrival and Categorization. In Advances in Neural Information Processing Systems 12 S.A. Solla, T.K. Leen vaf K.-R. Muller (eds.), pp. 914-920, MIT Press (2000).

25. Thomas Hofmann. Probabilistic Latent Semantic Indexing. Proceedings

of the Twenty-Second Annual Internation SIGIR Conference on Research and Development in Information Retrieval.

Latent Semantic Analysis. Discourse Processes, 25, 259-284, 1998.

27. Thomas Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning, 42, 177-196, 2001.

28. Vivisimo. http://vivisimo.com/faq/technology.html.

29. Van Rijsbergen, C. J. K. Information Retrieval. Butterworths, London,

1979.

30. Zamir, O., and Etzioni, O. Grouper: A dynamic clustering interface to web

search results. Computer Networks (Amsterdam, Netherlands: 1999) 31, 11-

16 (1999), 1361-1374.

31. Wroblewski, M. A hierarchical www pages clustering algorithm based on

the vector space model. Master's thesis, Poznan University of Technology,

Poland, July 2003.

32. Weiss, D. A clustering interface for web search results in polish and english, 2001.

33. Zhao, Y., and Karypis, G. Criterion functions for document clustering:

Experiments and analysis, 2001.

34. Zhang, D. Towards Web Information Clustering. PhD thesis, Southeast

University, Nanjing, China, January 2002.

35. M.K.Murray and J.W.Rice. Diffenrential geometry and Statistics.

Chapman & Hall, London, New York, 1993.

36. Frank A.Smadja. From n_grams to Collocations an Evaluation of Xtract. Department of Computer Science, ColumbiaUniversity, New York, NY10025.

PHỤ LỤC

Tớch vụ hƣớng

V là một khụng gian vectơ, u và v  V. Tớch vụ hướng của u và v là một số thực kớ hiệu là <u, v>, phụ thuộc u và v thoả món 5 tớnh chất dưới đõy gọi là 5 tiờn đề của tớch vụ hướng

<u, v> xỏc định với mọi cặp u, v của V <u, v> = <v, u>

<u, v>  0 và <u, v> = 0  u = 

Khụng gian vectơ V trong đú tồn tại một tớch vụ hướng gọi là khụng gian cú tớch vụ hướng.

Độ dài của vectơ

V là khụng gian cú tớch vụ hướng, v  V thỡ v  v,v

Hai vectơ trực giao

V là một khụng gian cú tớch vụ hướng, u và v  V. Ta núi u và v trực giao nếu <u, v> = 0

Tổ hợp tuyến tớnh

V là một khụng gian vectơ, S là một họ vectơ của V: S = {x1, x2, …, xn } Biểu thức

là một vectơ thuộc V và được gọi là một tổ hợp tuyến tớnh của họ S

Bao tuyến tớnh của cỏc vectơ

Tập tất cả cỏc tổ hợp tuyến tớnh của họ S = {x1, x2, …, xn } gọi là bao tuyến tớnh của họ S, kớ hiệu là span(S).

Độc lập tuyến tớnh

Họ S= {x1, x2, …, xn } gọi là độc lập tuyến tớnh nếu điều kiện c1x1 + c2x2 + … + cnxn = 

chỉ xảy ra khi c1 = 0, c2 = 0, …, cn = 0

Cơ sở của khụng gian vectơ

Một họ gồm n vectơ {x1, x2, …, xn } trong khụng gian vectơ V được gọi là một cơ sở của khụng gian V nếu thoả món hai điều kiện sau đõy:

{x1, x2, …, xn } là độc lập tuyến tớnh V = span{x1, x2, …, xn }

Một cơ sở cú cỏc vectơ trực giao từng đụi một được gọi là cơ sở trực giao. Cơ sở trực giao thoả món điều kiện tất cả độ dài của cỏc vectơ cơ sở đều bằng 1 được gọi là hệ trực chuẩn.

Chiều của khụng gian vectơ

Nếu {x1, x2, …, xn } là một cơ sở của khụng gian vectơ V, khi đú ta núi số chiều của khụng gian V là n và kớ hiệu là dim(V).

Ma trận trực giao

Ma trận vuụng A được gọi là trực giao khi tất cả cỏc cột (dũng) từng đụi một trực giao.

Hạng của ma trận

Hạng của ma trận A là cấp cao nhất của cỏc định thức con khỏc khụng của A, kớ hiệu r(A)

Ma trận con cấp p

Ma trận vuụng cấp p suy ra từ Amxn bằng cỏc bỏ đi m-p hàng và n-p cột gọi là ma trận con cấp p của A

Chuẩn Frobenius của ma trận

Chuẩn Frobenius của ma trận Amxn được định nghĩa như sau:

Mụ hỡnh khụng gian vectơ

Đỏnh giỏ giải thuật LSA-FK