Triển khai ứng dụng thử nghiệm

Toàn bộ ứng dụng thử nghiệm mà chỳng tụi đó xõy dựng được triển khai tại địa chỉ http://doctinnhanh.net. Đõy là một trang web tổng hợp tin tức từ cỏc bỏo điện tử lớn của Việt Nam như http://dantri.com.vn, http://vnexpress.net,

Đến với website người dựng sẽ luụn được cập nhất cỏc thụng tin mới nhất, cỏc bài viết được tổ chức theo từng chủ đề giỳp người dựng cú thể tiếp cận được nhanh chúng đến cỏc thụng tin mà mỡnh mong muốn mà khụng phải vào nhiều trang web một lỳc.

Đặc biệt, nhờ ứng dụng lý thuyết tập thụ vào việc phõn cụm kết quả tỡm kiếm web nờn đến với website, người dựng cú thể tỡm kiếm được thụng tin một cỏch nhanh chúng và thuận tiện nhất, khụng cần nhớ nhiều từ khúa liờn quan đến tài liệu cần tỡm, người dựng chỉ cần nhập từ khúa cần tỡm chương trỡnh tỡm kiếm sẽ trả về cỏc kết quả tỡm kiếm được chia thành cỏc chủ đề khỏc nhau giỳp tiếp cận thụng tin một cỏch nhanh chúng.

Hỡnh 6.5 là giao diện kết quả tỡm kiếm tương ứng với từ khúa “tin”, ứng dụng thử nghiệm đó trả về 2.126 bài viết cú chứa từ khúa tin và chia thành 20 chủ đề. Hỡnh vẽ thể hiện giao diện tỡm kiếm khi người dựng chọn xem chủ đề “vi tớnh”

Hỡnh 6- 5. Giao diện biểu diễn kết quả tỡm kiếm chia theo chủ đề

Bờn cạnh cỏc chức năng chớnh của một website tổng hợp thụng tin, chỳng tụi cũng cú dự định xõy dựng thờm cỏc cụng cụ tiện ớch cho người dựng như nhận bản tin mới qua email theo chuyờn mục, đăng ký từ khúa để nhận cỏc bản tin mới qua email giống cụng cụ Google Alert, xõy dựng cỏc widget cho phộp người dựng sử dụng lại cỏc thụng tin được tổng hợp trờn cỏc website riờng của mỡnh,…

Ngoài ra thành phần chỳng tụi cũn sử dụng trỡnh thu thập nội dung Web đó xõy dựng được trong việc tổng hợp nội dung cho website Bỏch khoa toàn thư văn húa Việt tại địa chỉ http://vhv.vn.

Hỡnh 6-6. Website Bỏch khoa toàn thư văn húa Việt

Nhờ ứng dụng bộ thu thập nội dung web, chỳng tụi đó xõy dựng được một hệ thống nội dung phong phỳ, chia thành nhiều chủ đề thuộc cỏc lĩnh vực văn húa Việt Nam như: Văn húa nghệ thuật, lịch sử, trang phục, dõn tộc, phong tục,… Ngoài ra bộ thu thập nội dung web cũn cú những thay đổi phự hợp để tổng hợp những kiểu dữ liệu khỏc như hỡnh ảnh, õm nhạc, video clip giỳp người dựng cú cỏi nhỡn đa chiều và sinh động hơn về văn húa Việt Nam.

KẾT LUẬN

Trong giai đoạn bựng nổ thụng tin hiện nay, người dựng cú cơ hội để tiếp cận với kho tri thức khổng lồ của nhõn loại. Cỏc cụng cụ tỡm kiếm giỳp người dựng thuận tiện hơn trong quỏ trỡnh tỡm kiếm tri thức đú. Để thuận tiện cho việc tỡm kiếm cú thể xõy dựng cỏc cụng cụ tỡm kiếm biểu diễn kết quả tỡm kiếm theo từng cụm chủ để. Đó cú rất nhiều cụng trỡnh nghiờn cứu thành cụng trong lĩnh vực này, đặc biệt là với ngụn ngữ tiếng Anh. Tuy nhiờn, tiếng Việt cú cỏc đặc thự riờng biệt mà cỏc cụng cụ tỡm kiếm tiếng Anh xử lý sẽ khụng cho được kết quả chớnh xỏc. Chớnh vỡ vậy cần xõy dựng cỏc cụng cụ riờng trong việc tỡm kiếm thụng tin tiếng Việt sao cho thuận tiện với người dựng Việt. Đõy là việc làm rất cần thiết và cú nhiều ý nghĩa trong khoa học cũng như trong thực tiễn.

Trong luận văn này, chỳng tụi đó xõy dựng thử nghiệm một cụng cụ tỡm kiếm web, cho phộp người dựng tỡm kiếm web theo cỏc chủ đề. Nhờ việc vận dụng cỏc thuật toỏn tỏch từ giành cho tiếng Việt và lý thuyết tập thụ cho việc phõn cụm kết quả tỡm kiếm, thử nghiệm của chỳng tụi đó cho thấy nú giải quyết được khỏ tốt tớnh chất phức tạp của tiếng Việt để xõy dựng nờn cụng cụ tỡm kiếm web tiếng Việt phục vụ cho người Việt.

Tuy nhiờn, do hạn chế về thời gian và trỡnh độ cú hạn nờn mặc dự đó cố gắng, nhưng thử nghiệm của chỳng tụi vẫn cũn tồn tại một số vấn đề chưa giải quyết được triệt để. Chớnh vỡ vậy chỳng tụi đó xỏc định một số hướng nghiờn cứu mà tụi nhận cần thực hiện trong tương lai:

 Nghiờn cứu cỏc thuật toỏn tỏch từ tiếng Việt để cho kết quả tỏch từ chớnh xỏc hơn và tốc độ thuật toỏn thực hiện nhanh hơn.

 Vận dụng triệt để lý thuyết tập thụ để thu gọn số chiều của vector biểu diễn tài liệu và đặc trưng của cỏc cụm gúp phần nõng cao tốc độ xử lý kết quả tỡm kiếm web.

 Phỏt triển cụng cụ thu thập web cú tớnh tựy biến cao cho phộp thu thập web theo kiểu trường húa giỳp người dựng cú thể tỡm kiếm thụng tin với độ chớnh xỏc cao hơn.

 Thực nghiệm chương trỡnh trờn diện rộng và thu thập ý kiến đỏnh giỏ của người dựng để cú kết quả đỏnh giỏ chất lượng chớnh xỏc hơn và phỏt triển cụng cụ tỡm kiếm thuận tiện hơn.

Tài liệu tham khảo

Tiếng Việt

1. Nguyễn Thị Minh Huyền, Vũ Xuõn Lương, Lờ Hồng Phương (2003), "Sử dụng bộ gỏn nhón từ loại xỏc suất QTAG cho văn bản tiếng Việt", kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội.

2. Trịnh Quốc Sơn, “Nghiờn cứu phõn loại văn bản tiếng Việt”, khúa luận mụn Data mining.

Tiếng Anh

3. Baeza-Yates, R., and Ribeiro-Neto, B. (1999) Modern Information Retrieval, 1st ed. Addison Wesley Longman Publishing Co. Inc.

4. Basu, S., Banerjee, A., & Mooney, R. J. (2002). Semi-supervised clustering by seeding. In Proceedings of 19th International Conference on Machine Learning (ICML-2002), pp. 19–26.

5. Basu, S., Banerjee, A., & Mooney, R. J. (2003). Active semi-supervision for pairwise constrained clustering. Submitted for publication, available at http://www.cs.utexas.edu/˜sugato/.

6. Basu Sugato (2004) Semi-supervised Clustering with Limited Background Knowledge. Proceedings of the Ninth AAAI/SIGART Doctoral Consortium, pp. 979-980, San Jose, CA, July 2004.

7. Bilenko Mikhail, Basu Sugato, and Mooney Raymond J. (2004). Integrating Constraints and Metric Learning in Semi-Supervised Clustering . Proceedings of the 21st International Conference on Machine Learning (ICML-2004), pp. 81-88, Banff, Canada, July 2004.

8. Gautam Pant, Padmini Srinivasan, and Filippo Menczer (2008), Crawling the Web.

Morgan Kaufmann.

10.Jan Komorowski, Lech Polkowski, Andrzej Skowron, Rough sets: A Tutorial.

11.Kaufman, L and Rousseeuw (1990) Finding groups in data: an introduction to cluster analysis, John Wiley and Sons, New York.

12.Ngo Chi Lang (2003), A tolerance rough set approach to clustering web search results, Master's thesis.

13.S.Chakrabarti (2003), Mining the Web. Morgan Kaufmann.

14.Saori Kawasaki, Ngoc Binh Nguyen, T. B. H. (2000), Hierarchical document clustering based on tolerance rough set model. In Principles of Data Mining and Knowledge Dis-covery, 4th European Conference, PKDD 2000, Lyon, France, September 13-16. Proceedings (2000), D. A. Zighed, H. J. Komorowski, and J. M. Zytkow, Eds., vol. 1910 of Lecture Notes in Computer Science, Springer.

15.G.Salton (1989), Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley Longman Publishing Co., Inc.

16.Soumen Chakrabarti, Martin van den Berg, Byron Dom (1999), Focused crawling: a new approach to topic-speciﬁc Web resource discovery,

Toronto.

17.Tu Bao Ho, N. B. N. (2002) Nonhierarchical document clustering based on a tolerance rough set model. International Journal of Intelligent Systems 18.Z. Pawlak (1991), Rough sets: Theoretical aspects of reasoning about data.

Kluwer Dordrecht.

19.Zifeng Cui, Baowen Xu, Weifeng Zhang, Junling Xu (2005), Web Documents Clustering with Interest Links, IEEE.

Southeast University, Nanjing, China.

21.Zdravko Markov and Daniel T. Larose (2007), Data mining the web Uncovering Patterns in Web Content, Structure, and Usage, Wiley & Sons, Inc., Publication

22.Y.Zhao, and G.Karypis (2001), Criterion functions for document clustering: Experiments and analysis.

23.Zdravko Markov and Daniel T. Larose (2007), Data mining the web Uncovering Patterns in Web Content, Structure, and Usage, Wiley & Sons, Inc., Publication. 24.W.Ziarko (1993) Variable precision rough set model. Journal of Computer

Cỏc phương phỏp tỏch từ tiếng Việt

Quan hệ bất khả phõn biệt