Nhờ ứng dụng bộ thu thập nội dung web, chỳng tụi đó xõy dựng được một hệ thống nội dung phong phỳ, chia thành nhiều chủ đề thuộc cỏc lĩnh vực văn húa Việt Nam như: Văn húa nghệ thuật, lịch sử, trang phục, dõn tộc, phong tục,… Ngoài ra bộ thu thập nội dung web cũn cú những thay đổi phự hợp để tổng hợp những kiểu dữ liệu khỏc như hỡnh ảnh, õm nhạc, video clip giỳp người dựng cú cỏi nhỡn đa chiều và sinh động hơn về văn húa Việt Nam.
KẾT LUẬN
Trong giai đoạn bựng nổ thụng tin hiện nay, người dựng cú cơ hội để tiếp cận với kho tri thức khổng lồ của nhõn loại. Cỏc cụng cụ tỡm kiếm giỳp người dựng thuận tiện hơn trong quỏ trỡnh tỡm kiếm tri thức đú. Để thuận tiện cho việc tỡm kiếm cú thể xõy dựng cỏc cụng cụ tỡm kiếm biểu diễn kết quả tỡm kiếm theo từng cụm chủ để. Đó cú rất nhiều cụng trỡnh nghiờn cứu thành cụng trong lĩnh vực này, đặc biệt là với ngụn ngữ tiếng Anh. Tuy nhiờn, tiếng Việt cú cỏc đặc thự riờng biệt mà cỏc cụng cụ tỡm kiếm tiếng Anh xử lý sẽ khụng cho được kết quả chớnh xỏc. Chớnh vỡ vậy cần xõy dựng cỏc cụng cụ riờng trong việc tỡm kiếm thụng tin tiếng Việt sao cho thuận tiện với người dựng Việt. Đõy là việc làm rất cần thiết và cú nhiều ý nghĩa trong khoa học cũng như trong thực tiễn.
Trong luận văn này, chỳng tụi đó xõy dựng thử nghiệm một cụng cụ tỡm kiếm web, cho phộp người dựng tỡm kiếm web theo cỏc chủ đề. Nhờ việc vận dụng cỏc thuật toỏn tỏch từ giành cho tiếng Việt và lý thuyết tập thụ cho việc phõn cụm kết quả tỡm kiếm, thử nghiệm của chỳng tụi đó cho thấy nú giải quyết được khỏ tốt tớnh chất phức tạp của tiếng Việt để xõy dựng nờn cụng cụ tỡm kiếm web tiếng Việt phục vụ cho người Việt.
Tuy nhiờn, do hạn chế về thời gian và trỡnh độ cú hạn nờn mặc dự đó cố gắng, nhưng thử nghiệm của chỳng tụi vẫn cũn tồn tại một số vấn đề chưa giải quyết được triệt để. Chớnh vỡ vậy chỳng tụi đó xỏc định một số hướng nghiờn cứu mà tụi nhận cần thực hiện trong tương lai:
Nghiờn cứu cỏc thuật toỏn tỏch từ tiếng Việt để cho kết quả tỏch từ chớnh xỏc hơn và tốc độ thuật toỏn thực hiện nhanh hơn.
Vận dụng triệt để lý thuyết tập thụ để thu gọn số chiều của vector biểu diễn tài liệu và đặc trưng của cỏc cụm gúp phần nõng cao tốc độ xử lý kết quả tỡm kiếm web.
Phỏt triển cụng cụ thu thập web cú tớnh tựy biến cao cho phộp thu thập web theo kiểu trường húa giỳp người dựng cú thể tỡm kiếm thụng tin với độ chớnh xỏc cao hơn.
Thực nghiệm chương trỡnh trờn diện rộng và thu thập ý kiến đỏnh giỏ của người dựng để cú kết quả đỏnh giỏ chất lượng chớnh xỏc hơn và phỏt triển cụng cụ tỡm kiếm thuận tiện hơn.
Tài liệu tham khảo
Tiếng Việt
1. Nguyễn Thị Minh Huyền, Vũ Xuõn Lương, Lờ Hồng Phương (2003), "Sử dụng bộ gỏn nhón từ loại xỏc suất QTAG cho văn bản tiếng Việt", kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội.
2. Trịnh Quốc Sơn, “Nghiờn cứu phõn loại văn bản tiếng Việt”, khúa luận mụn Data mining.
Tiếng Anh
3. Baeza-Yates, R., and Ribeiro-Neto, B. (1999) Modern Information Retrieval, 1st ed. Addison Wesley Longman Publishing Co. Inc.
4. Basu, S., Banerjee, A., & Mooney, R. J. (2002). Semi-supervised clustering by seeding. In Proceedings of 19th International Conference on Machine Learning (ICML-2002), pp. 19–26.
5. Basu, S., Banerjee, A., & Mooney, R. J. (2003). Active semi-supervision for pairwise constrained clustering. Submitted for publication, available at http://www.cs.utexas.edu/˜sugato/.
6. Basu Sugato (2004) Semi-supervised Clustering with Limited Background Knowledge. Proceedings of the Ninth AAAI/SIGART Doctoral Consortium, pp. 979-980, San Jose, CA, July 2004.
7. Bilenko Mikhail, Basu Sugato, and Mooney Raymond J. (2004). Integrating Constraints and Metric Learning in Semi-Supervised Clustering . Proceedings of the 21st International Conference on Machine Learning (ICML-2004), pp. 81-88, Banff, Canada, July 2004.
8. Gautam Pant, Padmini Srinivasan, and Filippo Menczer (2008), Crawling the Web.
Morgan Kaufmann.
10. Jan Komorowski, Lech Polkowski, Andrzej Skowron, Rough sets: A Tutorial.
11. Kaufman, L and Rousseeuw (1990) Finding groups in data: an introduction to cluster analysis, John Wiley and Sons, New York.
12. Ngo Chi Lang (2003), A tolerance rough set approach to clustering web search results, Master's thesis.
13. S.Chakrabarti (2003), Mining the Web. Morgan Kaufmann.
14. Saori Kawasaki, Ngoc Binh Nguyen, T. B. H. (2000), Hierarchical document clustering based on tolerance rough set model. In Principles of Data Mining and Knowledge Dis-covery, 4th European Conference, PKDD 2000, Lyon, France, September 13-16. Proceedings (2000), D. A. Zighed, H. J. Komorowski, and J. M. Zytkow, Eds., vol. 1910 of Lecture Notes in Computer Science, Springer.
15. G.Salton (1989), Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley Longman Publishing Co., Inc.
16. Soumen Chakrabarti, Martin van den Berg, Byron Dom (1999), Focused crawling: a new approach to topic-specific Web resource discovery,
Toronto.
17. Tu Bao Ho, N. B. N. (2002) Nonhierarchical document clustering based on a tolerance rough set model. International Journal of Intelligent Systems 18. Z. Pawlak (1991), Rough sets: Theoretical aspects of reasoning about data.
Kluwer Dordrecht.
19. Zifeng Cui, Baowen Xu, Weifeng Zhang, Junling Xu (2005), Web Documents Clustering with Interest Links, IEEE.
Southeast University, Nanjing, China.
21. Zdravko Markov and Daniel T. Larose (2007), Data mining the web Uncovering Patterns in Web Content, Structure, and Usage, Wiley & Sons, Inc., Publication
22. Y.Zhao, and G.Karypis (2001), Criterion functions for document clustering: Experiments and analysis.
23. Zdravko Markov and Daniel T. Larose (2007), Data mining the web Uncovering Patterns in Web Content, Structure, and Usage, Wiley & Sons, Inc., Publication. 24. W.Ziarko (1993) Variable precision rough set model. Journal of Computer