Hƣớng phát triển

Trong một thời gian ngắn, luận văn chƣa thể giải quyết triệt để một số vần đề, vậy chúng tôi dành các vần đề này cho các hƣớng phát triển tiếp theo và mong muốn sẽ đƣợc giải quyết trong thời gian sớm nhất.

Thứ nhất, đó là vấn đề tập ngữ liệu chuẩn tiếng Việt dùng trong cộng đồng, cần các đánh giá và cải tiến corpus chúng tôi xây dựng, để nó có thể đƣợc sử dụng rộng rộng rãi. Cần các thực nghiệm tổng quát và tổng thể cho các phƣơng pháp phân đoạn từ tiếng Việt, các thuật toán phân loại văn bản trên tập ngữ liệu chung, nhằm đƣa ra các hƣớng dẫn chung và chi tiết cho cộng đồng.

Thứ hai, hƣớng tìm hiểu và phát triển thêm cho các phƣơng pháp phân loại sử dụng phân cụm. Đặc biệt là hƣớng phân cụm bổ sung và áp dụng vào thuật toán và chƣơng trình, trong việc đoán nhận một và một số văn bản mới chƣa đƣợc phân cụm. Tìm hiểu thêm khă năng phân cụm dữ liệu thành k cụm (với k là số nhóm văn bản cho trƣớc) đã là tối ƣu chƣa, hay có thể tìm đƣợc k thích hợp hơn để nâng cao độ chính xác phân loại.

Thứ ba, hƣớng áp dụng thuộc tính nhóm xâu con chính đƣợc đánh giá là mới mẻ tránh đƣợc vấn đề phân đoạn từ. Phƣơng pháp này thích hợp cho việc áp dụng chống spam mail do có khả năng chống đƣợc việc trá hình của các mail spam. Hƣớng đi tiếp theo là áp dụng và thực nghiệm phƣơng pháp cho bài toán lọc spam mail, việc lƣu trữ cây hậu tố trong cơ sở dữ liệu, vì hiện nay việc lƣu trữ trực tiếp trong bộ nhớ là khá tốn không gian nhớ. Và đặc biệt là khả năng kết hợp hai phƣơng pháp này: phƣơng pháp kết hợp phân cụm và phƣơng pháp sử dụng thuộc tính nhóm xâu con chính.

Cuối cùng, đó là các phƣơng pháp và các thực nghiệm trong luận văn chƣa đề cập đến một số vấn đề đặc trƣng trong các bài toán NLP để nâng cao độ chính xác nhƣ sử dụng từ đồng nghĩa, từ trái nghĩa hay các cụm từ đặc trƣng. Vậy trong tƣơng lai gần, chúng tôi mong muốn là có thể đƣa các vấn đề này vào nhằm cải tiến và nâng cao chất lƣợng bài toán phân loại văn bản tiếng Việt, tiến hành các thực nghiệm và đƣa ra đƣợc các kết quả cũng nhƣ các đánh giá cụ thể.

Tài liệu tham khảo

1. Nguyễn Thị Minh Khuê, Nguyễn Ngọc Bình (2006),”Phân loại văn bản sử dụng phương pháp máy vector hỗ trợ (SVMs)”, Kỷ yếu hội Hội thảo khoa học 30 năm thành lập Viện CNTT. Tr.361-371, Hà Nội, tháng 12-2006.

2. Đinh Thị Phƣơng Thu, Huỳnh Quyết Thắng (2006), “Sử dụng luật cấu tạo âm tiết tiếng Việt, hai thành phần trong bài toán kiểm tra chính tả tiếng Việt”, Tạp chí ngôn ngữ, Viện Ngôn ngữ học, Vienam, http://www.iol.gov.vn .

3. Nguyễn Thanh Hùng (2006), Hướng tiếp cận mới trong việc tách từ tiếng Việt sử dụng giải thuật di truyền và thống kê Internet, Đại học KHTN tp HCM.

Tiếng Anh

4. Salton, G,; Wong, A., Yang, C., (1975) “A Vector Space Model for automatic Indexing”, Communications of the ACM, Volume 1, Pages: 613 – 620.

5. Yang, Y. and Pedersen, J. (1997), A comparative study on feature

selection in text categorization, Proceedings of ICML-97, 14th International Conference on Machine Learning, Nashville, Tennessee, USA .

6. Wilbur, J.W., Sirotkin,K. (1992) “The automatic identification of stop words”, Journal of Information Science, Volume 18, pages: 45 - 55.

7. Dumais, S. T., Latent Semantic Indexing (LSI) and TREC-2., in The Second Text REtrieval Conference (TREC2), D. Harman, ed., March 1994, pp. 105-116 8. Soucy, P., Mineau, G.W. (2005), Beyond TFIDF weighting for Text

categorization in the Vector Space Model, International Joint Conferences on Artificial Intelligence, IJCAI-05, page 1130.

9. Xu, H., Li, Ch. (2007), A Novel Term Weighting Schema for Automatic Text Categorization, Proceedings of the Seventh International Conference on Intelligent Systems Design and Applications, Pages 759-764.

10. Li, L.B., Shinwen. Y.; Qin, L. (2003), An improved k-Nearest Neighbor Algorithm for Text categorization, Proceedings of the 20th International Conference on

Computer Processing of Oriental Languages, Shenyang, China.

11. Yang, Y.; Chute, C.G. (1994), “An example-based mapping method for text categorization and retrieval”, ACM Transaction on Information Systems, Volume 12, pages: 252-277.

12. Yang. Y., Liu, X. (1999), A re-examination of Text Categorization Methods, In proceedings of 22nd Annual International SIGIR.

13. Han, E.H., Karypis, G. (1999), Centroid based document classificatino analysis and experimental results, Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery.

14. Joachims, T. (1997), Text categorization with Support Vector Machine:

Learning with many relevant features, Proceedings of ECML-98, 10th European Conference on Machine Learning.

15. Nigam, K., Lafferty, J., McCallum, A. (1999), Using Maximum Entropy for Text Classification, In IJCAI-99 Workshop on Machine Learning for

Information Filtering, pages 61-67.

16. He, J.; Tan, A.H., Tan, C.L. (2000), A Comparative Study on Chinese Text Categorization Methods, In Proceedings of PRICAI'2000 International Workshop on Text and Web Mining, p24-35.

17. Yang, Y. (1997), An evaluation of statistical approaches to text categorization, Technical Report CMU-CS-97-127, Carnegie Mellon University. (adsbygoogle = window.adsbygoogle || []).push({});

18. Nguyen, T.V., Tran, H.K., Nguyen, T.T.T., Nguyen, H. (2006), Word

segmentation for Vietnamese text categorization: an online corpus approach, Research, Innovation and Vision for the Future, The 4th International

Conference on Computer Sciences, RIVF 2006, Cantho, Vietnam.

19. Dinh, D., Kiem, H., Toan, N.V. (2001), Vietnamese Word Segmentation, The 6th Natural Language Processing Pacific Rim Symposium, Tokyo, 2001, pages: 749-756.

20. Ha, L.A. (2003), A method for word segmentation in Vietnamese, Proceedings Of Corpus Linguistics 2003, Lancaster, UK.

21. Phan, X.H., Nguyen, C.T. (2006), Vietnamese Word Segmentation with CRFs and SVMs: An investigation, The Pacific Asia Conference on Language, Information and Computation(PACLIC) 2006, China.

22. Peng, F., Feng, F., McCallum, A. (2004). Chinese Segmentation and New Word Detection using Conditional Random Fields, The 20th International Conference on Computational Linguistics.

23. Berry, M. W. (2004), Survery of Text Mining: Clustering, Classification and Retrieval, Springer, NY, USA.

24. Takamura, H. (2003), Clustering approaches to Text categorization, Phd’s thesis.

25. Zeng, H.J.; Wang, X.H.; Chen, Zh.; Ma, W.Y. (2003), CBC: Clustering based Text Classification requiring minimal labelled data, Third IEEE International Conference on Data Mining (ICDM'03) p. 443.

26. Li, H., Abe, N. (1998), Word clustering and disambiguation based on co-occurrence data, In Proceedings of COLING - ACL'98.

27. Joachims, T. (1999), Transductive Inference for Text Classification Using Support Vector Machine, In Proceedings of ICML-99, 16th International Conference on Machine Learning, pages 200-209, San Francisco, CA, USA. 28. Kyriakopoulou, A.; Kalamboukis, T. (2006), Text Classification using clustering, In Proceedings of the ECML-PKDD Discovery Challenge Workshop, 2006.

29. Kyriakopoulou, A., Kalamboukis, T. (2007), Using clustering to Enhance Text Classification, Proceedings of the 30th annual international ACM SIGIR conference, Amsterdam, The Netherlands.

30. Zhang, D; Lee W.S. (2006), Extracting Key Substring Group Features for Text Classification, Proceedings of The Twelfth Annual SIGKDD International Conference on Knowledge Discovery and Data Mining, Philadelphia, USA. 31. Dan. G. (1997), Algorithms on Strings, Trees, and Sequences, Computer Science and Computational Biology, Cambridge University Press.

32. Precup, D. (2002), Applying Machine Learning Algorithms to Text

Categorization, ACM Computing Surveys (CSUR), Volume 34, Pages: 1 - 47 .

Web sites:

33. TinySVM, an implementation of Support Vector Machines, Open source, http://chasen.org/~taku/software/TinySVM/

34. A tool for extracting key sub-string group feature, Open source http://www.dcs.bbk.ac.uk/~dell/publications/

35. LibSVM a Library for Support Vector Machines, Open source, www.csie.ntu.edu.tw/~cjlin/libsvm/

36. SVM Light, an implementation of Support Vector Machines (SVMs) in C, Open source, www.svmlight.joachims.org

37. JVNSegmentor, Tool for vietnamese segmentation- Open source, http://jvnsegmenter.sourceforge.net/

38. CLUTO, Family of Data Clustering Software Tools, http://glaros.dtc.umn.edu/gkhome/views/cluto/

PHỤ LỤC A: Phân tích thiết kế chƣơng trình phân loại văn bản tự động sử dụng thuộc tính nhóm xâu con chính.

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF