Phân loại văn bản tiếng Việt

Chƣơng 3 SỬ DỤNG GIẢI THUẬT DI TRUYỀN TÁCH TỪ TIẾNG VIỆT

3.4. Phân loại văn bản tiếng Việt

Phân loại tự động các văn bản tiếng Việt là bài toán đƣợc chú ý trong lĩnh vực xử lý tiếng Việt. Văn bản d = {d1, d2,…,dN}, sau khi sử dụng giải thuật di truyền và một số bƣớc tiền xử lý:

- Tách văn bản d thành nhiều nhóm tiếng. - Loại bỏ các các từ thƣờng ít có ý nghĩa.

đƣợc tách thành nhiều ngữ dƣới dạng sau d = {g1, g2,…, gN} , với gi là một nhóm tiếng sau khi đã tiền xử lý gi = {ti1, ti2,…, tiR} trong đó tij = {xi1, xi2,…, xip} (xij là một từ).

Thuật toán phân loại của H. Nguyen đƣợc sử dụng để gán một chủ đề ci

thuộc c = {c1,c2,…,cM} cho văn bản.

Theo các công thức 1.5, 1.6 và 1.7, độ phụ thuộc của văn bản d đƣợc xác định theo công thức: SP (d, c) =   m i i c g SP 1 ) | ( . Văn bản d sẽ thuộc về chủ đề có giá trị SP(d, c) lớn nhất.  Kết luận chƣơng 3

Luận văn đã tìm hiểu cấu trúc âm tiết trong mối tƣơng quan với từ tiếng Việt, nguyên lý thống kê của từ trên Internet. Trên cơ sở đó sử dụng thông tin thống kê MI với hàm lƣợng thông tin lớn, chi phí tính toán thấp kết hợp với giải thuật di truyền (thay vì dùng từ điển hoặc tập dữ liệu huấn luyện đƣợc gán nhãn) phục vụ cho việc tách từ tiếng Việt.

Để đánh giá độ chính xác của giải thuật tách từ tiếng Việt là điều rất phức tạp, đặc biệt là không có tập dữ liệu tách từ thủ công để kiểm chứng. Thông qua một số nghiên cứu, thực nghiệm cho thấy kết quả tách từ là chấp nhận đƣợc (gần 80% kết quả tách từ không làm ngƣời đọc hiểu sai nghĩa của

câu). Điều này là do hệ thống từ loại trong tiếng Việt không đƣợc định nghĩa rõ ràng, dẫn đến sự không thống nhất ý kiến đánh giá.

Hƣớng tiếp cận tách từ dựa trên thống kê Internet và giải thuật di truyền hạn chế đƣợc một số khuyết điểm của các phƣơng pháp tách khác là dựa trên tập dữ liệu đã đánh dấu và từ điển chuyên biệt. Các kết quả tách từ sẽ đƣợc sử dụng cho quá trình phân loại văn bản tiếng Việt, xây dựng từ điển dịch chéo đa ngữ, xử lý ngôn ngữ tiếng Việt...

KẾT LUẬN

Tách từ tiếng Việt phục vụ cho phân loại văn bản, xây dựng từ điển dịch chéo đa ngữ, tổng hợp tiếng nói là vấn đề đƣợc quan tâm trong các bài toán xử lý tiếng Việt nói riêng và xử lý ngôn ngữ nói chung. Thông qua quá trình nghiên cứu, Luận văn đã đạt đƣợc một số kết quả:

- Tìm hiểu về các phƣơng pháp phân loại văn bản tiếng Việt và hƣớng tiếp cận cho việc tách từ, phân loại văn bản tiếng Việt dựa trên giải thuật di truyền và thống kê Internet (IGATEC).

- Tìm hiểu về giải thuật di truyền, cơ sở toán học và các cải tiến của giải thuật di truyền…

- Tìm hiểu, đề xuất một số cải tiến với mục tiêu làm tăng hiệu quả của giải thuật IGATEC trong quá trình tách từ tiếng Việt.

Mặc dù đã có đƣợc một số kết quả nhất định trong vấn đề tách từ tiếng Việt, tuy nhiên luận văn cũng còn hạn chế: chƣa xây dựng hệ thống thử nghiệm cho việc phân loại tự động văn bản tiếng Việt, xây dựng các từ điển dịch chéo đa ngữ...

Hƣớng phát triển của luận văn:

- Xây dựng hệ thống thử nghiệm, phối kết hợp giải thuật di truyền để tối ƣu hóa trọng số trƣớc khi đƣa vào huấn luyện mạng nơron đối với bài toán phân loại tự động văn bản tiếng Việt, xây dựng từ điển dịch chéo đa ngữ.

- Nghiên cứu các hƣớng tiếp cận khác cho vấn đề phân loại văn bản tiếng Việt, từ điển dịch chéo đa ngữ nói riêng và các nghiên cứu phát hiện tri thức, khai phá văn bản nói chung.

TÀI LIỆU THAM KHẢO

Tài liệu Tiếng Việt

1. Đinh Điền (2004), Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên Thành phố Hồ Chí Minh.

2. Nguyễn Thanh Hùng (2006), Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng giải thuật di truyền và thống kê trên Internet.

3. Nguyễn Thúy Loan (2004), Nghiên cứu một số phương pháp chọn lọc và lai ghép trong giải thuật di truyền, Luận văn thạc sỹ khoa học, Trƣờng

Đại học Khoa học Tự nhiên, Đại học Quốc Gia Thành phố Hồ Chí Minh. 4. Lê Hoàng Thái (1997), Giải thuật di truyền Kỹ thuật và Ứng dụng, Luận

văn thạc sỹ khoa học, Đại học Bách Khoa Hà Nội.

5. Nguyễn Đình Thúc (2001), Lập trình tiến hóa, Nhà xuất bản Giáo dục.

Tài liệu Tiếng Anh

6. Aravid Venkatachalam (August 2007), “A Graph-Based approach for Multiclass document Classification”, Presented to the Faculty of the Graduate School of The University of Texas at Arlington.

7. Cam. Tu Nguyen, Trung. Kien Nguyen, Xuan. Hieu Phan Le. Minh Nguyen and Quang. Thuy Ha, “Vietnamese Word Segmentation with CRFs and SVMs: An Investigation College of Technology”.

8. ChihHao Tsai (2000), “A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”, http://technology.chtsai.org/mmseg/.

9. Cofey S. (1999), “An Applied probabilist‟s guide to Genetic Algorithms”, Master Thesis, University of Dublin.

10. Dinh Dien (2001), “Vietnamese Word Segmentation”, The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan.

11. Doktors der Wirtschaftswisenschaften(2005), “Schema Propagation in Evolution Programs”, Andreas.Frick@web.de.

12. Erik Wiener, Jan O. Pedersen, and Andreas S. (1995), “A Nơron Network Approach to Topic Spotting. In Proceedings of the Fourth Annual Sumposium on Document Analysis and Information Retrieval”, http://citeseer.ist.psu.edu/wiener95noron.html.

13. Francesco di Pierro, Soon-Thiam Khu, Slobodan Djordjević and Dragan A. Savić (July 2004), “A New Genetic Algorithm to Solve Effectively Highly Multi-Objective Problems: POGA”.

14. Foo S, Li H (2004), “Chinese Word Segmentation and Its Effect on Information Retrieval, Information Processing & Management: An International Journal”.

15. Goldberg D.E (1989), “Genetic Algorithms in serrch, Optimization and Machine learning”, addison-Wesley, Reading, Massachusets.

16. Holland, J.H. (1975), “Adaptation in Naturral and Artificial System”. The University of Michigan Press.

17. H. Nguyen, T. Vu, N. Tran, K. Hoang (2005), “Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future”, the 3rd International Conference in Computer Science, (RIFT 2005).

18. Joachims T. (1998), “Text Categorization with Support Vector Machines: Learning with Many Relevant Features, In European Conference on Machine Learning”, http://svmlight.joachims.org/.

19. Juels A. and Buluja S. and Sinclair A. (1993), “The Equilibrium Genetic Algorithms and the Role of Crossover”, http://citeseer. Nj.nec.com/juels93/equilibrium.html.

20. Le Ha An (2003), “A method for word segmentation Vietnamese”, Proceddings of Corpus Linguistics 2003, Lancaster, UK.

21. Le Hong Minh, Quach Tuan Ngoc (2005), “Some Results in Phonetic Analysis to Vietnamese Text-to-Speech Synthesis Based on Rules”.

22. P.G.M. Van Der Meulen (October 2001), “A Distributed Genetic Programming Framework”, Master‟s Thesis.

23. Rudi Cilibrasi & Paul Vitanyi (2005), “Automatic Meaning Discovery Using Google, Neitherlands”.

24. Spears W.M. (1995), “Adapting Crossover in a Genetic Algorithms”, http://citeseer. Nj.nec.com/spears95.html.

25. Tobias Blickle & Lothar Thiele (1995), “A Comparison of Selection Schemes used in Genetic Algorithms”, Computer Engineering and Communication Networks Lab, Swiss Federal Institute of Technology, Zurich, Switzerland

26. Thanh V. Nguyen, Hoang K. Tran, Thanh T.T. Nguyen, Hung Nguyen, “Word Segmentation for Vietnamese Text Categorization: An Online Corpus Approach”.

27. Thian. Huat Ong & Hsinchun Chen (1999), “Updateable PAT-Tree Approach to Chinese Key Phrase Extraction using Mutual Information: A

Linguistic Foundation for Knowledge Management, Proceedings of the Second Asian Digital Library Conference”, papes 63-84.

28. Yang and Chute (1994), “An example-based mapping method for text categorization and retrieval”, ACM Transaction on Information Systems(TOIS), pages 252-277.

29. Yang & Xiu (1999), “A re-examination of text categorization methods”, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR‟ 99).

30. http://users.cs.dal.ca/~vlado/nlp/. 31. http://www.freewebs.com/vnspeech.

PHỤ LỤC

A. DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Các hƣớng tiếp cận cơ bản trong việc tách từ tiếng Hoa và hƣớng tiếp cận trong tách từ tiếng Việt.

Hình 1.2. Mô hình hệ thống IGATEC.

Hình 3.1. Cấu trúc năm thành phần của âm tiết tiếng Việt.

Hình 3.2. Cấu trúc ba thành phần của âm tiết tiếng Việt.

Hình 3.3. Thang tỷ lệ phát sinh loại từ.

B. DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1. Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh.

Bảng 2.1. Ví dụ dùng phép chọn lọc trên vòng tròn Rulet.

Bảng 2.2. Ví dụ về quá trình chọn lọc.

Bảng 2.3. Ví dụ về quá trình lai ghép.

Bảng 3.1. Danh sách 115 âm tiết tiếng Việt.

Bảng 3.2. Mối tƣơng quan giữa âm đầu, tổ hợp âm giữa và âm cuối trong cấu trúc âm tiết ba thành phần.

Bảng 3.3. So sánh cấu trúc âm tiết năm thành phần và âm tiết ba thành phần.

Bảng 3.4. Ví dụ về tần số tài liệu của một số từ thông dụng trong tiếng Việt.

Bảng 3.5. Ví dụ về MI của n-gram.

Bảng 3.6. Thống kê độ dài từ trong từ điển.

Các toán tử cao cấp

Các sơ đồ lựa chọn