Các kỹ thuật lai ghép trong giải thuật di truyền

Các kỹ thuật lai ghép trong giải thuật di truyền Nguyễn Xuân Toàn Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Công nghệ thông tin; Mã số: 1 01 10 Người hướng dẫn: PGS TSKH Nguyễn Xuân Huy Năm bảo vệ: 2007 Abstract: Tìm hiểu các hướng tiếp cận từ và phân loại văn bản tiếng Việt và phương pháp tách từ tiếng Việt sử dụng giải thuật di truyền kết hợp với trích xuất thông tin thống kê từ Internet; Tìm hiểu về giải thuật di truyền, cơ sở toán học, các toán tử và các cải tiến của giải thuật di truyền; Đề xuất một số cải tiến trong qaú trình lai ghép và đột biến với mục tiêu tăng hiệu quả của thuật toán IGATEC Keywords: Công nghệ thông tin, Giải thuật di truyền, Thuật toán Content MỞ ĐẦU Hơn hai thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện tử không ngừng tăng lên. Do các ưu điểm khi lưu trữ tài liệu số như cách lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trong trao đổi, dễ dàng sửa đổi… nên các phương thức sử dụng giấy tờ trong công việc và trong giao dịch đã dần được số hoá chuyển sang các dạng văn bản lưu trữ trên máy tính hoặc truyền tải trên mạng. Điều đó đã làm số lượng văn bản số tăng lên nhanh chóng. Cùng với sự gia tăng về số lượng văn bản, nhu cầu tìm kiếm văn bản cũng tăng theo. Với lượng văn bản đồ sộ thì việc phân loại văn bản tự động phục vụ quá trình tìm kiếm thông tin dễ dàng, nhanh chóng là cần thiết. Đồng thời, việc phân loại văn bản tự động sẽ giúp con người tiết kiệm được rất nhiều thời gian và công sức. Theo [29], “Việc phân loại văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện”. Trong tiếng Anh đã có nhiều công trình nghiên cứu và đạt được kết quả như: Graph - Based Approach [6], Neural Network [12], Support Vector Machine [18], Linear Least Squares Fit [28]… Các phương pháp trên đều dựa vào xác suất thống kê hoặc thông tin về trọng số của từ trong văn bản. Đối với tiếng Việt, đã có một số công trình nghiên cứu về phân loại văn bản: Conditional Random Fields and Support Vector Machine [7], Weighted Finit State Transducer and Neural Network [10], Dynamic Programming [20]… Các nghiên cứu trên đã đề cập đến khó khăn trong vấn đề xử lý văn bản để rút ra tần số xuất hiện của từ. Trong khi đó, để phân loại văn bản thì bước tách từ đầu tiên là quan trọng. Đồng thời phần lớn các phương pháp tách từ tiếng Việt đều dựa trên tập dữ liệu huấn luyện và từ điển trong khi hiện nay chưa có từ điển hay tập dữ liệu huấn luyện tiếng Việt được gán nhãn đủ lớn phục vụ việc này. Trong thời gian gần đây, một phương pháp tiếp cận cho việc tách từ và phân loại văn bản là: Internet and Genetics Algorithm - Based Text Categorization (IGATEC) của H. Nguyen [17]. Điểm khác biệt của thuật toán là kết hợp giải thuật di truyền với việc trích xuất thông tin thống kê từ Internet thông qua một công cụ tìm kiếm thay vì lấy từ tập dữ liệu như các phương pháp khác. Giải thuật di truyền cho phép xây dựng phương pháp tìm kiếm song song (tìm kiếm tiến hóa) trên quần thể mà trong đó mỗi cá thể tương ứng với một cách tách từ cho câu đang xét. Hàm thích nghi sẽ đánh giá độ thích nghi của các tài liệu thống kê, rút trích từ Internet sử dụng các công cụ tìm kiếm thông minh (Search Engine). Thông tin rút trích bao gồm tần số các tài liệu và thông tin tương quan giữa các nhóm từ trong tài liệu. Trên cơ sở các phân tích trên, luận văn thực hiện tìm hiểu giải thuật di truyền, cơ sở toán học, các cải tiến của giải thuật di truyền và ứng dụng vào vấn đề tách từ tiếng Việt. Việc tách từ tiếng Việt trong luận văn này dựa trên ý tưởng của thuật toán IGATEC nhưng có bổ sung một vài cải tiến trong quá trình lai ghép và đột biến nhằm tăng độ chính xác. Ngoài phần mở đầu, kết luận và phụ lục, luận văn được chia thành các chương chính như sau:  Chương 1. Một số phương pháp tách từ và phân loại văn bản tiếng Việt: tìm hiểu các hướng tiếp cận tách từ và phân loại văn bản tiếng Việt và phương pháp tách từ tiếng Việt sử dụng giải thuật di truyền kết hợp với trích xuất thông tin thống kê từ Internet.  Chương 2. Giải thuật di truyền: tìm hiểu về giải thuật di truyền, cơ sở toán học, các toán tử và các cải tiến của giải thuật di truyền.  Chương 3. Sử dụng giải thuật di truyền để tách từ tiếng Việt: đề xuất một số cải tiến trong quá trình lai ghép và đột biến với mục tiêu tăng hiệu quả của thuật toán IGATEC. References Tài liệu Tiếng Việt 1. Đinh Điền (2004), Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên Thành phố Hồ Chí Minh. 2. Nguyễn Thanh Hùng (2006), Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng giải thuật di truyền và thống kê trên Internet. 3. Nguyễn Thúy Loan (2004), Nghiên cứu một số phương pháp chọn lọc và lai ghép trong giải thuật di truyền, Luận văn thạc sỹ khoa học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc Gia Thành phố Hồ Chí Minh. 4. Lê Hoàng Thái (1997), Giải thuật di truyền Kỹ thuật và Ứng dụng, Luận văn thạc sỹ khoa học, Đại học Bách Khoa Hà Nội. 5. Nguyễn Đình Thúc (2001), Lập trình tiến hóa, Nhà xuất bản Giáo dục. Tài liệu Tiếng Anh 6. Aravid Venkatachalam (August 2007), “A Graph-Based approach for Multiclass document Classification”, Presented to the Faculty of the Graduate School of The University of Texas at Arlington. 7. Cam. Tu Nguyen, Trung. Kien Nguyen, Xuan. Hieu Phan Le. Minh Nguyen and Quang. Thuy Ha, “Vietnamese Word Segmentation with CRFs and SVMs: An Investigation College of Technology”. 8. ChihHao Tsai (2000), “A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”, http://technology.chtsai.org/mmseg/. 9. Cofey S. (1999), “An Applied probabilist’s guide to Genetic Algorithms”, Master Thesis, University of Dublin. 10. Dinh Dien (2001), “Vietnamese Word Segmentation”, The sixth Natural Language Processing Pacific Rim Symposium, Tokyo, Japan. 11. Doktors der Wirtschaftswisenschaften(2005), “Schema Propagation in Evolution Programs”, Andreas.Frick@web.de. 12. Erik Wiener, Jan O. Pedersen, and Andreas S. (1995), “A Nơron Network Approach to Topic Spotting. In Proceedings of the Fourth Annual Sumposium on Document Analysis and Information Retrieval”, http://citeseer.ist.psu.edu/wiener95noron.html. 13. Francesco di Pierro, Soon-Thiam Khu, Slobodan Djordjević and Dragan A. Savić (July 2004), “A New Genetic Algorithm to Solve Effectively Highly Multi-Objective Problems: POGA”. 14. Foo S, Li H (2004), “Chinese Word Segmentation and Its Effect on Information Retrieval, Information Processing & Management: An International Journal”. 15. Goldberg D.E (1989), “Genetic Algorithms in serrch, Optimization and Machine learning”, addison-Wesley, Reading, Massachusets. 16. Holland, J.H. (1975), “Adaptation in Naturral and Artificial System”. The University of Michigan Press. 17. H. Nguyen, T. Vu, N. Tran, K. Hoang (2005), “Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future”, the 3rd International Conference in Computer Science, (RIFT 2005). 18. Joachims T. (1998), “Text Categorization with Support Vector Machines: Learning with Many Relevant Features, In European Conference on Machine Learning”, http://svmlight.joachims.org/. 19. Juels A. and Buluja S. and Sinclair A. (1993), “The Equilibrium Genetic Algorithms and the Role of Crossover”, http://citeseer. Nj.nec.com/juels93/equilibrium.html. 20. Le Ha An (2003), “A method for word segmentation Vietnamese”, Proceddings of Corpus Linguistics 2003, Lancaster, UK. 21. Le Hong Minh, Quach Tuan Ngoc (2005), “Some Results in Phonetic Analysis to Vietnamese Text-to-Speech Synthesis Based on Rules”. 22. P.G.M. Van Der Meulen (October 2001), “A Distributed Genetic Programming Framework”, Master’s Thesis. 23. Rudi Cilibrasi & Paul Vitanyi (2005), “Automatic Meaning Discovery Using Google, Neitherlands”. 24. Spears W.M. (1995), “Adapting Crossover in a Genetic Algorithms”, http://citeseer. Nj.nec.com/spears95.html. 25. Tobias Blickle & Lothar Thiele (1995), “A Comparison of Selection Schemes used in Genetic Algorithms”, Computer Engineering and Communication Networks Lab, Swiss Federal Institute of Technology, Zurich, Switzerland 26. Thanh V. Nguyen, Hoang K. Tran, Thanh T.T. Nguyen, Hung Nguyen, “Word Segmentation for Vietnamese Text Categorization: An Online Corpus Approach”. 27. Thian. Huat Ong & Hsinchun Chen (1999), “Updateable PAT-Tree Approach to Chinese Key Phrase Extraction using Mutual Information: A Linguistic Foundation for Knowledge Management, Proceedings of the Second Asian Digital Library Conference”, papes 63-84. 28. Yang and Chute (1994), “An example-based mapping method for text categorization and retrieval”, ACM Transaction on Information Systems(TOIS), pages 252-277. 29. Yang & Xiu (1999), “A re-examination of text categorization methods”, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’ 99). 30. http://users.cs.dal.ca/~vlado/nlp/. 31. http://www.freewebs.com/vnspeech. 32. http://www.hueuni.edu.vn/hueuni/issue.php?IID=25. . sử dụng giải thuật di truyền kết hợp với trích xuất thông tin thống kê từ Internet.  Chương 2. Giải thuật di truyền: tìm hiểu về giải thuật di truyền, cơ sở toán học, các toán tử và các cải. giải thuật di truyền, cơ sở toán học, các toán tử và các cải tiến của giải thuật di truyền; Đề xuất một số cải tiến trong qaú trình lai ghép và đột biến với mục tiêu tăng hiệu quả của thuật. tiến của giải thuật di truyền.  Chương 3. Sử dụng giải thuật di truyền để tách từ tiếng Việt: đề xuất một số cải tiến trong quá trình lai ghép và đột biến với mục tiêu tăng hiệu quả của thuật

Định dạng
Số trang	5
Dung lượng	224,52 KB