chính xác trung bình trong thực nghiệm với bộ dữ l- 123docz.net

4.5.3. Đánh giá và thảo luận

Qua tiến hành thực nghiệm áp dụng ba mơ hình học máy MEM, CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt, sử dụng 2 bộ dữ liệu và 2 tập nhãn tương ứng khác nhau trên cùng một môi trường thực nghiệm và cùng cách lấy đặc trưng, có thể đưa ra một số nhận xét như sau:

• Thực nghiệm cho thấy tính khả quan của các hướng tiếp cận dựa trên các mơ hình MEM, CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt. Dù trong nội dung của khóa luận mới chỉ tích hợp được một số đặc trưng đơn giản (chưa tích hợp từ điển từ vựng, các hệ luật bổ sung để chữa lỗi, …), nhưng bước đầu cả ba phương pháp đều cho kết quả về độ chính xác rất đáng chú ý. Trong đó, phương pháp áp dụng mơ hình CRF hầu như ln cho độ chính xác cao nhất trong tất cả các thực nghiệm.

Nhìn chung, có thể sắp xếp về độ chính xác của ba phương pháp theo thứ tự tăng dần như sau:

MEM < SVM < CRF

• Cũng về độ chính xác, nhìn chung cách tiếp cận ở mức hình vị cho kết quả chính xác hơn ở mức từ, các phương pháp có sự chênh lệch về kết quả khác nhau. Điều này chứng tỏ đối với các phương pháp này, cách trích chọn đặc trưng dựa trên thơng tin về hình vị là phù hợp hơn so với cách trích chọn đặc trưng dựa trên thông tin về từ.

o Đối với MEM, cách tiếp cận thực nghiệm dựa trên mức hình vị cho kết quả khả quan hơn hẳn so với cách tiếp cân dựa trên mức từ (tăng lên trung bình 3-4%).

o Khi áp dụng SVM, thực nghiệm ở mức hình vị cho độ chính xác tăng lên trung bình hơn 2%, tuy không phải là con số vượt trội như MEM, nhưng đây vẫn là cải thiện kết quả đáng chú ý.

o CRF ln cho độ chính xác cao nhất, và độ chính xác cũng có tăng khi thự nghiệm ở mức từ, tuy nhiên độ chênh lệch không nhiều, chỉ khoảng 0.6%.

• Thời gian huấn luyện của các phương pháp khá chênh lệch. Lấy ví dụ với bộ dữ liệu thứ nhất, trong khi SVM chỉ mất khoảng một giờ để huấn luyện ở mức từ thì CRF mất đến 5 tiếng để huấn luyện, và con số này đối với MEM là 3 tiếng.

Tuy nhiên khi áp dụng vào thực tế, thường thì ta sẽ chỉ phải huấn luyện một lần cho tất cả các lần sử dụng về sau, vì vậy yếu tố thời gian huấn luyện không hẳn là một trở ngại quá lớn.

Từ kết quả thực nghiệm, có thể sắp xếp theo thứ tự giảm dần của thời gian huấn luyện như sau:

CRF > MEM > SVM

• Thời gian kiểm thử, cũng tức là thời gian mà hệ thống tiến hành gán nhãn cho một văn bản lạ, là yếu tố quan trọng cần phải xét đến vì nó góp phần quyết định đến khả năng sử dụng trong các ứng dụng thực tế. Ngược lại với thời gian huấn luyện, CRF tiến hành kiểm thử rất nhanh (chỉ khoảng 1-3 giây), SVM kiểm thử chậm hơn CRF, nhưng cũng chỉ dừng lại trong mức 5-6 giây. Trong khi đó MEM cần đến khoảng 10-20 phút cho việc kiểm thử.

Ta có thể đưa ra so sánh tương đối về thời gian kiểm thử của ba mơ hình theo thứ tự giảm dần là:

KẾT LUẬN

Những vấn đề đã được giải quyết trong khoá luận

Trong khn khổ một khóa luận tốt nghiệp đại học, nội dung nghiên cứu tập trung tìm hiểu về một bài tốn cơ bản trong xử lý ngơn ngữ tự nhiên là bài toán gán nhãn từ loại và việc giải quyết bài toán này cho tiếng Việt. Tuy chưa đạt được một kết quả đặc biệt vượt trội, nhưng hy vọng khóa luận sẽ góp phần đem lại lợi ích cho cộng đồng nghiên cứu vấn đề xử lý ngơn ngữ tiếng Việt. Các đóng góp của khóa luận gồm các điểm chính như sau:

• Về lý thuyết

Khóa luận đã hệ thống hóa một số vấn đề lý thuyết về gán nhãn từ loại cũng như nắm bắt được các cách tiếp cận khác nhau cũng như tình hình nghiên cứu trong nước và thế giới. Đồng thời, khóa luận cũng đã trình bày, phân tích việc áp dụng ba mơ hình học máy tiên tiến hiện nay là MEM, CRF và SVM cho bài tốn gán nhãn từ loại tiếng Việt.

• Về thực nghiệm

Dựa trên cơ sở lý thuyết đã tìm hiểu được, khóa luận tiến hành thực nghiệm áp dụng ba mơ hình học máy MEM, CRF và SVM trên cùng một môi trường thực nghiệm và cách lấy đặc trưng để đưa ra so sánh khách quan. Việc thực nghiệm được tiến hành theo hướng tiếp cận ở mức từ và mức hình vị với hai bộ dữ liệu khác nhau.

Kết quả thực nghiệm cho thấy cả ba phương pháp học máy đã được áp dụng đều cho độ chính xác khá cao, đặc biệt là CRF (ở mức hình vị là 91.64% với bộ dữ liệu thứ nhất và 90.17 với bộ dữ liệu thứ hai). Trong đó, thực nghiệm dựa trên mức hình vị cho độ chính xác cao hơn so với dựa trên mức từ, chứng tỏ đối với tiếng Việt, cách trích chọn đặc trưng dựa trên thơng tin về hình vị là phù hợp hơn. Bên cạnh đó, các yếu tố về thời gian có sự chênh lệch khá nhiều (CRF cần nhiều thời gian để huấn luyện nhất, bù lại tốc độ gán nhãn rất nhanh, SVM có ưu thế về mặt thời gian huấn luyện, tốc độ gán nhãn cũng khá tốt, trong khi đó MEM tuy không cần quá nhiều thời gian để huấn luyện nhưng tốc độ gán nhãn lại chậm hơn nhiều so với hai phương pháp còn lại). Như vậy việc lựa chọn sử dụng mơ hình áp dụng cần phù hợp điều kiện thực tế. Kết quả thu được là khá tương đồng với các nghiên cứu tương tự trên thế giới, điều này chứng tỏ tập đặc trưng sử dụng là chấp nhận được và ba mơ hình học máy đều rất khả thi để áp dụng cho bài toán gán nhãn từ loại tiếng Việt. Tuy những kết quả ban đầu có độ chính

xác chưa thật xuất sắc, nhưng chúng cũng đáp ứng được tốt yêu cầu đặt ra ban đầu của đề tài và đặt nền tảng cho các nghiên cứu tiếp theo.

Công việc nghiên cứu tiếp theo

Do còn nhiều hạn chế về thời gian và kiến thức, khố luận cịn một số vấn đề cần tiếp tục hoàn thiện và phát triển trong thời gian tới:

• Tiếp tục nghiên cứu kỹ hơn về lý thuyết các mơ hình học máy, thay đổi các tham số, thuật toán hay hàm nhân được sử dụng khi áp dụng mơ hình với hy vọng cải thiện kết quả tốt hơn.

• Thử thay đổi tập đặc trưng để đánh giá kết quả cũng như giá trị và độ phù hợp của từng đặc trưng đối với những đặc trưng riêng của tiếng Việt.

• Tìm hiểu thêm các đặc điểm của tiếng Việt để xây dựng các đặc trưng mới, hữu ích để có thể sử dụng cho bài tốn gán nhãn từ loại, cùng với đó là tích hợp từ điển từ vựng hỗ trợ nhằm tăng độ chính xác của kết quả.

TÀI LIỆU THAM KHẢO

Tài liệu tham khảo Tiếng Việt

[1] Diệp Quang Ban. Ngữ pháp Việt Nam. NXB Đại học Sư phạm, 2004.

[2] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ. Gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính tốn xác suất. Đăng trên tạp chí phát triển KH&CN, tập 9, số 2-2006.

[3] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương. Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản Tiếng Việt. Báo cáo hội thảo ICT.rda, 2003.

[4] Trần Thị Oanh. Mơ hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt. Luận văn cao học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2008.

Tài liệu tham khảo tiếng Anh

[5] Robert Dale, H. L. Somers, Hermann Moisl. Handbook of Natural Language Processing. Published by Marcel Dekker, Inc, New York, NY, USA, 2000. Chapter 17.

[6] Dinh Dien, Hoang Kiem. POS-Tagger for English-Vietnamese Bilingual Corpus. In HLT-NAACL 2003 Workshop: Building and Using Parallel Texts Data Driven Machine Translation and Beyond, pp.88-95, Edmonton. May-June 2003.

[7] Yair Halevi. Part of Speech Tagging Slide. Seminar in Natural Language Processing and Computational Linguistics, The Blavatnik School of Computer Science – Tel Aviv University. 25 April 2006.

[8] Introduction to SVM (Support Vector Machine) and CRF (Conditional Random Field) Slide. Artifical Intelligence Lab, the University of Arizona. Courses Syllabus of MIS510, Spring 2009.

[9] Daniel Jurafsky, Jame H. Martin. Speech and language processing. Draft of September 28, 1999. Published by Prentice-Hall, Inc, 2000. Pp. 285-317.

[10] John Laferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data. In Proc. of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001.

[11] Andrew W. Moore. Support Vector Machines Slide. The Auton Lab, Carnegie Mellon University's School of Computer Science. Nov 23rd, 2001.

[12] Masaki Murata, Qing Ma, Hitoshi Isahara. Comparison of Three Machine- Learning Methods for Thai Part-of-Speech Tagging. In Proc. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 2, June 2002, Pages 145-158.

[13] Hwee Tou Ng, in Kiat Low. Chinese Part-of-Speech Tagging: One-at-a- Time or All-at-Once? Word-Based or Character-Based? Department of Computer ScienceNational University of Singapore. In Proc. of the Fifth SIGHAN Workshop on Chinese Language Processing, pages 205–208, Sydney, July 2006.

[14] Owen Rambow. Introduction to Syntax, with Part-of-Speech Tagging Slide. Computer Science at Columbia University. September 17 & 19, 2008.

[15] A.Ratnaparkhi. A maximum entropy model for part-of-speech tagging. In Proc. Emparical Methods for Natural Language Processing, 1996.

[16] Richard Sproat. Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide. Department of Electrical and Computer Engineering, University of Illinois at Urbana-Champaign. ECE 398RS Courses, Fall 2007.

[17] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, Quang-Thuy Ha. Vietnamese word segmentation with crfs and svms: An investigation. In Proc. of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), pages 215_222. Wuhan, China, 2005.

[18] Universita’ di Venezia. Part-of-speech Tagging Courses Slide. September, 2003.

[19] Hanna M.Wallach. Conditional Random Fields: An introduction. Technical Report MS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania. February 24, 2004.

[20] GouDong Zhou, Jian Su. A Chinese Efficient Analyser Integrating Word Segmentation, Part-Of-Speech Tagging, Partial Parsing and Full Parsing. In the Proc.of the second SIGHAN workshop on Chinese language processing, 2003.

[21] Yig Yeong Taek. Word Classes and Part-of-Speech Tagging Slide. In Seminar at Korean Language Processing Lab, 26/5/07.

[22] Website: http://svmlight.joachims.org/svm_multiclass.html .

SVMmulticlass based on SVMlight by Joachims.

[23] Website: http://www.kernel-machines.org/ . Website is devoted to learning

methods building on kernels, such as the support vector machine.

[24] Website: http://sourceforge.net/projects/crfpp . Yet Another CRF toolkit by

Taku Kudo.

[25] Website: http://homepages.inf.ed.ac.uk/lzhang10/maxent.html . Maximum

Chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ hai

thị có hướng mơ tả mơ hình HMM

Mơ hình TBL cho tiếng Việt