Đánh giá và thảo luận

Qua tiến hành thực nghiệm áp dụng ba mô hình học máy MEM, CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt, sử dụng 2 bộ dữ liệu và 2 tập nhãn tương ứng khác nhau trên cùng một môi trường thực nghiệm và cùng cách lấy đặc trưng, có thể đưa ra một số nhận xét như sau:

 Thực nghiệm cho thấy tính khả quan của các hướng tiếp cận dựa trên các mô hình MEM, CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt. Dù trong nội dung của khóa luận mới chỉ tích hợp được một sốđặc trưng đơn giản (chưa tích hợp từđiển từ vựng, các hệ luật bổ sung để chữa lỗi, …), nhưng bước đầu cả ba phương pháp đều cho kết quả vềđộ chính xác rất đáng chú ý. Trong đó, phương pháp áp dụng mô hình CRF hầu như luôn cho độ chính xác cao nhất trong tất cả

các thực nghiệm.

Nhìn chung, có thể sắp xếp về độ chính xác của ba phương pháp theo thứ tự

tăng dần như sau:

MEM < SVM < CRF

 Cũng về độ chính xác, nhìn chung cách tiếp cận ở mức hình vị cho kết quả

chính xác hơn ở mức từ, các phương pháp có sự chênh lệch về kết quả khác nhau. Điều này chứng tỏ đối với các phương pháp này, cách trích chọn đặc trưng dựa trên thông tin về hình vị là phù hợp hơn so với cách trích chọn đặc trưng dựa trên thông tin về từ.

o Đối với MEM, cách tiếp cận thực nghiệm dựa trên mức hình vị cho kết quả khả quan hơn hẳn so với cách tiếp cân dựa trên mức từ (tăng lên trung bình 3-4%).

o Khi áp dụng SVM, thực nghiệm ở mức hình vị cho độ chính xác tăng lên trung bình hơn 2%, tuy không phải là con số vượt trội như MEM, nhưng

đây vẫn là cải thiện kết quảđáng chú ý.

o CRF luôn cho độ chính xác cao nhất, và độ chính xác cũng có tăng khi thự nghiệm ở mức từ, tuy nhiên độ chênh lệch không nhiều, chỉ khoảng 0.6%.

 Thời gian huấn luyện của các phương pháp khá chênh lệch. Lấy ví dụ với bộ dữ

liệu thứ nhất, trong khi SVM chỉ mất khoảng một giờ để huấn luyện ở mức từ

Tuy nhiên khi áp dụng vào thực tế, thường thì ta sẽ chỉ phải huấn luyện một lần cho tất cả các lần sử dụng về sau, vì vậy yếu tố thời gian huấn luyện không hẳn là một trở ngại quá lớn.

Từ kết quả thực nghiệm, có thể sắp xếp theo thứ tự giảm dần của thời gian huấn luyện như sau:

CRF > MEM > SVM

 Thời gian kiểm thử, cũng tức là thời gian mà hệ thống tiến hành gán nhãn cho một văn bản lạ, là yếu tố quan trọng cần phải xét đến vì nó góp phần quyết định

đến khả năng sử dụng trong các ứng dụng thực tế. Ngược lại với thời gian huấn luyện, CRF tiến hành kiểm thử rất nhanh (chỉ khoảng 1-3 giây), SVM kiểm thử

chậm hơn CRF, nhưng cũng chỉ dừng lại trong mức 5-6 giây. Trong khi đó MEM cần đến khoảng 10-20 phút cho việc kiểm thử.

Ta có thể đưa ra so sánh tương đối về thời gian kiểm thử của ba mô hình theo thứ tự giảm dần là:

KẾT LUẬN

Những vấn đề đã được giải quyết trong khoá luận

Trong khuôn khổ một khóa luận tốt nghiệp đại học, nội dung nghiên cứu tập trung tìm hiểu về một bài toán cơ bản trong xử lý ngôn ngữ tự nhiên là bài toán gán nhãn từ loại và việc giải quyết bài toán này cho tiếng Việt. Tuy chưa đạt được một kết quảđặc biệt vượt trội, nhưng hy vọng khóa luận sẽ góp phần đem lại lợi ích cho cộng

đồng nghiên cứu vấn đề xử lý ngôn ngữ tiếng Việt. Các đóng góp của khóa luận gồm các điểm chính như sau:

 Về lý thuyết

Khóa luận đã hệ thống hóa một số vấn đề lý thuyết về gán nhãn từ loại cũng như

nắm bắt được các cách tiếp cận khác nhau cũng như tình hình nghiên cứu trong nước và thế giới. Đồng thời, khóa luận cũng đã trình bày, phân tích việc áp dụng ba mô hình học máy tiên tiến hiện nay là MEM, CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt.

 Về thực nghiệm

Dựa trên cơ sở lý thuyết đã tìm hiểu được, khóa luận tiến hành thực nghiệm áp dụng ba mô hình học máy MEM, CRF và SVM trên cùng một môi trường thực nghiệm và cách lấy đặc trưng để đưa ra so sánh khách quan. Việc thực nghiệm được tiến hành theo hướng tiếp cận ở mức từ và mức hình vị với hai bộ dữ liệu khác nhau.

Kết quả thực nghiệm cho thấy cả ba phương pháp học máy đã được áp dụng đều cho độ chính xác khá cao, đặc biệt là CRF (ở mức hình vị là 91.64% với bộ dữ liệu thứ

nhất và 90.17 với bộ dữ liệu thứ hai). Trong đó, thực nghiệm dựa trên mức hình vị cho

độ chính xác cao hơn so với dựa trên mức từ, chứng tỏ đối với tiếng Việt, cách trích chọn đặc trưng dựa trên thông tin về hình vị là phù hợp hơn. Bên cạnh đó, các yếu tố

về thời gian có sự chênh lệch khá nhiều (CRF cần nhiều thời gian để huấn luyện nhất, bù lại tốc độ gán nhãn rất nhanh, SVM có ưu thế về mặt thời gian huấn luyện, tốc độ

gán nhãn cũng khá tốt, trong khi đó MEM tuy không cần quá nhiều thời gian để huấn luyện nhưng tốc độ gán nhãn lại chậm hơn nhiều so với hai phương pháp còn lại). Như

vậy việc lựa chọn sử dụng mô hình áp dụng cần phù hợp điều kiện thực tế. Kết quả thu

được là khá tương đồng với các nghiên cứu tương tự trên thế giới, điều này chứng tỏ

tập đặc trưng sử dụng là chấp nhận được và ba mô hình học máy đều rất khả thi để áp dụng cho bài toán gán nhãn từ loại tiếng Việt. Tuy những kết quả ban đầu có độ chính

xác chưa thật xuất sắc, nhưng chúng cũng đáp ứng được tốt yêu cầu đặt ra ban đầu của

đề tài và đặt nền tảng cho các nghiên cứu tiếp theo.

Công việc nghiên cứu tiếp theo

Do còn nhiều hạn chế về thời gian và kiến thức, khoá luận còn một số vấn đề cần tiếp tục hoàn thiện và phát triển trong thời gian tới:

 Tiếp tục nghiên cứu kỹ hơn về lý thuyết các mô hình học máy, thay đổi các tham số, thuật toán hay hàm nhân được sử dụng khi áp dụng mô hình với hy vọng cải thiện kết quả tốt hơn.

 Thử thay đổi tập đặc trưng để đánh giá kết quả cũng như giá trị và độ phù hợp của từng đặc trưng đối với những đặc trưng riêng của tiếng Việt.

 Tìm hiểu thêm các đặc điểm của tiếng Việt để xây dựng các đặc trưng mới, hữu ích để có thể sử dụng cho bài toán gán nhãn từ loại, cùng với đó là tích hợp từ điển từ vựng hỗ trợ nhằm tăng độ chính xác của kết quả.

TÀI LIỆU THAM KHẢO Tài liệu tham khảo Tiếng Việt

[1] Diệp Quang Ban. Ngữ pháp Việt Nam. NXB Đại học Sư phạm, 2004.

[2] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ. Gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính toán xác suất. Đăng trên tạp chí phát triển KH&CN, tập 9, số 2-2006.

[3] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương. Sử dụng bộ

gán nhãn từ loại xác suất QTAG cho văn bản Tiếng Việt. Báo cáo hội thảo ICT.rda, 2003.

[4] Trần Thị Oanh. Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt. Luận văn cao học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, 2008.

Tài liệu tham khảo tiếng Anh

[5] Robert Dale, H. L. Somers, Hermann Moisl. Handbook of Natural Language Processing. Published by Marcel Dekker, Inc, New York, NY, USA, 2000. Chapter 17. [6] Dinh Dien, Hoang Kiem. POS-Tagger for English-Vietnamese Bilingual Corpus. In HLT-NAACL 2003 Workshop: Building and Using Parallel Texts Data Driven Machine Translation and Beyond, pp.88-95, Edmonton. May-June 2003.

[7] Yair Halevi. Part of Speech Tagging Slide. Seminar in Natural Language Processing and Computational Linguistics, The Blavatnik School of Computer Science – Tel Aviv University. 25 April 2006.

[8] Introduction to SVM (Support Vector Machine) and CRF (Conditional Random Field) Slide. Artifical Intelligence Lab, the University of Arizona. Courses Syllabus of MIS510, Spring 2009.

[9] Daniel Jurafsky, Jame H. Martin. Speech and language processing. Draft of September 28, 1999. Published by Prentice-Hall, Inc, 2000. Pp. 285-317.

[10] John Laferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data. In Proc. of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001.

[11] Andrew W. Moore. Support Vector Machines Slide. The Auton Lab, Carnegie Mellon University's School of Computer Science. Nov 23rd, 2001.

[12] Masaki Murata, Qing Ma, Hitoshi Isahara. Comparison of Three Machine- Learning Methods for Thai Part-of-Speech Tagging. In Proc. ACM Transactions on Asian Language Information Processing, Vol. 1, No. 2, June 2002, Pages 145-158.

[13] Hwee Tou Ng, in Kiat Low. Chinese Part-of-Speech Tagging: One-at-a- Time or All-at-Once? Word-Based or Character-Based? Department of Computer ScienceNational University of Singapore. In Proc. of the Fifth SIGHAN Workshop on Chinese Language Processing, pages 205–208, Sydney, July 2006.

[14] Owen Rambow. Introduction to Syntax, with Part-of-Speech Tagging Slide. Computer Science at Columbia University. September 17 & 19, 2008.

[15] A.Ratnaparkhi. A maximum entropy model for part-of-speech tagging. In Proc. Emparical Methods for Natural Language Processing, 1996.

[16] Richard Sproat. Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide. Department of Electrical and Computer Engineering, University of Illinois at Urbana-Champaign. ECE 398RS Courses, Fall 2007.

[17] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan, Le-Minh Nguyen, Quang-Thuy Ha. Vietnamese word segmentation with crfs and svms: An investigation. In Proc. of the 20th Pacific Asia Conference on Language, Information and Computation (PACLIC20), pages 215_222. Wuhan, China, 2005.

[18] Universita’ di Venezia. Part-of-speech Tagging Courses Slide. September, 2003.

[19] Hanna M.Wallach. Conditional Random Fields: An introduction. Technical Report MS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania. February 24, 2004.

[20] GouDong Zhou, Jian Su. A Chinese Efficient Analyser Integrating Word Segmentation, Part-Of-Speech Tagging, Partial Parsing and Full Parsing. In the Proc.of the second SIGHAN workshop on Chinese language processing, 2003.

[21] Yig Yeong Taek. Word Classes and Part-of-Speech Tagging Slide. In Seminar at Korean Language Processing Lab, 26/5/07.

[22] Website: http://svmlight.joachims.org/svm_multiclass.html.

SVMmulticlass based on SVMlight by Joachims.

[23] Website: http://www.kernel-machines.org/. Website is devoted to learning methods building on kernels, such as the support vector machine.

[24] Website: http://sourceforge.net/projects/crfpp. Yet Another CRF toolkit by Taku Kudo.

[25] Website: http://homepages.inf.ed.ac.uk/lzhang10/maxent.html. Maximum Entropy Modeling.

Các nghiên cứu dựa trên phương pháp lai

Hạn chế của mô hình MEM