Một nghiên cứu khác cũng dựa trên nền tảng của phương pháp học máy là công trình xây dựng công cụ gán nhãn từ loại tiếng Việt JvnTagger, đây là nghiên cứu nằm trong khuôn khổđề tài cấp nhà nước VLSP được thực hiện bởi nhóm các tác giả Phan Xuân Hiếu, Nguyễn Cẩm Tú. JvnTagger dựa trên mô hình CRF và MEM và được cài
đặt bằng ngôn nhữ Java. Công cụ này được huấn luyện bằng dữ liệu khoảng 10.000 câu của Viet Treebank và sử dụng tập nhãn Viet Treebank. Tuy công cụ chưa được
đưa vào ứng dụng thực tế, nhưng theo các báo cáo kỹ thuật mà nhóm tác giả cung cấp thì thử nghiệm với phương pháp 5-fold cross validation cho thấy kết quả gán nhãn với CRFs có thể đạt giá trị F1 lớn nhất lài 90.40% và MaxEnt đạt giá trị F1 lớn nhất là 91.03%.
23
Ngoài ra còn có nhiều nghiên cứu khác theo hướng dựa trên phương pháp học máy để giải quyết bài toán gán nhãn từ loại. Có thể kểđến hệ thống tích hợp tách từ và gán nhãn từ loại của tác giả Trần Thị Oanh xây dựng năm 2008. Tác giảđã thiết kế bộ
nhãn VnPOS tag cho tiếng Việt gồm 14 nhãn từ và hơn 10 nhãn ký hiệu, thực nghiệm
được tiến hành trên bộ dữ liệu khoảng 8000 câu thu thập từ các báo điện tử với nhiều chủ đề khác nhau. Việc gán nhãn từ loại được tiến hành bằng phương pháp MEM với hai cách tiếp cận ở mức từ và mức hình vị. Kết quả đạt được ở mức từ là 85.57% và 89.22% ở mức hình vị.
Áp dụng phương pháp lai TBL, Ðinh Ðiền và các cộng sựđã đề xuất một phương pháp gán nhãn từ loại tự động cho Tiếng Việt [6] bằng việc xây dựng kho ngữ liệu song ngữ Anh-Việt (EVC) với hơn 500.000 câu mà trong đó hơn 25.000 câu tiếng Việt
đã được gán nhãn từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ
loại từ Anh sang Việt (Tập nhãn tiếng Anh sử dụng đểđối chiếu là Brown corpus, kho ngữ liệu này đã được công bố ở Hội nghị Quốc tế về Xử lý ngôn ngữ APIS02 tại Bangkok, Thái Lan vào 2/2002). Đây chính là điểm nổi bật của phương pháp gán nhãn từ loại này.
Thuật toán TBL sử dụng trong nghiên cứu được các tác giả thể hiện dưới dạng sơ đồ khối như trên hình 6. Nhóm tác giả đã áp dụng thử nghiệm mô hình này và bước
đầu nhận được kết quả trên 80%.
Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày càng được quan tâm nghiên cứu, bước đầu đã đạt được một số kết quả khá khả quan. Tuy nhiên đây vẫn là hướng nghiên cứu đầy tiềm năng và cũng đầy thử thách, cùng với đó là việc các nghiên cứu đã có hầu hết vẫn còn mang tính cá thể, chưa có được sự đối chiếu so sánh khách quan. Khóa luận này sẽ tập trung vào việc áp dụng và so sánh kết quả của một số phương pháp tiên tiến được sử dụng thành công cho các ngôn ngữ
khác trên cùng một môi trường thực nghiệm và cách lấy đặc trưng để đưa ra nhận xét vềưu, nhược điểm cũng nhưđộ phù hợp của chúng với tiếng Việt.
24
Hình 6. Mô hình TBL cho tiếng Việt
Như vậy, có khá nhiều phương pháp học máy đã được áp dụng để giải quyết bài toán gán nhãn từ loại tiếng Việt. Tuy bước đầu đạt được một số kết quả khả quan, nhưng hầu hết các nghiên cứu đều mang tính cá thể, sử dụng bộ dữ liệu học cũng như
tập đặc trưng khác nhau. Trong khóa luận này, chúng tôi thực hiện so sánh một vài phương pháp học máy điển hình trên cùng một bộ dữ liệu và sử dụng cùng tập đặc trưng. Từ kết quả thu được, chúng tôi tiến hành đánh giá các phương pháp trên một vài yêu tố, cũng như xem xét độ phù hợp của tập đặc trưng đã sử dụng đối với tiếng Viêt.
Word aligned bilingual SUSANNE corpus Remove POS-tags Unannotated Vietnamese corresponding POS-tags Brown POS- tagger Current annotated corpus Templates Candidate Transformation Rule
Optimal Rule mark > β
End Sequence of Optimal rule Corpus annotated Compare & Evaluate Y N
25
Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT
Việc khảo sát các phương pháp học máy được áp dụng thành công cho nhiều ngôn ngữ (chủ yếu là khảo sát các phương pháp đã được sử dụng cho 3 ngôn ngữ tiêu biểu là tiếng Anh, tiếng Trung Quốc và tiếng Thái) cho thấy có khá nhiều phương pháp học máy có thể áp dụng cho bài toán gán nhãn từ loại Tiếng Việt. Khóa luận lựa chọn ba phương pháp học máy điển hình đã cho kết quả khả quan ở nhiều ngôn ngữ và có khả năng đạt kết quả tốt đối với tiếng Việt, đó là MEM, CRF và SVM. Cơ sở lý thuyết ở chương này sẽ là nền tảng cho phần thực nghiệm để đưa ra đánh giá về độ
chính xác cũng như phù hợp của các phương pháp này với Tiếng Việt. Trong các thực nghiệm thuộc phạm vi khóa luận, bài toán gán nhãn từ loại được xem là bài toán phân lớp, với các lớp chính là các nhãn từ loại đã được xác định trước.