Tài liệu tham khảo công nghệ thông tin So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
Trang 3LỜI CẢM ƠN
Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắcnhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫn
tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp
Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy và
bồi dưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đến
các thầy cô, những kiến thức mà tôi nhận được không chỉ giúp tôi hoàn thành khóa
luận này mà còn là hành trang quan trọng giúp tôi vững bước trong tương lai
Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn sinh viên
trong nhóm seminar “Khai phá dữ liệu”, phòng thí nghiệm Các hệ thống tích hợp
thông minh (SISLAB) – trường Đại học Công nghệ đã tạo một môi trường nghiên cứu
khoa học hiệu quả cũng như cho tôi những lời khuyên bổ ích về chuyên môn trong quá
trình nghiên cứu
Bên cạnh đó, tập thể sinh viên lớp K50CA cũng đóng một vai trò không nhỏ giúp
tôi xây dựng, củng cố kiến thức và cùng với tôi vượt qua những khó khăn trong học
tập
Và cuối cùng, nhưng vô cùng quan trọng, tôi xin bày tỏ lòng chân thành và biết
ơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn ở bên cạnh, quan
tâm, động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp này
Lê Hoàng Quỳnh
Trang 4TÓM TẮT
Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng, đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên Ở Việt Nam đã có một số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêm tốn so với nhiều ngôn ngữ khác Việc tìm hiểu các phương pháp gán nhãn từ loại trong tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơn
cả trong các phương pháp đã được công bố
Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); mô hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơ hỗ trợ (SVM- Vapnik & Chervonekis, 1995) Đây là ba phương pháp học máy đã được ứng dụng thành công trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên Thực nghiệm áp dụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sử dụng cùng một tập đặc trưng để đảm bảo tính khách quan Kết quả thu được trên các
dữ liệu thực nghiệm cho thấy mô hình CRF có độ chính xác cao nhất và thời gian gán nhãn tốt nhất, trong khi đó SVM và MEM có ưu thế hơn về thời gian huấn luyện Kết quả này khá tương đồng với kết quả của một vài nghiên cứu tương đương trong các ngôn ngữ khác và đã khẳng định được tính khả thi của ba mô hình này cho tiếng Việt
Trang 5Mục lục
MỞ ĐẦU 1
Chương 1 KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI 3
1.1 Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP 3
1.1.1 Khái niệm về bài toán gán nhãn từ loại 3
1.1.2 Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP 4
1.2 Các khó khăn của bài toán gán nhãn từ loại 6
1.3 Tập nhãn từ loại 7
1.3.1 Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các ngôn ngữ trên thế giới 7
1.3.2 Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam 10
Chương 2 CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI 13
2.1 Gán nhãn bằng phương pháp dựa trên hệ luật 13
2.2 Các phương pháp dựa vào học máy 15
2.3 Phương pháp lai 19
2.4 Các nghiên cứu liên quan tại Việt Nam 21
2.4.1 Các nghiên cứu dựa trên phương pháp hệ luật 21
2.4.2 Các nghiên cứu dựa trên phương pháp học máy 22
2.4.3 Các nghiên cứu dựa trên phương pháp lai 22
Chương 3 BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 25
3.1 Mô hình cực đại hóa Entropy 25
3.1.1 Khái niệm MEM 25
3.1.2 Nguyên lý cực đại hóa Entropy 26
3.1.3 Mô hình xác suất 26
3.1.4 Hạn chế của mô hình MEM 27
3.2 Mô hình trường ngẫu nhiên điều kiện 28
3.2.1 Khái niệm CRF 28
Trang 63.2.2 Hàm tiềm năng của các mô hình CRF 30
3.2.3 Thuật toán gán nhãn cho dữ liệu dạng chuỗi .31
3.2.4 Ước lượng tham số cho các mô hình CRF 33
3.3 Mô hình máy véc tơ hỗ trợ 33
3.3.1 Khái niệm và cơ sở của phương pháp SVM 33
3.3.2 Áp dụng phương pháp SVM cho bài toán gán nhãn từ loại 36
3.3.3 Huấn luyện SVM 37
Chương 4 THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ 39
4.1 Mô tả thực nghiệm 39
4.1.1 Phần cứng 39
4.1.2 Phần mềm 39
4.1.3 Dữ liệu thực nghiệm và tập nhãn từ loại 40
4.2 Mô tả tập đặc trưng dựa trên mức từ và mức hình vị 43
4.2.1 Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại 43
4.2.2 Mẫu ngữ cảnh dạng biểu thức chính quy 45
4.3 Hệ thống gán nhãn từ loại cho tiếng Việt 45
4.3.1 Gán nhãn từ loại dựa vào thông tin về từ 47
4.3.2 Gán nhãn từ loại dựa vào thông tin hình vị 47
4.4 Phương pháp thực nghiệm và các tham số đánh giá thực nghiệm 48
4.4.1 Phương pháp thực nghiệm 48
4.4.2 Các tham số đánh giá thực nghiệm 48
4.5 Kết quả thực nghiệm 48
4.5.1 Kết quả của năm lần thực nghiệm 48
4.5.2 Tổng hợp kết quả 51
4.5.3 Đánh giá và thảo luận 53
KẾT LUẬN 55
Trang 7Danh mục hình vẽ
Hình 1 Các bước xử lý ngôn ngữ tự nhiên 4
Hình 2 Một số tập nhãn từ loại cho Tiếng Anh 8
Hình 3 Một số phương pháp giải quyết bài toán POS tagging cho tiếng Anh 13
Hình 4 Đồ thị có hướng mô tả mô hình HMM 17
Hình 5 Mô hình tổng quát của phương pháp lai 19
Hình 6 Mô hình TBL cho tiếng Việt 24
Hình 7 Đồ thị vô hướng mô tả CRF 29
Hình 8 Một bước trong thuật toán Viterbi cải tiến 32
Hình 9 Hai cách chia không gian véc tơ thành hai nửa riêng biệt 33
Hình 10 Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm .34
Hình 11 Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu phẳng tuyến tính 35
Hình 12 Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử dụng hàm nhân 35
Hình 13 Hàm nhân Basis Radial 37
Hình 14 Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu 44
Hình 15 Một mô hình gán nhãn từ loại tiếng Việt 46
Hình 16 Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất 52
Hình 17 Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ hai 52
Trang 8Danh mục bảng biểu
Bảng 1 Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận viii
Bảng 2 Tổng kêt số nhãn có thể có của các từ trong tập từ vựng Brown 7
Bảng 3 Tập nhãn từ loại Penn Treebank 8
Bảng 4 Ví dụ về một số luật chuyển của TBL cho tiếng Anh 20
Bảng 6 Tập nhãn từ loại VnPOS cho tiếng Việt 42
Bảng 7 Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc trưng 44
Bảng 8 Một số mẫu ngữ cảnh BTCQ xác định dữ liệu dạng số 45
Bảng 9 Độ chính xác khi áp dụng mô hình MEM ở mức từ 49
Bảng 10 Độ chính xác khi áp dụng mô hình MEM ở mức hình vị 49
Bảng 11 Độ chính xác khi áp dụng mô hình CRF ở mức từ 50
Bảng 12 Độ chính xác khi áp dụng mô hình CRF ở mức hình vị 50
Bảng 13 Độ chính xác khi áp dụng mô hình SVM ở mức từ 51
Bảng 14 Độ chính xác khi áp dụng mô hình SVM ở mức hình vị 51
Trang 9Một số thuật ngữ Anh – ViệtBảng 1 Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận
MaxEnt
Mô hình cực đại hóa Entropy
chuyển đổi
Trang 10từ đó đưa ra nhận xét về kết quả, độ phù hợp của từng phương pháp với các ứng dụng thực tế cũng như góp phần đánh giá chất lượng của tập đặc trưng đã xây dựng
Thực nghiệm trên các văn bản tiếng Việt áp dụng ba mô hình học máy đều cho kết quả khá khả quan, tùy vào các đặc trưng riêng của mỗi mô hình mà thời gian xử lý cũng như độ chính xác có những chênh lệch nhất định Các vấn đề được giải quyết trong khóa luận sẽ đóng góp một phần hữu ích trong việc lựa chọn phương pháp thích hợp giải quyết bài toán, để từ đó phục vụ cho việc tiến hành các nghiên cứu ở mức cao hơn như phân tích cú pháp, dịch máy, tóm tắt văn bản …
Khóa luận được tổ chức thành bốn chương chính với nội dung cơ bản như sau:
Chương 1: Khái quát về bài toán gán nhãn từ loại Chương 1 đưa ra khái
niệm, vị trí và ứng dụng của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên Cùng với đó, việc phân tích các vấn đề cơ bản của bài toán và việc xây dựng tập nhãn
từ loại cũng là nội dung quan trọng mà chương này đề cập tới
Chương 2: Các hướng tiếp cận bài toán gán nhãn từ loại Trình bày một số
hướng tiếp cận nhằm giải quyết bài toán gán nhãn từ loại như phương pháp thủ công, các phương pháp học máy mà đại diện tiêu biểu là HMM và các phương pháp lai So với hướng tiếp cận thủ công có nhược điểm là tốn kém về mặt thời gian, công sức và không khả chuyển, các phương pháp học máy thường được đánh giá cao hơn Chương
Trang 11Phần kết luận tóm lược các kết quả đã đạt được và đóng góp của khóa luận,
đồng thời định hướng một số hướng nghiên cứu tiếp theo trong thời gian sắp tới
Trang 12Chương 1 KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ
LOẠI
Chương 1 giới thiệu về bài toán gán nhãn từ loại cùng với vai trò, ứng dụng của
nó trong các hệ thống xử lý ngôn ngữ tự nhiên Cùng với đó, chương này cũng phân tích những khó khăn mà bài toán gán nhãn từ loại cần phải giải quyết và vấn đề xây
dựng tập nhãn từ loại
1.1 Khái niệm và vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên
1.1.1 Khái niệm về bài toán gán nhãn từ loại
Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ loại hay
không dựa trên ngữ cảnh cho trước Công việc gán nhãn từ loại cho một văn bản là
xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ [2, 7] Việc gán nhãn
từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước
Bài toán có thể được mô tả như sau:
Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ như chuỗi các từ “Book that flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh.)
Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra (Ví dụ:, đối với chuỗi từ “Book that flight.”, thì nhãn thích hợp tương ứng cho từng từ
sẽ là Book/VB that/DT flight/NN./.)
Quá trình gán nhãn từ loại thường được chia làm 3 bước [2, 3, 4]:
Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các ký hiệu trắng Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý Trong khi đó với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất cao
Trang 13 Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp (với đại diện nổi bật là phương pháp Brill) và các phương pháp xác suất Ngoài ra còn có các hệ thống
sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng, …
1.1.2 Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP
Hình 1 Các bước xử lý ngôn ngữ tự nhiên
Morphology Syntax Semantics Discourse Pragmatics Knowledge
Bill was about to beimpeached, and he called his lawyer ADDITIVE or RESULT?
Could you pass me the salt? Yes or pass it?
Five man lif a piano / a chair?
Untieable Knot (un)tieable or untie(able)?
walks Noun or Verb?
rice flies (NP (NN rice) (NNS files)) or
(S (NP (NN rice) (VP (VBZ files)))
bank river or financial?
cottog bag PART-WHOLE or PURPOSE?
Trang 14Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên Nếu coi quá trình xử lý ngôn ngữ tự nhiên gồm các bước: Tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại (part-of-speech), phạm trù ngữ pháp (category), các biến cách của từ, tiền tố, hậu tố của từ (nếu có) [5, 9] Hình 1 ở trên cho ta mô tả trực quan về vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên
Như vậy, gán nhãn từ loại là bước tiền xử lý quan trọng cho các phần tiếp theo trong quá trình xử lý ngôn ngữ tự nhiên như phân tích cú pháp, phân tích ngữ nghĩa
Có thể điểm qua một số ứng dụng tiêu biểu của bài toán gán nhãn từ loại như dưới đây [14]:
Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho việc giải quyết các bài toán xử lý ngôn ngữ tự nhiên khác như tóm tắt văn bản, phân cụm, phân loại văn bản …
Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích
từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy …
Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn từ loại là trong hệ thống dịch máy Cho đến nay, sau hơn 50 năm phát triển, dịch máy chứng tỏ là một ứng dụng vô cùng thiết thực, đồng thời cũng là một bài toán khá hóc búa đặt ra cho các nhà khoa học trên toàn thế giới Từ đầu thập niên 1960, các nhà khoa học đã đúc kết lại ba chiến lược dịch máy cơ bản, đó là dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi
Và qua thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng định được tính hiệu quả và tiềm năng của nó Trong hệ dịch dựa trên sự chuyển đổi, khối chuyển đổi cây cú pháp (cấu trúc) giữ một vai trò quan trọng, quyết định chất lượng hệ dịch Khối này phụ thuộc rất lớn vào sự chính xác của quá trình phân tích ở bước trước, trong đó có bộ phận gán nhãn từ loại, giả sử như các từ trong cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai Giả
sử như hệ thống tiến hành dịch câu sau đây từ tiếng Anh sang tiếng Việt: “Jet planes fly about nine miles high”, nếu không có sự trợ giúp của công cụ gán
Trang 15nhãn từ loại, hệ thống dịch máy chỉ dịch từ từ sang từ thì ta sẽ có được kết quả tiếng Việt là “Phản lực các phi cơ bay khoảng chín dặm cao”
Phản lực các phi cơ bay khoảng chín dặm cao Trong khi đó, nếu các từ đã được gán nhãn từ loại một cách chính xác, ta sẽ có khả năng cao nhận được một câu tiếng Việt hợp lý hơn rất nhiều: “Các phi cơ phản lực bay cao khoảng chín dặm”
Các phi cơ phản lực bay cao khoảng chín dặm
…
1.2 Các khó khăn của bài toán gán nhãn từ loại
Nếu mỗi từ chỉ có một nhãn từ loại và ta có thể xây dựng được một từ điển hữu hạn các từ và nhãn tương ứng của nó thì chắc chắn có thể giải quyết được bài toán gán nhãn từ loại với kết quả tối ưu Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiều hơn một nhãn từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ có thể xuất hiện trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loại phải đối mặt: Nhập nhằng từ loại và từ mới
Vấn đề chủ yếu của bài toán gán nhãn từ loại thực chất là việc loại bỏ nhập nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể,
nó chỉ có thể có một từ loại đúng mà thôi [5, 18]
Ví dụ:
Trong câu “I can can a can”, bộ gán nhãn từ loại sẽ phải đánh dấu từ loại
như sau:
I/PRO can/AUX can/V a/DET can/N
Trong hai câu sau đây, từ “race” được gán nhãn khác nhau:
- Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN
Trang 16- People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT
race/NN for/IN outer/JJ space/NN
Đây là một vấn đề rất phức tạp và tồn tại trong hầu như tất cả mọi ngôn ngữ mà
ta không thể tránh được, lấy ví dụ như trong tập từ vựng Brown và tập nhãn Brown của nó trong tiếng Anh thì có 35340 từ không có nhập nhằng (tức là một từ chỉ có đúng duy nhất một nhãn trong mọi trường hợp), và 4100 từ chứa nhập nhằng (tức là một từ có thể có từ 2 đến 7 nhãn trong các ngữ cảnh khác nhau) – Kết quả này do Derose tổng kết năm 1988 [18], chi tiết cho ở bảng 2 dưới đây:
Bảng 2 Tổng kêt số nhãn có thể có của một từ trong tập từ vựng Brown
Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thông tin về ngữ cảnh mà một số từ vẫn còn tiềm tàng nhập nhằng về từ loại
Một vấn đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ mới mà bộ gán nhãn không thể giải quyết được bằng những cách thông thường Trong trường hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để chuyển sang phần xử lý tên riêng (proper name) hay từ mới (unknown word)
là các lớp từ đóng (Closed word class, function word class, còn được gọi là các từ chức năng, là một tập cố định và không thể mở rộng, các lớp này thường chỉ chứa một
số lượng ít các từ có liên quan Ví dụ: Giới từ, mạo từ, đại từ, số đếm, ) và các lớp từ
mở (Open class, là các lớp từ có khả năng mở rộng bằng cách tạo thêm từ mới hoặc
“mượn” từ các ngôn ngữ khác Có 4 lớp từ mở chính là danh từ - nouns, động từ - verb, tính từ - adjective và một phần của phó từ - [adverb]) Thường thì một lớp từ sẽ được chia thành nhiều từ loại theo các đặc tính riêng nào đó [21]
Trang 17Chỉ xét riêng đối với Tiếng Anh, cho đến hiện nay đã có rất nhiều tập nhãn từ loại khác nhau được xây dựng và sử dụng, hình 2 điểm qua một số tập nhãn từ loại đã được xây dựng theo các mốc thời gian [7]
Hình 2 Một số tập nhãn từ loại cho Tiếng Anh
Có thể kể đến một số tập nhãn từ loại điển hình như:
Symbol
“to”
Interjection Verb, base form Verb, past tense Verb, gerund or present participleVerb, past participle
1 Millions Words
Brown Corplus
POS Tagging separated from other NLP
LOB Corplus Tagged
Penn Treebank Corpus (WSJ, 4.5M)
British National Corpus (tagged by CLAWS)
Trang 18Proper noun, singular
Proper noun, plural
WP WP$
Verb, non-3rd person singular present
Verb, 3rd person singular present Wh-determiner
Wh-pronoun Possessive wh-pronoun Wh-adverb
Dollar sign Pound sign Left quote Right quote Left parenthesis Right parenthesis Comma
Sentence-final punc Mid-sentence punc
Đối với các ngôn ngữ khác trên thế giới, để phục vụ cho việc giải quyết bài toán gán nhãn từ loại, nhiều tập nhãn từ loại với độ mịn khác nhau cũng đã được xây dựng cho mỗi ngôn ngữ, ví dụ như tập nhãn Chinese Treebank gồm 33 nhãn và Uppen CTB gồm 23 nhãn cho tiếng Trung Quốc, tập nhãn di SI-TAL gồm 15 nhãn và tập nhãn Achim Stein Italian tagset gồm 37 nhãn của tiếng Ý [18], …
Như vậy, với mỗi ngôn ngữ thường đều có nhiều tập nhãn từ loại có thể sử dụng, tuy nhiên, việc lựa chọn tập nhãn ảnh hướng rất lớn đến độ khó của bài toán gán nhãn
từ loại Chọn tập nhãn lớn sẽ làm tăng độ khó nhưng tập nhãn nhỏ hơn có thể không
đủ đáp ứng cho một mục đích nhất định nào đó Việc chọn tập nhãn nào sẽ tùy thuộc vào từng ứng dụng cụ thể, nói cách khác là tùy thuộc vào số lượng thông tin mà ứng dụng đó đòi hỏi Như vậy, cần phải có một sự thoả hiệp để xây dựng được một bộ nhãn từ loại không quá lớn và có chất lượng [2, 21], tức là cần phải có sự cân đối giữa:
Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn, chia thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiện sự khác biệt)
Trang 19 Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại càng ít càng dễ tiến hành)
1.3.2 Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam
Đối với tiếng Việt, việc thiết kế một tập nhãn từ loại còn vấp phải một vấn đề lớn, đó là ngay trong tiếng Việt thì vấn đề từ loại vẫn còn gây nhiều tranh cãi Theo Diệp Quang Ban [1], việc phân định từ loại phải dựa trên các tiêu chuẩn sau đây:
Tiêu chuẩn 1 - Ý nghĩa khái quát của từ Các từ loại là những nhóm từ rất to
lớn về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vật thể, phẩm chất, hành động hoặc trạng thái … Ví dụ, những từ như: nhà, bàn, học sinh, con, quyển, sự … được phân vào lớp danh từ, vì ý nghĩa từ vựng của chúng được khái quát hóa và trừu tượng hóa thành ý nghĩa thực thể - ý nghĩa phạm trù ngữ pháp của danh từ
Tiêu chuẩn 2 - Khả năng kết hợp với các từ ngữ khác trong ngữ lưu Với ý
nghĩa khái quát, các từ có thể có khả năng tham gia vào một kết hợp có nghĩa
Ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượt thay thế nhau, trong khi đó, ở các vị trí khác nhau trong kết hợp, các từ còn lại tạo ra bối cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên Những từ cùng xuất hiện trong cùng một bối cảnh, có khả năng thay thế nhau ở cùng một
vị trí, có tình chất thường xuyên, được tập hơn vào một lớp từ Vận dụng vào tiếng Việt, những từ; nhà, bàn, cát, đá … có thể xuất hiện và thay thế nhau trong kết hợp kiểu: nhàn ày, bàn này, cát này, đá này … và được xếp vào lớp danh từ Chúng không thể xuất hiện và thay thế cho nhau trong kết hợp kiểu: hãy ăn, hãy mua, ăn xong, mua xong … vốn là kiểu kết hợp của động từ
Tiêu chuẩn 3 - Chức năng ngữ pháp Tham gia vào cấu tạo câu, các từ có thể
đứng ở một hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở vị trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành phần khác trong cấu tạo câu, có thể phân vào một từ loại Ví dụ, các từ; nhà, bàn, cát, đá … có thể đứng ở nhiều vị trí trong câu Chúng có thể thay thế nhau
ở những vị trí đó, và có quan hệ về chức năng giống nhau với các thành phần khác trong câu ở mỗi vị trí, nhưng thường ở vị trí chủ ngữ trong quan hệ với vị ngữ Chủ ngữ và vị ngữ là hai chức năng cú pháp cơ bản, chức năng chủ ngữ là chức năng cú pháp chủ yếu để phân loại các từ nói trên vào lớp danh từ; còn
Trang 20cụ gán nhãn từ loại tiếng Việt:
Dạng thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn
“mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại Việc phân nhỏ này dựa trên nền tảng là các tiểu loại từ được nêu ra trong cuốn Ngữ pháp tiếng Việt của Ủy ban khoa học xã hội Việt Nam, xuất bản năm 1993, có bổ sung thêm một số nhãn từ loại để tránh trường hợp một từ mang cùng một lúc nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội động chỉ cảm nghĩ) Tùy thuộc vào từng loại ứng dụng xem cần thông tin cú pháp và từ vựng ở mức nào mà việc xây dựng, xác định tập nhãn từ loại sẽ dừng ở mức thô hay mịn khác nhau
Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại được xây dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến bộ nhãn VnPOStag của tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định và các nhãn ký hiệu đặc biệt khác; bộ VietTreeBank gồm 16 nhãn và 01 nhãn cho từ không phân loại được, … Bộ nhãn gồm nhiều nhãn nhất hiện nay được xây dựng bởi nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag gồm 48 nhãn và 01 nhãn không xác định
Dạng thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn
từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang Việt
Tiêu biểu cho dạng tập nhãn từ loại này là tập nhãn được sử dụng trong nghiên cứu “Gán nhãn từ loại tự động cho Tiếng Việt” của nhóm tác giả Đinh Điền [6], tập nhãn này được xây dựng bằng cách quy chiếu từ tập nhãn tiếng Anh là Brown Corpus
Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt
độ chính xác cao (Khoảng hơn 97% ), bên cạnh việc hoàn thiện hơn nữa các phương
Trang 21cụ đã được xây dựng gần như hoàn thiện cho Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên thường đưa lại kết quả thấp hoặc chưa đáp ứng được nhu cầu ứng dụng Như vậy, yêu cầu đặt ra với từng ngôn ngữ là phải kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh hoặc đề xuất ra các hướng tiếp cận mới sao cho phù hợp với đặc điểm riêng của từng ngôn ngữ
Trang 22Hình 3 dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo các mốc thời gian [7]:
Hình 3 Một số phương pháp giải quyết bài toán POS tagging cho tiếng Anh
Theo Daniel Jurafsky [9], hầu hết các thuật toán được sử dụng để giải quyết bài toán gán nhãn từ loại thuộc vào một trong hai loại: Phương pháp thủ công và phương pháp dựa trên học máy Ngoài ra người ta còn có thể kết hợp một số phương pháp để cho kết quả tốt hơn, kỹ thuật này gọi là phương pháp lai
2.1 Gán nhãn bằng phương pháp dựa trên hệ luật
Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai” đều thực hiện theo phương pháp này Nội dung chính của phương pháp này là xây dựng một cơ sở dữ liệu lớn các “luật” được viết bằng tay, vì vậy phương pháp này còn được gọi là phương pháp gán nhãn thủ công Các luật được xây dựng dựa vào ngữ
1960 1970 1980 1990 2000
Trigram Tagger (Kempe) 96%
Combined Methods 98% +
Greene and
Rubin
DeRose/Church Efficient HMM Sparse Data 95% +
HMM Tagging (CLAWS) 93% - 95%
Transformation Based Tagging
(Eric Bill) Rule Based – 95%+
Tree-Based Statistics (Helmut Shmid) Rule Based – 96%+
Neural Network 96% +
Trang 23cảnh chứa từ đang xét nhằm loại bỏ nhập nhằng nếu từ đó có thể có nhiều nhãn từ loại thích hợp, ví dụ, nếu một từ nhập nhằng đang xét đi sau một từ chỉ định thì nó có xu hướng là một danh từ hơn là một động từ
Đại diện tiêu biểu cho nhóm các phương pháp thủ công dựa trên hệ luật này là ENGTWOL (Voutilainen, 1995) [21]
Về thực chất, phương pháp này dựa trên kỹ thuật hai bước dưới đây:
Bước 1: Xác định cho mỗi từ một danh sách các từ loại có khả năng của nó Đối với ENGTWOL, việc này được thực hiện mởi một bộ phân tích hình thái hai mức độ (Máy chuyển hữu hạn trạng thái)
Ví dụ: Để gán nhãn từ loại cho câu “Pavlov had shown that salivation”, ở bước
này, bộ gán nhãn tạo một danh sách tất cả các nhãn có thể cho từng từ như sau:
Pavlov: PAVLOV N NOM SG PROPER
had : HAVE V PAST VFIN SVO
Trên thực tế, mỗi luật trên đều chứa một số lượng lớn các ngoại lệ Thậm chí ngay cả khi người thiết kế tìm cách giải quyết hết các ngoại lệ mà họ nghĩ đến thì vẫn tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực nghiệm Hơn nữa, một hệ thống luật dù rất đồ sộ cũng khó có thể bao quát được hết tất cả các trường
Trang 24hợp ngôn ngữ, vì vậy, hiện nay các phương pháp dựa trên luật thường chỉ được sử dụng bằng cách kết hợp bổ sung với các phương pháp khác [5]
2.2 Các phương pháp dựa vào học máy
Như vậy, phương pháp dựa trên luật là một phương pháp thủ công còn tiềm tàng rất nhiều nhập nhằng Cùng với đó, việc xây dựng một hệ thống trích chọn dựa trên các luật là rất tốn công sức Thông thường để xây dựng một hệ thống như vậy đòi hỏi công sức vài tháng từ một lập trình viên với nhiều kinh nghiệm về ngôn ngữ học Giải pháp cho các giới hạn này là phải xây dựng một hệ thống bằng cách nào đó có thể “tự học”, điều này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng tính khả chuyển cho hệ thống, các phương pháp như vậy được gọi là các phương pháp
dựa vào học máy
Như đã nói ở trên, các phương pháp dựa vào học máy là các phương pháp xây dựng hệ thống mà bằng cách nào đó có thể “tự học” (để ngắn gọn ở các phần dưới đây
ta sẽ gọi là các phương pháp học máy) Phần này sẽ xem xét một đại diện tiêu biểu của phương pháp học máy, giải quyết nhập nhằng bằng cách sử dụng một bộ dữ liệu huấn luyện để tính toán xác suất của một từ cho sẵn sẽ được gán với một nhãn nào đó trong ngữ cảnh cho trước, vì bản chất đó, họ các phương pháp này còn được gọi là các phương pháp xác suất
Xác suất cho một từ, tức là xác suất mà một nhãn cho trước t là thích hợp với một từ cho trước w được tính bằng công thức:
(2.0)
Để minh họa cho phương pháp xác suất, phần này sẽ giới thiệu một bộ gán nhãn điển hình sử dụng mô hình Markov ẩn (HMM) [16] Mô hình Markov ẩn được giới thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến nay
nó được ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh học và xử lý ngôn ngữ tự nhiên HMM lựa chọn một chuỗi nhãn tốt nhất cho toàn bộ câu, thông thường người ta
sử dụng thuật toán Viterbi để tìm chuỗi nhãn tốt nhất đó
Mô hình HMM có thể được xây dựng bởi các ô-tô-mát hữu hạn trạng thái (probabilistic finite state automata) với các tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái Các trạng thái trong mô hình HMM được xem là bị ẩn đi bên dưới dữ liệu quan sát sinh ra do mô hình Quá trình
( , )( | )
Trang 25sinh ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạng thái xuất phát từ một trong các trạng thái bắt đầu và dừng lại ở một trạng thái kết thúc Tại mỗi trạng thái, một thành phần của chuỗi quan sát được sinh ra trước khi chuyển sang trạng thái tiếp theo Trong bài toán gán nhãn từ loại dữ liệu, ta có thể xem tương ứng mỗi trạng thái với một trong nhãn từ loại: NN, NP, VB và dữ liệu quan sát là các
từ trong câu Mặc dù các lớp này không sinh ra các từ, nhưng mỗi lớp được gán cho một từ bất kì có thể xem như là sinh ra từ này theo một cách thức nào đó
Giả sử, với câu đầu vào W (w 1 , w 2 ,…, w n ), ta cần tìm một chuỗi các nhãn tốt nhất
cho toàn bộ câu, trong đó mỗi nhãn tương ứng với một từ của câu đầu vào T (t 1 , t 2 ,…,
t n ) Bộ gán nhãn sử dụng mô hình HMM sẽ tìm chuỗi các nhãn sao cho giá trị của tích P(Từ |nhãn) * P (nhãn | n nhãn trước đó) là cực đại, tức là thỏa mãn công thức (2.1)
từ khác và đặc tính của một từ chỉ phụ thuộc vào nhãn của nó) Sử dụng giả thiết gram để mô hình hóa xác suất chuỗi từ:
N-(2.5a)
Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-gram
(2.5b) Đầu tiên, ta đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc vào nhãn của nó:
T
( ) ( | ) ( | )
Trang 26(2.6) Tiếp theo, ta giả thiết rằng các nhãn phía trước có thể được xấp xỉ bởi 2 nhãn trước và gần nó nhất:
(2.7)
Vì vậy, công thức (2.1) được biến đổi tương đương với công thức (2.8) dưới đây,
ta phải lựa chọn chuỗi nhãn làm cực đại công thức (2.8) này
(2.8) Các thành phần thừa số trong công thức (2.8) có thể được tính toán từ tập dữ liệu huấn luyện của mô hình Chú ý rằng để có thể tránh xác suất bằng 0 ta cần sử dụng các
kỹ thuật làm trơn
Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như hình 4
Hình 4 Đồ thị có hướng mô tả mô hình HMM
Như đã nói ở trên, thông thường trong mô hình HMM thuật toán hay được sử dụng để tìm dãy trạng thái tối ưu là thuật toán Viterbi [16] Thuật toán này dựa trên công thức truy hồi (2.9) dưới đây:
bộ gán nhãn dựa trên mô hình HMM do nhóm nghiên cứu Corpus Research thuộc trường đại học tổng hợp Birmingham phát triển, cung cấp miễn phí cho mục đích
Trang 27nghiên cứu Một điểm nổi trội của QTAG là dù được xây dựng cho tiếng Anh nhưng
nó có thể được huấn luyện để sử dụng cho các ngôn ngữ khác [3] Phương pháp xác suất còn được sử dụng để gán nhãn từ loại trong rất nhiều ngôn ngữ khác nhau, ví dụ việc áp dụng mô hình HMM cho bài toán gán nhãn từ loại tiếng Trung Quốc đạt đến 93.5 % trong nghiên cứu của các tác giả GouDong Zhou và Jian Su [20]; Hai tác giả Fábio N.Kepler và Marcelo Finger cũng công bố kết quả sử dụng mô hình HMM để gán nhãn từ loại cho tiếng Bồ Đào Nha với kết quả 93.48 % [18]
Tuy nhiên, mặc dù tính đến thời điểm hiện tại, đây là một trong những phương pháp gán nhãn theo phương pháp xác suất thông dụng nhất được biết đến nhưng nó vẫn còn tiềm tàng những giới hạn khó giải quyết Adrew McCallum trong các nghiên cứu của mình [10] đã đưa ra hai vấn đề mà các mô hình HMM truyền thống nói riêng
và các mô hình sinh (generative models) nói chung gặp phải khi gán nhãn cho dữ liệu dạng chuỗi
Thứ nhất, để có thể tính được xác suất P(T, W) (2.1), thông thường ta phải liệt
kê hết các trường hợp có thể của chuỗi T và chuỗi W Nếu như các chuỗi T có
thể liệt kê được vì số lượng các trạng thái là có hạn thì trong nhiều ứng dụng ta
không thể nào liệt kê hết được các chuỗi W vì dữ liệu quan sát là hết sức phong
phú và đa dạng Để giải quyết vấn đề này, HMM phải đưa ra giả thiết về sự độc
lập giữa các dữ liệu quan sát, đó là dữ liệu quan sát được tại thời điểm i chỉ phụ
thuộc trạng thái tại thời điểm đó Tuy nhiên giả thiết này không có trong thế giới thực vì vậy khi áp dụng nó trong các hệ thống thực tế sẽ khó tránh khỏi một yếu tố bất lợi như thiếu tính mềm dẻo, bỏ sót thuộc tính
Vấn đề thứ hai mà các mô hình sinh gặp phải khi áp dụng vào các bài toán phân lớp dữ liệu dạng chuỗi đó là chúng sử dụng xác suất đồng thời để mô hình hóa các bài toán có tính điều kiện.Với các bài toán này sẽ thích hợp hơn nếu ta dùng
một mô hình điều kiện có thể tính toán P(T|W) trực tiếp thay vì P (T,W) như
trong công thức (2.1)
Ngoài HMM, còn rất nhiều phương pháp xác suất khác có thể sử dụng để giải quyết bài toán gán nhãn từ loại nói chung và bài toán gán nhãn từ loại tiếng Việt nói riêng, nhiều trong số chúng có những ưu điểm giải quyết được các hạn chế của mô hình HMM mà ta đã nói ở trên Cùng với đó, bên cạnh các phương pháp học máy xác suất, còn có các phương pháp học máy khác, ví dụ phương pháp học máy dựa trên độ
đo, phương pháp sử dụng mạng nơ ron nhân tạo, … Các chương sau sẽ trình bày rõ hơn về ba phương pháp học máy tiêu biểu đã đạt được kết quả khả quan khi áp dụng
Trang 28cho bài toán gán nhãn từ loại trong các ngôn ngữ khác, đó là mô hình cực đại hóa Entropy MEM, mô hình miền ngẫu nhiên điều kiện CRF và mô hình máy véc tơ hỗ trợ SVM
2.3 Phương pháp lai
Đại diện tiêu biểu của phương pháp lai là phương pháp dựa trên học chuyển đổi (Transformation-Based learning TBL) [6], đây là một phương pháp học có giám sát, đòi hỏi một tập ngữ liệu đã được gán nhãn Phương pháp này sử dụng đặc tính của cả hai kiến trúc gán nhãn nói trên Giống như bộ gán nhãn dựa trên luật, nó dựa vào luật
để xác định khi một từ nhập nhằng thì nó có khả năng là một nhãn nào nhất Giống như bộ gán nhãn xác suất, nó có một thành phần học máy để tạo ra các luật một cách
tự động từ một bộ dữ liệu huấn luyện đã được gán nhãn trước
Ý tưởng chính của thuật toán này là bắt đầu với một vài giải pháp đơn giản (hoặc tinh vi) cho vấn đề (gọi là “baseline tagging”) và từng bước áp dụng những luật biến đổi (luật chuyển) tối ưu (tìm ra từ tập ngữ liệu huấn luyện đã được đánh dấu chính xác) để dần dần giải quyết vấn đề (tức là chuyển từ nhãn không chính xác sang nhãn chính xác) Quá trình này sẽ dừng lại khi không còn luật chuyển tối ưu nào được lựa chọn hoặc đã hết dữ liệu Hình 5 cho ta mô hình tổng quát của phương pháp lai
Hình 5 Mô hình tổng quát của phương pháp lai
Dữ liệu chưa gán nhãn
Trạng thái bắt đầu
Dữ liệu đã gán
Các luật
Bộ học
Trang 29Thuật toán bao gồm 5 bước [6]
Bước 1: Gán nhãn cho từng từ bằng nhãn thông dụng nhất
Bước 2: Chọn một phép chuyển có tính quyết định thay thế nhãn đã gán bằng nhãn mới mà kết quả đem lại có hệ số đánh giá lỗi thấp hơn (Đánh giá một phép chuyển bằng hệ số đánh giá lỗi thực chất là so sánh nó với “sự thật”)
Bước 3: Áp dụng phép chuyển này cho cả tập huấn luyện
Bước 4: Thực hiện lại các bước trên
Bước 5: Đưa ra kết quả là một bộ gán nhãn mà nhãn đầu tiên sử dụng unigrams, sau đó áp dụng phép chuyển đã được “học” ở trên theo thứ tự
Ví dụ về một số luật chuyển thường được áp dụng cho phương pháp lai được cho bởi bảng 4 [6]
Bảng 4 Ví dụ về một số luật chuyển của TBL cho tiếng Anh
Ví dụ: Xét từ “race” trong hai câu dưới đây
- It is expected to race tomorrow
- The race for outer space
Thuật toán sẽ thực hiện như sau:
Đầu tiên, gán nhãn tất cả các từ “race” là NN (nhãn thường gặp nhất trong tập
ngữ liệu Brown corpus) Tức là:
“It is expected to race/NN tomorrow”
“The race/NN for outer space”
Trang 30 Sau đó, sử dụng luật biến đổi để thay thế các nhãn NN bằng VB cho tất cả các
từ “race” mà đứng trước nó là từ được gán nhãn TO Tức là:
“It is expected to race/VB tomorrow”
Và “The race/NN for outer space”
Đại diện tiêu biểu cho phương pháp này là bộ gán nhãn từ loại Brill’s (được xây dựng bởi Eric Brill) sử dụng cho tiếng Anh, đây là một bộ gán nhãn rất thông dụng vì các ưu điểm của nó như miễn phí, đem lại kết quả khá khả quan (Độ chính xác là
96.6% cho tập ngữ liệu Wall Street Journal)
2.4 Các nghiên cứu liên quan tại Việt Nam
Bài toán gán nhãn từ loại cho tiếng Việt bắt đầu được quan tâm khá muộn so với tiếng Anh, tuy gặp phải không ít khó khăn vì những đặc trưng phức tạp riêng của tiếng Việt, nhưng việc nghiên cứu lại có một lợi thế rất lớn là tiếp thu được những thành quả nghiên cứu đã được áp dụng cho tiếng Anh nói riêng và trên thế giới nói chung Phần này sẽ điểm qua một vài nghiên cứu tiêu biểu liên quan đến bài toán gán nhãn từ loại tiếng Việt
2.4.1 Các nghiên cứu dựa trên phương pháp hệ luật
Nhằm phát huy tác dụng hữu ích của phương pháp dựa trên hệ luật khi được sử dụng bằng cách kết hợp bổ sung với các phương pháp khác, nhóm nghiên cứu gồm các tác giả Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ đã đề xuất một phương pháp gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính toán xác suất [2] Nhóm tác giả xây dựng một hệ thống kết hợp bộ gán nhãn tri-gram và bộ gán nhãn dựa trên văn phong Phương pháp gán nhãn từ loại dựa trên văn phong thực chất là căn cứ vào cách thể hiện của văn bản trong một ngữ cảnh cụ thể để xác định từ loại cho các
từ, điều này bao hàm việc xác định phải đảm bảo các luật văn phạm của các từ trong câu Để xây dựng hệ thống luật này, nhóm tác giả dựa vào JAPE (Java Annotation Patterns Engine), hệ thống luật gồm trên 270 luật để xác định cho 48 từ loại (danh từ riêng, đại từ xưng hô, danh từ loại thể, ) và các luật để xác định các kiểu ngày tháng năm (date) Phương pháp dựa trên văn phong áp dụng các luật xác định danh từ riêng, trên cơ sở các danh từ riêng được xác định, tiếp tục áp dụng các luật để xác định 48 nhãn từ loại còn lại
Trang 31Nhóm các tác giả tiến hành thử nghiệm trên một bộ dữ liệu khoảng hơn 70.000 từ thuộc các văn bản về lĩnh vực văn học, báo chí Nghiên cứu thực nghiệm sử dụng tập nhãn gồm 48 nhãn từ loại với 10 miền giới hạn
Kết quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác
~80% nếu chỉ dùng phương pháp gán nhãn bằng xác suất (P1) và đạt ~90% nếu dùng phương pháp gán nhãn dựa trên văn phong kết hợp với phương pháp xác suất (P2) Bảng 5 cho ta kết quả gán nhãn cho các văn bản, văn phong khác nhau
2.4.2 Các nghiên cứu dựa trên phương pháp học máy
Nghiên cứu theo hướng giải quyết bài toán gán nhãn từ loại tiếng Việt bằng phương pháp xác suất, nhóm nghiên cứu của tác giả Nguyễn Thị Minh Huyền [3] đã sửa đổi phần mềm QTAG được xây dựng cho tiếng Anh (do nhóm nghiên cứu Corpus Research thuộc trường đại học tổng hợp Birmingham phát triển) để thích nghi với việc thao tác trên văn bản tiếng Việt, cũng như cho phép sử dụng từ điển từ vựng có thông tin từ loại bên cạnh việc sử dụng kho văn bản đa gán nhãn Bộ gán nhãn QTAG là một
bộ gán nhãn tri-gram, sử dụng phương pháp gán nhãn xác suất, QTAG sử dụng từ điển
từ vựng gồm 37454 mục từ, mỗi mục từ có kèm theo dãy tất cả các từ loại mà nó có thể có VNQTAG được huấn luyện và kiểm thử bằng các văn bản thuộc một số thể loại khác nhau (văn học Việt Nam/nước ngoài, khoa học, báo chí), bao gồm 63732 lượt từ,
sử dụng hai bộ nhãn từ loại với độ mịn khác nhau: bộ thứ nhất gồm 9 nhãn từ vựng và
10 nhãn cho các loại kí hiệu, bộ nhãn thứ hai gồm 48 nhãn từ vựng và 10 nhãn cho các loại kí hiệu Kết quả thử nghiệm tốt nhất với các tập mẫu đa xây dựng đạt tới độ chính xác ~94% đối với bộ nhãn thứ nhất, trong khi với bộ nhãn thứ hai chỉ đạt tới ~85%
2.4.3 Các nghiên cứu dựa trên phương pháp lai
Một nghiên cứu khác cũng dựa trên nền tảng của phương pháp học máy là công trình xây dựng công cụ gán nhãn từ loại tiếng Việt JvnTagger, đây là nghiên cứu nằm trong khuôn khổ đề tài cấp nhà nước VLSP được thực hiện bởi nhóm các tác giả Phan Xuân Hiếu, Nguyễn Cẩm Tú JvnTagger dựa trên mô hình CRF và MEM và được cài đặt bằng ngôn nhữ Java Công cụ này được huấn luyện bằng dữ liệu khoảng 10.000 câu của Viet Treebank và sử dụng tập nhãn Viet Treebank Tuy công cụ chưa được đưa vào ứng dụng thực tế, nhưng theo các báo cáo kỹ thuật mà nhóm tác giả cung cấp thì thử nghiệm với phương pháp 5-fold cross validation cho thấy kết quả gán nhãn với CRFs có thể đạt giá trị F1 lớn nhất lài 90.40% và MaxEnt đạt giá trị F1 lớn nhất là 91.03%
Trang 32Ngoài ra còn có nhiều nghiên cứu khác theo hướng dựa trên phương pháp học máy để giải quyết bài toán gán nhãn từ loại Có thể kể đến hệ thống tích hợp tách từ và gán nhãn từ loại của tác giả Trần Thị Oanh xây dựng năm 2008 Tác giả đã thiết kế bộ nhãn VnPOS tag cho tiếng Việt gồm 14 nhãn từ và hơn 10 nhãn ký hiệu, thực nghiệm được tiến hành trên bộ dữ liệu khoảng 8000 câu thu thập từ các báo điện tử với nhiều chủ đề khác nhau Việc gán nhãn từ loại được tiến hành bằng phương pháp MEM với hai cách tiếp cận ở mức từ và mức hình vị Kết quả đạt được ở mức từ là 85.57% và 89.22% ở mức hình vị
Áp dụng phương pháp lai TBL, Ðinh Ðiền và các cộng sự đã đề xuất một phương pháp gán nhãn từ loại tự động cho Tiếng Việt [6] bằng việc xây dựng kho ngữ liệu song ngữ Anh-Việt (EVC) với hơn 500.000 câu mà trong đó hơn 25.000 câu tiếng Việt
đã được gán nhãn từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang Việt (Tập nhãn tiếng Anh sử dụng để đối chiếu là Brown corpus, kho ngữ liệu này đã được công bố ở Hội nghị Quốc tế về Xử lý ngôn ngữ APIS02 tại Bangkok, Thái Lan vào 2/2002) Đây chính là điểm nổi bật của phương pháp gán nhãn
từ loại này
Thuật toán TBL sử dụng trong nghiên cứu được các tác giả thể hiện dưới dạng sơ
đồ khối như trên hình 6 Nhóm tác giả đã áp dụng thử nghiệm mô hình này và bước đầu nhận được kết quả trên 80%
Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày càng được quan tâm nghiên cứu, bước đầu đã đạt được một số kết quả khá khả quan Tuy nhiên đây vẫn là hướng nghiên cứu đầy tiềm năng và cũng đầy thử thách, cùng với đó là việc các nghiên cứu đã có hầu hết vẫn còn mang tính cá thể, chưa có được sự đối chiếu so sánh khách quan Khóa luận này sẽ tập trung vào việc áp dụng và so sánh kết quả của một số phương pháp tiên tiến được sử dụng thành công cho các ngôn ngữ khác trên cùng một môi trường thực nghiệm và cách lấy đặc trưng để đưa ra nhận xét
về ưu, nhược điểm cũng như độ phù hợp của chúng với tiếng Việt
Trang 33Hình 6 Mô hình TBL cho tiếng Việt
Như vậy, có khá nhiều phương pháp học máy đã được áp dụng để giải quyết bài toán gán nhãn từ loại tiếng Việt Tuy bước đầu đạt được một số kết quả khả quan, nhưng hầu hết các nghiên cứu đều mang tính cá thể, sử dụng bộ dữ liệu học cũng như tập đặc trưng khác nhau Trong khóa luận này, chúng tôi thực hiện so sánh một vài phương pháp học máy điển hình trên cùng một bộ dữ liệu và sử dụng cùng tập đặc trưng Từ kết quả thu được, chúng tôi tiến hành đánh giá các phương pháp trên một vài yêu tố, cũng như xem xét độ phù hợp của tập đặc trưng đã sử dụng đối với tiếng Viêt
Word aligned bilingual SUSANNE corpus
Remove POS-tags
Unannotated
Vietnamese corresponding POS-tags
Brown
POS-tagger
Current annotated corpus
Templates
Candidate Transformation Rule
Optimal Rule mark > β
End
Sequence of Optimal rule
Corpus annotated
Compare &
Evaluate
Y
N
Trang 34có khả năng đạt kết quả tốt đối với tiếng Việt, đó là MEM, CRF và SVM Cơ sở lý thuyết ở chương này sẽ là nền tảng cho phần thực nghiệm để đưa ra đánh giá về độ chính xác cũng như phù hợp của các phương pháp này với Tiếng Việt Trong các thực nghiệm thuộc phạm vi khóa luận, bài toán gán nhãn từ loại được xem là bài toán phân lớp, với các lớp chính là các nhãn từ loại đã được xác định trước
3.1 Mô hình cực đại hóa Entropy
Mô hình cực đại hóa Entropy (Maximum Entropy Model - MEM) [4, 15, 25] là một mô hình dựa trên lý thuyết xác suất, được đề xuất lần đầu bởi Jaynes E.T từ năm
1957 Theo [25], MEM giải quyết tốt ba yêu cầu chủ yếu của xử lý ngôn ngữ tự nhiên,
đó là: Độ chính xác, đặc trưng thiếu tri thức và khả năng tái sử dụng Phần này sẽ giới thiệu về bản chất lý thuyết, mô hình xác suất và một số mặt còn hạn chế của MEM
3.1.1 Khái niệm MEM
Tư tưởng chính của phương pháp cực đại hóa Entropy là “ngoài vệc thỏa mãn
một số ràng buộc nào đó thì mô hình càng đồng đều càng tốt” [25] Để rõ hơn về vấn
đề này, thử xem xét trong trường hợp một bài toán gán nhãn từ loại gồm có 8 nhãn từ loại Giả sử chúng ta có một ràng buộc duy nhất: 80% các từ có ký tự đầu của các hình
vị viết hoa là danh từ riêng (Np) Trực quan cho thấy, nếu có một từ mà tất cả ký tự đầu của các hình vị tạo nên nó là viết hoa thì chúng ta có thể nói có 80% khả năng từ này thuộc lớp danh từ riêng, và 20% khả năng được chia đều cho 7 lớp còn lại Mặc dù MEM có thể được dùng để ước lượng bất kì một phân phối xác suất nào, khóa luận sẽ tập trung xem xét khả năng làm cực đại hóa entropy cho việc gán nhãn dữ liệu dạng chuỗi Nói cách khác, ta tập trung vào việc học ra phân phối điều kiện của chuỗi nhãn tương ứng với chuỗi (xâu) đầu vào cho trước