2.2.1 Giới thiệu các kho ngữ liệu trên thé giới
Trong suốt một thập kỷ qua, việc xây dựng kho ngữ liệu phụ thuộc nhận được nhiều sự quan tâm trong cộng đồng nghiên cứu ngôn ngữ tự nhiên bởi vì đây là bước tạo ra bộ dữ liệu thực nghiệm phục
vụ cho các bài toán ứng dụng trong lĩnh vực NLP nói chung và bài toán phân tích cú pháp phụ thuộc
nói riêng. Chính vì vậy mà không ít nhóm nghiên cứu trên thế giới đã bắt tay vào phát triển các kho ngữ phụ thuộc và tạo được tiếng vang lớn trong cộng đồng. Nổi bật nhất là các công trình xây dựng
kho ngữ liệu phụ thuộc dành cho ngôn ngữ Anh. Các kho ngữ liệu này được thực hiện bằng nhiều cách
thức khác nhau như gan nhãn phụ thuộc thủ công của Rambow[57] hoặc Cmejrek|6S]. Tuy nhiên, số lượng kho ngữ liệu được phát triển bởi phương thức này rất ít vì những hạn chế về mặt thời gian, nhân lực. Do đó, các nhà nghiên cứu đã chuyển sang hướng tiếp cận phát triển một kho ngữ liệu phụ thuộc dựa trên cấu trúc phân cụm của kho ngữ liệu thành tố bằng cách thiết lập bộ luật để xây dựng một công cụ chuyển đổi tự động như của Johansson và Nugues[32], de Marneffe và Manning[24], và
Choi và Palmer{i1]. Khi vừa được công bố, các kho ngữ liệu ấy không những được đánh giá cao về
mặt chất lượng và độ chính xác mà còn là nền móng, tài liệu cơ sở cho các công trình nghiên cứu của những ngôn ngữ khác tham khảo như tiếng Đức|60], tiếng Phap[7], tiếng Trung[37], tiếng Hàn[14].
Phan tích cú pháp phụ thuộc đã và đang phát triển nhộn nhịp hơn bao giờ hết vì tinh ứng dụng của
no.
2.2.2 Giới thiệu các kho ngữ liệu trong nước
Với tình hình nghiên cứu trong nước, chúng tôi đã đi tìm kiếm các tài liệu liên quan và thấy rằng
số lượng công trình thực hiện đề tài này vẫn còn rất ít cùng với kết quả đạt được chưa cao. Dựa vào số liệu đã được thống kê trong bảng 1.1, độ chính xác cho kho ngữ liệu phụ thuộc tiếng Việt vẫn chưa vượt qua mức 80% khi so với tiếng Anh đạt hơn 95% và tiếng Trung hơn 85%. Từ đó cho
thấy kết quả của các nghiên cứu về phân tích cú pháp phụ thuộc cho tiếng Việt chưa thể áp dụng
vào thực tế vì độ chính xác còn thấp hơn so với mức trung bình chung mà các ngôn ngữ khác đạt được.
Sau khi khảo sát các công trình nghiên cứu trong nước, chúng tôi nhận ra vấn đề của việc đề xuất các nhãn dựa trên nhãn chức năng như tron . Họ đã sử dụng nhãn chức năng để
mệnh đề.
Có thể thấy từ ví dụ ở
nhãn chức năng lam di ấn hung tính nhân uăn nay chưa du súc
thuyết _ phục trong cộn, . h a VẬDT|46], “tinh” được đặt tên là SUB làm chủ ngữ của mệnh đề i ề trưò Ếchủ fet là khi động từ đứng ở đầu câu thay thế
cho chủ ngữ trong c,
vai trò làm chủ ngữ eo quy dinh của VnDT/46].
| yp
Khó bội lin *
PUNCI
Hình 2.6: Cay phụ thuộc áp dung luật của VnDT|46]
Đối với kho ngữ liệu VietTreebank[64], hầu như tất cả các đặc trưng là những đặc điểm phân biệt
10
được chuyển từ tiếng Anh sang Tiếng Việt. Do đó, kho ngữ liệu này không thể bao gồm toàn bộ các
trường hợp của tiếng Việt. Khi kiểm tra kho ngữ liệu VietTreebank|64], chúng tôi lưu ý rằng kho văn
bản này không liệt kê tên của những từ và cụm từ có nguồn gốc từ Trung Quốc. Điều này làm cho nó
không thể dán nhãn đầy đủ cho các trường hợp đó. Trong những trường hợp này, chúng tôi đã thêm
nhãn dành cho các từ Hán Việt (SINO) vào kho văn bản của mình để làm cho nó độc quyền hơn. Vi
dụ:
1. Vién [phó] SINO(Viện, phó)
2. [Bất] phương trình SINO(phương trình, Bất)
3. Huấn luyện [viên SINO(Huấn_ luyện, viên)
Xem xét các mối quan hệ khác giữa các danh từ phân loại và các loại từ khác, Viet'Treebank[64] giải
quyết một trường hợp một danh từ chung bổ nghĩa cho một danh từ thuộc loại nhãn NC và bỏ qua
các danh từ phân loại khác có thể kết hợp với từ động từ và trường hợp từ tính từ. Chúng tôi quyết
định giải quyết trường hợp này bằng cách thêm nhãn NCS, đây là một số ví dụ:
1. [Nỗi sợ hãi NCS(Nỗi, sợ hãi)
i ig lai)
, đây là kết quả của việc phân tích
cú pháp ở cấp độ cụm f i Ì và không đưa ra kết quả thực hiện trên
“TO” được sử dung tro? b 38] dé gan nhãn cho tất ca từ “to” trong tiếng Anh vi “to”
có kha năng kết hợp va chức năng cú pháp đặc biệt so với các giới từ khác. Trong khi đó, nhãn “TO”
dùng trong BKTreebank|47] đại diện cho kết từ chính phụ “để” trong tiếng Việt trong ngữ cảnh có
nghĩa “in order to”.
STT Cau Giai thich
ằ te ° aa a xonĐ vỏc: Kết từ “để” cú khả năng kết hợp và chức năng cỳ phỏp
3 Tôi lại am ¢ đẻ ‘we _ giống các kết từ khác như “cho”, “rồi” — đều có mối quan hệ
ðt am Na € vem zen. . phụ thuộc với ngữ động từ theo sau.
4 Tôi làm bài tập rổ¿ xem phim.
He came here to help me. 2 P ; " ›
5 {Anh ấy đến đã dể iúp toi} “dé” cho dù có nghĩa tiếng Anh là “to” hay “in order to” đều có
He tome here in ode, to help me mối quan hệ phụ thuộc với ngữ dong từ “giúp toi”.
6 {Anh ấy đến đây để giúp tôi.}
Bảng 2.1: Một số ví dụ về khả năng kết hợp và chức năng cú pháp của kết từ chính phụ “để” trong
tiếng Việt
lhttps://dantri.com.vn/
11
Xét về chức năng cú pháp và khả năng kết hợp thì kết từ “để” có khả năng kết hợp giống với rất nhiều kết từ khác trong tiếng Việt như dòng 1 đến 4 trong bảng 2.1. Thậm chí kết từ “để” có nghĩa
“in order to” có khả năng kết hợp và chức năng cú pháp cũng giống kết từ “để” có nghĩa “to” ở ví dụ dong 5 và 6 trong bảng 2.1. Điều này cho thấy rằng việc dành riêng nhãn từ loại “TO” để gan nhãn cho kết từ chính phụ “để” có nghĩa “in order to” có thể gay nhập nhằng cho cả người gán nhãn thủ
công lẫn các hệ thống máy học.