2.4 Kỹ thuật phát triển kho ngữ liệu
2.4.6 Quy trình gan nhãn (Annotation process)
Khong chi việc chọn lựa được những người gan nhãn có trình độ được xem trọng, ma việc giám sát
và thực hiện quá trình gán nhãn cũng đóng vai trò không thể thiếu trong mục tiêu xây dựng cây phụ
thuộc tiếng Việt chất lượng. Mỗi một công trình có các bước thực hiện gán nhãn khác nhau. Và trong
đề tài này, chúng tôi tiến hành xây dựng bản thảo hướng dẫn gán nhãn trước. Sau đó, chúng tôi vừa cập nhật tài liệu vừa tiến hành đo lường dữ liệu để đảm bảo được sự cải thiện của người làm dữ liệu
và mức độ hoàn thiện của bộ tài liệu hướng dẫn.
2.4.7 Chọn ngữ liệu
Để có thể xây dựng một bộ dữ liệu chất lượng cho cây cú pháp phụ thuộc tiếng Việt, việc ưu tiên
hàng đầu là chọn được một bộ ng
riêng cho tiếng Việt. Đối với tả
2 kho ngữ liệu thành tố tiê
cú pháp tiếng Việt: VLSP
liệu này để chọn ra kho n
thành tố VLSP[48] được xây dựng gồm 10.374
hính trị, dudes tam từ nhật báo điện tử Tuổi Tré!. Kho ngữ liệu
ớp: phân đoạn từ (WS), gán nhãn từ loại (POS tagging), và
câu về các chủ đề xa
này được gin nhãn bán
gán nhãn thành phần (bracketing). Trong giai đoạn đầu, kho ngữ liệu được sử dụng công cụ tự động
để gán nhãn cho từng lớp. Sau đó tiến hành kiểm tra và chỉnh sửa nhãn bởi annotators. Tuy nhiên,
các nghiên cứu trước đây [49, 51] đã chỉ ra rằng chất lượng của kho cú pháp thành tố VLSP[48] bao gồm chất lượng của sơ đồ chú thích, hướng dẫn chú thích và quy trình chú thích không đạt yêu cầu.
Cu thé hơn, kho ngữ liệu VLSP[48] chứa các chú thích không nhất quán và không chính xác. Trong phần này chúng tôi chỉ giới thiệu ngắn gọn về các tập nhãn được sử dụng trong kho ngữ liệu thành
tố VLSP|48] (bảng 2.2, 2.4, 2.3, 2.5).
2.4.7.2 Kho cú pháp thành tổ NITVTB[50]
NIIVTB[50] là kho ngữ liệu thành tố tiếng Việt bao gồm 20.588 câu được chia thành hai tập con, NIIVTB-1 (10.431 câu) và NIIVTB-2 (10.157 câu). Kho ngữ liệu này được gấn nhãn hoàn toàn thủ
công cho 3 lớp: phân đoạn từ (WS - word segmantation), gắn nhãn từ loại (POS - part-of-speech tagging) và gán nhãn thành phần (bracketing). Thông tin về các tập nhãn trong kho NHVTB47]
†https://tuoitre.vn/
21
Bảng 2.2: Tập nhãn từ loại trong VLSP[48]
STT Tag Chú thích
1 N Danh từ
2 Np Danh từ riêng
3 Ne Danh từ chi loại
4 Nu Danh từ đơn vị
5 V Động từ
6 A Tinh từ
7 P Dai từ
8 L Dinh từ
9 M Số từ
10 R Phụ từ
11 E Giới từ
12 Cc Liên từ
13 I Than từ
14 T Trợ từ, tiểu từ, từ tình thái
15 U Từ đơn lẻ
16 Y Từ viết tắt
17 X Các từ không phân loại được
(© Œœ —I Ơ CC Có hộ
Oi về thời gian, nơi chốn,...
an mệnh đề trong VLSP[48]
STT Chú thích
1 5 Câu trần thuật (khẳng định hoặc phủ định)
2 SQ Cau hoi
3 SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, dong từ, va tính từ)
4 S-EXC Cau cảm than
5 S-CMD Câu mệnh lệnh
Bảng 2.5: Tập nhãn chức năng trong VLSP|48]
STT Tag Chú thích
1 SUB Nhãn chức năng chủ ngữ
2 DOB Nhãn chức năng tân ngữ trực tiếp
3 IOB Nhãn chức năng tân ngữ gián tiếp
4 TPC Nhãn chức năng chủ dé
5 PRD Nhãn chức năng vị ngữ không phải cụm động từ
6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động
7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động
8 H Nhan phan tit trung tam
9-12 TC, CMD, EXC, SPL Nhãn phan loại câu: đề-thuyết, mệnh lệnh, cảm than, đặc biệt
13 TTL Tiéu dé
14 VOC Thanh phan than goi
22
Bảng 2.6: Tập nhãn phần tử rỗng trong VLSP/[48]
STT Tag Chú thích
1 *T* Nhãn phần tử rỗng (lưu vết trong phạm vi câu)
2 *E* Nhãn phần tử rỗng ứng với hiện tượng tỉnh lược
3 *0*... Nhãn phan tử rỗng ở vị trí tác tử phụ ngữ hóa
được sử dụng trong phương pháp chuyển đổi của chúng tôi được mô tả kỹ lưỡng trong tài liệu hướng dẫn gán nhãn của Quý và cộng sự[50]. Trong phần này, chúng tôi chỉ giới thiệu sơ nét về các tập nhãn
đó trong bang 2.7, 2.8, 2.9, và 2.10.
Bang 2.7: Tập nhãn từ loại trong NIIVTB[50]
STT POS Chú thích STT POS Chú thích
tag tag
1 Sv Yếu tô Hán-Việt 18 Vcp Từ so sánh
2 Ne Danh tit chi loai 19 Vw Động từ thường
3 Nẹes Danh từ chỉ loại đặc biệt 20 An Số thứ tự
4 Nu Danh tit chi don vi 21 Aa Tinh từ thường
5 Nun Danh từ chỉ đơn vị đặc biệt 2 Pd Dại từ chỉ định
6 Nw iL ela 6 Dai từ khác
7 Num Tro từ
8 Nq idi từ hoặc liên từ
9 Nr từ khác
10 Nt ù di gi Ti tượng thanh
11 Nn ong anh ngữ
12 OV i ấn từ
13 Vi từ bổ nghĩa
14 D Từ nước ngoài
15 Tw khong xác định
Dau cau
RR nom
phan cú pháp trong NIIVTB[50]
Chú thích
1 NP Ngữ danh từ
2 QP Cụm từ chỉ số lượng
3 VP Ngữ động từ
4 ADJP Ngữ tinh từ
5 PP Ngữ giới từ
6 RP Ngữ trợ từ
ĩ CONJP_ Ngữ liên từ
8 UCP Liên ngữ
9 QNP Ngữ danh từ nghỉ vấn
10 QRP Ngữ trợ từ nghi vấn
11 QPP Ngữ giới từ nghi vấn
12 QADJP Ngữ tinh từ nghi vấn
13 MDP Cụm từ chỉ tình thái
14 5 Câu tường thuật đơn/ghép
15 SQ Cau hỏi
16 SPL Câu đặc biệt
17 SBAR Mệnh đề phụ kết
18 XP Cụm từ không xác định
So với lược đồ chú thích của VSLP|48] thì lược đồ của NIIVTB[50] sử dụng các tập nhãn phong
23
Bang 2.9: Tập nhãn chức năng trong NIIVTB[50]
STT Tag Chú thích STT Tag Chú thích
1 H Nhãn phần tử trung tâm 12 TMP_ Nhãn thời gian
2 SBJ Nhãn chủ ngữ 13 LOC Nhan địa điểm
3 LGS Nhãn chủ ngữ logic của câu 14 MNR_ Nhãn trạng ngữ chỉ cách thức
4 PRD Nhãn vị ngữ không phải ngữ động từ lỗ PRP Câu nguyên nhân hoặc mục đích
5 DOB_ Nhãn tân ngữ trực tiếp 16 CND Câu điều kiện
6 IOB Nhãn tân ngữ gián tiếp 17 CNC Cau đề-thuyết
7 CMP Nhãn bổ ngữ 18 ADV Nhãn trạng ngữ
8 TPC Nhãn chủ dé 19 HLN Chủ đề
9 MDP_ Thành phần tình thái 20 TTL Tiêu đề
10 VOC_ Thành phần than gọi 21 EXC Câu cảm thán
11 PRN Thanh phần bổ sung thông tin 2 CMD_ Câu mệnh lệnh
Bảng 2.10: Nhãn phần tử rỗng trong NITVTB[50]
STT Tag Chú thích
*T* Phần tử rỗng lưu vết của cụm từ chuyển động
*E* Phần tử rỗng ứng với hiện tượng tỉnh lược không lưu vết cho ngữ
* Phần tử rỗng ứng với hiện tượng tỉnh lược có lưu vết cho ngữ
*O* Phan tử rỗng ở vị trí bổ ngữ
*p* Phần tử rỗng ở vị trí động t
*H* Phần tử rỗng ứng với hig Ốc có ng tâm
*D* Phần tử rỗng ứng vi é
~I G CC Gò hộ BÍ
phú hơn và đồng thời giải
hơn, chỉ có 20 nhãn từ loạ
NIIVTB[50] đề xuất 33 nh ù é of chofac từ gây nhập nhằng. Như trong bảng 2.11 thể hiện mộ hú ta nên gan các nhãn POS khác nhau vi
Z Nhãn từ loại STT Chức năng cú pháp
NIIVTB | VLSP
1 Toi /à quần áo rất nhanh- a” có thể kết hợp với thành phần modifier hoặc tân ngữ trực tiếp. Vv V
2 Tôi là học sinh. Động từ copula "là" thể hiện sự tương đương giữa 2 thực thể. Ve V
3 Nhà ấy rất giàu. Từ "ấy" là dai tit chỉ định bổ nghĩa cho danh từ "nha". Pd P
4 Ấy đang làm gì vậy? Từ "Ấy" có chức năng là đại từ nhân xưng. Pp P
Bảng 2.11: Ví dụ về từ nhiều nghĩa trong tiếng Việt.
Trong bang 2.11 đưa ra 2 cặp câu ví dụ với cùng 1 từ nhưng chức năng cú pháp và ngữ nghĩa của
từ đó khác nhau. Như cặp câu số 1 và 2, cũng là động từ “Ja” làm thành phần trung tâm ngữ nghĩa
chính của câu nhưng trong câu số 1 động từ “la” chỉ hành dong “ti” và nó có thể kết hợp với một
tân ngữ trực tiếp hoặc một thành phần modifier. Trong khi đó, ở câu số 2 động từ “là” này được gọi
là động từ đồng dạng (copula verb) và bắt buộc phải có thành phần bổ nghĩa phía sau thì câu mới
có ý nghĩa. Chính vì sự khác nhau đó mà kho NIIVTB[50] đã đề xuất 2 loại nhãn khác nhau là Vu
và Ve để có thể phân biệt chức năng cú pháp và khả năng kết hợp của từ đó trong các trường hợp khác nhau. Thế nhưng kho VLSP[48] lại sử dung cùng 1 nhãn là V nên không thể phân biệt được các trường hợp khác biệt cho cùng 1 từ và có thể dẫn đến việc gán nhãn phụ thuộc sai cho công cụ chuyển đổi.
24
Tương tự như vậy với các tập nhãn khác, NITVTB[50] đã đề xuất thêm nhãn mới cho các đặc trưng riêng của tiếng Việt. Đồng thời trong quá trình gán nhãn thủ công, Quý và cộng sự[ð0| đã đưa ra các quy tắc nhằm giải quyết những hiện tượng gây nhập nhằng trong tiếng Việt được đề cập chỉ tiết trong các tài liệu hướng dẫn gán nhãn. Thêm vào đó chất lượng của sơ đồ chú thích, hướng dẫn chú thích và quy trình chú thích của NIIVTB[50] đều được đảm bảo với độ chính xác hơn 90%. Chính vì vậy chúng tôi thống nhất chọn kho ngữ liệu thành tố NITVTB[50] để làm dữ liệu cho bài toán phân tích cú pháp phụ thuộc tiếng Việt.