Quy trình gan nhãn (Annotation process)

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Xây dựng kho ngữ liệu cho bài toán phân tích cú pháp phụ thuộc tiếng Việt (Trang 35 - 39)

2.4 Kỹ thuật phát triển kho ngữ liệu

2.4.6 Quy trình gan nhãn (Annotation process)

Khong chi việc chọn lựa được những người gan nhãn có trình độ được xem trọng, ma việc giám sát

và thực hiện quá trình gán nhãn cũng đóng vai trò không thể thiếu trong mục tiêu xây dựng cây phụ

thuộc tiếng Việt chất lượng. Mỗi một công trình có các bước thực hiện gán nhãn khác nhau. Và trong

đề tài này, chúng tôi tiến hành xây dựng bản thảo hướng dẫn gán nhãn trước. Sau đó, chúng tôi vừa cập nhật tài liệu vừa tiến hành đo lường dữ liệu để đảm bảo được sự cải thiện của người làm dữ liệu

và mức độ hoàn thiện của bộ tài liệu hướng dẫn.

2.4.7 Chọn ngữ liệu

Để có thể xây dựng một bộ dữ liệu chất lượng cho cây cú pháp phụ thuộc tiếng Việt, việc ưu tiên

hàng đầu là chọn được một bộ ng

riêng cho tiếng Việt. Đối với tả

2 kho ngữ liệu thành tố tiê

cú pháp tiếng Việt: VLSP

liệu này để chọn ra kho n

thành tố VLSP[48] được xây dựng gồm 10.374

hính trị, dudes tam từ nhật báo điện tử Tuổi Tré!. Kho ngữ liệu

ớp: phân đoạn từ (WS), gán nhãn từ loại (POS tagging), và

câu về các chủ đề xa

này được gin nhãn bán

gán nhãn thành phần (bracketing). Trong giai đoạn đầu, kho ngữ liệu được sử dụng công cụ tự động

để gán nhãn cho từng lớp. Sau đó tiến hành kiểm tra và chỉnh sửa nhãn bởi annotators. Tuy nhiên,

các nghiên cứu trước đây [49, 51] đã chỉ ra rằng chất lượng của kho cú pháp thành tố VLSP[48] bao gồm chất lượng của sơ đồ chú thích, hướng dẫn chú thích và quy trình chú thích không đạt yêu cầu.

Cu thé hơn, kho ngữ liệu VLSP[48] chứa các chú thích không nhất quán và không chính xác. Trong phần này chúng tôi chỉ giới thiệu ngắn gọn về các tập nhãn được sử dụng trong kho ngữ liệu thành

tố VLSP|48] (bảng 2.2, 2.4, 2.3, 2.5).

2.4.7.2 Kho cú pháp thành tổ NITVTB[50]

NIIVTB[50] là kho ngữ liệu thành tố tiếng Việt bao gồm 20.588 câu được chia thành hai tập con, NIIVTB-1 (10.431 câu) và NIIVTB-2 (10.157 câu). Kho ngữ liệu này được gấn nhãn hoàn toàn thủ

công cho 3 lớp: phân đoạn từ (WS - word segmantation), gắn nhãn từ loại (POS - part-of-speech tagging) và gán nhãn thành phần (bracketing). Thông tin về các tập nhãn trong kho NHVTB47]

†https://tuoitre.vn/

21

Bảng 2.2: Tập nhãn từ loại trong VLSP[48]

STT Tag Chú thích

1 N Danh từ

2 Np Danh từ riêng

3 Ne Danh từ chi loại

4 Nu Danh từ đơn vị

5 V Động từ

6 A Tinh từ

7 P Dai từ

8 L Dinh từ

9 M Số từ

10 R Phụ từ

11 E Giới từ

12 Cc Liên từ

13 I Than từ

14 T Trợ từ, tiểu từ, từ tình thái

15 U Từ đơn lẻ

16 Y Từ viết tắt

17 X Các từ không phân loại được

(© Œœ —I Ơ CC Có hộ

Oi về thời gian, nơi chốn,...

an mệnh đề trong VLSP[48]

STT Chú thích

1 5 Câu trần thuật (khẳng định hoặc phủ định)

2 SQ Cau hoi

3 SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, dong từ, va tính từ)

4 S-EXC Cau cảm than

5 S-CMD Câu mệnh lệnh

Bảng 2.5: Tập nhãn chức năng trong VLSP|48]

STT Tag Chú thích

1 SUB Nhãn chức năng chủ ngữ

2 DOB Nhãn chức năng tân ngữ trực tiếp

3 IOB Nhãn chức năng tân ngữ gián tiếp

4 TPC Nhãn chức năng chủ dé

5 PRD Nhãn chức năng vị ngữ không phải cụm động từ

6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động

7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của hành động

8 H Nhan phan tit trung tam

9-12 TC, CMD, EXC, SPL Nhãn phan loại câu: đề-thuyết, mệnh lệnh, cảm than, đặc biệt

13 TTL Tiéu dé

14 VOC Thanh phan than goi

22

Bảng 2.6: Tập nhãn phần tử rỗng trong VLSP/[48]

STT Tag Chú thích

1 *T* Nhãn phần tử rỗng (lưu vết trong phạm vi câu)

2 *E* Nhãn phần tử rỗng ứng với hiện tượng tỉnh lược

3 *0*... Nhãn phan tử rỗng ở vị trí tác tử phụ ngữ hóa

được sử dụng trong phương pháp chuyển đổi của chúng tôi được mô tả kỹ lưỡng trong tài liệu hướng dẫn gán nhãn của Quý và cộng sự[50]. Trong phần này, chúng tôi chỉ giới thiệu sơ nét về các tập nhãn

đó trong bang 2.7, 2.8, 2.9, và 2.10.

Bang 2.7: Tập nhãn từ loại trong NIIVTB[50]

STT POS Chú thích STT POS Chú thích

tag tag

1 Sv Yếu tô Hán-Việt 18 Vcp Từ so sánh

2 Ne Danh tit chi loai 19 Vw Động từ thường

3 Nẹes Danh từ chỉ loại đặc biệt 20 An Số thứ tự

4 Nu Danh tit chi don vi 21 Aa Tinh từ thường

5 Nun Danh từ chỉ đơn vị đặc biệt 2 Pd Dại từ chỉ định

6 Nw iL ela 6 Dai từ khác

7 Num Tro từ

8 Nq idi từ hoặc liên từ

9 Nr từ khác

10 Nt ù di gi Ti tượng thanh

11 Nn ong anh ngữ

12 OV i ấn từ

13 Vi từ bổ nghĩa

14 D Từ nước ngoài

15 Tw khong xác định

Dau cau

RR nom

phan cú pháp trong NIIVTB[50]

Chú thích

1 NP Ngữ danh từ

2 QP Cụm từ chỉ số lượng

3 VP Ngữ động từ

4 ADJP Ngữ tinh từ

5 PP Ngữ giới từ

6 RP Ngữ trợ từ

ĩ CONJP_ Ngữ liên từ

8 UCP Liên ngữ

9 QNP Ngữ danh từ nghỉ vấn

10 QRP Ngữ trợ từ nghi vấn

11 QPP Ngữ giới từ nghi vấn

12 QADJP Ngữ tinh từ nghi vấn

13 MDP Cụm từ chỉ tình thái

14 5 Câu tường thuật đơn/ghép

15 SQ Cau hỏi

16 SPL Câu đặc biệt

17 SBAR Mệnh đề phụ kết

18 XP Cụm từ không xác định

So với lược đồ chú thích của VSLP|48] thì lược đồ của NIIVTB[50] sử dụng các tập nhãn phong

23

Bang 2.9: Tập nhãn chức năng trong NIIVTB[50]

STT Tag Chú thích STT Tag Chú thích

1 H Nhãn phần tử trung tâm 12 TMP_ Nhãn thời gian

2 SBJ Nhãn chủ ngữ 13 LOC Nhan địa điểm

3 LGS Nhãn chủ ngữ logic của câu 14 MNR_ Nhãn trạng ngữ chỉ cách thức

4 PRD Nhãn vị ngữ không phải ngữ động từ lỗ PRP Câu nguyên nhân hoặc mục đích

5 DOB_ Nhãn tân ngữ trực tiếp 16 CND Câu điều kiện

6 IOB Nhãn tân ngữ gián tiếp 17 CNC Cau đề-thuyết

7 CMP Nhãn bổ ngữ 18 ADV Nhãn trạng ngữ

8 TPC Nhãn chủ dé 19 HLN Chủ đề

9 MDP_ Thành phần tình thái 20 TTL Tiêu đề

10 VOC_ Thành phần than gọi 21 EXC Câu cảm thán

11 PRN Thanh phần bổ sung thông tin 2 CMD_ Câu mệnh lệnh

Bảng 2.10: Nhãn phần tử rỗng trong NITVTB[50]

STT Tag Chú thích

*T* Phần tử rỗng lưu vết của cụm từ chuyển động

*E* Phần tử rỗng ứng với hiện tượng tỉnh lược không lưu vết cho ngữ

* Phần tử rỗng ứng với hiện tượng tỉnh lược có lưu vết cho ngữ

*O* Phan tử rỗng ở vị trí bổ ngữ

*p* Phần tử rỗng ở vị trí động t

*H* Phần tử rỗng ứng với hig Ốc có ng tâm

*D* Phần tử rỗng ứng vi é

~I G CC Gò hộ BÍ

phú hơn và đồng thời giải

hơn, chỉ có 20 nhãn từ loạ

NIIVTB[50] đề xuất 33 nh ù é of chofac từ gây nhập nhằng. Như trong bảng 2.11 thể hiện mộ hú ta nên gan các nhãn POS khác nhau vi

Z Nhãn từ loại STT Chức năng cú pháp

NIIVTB | VLSP

1 Toi /à quần áo rất nhanh- a” có thể kết hợp với thành phần modifier hoặc tân ngữ trực tiếp. Vv V

2 Tôi là học sinh. Động từ copula "là" thể hiện sự tương đương giữa 2 thực thể. Ve V

3 Nhà ấy rất giàu. Từ "ấy" là dai tit chỉ định bổ nghĩa cho danh từ "nha". Pd P

4 Ấy đang làm gì vậy? Từ "Ấy" có chức năng là đại từ nhân xưng. Pp P

Bảng 2.11: Ví dụ về từ nhiều nghĩa trong tiếng Việt.

Trong bang 2.11 đưa ra 2 cặp câu ví dụ với cùng 1 từ nhưng chức năng cú pháp và ngữ nghĩa của

từ đó khác nhau. Như cặp câu số 1 và 2, cũng là động từ “Ja” làm thành phần trung tâm ngữ nghĩa

chính của câu nhưng trong câu số 1 động từ “la” chỉ hành dong “ti” và nó có thể kết hợp với một

tân ngữ trực tiếp hoặc một thành phần modifier. Trong khi đó, ở câu số 2 động từ “là” này được gọi

là động từ đồng dạng (copula verb) và bắt buộc phải có thành phần bổ nghĩa phía sau thì câu mới

có ý nghĩa. Chính vì sự khác nhau đó mà kho NIIVTB[50] đã đề xuất 2 loại nhãn khác nhau là Vu

và Ve để có thể phân biệt chức năng cú pháp và khả năng kết hợp của từ đó trong các trường hợp khác nhau. Thế nhưng kho VLSP[48] lại sử dung cùng 1 nhãn là V nên không thể phân biệt được các trường hợp khác biệt cho cùng 1 từ và có thể dẫn đến việc gán nhãn phụ thuộc sai cho công cụ chuyển đổi.

24

Tương tự như vậy với các tập nhãn khác, NITVTB[50] đã đề xuất thêm nhãn mới cho các đặc trưng riêng của tiếng Việt. Đồng thời trong quá trình gán nhãn thủ công, Quý và cộng sự[ð0| đã đưa ra các quy tắc nhằm giải quyết những hiện tượng gây nhập nhằng trong tiếng Việt được đề cập chỉ tiết trong các tài liệu hướng dẫn gán nhãn. Thêm vào đó chất lượng của sơ đồ chú thích, hướng dẫn chú thích và quy trình chú thích của NIIVTB[50] đều được đảm bảo với độ chính xác hơn 90%. Chính vì vậy chúng tôi thống nhất chọn kho ngữ liệu thành tố NITVTB[50] để làm dữ liệu cho bài toán phân tích cú pháp phụ thuộc tiếng Việt.

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Xây dựng kho ngữ liệu cho bài toán phân tích cú pháp phụ thuộc tiếng Việt (Trang 35 - 39)

Tải bản đầy đủ (PDF)

(101 trang)